分享好友 厨具导购网站首页 频道列表
战斗民族如何战胜谷歌,在人工智能领域取得一席之地?
2025-08-06 08:32    9100    中华厨具网

谷歌、百度、微软、facebook、阿里……我们介绍过很多中美在人工智能领域技术和商业化方面的进展,包括印度、以色列等等地区也出现过不少创业团队。

可这里面似乎没有战斗民族俄罗斯什么事。按理说,俄罗斯有在冷战时代遗留下来的大量科技人才储备,国家对数学、计算机等学科的基础教育也足够重视,强大的黑客团队展示了俄罗斯人资技术上能达到的种种可能。而且天寒地冻的气候,好像也挺适合在家宅着撸代码的。

放眼俄罗斯、甚至整个东欧地区,在人工智能领域最活跃的可能就是yandex了。

yandex:把搜索引擎当做技术发展的根本

yandex是谁?大多数人第一反应是俄罗斯的“百度”。

没错,在1990年,来自莫斯科大学的两位校友阿卡季·弗洛日和阿卡季·勃可夫斯基共同创建了俄罗斯自己的搜索引擎yandex。“yandex”一词俄语含义是“языковой index”(语言索引),是英语单词“yet another indexer”的缩写。意味“另一种搜索引擎”。从名字就能感受到两位创始人对英语世界的反抗。

建立了搜索引擎后,yandex逐渐开始发展为一家全能型的互联网公司:建立门户网站、创立电商平台、与联邦储蓄银行sberbank合作推广线上支付、代理来自中国的4399小游戏、推出打车平台……基本你能想到的风口,yandex都没错过。

和谷歌、百度一样,搜索引擎成了yandex收集语料数据、着手机器学习技术发展的根本。

战斗民族在人工智能上发展如何?

yandex在机器学习方面都做了什么?

首先,是时下最火的无人驾驶。据称yandex正在着手研发无人驾驶需要的计算机视觉、语音识别等等相关的技术。目前yandex选择了丰田普锐斯作为原型车,加上英伟达的芯片、velodyne的雷达传感器,目标向l5级的无人驾驶冲击。

几个月以前,yandex还晒出了旗下无人驾驶车的场地测试视频,视频中无人车的表现中规中矩,虽然实现了在无人控制的情况下缓慢驾驶,但也会有难以越过障碍、躲避行人不及时等情况。

yandex为自己定下了目标,明年要让丰田普锐斯上公共道路测试,同时还和卡车制造商kamaz、daimler达成合作,计划推出无人驾驶的迷你公交车。坦白讲,yandex对于自身无人驾驶技术的披露相当少,俄罗斯本土是否有无人驾驶必备的高精地图也不得而知,俄罗斯的无人驾驶究竟会发展成什么样,目前很难下个定论。

除了无人驾驶,yandex还“有样学样”的推出了语音助手alice,以此展示自己的语音识别技术。和siri、谷歌语音助手一样,alice可以帮助用户连接出行、购物、支付、新闻、音乐等等服务。

yandex还给alice加上了基于神经网络的聊天引擎,让alice可以在社交网络上学习他人的言论,这一技术的确较为先进。在测试中,alice甚至还学会了一些政治、暴力方面的不当言论,不过在问题曝光后,这些言论很快被技术和谐了。

除了这些以外,yandex还开源了机器学习框架catboost、推出了深度神经网络搜索引擎等等。

分词技术:本土搜索引擎的神器

我们想了解到的是,yandex是如何战胜谷歌搜索,还在自然语言方面取得了相对前沿的进展。答案或许是因为yandex独有的分词技术。

所谓分词技术,其实是中文搜索引擎中的技术。即搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

比如在搜索引擎中搜“不知道你在说什么”,就可能分成“不,知道,你,在,说什么”和“不知道,你,在,说什么”等等很多种分法,再到数据库中进行索引。

如何确定分词的方式有很多种,比如正向最大匹配法,按照中文阅读习惯,从左向右分词;又比如最短路径分词法,把一段话切出的词数最少等等。这些只是比较传统的方法,现在还可以利用nlp技术,从语义理解上进行分词;利用邻近算法,看哪些相邻字符出现的频率最多,就按照这样的方式进行分词。

如何战胜谷歌?语言壁垒是关键

同样的概念,在yandex的搜索引擎技术中也存在,只不过不叫分词技术,叫“морфология”这个词可以被理解为“词形”。

这就要谈到了俄语这门语言的特殊性,和中文、英语不同,俄语中词与词之间的关系通常用词形变化表示,于是,同一个名词可以有12个形式,形容词甚至能达到20、30个形式……所以,俄语中会有动名词、形名词这些奇怪的东西。

于是,因为俄语的特性,在搜索中非常容易引起歧义,对搜索的精度要求也更高。比如машиностроительный这个词,在俄语中意为“机械的”。在谷歌搜索中,可以找到与之完全匹配的网页,却很难找到有关机械形容词剩下的二十多个词形变化的网页。

而yandex搜索引擎技术擅长的,恰恰就是关键词的多义分析和查找。也形成了一些yandex独有的搜索方式,比如加上“”即可只搜索指定单词,不搜索变形词,也利用指令只搜索形容词形态、动词形态等等。

俄语属于斯拉夫语族内的东斯拉夫语支,也就是说白俄罗斯语、乌克兰语甚至捷克、波兰等等地方的语言都会都类似的语法形态。而yandex的分词技术在这些语言中的表现也很出色。

凭借着语言优势上的独有技术,yandex战胜了谷歌成为了俄罗斯本土最大的搜索引擎。而大量用户使用累积的数据,更让yandex可以发展机器学习技术对算法进行进一步优化。放到整个nlp技术里也是一样,难怪yandex可以在语音识别上获得不小的进展。

机器学习给了这个世界一个相对平等的机会,就算技术、资金相对落后,语言上的优势仍然可以树立起壁垒,更别提语料数据这一宝贵的数据。有yandex的案例在先,是不是意味着那些基于泰语、印度语、阿拉伯语等等小语种的搜索引擎,也会在人工智能领域有着独有的优势?

看来除了中美之外,我们还可以把眼光放到更远的地方。

转载:中国机器人网(原始来源:评论:0)

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

免责声明:

本站所有页面所展现的企业/商品/服务内容、商标、费用、流程、详情等信息内容均由免费注册用户自行发布或由企业经营者自行提供,可能存在所发布的信息并未获得企业所有人授权、或信息不准确、不完整的情况;本网站仅为免费注册用户提供信息发布渠道,虽严格审核把关,但无法完全排除差错或疏漏,因此,本网站不对其发布信息的真实性、准确性和合法性负责。 本网站郑重声明:对网站展现内容(信息的真实性、准确性、合法性)不承担任何法律责任。

温馨提醒:中华厨具网提醒您部分企业可能不开放加盟/投资开店,请您在加盟/投资前直接与该企业核实、确认,并以企业最终确认的为准。对于您从本网站或本网站的任何有关服务所获得的资讯、内容或广告,以及您接受或信赖任何信息所产生之风险,本网站不承担任何责任,您应自行审核风险并谨防受骗。

中华厨具网对任何使用或提供本网站信息的商业活动及其风险不承担任何责任。

中华厨具网存在海量企业及店铺入驻,本网站虽严格审核把关,但无法完全排除差错或疏漏。如您发现页面有任何违法/侵权、错误信息或任何其他问题,请立即向中华厨具网举报并提供有效线索,我们将根据提供举报证据的材料及时处理或移除侵权或违法信息。