分享好友 厨具导购网站首页 频道列表
alexa语音王国迅速扩张的今天,它最大的挑战是什么?
2024-06-26 08:16    3442    中华厨具网

导读:从1990年代开始,george anders就在关注亚马逊,他为美国刊物写了许多与亚马逊有关的文章。最近他出了一本书《你可以做任何事》( you can do anything)。 george anders刊文介绍了alexa,既谈到了alexa的发展,也谈到了它的挑战。通过这篇文章,我们可以看到一个不同的alexa王国。下面是文章的节选,有缩减:

2012年8月31日,4名亚马逊工程师提交一份专利申请文件,它最终变成了alexa,这是一套ai系统,它可以处理世界上最大、最复杂的数据集:人类语音。

工程师只需要11个单词、一张简单的图表就可以解释它是如何运行的。一名男用户在安静的房间说:“请播放《let it be》,披头士的音乐。”一台小小的桌面机器回答说:“没问题,john。”然后它开始播放指定歌曲。

自此之后,面向家庭的语音ai成为亚马逊的大业务,对于竞争对手而言,它也渐渐成为重要的战略战场。谷歌、苹果、三星、微软都投入了成千上万的研究人员和业务专家,它们都想开发容易使用的设备,让我们与设备对话。

witlingo公司开发语音app,为银行、大学、律师事务所及其它机构开发,witlingo的ceo ahmed bouzid认为:“到目前为止,我们所有人必须屈从于技术,比如输入、触击、滑动。现在新用户界面却屈服于我们。”

自2014年推出以来,alexa设备销售了几千万台。在美国语音ai设备市场,亚马逊估计占了总销量的70%,虽然竞争压力越来越大。谷歌home也卖了几百万台,苹果与微软很快也会推出自己的产品。

最终,企业的目标是抓住3个市场机会:家庭自动化,家庭娱乐,购物。

就目前来说,亚马逊无意从制造设备的企业手中获得收入,也就是制造智能恒温器、灯泡、其它alexa联网设备的企业。未来,我们可以想像亚马逊会与企业达成营收分成协议,或者选择其它付费方式。

在这3个市场中最小的是家庭自动化市场,每年开支超过50亿美元,去年美国的零售销售额总计约为4.9万亿美元。眼下亚马逊通过销售机器赚钱,定价介于50-230美元,最低端的dots只要50美元,高端的echos要230美元,上面有视频显示屏。

有些企业正在开发硬件、开发服务,这些硬件与服务兼容alexa。例如capital one,它向银行客户销售alexa支付系统;多伦多ecobee制造alexa智能恒温器,用户只需要说几个单词就可以调高或者调低房间温度。

ecobee ceo stuart lombard说:“我们的客户生活很忙碌。”现在该公司销售alexa设备有40%的营收来自海外,ecobee成立已经10年,alexa设备是公司增长最快的产品线。

stuart lombard还说:“客户必须穿过繁忙的交通车流回到家里,他们必须喂孩子,必须给孩子换尿布,还要干其它各种事。我们让他们将事情做完,不需要用到手,他们可以用手干其它事。”

当语音遇到ai

语音ai面临很大的技术挑战,因为我们说话时并不是井然有序的,我们会干扰自己,想法会动摇,我们使用单词的方式很奇怪,还会点头,发出咕哝声,我们会假设自己的话是有意义的,实际上没有。

几千名亚马逊员工正在解决这个问题,包括西雅图、sunnyvale、加州、剑桥、马萨诸塞的研究中心。尽管如此,亚马逊还嫌不够,最近它为1100多个alexa职位招募员工,涉及到十多个部门,当中有215个职位提供给机器学习专家。在剑桥办公室内,alexa首席科学家罗希特·普拉萨德(rohit prasad)接受了媒体采访,他解释了自己的团队为何需要这么多人。

普拉萨德说:“你提问的每一个方面都让我发笑。”沉思几秒之后,普拉萨德解释说,他在语音技术方面研究了20年,在这段漫长岁月的大多数时间里,进展缓慢让他感到沮丧。但在过去5年里巨大的机会开放了。创造一个真实高效的语音ai是一项复杂的、从未被征服的任务。

在过去的岁月里,语音科学家一直想解决一件事,理解混乱表达的意义,最开始时表达有些混乱,很难搞清表达的意思,有了机器学习这样的新方法,我们用不同的策略取得进步,最开始时匹配是不完美的,机器人从不完美着手,然后通过临时猜测不断优化。

关键在于消化大量的数据,从早期的错误中学习。alexa与用户相处的时间越多,收集的数据也就越多,可以学习的数据也就越多,也就会变得越聪明。进步越大机会越大,这个过程需要大量的人力。

这就是普拉萨德的解释。

普拉萨德说:“让我举个例子。如果你问alexa:‘adele的第一张专辑是什么?’回答应该是‘19’。如果你说:‘播放它。’alexa足够聪明,知道播放那张专辑。”

如果你在中间加入其它一些话,如果你问alexa这张专辑是哪年发行的,卖了多少张,会怎样呢?将问题替换“播放它”这个命令,早先的alexa处理不了。现在技术可以跟着思考前进,至少某些时候是可以的,它知道“它”指的是“19”。

这是一个重要进步,进步归功于机器学习,之前 alxea也被无数的交换难住,机器学习可以从失败中学习经验。系统知道用户不想听什么歌曲,知道之前的对话最早在何时谈到这首音乐。

mit口语语言系统研究团队的主管james glass说:“人们会以何种方式要求获得一些东西,你最开始时要做出假定。然后你要收集数据,调校模型。”

glass说,这种类型的机器学习方法得到了广泛的认可,不过要让它运行需要大量数据,远不是大学研究人员轻易就能获得的。

由于alexa的崛起,亚马逊现在可以获得大量的人机语音交互信息。2016年,alexa引进一个庞大的数据库,里面全是歌曲歌词,有了这个数据库,当用户要求播放歌词中带‘drove my chevy to the levee’的歌曲时,系统知道用户要的是don mclean的歌曲《american pie》。

普拉萨德正在推行一个新项目,这个项目的关注重点就是新方法的灵活性。具体来讲就是用户撤销最初的请求时,系统要正确识别。用户使用的“信号短语”是大不相同的。一组人说:“不,不,不。”还有一组说:“取消它。”第三组人说的话类似于“等等,实际上我想要的是……”,形式有所变化。alexa没有必要破解每一种表达。有了大量的样本和半监督机器学习技术,系统可以为否定语音找到大量可能的标记,请求改变之后能挑选出明确的新请求。

为了让alexa成为更好的倾听者,亚马逊ai专家首先用大量数据训练系统,让它成为更好的说话者,他们对机器合成的女性声音进行优化,让节奏更完美,这样就可以刺激用户持续使用。

如果使用的是传统方法,一般会录制大量的人类语音片段,然后依赖片段合成语音。使用这种技术可以生成更自然的声音,但是无法低语、无法讽刺、无法调整,而人类许多时候会这样说话。

为了让alxea可以处理一切任务,既可以进行活跃的对话,也可以完成平静的朗诵,亚马逊机器学习算法采用了不同的方法,它用专业解说员的声音训练系统,这些声音有的焦急、有的充满忧虑。亚马逊旗下有一家公司audible,它是有声读物出版商,这家公司帮了大忙。

有太多想说的东西

有些人是语音ai的热心用户,那就是无法在平板手机上轻松输入的人。gavin kerr是inglis的ceo,这家公司向残疾人提供住房和服务,公司已经在8户居民的家中安装了echo和dot设备。

如果测试完成,gavin kerr希望300多位居民全能安装,这是公司的全部客户。kerr说:“它为居民带来了难以置信的好处,他们可以过得更舒适,可以获得独立性。”

kerr与几百人合作,这些人患有硬化症或者其它日渐让人衰弱的疾病。有些人卧床不起,或者坐在轮椅上,因为很难碰到墙壁上的恒温器,他们深感苦恼。

kerr解释说:“他们的身体难以适应温度。呆在华氏72度的房间内,前一小时可能会觉得太热了,后一小时又觉得太冷了。”因为移动能力受到限制,他们很难让自己过得舒服,如果没有全天候援助,他们会过得更困难。

稍加修改,alexa软件可以用特定语音提供服务。有一名男子,快40岁了,他想离开长期看护机构,回到日常社区生活。kerr回忆说:“他告诉我:‘我没有办法使用alexa语音命令。’我问他:‘你能说什么?’然后我们就修改了软件,可以让他按自己的方式用语音控制设备。现在他如果要打开厨房灯泡会说‘mom’,如果想打开浴室灯会说‘john’。”

inglis为自己的echo用户提供培训,时间只有4小时,许多新用户会进一步探索。从盒子里拿出echo,包装会告诉用户一些常见的操作指令,比如播放音乐、设置闹钟、更新购物清单。

用户可以在智能手机、平板上调用alexa控制面板,调整设置,还可以下载新app,面板还会引导用户,看看哪种提示音能让app的工作变得更好。

每周(有时频率更高)alexa总经理罗勃·普契尼(rob pulciani)都会查看统计数据,这些数据可以告诉他alexa、dot用户最常用的表达是怎样的。一般来说,清单中排名靠前的表达都是想获得音乐、新闻、天气信息、交通信息、游戏。今年春天,有一个请求迅速爬升,这是一个短语:“alexa,帮我放松一下。”

当用户提出这样的请求时,系统会播放一些声音安抚用户。可能是鸟叫,可能是波浪轻敲海滨,可能是货运车穿过黑夜。如果用户愿意,这些噪音式的环境声会连续播放几小时。

2015年,当类似的app出现在alexa平台时,普契尼觉得纯粹只是搞怪。不过这些app很快就吸引了一大堆用户。压力大的成年人听着这些声音入睡,父母将它们当成摇篮曲,安抚古怪的婴儿。发现这一趋势之后没过几周,普契尼就与同事对alexa的内容架构进行调整,这样一来当新用户问系统有什么新“技能”可以尝试时,他们能够快速找到让人放松的声音。

持续对话

谷歌、苹果、微软、亚马逊的ai平台有着不同的优势。谷歌助手在搜索指令方面表现最好。苹果siri和微软cortana有其它一些优点。至于alexa,它的购物指令特别出色。

如果语音ai想获得最终胜利,必须与用户进行交流,这种交流长达几分钟,非常真实。任务艰巨,机器的能力必须很强大,能够判断人类说话者的意图,甚至能够识别不明显的请求。

当朋友说:“我几周没有去健身房了。”人类知道他的意思可能是想谈谈压力或者自尊。对于ai软件而言,这种意图很难明白。突然转换话题,ai也很难跟得上节奏。

为了与下一代ai、语音研究人员建立更强的联系,一年前亚马逊邀请几十所大学的工程学学生开发语音机器人,亚马逊要求机器人可以完成20分钟的对话。在11月截止日期之前突破最大的学校将会拿到50万美元奖金。

我花了一周时间对将近5款机器人程序进行测试,每一次都从简单的问题开始,然后进入巧妙的开放式陈述,陈述的只是观点,回应有很多的可能性。开始时还是不错的,机器会问你:“看了最近上映的电影吗?”我说:“看了。我们看了 《隐藏人物》(hidden figures)。”

这部电影讲述的是nasa成立之初的故事,接下来,聊天机器人模仿报纸对电影发表评论,它说:“我认为在实际数学方面《隐藏人物》有点浅薄。”我对这部电影没有这样的感觉,看起来这样表述对于ai程序而言还是很不错的。很快对话就进行不下去了,不过至少还有之前刹那的美妙时光。

可惜,没有一款聊天机器人程序能够完成任务。最让人困惑的是机器会说:“你喜欢路边餐饮吗?”而测试时我们谈的却是网站。

几天后,我问普拉萨德,让他谈谈对社交机器人的看法,早期的失败没有困扰他。普拉萨德说:“这是一个超级重要的领域。如果达到这样的水平,那么alexa将是非常聪明的。要达到很难,比围棋或者国际象棋难。在这些游戏中虽然可能性的棋步很多,但是我们知道最终目标是什么。如果是对话,你不知道对方想达成怎样的目的。”如果alexa能够解决这个问题,我们就可以与它真正对话了。

转载:中国机器人网(原始来源:评论:0)

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

免责声明:

本站所有页面所展现的企业/商品/服务内容、商标、费用、流程、详情等信息内容均由免费注册用户自行发布或由企业经营者自行提供,可能存在所发布的信息并未获得企业所有人授权、或信息不准确、不完整的情况;本网站仅为免费注册用户提供信息发布渠道,虽严格审核把关,但无法完全排除差错或疏漏,因此,本网站不对其发布信息的真实性、准确性和合法性负责。 本网站郑重声明:对网站展现内容(信息的真实性、准确性、合法性)不承担任何法律责任。

温馨提醒:中华厨具网提醒您部分企业可能不开放加盟/投资开店,请您在加盟/投资前直接与该企业核实、确认,并以企业最终确认的为准。对于您从本网站或本网站的任何有关服务所获得的资讯、内容或广告,以及您接受或信赖任何信息所产生之风险,本网站不承担任何责任,您应自行审核风险并谨防受骗。

中华厨具网对任何使用或提供本网站信息的商业活动及其风险不承担任何责任。

中华厨具网存在海量企业及店铺入驻,本网站虽严格审核把关,但无法完全排除差错或疏漏。如您发现页面有任何违法/侵权、错误信息或任何其他问题,请立即向中华厨具网举报并提供有效线索,我们将根据提供举报证据的材料及时处理或移除侵权或违法信息。