openai、谷歌“掰手腕”大模型给人工智能装上“眼睛耳朵嘴巴”-产业信息-厨具导购-中华厨房电器用具批发网

中华厨具网>厨具导购> 产业信息>openai、谷歌“掰手腕”大模型给人工智能装上“眼睛耳朵嘴巴”

openai、谷歌“掰手腕”大模型给人工智能装上“眼睛耳朵嘴巴”

2024-06-07 11:10 2037 中华厨具网

央广网北京5月15日消息（记者牛谷月）北京时间15日凌晨1点，谷歌召开年度i/o开发者大会。根据谷歌官方统计，在这场110分钟演讲中，谷歌ceo桑达尔·皮查伊（sundarpichai）提及ai的次数高达121次，同时推出了一系列以ai为核心的产品和服务。而就在前一天，chatgpt的开发公司openai的首席技术官米拉·穆拉提（miramurati）进入直播室，发布了openai的春季大更新，包括桌面版本的chatgpt，以及可实时进行音频、视觉和文本推理的最新旗舰大模型gpt-4o。google新发布的“ai全家桶”，更被视作是对gpt-4o的回击和“叫板”。

人类对ai的探索如火如荼，人机交互再次大迈步，打破了传统“语音助手”的桎梏。大模型就像给ai装上了“眼睛耳朵嘴巴”，从此你的快乐伤悲它都能“体会”。未来已经来临了吗？

“读取人类情绪”——向更自然的人机交互迈进一步

在openai的春季发布会上，虽然大家没能见到gpt-5，但gpt-4o的出现仍然惊艳。据openai官网介绍，gpt-4o中的“o”代表“omni”，这是一个基于gpt-4之上的多模态大模型。

openai称，它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

值得注意的是，gpt-4o能够与用户进行多样化的语气交互，并精准捕捉到用户的情绪变化。发布会上，openai前沿研究部门主管陈信翰（markchen）让gpt-4o聆听他的呼吸，聊天机器人侦测到他急促的呼吸，并且建议他不要“像吸尘器那样呼吸”，要放慢速度。随后mark深呼吸一次，gpt-4o表示这才是正确的呼吸方式。同时，研究员巴雷特·佐夫（barretzoph）还演示了gpt-4o是如何通过前置摄像头观察用户的面部表情，分析其情绪的。

“gpt-4o不仅能够理解用户的语气，还能做到恰到好处的反应。”dcci互联网研究院院长刘兴亮感慨道，“想象一下，gpt-4o在你紧张的时候能够安慰你，让你深呼吸，甚至开个小玩笑缓解你的压力。这种情感识别能力使得人机交互变得更加自然和亲切，仿佛我们身边有了一个懂我们心情的贴心朋友。”

而在一天后的谷歌i/o开发者大会上，谷歌紧跟其后，发布了一款名为projectastra的谷歌ai助手。这款通用模型通过智能手机的摄像头捕捉并分析周围环境，还能与用户进行实时对话。在演示视频中，用户手持手机，将摄像头对准办公室的不同角落，并通过语言与系统进行交互。例如，当用户发出指令“请告诉我智能眼镜在哪里”时，astra能够迅速识别物体，并与用户进行实时的语音交流。同时，当用户看向窗外，智能助手立刻就说出了用户的详细地址：“这儿显然是伦敦的国王十字路口区域。”它也可以理解绘画和图像，如可以对一个写在白板上的系统流程图给出意见“在服务器和数据库间添加缓存可以提高速度”。

deepmind联合创始人兼首席执行官德米斯·哈萨比斯（demishassabis）称，projectastra是自己期待了几十年的ai助手的雏形，是通用ai的未来，“ai个人助理可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。”

刘兴亮指出：“虽然openai的gpt-4o在自然语言处理能力上表现强大，但谷歌在多模态理解、数据丰富性和开发者支持方面也展现了强劲的竞争力。两者在各自擅长的领域均有显著优势，并不断推动人工智能技术的发展。”

快速响应！——接近人类对话时的响应时间

从“你的快乐伤悲它能体会”到“你的快乐伤悲它能体会并给出及时回应”，人工智能大模型的响应时间的缩短让人机交互更加丝滑。

在openai发布会上，人们见到了gpt-4o更快的响应速度：能够在短至232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的反应速度几乎一致。“我们可以说gpt-4o是ai界的‘闪电侠’，速度快到令人发指。”刘兴亮分析，“相比之下，传统语音助手如siri、alexa以及各种‘同学们’在处理语音输入时，需要经过繁琐的音频转文本再转回音频的过程。而gpt-4o通过端到端的训练，直接处理所有输入和输出，实现了真正的毫秒级响应。”

记者了解到，在gpt-4o之前，使用chatgpt的语音模式时，需要多个模型的接力处理：先将音频转换为文本，再进行“输入并输出文本”的处理，最后再将文本转换回音频。这种处理方式常导致信息的大量丢失，例如无法捕捉到语调、识别多个说话者或背景噪音，也无法生成笑声、歌唱或其他情感表达。而gpt-4o是openai的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型，实现了所有输入和输出的处理都由同一个神经网络完成。

360集团创始人、董事长周鸿祎在其发表的视频中感慨：“这就带来了一个全新的体验，时延大概只有300毫秒左右，达到了人类和人类谈话的响应速度，这样不仅能听得懂你话里的情绪，在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”

国泰君安15日研报表示，gpt-4o作为基础性工具为更多创新应用提供了生长土壤。研报认为，对图像和视频的理解和高效的实时互动，一定程度对其他单一功能的ai软件有替代的可能性，gptstore有望推出更多便捷应用，丰富应用商城生态。同时随着gpt在桌面端和移动端的持续渗透，ai助理应用有望更快普及，新型商业模式或将逐步推出。

来源：央广网

以上是网络信息转载，信息真实性自行斟酌。

下一篇：中美举行人工智能政府间对话首次会议
上一篇： ai大模型正在加速上车，全面赋能汽车行业

相关导购

更多导购

银都冰箱银都二门平台冷冻柜
2025-03-189722
hecmac制冰机hic-36-acb海克冰块机海克冰块机
2025-03-18918
伸缩保温灯单头挂式保温灯自助餐升降食物保温灯产品介绍
2024-09-188502
银都冰箱银都二门平台冷藏柜直冷1.8米长700宽操作台铜管保鲜冰箱
2024-09-182219
杰冠燃气烧烤炉烧烤炉 gb-580燃气无烟烧烤炉图片及产品介绍
2024-09-189872
伸缩保温灯单头挂式保温灯自助餐升降食物保温灯产品介绍
2024-08-271226
感恩有你！火星人“收官之战”完美收官！(千科集成灶是几线品牌)
2024-07-0110082
爱尔卡集成厨电：听说有99%的父母都忽略了厨房教育(集成灶由什么组成)
2024-07-012043
火星一号集成灶感恩节分享(火星人集成灶广告词)
2024-07-016829
普森集成灶终端服务督察千里行(集成灶十大品牌排名有哪些)
2024-07-019626

版权/免责声明：
一、本文图片及内容来自网络，不代表本站的观点和立场，如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布，本网转载出于传递更多信息的目的；如转载稿涉及版权问题，请作者联系我们，同时对于用户评论等信息，本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源：中华厨具网

免责声明：

本站所有页面所展现的企业/商品/服务内容、商标、费用、流程、详情等信息内容均由免费注册用户自行发布或由企业经营者自行提供，可能存在所发布的信息并未获得企业所有人授权、或信息不准确、不完整的情况；本网站仅为免费注册用户提供信息发布渠道，虽严格审核把关，但无法完全排除差错或疏漏，因此，本网站不对其发布信息的真实性、准确性和合法性负责。本网站郑重声明：对网站展现内容（信息的真实性、准确性、合法性）不承担任何法律责任。

温馨提醒：中华厨具网提醒您部分企业可能不开放加盟/投资开店，请您在加盟/投资前直接与该企业核实、确认，并以企业最终确认的为准。对于您从本网站或本网站的任何有关服务所获得的资讯、内容或广告，以及您接受或信赖任何信息所产生之风险，本网站不承担任何责任，您应自行审核风险并谨防受骗。

中华厨具网对任何使用或提供本网站信息的商业活动及其风险不承担任何责任。

中华厨具网存在海量企业及店铺入驻，本网站虽严格审核把关，但无法完全排除差错或疏漏。如您发现页面有任何违法/侵权、错误信息或任何其他问题，请立即向中华厨具网举报并提供有效线索，我们将根据提供举报证据的材料及时处理或移除侵权或违法信息。