分享好友 看资讯首页 频道列表
百度:用真实数据搭建机器阅读理解系统
2024-05-14 21:42    4913 来源:搜狐

7月28日,由中国中文信息学会和中国计算机学会共同发起并联合主办的第三届语言与智能高峰论坛(the 3rd language & intelligence summit)在北京召开。百度高级科学家吕雅娟应邀出席了“2018机器阅读理解技术测评竞赛”技术交流环节并进行竞赛总结,深度阐释了真实数据在机器阅读理解中的积极意义。

百度高级科学家吕雅娟作报告

2018机器阅读理解技术竞赛是由中国中文信息学会、中国计算机学会和百度公司联合举办,旨在为研究者提供学术交流平台,进一步提升机器阅读理解的研究水平,推动语言理解和人工智能领域技术和应用的发展。大赛数据显示,共有来自15个国家的1062支团队报名参加此次比赛,最终153支队伍累计提交结果次数共达1489次。其中99支队伍的成绩超过了基线系统,极大提升了机器阅读理解技术和系统的水平。

本次竞赛数据集来自百度搜索引擎真实应用场景,其中涉及的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。“此次竞赛是面向真实搜索问答场景的阅读理解比赛。机器阅读理解技术,可提升机器智能水平,并能使机器具有持续知识获取的能力。”吕雅娟在报告中表示,“百度通过提供包含30万开放领域问题、150多万互联网真实文档以及66万人工撰写答案的数据集dureader 2.0,确保了选手在比赛中得到真实问题、真实文本以及规模可观、标注丰富的数据。”值得注意的是,本次大赛的评测数据集已对大众全面开放,所有研究人员均可在百度broad平台下载使用,并能参与相关在线排行榜的测试,检验自身机器阅读理解技术能力。

获奖团队上台领奖

naturali北京奇点机智科技有限公司联合创始人兼cto、国际计算语言学协会会士(acl fellow)林德康博士在代表冠军团队进行分享时表示,“百度数据集是最好的中文阅读理解数据集之一。相比stanford经典数据集squad,百度数据集更真实、更具挑战性。squad是从维基百科的信息来源集成问题,答案必定出现在文本里面,句法比较标准。而此次比赛的百度数据集都是用户的真实提问,不仅包括事实性的问题,还包括意见性的问题。”

来自台北的获奖团队——台达电子-台达研究院的代表称,“本次机器阅读理解竞赛在建立中文阅读理解标杆的同时,也建立了交流的平台,是培养人工智能人才的摇篮。感谢百度提供的真实资料,使我们可以应用真实的数据去探索和研究机器阅读理解问题,创造了更多新的研究方法。”

作为中国人工智能企业代表之一,百度将依靠自己的数据资源与产业经验,积极推动产学研融合发展,用技术解决实际问题。与此同时,百度以开放姿态、先进的技术对年轻科技人才进行全方位赋能,助力其实现自身技术理想,共同为中国人工智能技术的发展贡献力量。

来源:搜狐

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

免责声明:

本站所有页面所展现的企业/商品/服务内容、商标、费用、流程、详情等信息内容均由免费注册用户自行发布或由企业经营者自行提供,可能存在所发布的信息并未获得企业所有人授权、或信息不准确、不完整的情况;本网站仅为免费注册用户提供信息发布渠道,虽严格审核把关,但无法完全排除差错或疏漏,因此,本网站不对其发布信息的真实性、准确性和合法性负责。 本网站郑重声明:对网站展现内容(信息的真实性、准确性、合法性)不承担任何法律责任。

温馨提醒:中华厨具网提醒您部分企业可能不开放加盟/投资开店,请您在加盟/投资前直接与该企业核实、确认,并以企业最终确认的为准。对于您从本网站或本网站的任何有关服务所获得的资讯、内容或广告,以及您接受或信赖任何信息所产生之风险,本网站不承担任何责任,您应自行审核风险并谨防受骗。

中华厨具网对任何使用或提供本网站信息的商业活动及其风险不承担任何责任。

中华厨具网存在海量企业及店铺入驻,本网站虽严格审核把关,但无法完全排除差错或疏漏。如您发现页面有任何违法/侵权、错误信息或任何其他问题,请立即向中华厨具网举报并提供有效线索,我们将根据提供举报证据的材料及时处理或移除侵权或违法信息。