分享好友 厨具导购网站首页 频道列表
微软发布史上最大ai模型:170亿参数横扫各种语言建模基准,将用于office套件
2024-05-16 05:27    3124    中华厨具网

今天(2月11日),微软发布史上最大语言模型,名为turing-nlg。

170亿参数量,是此前最大的语言模型英伟达“威震天”(megatron)的两倍,是openai模型gpt-2的10多倍。

“随着更大的自然语言模型导致更好结果的趋势,微软引入了turing-nlg,”微软在研究博客中写道。“它在各种语言建模基准方面的表现超过了最先进的水平,并且在许多实际任务的应用上,比如回答问题和摘要生成方面表现都十分优异。”

与此同时,微软研究也发布了另一篇博客文章,介绍了用于分布式训练大型模型的deepspeed深度学习库和zero优化技术,并表示如果没有这些突破,turing-nlg不可能完成。

史上最大语言模型

turing-nlg,简称t-nlg,是一个基于transformer的生成语言模型,可以生成单词来完成开放式的文本任务,比如回答问题,提取文档摘要等等。

微软认为,想要在任何情况下,都能使机器像人类一样直接、准确、流畅地做出反应,开发像t-nlg这样的生成模型对解决nlp任务非常重要。

以前,回答问题和提取摘要的系统,主要依赖于从文档中提取现有的内容。虽然可以作为替代答案或摘要,但常常显得不自然或不连贯。

“有了t-nlg,我们可以自然地总结或回答有关个人文件或电子邮件线程的问题,”微软表示。

这背后的逻辑在于:即使训练样本较少,但模型越大,预训练的数据越多样化和全面,它就越能更好地推广到多个下游任务。

所以,微软也认为训练一个大型的集中式多任务模型,并在众多任务之间共享它的能力,比为每个任务单独训练一个新模型更有效。

t-nlg是怎么训练出来的?

训练大型模型的一个常识是:任何超过13亿参数的模型,单靠一个gpu(即使是一个有32gb内存的 gpu)也是不可能训练出来的,因此必须在多个gpu之间并行训练模型,或者将模型分解成多个部分。

微软介绍称,能够训练t-nlg,得益于硬件和软件的突破,一共体现在三个方面:

第一,他们利用nvidia dgx-2硬件设置,使用infiniband连接,以便gpu之间实现比以前更快的通信。

第二,使用四个英伟达v100 gpu,在英伟达 megatron-lm框架中应用张量切片分割模型。

第三,使用deepspeed和zero降低了模型的并行度(从16降低到4) ,将每个节点的批处理大小增加4倍,并且减少了三倍的训练时间。

deepspeed使得使用更少的gpu训练非常大的模型更有效率,并且它训练的批量大小为512,使用256个 nvidia gpu。如果用megatron-lm 需要1024个 nvidia gpu。此外,deepspeed还与pytorch兼容。

最终的t-nlg模型中,有78个transformer层,隐藏大小为4256,有28个注意头。

为了使模型的结果能与megatron-lm媲美,他们使用了与其相同的超参数和学习时间表进行预训练。与此同时,他们也使用与megatron-lm相同类型的数据对模型进行训练。

效果达到最先进水平,将用于office套件

模型预训练完成后,他们也在wikitext-103(越低越好)和lambada(越高越好)数据集上,与英伟达megatron-lm和openai的gpt-2完整版进行了比较,都达到了最新的水平。

不仅仅是数据集上,微软也公布了t-nlg在具体任务中的表现。

首先是回答问题。其不仅能够使用一个完成的句子回答,还能够在不需要上下文的情况下回答问题,比如下面的这个问题并没有给出更多的信息。在这些情况下,t-nlg能基于预训练中获得的知识来生成一个答案。

其次是生成摘要。微软表示,为了使 t-nlg 尽可能多用于总结不同类型的文本,他们几乎在所有公开可用的摘要数据集上以多任务的方式完善了t-nlg模型,总计约400万个训练实例。

他们与另一个最新的基于transformer的语言模型pegasus,以及先前最先进的模型进行了比较,rouge评分结果如下,基本上实现了超越。

实际效果怎样?

为了秀这个模型的能力,微软用t-nlg模型,给介绍t-nlg的博客文章写了一份摘要:

turing natural language generation (t-nlg) is a 17 billion parameter language model by microsoft that outperforms the state of the art on many downstream nlp tasks. we present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>;

正如摘要中所说的,微软的t-nlg目前并不对外公开。

对于t-nlg的应用潜力,微软说它为其和客户提供了新的机会。

除了通过总结文档和电子邮件来节省用户时间,还可以通过向作者提供写作帮助和回答读者可能提出的关于文档的问题,来增强使用 microsoft office 套件的体验,打造更强的聊天机器人等等。

微软表示,他们对新的可能性感到兴奋,将继续提高语言模型的质量。

(转载)

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

免责声明:

本站所有页面所展现的企业/商品/服务内容、商标、费用、流程、详情等信息内容均由免费注册用户自行发布或由企业经营者自行提供,可能存在所发布的信息并未获得企业所有人授权、或信息不准确、不完整的情况;本网站仅为免费注册用户提供信息发布渠道,虽严格审核把关,但无法完全排除差错或疏漏,因此,本网站不对其发布信息的真实性、准确性和合法性负责。 本网站郑重声明:对网站展现内容(信息的真实性、准确性、合法性)不承担任何法律责任。

温馨提醒:中华厨具网提醒您部分企业可能不开放加盟/投资开店,请您在加盟/投资前直接与该企业核实、确认,并以企业最终确认的为准。对于您从本网站或本网站的任何有关服务所获得的资讯、内容或广告,以及您接受或信赖任何信息所产生之风险,本网站不承担任何责任,您应自行审核风险并谨防受骗。

中华厨具网对任何使用或提供本网站信息的商业活动及其风险不承担任何责任。

中华厨具网存在海量企业及店铺入驻,本网站虽严格审核把关,但无法完全排除差错或疏漏。如您发现页面有任何违法/侵权、错误信息或任何其他问题,请立即向中华厨具网举报并提供有效线索,我们将根据提供举报证据的材料及时处理或移除侵权或违法信息。