近日,Google AI的研究团队发布了一种文本到文本迁移转换器——面向摘要、问答、分类等自然语言问题的统一文本-文本迁移学习框架,并且在相关数据集上刷新了多个NLP任务的SOTA。
迁移学习是一种需要在一个数据丰富的任务上对人工智能模型进行预训练,然后再在另一个任务上对其进行微调的技术。
目前,迁移学习已经成功地应用于从机器人到对象分类等领域。
但是在自然语言处理(NLP)子领域中,迁移学习具有特殊的前景,在自然语言处理(NLP)子领域中,迁移学习产生了多种基准测试方法。
为了进一步完善它,谷歌的研究人员开发了一个新的数据集——巨大的干净爬行语料库和一个被称为“文本到文本迁移转换器”的统一框架和模型,可以将语言问题转换为文本到文本的格式。
研究人员说,在使用提交给通用语言理解评估(GLUE)基准的模型进行的实验中,他们获得了最新的结果,涵盖了问题解答、文本分类等等。
一般来说,训练一个模型执行NLP任务涉及到确保模型开发出使其能够“理解”文本的知识——这些知识可能从低级的(单词的拼写或含义)到高级的(大号这个乐器太大了,大多数背包都无法装进去)。
Google小组研究了一种方法,该方法将文本作为输入并产生新的文本作为输出,并将相同的目标、训练过程和解码过程应用于每个任务。
研究人员编写的通用知识训练语料库(前面提到的庞大、干净的语料库)其中的片段来来自Common Crawl项目,该项目每个月从web上抓取大约20TB的英语文本。
为了过滤掉乱码、样板菜单和错误消息,在删除带有明显填充文本和重复内容的页面时,它们只保留以结束标点符号(句号、感叹号、问号或结束引号)结尾的文本行。所得到的集合比预训练的数据集大一个数量级,约为750 GB。
上图:由Google的AI模型生成的文字。
研究人员在语料库上训练了几个基于Transformer的模型,来评估其“文本到文本”方法的有效性。
对于外行人来说,Transformer是一种新型的神经结构,由Google AI研究部门Google Brain的科学家共同撰写,于2017年发表。
与所有深层神经网络一样,Transformer模型包含排列在相互连接的层中的神经元(数学功能),这些层传输来自输入数据的信号并缓慢调整每个连接的突触强度(权重)。
这是所有AI模型提取特征并学习进行预测的方式,但是Transformers的独特之处在于,每个输出元素都连接到每个输入元素。它们之间的权重是动态、有效地计算出来的。
最大的模型T5包含多达110亿个参数,即模型内部的配置变量,在进行预测时需要这些参数。
通过对不同语言测试的微调,该团队表示,他们在GLUE、阅读理解基准SQuAD和CNN Daily Mail上的平均分数达到了最高水平(89.7分)。
他们还在 SuperGLUE 上进行了测试,该基准包含了一些比当前 NLP 系统更加困难的任务,得分为 89.8,表现可媲美人类。
谷歌团队承认,模型在诸如翻译之类的语言任务中不尽人意,他们将此归咎于特定任务数据相对缺乏和训练规模不足。
因此,他们提倡使用较小的模型实现更强性能,以便将迁移学习应用于最有影响的地方。
该论文的合著者写道:“我们的研究得出重要的且令人惊讶的结果——较大的模型往往表现更好。”
“运行这些模型的硬件越来越便宜,功能越来越强大,这一事实表明,扩大训练规模可能仍是实现更好性能的方法。
但是,在某些应用程序和场景中,使用较小或较便宜的模型更有效这一现象总是存在的,例如在执行客户端推理或联合学习时。
GitHub链接:
https://github.com/google-research/text-to-text-transfer-transformer
论文链接:
https://arxiv.org/abs/1910.10683
福利:关注本公众号(ID:turingtopia)
特别推荐
如果您对工业互联网、数据中台、精准营销、智能推荐、人脸识别等业务经验和AI应用感兴趣,就来@派小僧 吧!
一线专家给你:
最全面的趟坑总结;
最前沿的实践经验;
最新落地的行业应用案例。
立即关注,一网打尽!
(ID:python_daydayup)
《云原生下数据治理的微服务架构》:
https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg
,