【新智元导读】还在为OpenAI的DALL-E 和 CLIP所惊艳?在刚刚刷新的SuperGLUE上,微软的DeBERTa和谷歌的T5 Meena分列第一第二,超越人类基准线,这是SuperGLUE引入以来,AI首次得分超过了人类的表现。难道说2021,AI正在加快缩小与人类的差距?

AI全方面完胜人类,是时间问题,还是技术问题?

话说昨天,人类受到了来自AI的2021第一波挑衅:OpenAI的DALL-E 和 CLIP。

你只要来段文字命令:给我来个「穿着蓝色衬衫和黑色打褶裤的男模特。」

叮咚!请查收:

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(1)

数十张对应图片便出现眼前。

想起去年GPT-3横空出世时,就有人预测AI正逐渐取代文字工作者,小编也自觉饭碗不保。现在,又轮到插画师出来哭诉了。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(2)

就在这几天互联网人哭声中,自己加班加点制造出来的AI,已经逐步有了取代人类的态势……就连推崇人机共生的马斯克也曾胆怯地说,「AI是人类的最大威胁」。

如果说画画写字都是小儿科,那看看NLP新基准SuperGLUE的刷新榜单,人类已经一再退步到无地自容了。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(3)

GLUE的后辈:SuperGLUE

近几年,用于预训练和迁移学习的新模型和方法推动了一系列语言理解任务的性能显著提高。曾经的GLUE(General Language Understanding Evaluation )基准提供了一个单一的数字指标,总结了在一系列不同的此类任务上取得的进展,但该基准的表现最近已接近非专家人类的水平,进一步研究的空间有限。

2019年末,Facebook、纽约大学、华盛顿大学和 DeepMind 的研究人员提出了 SuperGLUE,这是一种人工智能的新基准(Benchmark),旨在总结各种语言任务的研究进展。基于一年前引入的 GLUE 基准,SuperGLUE 包括一系列更难理解的语言挑战、改进的资源和一个公开的排行榜。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(4)

当 SuperGLUE 被引入时,表现最好的模型和排行榜上的人类表现之间有将近20分的差距。

但截至1月初,微软的「DeBERTa」和谷歌的「T5 Meena」超越了人类基线,成为首次超越人类基线的模型。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(5)

正如研究人员在介绍SuperGLUE的论文中所写的那样,他们的基准旨在成为一个简单的、难以游戏(hard-to-game)的衡量标准,以衡量英语通用语言理解技术的进展。它包括8个从现有数据中抽取的语言理解任务,并附有一个性能指标以及一个分析工具包。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(6)

SuperGLUE任务包括以下几项:

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(7)

Boolean Questions (BoolQ) 要求模型对维基百科文章中包含答案的短文进行提问。这些问题来自谷歌用户,他们是通过谷歌搜索提交的这些问题。

CommitmentBank (CB) 的任务是让模型识别出一段文字节选中包含的假设,并判断该假设是否成立。

Choice of plausible alternatives (COPA)提供了一个关于博客和摄影相关的百科的主题的前提句,模型必须从两个可能的选择中确定原因或结果。

Multi-Sentence Reading Comprehension (MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一个可能的答案列表组成。模型必须预测哪些答案是真的,哪些是假的。

Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD) 模型从CNN和每日邮报的段落中的选择列表中预测被掩盖的单词和短语,其中相同的单词或短语可能会使用多种不同的形式来表达,所有这些都被认为是正确的。

Recognizing Textual Entailment (RTE) 任务用来挑战模型识别一个文本节选是否符合另一个文本节选的含义的能力。

Word-in-Context(WiC)为模型提供了两个文本片段和一个多义词,并要求他们判断该词在两个句子中是否具有相同的意义。

Winograd Schema Challenge (WSC)的任务中,给定小说书中的段落,模型必须回答关于模棱两可的代词前项的多项选择题。它被设计为图灵测试的改进。

有网友表示,这是就是咱们国活生生的行测啊!

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(8)

不过,SuperGLUE并不是一个完美的或完整的自然语言能力的测试。就连DeBERTa背后的微软团队自己也指出,他们的模型 "绝非 "达到自然语言理解的人类级智能。他们同时表示,需要研究上的突破,以及新的基准来衡量其模型效果。

SuperGLUE 还尝试使用 Winogender Schemas 来衡量模型中的性别偏见,这些模型中的句子仅仅因为一个代词在句子中的性别而有所不同。然而,研究人员也指出,这种测量方法有其局限性,因为它只能提供积极的预测值: 尽管一个不好的偏见得分清楚地证明一个模型表现出性别偏见,但是一个好的得分并不意味着这个模型是没有偏见的。

15亿参数,更大版的DeBERTa

谷歌团队尚未详细说明导致其模型在SuperGLUE上创纪录的性能的原因,但DeBERTa背后的微软研究人员在今天早上早些时候发表的一篇博客文章中详细介绍了他们的工作。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(9)

DeBERTa并不是算是一个新模型,它是去年开源的。但研究人员表示,他们训练了一个15亿个参数的更大版本。它将以开源的方式发布,并集成到微软图灵自然语言表示模型的下一个版本中,该模型支持Bing、Office、Dynamics和Azure等产品。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(10)

DeBERTa 是通过masked language modeling (MLM)进行预训练,即mask掉中心词后通过上下文来预测被mask掉的单词是什么。DeBERTa 在MLM中同时使用了上下文词的内容和位置信息,例如,它能够识别「a new store opened beside the new mall」句子中的「 store」和「 mall」 ,这两个词在句子中发挥不同的语法作用。

与其他一些模型不同,DeBERTa 解释了词语在语言建模过程中的绝对位置。此外,它计算模型中的参数,转换输入数据和测量基于相对位置的词与词之间依赖的强度。例如,DeBERTa能够理解「深度」和「学习」这两个词之间的依存关系,当它们同时出现时,比它们出现在不同的句子中时要强烈得多。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(11)

图:DeBERTa在MNLI和SQuAD2.0上的表现

DeBERTa 也受益于对抗训练,这种技术利用了从训练数据的细微变化中衍生出来的对抗样本。在训练过程中,将这些样本输入模型,以提高模型的泛化能力。

微软的研究人员希望下一步探索如何使 DeBERTa 能够应用到新的子任务或基本的问题解决技能上去,这是一个被称为compositional generalization的概念。更进一步则可能是更明确地纳入所谓的组合结构,这可能需要将人工智能与符号推理结合起来。换句话说,根据数学和逻辑规则来操纵符号和表达式。

微软的研究人员写道: 「DeBERTa在SuperGLUE上超越人类的表现,标志着通向人工智能的一个重要里程碑,但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识,在没有或很少有具体任务演示的情况下解决新任务。」

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(12)

比强更强,T5 Meena

虽然谷歌没有解释T5 Meena是如何达到超越人类的效果的,但从这两者之前的介绍中可窥一斑。

谷歌提出的T5是一个预训练的编码器-解码器模型,混合无监督和监督学习的任务,并为每个任务转换成文本到文本的格式。T5通过在每个任务的输入前加上不同的前缀,可以很好地完成各种现成的任务。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(13)

Meena是一个拥有26亿个参数的对话式神经网络,能够比任何人工智能生成器更好地与人交流。研究小组使用 seq2seq 模型对模型进行了训练,模型中包含了400亿个单词、341GB的文本数据,其中包括社交媒体上的对话。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(14)

Meena有一个Transformer编码器和13个Transformer解码器。虽然编码器块帮助它理解会话的上下文,但解码器帮助它形成响应。谷歌声称 Meena 的模型容量是 OpenAI GTP-2的1.7倍,并且接受了8.5倍以上的训练数据。

下一代BENCHMARK

虽然在短期内,SuperGLUE的继任者还没有出现。但是,人工智能研究界越来越一致认为,未来的基准,尤其是语言领域的基准,必须考虑到更广泛的道德、技术和社会挑战,才能有用。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(15)

许多研究表明,现在流行的基准测试在评估真实世界的人工智能性能方面表现不佳。

最近的一份报告发现,模型给出的答案中,有60%-70% 嵌入到了基准训练集的某个地方,这表明这些模型通常只是简单地记忆答案。另一项研究对3000多篇人工智能论文进行元分析后发现,用于评估人工智能和机器学习模型的度量标准往往不一致,而且信息量不大。

这些问题的出现是有原因的,因为语言模型,如 OpenAI 的 GPT-3、谷歌的 T5 Meena和微软的DeBERTa通过内化来自公共网络的例子来学习编写类似人类的文本。他们利用电子书、维基百科和 Reddit 等社交媒体平台,对完整的句子甚至整个段落进行推理。

因此,语言模型通常会放大这些公共数据中的偏见。英特尔、麻省理工学院和 CIFAR 的研究人员在四月份发表的一篇论文中已经从一些最流行的模型中发现了强烈的刻板偏见,包括谷歌的 BERT 和 XLNet、 OpenAI 的 GPT-2和 Facebook 的 RoBERTa。这种偏见可能会被恶意行为者利用,通过传播错误信息、虚假信息和谎言来进行煽动某些行为。

而目前大多数现有的语言基准测试都无法捕捉到这一点。自从SuperGLUE推出以来的两年里,研究结果激发了科研人员的动力,也许未来的研究结果会对此有所帮助。

谷歌微软最成功的产品(微软和谷歌在SuperGLUE榜单上暴锤人类)(16)

参考链接:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

,