MURAL:跨语言的多模式、多任务检索

对于许多概念,没有从一种语言到另一种语言的直接一对一翻译,即使有,这种翻译也经常带有不同的联想和内涵,对于非母语人士来说很容易丢失。然而,在这种情况下,当以视觉示例为基础时,含义可能会更加明显。以“婚礼”这个词为例。在英语中,人们经常将穿着白色连衣裙的新娘和穿着燕尾服的新郎联系起来,但当翻译成印地语 (शादी) 时,更合适的联想可能是穿着鲜艳色彩的新娘和穿着雪瓦尼的新郎。每个人对这个词的联想可能会有很大差异,但如果向他们展示预期概念的图像,其含义就会变得更加清晰。

高级语言作用域是如何实现的(跨语言的多模式)(1)

随着神经机器翻译和图像识别的当前进步,可以通过呈现与支持图像配对的文本来减少翻译中的这种歧义。先前的研究在学习高资源语言(如英语)的图像-文本联合表示方面取得了很大进展。这些表示模型努力将图像和文本编码为共享嵌入空间中的向量,以便图像和描述它的文本在该空间中彼此接近。例如,ALIGN和CLIP已经表明,当提供充足的训练数据时,使用对比学习损失在图像-文本对上训练双编码器模型(即,一个用两个单独的编码器训练的模型)效果非常好。

不幸的是,对于大多数语言,这种图像-文本对数据并不以相同的规模存在。事实上,超过 90% 的这类网络数据属于前 10 名资源丰富的语言,如英语和中文,而资源匮乏语言的数据要少得多。为了克服这个问题,人们可以尝试为资源不足的语言手动收集图像-文本对数据,这将因工作规模而变得非常困难,或者可以寻求利用预先存在的数据集(例如,翻译对)可以为多种语言提供必要的学习表示。

在“ MURAL:Multimodal, Multitask Retrieval Across Languages ”中,在EMNLP 2021 的发现中展示,我们描述了一种图像-文本匹配的表示模型,该模型使用应用于图像-文本对的多任务学习以及涵盖 100 多种语言的翻译对。这项技术可以让用户使用图像来表达可能无法直接翻译成目标语言的单词。例如,“ valiha ”这个词,指的是马达加斯加人演奏的一种电子管古筝人,它没有直接翻译成大多数语言,但可以很容易地用图像来描述。从经验上讲,MURAL 显示出对最先进模型、其他基准和全面竞争基准的持续改进。此外,MURAL 在测试它的大多数资源不足的语言中表现非常好。此外,我们发现了通过 MURAL 表示学习的有趣的语言相关性。

MURAL 架构

MURAL 架构基于ALIGN的结构,但以多任务方式使用。ALIGN 使用双编码器架构来绘制图像和相关文本描述的表示,而 MURAL 使用双编码器结构实现相同目的,同时还通过合并翻译对将其扩展到跨语言。图像-文本对的数据集与用于 ALIGN 的数据集相同,翻译对是用于LaBSE 的数据集。

MURAL 解决了两个对比学习任务:1)图像-文本匹配和 2)文本-文本(双文本)匹配,这两个任务共享文本编码器模块。该模型从图像-文本数据中学习图像和文本之间的关联,并从翻译对中学习数百种不同语言的表示。这个想法是共享编码器将从资源丰富的语言中学习到的图像-文本关联转移到资源不足的语言中。我们发现最好的模型采用了EfficientNet-B7图像编码器和BERT 大文本编码器,两者都是从头开始训练的。学习到的表示可用于下游的视觉和视觉语言任务。

高级语言作用域是如何实现的(跨语言的多模式)(2)

多语言图像到文本和文本到图像检索

为了展示 MURAL 的能力,我们选择了跨模式检索任务(即检索给定文本的相关图像,反之亦然)并报告各种学术图像-文本的分数数据集涵盖资源丰富的语言,例如MS-COCO(及其日语变体STAIR)、Flickr30K(英文)和Multi30K(扩展到德语、法语、捷克语)、XTD(仅测试集,包含七种资源丰富的语言) :意大利语、西班牙语、俄语、中文、波兰语、土耳其语和韩语)。除了资源丰富的语言,我们还在最近发布的维基百科图像文本(WIT)上评估了 MURAL) 数据集,涵盖 108 种语言,包括资源丰富的(英语、法语、中文等)和资源不足的(斯瓦希里语、印地语等)语言。

在对资源充足和资源不足的语言进行评估的零 样本和微调设置中,MURAL 始终优于先前的最先进模型,包括M3P、UC2和ALIGN。与最先进的模型 ALIGN 相比,我们看到资源不足的语言有显着的性能提升。

高级语言作用域是如何实现的(跨语言的多模式)(3)

检索分析

我们还分析了WIT 数据集上的零样本检索示例,比较了英语 (en) 和印地语 (hi) 的 ALIGN 和 MURAL。对于像印地语这样资源不足的语言,与 ALIGN 相比,MURAL 显示出改进的检索性能,这反映了对文本语义的更好掌握。

高级语言作用域是如何实现的(跨语言的多模式)(4)

即使对于资源丰富的语言(如法语)中的图像→文本检索,MURAL 也显示出对某些单词的更好理解。例如,与不检索任何描述日晷的文本的 ALIGN 相比,MURAL 为查询“ cadran solaire ”(法语中的“sundial”)返回更好的结果(如下)。

高级语言作用域是如何实现的(跨语言的多模式)(5)

嵌入可视化

此前,研究人员已经表明,将模型嵌入可视化可以揭示语言之间有趣的联系——例如,神经机器翻译(NMT) 模型学习的表示已被证明可以根据它们对语言家族的成员资格形成集群。我们对属于日耳曼语、罗曼语、斯拉夫语、乌拉尔语、芬兰语、凯尔特语和芬兰-乌戈尔语系(在欧洲和西亚广泛使用)的语言子集执行类似的可视化。我们比较附壁文本的嵌入LaBSE的,这是一个纯文本的编码器。

LabSE 的嵌入图显示了受语言家族影响的不同语言集群。例如,罗曼语言(下图紫色)与斯拉夫语言(下图棕色)属于不同的区域。这一发现与之前研究 NMT 系统学习的中间表示的工作一致。

高级语言作用域是如何实现的(跨语言的多模式)(6)

与 LaBSE 的可视化相反,通过多模态目标学习的 MURAL 嵌入显示了一些符合区域语言学(地理区域中的语言或方言共享元素)和接触语言学(语言或方言相互作用的地方)的集群并相互影响)。值得注意的是,在 MURAL 嵌入空间中,罗马尼亚语 (ro) 更接近于保加利亚语 (bg) 和马其顿语 (mk) 等斯拉夫语,这与巴尔干语 ( Balkan sprachbund) 一致,而不是在 LaBSE 中。另一种可能的语言接触使芬兰语、爱沙尼亚语 (et) 和芬兰语 (fi) 更接近斯拉夫语族群。MURAL 以图像和翻译为中心的事实似乎增加了在深度表示中学习的语言相关性的额外观点,超出了在纯文本设置中观察到的语言家族聚类。

高级语言作用域是如何实现的(跨语言的多模式)(7)

最后的评论

我们的研究结果表明,使用翻译对联合训练有助于克服许多资源不足语言的图像-文本对的稀缺性,并提高跨模态性能。此外,在使用多模态模型学习的文本表示中观察区域语言学和接触语言学的提示很有趣。这需要更多地探索由多模态模型(例如 MURAL)隐式学习的不同连接。最后,我们希望这项工作能促进多模态、多语言空间的进一步研究,在这些空间中,模型学习语言之间的表示和联系(通过图像和文本表达),而不仅仅是资源丰富的语言。

高级语言作用域是如何实现的(跨语言的多模式)(8)

,