语义网络和领域模型(最新域泛化综述)(1)

论文收录于 TPAMI 2022,数据作为深度学习的基础,不管做什么算法第一步都是数据标注,无果你也厌倦了数据标注,域泛化和自监督值得你关注,当前大厂和大神们都在研究布局这两个方向。

论文题目:

Domain Generalization: A Survey

论文地址:

https://arxiv.org/abs/2103.02503

摘要-分布外泛化(OOD)数据的抽象泛化是人类与生俱来的能力,但对机器来说是一种挑战,这是因为大多数学习算法强烈依赖于源/目标数据上的同分布假设,而在实践中由于域移位常常违反这一假设,领域泛化(Domain generalization, DG)旨在通过仅使用源数据进行模型学习来实现OOD的泛化,在过去的十年里,DG的研究取得了很大的进展,产生了广泛的方法,例如,基于领域对齐、元学习、数据增强或集成学习的方法,等等;DG也被研究在不同的应用领域,包括计算机视觉,语音识别,自然语言处理,医疗成像和强化学习。

在这篇论文中,第一次对DG的文献进行了全面的综述,总结了过去十年的发展,具体来说,首先通过正式定义DG并将其与其他相关领域(如领域适应和迁移学习)联系起来来介绍背景,然后,我们对现有的方法和理论进行了全面的回顾,最后,对未来的研究方向进行了展望和讨论。

索引术语-分布外泛化,域偏移,模型鲁棒性,机器学习

1介绍

如果一个图像分类器训练的是照片图像,它会工作在草图图像吗?如果使用城市图像训练的汽车检测器在农村环境中进行测试会怎样?是否有可能在下雨或下雪的天气条件下部署使用晴天图像训练的语义分割模型?使用一个病人的心电图数据训练的健康状态分类器可以用来诊断另一个病人的健康状态吗?所有这些问题的答案取决于机器学习模型处理一个常见问题的能力,即域移位问题,这类问题是指一组训练(源)数据和一组测试(目标)数据之间的分布偏移。

大多数统计学习算法强烈地依赖于一个过于简化的假设,即源数据和目标数据是独立的和同分布的(i.i.d.),而忽略了在实践中经常遇到的非同分布(OOD)场景,这意味着它们在设计时没有考虑到域转移问题,因此,只使用源数据训练的学习代理在OOD目标域上通常会遭受显著的性能下降。

领域转移问题严重阻碍了机器学习模型的大规模部署,有人可能会好奇,最近在深度神经网络(深度学习)方面的进展是否可以缓解这个问题,研究表明,深度学习模型的性能在OOD数据集上显著下降,即使在数据生成过程中只有很小的变化,这突出了一个事实,即深度学习迄今取得的成功在很大程度上是由使用像ImageNet这样的大规模注释数据集监督学习驱动的—同样,依赖于i.i.d.假设。

关于如何处理域偏移的研究已在文献中广泛开展,绕过OOD数据问题的一个直接解决方案是从目标域收集一些数据,以适应一个经过源域训练的模型,事实上,区域适应(DA)问题已经得到了广泛关注,然而,DA依赖于一个强大的假设,即目标数据可用于模型调整,这在实践中并不总是成立的。

在许多应用程序中,在部署模型之前很难获得目标数据,甚至是未知的,例如,在生物医学应用中,不同患者的数据之间发生域转移,提前收集每个新患者的数据是不切实际的;在交通场景语义分割中,不可能收集到所有不同场景和所有可能天气条件下的数据;在处理数据流时,还要求模型具有内在的可泛化。

为了克服域漂移和目标数据缺失的问题,引入了域概化(DG)问题,具体来说,DG的目标是使用来自单个或多个相关但不同的源域的数据来学习模型,以便该模型能够很好地推广到任何OOD目标域。

自2011年首次正式提出以来,已经开发了大量的方法来解决OOD泛化问题,这包括基于对齐源域分布的方法,用于域不变表示学习,通过元学习使模型在训练期间发生域转移,以及使用域合成增加数据,等等,从应用角度来看,DG不仅在计算机视觉领域如物体识别、语义分割、人重识别等领域得到了研究,而且在语音识别、自然语言处理、医学成像,和强化学习领域应用。

在本综述中,我们的目的是提供一个及时和全面的文献综述,主要从技术角度总结过去十年来发展的学习算法,并对未来的潜在研究方向提供见解。

2 背景

2.1域泛化简史

领域泛化(DG)问题最初是由Blanchard等人作为一个机器学习问题正式提出的,而术语领域泛化后来是由Muandet等人提出的,与其他相关的学习问题(如领域适应或迁移学习)不同,DG考虑的是在模型学习过程中目标数据不可访问的情况。DG背后的动机源于一种称为流式细胞数据自动门控的医疗应用,目标是设计算法,根据患者血液样本的不同属性自动分类细胞的过程,例如,区分淋巴细胞和非淋巴细胞,这种技术对于促进患者健康诊断至关重要,因为手动选非常耗时,而且需要特定领域的专业知识,但是,由于不同患者数据之间的分布变化,使用历史患者的数据学习的分类器不能推广到新的患者,同时,收集新的数据进行模型微调是不切实际的,这就激励了DG问题的研究。

在计算机视觉领域,Torralba和Efros所做的开创性工作引起了人们对跨域泛化问题的关注,他们使用六个流行的基准数据集对对象识别模型的跨数据集泛化性能进行了彻底的调查,他们的研究结果表明,难以避免的数据集偏差会导致泛化性能较差,例如,在Caltech101上训练的人分类器在LabelMe上获得了非常低的准确率(11.8%),尽管其同数据集性能接近完美(99.6%)。Khosla等针对分类和检测任务中的跨数据集泛化问题,提出了基于支持向量机(SVM)分类器学习领域特定的偏见向量和领域不可知的权重向量。

2.2问题定义

多源DG DG通常在两种不同的情况下进行研究,即多源DG和单源DG,大部分研究都致力于多源设置,这假设有多个不同但相关的域可用(即K > 1),研究DG的最初动机是利用多源数据来学习对不同边际分布不变的表示,这是有意义的,因为在无法访问目标数据的情况下,基于源学习的模型很难很好地进行泛化,因此,使用多个域允许模型跨源域发现稳定的模式,这可以更好地推广到不可见的域。

源DG 相比之下,单源设置假设训练数据是同质的,即它们从单个域采样(K = 1),这个问题与OOD鲁棒性主题密切相关,该主题研究图像损坏下的模型鲁棒性,基本上,单源DG方法不需要域标签进行学习,因此它们也适用于多源场景,事实上,大多数能够解决单源DG的现有方法都不能将自己区分为单源或多源方法,而是一种更通用的OOD泛化解决方案,实验覆盖了单源和多源数据集。

2.3数据集与应用

DG已经在许多应用领域进行了研究,包括计算机视觉、语音识别、医疗成像等,表1总结了基于不同应用程序的常用数据集,下面我们将简要讨论它们的基础。

语义网络和领域模型(最新域泛化综述)(2)

手写数字识别 常用的数字数据集有MNIST、MNIST-M、SVHN和SYN,一般来说,这些数据集在字体样式、笔画颜色和背景上有所不同,MNIST包含手写数字的图像。MNIST-M将MNIST的图像与随机色块混合在一起,SVHN由街景门牌号图像组成,SYN是合成数据集,图1(a)为一些示例图像。

语义网络和领域模型(最新域泛化综述)(3)

目标识别一直是DG中最常见的任务,在不同的数据集之间,域的变化很大,在VLCS和Office-31中,域偏移主要是由环境或视点的变化引起的,如图1(b)所示,VLCS中的场景从城市到农村各不相同,视点通常偏向侧视图或非规范视图。图像风格的变化也被广泛研究,如PACS(见图1(c))、OfficeHome、DomainNet和ImageNet-Sketch,其他类型的域转移包括合成与真实数据、人为破坏和数据源。

动作识别 学习泛化表示对于像动作识别这样的视频理解也是至关重要的,IXMAS已被广泛用作交叉视角动作识别基准,其中包含从五个不同视图收集的动作视频,除了视图的变化,不同的主题或环境(如室内vs室外)也会造成领域的转移并导致模型失败。

语义分割是自动驾驶的关键,尽管深度神经网络极大地推进了这一任务,但当将训练有素的深度模型部署在新场景(如新城市或未知的天气条件)时,其性能仍远远不能令人满意,由于收集覆盖所有可能场景的数据是不切实际的,DG在促进语义分割系统的大规模部署方面至关重要,SYNTHIA数据集包含不同天气条件下不同地点的合成图像,从GTA5到cityscape等真实图像数据集的泛化也得到了广泛的研究。

人员重新识别(Re-ID)在安全和监视应用中发挥着关键作用,Person re-ID本质上是一个实例检索任务,旨在在不相交的摄像机视图(每个视图被视为不同的域)中匹配人,re-ID中的现有方法大多集中在同一数据集设置上,即在同一组相机视图上进行训练和测试,性能几乎达到饱和,最近,交叉数据集re-ID受到了广泛关注:其目的是将模型从源相机视图推广到不可见的目标相机视图,这是一种更具挑战性但更现实的设置,域偏移通常发生在图像分辨率、视点、光照条件、背景等方面。

人脸识别 近年来,在深度学习的推动下,人脸识别取得了显著进展,然而,一些研究表明,即使是在MS-Celeb1M这样的大规模数据集上训练的深度模型,在部署在具有以前未见领域的新数据集时,如低分辨率、光照/遮挡/头部姿势的大变化或截然不同的视点时,性能也会大幅下降。

Face Anti-Spoofing旨在防止人脸识别系统受到伪造人脸的攻击,例如打印的照片、视频或3D面具,传统的人脸反欺骗方法没有考虑分布位移,容易受到看不见的攻击类型,没有专门为这个任务设计的DG数据集,一种常见的做法是将多个人脸反欺骗数据集组合起来进行模型训练,并对一个未见数据集进行评估,例如以CASIA-MFSD、Oulu-NPU和MSU-MFSD为源,以Idiap Replay-Attack为目标。

语音识别 由于人们说话的方式不同(例如,不同的音调或音调),很自然地将每个说话者视为一个域。常用的数据集是谷歌Speech Command,它由1888个域(speaker)和大约65,000个样本组成。

情感分类是自然语言处理中研究的一项常见任务,其目的是将文本中的观点分为正面或负面(即二进制)分类问题),亚马逊评论包含了四类产品的评论:书籍、DVD、电子产品和厨房用具。

WILDS基准 其目的是研究野外面临的分布变化,该基准测试共包含10个数据集,涵盖了广泛的模式识别任务,如动物分类、癌症检测、分子分类和卫星成像,表1显示了DG社区常用的三个WILDS数据集。

医学成像DG对于医学成像也很关键,因为区域转移通常与临床中心或患者的变化有关,两种常用的医学成像数据集是多站点前列腺MRI分割[42]和胸部x光片,每个数据集都包含来自多个临床中心的聚合数据,这些数据由于不同的扫描仪或采集协议等原因导致域转移。

强化学习(RL)与监督学习或无监督学习有着显著不同的范式:RL旨在通过与环境的持续交互来最大化获得奖励,RL中的泛化一直是一个关键问题,在训练环境中学习到的代理或策略往往存在过拟合问题,因此难以对不可见的环境进行泛化,RL中的领域转移主要与环境变化相关,如不同的场景、状态甚至奖励,有大量的工作集中在改进RL中的泛化。

2.4 评估

DG算法的评估通常遵循一个域剔除规则:给定一个至少包含两个不同域的数据集,其中一个或多个域被用作模型训练的源域,而其他域被用作目标域;从源域学习到的模型直接在目标域中进行测试,不需要任何形式的调整,研究了两种问题场景:单源和多源DG,值得注意的是,一些数据集包含标签移位,这意味着源和目标之间的标签空间发生了变化(称为异构DG),例如,在人的重新识别问题中,训练和测试之间的身份是不同的;在这种情况下,源学习表示直接用于图像匹配。

评估指标通常采用两种指标,即平均性能和最坏情况性能,前者关注的是托管域的平均性能,这在大多数域转移场景中使用,相比之下,后者专注于在持有域中最差的性能,这通常用于亚群转移的情况,已被因果推理社区和WILDS基准中的一些数据集广泛采用。

模型选择涉及选择哪个模型(检查点)、架构或超参数进行评估,最近将其确定为评估管道中的关键步骤,有三种模型选择准则:i) 训练域验证(Trainingdomain validation),它提供一个训练数据子集,用于模型选择;ii)留一域验证,保留一个源域用于模型选择;iii) 测试域验证(oracle),它使用测试域数据的随机子集进行模型选择,最后一个标准会导致过于乐观或悲观的结果,因此应该谨慎使用。当使用更大的神经网络和广泛的超参数搜索时,特别设计的DG方法通常与普通模型(被称为经验风险最小化)表现相似,因此,建议未来的评估应涵盖不同的神经网络架构,并确保使用相同的模型选择准则进行比较。

2.5 相关话题

在本节中,我们将讨论DG及其相关主题之间的关系,并阐明它们的区别,有关概述,请参见表2。

语义网络和领域模型(最新域泛化综述)(4)

监督学习通常旨在通过最小化以下风险来学习输入输出映射,这是不可达的。他们希望,一旦损失降到最低,学习到的模型就能很好地处理PXY生成的数据,而PXY严重依赖于i.i.d.假设,SL和DG的关键区别在于后者的训练和测试数据来自不同的分布,从而违反了i.i.d.假设,DG在实际应用程序中可以说是一个更实际的设置。

Multi-Task Learning (MTL) MTL的目标是使用单一模型同时学习多个相关任务(K > 1),如表2所示,MTL的目标是使模型在训练模型的同一组任务上表现良好(YS = YT),而DG的目标是将模型推广到不可见的数据分布,尽管在问题设置方面有所不同,但MTL范式已经在一些DG方法中得到了利用,特别是那些基于自我监督学习的方法,直观地说,MTL受益于参数共享带来的正则化效应,这可能在一定程度上解释了为什么MTL范式适用于DG。

迁移学习(TL)旨在将从一个(或多个)问题/领域/任务中学到的知识转移到另一个不同但相关的问题/领域/任务,当代深度学习中一个著名的TL例子是微调:首先在大规模数据集上预训练深度神经网络,例如针对视觉模型的ImageNet或针对语言模型的BooksCorpus;然后对下游任务进行微调,考虑到预训练的深度特征具有高度可转移性,DG最近的几项工作示研究了如何在从源合成数据学习新知识时保留通过大规模预训练学习到的可转移特征,以用于合成到真实的应用。

如表2所示,TL和DG的一个关键区别在于是否使用目标数据,在TL中,新的下游任务的模型微调需要目标数据,而在DG中,我们假设不能访问目标数据,因此更多地关注模型泛化。尽管如此,TL和DG还是有一些相似之处:TL和DG的目标分布都不同于源分布;在标签空间方面,TL主要考虑不连续的标签空间,而DG同时考虑两种情况,即同质DG考虑相同的标签空间,异质DG考虑不连续的标签空间。

零样本学习(ZSL)与DG相关,因为这两个问题的目标都是处理看不见的问题分布,不同的是,ZSL的分布偏移主要是由标签空间的变化引起的,因为任务是识别新类,除了广义ZSL在测试时同时考虑新类和旧类;而在DG中,偏移主要来自协变量偏移,为了在ZSL中识别不可见的类,通常的做法是学习输入图像空间和属性空间之间的映射,因为训练数据和测试数据之间的标签空间是分离的,有趣的是,DG中的属性也被用来学习域泛化表示。

域自适应(DA)是最接近DG的主题,DA和DG都旨在解决在新的测试环境中遇到的域转移问题,不同的是,DA假设稀疏标记或无标记目标数据的可用性,用于模型适配,尽管存在不同的DA变体,其中一些方法在训练过程中不显式地使用目标数据,例如zero-shot DA利用与任务无关但与目标域相关的数据(相当于访问边缘),但其主要思想没有改变,即利用附加数据公开与目标域相关的信息。如表2所示,DA的研究与DG有一些共同之处,如单源和多源DA,异质性。

Test-Time Training (TTT)也称为测试时间适应,模糊了DA和DG之间的边界。如表2所示,TTT与DA和DG都相关,因为TTT还处理域转移问题,一方面,TTT(大部分)与无源DA有相似之处—两者都假设在模型训练后源数据不可访问,另一方面,TTT与DA的不同之处在于,只有单个或小批的测试数据用于模型调优,这通常是通过在线方式完成的,当然,没有人工监督,值得一提的是,TTT社区使用的数据集与DG的数据集有很大的重叠,如CIFARC和ImageNet-C。在性能方面,由于使用测试数据进行参数更新,TTT可能优于DG,但仅限于部署设备具有足够计算能力的场景,此外,如果调优时间太“长”,TTT可能不适合实时应用程序。

3 方法:综述

在过去的十年中提出了许多领域泛化(DG)方法,其中大多数是为多源DG设计的,尽管有些方法不明确要求学习领域标签,因此也适用于单源DG,在本节中,我们将现有的DG方法根据它们的方法和设计背后的动机分为几组。

在每一组中,我们进一步讨论了不同的变体,并指出学习区分它们的用途是否需要域标签—需要域标签的只能应用于多源DG,而不需要域标签的可以同时应用于单源和多源DG,有关概述,请参见表3。

语义网络和领域模型(最新域泛化综述)(5)

3.1域对齐

大多数现有的DG方法都属于域对齐的类别,其中心思想是最小化源域之间的差异,以便学习域不变表示(见图2),动机很简单:对源域移位不变的特征也应该对任何不可见的目标域移位具有鲁棒性,领域对齐已经应用于许多DG应用中,例如,物体识别,动作识别,活体检测,以及医学成像分析,域标签是域对齐方法所必需的。

语义网络和领域模型(最新域泛化综述)(6)

为了测量分布之间的距离,从而实现对齐,我们可以借用各种各样的统计距离度量,如简单的L2距离、f散度或更复杂的Wasserstein距离,然而,设计有效的域对齐方法不是一项简单的任务,因为需要考虑对齐什么以及如何对齐,在接下来的章节中,我们将从这两个方面分析现有的基于对齐的DG方法。

3.1.1 关于对齐

回想一下,一个域是由一个联合分布P (X, Y)建模的(参见§2.2的背景),我们可以将它分解为

语义网络和领域模型(最新域泛化综述)(7)

DG中一个常见的假设是,分布偏移只发生在边缘P (X),而后端P (Y|X)保持相对稳定(见公式(1)),因此,许多域对准方法都聚焦于对准源域的边缘分布。

从因果学习的角度来看,只有当X是Y的原因时,对齐P(X)才是有效的,在这种情况下,P (Y|X)不与P(X)耦合,因此在P(X)变化时保持稳定,然而,也有可能Y是X的原因,因此,P(X)的偏移也会影响P(Y|X),因此,一些域对齐方法建议改为对齐类条件P(X|Y),假设P(Y)不变(见Eq.(2))。

例如,Li等人通过最小化所有类的类条件分布在源域中的方差来学习特征转换,为了允许P(Y)随P(X|Y)而变化,即异质DG, Hu等人通过去除边际分布的最小化约束,放宽了假设,并提出了几种差异度量来学习可推广的特征。

由于后验P(Y|X)是我们在测试时需要的,Wang等人引入了假设不变表示,通过Kullback-Leibler (KL)散度直接对齐每个类中的后验,而不管域。

3.1.2如何对齐

在前一节中讨论了要对齐的内容之后,这里我们转向DG文献中用于分布对齐的确切技术。

最小化矩 矩是用来测量分布的参数,例如在总体上计算的平均值(一阶矩)和方差(二阶矩),因此,为了实现源域之间的不变性,可以学习一个映射函数(例如,一个简单的投影矩阵或一个由深度神经网络建模的复杂非线性函数),其目标是最小化源域之间转换特征的矩,根据方差或均值和方差。

最小化对比损失是减少分布不匹配的另一种选择,考虑到语义标签,有两个关键的设计原则,第一个问题是如何构建锚定群体,正样本群(与锚定群体属于同一类,但来自不同领域)和负样本群(不同于锚点),第二个是关于距离函数的表述(例如,使用L2或softmax),目标是将锚和正样本群拉在一起,而将锚和负样本群推开。

最小化KL散度作为一种常用的分布发散度度量,也被用于域对齐,使用KL散度强制所有源域特征与高斯分布对齐。

最小化最大平均差异(MMD) MMD距离通过首先将实例映射到再现核希尔伯特空间(RKHS),然后根据它们的平均值计算距离,来度量两个概率分布之间的发散性。

域对抗学习 与MMD等显式距离度量方法不同,对抗学通过极大极小的两方博弈制定了分布最小化问题,最初由Goodfellow等人提出,使用对抗学习来训练生成模型,该模型以随机噪声作为输入,生成逼真的图像,这是通过学习鉴别器来区分真实和生成的假图像(即最小化二进制分类损失),同时鼓励生成器欺骗鉴别器(即最大化二进制分类损失)来实现的,特别是,作者从理论上证明生成对抗学习等价于最小化真实分布和生成分布之间的JensenShannon分歧,因此,使用对抗学习进行分布对齐是很自然的,该方法在领域适应领域中已经被广泛研究,用于对齐源-目标分布。

在DG中,在源域之间进行对抗性学习,以学习有望在新域中发挥作用的源域不可知特征,简单地说,学习目标是使特征混淆域鉴别器,这可以实现为多类域鉴别器,或基于每个域的二进制域鉴别器,通常,学习步骤在特征生成器和域鉴别器之间交替进行。然而,通过使用梯度反转层翻转从域鉴别器反向传播的梯度的符号,可以简化实现单步更新的过程。

为了增强域对齐,研究人员还将域对抗学习与矩最小化等显式距离度量相结合,或与一些正则化约束相结合,如熵。

多任务学习也被用于域对齐,与直接最小化不同,由于分布差异,MTL通过参数共享促进了通用特征的学习,这很容易理解:为了同时处理不同的任务,功能必须足够通用,有作者提出了一种去噪自动编码器体系结构,其中编码器是共享的,但解码器被分割为特定于领域的分支,每个分支连接到一个重构任务,该模型以两个目标进行训练,一个是自域重构,另一个是跨域重构,目的是使隐藏表示尽可能具有通用性。

领域对齐仍然是DG领域的一个热门研究方向,这一思想在领域适应(DA)文献中也得到了广泛的研究,DA理论认为最小化源目标之间的分布发散对降低目标误差的上界有巨大的影响,然而,在DG中我们不能访问目标数据,因此,对齐只在源域之间执行,这不可避免地提出了一个问题,即学习到的对源域移动不变的表示是否保证泛化到目标数据中不可见的域移动,为了解决这个问题,人们可以专注于开发新的理论来解释源域的对齐如何改善不可见域的泛化。

3.2元学习

元学习是一个快速发展的领域,应用于许多机器学习和计算机视觉问题,元学习也被称为从学习到学习,旨在从相关任务的片段中学习,以有利于未来的学习,与DG最相关的元学习论文是MAML,它将训练数据分为元训练集和元测试集,并使用元训练集训练一个模型,以这种方式提高元测试集上的性能,MAML训练通常涉及二阶微分通过对基础模型的更新,从而提出了大型神经网络模型的效率和内存消耗问题,MAML被用于参数初始化,即学习距离目标任务的解只有几个梯度步骤的初始化状态。

将元学习应用于DG的动机是为了让模型在训练过程中暴露出域迁移,希望模型能够更好地处理不可见域的域迁移,现有的元学习DG方法只能应用于提供域标签的多源DG。

有两个组件需要精心设计,即情景和元表示,具体来说,情景构建关注的是如何使用可用的样本构建每个情景,而元表示则回答了元学习的问题。

情景构建 大多数现有的基于元学习的DG方法遵循学习范式,这是第一个将元学习应用到DG的方法,具体来说,将源域划分为不重叠的元源域和元目标域,以模拟域迁移,学习目标是使用元源域更新模型,从而减少元目标域上的测试误差,这通常通过双层优化实现,图示见图3。

语义网络和领域模型(最新域泛化综述)(8)

元表示用于表示元学习的模型参数,大多数深度学习方法都是对整个神经网络模型进行元学习,Balaji等则提出元学习正则化参数,也有研究随机神经网络被元学习来处理不确定性,一个MRI分割模型是元学习的,以及两个形状感知损失,以确保分割结果的紧凑和平滑,批处理归一化层在中进行了元学习,以处理CNN特征统计中的训练-测试差异。

总的来说,元学习是一个很有前途的研究方向,因为它不仅在DG中有效,而且在诸如少镜头分类、目标检测和图像生成等广泛应用中也很有效,然而,DG中的元学习仍然会遇到与域对齐中相同的问题—只有在源域移位(通过元源和元目标域模拟)下,才会学习到鲁棒表示,如果源域在多样性方面受到限制,那么这个问题可能会加剧,从最近的工作中观察到,元学习和域对齐方法都不如基于直接增加源训练数据的方法,这个主题将在后面讨论,通过将元学习和域对齐结合在一起,可以缓解元学习中的泛化问题,此外,通过在元表示、元优化器和/或元目标方面设计新的元学习算法也取得进展。

3.3 数据增广

数据增强一直是规范机器学习模型训练的常用做法,以避免过拟合和提高泛化能力,这对于过参数化的深度神经网络尤为重要,数据扩充的基本思想是用新的(A(x), y)对来扩充原来的(x, y)对,其中A(·)表示一个转换,这通常是标签保留,鉴于数据增强的优势,它在DG中得到了广泛的研究,其中A(·)通常被视为模拟领域转移的一种方法,而A(·)的设计是性能的关键。

根据A(·)的表述方式,数据增强方法一般可分为四类,如图4所示,下面我们将提供更详细的回顾,并进行更细粒度的分类,其中对抗梯度分为任务-对抗梯度和领域-对抗梯度;基于模型的增强被进一步划分为三个子组:随机增强网络、现成的样式传输模型和可学习的增强网络。

语义网络和领域模型(最新域泛化综述)(9)

图像变换 这类方法利用了传统的图像转换,如随机翻转、旋转和颜色增强,图5显示了变换的一些效果,虽然在学习过程中使用图像变换不需要域标签,但变换的选择通常是特定于问题的,例如,对于图像风格变化是主要领域变化的目标识别,可以选择与颜色强度变化更相关的转换,如图5中的亮度、对比度和太阳光度,为了避免手动选择,可以设计一个搜索机制来搜索最适合目标问题的最优转换集。有作者提出了一种基于进化的搜索算法,并使用最坏情况公式使转换后的图像尽可能偏离原始图像分布,还可以根据特定的下游任务选择转换,例如,通过综合有意义的变化,如降低图像分辨率、添加遮挡和改变头部姿势,解决了人脸识别中的普遍特征学习问题。

语义网络和领域模型(最新域泛化综述)(10)

传统的图像变换已被证明在处理医学图像的区域转移方面非常有效,这是有意义的,因为图像转换可以很好地模拟由设备相关的领域转移引起的颜色和几何形状的变化,例如在不同的医疗中心使用不同类型的扫描仪,然而,图像转换在某些应用中可能会受到限制,因为它们可能会导致标签移位,如数字识别或光学字符识别,在这些情况下水平/垂直翻转操作是不可行的,因此,应该谨慎选择转换,以免与下游任务冲突。

任务对抗梯度 受对抗性攻击的启发,一些数据增强方法基于使用从任务分类器获得的对抗性梯度来干扰输入图像,在这样做的过程中,原始数据分布被扩展,允许模型学习更多可泛化的特征,虽然这种类型的方法通常用于处理单源DG,但这种想法也可以直接应用于多源场景。

域对抗梯度 当涉及到提供域标签的多源DG时,可以利用域对抗梯度合成域未知图像,例如,训练一个域分类器,并使用它的对抗性梯度来干扰输入图像,直观地说,通过使用域无关的图像进行学习,任务模型可以学习更多的域不变模式。

由于基于对抗性梯度的摄动被有意设计成视觉上难以察觉的,基于对抗性梯度的方法经常被批评不能模拟真实世界的域位移,这比椒盐噪声要复杂得多,此外,这些方法的计算成本通常是两倍,因为向前和向后传递需要计算两次,这可能会对大型神经网络造成严重的效率问题。下面我们将讨论基于模型的方法,使用神经网络制定转换A(·),并可以产生更多样的视觉效果。

随机增强网络RandConv基于使用随机初始化的单层卷积神经网络将输入图像转换为“新域”的思想,由于权重是随机抽样的高斯分布在每次迭代不进行学习,转换后的图像主要包含随机的颜色失真,不包含有意义的变化,最好与原始图像混合后再传递给任务网络。

现成的样式转换模型 利用样式转换,几个DG方法使用现成的样式转移模型,如AdaIN来表示A(·),它本质上是将图像从一个源域映射到另一个源域,以实现数据增强,我们可以利用外部样式来进一步丰富源训练数据,而不是在源域之间传输图像样式,虽然这些方法不需要训练样式转换组件,但是它们仍然需要域标签来进行域转换。

可学的增加网络 这组方法旨在学习增强神经网络,以合成新的域,通过最大化相对于图像生成器的域分类损失来生成域无关图像,伪新域通过对每个源域最大化原始图像与合成图像之间的最优传输测量的域距离来合成。

基于特征的增强 尽管上述可学习增强模型已经取得了很好的效果,但它们的效率是一个主要问题,因为它们需要训练大量的图像到图像的转换模型,另一个研究方向是特征级增强,由于观察到CNN特征统计信息捕获了图像样式,MixStyle通过在不同域的实例之间混合CNN特征统计信息实现了风格增强,Mixup被应用于混合像素和特征空间中不同域的实例。

3.4集成学习

作为机器学习研究中一个被广泛研究的主题,集成学习通常学习相同模型的多个副本,具有不同的初始化权重或使用训练数据的不同分割,并使用它们的集成进行预测,这种简单的技术已被证明在提高性能方面非常有效。

范例支持向量机是支持向量机分类器的集合,每个分类器使用一个正实例和所有反实例学习,由于此类范例支持向量机的集合对目标检测任务表现出了优异的泛化性能,Xu等人将范例支持向量机扩展到DG,特别是,给定一个测试样本,选择给出最高预测分数(因此更有信心)的前k个范例分类器进行集合预测,对于DG,也研究了学习范例分类器的这种思想。

特定领域的神经网络 由于cnn擅长辨别特征学习,用基于cnn的集成学习模型取代手工设计的支持向量机分类器是很自然的,一种常见的做法是学习特定于领域的神经网络,每个神经网络专攻一个源领域,与其为每个源域学习一个独立的CNN,不如在源域之间共享一些捕获通用特征的浅层,这更有效,也更有意义,另一个问题是如何计算预测。可以简单地使用对所有具有同等权重的个体的平均集合预测,或者,也可以采用加权平均的方法来估计权重,例如,通过源域分类器来测量目标样本与每个源域的相似度,此外,权重可以用来确定最自信的候选人,其输出将用于最终的预测。

特定领域批正则化 在批处理归一化(BN)中,统计信息是在训练过程中实时计算的,其移动平均值存储在缓冲区中以供推断,由于统计信息通常在不同的源域中不同,有人可能会说,混合多个源域的统计信息不利于学习可泛化表示,一种解决方案是使用特定于域的bn,每个源域一个bn,用于收集特定于域的统计信息,这相当于构造特定于领域的分类器,但是除了归一化层之外,模型的大多数部分都共享参数,后来采用了这样的设计来处理MRI分割,特定于领域的预测使用测试数据的实例级特征统计信息和源域BN统计信息之间的距离作为权重进行聚合。

加权平均将训练过程中不同时间步的模型权重聚合在一起,形成测试时的单个模型,与需要训练多个模型(或模型部件)的显式集成学习不同,权重平均是一种更有效的解决方案,因为模型只需要训练一次,作者证明了权值平均可以极大地提高域移位下的模型鲁棒性,事实上,这种技术与许多其他DG方法是正交的,可以作为后处理方法来进一步提高DG的性能。

3.5 自监督学习

自监督学习通常被称为从数据本身生成自由标签的学习,在计算机视觉中,这可以通过教授模型来预测应用于图像数据的转换来实现,例如patch-shuffle图像的洗牌顺序或旋转度,图示见图6。

语义网络和领域模型(最新域泛化综述)(11)

那么为什么自我监督学习能提高DG呢?一个直观的解释是,解决任务允许模型学习通用特征,而不管目标任务是什么,因此较少对领域特定偏差的过拟合,自监督学习的一个明显优势是,它可以应用于单源和多源场景,而不需要任何域标签。

Single Pretext Task 除了使用标准的分类损失,Carlucci等人还教神经网络解决Jigsaw puzzles问题,希望该网络能够学习到更能跨领域推广的规律,类似地,Wang等人将拼图解决任务作为内在监督,以及使用度量学习实现的外在监督,对DG的重建也进行了研究,例如学习一个自动编码器来重建图像像素/特征。

Multiple Pretext Tasks 也可以将多个任务组合在一起,作者结合了两个任务,即解决Jigsaw谜题和预测旋转,也有结合了三个借口任务,即重建Gabor滤波器的响应、预测旋转和预测特征聚类分配,总的来说,使用多个任务比使用一个任务的性能更好。

目前,这些基于自我监督学习的DG方法只在目标识别任务上得到了评估,目前还不清楚他们是否会在更广泛的OOD泛化任务上工作,这将是未来工作中有趣的研究,另一个问题是,一般来说,现有的任务没有一个是通用的,任务的选择是特定于问题的,例如,当目标域位移与旋转有关时,使用旋转预测任务学习的模型将捕获旋转敏感信息,不利于泛化。

最近最先进的自我监督学习方法大多基于对比学习与数据增强的结合,其关键思想是将经历不同转换的同一实例(图像)拼凑在一起(例如,随机翻转和颜色失真),同时推开不同的实例来学习实例感知表示,与预测旋转等转换不同,对比学习的目的是学习转换不变表示,未来的工作可以探索通过对比学习学习到的不变量是否能更好地适应OOD数据。

3.6学习解耦表示

与其强迫整个模型或特性是域不变的(这很有挑战性),我们可以通过允许某些部分是域特定的来放松这一约束,本质上是学习分离的表示,现有的方法属于这一类,要么基于分解,要么基于生成建模,都需要域标签来进行特征解纠缠。

分解 实现解纠缠表示学习的一种直观方法是将模型分解为两个部分,一个是领域特定的,而另一个是领域无关的,Khosla等人在支持向量机的基础上,将分类器分解为域特定偏差和域不可知权值,在处理不可见域时只保留后者,这种方法后来被扩展到神经网络,人们还可以设计领域特定的模块,其中领域特定的二进制掩码被加在最终特征向量上,以区分领域特定和领域不变组件,另一种解决方案是对模型的权重矩阵进行低秩分解,以识别更一般化的公共特征。

生成模型 生成模型已经成为学习解纠缠表示的强大工具,使用变分自编码器(VAE)分别学习类、域和对象的三个独立潜在子空间,以对抗的方式学习两个独立的编码器,分别捕获身份信息和域信息,用于跨域活体检测。

3.7正则化策略

一些方法专注于基于一些启发式设计的正则化策略,Wang等人认为,可泛化的特征应该捕获对象的整体结构/形状,而不是依赖于局部补丁/纹理,因此提出抑制辅助补丁式cnn的预测能力(最大限度地提高其分类错误),实现为1×1卷积层的堆栈,出于类似的动机,Huang等人用大梯度迭代地掩盖了过于占优势的特征,从而迫使模型更多地依赖于剩余的特征,这些方法不需要域标签进行学习,并且与其他DG方法(如基于域对齐,和数据增强39])正交,因此,有可能将它们结合起来,以提高实际性能。

3.8强化学习

强化学习(RL)中的域转移不仅发生在视觉外观(颜色/风格的变化等),而且还发生在其他方面,如动力学(转换函数)或奖励(如重力/摩擦变化),对于视觉域转移,上面综述的许多DG方法似乎适用于RL,如数据增强方法,下面我们将简要讨论为RL开发的一些有代表性的泛化方法。

数据增强主要思想是增强发送到RL代理的可视信号,使其更具有域泛化性,一种常见的方法是使用标签保持转换,如颜色抖动或Cutout[247]。我们还可以实现领域随机化的概念,即通过计算机模拟器或随机神经网络等,可视化地随机化环境,当使用卷积神经网络时,可以采用第3.3节中讨论的MixStyle方法在特征空间中创建“新”域。

自监督 将RL与不需要手动标注的自监督学习相结合,也是一种探索,一般的方法是用辅助损失来增加RL模型,例如Yarats等人提出了一种基于自动编码器的重构损失;Laskin等人将RL与无监督对比学习损失相结合。

4理论

与提出了大量有理论保证的学习边界的领域适应不同,由于缺乏目标数据,限制领域泛化(DG)的风险具有挑战性,尽管如此,为了解决这个问题已经做了一些尝试,本节将简要回顾这些尝试。

大多数现有的理论研究受制于特定的模型类,如核方法,或有很强的假设,不能简单地应用于更广泛的DG方法,假设所有可能域(包括源域和目标域)的潜在特征空间具有线性依赖关系,即每个域都是其他域的线性组合,基于线性依赖假设,提出了一种秩正则化方法,并将其与分布对齐方法相结合,假设源域形成凸包,使源域内的最大成对距离最小化将导致凸包中任意两个域之间的距离减小,DG被投射到一个在线游戏中,其中一个玩家(模型)在每个时间步中将对手呈现的“新”分布的风险最小化。

最近,有一些新兴的研究旨在为DG提供更通用的边界,更宽松的假设,特征分布由两个术语量化:i)度量跨领域特征表示的稳定性的变化项;Ii)一个信息性术语,表示特征表示的鉴别性(即它们用来区分不同类别的能力),然后,这个错误在不可见域上,受基于变异项的展开函数限制,这取决于使用信息量项度量的特征表示的可学习性。

根据模型的Rademacher复杂度,泛化差距是有限的,这表明较低的模型复杂度与强正则化可以改善不可见领域的泛化,适当正则化的经验风险最小化与排除一个领域的交叉验证是一个强DG基线。

5 未来的研究方向

到目前为止,我们已经在§2中介绍了领域泛化(DG)的背景知识—了解了DG是什么,以及在不同的设置/数据集下如何典型地评估DG——以及在§3中回顾了过去十年发展起来的现有方法。自然会出现以下问题:i) DG问题解决了吗?ii)如果没有,我们离解决DG还有多远?

答案当然是没有,DG是一个非常具有挑战性的问题,而且远未得到解决。在本节中,我们旨在分享对未来研究方向的一些见解,指出目前研究中存在的不足,并讨论哪些方面值得进一步研究。具体来说,我们将从三个角度讨论潜在的方向:模型(§5.1)、学习(§5.2)和基准(§5.3)。

5.1模型架构

动态架构 卷积神经网络(CNN)中的权重作为特征检测器,一旦从源域学习到,通常是固定的,这可能导致CNN模型的表征能力局限于已见域,而当未见域的图像统计量显著不同时,泛化能力较差,一个潜在的解决方案是开发动态架构,例如,以输入为条件的权重,关键是使神经网络的参数(部分或完全)依赖于输入,同时确保模型的大小不会太大,从而损害效率,动态过滤网络和条件卷积等动态架构已被证明对分类和分割等通用视觉识别任务有效,看看这样一个灵活的体系结构是否可以用于处理DG中的领域转移将是很有趣的。

自适应归一化层已经成为当代神经网络的核心构件,不同归一化层的一般公式可写成γ(x−µ)/σ β,其中µ和σ分别表示均值和方差;γ和β分别是可学习的缩放参数和位移参数,通常情况下,(µ,σ)是在训练过程中动态计算的,但使用它们的移动平均保存在缓冲区中用于推断,不管它们是在每个实例中计算的还是基于小批处理的,它们都只能表示训练数据的分布,仿射变换参数,即γ和β为也只学习了源数据,因此,在不可见的测试数据中,归一化层的参数不能保证在域漂移的情况下正常工作,研究如何使这些参数适应于不可见的域将是一个有前途的方向。

5.2学习

无域标签学习 大多数现有的方法在它们的模型中利用域标签,然而,在现实应用中,可能很难获得域标签,例如,从Internet上抓取的web图像是由具有任意域特征的任意用户拍摄的,因此域标签极难定义,在这种域标签缺失的情况下,许多性能最好的DG方法不再可行或性能下降。尽管这个主题在过去已经被研究过,但能够处理域标签缺失的方法仍然很少,而且与使用域标签的方法相比没有竞争力,考虑到没有域标签的学习更加有效和可扩展,我们鼓励更多未来的工作来处理这个主题,我们还建议未来的工作使用领域标签评估功能没有适当的领域标签。

学习合成新领域 学习合成新的域DG的性能可以大大受益于增加源域的多样性,这在最近的一项工作中也得到了证实,作者强调了拥有不同的训练分布对分布外(OOD)泛化的重要性,然而,在实践中,不可能收集到涵盖所有可能领域的训练数据,因此,学习合成新的领域可能是一个潜在的解决方案,虽然这个想法在DG最近进行了粗略的探索,但结果仍然有很大的改进空间。

避免学习捷径 捷径学习可以被理解为学习“简单”表示的问题,这些表示可以在训练数据上表现良好,但与任务无关,例如,给定区分混合了不同颜色的数字的任务,神经网络在训练过程中可能倾向于识别颜色而不是数字形状,从而导致对不可见数据的泛化效果较差,在DG中的多源数据上,这种问题可能会加剧,因为每个源域通常都包含自己的域特定偏差,因此,DG模型在被要求区分来自不同域的实例时,可能只是学习记住特定于域的偏差,例如图像样式,在DG中,捷径学习问题一直被忽视。

因果表示学习 目前,DG以及许多其他领域用于表示学习的常用管道是通过从边缘分布P(X)中采样数据来学习映射P(Y|X),目的是匹配联合分布P(X,Y) = P(Y|X)P(X)(通常通过最大似然优化)然而,所学的表述已经被证明了缺乏对OOD数据的适应能力,一个潜在的解决方案是对潜在的因果变量建模(例如,通过自动编码器),这些变量不能直接观察到,但在分布位移下更加稳定和稳健,这与因果表示学习的主题密切相关,这是机器学习领域的一个最新趋势。

侧信息 侧信息(有时称为元数据)通常用于提高模式识别系统的性能,例如,从RGB-D传感器获得的深度信息可以与RGB图像一起使用,以提高诸如一般物体检测或人体检测的性能,在DG中,有一些研究利用了侧信息,如属性标签或对象分割掩码,在属性方面,它们可以更一般化,因为它们捕捉了颜色、形状和条纹等中低层次的视觉线索,这些线索在不同的对象之间是共享的,对领域偏差不太敏感,值得注意的是,属性在零样本学习中被广泛用于识别看不见的类。相比之下,用于辨别的特征通常过于特定于对象,例如CNN顶层特征中的狗耳朵和人脸,这些特征更容易捕获领域偏差,因此在任务之间的可转移性更低。

迁移学习 最近的一些著作在设计用于合成到实际应用的DG方法时,关注迁移学习视角,对于一个在大型真实数据集(如ImageNet)上预训练的模型,主要目标是从合成数据中学习对下游任务有用的新知识,同时维护预训练中获得的真实图像知识,这样的设置与不忘学习(LwF)密切相关。特别是借鉴了LwF中使用的一种技术,即最小化新模型输出和旧模型输出之间的分歧,以避免抹去预先训练的知识。综合到真实的迁移学习是一个现实的和实际的设置,但这一方向的研究较少对DG。

半监督域泛化 现有的大部分DG研究假设从每个源域收集的数据是完全注释的,因此所提出的方法纯粹基于监督学习,无法处理未标记的数据,然而,在实际操作中,由于标注成本高,标记数据的大小可能受到限制,但收集大量的未标记数据要容易得多,成本也低得多,这导致了一种更现实和实用的设置,称为半监督域泛化,它最近引起了DG社区的注意,将伪标签分配给未标记的源数据,并使用现成的样式传输模型来增加域空间,特征统计信息混合在标记源数据和伪标记源数据之间,用于数据增强,由于设计高效数据的可泛化学习系统对于实际应用是必不可少的,我们相信半监督域的可泛化在未来的工作中是值得研究的。

开放域泛化 是最近推出的问题,其中从具有不同标签集(有重叠)的异构源域学习模型,并部署在不可见的域中,以便识别已知类,同时能够拒绝未知类,该问题设置与现有的异构DG相关,但侧重于分类应用,强调检测(拒绝)未知类的能力,这在开集识别中经常被研究,提出了Mixup的变体,用于在特征和标签级别进行数据增强,并使用置信阈值来拒绝可能属于未知类的测试样本。

5.3基准

增量学习 DG 大多数现有的DG研究都隐含地假设源域是固定的,一个模型只需要学习一次,然而,在实践中,很可能是源域是增量引入的,因此需要增量学习,例如,在跨数据集的人员重新识别中,我们很可能在一开始只有两个数据集用于模型学习,例如Market1501和DukeMTMC-reID,但后来另一个数据集加入,例如CUHK03,这将源数据集的数量从两个增加到三个,在这种情况下,需要解决几个问题,如i)如何在不使用所有可用数据集从头开始训练的情况下,有效地对新数据集上的模型进行优化;ii)如何确保模型不会过度拟合新数据集并忘记先前学习的知识;iii)新数据集对目标域上的DG性能是有利还是有害。

异构域漂移 目前DG数据集主要包含同构域漂移,即源-源和源-目标漂移之间高度相关,例如,在PACS上,源-源域偏移和源-目标域偏移都与图像样式的变化有关;旋转的MNIST旋转是域移位的唯一原因,然而,在现实场景中,目标域的偏移是不可预测的,而且不太可能与源域的偏移相关,例如,源域可能是照片、艺术和素描,但目标域可能是新视角的图像;或者源域包含旋转不同的数字图像,但目标域图像可能使用不同的字体样式或背景,这样的设置,我们称为异构域转移,从来没有提出,但对实际应用是至关重要的。

6结论

领域泛化的研究已经有十多年了,在不同应用领域的文献中发展了许多方法,鉴于领域概化对AI发展的重要性,有必要弄清楚i)这个主题如何与邻近的领域(如域适应)相关,ii)通常如何评估和基准化,以及关键的是,iii)域泛化的进展是什么,这及时和最新的综述回答了这些问题,我们希望它可以启发未来的工作,以推进该领域。

,