大规模图像识别算法（康奈尔大学提出利用归一化信息）

大规模图像识别算法（康奈尔大学提出利用归一化信息）(1)

作者来自将门机器学习社群：康奈尔大学研究团队

本文为将门好声音第41期，也是NeurlPS 2019系列分享的第·10·期。

作者是来自将门机器学习社群，康奈尔大学的Cornell SE(3) and Machine Learning Group，这次要介绍的是他们发表在NeurIPS 2019的工作——位置归一化。

论文链接：

https://papers.nips.cc/paper/8440-positional-normalization.pdf

Github：

https://github.com/Boyiliee/PONO

这项工作主要集中于发现对位置归一化提取信息的含义及如何在生成网络中高效利用这层信息。以往的研究大多都是认为对特征进行归一化之后可以加速网络训练和提高网络准确率，却忽视了其实被normalize的信息含有特征中重要的统计值，如果有效应用，可以对生成网络乃至分类网络产生关键性有利的影响。目前已被应用于生成网络（GAN，图像去雾等），语义分割，图像分类等应用当中。

随着生成模型在计算机视觉中的普遍应用，在图像风格迁移等方面都有了突破性的进展。然而现有的技术仍然不能有效学习生成物体的结构信息。因此在数据不足的情况下，生成模型很可能出现训练失败的情况。在这篇文章中，研究人员基于对图像中间特征的深入研究，提出有效利用归一化信息从而提取图像特征中的结构性信息，其本质上是要求从已有特征中提取有效信息再传递到神经网络后层，以减少网络训练中的结构信息丢失。

PositionalNormalization (PONO)
研究人员定义从另外一个维度对中间特征每个位置进行归一化，称之为Positional Normalization (PONO)，实验发现PONO可以有效的提取特征里的结构信息。从图中我们可以看到由PONO提取出来的平均值mean（）和标准差std（）可以有效的表征特征中的结构信息。研究人员认为，这两个重要的moment信息将在包括GAN 在内的生成网络中起着重要的作用。

Moment Shortcut (MS)
Moment Shortcut (MS) 作为和residual connection 和 concatenation 并行的一种重新利用信息的方式，与这两个不同的是，Moment Shortcut不要求将所有信息返回到下一层，而是将部分信息返回于下一层。

上述图展示了如何在网络中使用Moment Shortcut

该图显示了如何在生成网络中结合PONO将前层网络的结构信息µ和σ提取出来作为新特征的参数β和γ放入后层，以有效缓解生成网络的结构信息丢失的问题。具体放回类似于denormalize的操作，见以下公式：

文中把这种算法简称为PONO-MS。与residual connection相似，PONO-MS不会造成额外的参数学习，计算量也十分小。PONO-MS直接将µ和σ作为β和γ传输到后层网络，考虑到各种task的不同，文中也提出了优化的版本PONO-DMS。在得到β和γ之前，将µ和σ输入一层ConvNet中进行自适应学习，以得到更符合相应task的参数。
与各类归一化方法之间的比较
归一化（Normalization）算法的概念主要是将特征看作一个分布，将其中的平均值（µ）及标准差（σ）去除，根据使用不同的维度，则有不同的意义。BatchNorm是将某单一特征在整个batch中做挑整，进而增加网络学习的效率；LayerNorm是针对整层的特征一起调整，不再考虑batch中其他example的特征，特别能强化RNN与Transformer这类在NLP方面的模型；GroupNorm则是针对batch size很小、BatchNorm无法稳定地发挥作用时，提出了解决的方案。根据研究人员的说明，InstanceNorm以往用于分离图像中的风格，而这次提出的PONO则是着重在提取结构信息。

人们在使用归一化经常还会再进行反归一化（Denormalization）的操作，文中的Moment Shortcut(MS)则属此类。这操作最早是在BatchNorm的文章中被提出，作者增加了两个新参数β和γ用来学习新的平均值与标准差。后来的Conditional InstanceNorm则是给予网络n组β和γ来学习n种图像风格。AdaIN则提出直接交换将一张图片的µ与σ当作另一张图片的β和γ，来达成风格替换。这直接将µ与σ当作β和γ的方式与MS相似，其中的差别在于前者用于替换风格，后者则用于直接保留结构信息。作者在实验中发现两种方法可以相辅相成。之后的Dyanmic LayerNorm则是使用另一个网络来生成β和γ，同样的方法也使用于后来MUNIT与StyleGAN中的新版AdaIN以及SPADE。此方法在文中的Dynamic Moment Shortcut（DMS）也同样被使用。
实验结果
文章主要集中在对于Image Translation相关工作的探索。结果显示，加入PONO-MS能够有效提高GAN一类网络的生成性能。

同时，PONO-MS也能有效使一些failure的case起死回生。以目前非常火的image translation的一个GAN应用为例：我们分别提取猫和狗的结构信息和类别信息，旨在于生成有着猫的结构的狗和有着狗的结构的猫（如图所示）。当我们用小数量级dataset来训练网络的时候我们可以看到网络无法学习到我们需要的信息，造成训练失败。而令人惊讶的是，当加入PONO-MS之后，网络可以成功学习到对应信息，使一个失败的例子能够起死回生。

总结
PONO目前已被应用于生成网络（GAN，图像去雾等），语义分割，图像分类等应用当中。

具体请参见Github：

https://github.com/Boyiliee/PONO

其中最近该研究团队将位置归一化算法应用于数据增强达到了可观的效果；

具体请详见：

https://github.com/Boyiliee/MoEx

*备注：相关citation见论文中reference。

关于 · 团队&个人主页

Cornell SE(3) and Machine Learning Group

Boyi Li

https://sites.google.com/site/boyilics/home

Felix Wu

https://scholar.google.com.tw/citations?user=sNL8SSoAAAAJ&hl=en

Kilian Q. Weinberger

http://kilian.cs.cornell.edu/index.html

Serge Belongie

https://vision.cornell.edu/se3/people/serge-belongie/

-The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

,

大规模图像识别算法（康奈尔大学提出利用归一化信息）

最新推荐

热门推荐