虚拟图像合成公司（合成场景人体新方法）

LET'S GET HIGH

虚拟图像合成公司（合成场景人体新方法）(1)

将门 X 机器人学家

立即报名>>

虚拟图像合成公司（合成场景人体新方法）(2)

编译: T.R From: arxiv

合成高质量的人体场景图像对于图像编辑、虚拟试装、图像特效和内容编辑等领域有着重要的作用。为了生成在视觉上合理有效的图像，需要综合考虑图像的光照、主体外表姿态等。

为了探索这一问题，来自瑞典隆德大学和罗马尼亚科学院的研究人员提出一种人体合成与场景组合的有效方法，能够在新的场景、视角和姿态下合成人体在场景中的图像，实现合理有效的三维场景推理合成。

该方法主要通过修正模型的透视和遮挡效果、有效考虑场景语义信息和相对尺度效应来提升合成图像的质量。通过参数化的人体图像合成模型控制姿态和外表、人体嵌入过程处理三维场景中的语义和几何信息、外表合成过程构建人与场景无缝衔接的高质量图像，最终实现了良好的生成效果。

虚拟图像合成公司（合成场景人体新方法）(4)

人体合成与场景构建HUSC

通过给定的背景和人体图像，这篇文章的方法可以将人体转换为任意的目标位姿和形态，并与背景进行高质量的无缝衔接，合成出具有高质量视觉效果、符合物理和成像规律的图像。在无需三维建模和渲染的情况下，构建较为真实的人物-场景图像。

整个方法的主要框架分为三个部分，分别是

位姿、背景和主体输入查询
新姿态下的人体合成
人体与场景的几何合成与外观合成

其流程如下图所示：

虚拟图像合成公司（合成场景人体新方法）(5)

第一部分进行人体合成，在给定一张源图像和不同三维位姿的情况下，将生成源图像在新位姿下的新图像，并且保持生成图像中人体各部分的协调、服饰统一。而后需要将生成新位姿下的人体图像与场景进行有效的融合，融合过程需要遵循物理特征。

研究人员将这一部分分为了几何与外表两个阶段的合成。在几何阶段前景的人体需要遵循三维空间和尺度的约束，不仅可见还需要将人体至于合理的平面上(例如地面而不是墙面上)。通过采样目标体态有效点的三维坐标和对应的视点变换，以及目标人体所在的平面法向量，同时输入到人体合成网络中将在背景中得到渲染前景人物的结果，有效考虑了深度约束将使得合成结果更为合理。

最后将通过外表合成网络来对生成的图像进行调整，通过对于人体边缘与颜色的调整使得最终的结果与背景更加浑然一体。

人体合成

这一阶段的任务是在给定RGB图像和新姿态的情况下，生成人物在新姿态下的高质量图像。首先需要从输入的rgb图像中提出图像对应mesh模型以及对应的服装分割结果，而后基于估计的原始图像mesh模型和目标位姿的mesh B 估计出稠密的位姿表示D。下图左图呈现了这一部分的流程图。

网络中引入了位移场估计器，通过输入两个不同位姿的mesh可以计算出不同部位间的位移场，为身体每个部分进行优化和微调。

虚拟图像合成公司（合成场景人体新方法）(6)

网络的主干包含了外表编码器B，将输入图像进行编码，保留外表和服装相关的信息得到对应特征图。而后根据位移场M，生成不同尺度的特征图。而形态编码器C将对目标稠密位姿进行编码，并与源图中的语义外表特征，位移校正后的特征图一同送入解码器以生成最终在新位姿下的合成图像。

虚拟图像合成公司（合成场景人体新方法）(7)

人体场景合成

在生成有效的人体图像后，就需要将生成结果融合到目标场景中，将两个不同域的背景和前景融合在一起得到相同的视觉效果，不仅遵循光照的物理定律，同时在颜色、饱和度、亮度上也要与背景一致。

为了实现良好的合成质量，需要背景场景的深度和语音信息以及生成人体的三维模型信息，将场景合成分为了几何合成与外观合成两个部分。

几何合成部分的任务是将人体放置在场景中适当的几何位置，使得人体所处的位置合理同时不与其他点冲突。首先对场景中的地面进行了估计，找出场景中地面的位置和法向量；随后栅格化来寻找最适和放置人体的位置。为了让人物垂直的站立在场景中，需要对场景进行一定的视角变幻，并相应调整相机的视角位置。

最后前景图像和得到的三维人体模型输入上一步的合成模型中就得到了场景中目标人体符合几何定律的合成结果。另外，还需要对场景中的冲突点进行检测，基于深度将某些遮挡关系进行渲染。

虚拟图像合成公司（合成场景人体新方法）(8)

在几何合成后，需要对图像的视觉效果进行更为自然的调整。研究人员使用了一个高效的图像前景背景合成模型，用于调整颜色和边缘以实现自然的融合效果。

虚拟图像合成公司（合成场景人体新方法）(9)

这一模型将合成图像和人体对应的掩膜作为输入，同时在网络中加入了一系列调节层辅助背景信息的学习，并利用L1损失、VGG感知损失和判别损失来监督网络进行有效的融合训练。

虚拟图像合成公司（合成场景人体新方法）(10)

上图显示了人体在新的位姿下合成的效果，第一列为源图像，第二列为目标图像，第三列使用了固定的姿态位移场，第四列使用了学习到的位移场，第五列为完整的人体合成方法。可以看到最后一列的完整方法通过调节层和解码器中加入目标位姿使得最终的合成结果无论是在细节还是在体态上都十分接近目标图像。

针对同一张源图像，在不同新位姿下合成的结果，与原图的风格十分相近：

虚拟图像合成公司（合成场景人体新方法）(11)

通过场景的外观调整后可以看到加入的任务与环境的光照和色调十分协调：

虚拟图像合成公司（合成场景人体新方法）(12)

最后一起来看看场景与人物合成新图像的效果，每个例子的左边是输入的源图像和目标位姿，右侧大图是最终得到的结果。可以看到生成结果中无论是光照和人体的形态都十分自然：

虚拟图像合成公司（合成场景人体新方法）(13)

如果想要了解更多详细信息和合成方法的细节，请参看论文：

https://arxiv.org/pdf/1909.10307v1.pdf

- 虚拟图像合成公司（合成场景人体新方法）(16) The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖

将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务
专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。
将门技术社群
专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。
将门创投基金

专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括
机器智能、物联网、自然人机交互、企业计算。
在三年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

将门创投

让创新获得认可！

微信：thejiangmen

bp@thejiangmen.com
,

虚拟图像合成公司（合成场景人体新方法）

最新推荐

热门推荐