相信吗?现在训练数据也用合成的了。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

而且人脸分析任务上,准确性还不输真实数据的那种。这是微软团队的一项最新研究,论文标题就已经说明了一切。

Fake it till you make it.

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

文章介绍了一种程序生成的 3D 人脸模型与一个合成数据库结合起来训练图像,结果人脸解析等任务上,效果与真实数据相当。

研究人员表示,为一些不可能实现人工标注的地方,开辟了新方法。

是不是以后真就告别人工标注了?!

如何实现?

要想让人脸数据集更加多样化、丰富化,靠收集和标注越来越难以实现。

且不说收集,比如网络抓取,可能带来重大的隐私和版权问题。而人工标注,很容易导致出错或者标签不一致的情况。

因此,研究团队就考虑用合成数据来增加或替代真实数据。然鹅,此前因为人脸模型本身复杂实现难度较为困难。

那么这次是如何实现的呢?

第一步,用程序生成合成面孔,包括身份、表情、面部纹理,以及发型和衣着,不同光线环境下的效果。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

所有这些数据都是独立采样,提前“手动”去除噪音,以确保创建更多样化的个体。

比如在人脸模型上,就是这样滴~

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

还有像衣着,则是由服装设计师和模拟软体设计师手工制作的,共有 30 套各种各样的衣服。

还包括头饰 (36 件)、面具 (7 件) 和眼镜 (11 件) 。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

除此以外,还合成了标签。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

接着到了训练阶段,研究人员创建了一个 10 万张分辨率为 512 × 512 的图像的数据集,并做了数据增强处理,共用了 150 张 NVIDIA M60 GPU 渲染 48 小时。

此外,团队还训练了人脸解析网络(仅使用合成数据)和标签适应网络,以解决合成标签和人工注释标签之间的系统差异。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

最终,人脸分析、地标定位等任务上的效果与其他采用真实数据的模型相当。

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

仅靠合成数据就能实现真实人脸分析!微软这项新研究告别人工标注-风君子博客

不过,研究人员也承认这项技术仍然有一定局限性。

比如人脸模型只有头部和颈部、无法模拟真实的皱纹、随机匹配人脸时会得到一些不合常理的面孔,比如有胡须的女性。

在接下来的工作中,他们计划将解决这些局限性。

好了,感兴趣的旁友可戳下方论文链接~

论文链接:

https://www.arxiv-vanity.com/papers/2109.15102/