首页 > 金融

苹果把NeRF玩出新高度:只需单个10s视频,就能重构人物动作和场景

2022-08-21 13:55 作者:安靖 来源:IT之家   阅读量:5609   

有了这个发明,以后演员就不用挖图了答:可以直接一键合成

我们先来快速看一下苹果新开发的这个NeuMan框架:只需输入一个角色的视频10s左右,就可以合成出角色在新场景中做各种新动作的形象前空翻

跳舞也不在话下。这种妖娆的舞蹈,看来诺伊曼心中也有一个舞动的灵魂~

有网友看后表示:哦,简直就是电影行业未来的发展方向

目前,关于纽曼的研究论文已经被收录到ECCV 22中,并在GitHub上开源。

全新的场景渲染

在介绍诺伊曼原理之前,先来欣赏几个很酷的例子~如下图,输入的训练视频在左上角,新背景在左下角,合成的小哥哥在新背景下跳跃的效果在右边。

不仅是跳跃的常规操作,连广播体操都完全没问题。

更何况纽曼还可以把上面例子中的两个人结合起来。

再加上一个人,立马变成一个神奇的广场舞视频。

真的很难解释我不是自己跳的话说回来,这个神奇的诺伊曼背后的原理是什么

基于NeRF的新突破

事实上,自从伯克利和谷歌联合创建的NeRF问世以来,各种关于三维场景重建的研究层出不穷。

诺伊曼原理也是基于此简单来说,就是用单个视频训练一个人物NeRF模型和一个场景NeRF模型,然后把它们合成在一起,生成一个新的场景

首先,在训练场景NeRF模型时,我们首先从输入视频中提取摄像机姿态,稀疏场景模型和多视点立体深度图。

对于原始视频中被人体遮挡的部分,使用Mask R—CNN分割图像实体,并对人体的掩膜进行4倍扩展,保证人体被完全遮挡此时,可以只在背景上训练场景NeRF模型

至于人类NeRF模型的训练,研究人员引入了端到端的SMPL优化和纠错神经网络。

SMPL是一种基于顶点的人体三维模型,可以精确地表示人体的不同形状和姿态。

如下图所示,端到端的SMPL优化人体模型可以更好地代表人体的典型体积。

纠错神经网络用于弥补SMPL模型不能表达的细节值得一提的是,它只在训练过程中使用,在渲染新场景时会被抛弃,以免造成过拟合

接下来,在两个模型的对齐阶段,研究人员首先使用COLMAP来解决任意尺度下的对齐问题然后,通过假设人类与地面始终至少有一个接触点,进一步估算场景的比例

最后,SMPL网格和场景的点云叠加,形成新图像的渲染效果。

最终成品表明,该场景的NeRF模型能够在有限的场景覆盖下,有效去除场景中的人类,生成高质量的新背景渲染图像。

NeRF model还可以捕捉到人体的细节,包括袖子,衣领甚至衣服拉链,甚至在渲染新动作时还能进行难度极高的翻滚动作。

值得一提的是,不同于目前其他NeRF模型对训练视频的要求很高,比如多个摄像头位置,持续曝光,背景干净等,NeuMan最大的亮点就是只需要用户随意上传的单个视频就能达到同样的效果

再者,在输入六组不同的视频后,数据显示,与之前的方法相比,NeuMan的方法渲染的视频质量最好。

不过,研究团队也承认,纽曼的设计仍然存在一些缺陷比如生成的视频中的手部细节,由于人在活动中手势的微妙多变的变化,并不是很准确

另外,在渲染NeRF模型时,由于系统假设人类始终与地面至少有一个接触点,因此NeuMan无法适用于人类与地面零接触的视频,比如人做后空翻的视频。

要解决这个问题,我们需要更多的智能几何推理知识,这也是未来研究的一个发展方向。

研究团队

他还是不列颠哥伦比亚大学计算机视觉实验室的成员,导师是Kwang Moo Yi教授我在波士顿大学获得计算机科学硕士学位,在浙江工业大学获得软件工程硕士学位

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

猜您喜欢

图文推荐