之前要两天才能训练好的数字人,现在只用半小时就能完成了! 到了推理阶段,更是只要16毫秒,就能得到动作流畅、细节到位的场景视频。 而且无需复杂的采样和建模,只要随便拍一段50-100帧的视频就足够了,换算成时间不过几秒钟。 这正是由苹果联合德国马普所推出的,基于高斯函数的3D数字人合成工具HUGS。 它可以从一段简单的视频当中提取出人物骨骼,从而合成数字分身并驱动它做出任意动作。 这个数字人可以丝滑地融合到其他场景,甚至帧率还能超越原始素材,达到60FPS。 Hugging Face的“首席羊驼官”Omar Sanseviero看到后,也给HUGS送上了hug。 那么,HUGS可以实现怎样的效果呢? 100倍速生成60FPS视频 从下面这张动图可以看出,新生成的数字人可以在不同于训练素材的场景中做出不同的动作。 而新合成的画面也比原始素材更加流畅——尽管原素材只有24FPS,但HUGS合成的视频帧率达到了60FPS。 同时,HUGS也支持把多个人物融合进同一个场景。 细节刻画上,HUGS也比Neuman和Vid2Avatar这两个前SOTA更清晰细腻,也更加真实。 如果放到规范空间中,Neuman和HUGS的细节对比将变得更加明显。 测试数据上看,HUGS在NeuMan数据集的五个场景中的PSNR和SSIM评分都达到了SOTA水平,LPIPS误差则处于最低位。 在ZJU Mocap数据集上,针对5个不同受试者,HUGS也都超越了NerualBody、HumanNeRF等Baseline方法。 速度方面,HUGS的训练只需半小时就能完成,而此前最快的VidAvtar也要48小时,速度提升了近百倍。 渲染速度也是如此,用Baseline方法进行渲染需要2-4分钟,但HUGS只用16.6毫秒就能完成,比人眨眼的速度还快。(下图为对数坐标系) 那么,HUGS是如何实现既迅速又细腻地生成3D数字人的呢? 像搭积木一样渲染 HUGS首先将人物和场景分别转化为3D高斯斑点。 其中,人物部分的高斯斑点由三个多层感知机(MLP)来预测,并通过SMPL(一种人体形状模型)进行初始化。 SMPL可以用极少的参数建立实体人物到三维网格的映射,只需要10个主要参数就可以表示99%的人体形状变化。 同时,为了刻画头发和衣服等细节,HUGS也允许高斯函数在一定程度上偏离SMPL。 场景的高斯斑点通过特征三平面提供的位置编码,由多个MLP预测得到。 得到人体和场景模型的高斯斑点后,研究者对它们进行了联合优化。 得到的高斯斑点还会被进行克隆和拆分,从而增大斑点密度,不断接近真实的目标几何表面,这一过程称为Densify。 此外,研究人员还引入了线性混合动画(LBS)技术,在运动过程中对高斯斑点进行驱动。 转换为高斯斑点形式后,研究人员训练了神经网络对高斯函数的属性进行预测,形成真实的人体形状。 同时,神经网络还定义了高斯函数与人体骨骼的绑定关系,从而实现人物的运动。 这样,HUGS的渲染过程就像搭积木一样,不需要重新调用神经网络,从而实现了高速渲染。 消融实验结果表明,LBS、Densify和三平面MLP都是HUGS中的重要环节,缺少任何一个都会对合成效果造成影响。 而人物与场景的联合优化,同样是实现刚好融合效果的关键因素。 One More Thing 苹果产生研究数字人的想法已经有一段时间了。 在苹果MR头显Apple Vision Pro中,就出现过高细节版本的数字分身概念—— 在FaceTime通话时,头显可以创建一个“数字人”,并用它来代表用户。 那么,对苹果的这个“数字人生成器”,你怎么看呢? 论文地址: https://arxiv.org/abs/2311.17910 参考链接: [1]https://appleinsider.com/articles/23/12/19/apple-isnt-standing-still-on-generative-ai-and-making-human-models-dance-is-proof [2]https://twitter.com/anuragranj/status/1737173861756485875/ 本文来源:量子位 |
原创栏目
IT百科
网友评论
聚超值•精选