今天早上工作群里的一个动图,把大家的睡眼惺忪直接「炸」成了目瞪口呆。 这段蒙娜丽莎做瑜伽的短片,由 MagicAnimate 生成,这把许多人想一夜学会做视频的「白日梦」带到了现实里:现在只需要提供一张照片,就能生成指定动画视频。 单从效果看,AI 在生成领域的深耕,好像已经在专业视频的高墙上,凿出了一个巨大的门洞,从业者和爱好者都能在城里城外,穿梭自如。 模仿动画,也是魔法动画 MagicAnimate 是新加坡国立大学和字节跳动联合推出的「人体图像动画生成器」,能够把指定的人物图片按照既定动作序列生成视频。 只需要选择指定的图片和动作,就可以产出对应的动效短片。这时候发挥你的奇思妙想,许多名作的二创,又会因为你「无厘头」变得有趣起来。 戴珍珠耳环的斯文少女,也可以有活泼的一面。 和朋友约好的舞蹈课她又放了鸽子,没关系,她今天高低也得跳两下。 这两天和 MagicAnimate 一起冲上热搜的,还有另外两个明星选手,从其背后的创作团队看 —— 阿里、Google —— 就知道这是继大数据云计算、自然对话语言大模型后的,又一次大厂技术厮杀。 无论是照片中的真人,还是火影忍者的暴躁纲手,亦或在铁皮躯壳下的略带闷骚的 Iron Man,只要你有让它动起来的需求,在阿里优化的扩散模型中,静态人物都能生成动态视频。 甚至在阿里这里,你还可以为自己上传不同的服饰搭配,配合着模特的展示动作,在电脑前就能搭配出接下来一周的 OOTD。 Google 和前两位运用大体相似的技术逻辑下,在「The Chosen One」中对图像的一致性生成效果更有执念。 给 The Chosen One 一张图片,它还你一次环球旅行。 通过对你上传照片的特征分析, Google 的技能把你放进任何场景里,并且根据场景的变化搭配不同的衣服和动作,你也可以输入文本来生成对应的场景,相当于一个增强版的「DALL·E」。 真实感体现在细节上,比如上图最右侧的「在沙滩上」的照片,一个眯眼咧嘴的笑,将沙滩上烈阳高照体现地淋漓尽致,尽管没看到太阳但也能感受到那份刺眼。 画面的主角可以是你,也可以是你的宠物。 当拟人化的动物走进了画面,那这样的作品就能走进动漫作品和儿童读物。 把「卡通形象」和「真实场景」结合一下, 类似 AR 的效果虽然拍不出《空中大灌篮》这样的融合大制作,但来一张类似的合影,现在也不是什么难事。也难怪 Pixel 8 会有难得的口碑,对 AI 图像生成的研究,Google 是真没少下功夫。 接近现实,是终极目标 三者的技术语言和模型都略有不同,MagicAnimate 通过「视频扩散模型」捕捉时间信息、「外观编码器」保持外观一致性来生成流畅的画面。 二者再通过视频融合技术,确保长视频动画过程中的平滑过渡。专业术语有点懵没关系,和传统技术对比一下就能直观感受新科技的魔法。 MagicAnimate 的创作优化,即使在在挑战性极高的 TikTok 舞蹈数据集上,成像的真实度比最强基线还高了 38%。最右列的视频在对比下,还原度和真实性的确是当中佼佼者。 我本想用「马斯克 + 热舞」验证一下这个 38% 的真实性,在生成器中上传照片和动作后,很遗憾截止发稿前我都没能排上号,有种 10 点之后排队吃海底捞,但没「黑卡」的无奈。 阿里团队的「Animate Anyone」通过程序算法提升模型在「时间」「空间」「交叉」维度上的注意力,以此达到逼真的成像效果。 成果展示是对专业技术最好的解释,通过 Animate Anyone 的创作,我们可以看到与 MagicAnimate 相似的效果,甚至在人物面部保持上,阿里团队在展示成品中,做得更出众。 但不管用上了怎样的复杂技术,其目的都在指向一个生成效果:「保持多视图一致性」。 我们用最直观的方式来把这个复杂的技术尽量解释清楚:在视频制作特别是动漫制作中,人物的动作是通过逐帧过渡完成的,原理类似于小时候经常玩的手翻书,每一页都是静态的手绘稿,快速翻动就能通过人眼「视觉暂留」的 BUG 让画面动起来。 手翻书原理展示. 图片来自:@翻页书安迪Andymation 因此在制作虚拟形象之前,会用「三视图」作为基准点,将人物的其他动作补充完整,早些年的一些 AI 高清视频就是在原有的帧数基础上用「暴力加帧」的方式,来获得更高清、连贯的成像效果。 上述三家公司正在攻克的「扩散模型」,最大的难点是用仅有的一张图片,来自动「脑补」接下来的动作和场景,并且前后都没有参照物。 所以官方的对比展示中,看到传统技术「DisCO」被作为反面教材反复鞭打,其严重的失真效果只能做到让主体动起来,但扭曲的身型和奇怪的动效完全称不上作品。 当然这也侧面看出了字节、阿里和 Google 在「一致性」保持中的突破性成就,对 AI 生成的视频最大的夸奖,就是很逼真。 吹毛求疵地对比了三家的前沿技术,尽管在主体的细节把控上还略有失真,但和以前相比已经有了彻底的变化,起码「黑科技」引入短视频平台时,会有相当多的创作者会使用它们作为下一个成品的创作工具,产品从 PPT 走到现实,最终还是依靠过硬的本领。 在翻阅 MagicAnimate 的论文时,摘要最后的一句话,有种似曾相识的感觉 Code and model will be made available. 这并不是字节第一个开源的项目,在此之前其已经公开了 Magic 家族中的另外两项技术的代码:「MagicEdit」「MagicAvatar」 创造魔法,用这三板斧 用 MagicAnimate 一个软件来和其他两家的技术比较,似乎没有显现出像网上讨论的那般优势,但集齐「Animate」「Edit」「Avatar」这三板斧,字节跳动在视频生成的创新中,就有些「摇摇领先」的趋势了。 MagicAvatar 是视频界的 DALL·E,并且是超级加倍的版本,最基础的功能就是用文本生成指定的动图,这和 GPT 的图像生成大同小异,只是生成对象不同。 进阶的使用方式,给定一个源视频,再输入想呈现的效果,你会打开新世界的大门,甚至会有一种「奥斯卡有手就行」的蜜汁自信。 看看 MagicAvatar 给出的答卷,你就能懂得这种自信不是空穴来风,成像真的很逼真。 当然还有一种混合玩法,就是在文章开头 MagicAnimate 所展示的能力:静态图片通过指令生成动态视频。 MagicEdit 在三者当中的定位更加通用,通过高保真度和时间连贯性来生成视频的编辑工具,在不改变视频整体动作进程的基础上,调节视频当中的部分元素,如「颜色」「天气」「主体种类」来生成一幅新作。 生成过程中也会创造出一些有点违和的物种,比如「虎兔」「狗猫」。这是我们最喜闻乐见的环节,这种「失误」也往往能给这些人工智能的新技术带来再一次热度。 印象最深的是这个场景扩充的功能,不仅能给较小的视频画面增添画幅、扩充背景,还可以把增加后的主体缺失部分完全补齐。 跑步的帅哥到底穿长裤还是短裤,画幅横着还是竖着现在都由你说的算。 抖音当中已经加入了类似的 AI 扩图模版,经过我们的实测效果不错,但评论区翻车的场景应该会比任何一个正常生成的案例都能让你记忆犹新。 不用去考究这些失败作品的真实性,因为在大家愿意将其作为笑点中心的时候, AI 生成视频的第一个目的就已经达到了:去体验新的技术,并且参与在其中。 新的可能,在新技术里 一天之内翻阅了各大公司在视频「扩散模型」的最新成就,算不上打开了新世界的大门,但接近真实的生成效果仍然能让我留下深刻的印象。 但从新技术的新鲜感中跳脱出来,会有一种「这能干吗」的强烈疑问。 2023典型媒体用户活跃度规模统计. 图片来自:questmobile.com这是截止到 2023 年 9 月,抖音、快手、小红书、哔哩哔哩、微博五大典型新媒体平台去重活跃用户统计,总规模达到 10.88 亿,渗透率将近 90%,短视频已经成为了网民「触网」的首要应用。 其中有超 1.5 亿网络直播账号、超 10 亿内容创作者账号,即使你我都不是视频的创作者,但你我的身边遍布着视频生产者。 如此庞大的观众数量需要有更多元的视频内容来填充我们的浏览需求,而如此硕大的创作需求也要有更多的新技术来激发制作人的创意和灵感。 依靠 AI 视频生成、一致性保持技术,我们的确可以在不久的将来,看到更多的创作者因为新科技打开更多的创作灵感,也会因为震撼的视效带给网民更高质量的冲浪内容,今后的大片特效不再是专业导演和剪辑师的专属,有创意的你用手边的电脑,也能给短视频注入更多的可能性。 以上的所有技术,就是在给短视频和创作者,创造新可能。 本文来源:APPSO |
原创栏目
IT百科
网友评论
聚超值•精选