太平洋科技行业

首页 > 科技要闻 > 科技> 正文

快手「可灵」再进化！视频续写可达3分钟让全球网友炸锅

新智元整合编辑：太平洋科技发布于：2024-06-26 15:14

由华为云驱动

快手可灵AI推出图生视频和视频续写功能，全球网友炸锅。新功能化静为动，让视觉叙事按需定制；视频续写挑战更大，最长可达3分钟。快手在AI大模型时代布局多项关键技术，并获得国际计算机视觉顶会认可。

最近，可灵AI直接让一位网友的家人群里炸锅了……

事情是这样的，这位网友的父亲需要做搭桥手术，为了给父亲鼓舞，他便试着用可灵AI把爷爷的两张老照片还原成了视频。

在下面这个视频中，爷爷正在朝鲜战场，担任营辅导员。穿越时光隧道，1950年代风华正茂的爷爷，对着他挥了挥手。

这位网友把视频发到家人群后，群里直接炸了！

下面这张黑白的合影，是全家唯有的一张全家福。

当已经故去的人忽然动了起来，音容笑貌一如往昔，每个人都泪目了。

家人们久久不能平静，即使已过午夜，群里仍然不断有消息响起。

用AI还原老照片后，全家人仿佛一起经历了一场寻根之旅，从长辈口述的「家史」中，每个人都获得了更多的自我身份认同感。

网友「珏哥」在他的公众号「觉得有意思」里表示，在他看来，AI最大的意义就是成为一台超级造梦机器：安排自己做个美梦，一觉醒来就有继续去生活的劲头了。

歪果仁都「馋哭了」

是的，这几天快手可灵最新上线的图生视频和视频续写功能，不仅在国内掀起一波试用的热潮，还「馋哭」了一众外国网友。

如今，X上已经铺满了可灵生成和续写的视频。

比如这张著名的经典表情包，经过可灵的续写后终于有了大结局！

每一步都在意料之外，但似乎又在情理之中（手动狗头）

狗狗吃面也变得活灵活现。

要知道，曾经的快手可灵一出世，就让外国网友们发出心悦诚服的感叹：效果居然比Sora还要好！

同样是吃汉堡，可灵生成的「咬痕」就要比Sora更加逼真

一些申请到试用资格的用户纷纷表示「真香」。而那些不能亲自体验的国外网友，纷纷「跪求」帮忙生成。

可以说，可灵给全世界的开发者们，再次带来了来自中国的亿点点震撼！

作者：温维斯Wenvis

值得一提的是，由于太过爆火，快影App截至目前已有累计超过20万人排队申请。

所以说，这次可灵的两大全新功能，究竟强大在哪里？

图生视频

首先来看第一个功能——图生视频。

这一功能直接做到了化静为动，让我们从此可以按需定制视觉叙事。

可灵在文生视频上的诸多强大功能，也被一一完美融入了，比如创造逼真的运动场景、精确模拟物理特性、将复杂概念巧妙融合、输出电影级画质、自由调节视频纵横比等等。

上传一张图片，接下来，就是奇迹出现的时刻。

永远面带谜之微笑的蒙娜丽莎，竟然戴上了墨镜，瞟向观众们的小眼神，更多了一丝调皮和狡黠。

prompt：蒙娜丽莎用手戴了眼镜

构建复杂时空一绝

业内都知道，模型在转换静态图像为动态视频时，如何细腻而准确地实现大幅度运动场景，要克服不少难点。

对此，可灵充分利用了基础模型架构中的3D时空联合注意力机制，在构建复杂时空运动方面，表现令人惊叹。

下面这个由静图生成的牧羊犬追球的视频，自然流畅，效果非常丝滑。

无论是牧羊犬一下一下晃动的耳朵，还是随风飘扬的毛发，看起来都很符合物理规律。

prompt：可爱的牧羊犬在奔跑，网球在弹跳，温馨的氛围

汽车在公路上飞驰的这段视频，可灵对整体画面的处理效果简直堪称广告级大片。

不仅汽车疾速前行的姿态逼真自然，对向车道上接连不断的车流、道路两旁向后掠去的树木、虚化处理的隔离带，无不模拟出了疾驰的速度感，几乎挑不出破绽。

prompt：汽车在公路上高速行驶，速度感，广告片

文本指令控制视频，女孩一键转身

更厉害的是，可灵的图生视频模型还融入了强大的提示词融合技术。

这就意味着，用户可以对模型下达文本指令，来人为地掌控视频中对象的动态表现了。

比如上传这张女孩的照片后，普通的模型，可能会默认增加发丝飘动、花朵摇曳、水面闪烁波纹的效果。

但在可灵中，我们可以输入「转身背对镜头」的提示词。

模型输出的视频中，女孩就开始优雅转身，并且增添了转身瞬间微笑、眨眼的细节，显得更加自然生动。

可灵的这个新功能，也让我们的想象力可以充分放飞。

比如小编在看《权力的游戏》时经常想象的一个场景——「愤怒的巨龙，漫天飞沙，奇幻风格电影」，提示词输入后，幻想中的场景瞬间成真了！

巨龙昂首展翅，掀起漫天黄沙，咆哮声震耳欲聋

这种文本与图像意义的紧密联动，无疑对影视制作等行业意义重大。（看来好莱坞导演撤掉8亿美元摄影棚，的确是明智的选择）

从此，视觉叙事可以按需定制，许多行业必将掀起新的飓风。

此外，这个模型还能支持不同风格的图像输入，无论自然写实，还是风格化图像。

同时，它还兼容各种长宽比的图像输入，可以说是为国内各个短视频平台量身打造。

这张竖版的骑士，黑袍飞舞，光剑仙气环绕，氛围感瞬间拉满

实测效果

凭AI电影《山海奇境》刷屏全网的制作人陈坤，半年之后用可灵的图生视频功能重制了一遍《山海奇镜》的预告片。

留言区的网友直呼「有大片的味道」。果然AI一天，人间一年。

这位叫「海军爱摄影」的网友，直接将自己的摄影作品变成了视频。

奔跑的女孩与骆驼，黑白的色调，颗粒的老电影质感，把摄影作品中包含压迫感的内涵意蕴升华到了令人震撼的地步。

当世界名画开始动起来，会给人怎样的体验？

「JessyJang」用可灵让我们大开眼界。

无论是现代艺术的经典之作《The Son of Man》，还是著名油画《戴珍珠耳环的少女》《吹笛少年》，都忽然开始活灵活现。霍格沃茨城堡上的油画，原来是真实存在的？

B站up主「呜哩智绘」，用可灵的图生视频功能，生成了各个样子的戴珍珠耳环的少女。

人物动作、面部表情、手部细节、视频中的光影，都堪称完美。

「呜哩智绘」直言：这是「目前我玩过的最稳定好用的图生视频」。

网友也表示——

「喜好儿网」则用可灵让历史人物活了起来。

网友们惊呼，可灵做出的爱因斯坦简直跟纪录片一样。

up主「鑫訫向荣」直接把语文课本里的插画都还原了出来。还记得这些都是哪一课吗？

up主「花染色体TT」，干脆用可灵做了个「伪log」。

用几张12年前的照片，让记忆中的场面鲜活起来。此时，距离高考还有16天——

美女的照片，变成视频后美得更有冲击力了。

即使混进了一些奇怪的东西，看起来似乎也很自然。

视频续写

其次，是对算法挑战更大的「视频续写」。

它不仅要求模型理解视频的基本元素，以及更深层次的叙事结构，还需要创建新的情景，而且在视觉和主题上都要保持连贯。

在这一领域，可灵则成功地把强大的想象力和精细的可控性发挥得淋漓尽致。

随着功能的正式上线，所有视频立刻在原有基础上原地「+5秒」！

无论是文生视频还是图生视频，皆可适用。

这对于创作者来说，视频续写至关重要。因为这种强大的叙事能力，可以极大地拓展他们的创作边界。

无独有偶，Runway的Gen-2可支持将视频时间最高延续到18秒，每次点击「Extend」功能，可完成4秒的视频，而且能够保持人物的一致性。

同样，Pika也支持视频延续的功能，而且用户可以指定想要生成的时间，与原始视频无缝集成。

而上周，初创公司Luma AI发布的AI视频模型Dream Machine，直接就定位为「续写模型」，还能免费试玩。

各种表情包，成为网友们恶搞的对象，经过Dream Machine的想象，所有的静图都有了完美的后续。

可见，视频续写代表着整个AI视频模型发展未来，打破了传统视频编辑的界限。

多次续写，最长可达3分钟

更瞩目的是，可灵大模型甚至还能连续多次续写，这样的结果就是，我们最长能够生成长达约3分钟的连贯视频！

续写x1：一个女人站在雪地里，抬起右手摸了一下帽檐

续写x2：女人的手放下，并望向远方

深刻理解物理世界，合理且大幅度动作无破绽

可以看出，新生成的部分和原视频之间，依然保持着运动连贯性和物理的合理性，这正是基于可灵大模型对于物理运动的深入理解。

而这种续写，就给巧妙融入大幅度动作变化带来了可能，让视频的生动性大大提高。

续写x1：宇航员从月球表面跳起来，飞向太空

同样，在视频续写中也集成了文本控制机制，因此用户可以通过自定义提示词，为每段视频注入个性化的创意。

由此，我们想要的每次场景都可以平滑过渡，可以说是不放过咱们都任何一个灵感小火花！

文本控制续写，场景转换丝滑

比如这座古堡，我们既可以在场景中让「太阳落下，天空变暗，灯光渐亮」，随后让「灯光亮起，雾气氤氲」。

实测效果

而网友们用续写功能做出来的视频，效果简直一个比一个炸裂！

网友「石硕Simon」直接用可灵的续写功能创作了长达1分多钟的一镜到底。

多次续写的镜头，依然保持着令人叫绝的连贯性。

「PlayerKang」生成的59秒奔驰汽车大片，无论在连续性、稳定性和流畅性上都令人叫绝，已经接近了替代商业广告片的水平。

「西地宇宙CDVERSE」用可灵的视频续写功能，做出了一套古香古韵的「日出东方」大片。

整个视频，是用一张图片生成的长镜头。

每个镜头中的人物，始终保持着稳定。

技术积累

此次进化，可灵文生视频基础大模型被无缝整合到「图生视频」和「视频续写」功能中，带来了更丰富、灵活的视频创作体验。

这些能力，都基于快手在AI大模型时代的不断布局。

快手先后发布了，通用大语言模型「快意」，文生图大模型「可图」，还有Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频生成关键技术。

恰逢近日在美国西雅图举行的国际计算机视觉顶会CVPR 2024上，快手也同步发布了可灵大模型的图生视频和视频续写等最新功能，引起现场的强烈反响。

公开资料显示，今年快手共有8篇论文入选CVPR 2024，彰显了其在该领域的深厚研究功底。

除了凭借创新的技术在CVPR上大放异彩之外，作为一家引领行业发展的公司，还要用战略眼光将技术落地到应用。

就在即将开幕的2024世界人工智能大会（WAIC）上，快手将举办以「新AI·新应用·新生态」为主题的大模型技术生态论坛。

届时，不仅会发布最新的大模型技术，还包括快手大模型技术矩阵全景、应用和落地现状等一系列多维度、多方向的战略讨论。

本文来源：新智元

可灵AI 视频创作图生视频

新智元

原创栏目

三星Galaxy S26系列现场上手：防窥屏杀疯了！

一款为不妥协而生的游戏显示器

换个视角看世界这台小相机有点东西

手机中暑急救指南：9款散热背夹横评

IT百科

更多 >

抖音网页版怎么进入

iPhone12外观实锤！这2个问题还会重演吗？

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

更多>

推荐手机 笔记本 影像硬件家居商用企业出行未来

太平洋科技 行业

快手「可灵」再进化！视频续写可达3分钟让全球网友炸锅

构建复杂时空一绝

文本指令控制视频，女孩一键转身

实测效果

多次续写，最长可达3分钟

深刻理解物理世界，合理且大幅度动作无破绽

文本控制续写，场景转换丝滑

实测效果

太平洋科技行业