首页 > 科技要闻 > 科技> 正文

文生图赛道内卷加速,全面开放的谷歌Imagen 3能否成功搅局?

头号AI玩家 整合编辑:太平洋科技 发布于:2024-09-17 18:08

全网都在被前Stability AI团队打造的Flux.1刷屏时,谷歌悄咪咪地开放了Imagen 3的公测。

在“Made by Google 2024”大会上,谷歌还推出了一款基于Imagen 3打造的本地生图APP——Pixel Studio,据说2秒之内即可生成各种图像,同样受到不少关注。

据了解,Imagen 3由DeepMind团队操刀,早在今年5月就开放了一小波内测。同其他文生图模型的“口号”如出一辙,谷歌也号称Imagen 3是他们“最高质量的文本到图像模型”,在提示词理解、图像质量和文本渲染能力方面都有显著提升。

从官网发布的演示图片来看,不管是照片写实主义,还是油画、平面艺术等风格,Imagen 3的表现都不错。在细节方面,如人物皮肤质感、光影塑造等也令人眼前一亮。

来源:Google官网

来源:Google官网

但文生图模型如今已卷出新高度,,网友也不禁发问:“看起来是很棒,但相比于其他模型,Imagen 3的优势何在?”

带着这个问题,“AI新榜”第一时间用几组相同的提示词对Imagen 3、Flux、Midjourney进行了对比实测。

照片写实(Photorealism)

Reddit上有关Imagen 3的热帖几乎都在讨论它在生成包含人物图像时的惊艳表现,有网友更是晒出了自己“调教”Imagen 3的Prompt供大家实测,并表示Imagen 3在刻画人物面部细节和遵循提示词指示方面能够吊打新晋网红Flux。

提示词:Two 22 year old women at a Swedish midsummer festival. The woman to the right has a blue and red striped top. The one to the left has a dress with a dandelion pattern. The left girl has red hair. The other has blond.

这是评论区网友把提示词喂给Flux后生成的图片,说实话除了生成的两张脸太过相似之外,Flux这波表现已经能够“以假乱真”了:

由Flux生成

那Imagen 3的表现得有多好才能让这群吃过那么多“细糠”的网友直呼“amazing”,甚至为了Imagen 3在评论区“大打出手”:

请看:

由Imagen 3生成

同样,我们也把该提示词喂给了文生图领域“霸主”Midjourney:

由Midjourney V6生成

从图像质量上来说,不论是Midjourney还是Flux,生成的人物写实感都不够强,皮肤质感光泽感太像油画。此外Midjourney和Flux都犯了一个同样的错误,生成的人物太过相似。

对比之下,Imagen 3的赢面就大多了,除了第一张图在“面部雀斑”方面效果不如Midjourney,这图片乍一看谁还能分辨出是真人还是AI?怪不得评论区网友们“急了”。

提到人像,怎么能不试最近爆火的AI演讲美女:

提示词:一位来自谷歌的女士正在台上发表演讲,右手拿着麦克风,左手做着手势,白色背景下公司标志模糊,科技会议。

由Imagen 3生成

由Midjourney V6生成

由Flux生成

Imagen 3和Midjourney的人像都很不错,但Flux就显得比较一般了。

既然Imagen 3在照片写实(Photorealism)方面这么突出,我们又测了测它在人像以外的表现。

提示词: 舒适的书房,画面左边配有一张豪华天鹅绒扶手椅,上面铺着一条厚针织毯,座位上放着一本风化皮革封面的书。旁边是一张粗糙的木质边桌,放着一个精致的瓷茶杯,杯子上面有复杂的花卉图案。

由Imagen 3生成

由Midjourney V6生成

由Flux生成

Imagen 3整体风格偏暖色系,对木质桌子细节的刻画也很不错,前三张背景都能看出是“书房”,但最后一张两边墙壁的风格明显没有统一。

Flux的表现中规中矩,细节刻画方面如沙发质感和木质边桌比较一般。Midjourney在理解提示词方面有些“已读乱回”了,这本“风化皮革封面的书”一会放在椅子上,一会又放在了茶杯下。

在自然风景上,Imagen 3的表现也还不错:

提示词:一条充满情调和气氛的道路穿过一片茂密的高大常青树森林。道路湿滑,反射着微妙的光线,中间有淡黄色的线条。

由Imagen 3生成

由Midjourney V6生成

由Flux生成

我们在Midjourney擅长的广告产品图像方面也“拷打”了一番Imagen 3。

提示词:产品摄影,奢华的香薰扩散器瓶放置在光滑的反光表面上,旁边是一瓶香槟和一小束新鲜、精致的鲜花,背景由金色和白色的墙壁组成,利用从附近窗户射入的美丽自然光投射出柔和的阴影

由Imagen 3生成

由Midjourney V6生成

由Flux生成

Midjourney不愧是令广告摄影师“闻风丧胆”的存在,光影细节方面确实比Imagen 3处理得更好,Flux对香薰扩散器的理解好像有些“跑偏了”。

文本渲染(Text rendering)

文字生成表现如何,也是对文生图模型的一项重要考验。从上面的产品图像也能看出,AI要么干脆不生成文字,要么尽可能地模糊文字。

但谷歌这次对Imagen 3在文字生成方面的提升非常有信心,而刚巧FLUX在这方面的能力也获得诸多好评,于是我们就干脆让它俩打个擂台。

来源:Google官网Imagen 3产品介绍

先从简单的入手,让它们生成一个单词。文字方面都没有出现错误,Flux风格简洁,Imagen 3则又在擅长的写实人像上炫技了。

提示词:一个女孩穿着粉红色的T恤,T恤上面写着“Fantasy”,背景为单色

左为Imagen 3 右为Flux

接下来上难度了,让它们生成一张科幻电影海报,并生成带有三个英文单词的电影式标题。

提示词:为一部科幻电影设计一张复古风格的电影海报。海报应采用复古未来主义的装饰艺术风格,并突出显示“Mars: Burning Rosebud”字样。包括闪闪发光的太空基地图像,上方的星空中可见地球。

左为Imagen 3 右为Flux

再来一张超高难度活动海报。

提示词:为“Day Dreamer: Amusement Park Festival”制作一张充满活力的活动海报。设计应以游乐园景点元素拼贴为特色,例如过山车、摩天轮和色彩缤纷的嘉年华游乐设施。标题“DAY DREAMER”应采用大型彩色图形设计字体放在顶部,让人联想到经典的主题公园标牌。在下方添加带有霓虹灯点缀的粗体复古风格字体文字“Amusement Park Festival”。在底部,添加简单易读的字体“Open 9AM-9PM·Diasy Land·Tickets at daydreamer.com”。融入微妙的复古嘉年华海报效果,略带颗粒感和褪色色彩。

左为Imagen 3 右为Flux

文字一长,不管是Imagen 3还是Flux都出现了一些拼写错误和重复问题,但这也无可厚非,毕竟文本渲染对于文生图模型而言,还有很长的路要走。

文生图赛道“卷”出新高度,谷歌Imagen 3“突围”难

综合看下来,Imagen 3确实是个不错的文生图工具,谈不上“拳打”Midjourney、“脚踢”Flux,但总归还是没有令人失望。

不过对于谷歌而言,文生图模型已经“卷”出了新高度,用户可供选择的工具太多,大多数模型的生图效果也大差不差,如果没有惊艳表现,想要在文生图赛道“出圈”还是有点难度

这次谷歌开放Imagen 3的公测,虽然生图效果与Flux差不多,但其热度远远比不上全网讨论的“黑马”Flux。一方面是谷歌确实没有对Imagen 3进行什么“宣传”,还有一个原因可能在于,“拜托,这可是谷歌啊”,我们对于谷歌的期待难道就这?

更别说谷歌产品看上去“限制”更多:Imagen 3经常会因为谷歌的内容政策要求而拒绝生成图片,并要求用户修改Prompt。

我们在实测时也遇到这样的情况,比如生成电影海报时,原先的Prompt是希望生成“2001:A Space Odyssey(电影《2001太空漫游》)”文本,或许是因为涉及到版权问题,Imagen 3不干了:

这也成为用户在选择Imagen 3时的一层考虑。


当然,如此缜密的内容政策也是一把“双刃剑”,长期来看还有助于减少内容侵权带来的风险。

ps. 目前为止Imagen 3还能在Image FX上免费无限次使用,感兴趣的玩家可以点击体验。

本文来源:头号AI玩家

头号AI玩家

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部