近日AI圈乐疯了:先是DeepSeek高调官宣V3模型升级;紧接着谷歌深夜上线旗下最强模型Gemini 2.5 Pro。 双方夹击之下,OpenAI还能坐得住?这种时候,怎么能少得了OpenAI整活? 果不其然,奥特曼亲自出马,现场直播演示GPT-4o全新的原生图像生成功能。 经过各路大神上手实测,效果相当惊艳。 更让人意外的是,OpenAI这次也终于Open了一把,连免费用户也可以使用。 200万粉丝的网红Allie K.Miller,提前尝试过GPT-4o新功能表示:「新模型确实值得一试,特别在文本生成上取得了巨大飞越。」 在人物创作上,GPT-4o生成的照片毫无破绽,逼真到令人恐怖。 与DALL-E 3不同,此次OpenAI的全新图像生成器基于其原生多模态GPT-4o模型,能够同时理解图像和文本,可以非常好地遵循提示词指令,轻松创作出虚实结合的场景,就像在现实中一样。 比如下面图片,文字可以很好地融入到图片中去,还不怎么出现错字。 AI创意神器,设计师要失业? 从事创意的Lucas Crespo,已经研究了好几周OpenAI的新图像生成模型了。 简单总结,OpenAI的新模型几乎可以可视化全部东西,甚至包括待办事项列表(To-Do List),更不要提替换背景了。 Lucas Crespo认为新模型的确令人印象深刻,并分享了10个令人惊叹的用例。 1、给ChatGPT-4o输入情绪板或视觉指导,就可以创建遵循相同风格的图像。 穿着长袍的电脑人 2、制作信息图表(infographics),表现非常出色。 3、室内设计和改造,轻松10倍。 4、生成不同的角度的侧视图。 5、 将手绘变成高保真线框,UI设计轻松上手。 6、一次性显示完整漫画 8、也非常适合制作图画说明书 9、将元素组合成全新的图像 10、创建高质量的模特展示图 各种风格,不在话下关注ChatGPT的AI开发者Tibor Blaho,对此次更新非常满意: 在提示遵循、结果质量、排版、编辑能力、角色一致性等方面,都无与伦比。 在各种风格上,都令人印象深刻,而且可以简单地「与模型聊天」,就可以迭代编辑图像 ImageGen未经处理的输出的图像 1、不同风格的漫画 2、机器人打字日记 3、logo在不同材质上的效果 4、 卡通邮递员 5、友善的机器人 6、诗歌 7、网友自己的不同形象 人物写实,逼真到恐怖GPT-4o在生成人物细节方面,到了人眼已经无法辨别真假的程度。 下面这张女人的脸,睫毛根根分明,脸上斑点也是清晰可见,关键非常符合女性外貌特征。 还有更近一步,再近一步的瞳孔放大图。 如下生成的是2006年左右,农贸集市场真实照片。 职业女性工作照。 多模态演进:OpenAI主打实用性 AI生图的风格从一开始似乎就带有「科幻」色彩。 以OpenAI Sora的风格为例,对于提示词中天马行空的想象力,AI表现的总是游刃有余。 但是在昨夜直播中展现的GPT 4o,以及上述十个案例的风格预示着AI生图似乎开始「回归现实」。 GPT 4o最新生图功能的目的不再专注于创造典型的「超现实主义」AI艺术。 而更多地是主打一个「实用」——高度可控的创作。 提示词从神秘幻想的「黄昏时分,神秘森林,发光的生物优雅地漫步在高耸的苔藓覆盖的树木中」开始演进为「冰箱中上的磁贴和手里拿着单词卡的男人」。 而GPT 4o的生图功能很好的完成这幅了「现实主义」画作。 实用性提升,AI生图真的专业吗?而真正的提升,来自于GPT-4o对于提示词「细节」的严格遵循。 来自OpenAI的示例图像展示最新AI对这些细节的把控能力。 模型能够在单个图像中生成12个离散图形——如猫的表情符号或闪电图标——并将它们按正确的顺序排列。 下面的示例展示了模型创作的四杯鸡尾酒,配有包含准确文字的食物卡片。 甚至,可以完美的渲染出复杂的数学公式,这明显区别于以往的AI生图能力。 这似乎是一个明确的信号,AI的创造力不再局限于「随意发挥想象而不需要关注对错」的领域。 相比Midjourney和Sora早期还是被用来肆意挥洒想象力。 OpenAI正在将该工具定位于给专业人士使用:比如平面设计师、广告公司或插画师。 无论如何,OpenAI的新图像生成器不论是不是为了「狙击」谷歌和Grok等竞争对手。 从GPT-4o的生成结果来看,OpenAI的技术显然已经突破了某些技术障碍。 OpenAI给AI公司们「内卷」设定了更高的标准。 创新的速度也许会进一步加快。 本文来源:新智元 |
原创栏目
IT百科
网友评论
聚超值•精选