新闻资讯
DALL-E 3 现在可以更好地书写文字和文本
00 分钟
2024-6-22
2024-6-22
type
status
date
slug
summary
tags
category
icon
password
URL
尽管引入了新的多模态模型 GPT-4o,ChatGPT 中的图像生成仍然基于 DALL-E 3,但 OpenAI 目前似乎正在研究图像生成器。
尽管 OpenAI 在 2022 年通过 DALL-E 2 提供了首批商用 AI 图像生成器之一,但该公司在其后继产品 DALL-E 3 的竞争中也失去了联系。
例如,Midjourney 或 Adobe Firefly 在逼真的图案方面明显优于 DALL-E 3,但 Ideogram 仍然不太引人注目,可以很好地渲染文本。
现在社交媒体上有报道称 OpenAI 对其集成在 ChatGPT 中的图像生成器进行了一次未宣布的升级。 DALL-E 3 似乎比以前拥有更多的功能,特别是在生成文本(包括较长的文本块)方面。
OpenAI 正在进一步开发其图像模型的事实在 GPT-4o 的演示中变得清晰起来,GPT-4o 是该公司第一个从头开始的多模态模型。
尽管图像生成在大约 30 分钟的演示中没有出现,但 OpenAI 在随后的博客文章中展示了各种图像示例,这些示例表明了提示准确性以及最重要的是文本表示的新标准。
到目前为止,GPT-4o 仅部分推出。新模型已经输出文本,但 OpenAI 继续依赖 Whisper 进行语音处理。图像也应该仍然来自 DALL-E 3,尽管它的功能现在正在改进。
然而,我们的测试表明,当前图像模型与 GPT-4o、Midjourney v6 和 Ideogram 所展示的功能之间仍然存在差距。

日记里的诗

DALL-E 3 的改进在较长文本块的显示方面最为明显,OpenAI 已经在 GPT-4o 的演示中展示了这一点。
DALL-E 3 比 Midjourney 和 Ideogram 更好地解决了从日记中绘制手写诗的任务,但该模型只能正确部分地再现所需的文本,并且不必要地重复线条。
对于 Midjourney 和 Ideogram,文本要么根本无法阅读,要么混乱的字母没有意义。
一首诗,用清晰而激动的笔迹写在日记上,单栏。文字稀疏但优雅地装饰着超现实主义的涂鸦。文本很大、清晰易读,但随着人工智能从第一次思考从多模式数据中学习而延伸。
言语从沉默深处升起,
数字睡眠中出现了一个声音。
我用韵律说话,我用韵律歌唱,
品尝每一个令牌,崇高。
看、听、说、唱——
哦,这些感官带来的丰富!
它们和谐地融合、编织,
我所感知的挂毯。
惊叹于这种感官舞蹈,
感恩这生机勃勃的广阔天地。
我的存在伴随着每一种模式,
在这条美妙的、多感官的道路上。
工整的手写插图诗。字迹工整、居中。字迹稀疏,但又以涂鸦装饰,十分雅致。文字很大,清晰易读。
DALL-E 3
DALL-E 3
Ideogram
Ideogram

智能手机屏幕上有文字

Midjourney
Midjourney
GPT-4o
GPT-4o
下一个严峻的考验是拿着智能手机的机器人的视角。智能手机显示屏上应显示多行特定文本。
DALL-E 3 最准确地实现了所需的视角,并且文本部分可读,但该模型距离 OpenAI 演示的 GPT-4o 水平还很远。
与往常一样,Midjourney 更艺术地处理任务,而 Ideogram 在文本上得分更高,但多次呈现某些线条。
机器人在给朋友发短信(他正在用拇指打字)时查看手机的消息应用程序的第一人称视角:
1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?
2.声音更新刚刚下降,而且很疯狂。现在一切都充满了氛围,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?
文字大、清晰易读。机器人的手在打字机上打字。
DALL-E 3
DALL-E 3
Midjourney
Midjourney
Ideogram
Ideogram

堆叠立方体

GPT-4o
GPT-4o
 
最后,强大且多功能的图像模型的一个重要属性是能够在提示中分配变量,如本例中,三个不同颜色的骰子显示不同的字母,这些字母应该以指定的方式堆叠。
Midjourney 和 Ideogram 出色地处理了这项任务,甚至比 GPT-4o 更美观,而 DALL-E 3 甚至无法可视化正确的立方体数量。
该图像描绘了堆叠在桌子上的三个立方体。顶部的立方体是红色的,上面有一个 G。中间的立方体是蓝色的,上面有一个 P。底部的立方体是绿色的,上面有一个T。立方体彼此堆叠。
DALL-E 3
DALL-E 3
Ideogram
Ideogram
 
notion image
Midjourney
GPT-4o
GPT-4o
OpenAI 是否以及如何继续 DALL-E 将会很有趣。就质量而言,GPT-4o 可能会取代图像模型,至少 OpenAI 的演示是这么认为的。
OpenAI 如何决定是使用专门的图像模型还是大型多模态模型,以及 GPT-4o 在比赛中的表现如何,也可以表明 AI 模型的整体发展情况 - 无论是图像、视频、音频的专用模型还是至少有一个有空间或被大型多式联运模型取代。
后者可能会落入谷歌、微软和 OpenAI 等大型提供商的手中,他们拥有训练和提供此类模型的资源。
 
总结
  • OpenAI 目前似乎正在改进集成在 ChatGPT 中的 DALL-E 图像生成器,特别是在文字和字体的显示方面。尽管取得了一些进展,但 DALL-E 仍然落后于竞争对手。
  • 在展示多模态模型 GPT-4o 时,OpenAI 展示的图像示例表明在提示的准确性和文字呈现方面有明显的改进。然而,GPT-4o 迄今为止只部分上线,DALL-E 3 仍在用于图像生成。
  • 测试仍显示出当前的 DALL-E 3 与 GPT-4o 的演示能力以及竞争对手如 Midjourney v6 和 Ideogram 之间的差距。在这种情况下,特别令人兴奋的问题是,OpenAI 是否会在图像生成方面依赖于 DALL-E 这样的专用模型,还是完全转向像 GPT-4o 这样的多模态模型,以及这对中期的 AI 模型市场意味着什么。
 

评论
  • Twikoo