新闻资讯
OpenAI 的 Sora 不仅仅是一个文本到视频生成器
00 分钟
2024-2-17
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
OpenAI 的新人工智能模型看起来像是文本和视频到视频生成的巨大飞跃。但该模型的潜力更大:它可以成为一个世界模拟器。
昨天 OpenAI 推出了 Sora,一个用于生成视频和图像的大型 AI 模型。借助 Sora,OpenAI 能够制作长达一分钟、各种长宽比和分辨率以及前所未有的质量的视频。
Sora 基于类似的 Transformer 架构,该架构已在语言模型中使用,并将其与图像生成器的扩散技术相结合。
该模型在训练期间拍摄视频和图像,并将它们分解为更简单的形状和更小的部分。然后 Sora 可以从这些部分生成新的视觉内容。
与之前许多专注于特定类别的视觉数据、较短的视频或固定大小视频的作品不同,Sora 是一位视觉数据通才。
它可以生成不同长度、长宽比和分辨率的视频和图像。这还不是全部。

Sora作为一个世界模拟器

OpenAI 不对所使用的训练数据发表评论。
然而,OpenAI 迄今为止展示的场景包含视觉证据,表明 OpenAI 正在使用非常高质量的合成训练数据、由游戏引擎生成的逼真场景,而不是真实镜头或除了真实镜头之外。
这也将使该公司能够规避或减轻文本和图像生成器常见的可能的版权问题。 NVIDIA 的 Jim Fan 怀疑 AI 是使用虚幻引擎 5 生成的合成数据进行训练的。
例如,在下面的视频两位主角的动画很有启发性:虽然它们看起来很现实,但它们的一致性让人想起电子游戏。人类的运动更加多样化。
合成数据训练的另一个迹象是 Sora 可以制作具有动态摄像机运动和三维连贯性的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中连贯地移动。
Sora 可以通过简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下随时间变化的新线条,或者一个人可以吃汉堡并留下咬痕。
视频中的元素(例如波浪和船只)可以相互物理交互。
该模型不仅可以逐个图像地创建图像,还可以在世界中进行交互,类似于视频游戏。 OpenAI 专门以《我的世界》为例来做到这一点:Sora 可以生成一个《我的世界》世界并像在原始游戏中一样在其中进行交互。
您所要做的就是在提示中输入“Minecraft”。
这远远超出了视频生成的范围,并表明游戏图形创建方式发生了根本性转变。如果您需要更详细的证明,您可以观看看起来像是来自赛车游戏的场景演示。它展示了 Sora 如何以不同的变体表示相同的序列,从丛林到水下世界,从赛博朋克到复古像素艺术 - 仅使用文本命令。
notion image
当然,仍然有许多悬而未决的问题,例如计算量和交互深度。但在 Nvidia 的 DLLS 之后,计算机图形领域的下一个更深远的变化正在出现。
据 OpenAI 称,尽管 Sora 的功能令人印象深刻,但目前作为模拟器仍存在一些局限性。例如,Sora 无法正确模拟许多基本相互作用的物理过程,例如打破玻璃。
其他交互(例如进食)并不总是会导致对象的正确状态变化。其他常见的模型故障模式包括长期形成的不一致或对象的自发出现。
然而,这些问题可以通过进一步扩展模型来解决,OpenAI 表示:“扩展模型来生成视频是构建普遍适用的物理世界模拟器的一种有前途的方法。”
视频模型可以作为世界模型,因为它们比纯文本和图像模型更能代表日常生活的复杂多样性,这一想法并不是什么新鲜事。
视频人工智能初创公司 RunwayML 最近公布了自己的世界模型研究,初创公司 Wayve 正在使用视频模型来模拟自动驾驶汽车的道路交通。
Meta 多年来一直在收集数千小时的第一人称视频,以训练应对日常情况的人工智能辅助系统,在 Sora 揭幕当天,它推出了 V-JEPA,这是一种旨在预测和理解视频中复杂交互的新架构。
然而,OpenAI 的 Sora 让之前所有已知的方法和模型都相形见绌。

总结

  • OpenAI 推出了 Sora,这是一个令人印象深刻的用于生成视频和图像的人工智能模型。
    • 然而,该模型远远不止于此:Sora 可以充当世界模拟器,因为它能够通过交互生成一致的 3D 世界,类似于视频游戏中的世界。
  • 该模型很可能是使用虚幻引擎 5 等游戏引擎生成的合成数据进行训练的。 Sora 甚至可以生成交互式 Minecraft 世界。
  • 尽管 Sora 的功能令人印象深刻,但目前作为模拟器仍然存在局限性,例如不正确的物理模拟或长时间内的不一致。
    • 然而,OpenAI 认为这些问题可以通过进一步扩展模型来解决。
       

评论
  • Twikoo