OpenAI发布王炸级视频生成模型Sora
00 分钟
2024-2-16
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
OpenAI 推出了其第一个名为 Sora 的视频生成人工智能模型,并直接超越了竞争对手。
OpenAI 在博客文章和 X(以前称为 Twitter)上宣布推出该公司的第一个文本到视频模型 Sora。
Sora 能够制作长达一分钟的视频,展现出前所未有的质量水平,最重要的是,它具有时间稳定性,同时 - 根据 OpenAI 的说法 - 也能很好地遵循用户提示。狗在窗台之间爬行等例子展示了该模型令人印象深刻的视频稳定性。
视频:OpenAI
该人工智能模型现在可供选定的红队队员进行损害和风险评估,以及希望提供反馈以提高其对创意专业人士的实用性的艺术家、设计师和电影制作人。

OpenAI 将 Sora 视为通向 AGI 的基本模型

OpenAI 表示,Sora 目前的局限性在于难以准确模拟复杂的物理过程或捕获特定的因果场景。
例如,角色可能咬了一块饼干,但视觉效果(咬痕)可能会丢失。索拉也可能在空间细节上犹豫不决,例如区分左右,并且难以详细描述随时间推移发生的事件,例如: B. 跟踪摄像机运动时。
在安全方面,OpenAI 在将 Sora 集成到其产品中之前实施了多种策略:其中包括与红队成员合作以及开发工具,例如可以确定视频是否由 Sora 生成的检测分类器。
未来,如果该模型在 OpenAI 产品中使用,将会集成 C2PA 元数据。基于为 DALL-E 3 开发的安全方法,OpenAI 计划使用文本分类器来查找违反内容指南的请求,并使用图像分类器来检查视频帧是否符合使用指南。
视频:OpenAI
Sora 是一种扩散模型,可逐渐将静态、嘈杂的视频转换为清晰的图像。
该公司表示,通过将视频表示为数据字段的集合(类似于 GPT 的代币),该模型可以处理比以前更广泛的视觉数据。通过使用 DALL-E 3 的技术,Sora 可以更精确地执行生成视频中的文本指令。 Sora 生成的时间稳定性是可能的,因为该模型“可以同时预测许多图像”。正如目前 OpenAI 的惯例,有关该方法的具体细节尚不可用。
OpenAI 将 Sora 视为能够“理解和模拟现实世界”的基础模型,因此是迈向通用人工智能 (AGI) 的关键一步。
 
 

官网:https://openai.com/sora

 

总结

  • OpenAI 推出了 Sora,这是其第一个文本到视频生成人工智能模型,可以创建长达一分钟的视频,并具有令人印象深刻的视觉准确性和时间稳定性。
  • 该模型目前正在由一组精选的红队成员进行测试,以进行风险评估,并由视觉艺术家、设计师和电影制作人进行测试,以获取创意反馈。
  • Sora 的局限性包括模拟复杂物理过程和捕获特定因果场景的挑战。
    • OpenAI 正在研究安全措施,例如检测分类器和元数据集成,以用于未来的产品实施。
       

评论
  • Twikoo