MagicVideo-V2：字节跳动推出强大的人工智能模型，用于从文本生成视频

type

status

date

slug

summary

category

icon

password

URL

项目地址：

字节跳动继续投资人工智能研究，并推出了一种新的人工智能模型来生成视频，其性能优于其他方法。

字节跳动研究人员开发了 MagicVideo-V2，这是一种用于生成文本到视频 (T2V) 的新型生成式 AI 模型，旨在超越 Runways Gen-2、Pika 1.0、Morph、Moon Valley 或 Stable Video Diffusion 等其他 T2V 系统。

据该团队介绍，MagicVideo-V2 与现有的 T2V 型号不同，它集成了多个模块，这些模块协同工作以生成高质量视频。

该团队将文本到图像 (T2I)、图像到视频 (I2V)、视频到视频 (V2V) 和视频帧插值 (VFI) 模块组合在一个架构中。

T2I 模块根据文本输入创建初始图像，从而为进一步的视频生成提供基础。然后，I2V 模块将图像作为输入，并提供生成视频的低分辨率关键帧。

V2V 模块提高了关键帧的分辨率并提高了细节水平。最后，VFI 模块对视频中的运动进行插值和平滑处理。

字节跳动探索全方位生成式人工智能

研究人员表示，MagicVideo-V2 能够生成与文本提示匹配的 1,048 x 1,048 像素的高分辨率视频，预计将优于其他视频生成 AI 模型。

该团队写道，在一项近 60 名人类参与者的盲测中，MagicVideo-V2 视频更受青睐。该团队将更好的结果归因于将模块集成在单个模型中，而不是单独串联多个模型。

视频：字节跳动

MagicVideo-V2 的结果明显优于该公司于 2022 年底推出的第一个版本。字节跳动最近还通过 MagicAnimate 推出了一种 TikTok 生成器，正在开发聊天机器人的开放平台，并且还在通过 MVDream 研究文本转 3D 模型。

研究人员计划进一步改进MagicVideo-V2。 MagicVideo-V2 项目页面上有更多示例以及与其他模型的比较。