type
status
date
slug
summary
tags
category
icon
password
URL
项目地址:
字节跳动继续投资人工智能研究,并推出了一种新的人工智能模型来生成视频,其性能优于其他方法。
字节跳动研究人员开发了 MagicVideo-V2,这是一种用于生成文本到视频 (T2V) 的新型生成式 AI 模型,旨在超越 Runways Gen-2、Pika 1.0、Morph、Moon Valley 或 Stable Video Diffusion 等其他 T2V 系统。
据该团队介绍,MagicVideo-V2 与现有的 T2V 型号不同,它集成了多个模块,这些模块协同工作以生成高质量视频。
该团队将文本到图像 (T2I)、图像到视频 (I2V)、视频到视频 (V2V) 和视频帧插值 (VFI) 模块组合在一个架构中。
T2I 模块根据文本输入创建初始图像,从而为进一步的视频生成提供基础。然后,I2V 模块将图像作为输入,并提供生成视频的低分辨率关键帧。
V2V 模块提高了关键帧的分辨率并提高了细节水平。最后,VFI 模块对视频中的运动进行插值和平滑处理。
字节跳动探索全方位生成式人工智能
研究人员表示,MagicVideo-V2 能够生成与文本提示匹配的 1,048 x 1,048 像素的高分辨率视频,预计将优于其他视频生成 AI 模型。
该团队写道,在一项近 60 名人类参与者的盲测中,MagicVideo-V2 视频更受青睐。该团队将更好的结果归因于将模块集成在单个模型中,而不是单独串联多个模型。
MagicVideo-V2 的结果明显优于该公司于 2022 年底推出的第一个版本。字节跳动最近还通过 MagicAnimate 推出了一种 TikTok 生成器,正在开发聊天机器人的开放平台,并且还在通过 MVDream 研究文本转 3D 模型。
研究人员计划进一步改进MagicVideo-V2。 MagicVideo-V2 项目页面上有更多示例以及与其他模型的比较。
总结
- 字节跳动研究人员展示了 MagicVideo-V2,这是一种用于文本到视频 (T2V) 生成的新型生成式 AI 模型,旨在超越现有的 T2V 系统。
- MagicVideo-V2集成了文本转图像(T2I)、图像转视频(I2V)、视频转视频(V2V)和视频帧插值(VFI)等多个模块,可生成高质量的视频。
- 该模型可以生成 1,048 x 1,048 像素的高分辨率视频,在其他模型的盲测中受到人类参与者的青睐。
- 作者:Ai-皇帝
- 链接:https://www.ai-hd.com/article/8de6d5b6-f045-4b7f-b7bb-f07504174aff
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。