VideoPoet:谷歌最新的语言模型生成视频
00 分钟
2023-12-22
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

谷歌展示了VideoPoet,这是一个新的生成式人工智能系统,可以根据文本和其他输入生成和编辑视频

根据谷歌的说法,VideoPoet是一个大型语言模型,用于各种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和视频转音频。
与竞争模型相比,VideoPoet将许多功能集成到一个单一模型中,而不是依赖于为每个任务单独训练的组件。
 
视频:谷歌
VideoPoet是一个使用多个分词器进行训练的语言模型,这些分词器将输入转换为标记,用于视频、图像、音频和文本模态。然后,生成的标记可以由分词器解码器转换为视频。
根据Google的说法,使用语言模型进行训练的好处是可以重复使用现有训练基础设施中引入的许多可扩展的效率改进。
视频:谷歌
VideoPoet可以通过在视频的最后一帧上构建并预测下一帧来生成更长的视频。在此过程中,模型可以在多个迭代中保持所有对象的外观。
视频剪辑也可以进行编辑,例如改变风格或从一张图片生成视频。
 
视频:谷歌
在视频中,也可以通过描述所需的摄像机运动方式来精确控制摄像机的移动。
视频:谷歌

VideoPoet还可以生成带有声音的视频,比如这只弹钢琴的猫。

视频:谷歌

VideoPoet是实现“任意到任意”生成的一步

根据Google的说法,VideoPoet是通过一系列基准测试进行评估的,并将生成的视频与其他模型进行了比较。
参与者平均偏爱24%至35%的VideoPoet示例,因为它们与提示更匹配,而不像竞争模型Phenaki、VideoCrafter和Show-1。
根据谷歌的说法,该框架未来可能还会支持“任意到任意”的生成,并且会扩展到文本转音频、音频转视频和视频字幕等领域,还有“许多其他”功能。
有了巴德作为编剧,Google还制作了一部名为VideoPoet的小短片
 
 

总结

  • 谷歌推出了VideoPoet,这是一个可以根据文本和其他输入生成和编辑视频的AI系统,包括文本到视频、图像到视频和视频风格化。
  • VideoPoet是一个大型语言模型,使用多个分词器进行视频、图像、音频和文本模态的训练,从而将许多功能集成到一个模型中。
  • 在未来,该框架可能支持“任意到任意”的生成,并扩展到文本转音频、音频转视频和视频字幕,以实现更多样化的应用。
 

评论
  • Twikoo