type
status
date
slug
summary
tags
category
icon
password
URL
Stability AI 发布了 Stable Video Diffusion,这是一种生成视频模型,旨在在用户偏好研究中超越商业竞争对手 RunwayML 和 Pika Labs。
稳定视频扩散以两种帧到视频模型的形式发布,每个模型都能够生成 14 和 25 帧,可自定义帧速率为每秒 3 到 30 帧。
视频扩散模型基于稳定扩散图像模型,由 Stability AI 在精心策划的专门策划的高质量视频数据集上进行训练。
它经历了三个阶段:文本到图像预训练、使用大量低分辨率视频数据集进行视频预训练,最后使用较小的高分辨率视频数据集进行视频微调。
稳定的视频扩散旨在超越商业模型
据 Stability AI 称,截至本文发布时,其模型在用户偏好研究中的表现优于 RunwayML 和 Pika Labs 等领先的封闭模型。
然而,RunwayML 和 Pika Labs 最近的表现甚至更明显地被 Meta 的新视频模型 Emu Video 超越,Emu Video 的表现甚至更显着地优于上述两个模型,应该会进一步领先。然而,它仅作为研究论文提供。
在他们的论文中,研究人员还提出了一种方法来管理大量视频数据,并将大型、杂乱的视频集合转换为适合生成视频模型的数据集。
这种方法旨在促进用于视频生成的稳健基础模型的训练。
稳定视频扩散最初仅作为研究版本提供
据说稳定视频扩散还可以轻松适应各种下游任务,包括从单个图像进行多视图合成,并在多视图数据集上进行微调。
Stability AI计划开发一个模型生态系统,并在此基础上构建和扩展,类似于Stable Diffusion。
Stable Video Diffusion 最初将仅作为研究版本发布到 Github,以收集有关安全性和质量的见解和反馈,并完善最终版本的模型。这些权重可在 HuggingFace 上找到。
此版本中的模型不适用于实际或商业应用。最终模型应该可以像稳定扩散一样自由使用。
除了发布研究版本外,Stability AI 还为具有文本到视频界面的新网络体验开放了等待名单。该工具旨在促进稳定视频扩散在广告、教育和娱乐等各个领域的实际应用。
Stability AI 最近通过 LLM 发布了用于 3D 生成、音频生成和文本生成的开源模型。