type
status
date
slug
summary
tags
category
icon
password
URL
谷歌研究院正在推出“VideoPrism”,这是一种新的视觉视频编码器,旨在作为视频理解领域各种任务的基础。
据谷歌称,VideoPrism 可用于许多不同的任务,包括理解和分析视频。
该模型在检测视频中的对象和活动、查找相似视频以及与语言模型结合时描述视频内容和回答有关视频的问题方面取得了出色的效果。
VideoPrism 基于 Vision Transformer (ViT) 架构,该架构允许模型处理视频中的空间和时间信息。
该团队在自建的大型且多样化的数据集上训练 VideoPrism,该数据集包括 3600 万个高质量视频文本对和 5.82 亿个带有噪声或机器生成的并行文本的视频剪辑。
据谷歌称,这是同类中最大的数据集。
据谷歌介绍,VideoPrism的特别之处在于它使用了两个互补的预训练信号:文本描述提供有关视频中物体外观的信息,视频内容提供有关视觉动态的信息。
训练分两步进行:首先,模型学会将视频与适当的文本描述链接起来。然后它学会了预测视频中缺失的部分。
在对 33 个视频理解基准进行的广泛评估中,VideoPrism 在 30 个案例中取得了最先进的结果 - 使用单个冻结模型只需最少的调整工作。
它在分类和本地化任务中优于其他基础模型,并且与大型语言模型结合使用时,在视频文本检索、视频字幕和视频问答方面表现良好。
VideoPrism 在科学应用中也表现出色,例如动物行为或生态分析,甚至优于专门为这些任务开发的模型。
谷歌认为这是在许多领域改进视频分析的机会。
研究团队希望利用VideoPrism为人工智能和视频分析交叉领域的进一步突破铺平道路,释放视频模型在科学发现、教育和医疗保健等领域的潜力。
总结
- Google Research 推出了 VideoPrism,这是一种视觉视频编码器,可作为视频理解任务的基础,在识别对象、活动和回答有关视频的问题方面取得了出色的结果。
- VideoPrism 基于 Vision Transformers (ViT) 架构,并在包含 3600 万个视频文本对和 5.82 亿个视频剪辑的大型数据集上进行了训练。
- VideoPrism 在 33 个视频理解基准测试中的 30 个中取得了最高成绩,并且在动物行为分析和生态学等科学应用中也表现出了令人印象深刻的性能。