新闻资讯
谷歌开放Gemini 1.5 Pro的访问权限并推出带有图像动画的Imagen 2.0
00 分钟
2024-4-10
2024-4-9
type
status
date
slug
summary
tags
category
icon
password
URL
Google Cloud 在 Next 会议上推出了 Vertex AI 的新模型和功能。这包括迄今为止最大的语言模型上下文窗口的 Gemini Pro 1.5 的公共测试版本和 Imagen 2.0 的“动态图像”。
在 Google Cloud Next 大会上,这家搜索引擎巨头宣布了其人工智能平台 Vertex AI 的创新。谷歌机器学习、系统和云人工智能副总裁/总经理 Amin Vahdat 表示,Vertex AI 不仅可以开发人工智能应用程序和代理,还可以部署和维护它们。

Gemini 1.5 Pro 提供迄今为止最大的 LLM 上下文窗口

Gemini 1.5 Pro 语言模型现已在 Vertex AI 中作为公开试用版提供。据 Vahdat 称,它提供了多达一百万个代币的上下文窗口。该规范描述了模型可以同时处理的数据量。
迄今为止,Claude 3 中最大的商用上下文窗口为 200K,因此 Gemini 1.5 超过了此值五倍。
大上下文窗口支持对大量数据进行本机多模态推理。
据谷歌称,客户可以使用它来开发新的用例,包括人工智能驱动的客户服务代理和学术导师、分析大量复杂的财务文档、识别文档差距以及以自然语言探索整个代码库或数据集合。
然而,这些大型上下文窗口在无缝处理输入信息方面仍然存在明显的弱点。
Vertex AI 上的 Gemini 1.5 Pro 还支持处理音频和视频流。这可以实现无缝的多模式分析,提供来自文本、图像、视频和音频的见解 - 例如,该模型可以转录、搜索、分析和回答有关结果演示或投资者会议的问题。

连接到实时数据和公司数据

为了提高语言模型的答案准确性,Google 正在扩展其在 Vertex AI 中的基础功能,包括直接从 Google 搜索或公司数据推理答案的能力。
谷歌表示,这使用户能够访问最新的高质量信息,从而提高了模型答案的准确性。
以特定数据为基础也是开发下一代人工智能代理的基础,该代理将超越聊天功能,主动搜索信息并为用户执行任务。
谷歌还扩展了 Vertex AI 的 MLOps 功能,包括新的提示管理服务和大型模型评估工具,以帮助公司更快地从实验转向生产。
现在,客户在使用 Gemini 1.0 Pro 和 Imagen 时可以将 ML 处理限制在美国或欧盟。

Imagen 2.0 使图像动画化

Imagen 2.0 系列成像模型现在可用于根据提示生成简短的四秒“实时图像”。最初,实时图像以每秒 24 帧的速度传输,分辨率为 360x640 像素,持续时间为四秒。
该模型适用于自然、食物和动物等主题,可以产生一系列摄像机角度和运动,同时保持整个序列的一致性。 Imagen 配备了安全过滤器和数字水印。
Imagen 2.0 现在还提供高级图像编辑功能,例如内画和外画。这可用于从图像中删除不需要的元素、添加新元素以及扩展图像边缘以创建更大的视野 - 所有这些都通过文本输入进行。
基于 Google DeepMind SynthID 的数字水印功能现已普遍可用。它允许客户创建隐形水印并验证 Imagen 系列模型生成的图像和实时图像。
总结
  • 谷歌云在 Next 会议上公布了其 AI 平台 Vertex AI 的新功能,包括迄今为止最大的语言模型 Gemini Pro 1.5,具有多达 100 万个令牌上下文窗口以及音频和视频流的多模态处理。
  • Vertex AI 扩展了其基础能力,通过直接从 Google 搜索或企业数据中获取答案来提高语言模型的准确性。
    • 此外,MLOps 功能也得到了扩展,以加速从实验到生产的过渡。
  • Imagen 2.0 成像模型现在可以根据提示生成简短的“实时图像”,并通过文本输入编辑图像,并具有数字水印功能来验证生成的内容是否普遍可用。
 

评论
  • Twikoo