新闻资讯
谷歌 Deepmind 的新人工智能代理仅使用语音玩游戏
00 分钟
2024-3-15
2024-3-15
type
status
date
slug
summary
tags
category
icon
password
URL
DeepMind 的 SIMA 可以通过文本提示完成各种视频游戏世界中的任务,例如《Valheim》或《无人深空》。
谷歌 DeepMind 研究人员推出了可扩展指令多世界代理 (SIMA),这是一种适用于 3D 视频游戏环境的人工智能代理,可以将自然语言指令转化为动作。
SIMA 与八家游戏工作室和九种不同的视频游戏(包括《无人深空》、《英灵神殿》和《拆解》)合作进行了培训和测试。
视频:谷歌 Deepmind
DeepMind 团队使用游戏录音来训练 SIMA,其中玩家向另一个玩家发出指令或描述自己的游戏玩法。然后,团队将这些指令与游戏操作联系起来。
该代理主要经过训练来模仿行为(行为克隆)。在此过程中,它模仿人们在遵循口头指令时在收集的数据中执行的操作。
通过这种方式,代理学习在语音指令、视觉印象和相应动作之间建立联系。

Google Deepmind SIMA 使用预先训练的模型并向人们学习

SIMA 代理的核心由多个组件组成,这些组件协同工作将视觉输入(代理“看到”的内容)和语音输入(其接收的指令)转换为操作(键盘和鼠标命令)。
图片:谷歌 Deepmind
图片:谷歌 Deepmind
图像和文本编码器负责将视觉和语言输入转换为代理可以处理的形式。为此,使用已经对图像和文本有全面理解的预训练模型。
Transformer 模型集成了来自编码器和过去操作的信息,形成当前状态的内部表示。
特殊的记忆机制可以帮助智能体记住之前的操作及其结果,这对于理解多步骤任务至关重要。
最后,代理使用此状态表示来决定下一步要采取的操作。这些操作是在虚拟环境中执行的键盘和鼠标命令。
SIMA 不需要访问游戏的源代码,只需要屏幕截图和自然语言说明。代理通过键盘和鼠标与虚拟环境交互,因此可能与任何虚拟环境兼容。

SIMA掌握600项技能

在测试中,SIMA 600掌握了导航、与对象交互以及菜单操作等基本技能。该团队期望未来的智能体能够处理复杂的战略规划和多方面的任务。
图片:谷歌 Deepmind
图片:谷歌 Deepmind
SIMA 与其他视频游戏人工智能系统的不同之处在于其广泛的方法,包括在各种环境中学习,而不是专注于一项或多项特定任务。
研究表明,在许多游戏中训练过的智能体比专门从事单一游戏的智能体表现更好。
此外,SIMA 集成了预先训练的模型,以受益于现有的语言和视觉感知知识,并将这些知识与来自 3D 环境的特定训练数据相结合。
通过这种方式,团队希望研究成果能够为新一代通用语音控制人工智能代理的开发做出贡献。
有了更复杂的模型,像 SIMA 这样的项目有一天可以实现复杂的目标,并对网络和现实世界中的人们变得有用。
总结
  • 谷歌 DeepMind 推出了 SIMA(可扩展指令多世界代理),这是一种人工智能代理,可以将自然语言指令转换为 3D 视频游戏环境(例如《Valheim》或《无人深空》)中的动作。
  • SIMA 是与八个游戏工作室和九个不同的视频游戏合作开发的,重点是行为模仿,以在语音指令、视觉印象和相应动作之间建立联系。
  • 在测试中,SIMA 600已经掌握了基本技能,DeepMind团队希望未来的智能体能够处理复杂的战略规划和多方面的任务,这有助于开发新一代通用的、语音控制的人工智能智能体。
 

评论
  • Twikoo