新闻资讯
🗒️英伟达尤里卡通过生成式人工智能优化机器人训练
00 分钟
2023-10-21
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

英伟达研究院开发了人工智能代理尤里卡(Eureka),可以教机器人复杂的技能。尤里卡将新的生成式人工智能与机器强化学习的经典人工智能技术相结合,进行加速模拟。

尤里卡总共有十个不同的机器人在模拟中执行29个不同的任务,速度加快了1000倍。您可以打开抽屉和橱柜,投掷和接住球,或使用剪刀。
尤里卡教给机器人的一项令人印象深刻的技能是如何快速转动手中的铅笔,类似于某些人类可以做到的。
此功能的可视化是通过Nvidia Omniverse实现的。据参与其中的研究人员称,对于人类CGI艺术家来说,这个动画非常精致。

生成式人工智能编写比人类专家更好的指令

尤里卡独立编写奖励算法来训练机器人。根据英伟达发布的一项研究,尤里卡生成的奖励程序比专家编写的程序要好,占83%。
这导致机器人性能平均提高52%。
尤里卡使用OpenAI的GPT-4编写奖励程序,允许机器人通过反复试验来学习。该系统不依赖于来自人类的任务特定提示或预定义的奖励模式。
通过 Isaac Gym 的 GPU 加速模拟,Eureka 可以快速评估大量奖励候选人的质量,以实现更高效的培训。
然后,尤里卡从训练结果中编译关键统计数据的摘要,并指示LLM改进奖励特征的生成。通过这种方式,AI代理独立地改进了机器人的指令。
notion image
英伟达发现,任务越复杂,机器人的机器指令就越超过人类指令的专家,被称为“奖励工程师”。
因此,参与研究人员Jim Fan也称尤里卡为“超级人类奖励工程师”。
尤里卡弥合了高级逻辑推理(编码)和低级电机控制之间的差距。
它是一种“混合梯度架构”:仅基于推理的黑盒LLM在白盒中指示自适应神经网络。外循环执行 GPT-4 以细化奖励函数(无梯度),而内循环执行强化学习以训练机器人控制(带梯度)。
Linxi “Jim” Fan,NVIDIA 高级研究科学家
Fang认为,尤里卡将为控制机器人和为艺术家创造逼真的动画提供新的可能性。
此外,根据英伟达的说法,尤里卡可以整合人类反馈,以更好地根据开发人员的想法定制奖励。英伟达称这一过程为“上下文RLHF”(从人类反馈中进行情境学习)。
该系统可以充当机器人开发人员的副驾驶,Fan写道。
“尤里卡的多功能性和显着的性能改进表明,将大型语言模型与进化算法相结合的简单原则是一种通用且可扩展的奖励生成方法,”研究小组写道。
Nvidia 在 Github 上以开源形式发布 Eureka 研究的所有元素。

总结

  • 英伟达研究公司开发了一种名为尤里卡的人工智能代理,帮助机器人学习复杂的技能,例如转动手中的笔,打开抽屉和橱柜,或投掷和接球。
  • 尤里卡使用OpenAI的GPT-4编写奖励算法,通过强化学习奖励机器人学习技能。
  • 尤里卡的自主奖励计划在80%以上的任务中比专家编写的程序表现更好,导致绩效平均提高50%。
 

评论
  • Twikoo