来源:新智元
(资料图)
基础模型之上的统一智能体,王者中的王者。
AI智能体的研究,已经卷起来了。
一直以来,基础模型不断涌现,还未有过统一的智能体。
来自Google DeepMind研究团队,设计了一个框架,使用语言作为核心推理工具,探索让智能体解决一系列基本的RL挑战。
比如,高效探索、重复使用经验数据、从观察中学习。
要知道,这些挑战从传统意义上来说,都需要专门的、垂直设计的算法。
论文地址:
https://arxiv.org/pdf/2307.09668.pdf
研究人员在一个稀疏奖励模拟智能体操作环境中进行了测试。结果显示,AI智能体在探索效率,重用数据等能力方面,得到了很大提升。
那么,DeepMind设计了一个怎样的框架?
AI智能体:语言做核心
一般来说,智能体只有与环境相互作用后,才能从中学习,但这个过程需要不断进行实验和试错。
而现在,利用基础模型已有的知识,可以极大地推进这个过程。
对此,研究人员设计了一个框架,将语言置于RL智能体的核心,特别是在从头学习的背景下。
结果表明,该框架利用LLM和VLM,可以解决RL环境中的一系列基本问题,比如:
1) 有效地探索稀疏奖励环境
2) 重新使用收集到的数据启动新任务的顺序学习
3) 安排学习技能来解决新任务
以语言为中心的智能体框架
这项工作的目标是,研究使用基础模型,预训练的大量图像和文本数据集,以设计一个更通用和统一的RL机器人智能体。
为此,智能体首先需要将视觉输入映射到文本描述。
其次,需要提示一个带有文本描述和任务描述的LLM来为智能体提供语言指令。最后,智能体需要将LLM的输出转化为行动。
具体来讲,需要经过以下四个过程:
使用VLM的连接视觉和语言
为了以语言形式描述从RGB摄像头获取的视觉输入,研究人员使用CLIP这一大型对比视觉语言模型。
CLIP计算观察结果与文字描述之间相似性的示例
语言推理
语言模型以语言形式的提示作为输入,通过自动回归计算下一个token的概率分布,并从该分布中采样,产生语言作为输出。
把指令根植行动
LLMs提供的语言目标,然后根植到使用语言条件化策略网络的行动中。
收集和推断学习范式
智能体通过收集和推断范式的启发,与环境的互动中学习。
实验结果
通过使用语言作为代理的核心,为解决RL中的一系列基本挑战提供了一个统一的框架。
接下来,就这这样智能体的能力如何,再此,研究人员重点从探索、重用过去的经验数据、安排和重用技能以及从观察中学习进行了描述。
探索——通过语言生成课程
这里,团队演示了一个RL智能体如何利用LLMs的优势,利用课程的文本子目标,产生没有任何过去的环境互动。
如下,学习曲线清楚地说明了,最新方法是如何比所有任务的基线更有效率。
值得注意的是,智能体的学习曲线在Triple Stack任务中迅速增长,而基线智能体仍然必须得到一个单一的奖励,因为任务的稀疏性是106。
左图:收集和推断管线;中右图:框架的学习曲线,以及「堆栈红蓝」和「三重堆栈」任务的基准学习曲线
随着任务变得越来越稀疏,LLM提出的子目标数量也增加了。
这使得增长变得越来越缓慢,这表明最新框架可以扩展到更难的任务,并使它们易于处理。
此外,与之前需要精心设计的内在奖励,或其他探索奖励的方法不同,最新框架可以直接利用LLM和VLM的先验知识,生成一个具有语义意义的探索课程。
从而为即使在奖励稀少的环境中,也能以自我激励的方式进行探索。
通过重用离线数据来学习任务
研究显示,研究人员绘制了智能体在环境中,需要采取多少个相互作用步骤,才能在每个新任务上达到50%的成功率,如图所示。
实验清楚地说明了,最新框架在重用为以前的任务收集的数据方面的有效性,提高了新任务的学习效率。
结果表明,谷歌框架可用于释放机器人智能体的终身学习能力:连续学习的任务越多,学习下一个任务的速度就越快。
这对将智能体部署到开放式环境(尤其是现实世界)中尤其有利。
通过利用智能体在整个生命周期中遇到的数据,智能体学习新任务的速度应该远远快于纯粹的从头开始学习。
从观察中学习: 从视频到技能的映射
从观察外部智能体中学习是一般智能体的理想能力,但这通常需要特别设计的算法和模型。
研究人员设计的智能体,可以以专家执行任务的视频为条件,从观察中一次性学习。
测试中,智能体会拍摄一段人类用手堆放物品的视频。
尽管只对来自MuJoCo模拟的图像进行了微调,VLM还是能够准确地预测,描绘机器人或人类手臂的真实世界图像上的文本-图像对应关系。
研究的初步结果表明,利用基础模型可以让通用的RL算法能够解决各种问题,提高效率和通用性。
通过利用这些模型中包含的先验知识,可以设计出更好的智能体,能够直接在现实世界中解决具有挑战性的任务。