开发者社区 > 博文 > 前沿技术探索 | 基于跨模态学习的具身智能体训练
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

前沿技术探索 | 基于跨模态学习的具身智能体训练

  • 京东探索研究院
  • 2023-12-27
  • IP归属:北京
  • 6680浏览

    导语

    具身多模态智能体被认为是实现通用人工智能(AGI)的关键一步,拥有较大的应用潜力和前景[1]。今年以来大模型的爆发式增长,可以为具身智能体的脑力升级提供更强助力。目前具身智能体的场景化应用在业内尚处于早期孵化阶段,京东作为一家同时具备实体企业基因和属性、拥有数字技术和能力的新型实体企业,正在不断推动大模型从数字世界走向物理世界。

    我们发现,一种向平行文本世界中的LLM进行交互式模仿学习的方式,将更有利于多模态具身智能体训练,使其能够与世界动态对齐,从而在视觉世界中展现出较强的性能。

    点击查看多模态具身智能体训练视频,下文将具体介绍该项研究的背景与训练方法。


    01 研究背景:

    具身多模态智能体为什么需要进行跨模态模仿学习?


    最近的研究越来越专注于利用大型预训练基础模型的能力来构建AI智能体。这些模型(例如LLMs)受益于他们从互联网规模的预训练学习的常识知识,能够根据外部环境的描述来推理行为,此外,通过使用视觉-语言模型(VLMs),还可以以视觉输入为条件,这些视觉输入被转换为语言描述或与LLMs对齐的标记嵌入。


    这样的做法忽略了一点,那就是现有的基础模型通常是在静态文本或文本-图像数据集上进行预训练的,因此可能难以与世界的动态保持一致。为弥合这一差距,本工作研究了如何通过提取LLM专家的知识来跨模态微调VLM,使其成为与世界动态对齐的具体化智能体


    与我们最密切相关的工作是EUREK[9],它也探索了使用模拟器提供的源信息作为LLM的上下文来辅助智能体培训。但EUREKA没有像我们那样直接模仿LLM的输出,而是利用编码LLM为给定任务生成期望的奖励函数,并使用RL针对奖励函数优化策略,从而导致更复杂和不稳定的训练过程。


    模仿学习是研究通过模仿专家的决策和行为来提高性能的算法。我们总结了现有的三大类方法:

    (1)行为克隆(Behavior Cloning, BC)

    (2)逆强化学习(Inverse Reinforcement Learning, IRL)

    (3)模仿和强化学习的结合


    上述所有方法都假设专家和模仿者以相同的模态理解世界,从而忽略了一个事实,即来自其他模态的互补知识往往会显著提高模型的准确性和泛化性


    在本研究中,我们研究了如何利用LLMs的能力来指导VLMs,使其成为与视觉世界动态对齐的具体智能体。我们的首要目标是建立这样一个具体多模态智能体(Embodied Multi-Modal Agent, EMMA),它可以获取文本任务描述(例如来自人类用户)和每一步状态的像素观察,以产生一系列导致有效完成任务的动作。


    此研究极具挑战性,因为:

    (1)任务奖励的稀疏性;

    (2)具有噪声的视觉表示;

    (3)VLM的幻觉;

    (4)VLM的静态表示与视觉世界动态的不对齐


    本研究通过在平行文本世界中蒸馏和模仿强大的LLM智能体解决前两个挑战,通过在具身视觉环境中将VLM作为强化学习智能体进行微调来缓解后两个挑战。


    图 1 ALFWorld中视觉环境中三种基于vlm的agent的比较图


    如图1所示,即使是SOTA VLM,例如GPT-4V(vision),也无法在具身ALFWorld[21]环境中完成任务。在这样的zero-shot设置中,GPT-4V[14]倾向主要依赖于当前步骤中检测到的对象——笔记本电脑的语言先验,而不是视觉输入与任务指令条件下的环境动态之间的对齐。


    可见尽管 VLM具有LLM模块 ,但它们没有在具体的视觉世界中进行训练,因此无法与其动态一致。另一方面,在没有专家指导的嘈杂视觉世界中训练具身智能体通常是低效的。


    由于LLMs的(部分)输入被来自视觉模块的嘈杂和不准确的表示所取代,因此它的能力在VLM中会被削弱,那么我们应当如何训练VLM,使其成为与视觉世界动态对齐的具身智能体?此外,各种VLM不使用最强大的LLMs作为它们的语言模块,因为它们是闭源的。那么我们能否将文本世界中的Reflexion LLM智能体的技能转移到视觉世界中的VLM智能体?


    因此,我们研究了如何利用LLMs的能力来指导VLMs,使其成为与视觉世界动态对齐的具体智能体。与现有工作的不同之处在于,我们的具身多模态智能体直接学习处于平行文本世界的LLM输出,通过在具身视觉环境中将VLM作为模仿学习智能体进行微调,以更好地适应视觉世界的动态性



    02研究方法:

    基于跨模态模仿学习的多模态具身智能体训练方法


    首先来看具身多模态智能体的框架设计和整体训练思路。图2展示了“具身多模态智能体(Embodied Multi-Modal Agent, EMMA)”的主要思想。EMMA建立在模块化VLM之上可以遵循指令,并通过视觉观察和文本行动与环境互动。为了克服与EMMA相关的训练挑战,如稀疏奖励和分布变化,我们探索了基于并行TextWorld[17]的LLM专家的构建,该专家可以为EMMA提供逐步指导。

    图 2具身多模态智能体(Embodied Multi-Modal Agent, EMMA)框架图



    01

    多模态智能体

    具身多模态智能体(Embodied Multi-Modal Agent, EMMA)表示为πθ, 旨在处理任务描述x_task (例如,来自人类用户的指令)和每个步骤t的像素观察stv。其目标是生成一系列高级文本动作:

    以有效地完成任务。为了实现这一目标,我们从大型预训练VLM的最新进展(InstructBLIP、MiniGPT4等)中汲取灵感,并将EMMA的架构模块化为三个组件:


     (1)将预训练的ViT作为视觉编码器,将Sv编码为视觉嵌入;


     (2)查询转换器(Q-Former),通过视觉嵌入和查询标记之间的交叉关注提取最相关的视觉特征,然后通过线性投影层将其馈送到LLM中;


     (3)一个预训练的LLM作为语言解码器,将指令token的连接和线性投影层的输出进行自回归生成文本动作Xa。 


    然而,将EMMA部署到复杂的视觉环境中会引发几个悬而未决的问题。首先,直接使用任何预训练的VLM作为EMMA的主干,而不进行额外的微调,是次优的,因为现有的预训练只关注图像-文本对之间的静态对齐,因此由此产生的智能体可能很难在动态的环境中推理。 


    为此,我们建议利用模仿学习(IL)来使EMMA与任何环境的动态保持一致,然而这引入了两个关键的算法挑战:


    (1)如何获得高质量、可访问的、且具有可操作性的EMMA在IL期间可以查询的可扩展专家


    (2)设计一个有效的策略,在复杂、多样和潜在的开放式环境中使用该专家来训练EMMA

    02

    平行文本世界的专家LLM

    由于在上下文学习领域的一系列提示方法,预训练LLM在许多决策场景中展示了令人印象深刻的zero-shot性能,但他们只能通过状态的文本描述与环境互动,而不是像EMMA那样使用直接的视觉观察。为了弥补这一差距,我们通过从模拟器[19]中提取视觉观察的元数据sv,包括诸如观察对象、观察关系、库存和位置等属性,将每个视觉观察转换为文本等价物。


    然后,我们使用规划域定义语言(PDDL)[20]来描述该元数据,并使用TextWorld引擎创建等效的文本描述/状态Sl。该方法允许在并行TextWorld中使用预训练的LLM智能体(例如,基于ChatGPT),生成一系列动作,通过两个智能体之间的跨模态IL促进EMMA的训练, 如图2所示。

    03

    跨模态训练EMMA

    给定一个来自并行TextWorld的LLM专家,我们的目标是训练一个VLM智能体πθ视觉世界来密切模仿LLM专家的行为。这等于在πθ诱导的状态分布下最小化以下目标。

    其中损失函数l_imit的选择取决于具体的场景。例如,它可能是离散动作空间的预期交叉熵损失,或连续动作空间的预期MSE损失。在我们的案例中,我们选择DPO损失,因为它在离散语言空间内将模型与专家偏好对齐方面被证明优于交叉熵。因此,Eq.(1)可推广为下式:

    其中x_a^是LLM专家给出的动作, xaπθ给出的动作,σ是逻辑函数,β是控制与 π_ref偏差的超参数,即在视觉世界中基于规则的专家产生的演示数据集上通过行为克隆获得的参考智能体在实践中,VLM智能体πθ也初始化πref,以稳定训练过程。由于环境动态既未知又复杂,我们无法计算πθ和访问的状态分布,只能通过智能体对其进行采样。

    因此,Eq.(2)是non-i.i.d。监督学习问题由于状态分布对πθ自身的依赖。其中行为克隆面临累积误差和分布偏移等问题。为了解决这个问题,我们采用了一种交互式IL算法DAgger,该算法可证明收敛到最优智能体。由于稀疏的环境反馈或有缺陷的上下文指令,这些动作可能不是最优的。为此,我们引入了一个由两个专门模型组成的“反思LLM专家”: 一个Actor(Ma), 建立在LLM API 之上,并根据文本状态观察提示生成动作; 和一个Critic(Mc), 也基于相同的LLM,但旨在分析EMMA的历史动作并提供回顾性反馈。维护一个长期记忆P来存储Mc产生的反馈,然后用它来提示Ma改进行动。完整的算法如下图所示。

    图3 单一任务训练EMMA的过程


    我们将EMMA与ALFWorld Benchmark上的其他12个代表性智能体进行比较。我们评估了两个关键指标:成功率,即成功完成任务的百分比,以及完成任务所需的平均交互步数(步数越低表明效率越高)。EMMA在这两个指标上都表现优异,在视觉环境中明显优于所有VLM智能体。这一性能表现表明我们的跨模态模仿学习方法的有效性。


    有趣的是,EMMA的性能与使用视觉观察的完美语义描述操作的LLM智能体相当。这在很大程度上归功于EMMA模仿专家LLM智能体的训练策略,证明比在纯视觉环境中从头开始学习更有效。

    EMMA对噪声观测的鲁棒性亦优于LLM智能体。如图4所示,虽然LLM智能体在文本环境中以较少的交互步骤表现出更高的成功率,但我们假设这种优越的性能在很大程度上依赖于它们对环境的精确语义抽象,这样的抽象在现实世界的应用中可能不可行。


    为了验证这一假设,我们建立了一个更实际的场景,观测值被故意以特定的噪声率进行扰动。然后,我们比较了EMMA和SOTA LLM Reflexion智能体在这些嘈杂观察下的鲁棒性。如图5所示,随着噪声率的增加,与Reflxion相比,EMMA的性能仍然明显更加稳健。这一发现突出了VLM智能体(如EMMA)在实际场景中的潜在优势,在实际场景中,数据通常是不完美和嘈杂的。

    图 5 VLM和LLM agent的鲁棒性比较

    03结论:

    我们创建了一种具身多模态智能体EMMA,通过交互式跨模态模仿学习方法在具身视觉世界中对VLM进行微调。这种跨模态模仿学习比视觉世界中直接微调VLM,或通过基于规则的专家的行为克隆进行微调的VLM等方法表现出了实质性的优势。


    此外,在嘈杂的视觉世界中,EMMA的成功率与LLM在简单的文本世界中的成功率相当,鲁棒性也会更好。