多模态大模型+机器人!字节提出RoboFlamingo!

论文链接:https://arxiv.org/pdf/2311.01378.pdf

开源代码:https://roboflamingo.github.io/

引言

近期,视觉-语言基础模型(VLM)的进展展示了它们在建模和对齐图像和文字表示方面的令人振奋的能力,并具有使用多模态数据解决各种下游任务的无限潜力,例如视觉问答 ,图像描述,人-机交互 。这些成功无疑鼓励了人们想象一个具有这种视觉-语言理解能力的通用机器人,能够与人类自然互动并执行复杂的操作任务。

虽然之前已经有一些研究将大型语言模型(LLMs)和视觉-语言模型(VLMs)作为高层规划者并纳入机器人系统中 ,但是直接将它们用于低层控制仍然存在挑战。大多数VLMs是在静态图像-语言配对上训练的,而机器人任务需要闭环控制的视频理解。

此外,VLM的输出主要包含语言标记(token),其表示与机器人动作有很大的差异。最近的一项研究 ,即Robotics Transformer 2(RT-2),提出了一种将VLMs适应低层机器人控制的可能解决方案。然而,将这样一个昂贵的框架普及给所有机器人从业者依然困难,因为它使用私有模型,并需要在大量的视觉-语言数据上进行协同微调以充分展示其效果。因此,机器人社区迫切需要一个低成本替代方案,能够有效地利用VLMs实现机器人操作策略。简介

本文介绍了RoboFlamingo,一种新颖的视觉-语言操作框架,利用公开可访问的预训练VLMs,为机器人构建有效的操作策略。具体而言,RoboFlamingo基于开源的VLM模型OpenFlamingo ,通过将视觉-语言理解和决策制定解耦来解决这一挑战。

与先前的工作不同,RoboFlamingo主要利用预训练的VLMs来理解每个决策步骤的视觉观察和语言指令,使用显式策略头建模历史特征,并仅通过模仿学习在语言条件下的操作数据集上进行微调。通过这种分解,只需要很少量的数据来使模型适应下游操作任务,而且RoboFlamingo还提供了对于开环控制的灵活性,并可在低性能平台上部署。

此外,由于在广泛的视觉-语言任务上进行预训练,RoboFlamingo在性能上比以前的工作有了大幅度的提升,并且在零样本设置和环境中具有良好的泛化性能。因此,RoboFlamingo可以是一种经济高效的机器人操作解决方案,使每个人都能够使用VLMs自行微调他们的机器人。

方法与模型

RoboFlamingo(一种广义的机器人代理程序)在解决语言条件下的操作任务方面表现出色。关键思想是利用预训练的视觉-语言模型(VLMs),并将其调整为操作策略,从而获得物体基础定位、语言理解、视觉-语言对齐和长时程规划的能力。

为了将大规模视觉-语言模型适应为机器人操作, RoboFlamingo 仅需添加一个用于端到端微调的策略头。它解决了三个主要挑战:

    1)将基于静态图像输入的视觉-语言模型调整为视频观测;

    2)生成机器人控制信号而不是仅文本输出;

    3)仅需要有限数量的下游机器人操作数据就能以数十亿个可训练参数实现高性能和通用性。

1 LANGUAGE-CONDITIONED ROBOT CONTROL

语言条件下的机器人控制问题可以建模为一个目标条件下的部分可观察马尔可夫决策过程,具体地,在每个控制周期中,机器人在每个时间步 t 接收到一个目标,由一个长度为 M 的自由形式语言指令 l ∈ L表示,并且观测 ot 通常是来自第三人称摄像头和夹持器摄像头的两张图片 It、Gt。控制策略可以建模为一个目标条件下的策略 π(a|o, l) : S × L → A,其中行动 a 通常表示夹持器期望相对位置和姿态以及夹合/松开的状态。

在RoboFlamingo中,策略 πθ(a|o, l) 由参数 θ 参数化。它由基于Flamingo的骨干 fθ 和策略头 pθ 组成。骨干将视觉观测和语言表示的目标作为输入,并在每个时间步提供一个融合的潜在表示给策略头部:Xt = fθ(ot, l)。然后策略头进一步预测行动来实现机器人的指定目标:at = pθ(Xt, ht−1),其中 ht−1 是从上一步得到的隐藏状态,用于编码决策的历史信息。

2THE FLAMINGO BACKBONE

我们采用了Flamingo骨干fθ来理解每个决策步骤中的视觉和语言输入。视觉观察通过视觉编码器编码为潜在状态,并通过特征融合解码器与语言目标进一步融合,该解码器由预训练的语言模型初始化。

视觉编码器

视觉编码器由视觉变换器(ViT)和感知重采样器组成。在每个时间步 t,图像观察 It、Gt 通过 ViT 模块被编码为包含视觉令牌序列的ˆXt,

在t时刻,Vt = (vt1, · · · , vtN )代表了视觉标记序列,其中N代表了编码输出的标记数量。编码后,RoboFlamingo 使用感知器重新采样器将视觉标记的数量从N压缩到K。

 特征融合解码器

从压缩后的视觉标记,即Xtv ∈ RK×d,进一步传递到特征融合解码器中,该解码器旨在通过将语言指令与编码的视觉特征Xtv融合来生成视觉-语言联合嵌入。在RoboFlamingo中,我们利用了来自OpenFlamingo 的预训练解码器,并按照它的方式对解码器模块进行微调。

3POLICY HEAD

特征融合解码器的输出XtL被训练成视觉观测和语言指令的表示,并进一步转化为低级控制信号。为了实现这一点,我们简单地采用额外的策略头pθ来预测动作。我们尝试了多种策略来建模历史观测序列,并作为策略头的行为方式,例如带有多层感知机(MLP)进行最终预测的长短期记忆(LSTM)网络;仅使用解码器的Transformer模型 ,同样配合MLP;或者仅模拟单步信息的单个多层感知机(MLP)。

以LSTM版本为例,通过在令牌维度上进行最大池化操作,我们使用视觉-语言联合嵌入序列XtL来获得聚合的嵌入,并预测动作为:

ht 表示时刻 t 的隐藏状态,而 aposet和 agrippert是预测的状态。

4TRAINING OBJECTIVE

我们利用最大似然模仿学习目标来微调所提出的预训练骨干网络和策略头部。具体而言,我们通过回归损失(使用均方误差(MSE)损失)来优化所需的相对姿态,而夹爪状态则使用分类损失(使用二元交叉熵(BCE)损失)进行优化:

在训练过程中,我们遵循OpenFlamingo的微调范例,只训练重采样器的参数、每个解码器层的门控交注意力模块和策略输出部分的参数,同时冻结所有其他参数。

实验与结果

本文进行了大量的实验来检验提出的RoboFlamingo解决方案, 并探讨了预训练的视觉-语言模型 (VLMs) 对基于语言的机器人操作的好处。

1)通过在给定的演示数据上训练RoboFlamingo来进行模仿学习的性能;

2)模型在未见的视觉环境下(例如不同的物体),甚至在未见的指令下的表现。

RoboFlamingo模型验证集性能对比

RoboFlamingo Zero-Shot泛化能力

        可视化对比结果

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容