达摩院后的下一站:陈俊波投身具身智能,要给所有机器人做一颗脑袋
机器之心原创
作者:张倩
「麻烦借过一下,谢啦。」对于很多大学生来说,这是一个熟悉的声音。它来自阿里的「小蛮驴」无人驾驶物流机器人。该机器人 2016 年开始路测,如今已累计送达快递上千万件,为阿⾥奠定了快递配送机器⼈第⼀的地位。
(资料图)
但今年 3 月份,它背后的灵魂技术人物、原阿里达摩院自动驾驶负责人 陈俊波 却被爆出离职创业的消息。消息称,他与前阿里机器人 CEO 谷祖林等人共同创办了一家名为「 有鹿机器人 」的新公司,至于这家公司具体做什么,外界没有得到确切答复。
近期,抱着这个疑问,机器之心与陈俊波展开了深入对谈。
在对谈中,陈俊波透露,他要做的并不是某一款机器人,而是一个放到任何传统自动化设备(比如清扫车、挖掘机、铲车等)上都能正常运转的通用机器人「脑袋」。这个「脑袋」可以跨模态、跨场景、跨行业,具有极强的环境适应性,就像《变形金刚》里的「火种」一样。从上述传统设备当前的智能化率来看,这个「脑袋」一旦做出来,有望服务于上亿台设备。
「火种」是《变形金刚》里的能量块,是变形金刚最基本也是最神秘的组成部分,火种赐予变形金刚具体的身形、意识及生命。
当然,这也意味着更大的技术考验。因此,在过去的大半年的时间里,陈俊波带领「有鹿」一头扎进了比自动驾驶更复杂的「 具身智能 」领域,希望借助大模型的力量赋予机器人在物理世界完成更多任务的能力,把类似 ChatGPT 的能力扩展到物理世界。
具身智能:AI 领域的下一个「北极星问题」
生物的进化总能给智能的研究带来很多启发。过去 亿年来,地球上所有的生物都是通过身体逐步产生智能的。有了身体,智能体就可以在快速变化的环境中移动、导航、生存、操纵和做出改变。相比之下,没有身体的智能体只能「旁观」,很难适应现实世界。因此,人工智能研究也自然而然地走向了「具身」的道路。人们希望机器人也能像生物体一样,通过与环境交互以及自身的学习,产生对于客观世界的理解和改造能力。具身智能也被斯坦福大学教授李飞飞定义为 AI 领域的下一个「北极星问题」之一。
图源:《为什么说具身智能是通往 AGI 值得探索的方向?上海交大教授卢策吾深度解读》
不过,由于涉及学科众多,具身智能在过去的几十年里并没有取得很大进展。直到最近几年,情况才有所改变,尤其是在「 大模型 + 机器人 」的组合流行起来之后。谷歌的 PaLM-E、斯坦福的 VoxPoser 都是基于大模型构造的具身智能体。它们能够直接「听懂」自然语言指令,并将其拆解成若干个动作来完成,准确率已经达到了相当高的水平。
斯坦福大学李飞飞团队的 VoxPoser 机器人。
作为阿里内部「最早领潮自动驾驶的人」,陈俊波也一直在关注具身智能领域,毕竟自动驾驶车也是具身智能的重要载体。其多年来不断积累的多模态学习、强化学习等能力在具身智能领域至关重要。
在陈俊波看来,「大模型 + 机器人」组合的成功其实意味着 具身智能领域正在经历一场范式转变 ,基于 Transformer 架构的极具表达能力的模型、互联网规模的数据都是推动这一转变的关键力量。但是,要想在物理世界充分利用这些力量,现有的工作做得还远远不够。
从实验室到现实世界,具身智能还有哪些工作要做?
陈俊波以谷歌的 PaLM-E 为例,向我们展示了现有的具身智能大模型存在哪些改进空间。这个模型集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),使用文本和来自机器人传感器的多模态数据(比如图像、机器人状态、场景环境信息等)作为输入,输出以文本形式表示的机器人运动指令,进行端到端的训练。
它的结构如下图中间部分所示:绿色的部分用来编码机器人本身的状态,包括底盘、机械臂的位置等状态量;传感器捕捉到的图像由一个 ViT 模型来编码(图中蓝色部分)。给定这些条件,人类就可以发出一个自然语言指令,比如「如何抓起蓝色的木块」,然后这个指令就会被编码为嵌入,并经过一个 CoT(chain of thought)的过程被转换为一系列动作。这些动作会由一个动作解码器(图中的紫色部分)来执行,它会把每个步骤的指令转化为机器人的扭矩等参数。
经过测试,整个模型完成任务的成功率接近 80%。作为一个端到端的框架,「这是一个让人觉得非常不可思议的工作,」陈俊波评价说。但在实际的工作场景中,80% 的成功率离落地还有很大距离,「想象一下,如果说我下发 100 个任务,它有 20 个都失败了…… 而且,这还是在实验室的场景下,」陈俊波说到。
究竟是哪里出了问题?陈俊波指出了两个关键点。
第一个问题是,在传感器图像和文本 prompt 输入的处理上,PaLM-E 只是将 VLM 与 LLM 简单拼合,做隐式建模 。前者输出的是抽象等级很低的像素级的特征,后者输出的是抽象等级很高的自然语言级别的特征, 二者直接拼合会带来不匹配的问题 ,导致模型的泛化能力非常有限。「有句话叫一图胜千言,就是说图像里面包含太多的细节,不可能用一个一个的文本就很简单地把它们对应起来,」陈俊波解释说。
具体来说,PaLM-E 使用 ViT 来处理图像,ViT 会把整个图像切分成小的图块(patch),然后从每个图块中提取出关于图像的基础细节特征,比如颜色、边缘、纹理,这些特征是「low level」的。与之对应,图像中还有很多「high level」特征,比如不同物体之间的几何关系、现实世界里的物理学规律、交通参与者的意图…… 这是无法做显式建模的 ViT 所提取不到的,这是它编码物理世界的一个缺陷。
在 Prompt 的处理上,虽然 PaLM-E 会把人的高级指令拆解为更详细的指令,但这一步的输出仍然是自然语言。自然语言的问题在于,它是一种高度抽象、模糊的系统,「比如说『人类』虽然只有四个字节,却囊括了地球上几十亿的人类,」陈俊波解释说。这不仅和 ViT 输出的「low level」的特征不匹配,对于底层控制器来说也不够友好,后者需要更具体、更精确的指令来执行任务。
第二个问题是,PaLM-E 的动作解码器存在天然缺陷,无法从海量无标签的机器人数据中学习,也无法扩展到交互场景。
这是因为,PaLM-E 的动作解码器采用了一个名为「RT-1」(Robotics Transformer-1)的模型,这个模型接收自然语言和图像作为输入,输出机器人运动指令(底盘位置和机械臂末端位置)。局限在于,这个模型是采用模仿学习的方式训练出来的,而模仿学习本质上属于监督学习,因此无法在海量无标注数据上学习。
最近公布的 RT-2 模型使用了更多的训练数据(在原来示教数据的基础上增加了互联网级别的 VQA 数据),将模型在没见过(Unseen)的任务上的成功率从 32%(RT-1)提高到了 62%。如果将 PaLM-E 中的动作解码器组件换成 RT-2,PaLM-E 的泛化能力想必也会大幅提升。但陈俊波指出,这并不会从根本上解决问题,因为在学习机器人数据时,它本质上用到的还是模仿学习。
此外,模仿学习学到的函数针对一个固定的输入只能输出一个或一组固定的动作,而交互场景要求针对相同的输入,根据交互对象的选择动态调整输出,所以模仿学习学到的模型本质上无法在交互博弈场景中工作,而这项能力又是具身智能机器人走出实验室所必需的。
已经在园区跑起来的 LPLM
陈俊波在具身智能方向的工作主要围绕以上待解决的问题展开。具体来说,他提出了一个名为「 LPLM 」(large physical language model)的大模型。整个模型的架构如下所示:
首先,这个模型会把物理世界抽象到一个很高的程度,确保这些信息能跟 LLM 里特征的抽象等级对齐,做显式建模,从而实现很好的融合。 回忆一下语言学中的能指(用以表示抽象概念的语言符号,比如「人」这样一个单词)和所指(语言符号所表示的具体事物,比如图像空间中的每一个人)的概念,LPLM 将物理世界中每一个所指的实体显式建模为 token,编码几何、语义、运动学与意图信息,相当于在物理世界建模了一套全新的语言体系。
具体来说,这种对齐是通过多种方式来实现的,包括利用点云等多模态数据捕捉几何信息;在多帧甚至无限帧数据之间做时序融合以跟踪实体在不同时间点的变化,捕捉其运动学和动力学约束关系;在空间中建模各个实体之间的关系,从而捕捉它们在交互博弈环境中的意图信息等。
令人兴奋的是,LPLM也很好地降维完成了自动驾驶行业对端到端的技术追求。比如在一个交通场景中,LPLM 展现了建模物理世界实体意图方面的能力。在这个场景中,智能车要在有加塞车辆的情况下安全左转,此时模型就需要判断加塞车辆是否会做出让行等动作(意图),才能决定自己下一步的动作。这种交互博弈场景没有固定答案,需要模型随机应变。
其次,在自然语言指令的编码上,LPLM 也做出了一些改进,加入了 3D grouding (grouding 可以理解为机器人怎么把用户的语言对应到真实环境)。以有人问「桌子在哪儿」为例,之前的 visual grounding 方法会把桌子所在区域的像素高亮出来,但加入了 3D grouding 的 LPLM 会先把三维空间里的几何关系恢复出来,然后再把桌子所在的三维空间作 grounding。这相当于在物理世界中,明确告诉机器人作业目标在哪儿,在一定程度上弥补了自然语言不够精确的缺陷。
最后,在解码器的设计上,为了让模型具备从海量无标签数据中学习的能力,LPLM 的解码器是通过不断预测未来的方式去学习的。 如此一来,对于任何一段给定的数据,任何当前状态都是对过去状态的自动标注,无需人工示教数据。在这一点上,陈俊波谈到了 Yann LeCun 的思想 —— 智能的本质是预测 —— 对于自己的启发。「一个一两岁的孩子肯定不知道什么是万有引力,但通过长期的实践和观察(比如扔东西),他的身体已经知道了。我们也是用同样的方法教机器人学习,」陈俊波谈到。
那么,这一套方法到底有没有效?陈俊波已经用他们的 第一款产品 —— 有鹿智能清洁机器人 给出了答案。和传统的只能进行全覆盖清扫和巡检清扫的室外清洁机器人不同,内置了 LPLM 大模型的有鹿机器人支持随叫随到的清扫模式,比如你可以让它「去 1 号楼清扫一下落叶」,或者说「路边有点脏,贴边清扫一下吧」,机器人都能听懂,并且能在充满行人、车辆的园区交互博弈环境中安全穿行,功耗仅 50 瓦。这体现了该机器人对语言语义、物理环境及行为意图的融合理解。据悉,这款机器人将在即将到来的杭州亚运会上亮相。
给所有机器人做一颗脑袋
当然,对于陈俊波来说,将内置 LPLM 大模型的「脑袋」安在清洁机器人身上只是一个开始。未来,这套方案还将扩展到挖掘机、铲车等传统设备上。 在他看来,比起开发一款服务于单个场景的完整产品,开发一个通用的脑袋具有更大的社会价值 。
有鹿的机器人大脑多种应用场景
在谈到这件事情的可行性时,陈俊波提到,虽然表面看起来这是一些跨模态、跨场景、跨行业的设备,但当模型对于物理世界的理解提升到三维甚至四维,很多共性的东西就可以被提取出来。这种情况下,以 LPLM 为代表的具身大模型相当于充当了物理世界的 Foundation model。此外,有鹿还定义了一个通用的硬件标准,这个标准会兼容现在所有的设备厂商。
不过,眼前还有很多待解决的问题,比如海量机器人数据如何获取?这也是有鹿在很短的时间内就推出第一款产品的一大原因。他们希望借助这些产品尽快让数据飞轮转起来,就像很早就开放 API 接口的 GPT 类产品一样。
在早年和蒋昌建谈梦想的时候,陈俊波说,他希望未来⼈类会像拥有个⼈电脑⼀样拥有机器⼈。一路走来,他已经越来越接近自己的梦想。当初做小蛮驴的时候,他也经历了「机器一直掉螺丝,送不出几个包裹」的阶段,但到了 2022 年,平均每秒钟都会有两位消费者收到小蛮驴送出的包裹,这款产品也让陈俊波看到了具身智能背后巨大的市场空间。
其实,和小蛮驴所处的物流领域一样,很多传统行业对具身智能机器人都有着强烈的需求。这些行业拥有海量的存量专业设备和专业机器人,也积累了丰富的行业经验和渠道品牌,只是设备的智能化率仍有很大的提升空间,而 具身智能的快速发展有望为这些行业带来一场大范围的智能化升级 。凭借多年来在具身智能领域的探索经验, 陈俊波希望能与这些行业的企业家一起,迎接这场升级过程中的挑战与机遇。
参考链接:
/s/MM_VLWmrrxev1zWuLKZZUQ
/view/15855
/s/2ASdgAER2EYsmjipIiVyDg
标签:
- 达摩院后的下一站:陈俊波投身具身智能,要给所有机器人做一颗脑袋
- 解锁极致美好新生活 ——国民纯电专业品牌东风纳米全球发布
- 8月23日基金净值:国联安中证半导体ETF联接A最新净值1.5925,跌2.23%
- 媒体海南行·综述丨跨越山海 来一场与海南的深度“对话”
- 三一重能(688349):8月23日北向资金减持2.53万股
- 研究显示逆境会永久改变大脑
- 新点软件(688232):8月23日北向资金增持2.89万股
- 天空:莫拉塔同意再次回归尤文,签下球员需要花费2000万欧
- 篮球世界杯 | 中国男篮世界杯参赛12人名单公布
- 日韩股市低开,日经225指数低开0.4%
- 京东升级“无限免邮”权益:plus会员最高免邮30元
- 亚马逊澳大利亚在阿德莱德开设首个救灾中心
- 警惕!江西多名家长中招
- 防晒隔离霜使用顺序_防晒霜隔离霜的顺序
- 培训机构老师有神通?60余名家长被骗400余万元
- 今日“七夕”!厦门天气不错 夜晨较为舒爽
- AYANEO Pocket S 安卓掌机外观公布,搭载高通骁龙 G3x Gen 2
- 天量限售股解禁拖累股价破发,联影医疗紧急发布回购方案
- 广西水利厅和广西气象局联合发布山洪灾害气象预警
- 广州:税润“老字号”,焕发新活力
- 股价创连跌纪录 耐克拿什么止损
- 布莱泽奥特曼战斗动作逗乐观众 新剧情引关注
- 中方对个别国家在叙利亚持续强化非法军事存在深表关切
- 长沙市自然资源和规划局:谨防不法分子假冒局领导干部进行诈骗
- 教你如何全面做好猪场的细节管理?种、料、繁、舍、病、管
- 4名在缅电诈犯罪嫌疑人被押解回国
- “减肥神药”卖疯 制药巨头市值超过整个国家GDP!马斯克也来带货
- 乌克兰只剩三条路可以走,泽连斯基做事太绝,想投降也没那么容易
- 智慧医疗创新大赛全国总决赛9月收官
- 创业慧康:董事长提议3000万元-6000万元回购公司股份 回购价不超10元/股
- 贝斯美现3笔大宗交易 总成交金额6458.02万元
- 机械键盘毛发怎么清洗_机械键盘毛发怎么清洗干净
- 人保少儿重疾险怎么样?附加保障有哪些?
- 两部门再次预拨5亿元支持国家蓄滞洪区受灾居民尽快恢复正常生产生活秩序
- 路特斯Type 133路试谍照曝光:纯电续航可达600公里
- 汽车刹车片相关股票有哪些?(2023/8/21)
- 京津冀板块8月23日跌1.3%,天壕能源领跌,主力资金净流出4.31亿元
- 商务部新闻发言人就美商务部将27家中国实体移出出口管制“未经验证清单”答记者问
- 2023年08月22日19时57分欧元/人民币汇率最新报价
- 孙春增(关于孙春增简述)
- 热门车讯优惠再次扩大 凯美瑞累计让利达1.5万元
- 今日1只新股申购:上交所主板金帝股份
- 俄罗斯国家航天集团:发动机未按时关闭致“月球-25”号探测器坠毁
- 阳痿的主要原因是什么?
- 冬奥冠军苏翊鸣今日清华报到,七夕当天与朱易疑似官宣恋情,晒出相同图案
- 中钢协:8月中旬重点钢企粗钢日产221.50万吨
- 读麦田里的守望者有感 精选1200字作文
- 俄一私人飞机失事,机上人员全部遇难,瓦格纳创始人普里戈任据称在乘客名单上
- 嘉银金科二季度净利润3.26亿元,同比增长28.54%
- 拍显高苗条的百变站姿照,8个姿势学起来,自然漂亮很加分
- 违建拆除现场突发 连云港东海县通报
- 信阳到郑州火车站列车时刻表(信阳到郑州火车)
- 潍坊市2023年“美德潍坊 七夕送囍”婚俗改革暨集体婚礼宣传活动举行
- 多国检测到新冠新变异株,将有可能被命名为“Pi”
- 经中共中央批准:郑仲全同志任云南省委委员、常委
- 短时强降水、雷电!鹤壁发布雷暴大风黄色预警!
- 中到大雨+暴雨!新一轮大范围降雨来袭,河北最新预警
- 女子偶像藤咲凪突然公开自己是单亲妈妈:真人类
- 隆扬电子(301389):8月23日北向资金减持13.98万股
- 全新BJ40车型外观曝光:硬派越野车
- 写字楼里的上班族用餐如何保障?
- 房屋纠纷诉讼时效有多长
- 一口气刷完,这限制级爽剧太刺激了
- 为期3个月!海南部署治理教育收费违规行为
- 京畿设计国际邀请展在黄冈师院举行,20多个国家的130件作品参展
- 韩国7月PPI同比下降0.2%前值下降0.20%;韩国7月PPI环比增长0.3%前值下降0.2%
- 茶百道们争抢上市,加盟商们快不够用了
- 江南布衣:一家以「粉丝经济」起家的企业
- 水友是什么意思吃鸡(水友是什么意思)
- 统计学类包括哪些专业公务员 统计学类包括哪些专业
- excel怎么求和公式计算式 excel怎么求和公式
- 贺州好的治疗白癜风专科医院:治疗颈部白癜风要注意什么呢
- 460007开头的身份证是哪里的人,460004开头的身份证是哪里人
- 一夜暴富还是倾家荡产?芯片巨头看涨期权遭疯抢
- 《暗黑4》玩家数达1200万 总游戏时长超13亿小时
- 任天堂开始限制玩家利用阿根廷低价区薅羊毛
- 如何在手机上激活社保卡医保卡(社保卡异地激活流程)
- 线上线下齐发力 七夕催热“甜蜜消费”
- 七彩化学06月30日获深股通增持38.01万股
- 政变集团承认两家银行遭制裁对其造成很大伤害
- 以中国人寿为例,看保险公司的ESG该如何做?
- 久之洋(300516):8月23日北向资金减持12.89万股
- 蜻蜓fm听书如何倍速播放 蜻蜓fm倍速播放设置方法
- 美菱空气循环扇89元到手 返10元现金
- 丹麦开始训练乌克兰飞行员驾驶F-16战机
- 中国北方真要变江南?今年确定雨水偏多,厄尔尼诺:雨水或将再变
- 2023年水体放射性核素概念相关上市公司有哪些?(8月23日)
- 封面有数丨运动装备为七夕热销礼品,滑雪头盔、椭圆机销量环比增长超10倍
- 三部门:鼓励有条件的地方探索建立风险补偿机制
- 柯力传感(603662):力学传感稀缺标的 多物理量打开增长空间
- 创投同比下降25%,出海热土东南亚“冷静”下来了?
- 石化机械(000852):8月23日北向资金增持27.32万股
- 四川累计建成5476万亩高标准农田
- 2012年湖北省高考录取分数线表(2012年湖北省高考录取分数线)
- 突发!俄摧毁乌军侦察艇
- 菲拉格慕蓝色经典男士淡香水(关于菲拉格慕蓝色经典男士淡香水简述)
- 证监会副主席李超:发挥香港支持中国企业融资的国际平台作用 进一步便利境外中长期资金入市
- 浙江余姚建筑倒塌事件被困人员全部找到
- 信贷市场看好软银收购Arm股权 软银CDS价格走低
- 与iPhone 14 Pro相比 iPhone 15 Pro系列预计有超过20项升级和变化