Qwen 发布机器人基础模型套件:把 LLM 的开放打法搬进具身智能

Qwen 一次推出三个机器人基础模型,导航、操作、世界模型各管一段,用语言接口把它们串成可调用的工具。真正的杠杆不是某个跑分,而是想把物理世界智能做成像 LLM 那样可二次开发的开放底座。但从看懂到会动这条鸿沟,一个套件远没填平,真正的瓶颈在真实机器人上的泛化与可靠性。

Qwen 发布机器人基础模型套件:把 LLM 的开放打法搬进具身智能
图 / Unsplash

概述

6 月 16 日,Qwen 团队发布了 Qwen-Robot Suite,一套面向物理世界智能的机器人基础模型。它把三个分工明确的基础模型打包在一起:Qwen-RobotNav 管导航,Qwen-RobotManip 管操作,Qwen-RobotWorld 是世界模型,负责预测物理世界下一刻会变成什么样。三者都建在 Qwen 的多模态模型之上,共同点是用语言做接口,让通用的 Qwen 模型能把它们当成物理世界的工具来调用。

发布博客开篇就点出了这套东西想攻的那道坎:看懂不等于会动(seeing is not acting)。一个视觉语言模型早就能用语言把任务拆清楚,「去厨房,找到红杯子,拿起来,放到架子上」,但它产生不了执行这串动作的电机指令。语言指令和物理动作信号活在两个不同的表示空间里,对齐它们才是具身智能的中央瓶颈。我的判断是,这次发布的真正看点不在任何一个跑分,而在打法:Qwen 想把它在 LLM 上验证过的那一套,开放权重加开放分发,复制到机器人基础模型这一层,去抢「具身智能的开放底座」这个位置。

发生了什么

三个模型各自攻一段,对齐的对象都是「语言到某一类物理动作」。

Qwen-RobotNav 建在 Qwen3-VL 上,用一套参数化的导航接口把五类导航任务收进一个模型:指令跟随、目标点导航、目标跟踪、自动驾驶,再加具身问答。它的设计要点是把观测策略变成可在推理时调的参数,比如视觉 token 预算、时间衰减、每个相机的权重,因为不同任务对记忆的需求差很远,指令跟随要长时程上下文,目标跟踪几乎只看最近几帧。训练用了 1560 万样本,官方称在五个导航域上拿了八项最优,并零样本部署到了宇树 Go2 四足,只用机身那一颗低分辨率相机,在没见过的公寓里执行口头指令。

Qwen-RobotManip 攻的是操作,难点在不同机器人形态彼此不兼容:流水线上的工业臂和厨房里的服务臂,抓取动作看着像,关节配置和动作空间却完全不同。它用一个统一的 80 维状态动作表示来容纳单臂、双臂、灵巧手、移动底盘等多种本体,再用相机系的末端执行器增量位姿,让看着像的动作在数值上也靠得近,把形态差异抹平。训练数据号称超过 38100 小时,全来自开源,其中两万多小时是用「人到机器人」合成管线,从约 1933 小时第一视角人类视频转出来的。官方称它在 RoboChallenge Table30 通用赛道拿了第一。

Qwen-RobotWorld 是世界模型,要解决机器人里最稀缺的东西:真实世界经验。它直接学世界的状态转移函数,给当前观测加一条自然语言动作,预测下一刻画面。关键设计是把所有动作都用自然语言表达,于是末端位姿、转向指令、导航路点被统一进一个接口,让二十多种本体、五百多类动作能一起训。它用完整的多模态大模型来当动作编码器,没用轻量文本编码器,官方说这是要害,因为大模型内置了「臂是刚体、流体会扩散、物体会下落」这类世界常识,能把生成往物理上说得通的方向约束。

把三个模型连起来的,是一个叫 Qwen-RobotClaw 的内部项目:让 Qwen 的视觉语言模型把这三个模型当物理世界工具来调,由通用模型做高层规划、拆子任务,套件模型管底层执行。官方给的例子里,高层规划器能在执行卡住时重新规划、换个子任务把流程救回来。

技术要点

这套东西最值得记住的一句话,藏在操作模型的关键发现里:对齐是规模化的前提。Qwen 说,只有用了统一跨本体表示的模型,数据加上去才呈现干净的对数线性增益;没有对齐,加再多数据,曲线要么乱跳要么走平。换句话说,机器人数据不像互联网文本那样直接堆就有用,一条导航轨迹、一次遥操作抓取、一段行车记录仪片段,动作空间、观测格式、本体各不相同,硬凑到一起是冲突不是协同。先把表示对齐,数据的杠杆才打得开。这个判断如果在第三方复现里站得住,比任何单项 benchmark 都更有价值,因为它指的是一条可规模化的路径,而不是一个孤立的高分。

世界模型那条「用完整多模态大模型当动作编码器」的设计也值得留意。它把语言理解和视频生成耦合在一个六十层的双流结构里,赌的是大模型里那点物理常识能隐式地把生成约束在物理可信的范围内。这是个有意思的押注:让世界模型继承语言模型已经学到的世界知识,而不是从像素从头学物理。

为何重要

把视角从单个模型抬到打法,这次发布的分量才显出来。Qwen 在 LLM 上的路径很清楚:开放权重,让全世界在它之上做二次开发,靠生态而不靠单点能力建立位置。现在它想把同一套搬到具身智能。如果成了,它要卡的就不止某一类机器人任务,而是机器人基础模型这一层本身,成为别人做具身应用时的默认底座。

HN 上一条来自正在自己造扫雪机器人的开发者的评论说得很到位:这事完全在预期内,谷歌和 Qwen 从去年秋天就在往模型里加空间推理和空间输出能力;而这套套件的整体架构,正好印证了一种正在成形的范式,通用大模型看一眼现场和任务,拆成子任务和工具调用,导航和操作模型就是被调用的工具,外层 harness 管记忆和上下文。这个判断很重要,因为它说明 Qwen 这套并非孤立创新,而是踩在一个行业共识上,把它工程化、打包、再用开放分发推出去。谁先把这层做成可复用、可二次开发的底座,谁就拿到具身智能时代的位置。

物理世界的潜在市场也确实比编码或服务大得多,而且在制造和国防上更具战略意义,这是 HN 上多人提到的。但越是战略,越要看清它现在到了哪一步,而不是被市场规模冲昏头。

该忽略什么

忽略 demo 视频里的灵巧度。那些是挑出来的最好镜头,零样本部署到宇树 Go2、人到机器人迁移、多视角一致生成,看着都很惊艳,但一个套件远没解决从看懂到会动这道鸿沟。Qwen 自己在博客里就把丑话说在前面:能在浏览器试玩的 Chat2Robot 只支持操作模型,且只在一个 50 任务的干净数据集上训过,明说「不是完美策略」,还在积极开发中。这是难得诚实的一笔,也提醒所有人,真正的瓶颈从来不在 demo,而在真实机器人上的泛化和可靠性。

也忽略「这是不是开源」这种非黑即白的追问。截至发布,权重还没放出,HN 上有人查过 QwenLM 的组织页确认了这点。但开源与否不是这篇该执着的判据,更该问的是:等权重真放出来,它能不能像 LLM 那样被别人接过去做二次开发。开放分发是 Qwen 这套打法的命门,没有它,这就只是又一篇带 demo 的论文。

最后,忽略把厂商自报的 benchmark 当定论。八项最优、第一名、超过对手多少个点,这些都来自 Qwen 自己的测试环境,第三方在真实机器人上的复现一篇都还没有。物理世界不讲情面,仿真和 benchmark 上的成绩能在真机上保住多少,那个 sim-to-real 落差才是验金石。

对建设者的影响

如果你是 builder 或 researcher,这套东西值得关注,但关注点要放对。

第一,盯它能不能成为可复用的开放底座,而不是 demo 里的灵巧度。真正的问题是:权重放出后,你能不能像接一个开源 LLM 那样,把 RobotManip 接进自己的机器人、用自己的数据微调、跑出能用的策略。如果能,它就是底座;如果接入门槛仍然高、生态工具缺失,它就还是论文。这跟此前开放编码模型的教训一致,瓶颈常常不在权重本身,而在能不能被顺手地二次开发。

第二,评估时盯两个数:跨本体泛化和 sim-to-real 落差。前者看一个模型能不能在没训过的机器人形态上直接干活,这是 Qwen 用统一状态动作空间下的赌注;后者看仿真和 benchmark 的成绩在真机上掉多少。这两个数字才决定它是底座还是 demo,比任何单项最优都更值得追。

第三,别急着 all in,但要开始读它的技术报告。三个模型各有独立技术报告,「对齐是规模化前提」这个核心论断是否成立,决定了这条路能不能走通。现在的正确姿态是把它当成一个有数据支撑、方向清晰的研究里程碑去跟踪,等权重和第三方复现落地,再判断要不要押注。物理世界智能仍在襁褓期,Qwen 自己也这么说,这是迈出的第一整步,不是终点。

常见问题

Qwen-Robot Suite 到底解决了什么?

它没解决具身智能的核心难题,但把接入门槛压低了一截。三个模型各自处理导航、操作、世界模型,共同点是都用语言做接口,让通用 Qwen 模型能像调工具一样调它们。官方自报在多个机器人 benchmark 上拿了第一或追平最优,并在宇树 Go2 四足上做了零样本部署。这些大多是厂商自己的成绩,第三方在真实机器人上的复现还没出现。

Qwen 这套机器人模型是不是又一个 demo?

比纯 demo 多一点,但离产品还很远。它给出了可量化的 benchmark、技术报告和真机部署视频,不是只有炫技剪辑。但 Qwen 自己也标明,能在浏览器试玩的 Chat2Robot 只支持操作模型,且只在 50 个任务的干净数据集上训过,明说不是完美策略。把它当成一个有数据支撑的研究里程碑,而不是能直接落地的机器人大脑。

Qwen-Robot Suite 开源吗?

截至发布,权重还没放出。官方博客底部有 GitHub 链接,但 HN 上有人查过 QwenLM 的组织页,确认这套机器人模型当时并未开源。Qwen 此前在 LLM 上一贯走开放权重,这次很可能延续,但在权重和技术报告真正落地前,对开发者来说它还只是一篇论文加一组 demo。

评估机器人基础模型,该看哪些指标?

别看 demo 视频里的灵巧度,那是挑出来的最好镜头。该盯两件事:一是跨本体泛化,即一个模型能不能在它没训过的机器人形态上直接干活,Qwen 用统一的 80 维状态动作空间和相机系增量位姿来做这件事;二是 sim-to-real 落差,即仿真和 benchmark 上的成绩在真实机器人上能保住多少。这两个数字才决定它能不能成为可复用的底座。

来源

  1. Qwen-Robot Suite:面向物理世界智能的基础模型套件(Qwen 官方博客) / official
  2. Qwen-Robot Suite:面向物理世界智能的基础模型套件(Hacker News 讨论) / hn