2026 年 03 月 21 日
让智能走出家门
#周报

最近在面试时,常常没有时间向候选人解释清楚我们想做的 移动基座模型 是什么。因此写了这篇文章让大家能够有一个相对具体的概念。
大家聊具身智能时,画面往往是双臂机器人叠衣服、折纸盒、倒咖啡,或是人形机器人在产线拧螺丝、在家里收拾台面。行业里投入最多的,也确实是两件事:一是把局部空间里的操作做通,二是把本体的运动控制做稳,让人形能走能站、双臂能协调。通过这两个能力的叠加,我们可以实现一个在固定场所的通用机器人,可以处理各种家庭、工厂任务。
这些方向都很有价值,但它们默认了一个前提:机器人长期待在一块相对固定的场地里,任务边界事先大致清楚。换句话说,智能还「住」在厂房、实验室或单个户型里,很少被要求像人一样:听懂一句自然语言,自己琢磨怎么去另一个地方、路上要注意什么、到了之后还要接着干活。
机器人能不能走出这扇门,到楼道、园区、商场、街道上去完成同样由语言或图像描述的任务?现有系统就会暴露出短板:跨更大空间的可执行性、对开放环境里语义元素的理解、以及和任务规划、外部信息(导航、通讯录、工单系统)的结合,都还在早期。
「让智能走出家门」这种能力背后依赖的一类模型称为移动基座模型。它强调的不是保持平衡的 locomotion,而是支撑「理解,到达与持续执行」的那一层智能。
本体运动方面,从传统的步态与平衡,到近年来用全身协调,进展很快。像 Figure Helix 02 所代表的方向,把行走、操作和平衡放进统一的框架里,在房间尺度上完成长时程的 loco-manipulation,说明「在一个房间内全身一体地干活」正在变成可追求的目标。双臂操作则是另一条主线:抓放、折叠、等丰富的操作,引入强化学习之后,任务的精度以及可靠性也在不断提升。
这些能力与「走出家门」是相互补充的能力。房间内的全身规划再流畅,默认的还是「场景封闭、尺度有限」。若智能真的能走出家门,消费者无需复杂设置,可以开箱即用,一批任务会自然解锁,例如:
- 会议室里发现忘带充电器,用自然语言吩咐机器人去工位取回;
- 外卖到了楼下,机器人到取餐点核对信息并送到指定楼层或座位;
- 前台或行政场景下,按可查的工位或通讯录把包裹分发到个人;
- 安保巡检:按路线巡逻,对滞留或异常行为做记录与初步交互;
- 商场或综合体里,顾客下单后由机器人从店铺附近把商品送到顾客所在区域。
这些例子背后的核心不是「会不会走路」,而是任务由语言和场景语义定义,执行链条长,且需要把外部环境里的物体、规则和其他信息源用起来。上层需要一个能力很强的 agent:理解意图、拆步、检索或调用工具收集数据,再把结构化或半结构化的目标交给更贴近物理世界的移动基座模型,得到可实时跟进的移动与交互决策。
在具身领域,当前主流选型是 VLA(如 π0.5):在预训练 VLM 的基础上增加动作模块,把语言理解与视觉对齐延伸到电机控制。但是 VLM 的架构只为图像、文本理解设计,并没有为移动机器人优化。比如 VLM 在处理机器人多视角图像时,无法融合为一个完整的场景理解。前后不分是常态。多路视频输入后,冗余的信息被重复处理,推理延迟会与实时控制的需求产生直接冲突。
另一条路线是世界模型(WM),它对视频与运动轨迹的建模更为友好,但语言指令的 grounding 能力较弱——路牌、门牌、业务规则等文字与语义信息,难以被直接理解并转化为正确的预测与行为。从这两条路的现状来看,当前形态的 VLA 与 WM 都还不能独立支撑开放环境里语义驱动的长链条移动任务;移动基座模型要解决的,正是两者分别留下的空白。
当构造完这样一个 机器人系统友好 的基座模型后,我们还需要海量的数据支撑(互联网数据以及自己采集的数据),长程任务的强化学习,才能把这个系统提升到真正开箱可用,值得信赖的程度。这样的目标,就是我们投入研发 移动基座模型 的初衷。