2026 年 03 月 21 日

让智能走出家门

#周报

robot-navi

最近在面试时，常常没有时间向候选人解释清楚我们想做的 移动基座模型 是什么。因此写了这篇文章让大家能够有一个相对具体的概念。

大家聊具身智能时，画面往往是双臂机器人叠衣服、折纸盒、倒咖啡，或是人形机器人在产线拧螺丝、在家里收拾台面。行业里投入最多的，也确实是两件事：一是把局部空间里的操作做通，二是把本体的运动控制做稳，让人形能走能站、双臂能协调。通过这两个能力的叠加，我们可以实现一个在固定场所的通用机器人，可以处理各种家庭、工厂任务。

这些方向都很有价值，但它们默认了一个前提：机器人长期待在一块相对固定的场地里，任务边界事先大致清楚。换句话说，智能还「住」在厂房、实验室或单个户型里，很少被要求像人一样：听懂一句自然语言，自己琢磨怎么去另一个地方、路上要注意什么、到了之后还要接着干活。

机器人能不能走出这扇门，到楼道、园区、商场、街道上去完成同样由语言或图像描述的任务？现有系统就会暴露出短板：跨更大空间的可执行性、对开放环境里语义元素的理解、以及和任务规划、外部信息（导航、通讯录、工单系统）的结合，都还在早期。

「让智能走出家门」这种能力背后依赖的一类模型称为移动基座模型。它强调的不是保持平衡的 locomotion，而是支撑「理解，到达与持续执行」的那一层智能。

本体运动方面，从传统的步态与平衡，到近年来用全身协调，进展很快。像 Figure Helix 02 所代表的方向，把行走、操作和平衡放进统一的框架里，在房间尺度上完成长时程的 loco-manipulation，说明「在一个房间内全身一体地干活」正在变成可追求的目标。双臂操作则是另一条主线：抓放、折叠、等丰富的操作，引入强化学习之后，任务的精度以及可靠性也在不断提升。

这些能力与「走出家门」是相互补充的能力。房间内的全身规划再流畅，默认的还是「场景封闭、尺度有限」。若智能真的能走出家门，消费者无需复杂设置，可以开箱即用，一批任务会自然解锁，例如：

会议室里发现忘带充电器，用自然语言吩咐机器人去工位取回；
外卖到了楼下，机器人到取餐点核对信息并送到指定楼层或座位；
前台或行政场景下，按可查的工位或通讯录把包裹分发到个人；
安保巡检：按路线巡逻，对滞留或异常行为做记录与初步交互；
商场或综合体里，顾客下单后由机器人从店铺附近把商品送到顾客所在区域。

这些例子背后的核心不是「会不会走路」，而是任务由语言和场景语义定义，执行链条长，且需要把外部环境里的物体、规则和其他信息源用起来。上层需要一个能力很强的 agent：理解意图、拆步、检索或调用工具收集数据，再把结构化或半结构化的目标交给更贴近物理世界的移动基座模型，得到可实时跟进的移动与交互决策。

在具身领域，当前主流选型是 VLA（如 π0.5）：在预训练 VLM 的基础上增加动作模块，把语言理解与视觉对齐延伸到电机控制。但是 VLM 的架构只为图像、文本理解设计，并没有为移动机器人优化。比如 VLM 在处理机器人多视角图像时，无法融合为一个完整的场景理解。前后不分是常态。多路视频输入后，冗余的信息被重复处理，推理延迟会与实时控制的需求产生直接冲突。

另一条路线是世界模型（WM），它对视频与运动轨迹的建模更为友好，但语言指令的 grounding 能力较弱——路牌、门牌、业务规则等文字与语义信息，难以被直接理解并转化为正确的预测与行为。从这两条路的现状来看，当前形态的 VLA 与 WM 都还不能独立支撑开放环境里语义驱动的长链条移动任务；移动基座模型要解决的，正是两者分别留下的空白。

当构造完这样一个 机器人系统友好 的基座模型后，我们还需要海量的数据支撑（互联网数据以及自己采集的数据），长程任务的强化学习，才能把这个系统提升到真正开箱可用，值得信赖的程度。这样的目标，就是我们投入研发 移动基座模型 的初衷。