Wang Kaixuan / 3D Vision & Robotics

Wang Kaixuan Blog

2026 年 04 月 04 日

具身智能会比自动驾驶先到来吗?

#周报

TL;DR

  • 同一终点,不同进度:大模型、自动驾驶、具身智能都在追求”脱离人类监督、独立完成任务”,但大模型接近到达,自动驾驶正在攻关,具身智能还在早期。
  • 数据鸿沟是核心瓶颈:大模型有互联网语料,自动驾驶有行车数据,具身智能没有”机器人互联网”——当前大量创业公司涌入数据赛道,本质是在为这个行业补基础设施。
  • 物理 AI 没有”反悔权”:大模型可以反复试错来提升可用性,自动驾驶和具身智能是 real-time + safety critical 的,必须一次做对,对可靠性要求远高于大模型。因此也更加需要下一轮技术突破。
  • 结论:具身智能在补自动驾驶走过的课,不是在超车。两者共同需要的是下一代学习框架——一个能经济地把可靠性从 99% 推到 99.9999% 的方法。

正文

最近刷 X,看到不少做具身智能数据集的创业公司,如火如荼 —— FPV_labsRopedia, 等等公司。Generalist 也发布了 Gen-1, 展现了具身场景的 scaling law。一时间很多想法涌上来,脑海中闪现一个问题

具身智能会比自动驾驶先实现吗?

经过我的一番 CoT,我的结论是:不会。以下是我的 CoT 过程:

三条路,同一个终点

大语言模型、自动驾驶、具身智能——这三条技术追求的终极目标其实是同一个:脱离人类的实时监督,独立完成任务

大语言模型走得最快。ChatGPT 时代它是辅助角色,你问它一句它答一句,出了错你自己兜底。但到了 Claude Code、Cursor 这一代,当模型的正确率足够高,并且有了闭环修正能力——能跑测试、能自我纠错——它的价值就发生了质变。人们开始用大模型当引擎,用 Harness 当脚手架,去搭建以前不敢想的项目。它不再是辅助,而是真的在独立干活。大家抢着给 Claude、智谱 送钱。

自动驾驶也在经历类似的过程。L2 辅助驾驶就像 ChatGPT:能帮你开,但你不能脱手,你还是那个兜底的人。L4 才是它的 “Claude Code 时刻”——车真的可以自己开,你可以放心地把方向盘交出去,自己去忙其他的事情。如果达成了这个状态,大家也会给车企送钱的,订阅一个“虚拟司机“就是花钱买自己的时间。

具身智能同理。今天的具身智能大概相当于刚刚能跑通 Demo 的阶段,离”放心交给它去干活”还有很远的距离。

数据:各有各的难题

这三条路线在数据层面的处境非常不同,而这种不同恰恰解释了当下行业格局的很多现象。

大语言模型早期享受了互联网数据的红利,海量文本唾手可得。但这个红利早已吃完。互联网数据的质量和密度其实一般,真正有用的高质量数据在海量文本里的比例极低——沙里淘金。所以现在大模型厂商都在专门构造高价值数据,专门设计能力训练的 pipeline。谁的数据构造的好,谁就有更强的性能。

自动驾驶的处境几乎相反。人天然会开车,所以模仿学习的基础燃料从来不缺。行车记录仪数据、车队采集数据、量产车回传数据——这些是自动驾驶行业天然拥有的互联网级别语料。自动驾驶的模仿学习走的很快,以至于当大家开始端到端之后,性能体验都无法拉开绝对差距。

具身智能呢?他没有一个”机器人互联网”可以去爬,也没有海量的机器人操作录像可以直接拿来训练。这就是为什么我们看到这么多创业公司涌入具身智能的数据赛道——他们在做的事情,本质上是在为具身智能打造它的”互联网”。他们信奉 scaling law,相信当前的每一笔数据投入都是为具身这个产业奠定地基。也正是这个信仰,支撑了具身行业的火热。

这也解释了一个有趣的现象:具身智能创业公司的叙事核心是 Scaling Law 和数据,而自动驾驶创业公司的叙事核心是算法。因为两者卡在了不同的瓶颈上。

模仿学习的天花板

具身智能在 Scaling Law 上的验证确实做得很好。更多数据、更大模型、更好的表现。看起来一切都很好,但是这些都太早期了。

当前自动驾驶行业,如果你在城区做不到 20 公立零接管,你都不好意思叫自己第一梯队。具身当前叠衣服,冲咖啡的能力,充其量只能是“自动泊车“,或者在封闭园区内点对点导航。如果你想对标自动驾驶当前的能力,具身智能得要在任意家庭环境连续工作一个小时。

模仿学习的 scaling law 是很昂贵的:log 空间线性意味着成本是指数增长的,而指数增长的成本是自然界承受不起的。

大模型领域已经用实践证明了这一点——纯粹的预训练 Scaling 快要饱和,最终还是要靠强化学习去提升性能的上限。而且大语言模型领域现在已经出现了专门做强化学习环境的创业公司,为 Claude、Gemini 这样的厂商提供各种训练环境和工具。

对于物理世界的 AI 来说,强化学习要难得多,他的仿真环境更加难以构建,sim2real 的 gap 也需要考虑。目前可能只有 Tesla 在自动驾驶领域走通了大规模强化学习的路径。具身智能这边就更早期了,只有任务级别的尝试,远没有达到大语言模型那种大规模并行强化学习的程度。

除了强化学习,物理 AI 还需要下一轮技术革命

有一个根本性的区别,把大语言模型和物理世界的 AI(自动驾驶、具身智能)分成了两个阵营。

大语言模型可以牺牲时间换质量。 它可以做很多次,不断自我修正,直到把事情做对。Test Time Scaling 就是这个思路——推理时多花算力,让模型反复思考、验证、纠错。写错了代码可以重跑,推理错了可以重来,代价只是多花几秒、几分钟。Harness Engineering 更是将这个过程推到下一个 level,专门研究如何构造环境,让 LLM 可以更好发挥,修正,迭代。

但自动驾驶和具身智能不行。它们是 Real-time Critical,Safety Critical 的。自动驾驶错一次,车就撞上去了;具身智能错一次,东西就摔碎了。

这意味着物理 AI 无法像大语言模型那样依赖 Test Time Scaling 来兜底。它必须在第一次就做对,或者至少在做错之前就意识到不确定性并采取保守策略。这对模型的可靠性提出了远高于大语言模型的要求。

RL 会提升系统的可靠性,但是当前的技术(样本利用效率)是否足够?根据目前 LLM 以及 Tesla 的进展,我觉得不是那么乐观。

可能我们需要下一轮技术革命:更高样本利用效率的学习算法

总结

回到最初的问题:具身智能会比自动驾驶先实现吗?

我说的”实现”,是指走进千家万户,人人可用,人人爱用,可以放心交给它——不管是 Tesla 的 Optimus 还是 Physical Intelligence 的双臂机器人。

我的判断是:不会。

具身智能当前的繁荣——大量创业公司、资本涌入、数据公司遍地开花——看起来热闹,但热闹的本质是这个行业正在积极克服自动驾驶多年前就开始面对和解决的基础问题。具身智能在补课,不是在超车。

具身智能没有自动驾驶行业的那些包袱,路线也更加 scaling,我认为是一个先天的优势。

自动驾驶和具身智能面临着同样的终极挑战——在 real-time critical、safety critical 的物理世界中,达成极高的可靠性。而这个可靠性要求单靠目前的模仿学习肯定是无法达成的,靠目前的强化学习也勉勉强强。我们需要的是下一代的学习框架:一个可以更加经济的方案,让我们可以从 99% 的可靠性,演进到 99.999%。

注:以上文本经 Claude 整理。