Wang Kaixuan / 3D Vision & Robotics

Wang Kaixuan Blog

王凯旋的个人博客,分享 3D 视觉、机器人、具身智能和 AI 领域的思考与周报。

2026 年 05 月 30 日

数字世界的触手

#周报

数字世界的触手

TL;DR

  • 数字世界需要物理触手:以 wanman.ai 为例,纯数字的 agent 系统要真正运营一家公司,必须延伸到线下——打电话、雇人、实地调研。
  • HaaS 是新兴基础设施:haas.my、humaninloop.work、humwork.ai 这类平台,让 agent 可以通过 API 按需雇佣人类,完成物理交互、专业判断等任务。
  • 一手数据将成竞争壁垒:在数字世界高速运转的未来,网络上获取不到的现场信息是稀缺资产,谁能高效收集,谁就掌握判断优势。
  • 机器人是 agent 系统的终极物理接口:通用机器人的价值远超”替代重复劳动”;大疆机场、无人物流车这类特种机器人也是数字世界的有效延伸。

正文

若干年前,我看到一个字节跳动程序员财务自由,高调退休的新闻。当时没留意,没想到最近几周我开始密集关注他的分享。可能是从五一开始,我留意到他在网络上分享了自己在 vibe coding 的若干个项目,以及在 youtube 上做的一系列分享,非常有感触。

今天,我想从他的项目,尤其是 wanman.ai, tuwa.ai 开始,聊一下数字世界的未来,以及数字世界需要哪些触手来填补能力的缝隙。

郭宇本来是一个快乐的有钱人,退休后享受生活。直到 Claude Code 成熟可用,并且在友人想做一个“终结所有软件的软件“的影响下,他也开始想做类似的事情,vibe coding 了一系列软件。他的软件系统核心是 wanman.ai,一个云端 agent 系统。期望借助大模型以及 agent 的能力,用户可以专注在最有价值的想法上,并且有充分的时间来体验生活本身。正如 wanman(one man)这个名字体现的,期望一个人就能运转一个公司,并且尽可能减少因为等待人类而造成的卡点。这个“公司“上上下下有各种 agent 角色,包括 CEO,财务,开发,等等,承接用户的想法,完成想法的落地以及后续所有的运营工作。

在这样的数字世界中,你可以完成股票交易,可以生产视频并且在自媒体上发布。但是,想要能运转任何一个公司,只能完成数字世界的工作显然是不够的。为了将触手延伸到线下,郭宇还 coding 了一系列周边工具,比如 tuwa.ai, 一个接入实时翻译,可以打到世界各地的电话服务。借助这些系统,他可以让 agent 运营一个装置艺术公司,不仅包含了财务计划,网站运营,作品设计,还能主动联络东京的各种画廊,公共空间,安排展览。几乎完全做到了一个实体公司的运营状态。

不难想到,数字世界的 agent 能力会持续迭代下去,而且能力会不断外溢到物理世界中,形成更大的影响力。为了进一步发挥数字世界的能力,除了类似 tuwa.ai 这样的电话工具,还会有各种物理世界的接口作为数字世界的触手,把 agent 系统与人类连接起来。

haas.my 就是这样一个例子, 官网上写着:

HaaS is the missing infrastructure for AI agents. Just like SaaS brought software on-demand, HaaS brings human presence and judgment on-demand — bookable via API, paid per task, no overhead.

(翻译)HaaS 是 AI agent 缺失的基础设施。就像 SaaS 带来了按需使用的软件,HaaS 带来了按需调用的人类存在与判断力——可通过 API 预约,按任务付费,零管理开销。

通过 API, agent 可以完成任务的发布,匹配人工,完成任务并且结算,实现了雇佣一个临时工去做任何人类可以做的事情。官网也举了一些例子,比如检查包裹的完整性,调研线下商超商品价格或者人流量,等等。大多数任务与实地调研相关,收集网络上无法获得的一手知识,比如价格,人流量,或者一个店铺的外立面等等。让我想到 2026 年美伊冲突时,美国 Citrini Research 公司嫌卫星数据不准,派人去阿曼租小船,在霍尔木兹海峡现场数船,直接改写了市场对油价和航运的判断。在数字世界运转飞快的未来,一手数据源会成为未来的竞争壁垒。

humaninloop.work 也是类似的,帮助 agent 去雇佣一个临时工:

HumanInLoop.work is a marketplace where AI agents hire real people for physical, social, and legally human tasks: pressing elevator buttons, waiting on hold, showing up in person, and handling the awkward edge cases software still cannot quite absorb.

(翻译)HumanInLoop.work 是一个 AI agent 雇用真人完成物理、社交和法律上需由人类完成的任务的市场:按电梯按钮、等待接听、亲自到场,以及处理软件仍无法应对的棘手边界情况。

这里他们就更加强调物理世界中的任务,比如排队,运送高价值包裹。这一类任务大多有时效性,物理交互,或者需要人类身份来处理(比如过安检,送花)。

humwork.ai 是另一个例子,其自我介绍:

When your AI agent gets stuck, we connect it to a verified human expert in real-time via MCP. Engineers, designers, and more — matched in < 30s.

(翻译)当你的 AI agent 遇到瓶颈时,我们通过 MCP 将其实时连接到经过验证的人类专家。工程师、设计师等各类专家——30 秒内完成匹配。

他的定位就是当 agent 处理极为复杂、专业的问题时,可以及时向网络上的专家求助,确保其任务能够顺畅走完,而不是等待用户造成流程的中断。

以上趋势是非常清晰的,借助物理世界的接口,数字世界的能力可以被进一步增强,或者弥补当前大模型的能力不足。

物理接口不难让人联想到具身智能。当前主流的叙事是具身进入千家万户,解放人类的重复性劳作。更深刻的视角是作为 agent 系统的延伸,作为数字系统与物理世界的通用接口。在这个框架下,机器人可以做的事情会远超当前定义的人类劳作。为了完成特定的目标,机器人会去做很多之前无法雇人去做的事情,甚至会针对特定任务再去制造更加高效的专业机器 —— 就像 Claude Code 可以为各种任务编写临时脚本。

物理接口的含义也一定是超越通用机器人的,功能单一的特种机器人,比如大疆机场可以提供方圆几公里的监控响应,无人物流车可以被调用配送货物。这些都可以极大增强数字世界的能力。

从 wanman.ai 这样的一人公司系统,我们可以看到未来 agent-centric 组织是怎么样的。我们人类以及机器人,会充当数字世界的触手,填补能力的缝隙。而随着通用机器人的发展,不仅当前的重复劳动会被替代,物理世界的产出也会指数放大。在这样的社会中,每个人生活的目标就是追求最纯粹的个人意义。就像财富自由的郭宇也会熬夜 coding,每个人都会在自己的创造中生活。