2017 · 过度乐观期
「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」1
Mind over Matter:
From Anatomy to Autonomy
心胜于物: 从具身到智能
2025-12-26
Agent可以完成任务的长度大约每七个月翻一番, 但即使把时间尺度拉长三倍, 机器人的发展也显得很平缓.
Figure 03 的现实: TIME 记者在同一场 demo 里的记录
机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起.
最终由工程师走上前,把衣物移出镜头,刻意移出我的视线.
But the robot’s limitations were too obvious to hide
Neo 的真相: 坦诚的 Teleop-first 路线
宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…
高度依赖 远程遥操作 + 人类专家兜底, 而非真正端到端自主.
Data can solve almost all current problems.
— Brett Adcock1, CEO of Figure AI
Dyna
千寻智能
西湖机器人
Ours
智元
星海图
机器人无法像在模拟中一样获得世界的完整状态(State),只能依赖有限的、充满噪声的观测(Observations), 而且世界如何演变也是未知的. s_{t+1}\sim \mathbb{T}(\cdot\mid s_t,a_t),o_{t+1}\sim \mathbb{O}(\cdot\mid s_{t+1},a_t) \quad \mathbb{T,O} \mathrel{?}
大世界假说1:世界相对 agent 大很多个数量级;agent 无法完全感知、也无法为所有情形存储/表示最优价值与动作
解决方案:通过感知-动作闭环来更新信念状态2 predict→action→perception→update
Agent需要维护对环境状态和世界模型的联合信念状态b_t(ds,d\theta),并通过贝叶斯滤波进行更新: \begin{aligned} b_{t+1}(ds',d\theta) &\propto \int \underbrace{b_t(ds,d\theta)\,\mathbb T_\theta(ds'|s,A_t)}_{\text{预测}} \;\underbrace{\mathbb O_\theta(C|s',A_t)}_{\text{用观测纠正}} \\[2mm] b_t(ds,d\theta) &= \underbrace{\mathbb{P}(\Theta\in d\theta\mid \mathcal H_t)}_{\substack{\text{parameter epistemic}\\ \text{规律/动力学不确定}}}\ \underbrace{\mathbb{P}(S_t\in ds \mid \Theta=\theta,\mathcal H_t)}_{\substack{\text{state epistemic}\\ \text{当前处境不确定}}} \end{aligned}
观测混淆 (Observation Aliasing):同像不同态
表面上几乎完全相同的视觉画面,背后却对应着截然不同的任务阶段或隐藏状态。例如,同样是”拿起物体”,可能是任务的开始,也可能是重复操作,但模型无法区分。
state posterior多峰,无法仅靠被动观测消歧。
Sim2Real Gap/ OOD:转移规律漂移
当环境出现轻微扰动或偏离演示轨迹时(如物体位置偏移几厘米),策略会立刻陷入”困惑”,表现为抖动或停滞,且无法自我纠正。
parameter epistemic被当成固定点估计, 也不能在部署时更新
缺失主动感知(No Active Perception):不可逆任务中的消歧失败
面对系鞋带这类one-way door,系统必须在”提交”动作前主动降低state epistemic:改变视角/重新摆位、轻拉试探张力、拨开遮挡、触觉确认接触关系……
本可通过动作降低 epistemic,却直接提交导致不可逆错误
世界状态完全体现在上下文里,没有额外的隐藏物理状态需要估计, 天然低维
连续、多尺度, 真实的状态和观测都高维和非结构化
输出的 token 立刻成为下一刻的世界;生成不仅是”行动”,同时也是”观测”的更新
动作改变隐藏的真实状态,传感器只给带噪、滞后的投影;必须面对遮挡、滑移、接触不确定性
训练目标本质是在拟合文本世界的状态转移函数,LLM 天然就是 text-world 的 world model
每次动作都在改变未来数据分布, VLA往往退化成”记住并复述训练过的动作序列”
写错了”重写”即可;闭环快、试错廉价,系统能靠迭代自然爬升能力
不是”回答错了”,而是撞坏了 / 夹伤了 / 任务报废了;物理世界的试错不是”删掉重写”
It’s like the whole world as projected by people onto text1. — Ilya Sutskever
That is the mind should grow from runtime experience, not from a special training phase2. — Richard Sutton
LLM在训练时是离线的静态环境,但部署时面对的是开放的真实世界世界,许多瓶颈来自于无法动态的适应新世界的变化和不确定性, 代码世界和物理世界共享同一类困难。
关键挑战
代码智能体
具身智能体
观测不完备
遗留系统代码库
文档缺失、上下文分散、隐式依赖;不可能”看完/看全”
开放环境
传感器有噪声, 不能覆盖多尺度变量
动态机制未知
运行时系统
行为与配置、版本、网络、服务状态耦合;同一操作随上下文漂移
物理交互动力学
接触/摩擦/柔性/磨损等长尾效应难以建模;仿真永远只是近似
行动有风险与代价
工具调用
调用可能超时/有副作用/难回滚
执行器控制
噪声/延迟/饱和与故障;失败代价高且可能不可逆
经典认知科学实验揭示了学习的根本前提:智能涌现于对”感知-动作”规律的掌握。1
误区:通用机器人 = 缸中之脑 + 外设
现实:物理世界是”考场”,不是”练兵场”
转向:寻找智能的”培养皿”——在可控世界里锻造闭环
让模型真实学会并反复强化 sensorimotor contingencies:
目标:发现能学习世界模型、形成闭环自治、并可迁移到现实的通用算法
训练在培养皿,验收在考场
2017 · 过度乐观期
「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」1
2019 · Dactyl 高光时刻
单手还原魔方——宣传「接近人类灵巧度」的里程碑2
2021 · 关闭机器人团队
「机器人拿不到足够数据,看不到 scale 的路径」3
2023 · 「需要极大决心」
「你需要真的爱机器人: 要造几万台机器人,长期采集数据」4
2025 · 冷静悲观期
「真实世界中快速学会新技能,对机器人来说非常够不着」5
We’re moving from the age of scaling to the age of research
Let’s go back
to the age of research