Mind over Matter:

From Anatomy to Autonomy

心胜于物: 从具身到智能

2025-12-26

人工智能的前沿呈现”锯齿”1

莫拉维克悖论1: 对人越简单的事,对机器人越难

AI Agent 进入下半场, 评测破解速度越来越快

  • 人们创建出越来越多的任务来考验越来越强大的模型,但他们被破解的速度也越来越快
  • IMO曾被认为是AI需要数年才能解决的里程碑, 但OpenAI, DeepMind都在今年内取得了金牌2
  • ARC-AGI-2在发布之初最领先的模型(O3-preview)只获得了4\%的正确率, 但现在GPT-5.2已经获得了54.2\%3

具身操作长期卡在一岁孩童水平

高级推理(如象棋、编程)在计算上”廉价”

一岁孩童的感知运动技能(如感知、灵巧)在计算上”昂贵”

我们离具身”摩尔定律”还有多远?

Agent可以完成任务的长度大约每七个月翻一番, 但即使把时间尺度拉长三倍, 机器人的发展也显得很平缓.

Breakthrough Before Bubble Burst?

Figure 03 的现实: TIME 记者在同一场 demo 里的记录

机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起.

最终由工程师走上前,把衣物移出镜头,刻意移出我的视线.

But the robot’s limitations were too obvious to hide

Neo 的真相: 坦诚的 Teleop-first 路线

宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…

高度依赖 远程遥操作 + 人类专家兜底, 而非真正端到端自主.

Data can solve almost all current problems.

Brett Adcock1, CEO of Figure AI

Dyna

千寻智能

西湖机器人

Ours

智元

星海图

真实世界是部分可观测且规则未知的

机器人无法像在模拟中一样获得世界的完整状态(State),只能依赖有限的、充满噪声的观测(Observations), 而且世界如何演变也是未知的. s_{t+1}\sim \mathbb{T}(\cdot\mid s_t,a_t),o_{t+1}\sim \mathbb{O}(\cdot\mid s_{t+1},a_t) \quad \mathbb{T,O} \mathrel{?}

理想世界:MDP(马尔可夫决策过程)

真实世界:POMDP with unknown dynamics

当世界大于任何 Agent

大世界假说1:世界相对 agent 大很多个数量级;agent 无法完全感知、也无法为所有情形存储/表示最优价值与动作

小世界
大世界

解决方案:通过感知-动作闭环来更新信念状态2 predict→action→perception→update

Agent需要维护对环境状态和世界模型的联合信念状态b_t(ds,d\theta),并通过贝叶斯滤波进行更新: \begin{aligned} b_{t+1}(ds',d\theta) &\propto \int \underbrace{b_t(ds,d\theta)\,\mathbb T_\theta(ds'|s,A_t)}_{\text{预测}} \;\underbrace{\mathbb O_\theta(C|s',A_t)}_{\text{用观测纠正}} \\[2mm] b_t(ds,d\theta) &= \underbrace{\mathbb{P}(\Theta\in d\theta\mid \mathcal H_t)}_{\substack{\text{parameter epistemic}\\ \text{规律/动力学不确定}}}\ \underbrace{\mathbb{P}(S_t\in ds \mid \Theta=\theta,\mathcal H_t)}_{\substack{\text{state epistemic}\\ \text{当前处境不确定}}} \end{aligned}

Unconscious incompetence: 无意识的无能

观测混淆 (Observation Aliasing):同像不同态

表面上几乎完全相同的视觉画面,背后却对应着截然不同的任务阶段或隐藏状态。例如,同样是”拿起物体”,可能是任务的开始,也可能是重复操作,但模型无法区分。

state posterior多峰,无法仅靠被动观测消歧。

Sim2Real Gap/ OOD:转移规律漂移

当环境出现轻微扰动或偏离演示轨迹时(如物体位置偏移几厘米),策略会立刻陷入”困惑”,表现为抖动或停滞,且无法自我纠正。


parameter epistemic被当成固定点估计, 也不能在部署时更新

缺失主动感知(No Active Perception):不可逆任务中的消歧失败

面对系鞋带这类one-way door,系统必须在”提交”动作前主动降低state epistemic:改变视角/重新摆位、轻拉试探张力、拨开遮挡、触觉确认接触关系……

本可通过动作降低 epistemic,却直接提交导致不可逆错误

VLA: Verticalized LLM for Action

Vision-Language-Action 模型

视觉-语言-动作(Vision-Language-Action)模型将多模态输入(视觉、语言)直接映射到动作输出。1

架构

将视觉和语言信息融合到一个大型 Transformer 中,以输出动作 Token(例如:Google 的 RT-2,OpenVLA)。

关键特性

其本质上仍是一种反应式策略(“观测 → 动作”)。它提升了在已知任务上的泛化能力,但并未解决在不确定性下进行推理的核心问题。

Warning

隐含的赌注:用互联网规模的先验知识替代信念状态推断。

我们仍未找到物理世界的token

文本世界:自洽闭环

物理世界:开放系统

State = Context

世界状态完全体现在上下文里,没有额外的隐藏物理状态需要估计, 天然低维

State ≠ Observation

连续、多尺度, 真实的状态和观测都高维和非结构化

Action \implies Observation

输出的 token 立刻成为下一刻的世界;生成不仅是”行动”,同时也是”观测”的更新

Action Observation

动作改变隐藏的真实状态,传感器只给带噪、滞后的投影;必须面对遮挡、滑移、接触不确定性

NTP = World Modeling

训练目标本质是在拟合文本世界的状态转移函数,LLM 天然就是 text-world 的 world model

动作预测无法学到世界模型

每次动作都在改变未来数据分布, VLA往往退化成”记住并复述训练过的动作序列”

错误可覆盖、可回滚

写错了”重写”即可;闭环快、试错廉价,系统能靠迭代自然爬升能力

错误代价高且不可逆

不是”回答错了”,而是撞坏了 / 夹伤了 / 任务报废了;物理世界的试错不是”删掉重写”

It’s like the whole world as projected by people onto text1. — Ilya Sutskever

That is the mind should grow from runtime experience, not from a special training phase2. — Richard Sutton

The Map is Not the Territory: 当LLM进入真实世界

LLM在训练时是离线的静态环境,但部署时面对的是开放的真实世界世界,许多瓶颈来自于无法动态的适应新世界的变化和不确定性, 代码世界和物理世界共享同一类困难。

关键挑战

代码智能体

具身智能体

观测不完备

遗留系统代码库

文档缺失、上下文分散、隐式依赖;不可能”看完/看全”

开放环境

传感器有噪声, 不能覆盖多尺度变量

动态机制未知

运行时系统

行为与配置、版本、网络、服务状态耦合;同一操作随上下文漂移

物理交互动力学

接触/摩擦/柔性/磨损等长尾效应难以建模;仿真永远只是近似

行动有风险与代价

工具调用

调用可能超时/有副作用/难回滚

执行器控制

噪声/延迟/饱和与故障;失败代价高且可能不可逆

缺失的闭环: Sensorimotor contingencies(感知行动耦联)

经典认知科学实验揭示了学习的根本前提:智能涌现于对”感知-动作”规律的掌握。1

Held & Hein (1963) “kitten carousel”2

核心洞察

实验设计: 两只小猫看到了完全相同的视觉数据

  • 主动小猫:发展出正常视觉
  • 被动小猫:功能性失明

对 AI 的启示

当前的 LLM 就是那只被动小猫

它们”观看”了整个互联网(预训练),但缺乏动作的反馈回路

要理解真实世界,智能体必须对其采取行动

From Anatomy to Autonomy

Brain-in-a-Jar Robotics

误区:通用机器人 = 缸中之脑 + 外设

  • 把 body 当输出设备:大模型负责”想”,身体只是”执行器”
  • 关键缺失:模型并未学会感知行动的关联
  • 结果:看似具身,实则没有可迁移的操作性理解

现实:物理世界是”考场”,不是”练兵场”

  • 慢且贵:交互以秒计;成本、损耗、人力不可忽略
  • 噪声大、因果难归:反馈延迟/稀疏,混杂因素多
  • 受极限锁死:迭代周期被物理与工程上限约束

Incubator Loop

转向:寻找智能的”培养皿”——在可控世界里锻造闭环

让模型真实学会并反复强化 sensorimotor contingencies

  • 隐藏状态 + 部分可观测:逼迫推断与主动探索,而非背答案
  • 超高速迭代:高频试错、快速收敛
  • 低风险试错:失败是廉价数据点,不是昂贵损坏
  • 清晰可度量:能评估世界模型掌握程度与泛化

目标:发现能学习世界模型、形成闭环自治、并可迁移到现实的通用算法

训练在培养皿,验收在考场

四类可控的智能任务

编程环境 (Code Environments)

任务描述:在真实代码库中与文件系统、依赖、编译器、测试与运行时交互,完成开发/修复/重构。

研究价值: 反馈高度可验证(编译/单测/CI)且过程可复现;长程依赖与副作用迫使智能体学会规划、工具使用与因果归因。

复杂游戏 (Complex Games)

任务描述:在规则明确的模拟世界中进行感知—决策—行动,面对部分可见、对手/怪物与资源约束。

研究价值: 环境演化通常确定、可无限回放与对照实验;稀疏奖励与巨大状态空间促使探索、记忆、信用分配与世界模型学习。

抽象推理 (Abstract Reasoning)

任务描述:从少量输入输出示例中归纳隐藏规则/程序,并在新实例上组合与泛化(如 ARC/Raven)。

研究价值: 弱化感知噪声,直接测量概念形成与规则归纳;任务可程序化生成、难度可控,便于系统比较泛化能力与推理机制。

数学定理证明 (Mathematical Theorem Proving)

任务描述:在形式化系统中构造定义、引理与证明,调用定理库逐步推进到目标定理成立。

研究价值: 证明检查器提供无歧义、可验证的信号;搜索空间巨大且推理链很长,适合研究规划、搜索、策略学习与自我纠错。

Back to Basics

2017 · 过度乐观期

「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」1

2019 · Dactyl 高光时刻

单手还原魔方——宣传「接近人类灵巧度」的里程碑2

2021 · 关闭机器人团队

「机器人拿不到足够数据,看不到 scale 的路径」3

2023 · 「需要极大决心」

「你需要真的爱机器人: 要造几万台机器人,长期采集数据」4

2025 · 冷静悲观期

「真实世界中快速学会新技能,对机器人来说非常够不着」5

We’re moving from the age of scaling to the age of research

Let’s go back
to the age of research