deck

The Map Is Not the Territory:

在大世界中学习

2026-02-09

人工智能的前沿呈现”锯齿”¹状

莫拉维克悖论¹: 对人越简单的事，对机器人越难

AI Agent 进入下半场, 评测破解速度越来越快

人们创建出越来越多的任务来考验越来越强大的模型,但他们被破解的速度也越来越快
IMO曾被认为是AI需要数年才能解决的里程碑, 但OpenAI, DeepMind都在今年内取得了金牌²
ARC-AGI-2在发布之初最领先的模型(O3-preview)只获得了4\%的正确率, 但现在GPT-5.2已经获得了54.2\%³

具身操作长期卡在一岁孩童水平

高级推理(如象棋、编程)在计算上”廉价”

一岁孩童的感知运动技能(如感知、灵巧)在计算上”昂贵”

我们离具身”摩尔定律”还有多远?

Agent可以完成任务的长度大约每七个月翻一番, 但即使把时间尺度拉长三倍, 机器人的发展也显得很平缓.

Dyna

千寻智能

西湖机器人

Ours

智元

星海图

真实世界是部分可观测且规则未知的

机器人无法像在模拟中一样获得世界的完整状态（State），只能依赖有限的、充满噪声的观测（Observations）, 而且世界如何演变也是未知的. s_{t+1}\sim \mathbb{T}(\cdot\mid s_t,a_t),o_{t+1}\sim \mathbb{O}(\cdot\mid s_{t+1},a_t) \quad \mathbb{T,O} \mathrel{?}

理想世界：MDP（马尔可夫决策过程）

真实世界：POMDP with unknown dynamics

当世界大于任何 Agent

大世界假说¹：世界相对 agent 大很多个数量级；agent 无法完全感知、也无法为所有情形存储/表示最优价值与动作

小世界

大世界

解决方案：通过感知-动作闭环来更新信念状态² predict→action→perception→update

Agent需要维护对环境状态和世界模型的联合信念状态b_t(ds,d\theta)，并通过贝叶斯滤波进行更新： \begin{aligned} b_{t+1}(ds',d\theta) &\propto \int \underbrace{b_t(ds,d\theta)\,\mathbb T_\theta(ds'|s,A_t)}_{\text{预测}} \;\underbrace{\mathbb O_\theta(C|s',A_t)}_{\text{用观测纠正}} \\[2mm] b_t(ds,d\theta) &= \underbrace{\mathbb{P}(\Theta\in d\theta\mid \mathcal H_t)}_{\substack{\text{parameter epistemic}\\ \text{规律/动力学不确定}}}\ \underbrace{\mathbb{P}(S_t\in ds \mid \Theta=\theta,\mathcal H_t)}_{\substack{\text{state epistemic}\\ \text{当前处境不确定}}} \end{aligned}

Unconscious incompetence: 无意识的无能

观测混淆 (Observation Aliasing)：同像不同态

表面上几乎完全相同的视觉画面，背后却对应着截然不同的任务阶段或隐藏状态。例如，同样是”拿起物体”，可能是任务的开始，也可能是重复操作，但模型无法区分。

state posterior多峰，无法仅靠被动观测消歧。

Sim2Real Gap/ OOD：转移规律漂移

当环境出现轻微扰动或偏离演示轨迹时（如物体位置偏移几厘米），策略会立刻陷入”困惑”，表现为抖动或停滞，且无法自我纠正。

parameter epistemic被当成固定点估计, 也不能在部署时更新

缺失主动感知（No Active Perception）：不可逆任务中的消歧失败

面对系鞋带这类one-way door，系统必须在”提交”动作前主动降低state epistemic：改变视角/重新摆位、轻拉试探张力、拨开遮挡、触觉确认接触关系……

本可通过动作降低 epistemic，却直接提交导致不可逆错误

VLA: Verticalized LLM for Action

Vision-Language-Action 模型

视觉-语言-动作（Vision-Language-Action）模型将多模态输入（视觉、语言）直接映射到动作输出。¹

架构

将视觉和语言信息融合到一个大型 Transformer 中，以输出动作 Token（例如：Google 的 RT-2，OpenVLA）。

关键特性

其本质上仍是一种反应式策略（“观测 → 动作”）。它提升了在已知任务上的泛化能力，但并未解决在不确定性下进行推理的核心问题。

Warning

隐含的赌注：用互联网规模的先验知识替代信念状态推断。

我们仍未找到物理世界的token

State = Context

世界状态完全体现在上下文里，没有额外的隐藏物理状态需要估计, 天然低维

State ≠ Observation

连续、多尺度, 真实的状态和观测都高维和非结构化

Action \implies Observation

输出的 token 立刻成为下一刻的世界；生成不仅是”行动”，同时也是”观测”的更新

Action Observation

动作改变隐藏的真实状态，传感器只给带噪、滞后的投影；必须面对遮挡、滑移、接触不确定性

NTP = World Modeling

训练目标本质是在拟合文本世界的状态转移函数，LLM 天然就是 text-world 的 world model

动作预测无法学到世界模型

每次动作都在改变未来数据分布, VLA往往退化成”记住并复述训练过的动作序列”

错误可覆盖、可回滚

写错了”重写”即可；闭环快、试错廉价，系统能靠迭代自然爬升能力

错误代价高且不可逆

不是”回答错了”，而是撞坏了 / 夹伤了 / 任务报废了；物理世界的试错不是”删掉重写”

It’s like the whole world as projected by people onto text¹. — Ilya Sutskever

That is the mind should grow from runtime experience, not from a special training phase². — Richard Sutton

The Map is Not the Territory: 当LLM进入真实世界

LLM在训练时是离线的静态环境，但部署时面对的是开放的真实世界世界，许多瓶颈来自于无法动态的适应新世界的变化和不确定性, 代码世界和物理世界共享同一类困难。

关键挑战

代码智能体

具身智能体

观测不完备

遗留系统代码库

文档缺失、上下文分散、隐式依赖；不可能”看完/看全”

开放环境

传感器有噪声, 不能覆盖多尺度变量

动态机制未知

运行时系统

行为与配置、版本、网络、服务状态耦合；同一操作随上下文漂移

物理交互动力学

接触/摩擦/柔性/磨损等长尾效应难以建模；仿真永远只是近似

行动有风险与代价

工具调用

调用可能超时/有副作用/难回滚

执行器控制

噪声/延迟/饱和与故障；失败代价高且可能不可逆

缺失的闭环: Sensorimotor contingencies(感知行动耦联)

经典认知科学实验揭示了学习的根本前提：智能涌现于对”感知-动作”规律的掌握。¹

Held & Hein (1963) “kitten carousel”²

核心洞察

实验设计：两只小猫看到了完全相同的视觉数据。

主动小猫：发展出正常视觉
被动小猫：功能性失明

对 AI 的启示

当前的 LLM 就是那只被动小猫。

它们”观看”了整个互联网（预训练），但缺乏动作的反馈回路。

要理解真实世界，智能体必须对其采取行动。

From Anatomy to Autonomy

Brain-in-a-Jar Robotics

误区：通用机器人 = 缸中之脑 + 外设

把 body 当输出设备：大模型负责”想”，身体只是”执行器”
关键缺失：模型并未学会感知行动的关联
结果：看似具身，实则没有可迁移的操作性理解

现实：物理世界是”考场”，不是”练兵场”

慢且贵：交互以秒计；成本、损耗、人力不可忽略
噪声大、因果难归：反馈延迟/稀疏，混杂因素多
受极限锁死：迭代周期被物理与工程上限约束

Incubator Loop

转向：寻找智能的”培养皿”——在可控世界里锻造闭环

让模型真实学会并反复强化 sensorimotor contingencies：

隐藏状态 + 部分可观测：逼迫推断与主动探索，而非背答案
超高速迭代：高频试错、快速收敛
低风险试错：失败是廉价数据点，不是昂贵损坏
清晰可度量：能评估世界模型掌握程度与泛化

目标：发现能学习世界模型、形成闭环自治、并可迁移到现实的通用算法

训练在培养皿，验收在考场

四类可控的智能任务

编程环境 (Code Environments)

任务描述：在真实代码库中与文件系统、依赖、编译器、测试与运行时交互，完成开发/修复/重构。

研究价值：反馈高度可验证（编译/单测/CI）且过程可复现；长程依赖与副作用迫使智能体学会规划、工具使用与因果归因。

复杂游戏 (Complex Games)

任务描述：在规则明确的模拟世界中进行感知—决策—行动，面对部分可见、对手/怪物与资源约束。

研究价值：环境演化通常确定、可无限回放与对照实验；稀疏奖励与巨大状态空间促使探索、记忆、信用分配与世界模型学习。

抽象推理 (Abstract Reasoning)

任务描述：从少量输入输出示例中归纳隐藏规则/程序，并在新实例上组合与泛化（如 ARC/Raven）。

研究价值：弱化感知噪声，直接测量概念形成与规则归纳；任务可程序化生成、难度可控，便于系统比较泛化能力与推理机制。

数学定理证明 (Mathematical Theorem Proving)

任务描述：在形式化系统中构造定义、引理与证明，调用定理库逐步推进到目标定理成立。

研究价值：证明检查器提供无歧义、可验证的信号；搜索空间巨大且推理链很长，适合研究规划、搜索、策略学习与自我纠错。

Continual Learning: Dual-System Synergy

Slow System: Understand the World

Learn world model & belief state
via virtual rollout, guide fast system

Fast System: Precise Execution

Fine-grained perception + high-freq control; robust interaction in open world

Closed-Loop Synergy

Observe → update belief → guidance
→ execute → new observation

Back to Basics

2017 · 过度乐观期

「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」¹

2019 · Dactyl 高光时刻

单手还原魔方——宣传「接近人类灵巧度」的里程碑²

2021 · 关闭机器人团队

「机器人拿不到足够数据,看不到 scale 的路径」³

2023 · 「需要极大决心」

「你需要真的爱机器人: 要造几万台机器人,长期采集数据」⁴

2025 · 冷静悲观期

「真实世界中快速学会新技能,对机器人来说非常够不着」⁵

We’re moving from the age of scaling to the age of research

Let’s go back
to the age of research