2026-06-11

Sutton 说监督学习的生成式 AI 做不出新发现:这个判断站得住一半

Sutton 把发现拆成变异、评估、选择性保留三步,断言纯生成式 AI 缺了评估这一环。论点的内核是对的,但他自己列的反例已经拆掉了对 LLM 路线的那部分结论。

reinforcement-learning llm-limits ai-research

Sutton 说监督学习的生成式 AI 做不出新发现:这个判断站得住一半 — 图 / Unsplash

概述

Richard Sutton 在 SAIR 一场关于”AI 服务科学”的研讨会上放了段录像,标题叫《AI 创造力与发现》。他抛出一个他自己称为”新且可能有争议”的判断:用监督学习训练出来的生成式 AI,包括所有大语言模型、图像和视频模型,在某种确切的意义上无法做出真正的新发现。这条推文拿到 67 万次浏览,Hacker News 上吵了一百多条。

他的论证内核是扎实的:发现 = 变异 + 评估 + 选择性保留,而纯生成式模型缺了评估这一环。但同一篇演讲里,他亲手列出 AlphaProof、AlphaEvolve 乃至 Claude-Code 作为”既新又好”的系统,这恰恰说明那条把”监督学习 AI”和”经验时代 RL”对立起来的红线,在工程实践里早就被踩穿了。我的判断:作为对纯预训练模型的批评,他对;作为对 LLM 这条技术路线的判决,他错了一半,而且是被自己的例子拆掉的那一半。

争的是什么

Sutton 这一方的论点很清楚,且不靠贬低生成式 AI 来成立。他先用一个老笑话起头:一份评审意见说”这工作既新颖又好,可惜好的部分不新颖,新颖的部分不好”。他说这话精准命中了今天一大半的 AI。生成式模型吃进海量样本,产出一个行为像样本的模型:写得像人、画得像艺术家、视频像网上的东西。它的处理过程部分是随机的:每一步都能走向多个方向,轨迹要么随机(因而新颖),要么贴着训练数据(因而好,因为数据本身好),但不会同时既新又好。

接着他给出正面框架。真正的发现是三步的组合:变异、评估、选择性保留。进化靠它,科学方法靠它,动物学习也靠它。心理学叫”操作性条件反射”,机器学习里叫强化学习。生成式 AI 缺的恰恰是中间那步评估:生成器是预训练定死的,运行时没有任何机制去评判自己刚生成的东西好不好。没有评估就没有选择性保留,于是没有发现。“新颖闪现一下,价值若没被识别,就闪灭了,丢失了。”

反方在 Hacker News 上集结,论据分两类,强弱很不一样。

第一类是误读,可以先排掉。有人(simianwords、vasco)说人类之所以能”评估”只是因为有现实世界的入口,这不是 AI 的固有缺陷;还有人(edot、dwd)说 LLM 明明能产出又新又好的东西。这类反驳大多没读到演讲后半段:Sutton 从没说带评估的系统不行,他恰恰把那些系统单列出来表扬了。dwd 抓到一个真实的内在矛盾:Sutton 把 Claude-Code 这个生成式 AI 列进了能做出新发现的名单,这跟”生成式 AI 做不出发现”的开场白直接打架。这一击是有效的,但它打的是 Sutton 表述上的不严谨,不是他论点的内核。

第二类是真正有分量的技术反驳,而且方向相反,它反而替 Sutton 把论点收紧了。porridgeraisin 指出:可验证奖励的强化学习(RLVR)并不会扩展到基础分布之外,它只在分布内部做”寻峰”。它能把已有但概率不高的轨迹推到顶端,提升 maj@k 和 pass@1,但对高 k 的 pass@k 改善很有限,也就是说它在锐化分布顶部,没开辟新区域。一条原始模型近乎零概率的轨迹,必须先被采样到才可能被奖励,而 RLVR 自己很难采到。所以天花板真实存在,而 AlphaEvolve 之所以能越过它,是因为它挂了一个外部的进化搜索器去生成基础策略想不到的候选。

另一边,skybrian、doctoboggan、balazstorok、musebox35 这一派把演讲读得最准,也最致命:Sutton 攻击的只是”单独的预训练”,一旦把 LLM 放进 agentic 循环(接上编译器、终端、可验证奖励),你就把生成-测试-选择性精炼这个循环补上了,而这正是 Sutton 说缺的那一步。musebox35 把它对应到统计学里的 Fisher/Box 反馈循环,说今天最成功的应用(写代码)从来不是纯生成式建模的产物,而是闭环的产物。

谁更有理

得分开判,因为”对纯预训练模型”和”对 LLM 路线”是两件事,Sutton 把它们捆在了一句话里。

对纯预训练模型,Sutton 完全正确,而且 porridgeraisin 的技术细节是站他这边的最硬证据。一个只做下一 token 预测、推理时不接任何外部裁判的模型,确实没有评估环节,确实只能在训练分布里采样。RLVR 看似补上了评估,但它锐化的是已有分布,不向外探索;真正的变异,也就是 Sutton 强调的那个”盲”的成分,得靠外部搜索带进来。说”模型自己就能涌现出全新解”在今天没有证据支撑。这一层,反方那些”LLM 明明能创新”的反驳没接住,因为他们举的例子几乎都已经隐含了一个外部评估者:人在循环里、编译器在循环里、或者一个搜索器在循环里。

但 Sutton 把这条结论推到”监督学习的生成式 AI 这条路线做不出发现”时,越界了,而且是被他自己的例子越界的。他的三步框架是关于系统的,不是关于某个组件的。一旦承认 Claude-Code、AlphaProof 算数,他就等于承认:把生成器当变异源、把外部裁判当评估、把记忆当保留,组装出来的系统能发现。那 LLM 就不是”做不出发现”的死路,而是发现系统里那个负责变异的、极其强大的组件。doctoboggan 这句话说到了点子上:他不是说 AI 系统做不出创造,他是说没有 harness 的生成式 AI 做不出。这两个命题差着十万八千里,而演讲的开场白用的是前者的措辞,论证支撑的却是后者。

所以我的判断是:论点的物理学是对的(没有评估就没有发现),但被包装成了一个比它能支撑的更强的结论。真正成立的版本是:发现来自闭环系统,生成器单独不够。他卖的版本却是:生成式 AI 这条路线注定与发现无缘。前者是技术现实,后者是路线判决,Sutton 交付的是前者,卖的是后者。

为何重要

这场争论暴露的真问题,是”模型”和”系统”被混为一谈,而这正是当下评估 AI 进展时最常出的错。如果你把能力归给孤零零的模型权重,你会觉得 Sutton 在唱衰整个 LLM 方向;如果你把能力归给”模型 + 外部循环”这个系统,你会发现 Sutton 其实给出了一张该往哪投资的地图:投在评估器和搜索器上,而不只是把基础模型堆大。

这张地图对路线选择有直接含义。过去两年的进展,很大一部分不是来自预训练规模,而是来自给模型套上越来越好的外环:可验证奖励、工具调用、agentic 编排。Sutton 的框架解释了这为什么管用:你是在给一个强大的变异源补上它缺的评估和保留。它也解释了外环的上限在哪:如果你的评估信号是模糊的、或者你的搜索还是 RLVR 那种分布内寻峰,你就别指望系统跳出基础模型已经会的东西。porridgeraisin 那句”我们的搜索器还很笨,得在这上面下功夫”,可能是整场讨论里最有行动价值的一句。

更长远看,这关系到”AI 科学家”这个目标怎么落地。Sutton 的号召是:把目标交给 AI,让它能创造、评估、发现,从而真正参与达成目标。这句话的工程翻译是,自动化发现的瓶颈不在生成,而在你能不能为一个领域定义出足够清晰的目标和足够便宜的评估。数学和代码之所以最先被攻下,正因为它们的评估近乎免费(证明能验、代码能跑)。评估贵或模糊的领域,比如多数自然科学,还卡在这里。

该忽略什么

忽略”credentialed 所以一定对”和”老了所以在唱衰”这两种站队,它们在 HN 上都出现了(有人搬出 Dyson 评 Wolfram 的刻薄话,也有人反过来护短)。Sutton 是强化学习的奠基者之一,这让他的框架值得认真对待,但不让任何一句结论免于检验;反过来,用年龄或资历去否定一个具体的技术论证,同样是思维的偷懒。这场讨论里真正有营养的,是 porridgeraisin 那种落到 pass@k、落到分布内外的具体争论,不是关于该不该尊重权威的元吵架。

忽略”他自相矛盾所以整篇都错”的过度推论。Sutton 把 Claude-Code 列进发现名单,确实和他的开场白冲突,这是个真实的瑕疵。但这个瑕疵恰恰指向他论点里对的那部分:他下意识承认了带闭环的生成式系统能发现。抓住矛盾去否定整篇,会连同那个扎实的内核一起扔掉。正确的读法是把他没说严谨的结论替他收紧,而不是因为他没收紧就当他全错。

最后,忽略把这场争论简化成”LLM 行不行”的二元站队。真正的问题从来不是 LLM 这个组件行不行,而是你打算把它放进一个什么样的系统、配什么样的评估和搜索。Sutton 吵的是系统架构,HN 上吵得最准的几个人也是在吵系统架构。停留在”挺 LLM / 黑 LLM”的层面,等于没听懂双方在说什么。

常见问题

AlphaGo 的 move 37 和 LLM 写代码,凭什么前者算发现、后者不算?

在 Sutton 的框架里区别不在于谁更聪明,而在于有没有一个独立于模型自身的硬评估。AlphaGo 有围棋的胜负作客观裁判,落子的好坏不靠模仿人类棋谱来判定。纯 LLM 推理时没有这样的裁判,它只能按训练分布采样。但这条线很模糊:LLM 写的代码一旦接上编译器和测试,就同样有了硬评估,Sutton 自己也把 Claude-Code 列进了能做出新发现的系统。

RLVR 能不能让模型探索到基础分布之外的解?

证据指向不能。可验证奖励的强化学习主要把已经在基础策略里、概率不太高的轨迹往分布顶端推,提升 maj@k 和 pass@1,但对高 k 的 pass@k 改善有限。换句话说它在锐化已有分布,不是开辟新区域。一条原始模型近乎零概率的轨迹,必须先被采样到才可能被奖励,RLVR 很难自己采到。要突破这个上限,得靠 MCTS、进化搜索这类外部搜索机制。

Sutton 这次的观点和他著名的 bitter lesson 是一回事吗?

是同一条脉络的延伸。bitter lesson 说能随算力扩展的通用方法(搜索和学习)长期战胜手工塞进去的人类知识。这次他把矛头对准生成式 AI:模仿人类语料是一种把人类知识灌进去的做法,缺了从经验和目标里搜索的环节。两者都在说同一件事:真正的进步来自与世界交互的搜索,而不是消化既有语料。

来源

无官方一手源；本文基于可靠二手报道（具名媒体、交叉印证）写成。