DeepMind 塞拉利昂 RCT:AI 助学的真效果,取决于补谁而不是补什么

1763 名学生、8 周、+0.258 个标准差,这是 AI 教育罕见的实证。但增益最大的恰是底子好的学生,而读懂它能不能外推,才是 builder 该关心的事。

DeepMind 塞拉利昂 RCT:AI 助学的真效果,取决于补谁而不是补什么
图 / Unsplash

概述

DeepMind 公布了一场在塞拉利昂做的预注册随机对照试验:8 周,12 所学校,1763 名初中生,测 Gemini 的引导式学习对数学成绩的影响。结果是实验组比对照组高 +0.258 个标准差,被折算成 8 周内约 1.2 到 1.7 年的常规学习进度。这是 AI 教育领域少见的、方法过硬的因果证据,不是又一份产品博客。

值得记住的不是这个数字本身,而是它背后的两个限定条件。一,增益最大的恰恰是入学时数学底子最好的那批学生,DeepMind 自己把这点写进了”前路”小节,称之为”成绩差距”问题。二,这是在一个数学基线极低、教师资源紧张的环境里拿到的,同样的干预搬到天花板更高的学校,效应量大概率会缩水。AI 助学到底有没有用,真正的问题不是”它补的是什么”,而是”它补的是谁”。对 edtech builder,这场试验给出的是一张地图:在什么人群、什么编排下 AI 助学才真正有效。

发生了什么

这场试验由 DeepMind 与 Fab AI 合作、塞拉利昂教育部支持,另有 Google.org、盖茨基金会、EducAid、Laterite 和 Oxford MeasurEd 参与。地点是塞拉利昂 Port Loko 区的 12 所学校,对象 1763 名初中生,周期 8 周,干预是 Gemini 里的引导式学习,结果变量是数学成绩。关键是它预注册了:测什么、怎么测在拿到数据前就定死,这堵住了事后挑指标的口子,也是它比绝大多数 edtech 自报喜讯可信得多的根本原因。

量化结果:实验组比对照组高 +0.258 个标准差,折算约 1.2 到 1.7 年常规进度;教师把 Gemini 用进约一半课时、达到 12 小时使用目标的班级,折算约 1.8 到 2.5 年。参与度方面,69% 的学生达到或超过使用目标,远高于自愿型教育科技产品惯常的约 5%(即 the five percent problem)。

DeepMind 还放出了过程数据来回应”AI 会不会变成抄答案捷径”这个担忧。11.3 万多次对话里,91.4% 被用于建立概念理解而非直接找解;Gemini 的回复中 76% 在抛引导性(苏格拉底式)问题,只有 2% 直接给出答案。随时间推移,学生的提问从第一周 68% 的技能型升到末周 90%,找答案型从 25% 降到 10%。教师在焦点小组里也报告,用这个工具备课让他们找到了讲分数这类老话题的新讲法,角色从”讲授者”转向”引导者”。DeepMind 同时发布了与 Fab AI 合作的教师培训指南和一份做 RCT 的操作手册。

为何重要

它把 AI 教育从”逸闻和 demo”推进到了”可引用的因果证据”。这个领域过去最大的问题是几乎所有正面说法都来自厂商自己的留存曲线或没有对照组的试点,无法区分”AI 真的教会了”和”愿意用 AI 的学生本来就更努力”。一个预注册、有对照组的 RCT 把这条混淆变量切断了。仅就方法而言,这是 AI 教育里值得认真对待的少数几份证据之一。

但效应量怎么读,决定了你会从中得出什么结论。+0.258 个标准差在教育干预里属于相当大,可一旦折算成”年数”,就必须盯住两个放大器。第一是基线:塞拉利昂初中生的数学起点很低,起点越低,任何有效干预可见的标准差增益通常越大,因为可改进的空间更大、测量量表在低端更敏感。第二是测量本身:同一个 0.258,在量表天花板更高、对照组也在快速进步的环境里,往往会明显缩水。结果本身并不假,但”1.2 到 1.7 年”这个换算高度情境化,不能当成 Gemini 走到哪都能复制的常数。

DeepMind 自己点出的”成绩差距”才是这份报告最诚实、也最该被记住的发现:大多数学生受益,但底子好的学生受益最多。这把一个反直觉的事实摆上了台面:在这次试验的形态下,AI 助学放大了既有差距,而不是抹平它。对一个常被宣传成”把优质教育普及给所有人”的技术,这是一个需要正面承认的张力。它也直接回答了开头那个问题:AI 助学的真效果取决于它补的是谁。当它补的是已经会学习、能驾驭引导式提问的学生时,增益最大;而最需要被补的那批人,反而可能落在收益曲线更靠下的位置。

对建设者的影响

第一,别把 +0.258 个标准差当成你产品的预期值去引用。它是在特定人群、特定编排下拿到的:低基线、教师主导、嵌进正式课堂。别去抄这个数字,要抄它的方法:预注册、设对照组、报告效应量而非留存率。如果你的增长材料里只有 DAU 和满意度,投资人或学区只要见过这份报告,就会问你要对照组,那才是新的可信度门槛。

第二,把教师当成产品的一部分,而不是被替代的对象。这次试验里那 69% 的参与度,大概率来自老师:老师设计课程、定目标、组织讨论,学生没有被丢给一个 app 自学。DeepMind 自己的结论也是 AI “扩大教师的覆盖面”而非取代教师。如果你的产品形态是学生独自面对聊天框,你要复制的恰恰是这次试验里没被测的那种孤立场景,the five percent problem 大概率会找上门。

第三,把”成绩差距”当成你的核心产品问题,别只把它当公关脚注。如果你的目标客户是发展中地区或薄弱校,要警惕一件事:一个让强者更强的工具,可能在汇总指标上很好看,却让你真正想服务的弱势学生掉队。DeepMind 把”为最需要的学生提供最强增益”列为下一步要解决的需求,说明连他们都还没解决它。谁先把引导式学习做到对低起点学生增益最大,谁才真正解决了这个市场的问题,而不只是又涨了一条留存曲线。

该忽略什么

忽略”AI 已经被证明能教书”这种把单次试验当普适结论的读法。这场 RCT 证明的是:一个具体的引导式学习产品,在塞拉利昂一个低基线、教师主导的环境里,8 周内带来了可测的数学进步。它没有证明、也没声称这个增益能原样迁移到美国、欧洲或中国资源更好的学校。把单点结果当成定律,是这类研究最常见的误用。

忽略把那个”年数”换算当硬指标的冲动。1.2 到 1.7 年是把一个标准差差距投影到典型学习速度上的解释性说法,高度依赖塞拉利昂的低基线和这次的测量量表。它适合用来理解效应有多大,不适合被复制粘贴成”用了 Gemini 就能多学一年半”的营销话术。

也别走到另一个极端,因为它是单一国家、单一厂商主导的试验就整个否定。预注册和对照组是真做了的,11.3 万次对话的过程分析也提供了机制证据,说明增益里确实有真实的教学过程,不全是低基线红利。诚实的态度是承认它有内部效度(在这群人里因果成立)、但外部效度(能不能外推)还没被验证。DeepMind 也说了正在多国做更多预注册 RCT,在那些结果出来之前,把这一份当成强有力的存在性证据,而不是已经成立的普适规律。

常见问题

Gemini 引导式学习的 +0.258 个标准差到底算大还是小?

在教育干预里这是相当大的效应:DeepMind 把它折算成 8 周内约 1.2 到 1.7 年的常规学习进度,教师把 Gemini 用满约一半课时(目标 12 小时)的班级更达到约 1.8 到 2.5 年。但效应量的绝对值高度依赖基线和测量方式,塞拉利昂学生的数学起点很低,同样的标准差增益在天花板更高的环境里通常会缩水。

这次 AI 教育试验为什么没掉进 the five percent problem?

自愿使用的教育科技产品通常只有约 5% 的学生真正用起来,这就是被称作 the five percent problem 的老难题。这次试验里 69% 的学生达到或超过使用目标,关键不在工具本身,而在它是教师主导、嵌进正式课堂的:老师设计课程、定目标、组织讨论,学生不是被丢给一个 app 自学。把这归功于模型有多好,会学错地方。

增益是不是只因为塞拉利昂学生基础太差、随便补补就涨?

基线低确实会放大可见增益,这是解读时必须扣掉的部分。但试验同时给出了机制证据:11.3 万多次对话里,91.4% 用于建立概念理解而非要答案,Gemini 76% 的回复在抛引导性问题、只有 2% 直接给解,学生的提问也从第一周 68% 的技能型升到末周 90%。这说明增益里有真实的教学过程,不全是低基线红利,但两者各占多少这次没分离出来。

来源

  1. 测量在塞拉利昂及更广范围内用 AI 学习的影响 / official