微软 MAI-Thinking-1:这一步的逻辑是自主可控,不是追平 GPT

微软自研推理模型发布,真正的目标是摆脱对 OpenAI 推理能力的依赖。能力是否追平 GPT/o 系是其次,从数据到加速器全栈自有才是这步棋的底牌。

微软 MAI-Thinking-1:这一步的逻辑是自主可控,不是追平 GPT
图 / Unsplash

概述

微软在 6 月 2 日发布了 MAI-Thinking-1,自家”超级智能团队”做的第一款推理模型,HN 上 193 赞。读这条新闻别盯着跑分。真正的信号是:微软第一次有了一款不经过 OpenAI、纯自家栈训出来的前沿级推理模型。

官方公布的能力点扎实:35B 激活、约 1T 总参数的稀疏 MoE,256k 上下文,AIME 2025 拿 97.0%、AIME 2026 拿 94.5%,SWE-Bench Pro 上与 Claude Opus 4.6 不相上下,盲测人评里被偏好于 Claude Sonnet 4.6。但这些数字服务的是另一件事:微软在证明,它能不靠任何外部实验室的”老师”,自己把推理能力从地基一级一级爬上来。这才是这步棋的逻辑。能力是否追平 GPT/o 系是其次,自主可控是主线。

发生了什么

MAI-Thinking-1 是一款 35B 激活、约 1T 总参数的稀疏 MoE 模型,推理时只点亮一小部分专家,所以推理足迹比同等总参数的稠密模型小很多。官方给的能力清单:AIME 2025 数学题 97.0%、AIME 2026 94.5%;SWE-Bench Pro 这种软件工程基准上与 Claude Opus 4.6 打成平手;在和合作方 Surge 一起做的盲测人评里(1276 个任务,覆盖单轮和多轮),职业评分员更偏好它而非 Claude Sonnet 4.6。

工程规格瞄准企业落地:256k 上下文窗口(官方说够装一份 600 页文档)、函数调用、可叠加开发者指令、兼容业界通用的 Chat Completions API,通过 Microsoft Foundry 提供企业级安全合规。今天在 Foundry 上私有预览,MAI Playground 公开预览随后。

发布里被反复强调的不是分数,是怎么训出来的。微软把整套流程包装成”Hill-Climbing Machine”(可持续爬坡的机器),三条原则:能力靠学不靠继承(不从第三方模型蒸馏)、数据干净可溯源且企业级、从模型与微软自研加速器的协同设计到强化学习框架全栈自有。这三条没有一条是关于”更聪明”,全是关于”这能力归我、来路我说得清”。

第一条原则的潜台词最值得拆。微软明说”继承来的智能虽然快,但缺少真实场景需要的可操控性,模仿者被绑死在老师的设计选择上”。翻译过来:蒸馏别家模型省事,但你的天花板就是别人的天花板,别人改一次你跟着抖一次。微软上一代 Phi 系列的论点恰恰相反,主打高质量合成数据。从 Phi 到 MAI-Thinking-1 的这次掉头,等于承认:对一家要把模型嵌进十亿级用户产品的公司,“快”不如”我能完全捏在手里、并持续往上推”。

为何重要

把 MAI-Thinking-1 放进微软和 OpenAI 这段关系里看,它的意义才显出来。过去几年微软 Copilot 栈的推理底座,本质上租自 OpenAI:GPT 和 o 系是发动机,微软是装车的人。这种安排在合作蜜月期没问题,但它把微软最核心的产品能力,押在一家它不完全控制、且关系正在松动的公司身上。MAI-Thinking-1 是微软第一次把这台发动机的图纸拿到自己手里。

微软对照组的选择泄了底。官方全程拿 Anthropic 的 Claude(Opus 4.6、Sonnet 4.6)做标尺,从头到尾没和 GPT、没和 o 系正面比一个数字。这不是疏忽。微软现在仍持有 OpenAI 约 27% 股份(HN 上有人点出这一点),公开把自研模型按在 GPT 上比高下,既尴尬又自伤。选 Claude 当对照,等于说”我对标的是第一梯队,但我不羞辱我还投着的那家”。这个沉默本身就是这步棋的注脚:目标不是赢 OpenAI,是不再需要 OpenAI。

“不蒸馏、数据可溯源”这套叙事也要放进这个框架读,而不是当成单纯的技术美德。微软因为和 OpenAI 的绑定,本身就深陷多起版权诉讼。一款能说清每份训练数据来路、不依赖任何外部模型输出的自研模型,在法律和合规上给了微软一个干净的退路。这是 clean data 叙事的真实分量:它既是技术主张,更是把自己从 OpenAI 的法律风险里摘出来的动作。

对建设者的影响

如果你在 Azure / Foundry 上构建,MAI-Thinking-1 给了你一个新选项,但现在还别急着切。它兼容 Chat Completions API、支持函数调用,意味着从现有调 OpenAI 的代码迁过来几乎不用改接口,这种”零摩擦替换”是微软有意铺的路。35B 激活的稀疏 MoE 推理足迹小,理论上单位成本和可部署密度会比同档稠密大模型友好,适合从”偶尔调一次”变成嵌进日常工作流的高频调用,前提是定价公布后真站得住。

务实的评估顺序:第一,等公开预览,拿你自己的真实任务跑,别信任何单边公布的人评偏好(对照组是 Claude 不是 GPT,你的工作负载未必落在它强的那段)。第二,如果你的采购或合规对”模型训练数据来路”有硬要求(受监管行业尤其),MAI-Thinking-1 的可溯源叙事可能比纯能力更值钱,这是它和别家拉开差距的真实卖点。第三,把它当成你 OpenAI 依赖的对冲选项,而不是立刻的替代:多一个不绑死在单一供应商的前沿推理后端,本身就是降低集中风险。

对在 Copilot 之上做集成的人,信号更直接:微软正在把 Copilot 的推理底座往自研迁。今天 Copilot 的产品行为还由 OpenAI 模型主导,但 MAI-Thinking-1 是迁移的起点。盯着后续 Copilot 默认模型有没有悄悄换底,这比任何一次跑分都更能告诉你微软的真实进度。

还有一处规格值得 builder 留意:256k 上下文加上官方为企业默认风格做的对齐,以及它对”该帮忙时帮忙、不拿安全当借口乱拒”的明确取向(官方把”不必要的拒绝”和”不安全的服从”放进同一套奖励里当缺陷罚)。如果你的应用此前被某些模型动辄拒答正当请求拖累过,这条取向值得在公开预览里专门压测一遍。它是否真做到了,只有你的真实 prompt 才说了算,官方的自评不能替你拍板。

该忽略什么

忽略”微软追平/超越 GPT 了”这种解读。官方一个 GPT 数字都没放,所有对照都是 Claude。“被偏好于 Sonnet 4.6""与 Opus 4.6 打平”是真实结论,但它精确的含义是”进了第一梯队的量级”,不是”坐上了头把交椅”。把它读成微软在能力上反超,是误读了这次发布的重点,也误读了它刻意回避 GPT 的原因。

也要给 HN 上对 clean data 的质疑分清成色。有评论尖锐地问:“干净、合理授权”到底是什么,会不会就是洗过的 GitHub 全量开源仓库,甚至是企业私有代码。这个怀疑有道理,值得保留。但也别滑到另一个极端,认定”所有实验室都这么说所以全是空话”。微软这套叙事的特殊之处在于,它和正在进行的版权诉讼直接挂钩,所以微软比别家更有动机把它做实,而不只是说说。把它当成一个有待公开数据集细节去验证的主张,而不是先验地全信或全否。

最后,别把 MAI-Thinking-1 单独当一款模型读。它是微软”七款新 MAI 模型”系列里的一员,挂在”超级智能团队”和”以人为本的超级智能”这套更大叙事下。具体到这一款,真正的事件不在于又多了一个推理模型,而在于微软把推理能力的所有权,从合作方那里挪回了自己栈里。

常见问题

MAI-Thinking-1 的能力追平 GPT/o 系了吗?

官方没拿 GPT/o 系做对照,公布的对照是和 Anthropic 比:SWE-Bench Pro 上与 Claude Opus 4.6 不相上下,盲测人评中被偏好于 Claude Sonnet 4.6,AIME 2025/2026 分别 97.0% 和 94.5%。这说明它进了第一梯队的同一量级,但官方刻意没和 GPT 直接对线,追平 GPT 这个说法在官方数据里没有依据。

MAI-Thinking-1 怎么用、对接难不难?

今天在 Microsoft Foundry 上私有预览,MAI Playground 公开预览随后开放。它兼容 Chat Completions API、支持函数调用和开发者指令,256k 上下文窗口。对接成本接近零是有意为之:它要直接替进现在调 OpenAI 的那条管线。

微软之前的 Phi 系列不是主打合成数据吗,和 MAI-Thinking-1 矛盾吗?

确实是一次方法转向。Phi 的论点是高质量合成数据胜过大语料,而 MAI-Thinking-1 强调从零训练、不蒸馏第三方模型、数据可溯源。两者出自不同团队和不同目标:Phi 求小而精,MAI-Thinking-1 求的是能讲清楚每一份数据来路的合规叙事。

来源

  1. MAI-Thinking-1 发布(Microsoft AI 官方) / official
  2. MAI-Thinking-1(Hacker News,193 赞) / hn