2026-06-10

MiniMax M3：MSA 把长上下文成本前移到架构层

MiniMax M3 的关键不是又一个 1M context，而是 MSA 试图从注意力结构上降低长上下文每 token 成本。

frontier-models frontier-progress long-context ai-infra

MiniMax M3：MSA 把长上下文成本前移到架构层 — 图 / Unsplash

概述

MiniMax M3 的发布很容易被读成「又一个 1M context 模型」。这个读法太浅，因为 MiniMax 真正想证明的，是长上下文成本可以在架构层被削掉，而不是等到 serving 阶段再靠 batching 和缓存补救。官方给出的关键数字是：在 1M context 下，M3 每 token 计算量降到上一代的 1/20，prefill 提速超过 9x，decode 提速超过 15x。只要这些数字能被复现，它们比单个能力榜单更有建设者价值。

MSA（MiniMax Sparse Attention）的意义正在这里。长上下文应用已经不缺「可以塞进去」的模型，缺的是「塞进去以后还能长期运行」的成本曲线。全注意力的二次复杂度让 1M window 很快从能力变成账单；MSA 的主张是用块级稀疏选择，把模型真正需要看的 KV 范围挑出来，再把算子实现做成能吃到稀疏收益的形状。这个方向如果成立，长上下文 agent 的预算会被重新计算。

所以本文关注 MSA，而不是围绕 M3 的所有能力声明铺开。MiniMax 还讲了 frontier coding、native multimodality 和开放权重计划，这些都重要；但对 AI infra 和 builder 来说，真正可能外溢到别的系统的，是 MSA 把长上下文成本前移到架构层这一点。

发生了什么

MiniMax 发布 M3 时，把三件事放在同一个标题里：frontier coding、1M context、native multimodality。官方还把它称为同时具备这三项能力的开放权重模型，并说明未来会发布技术报告和对应模型权重。这里要保留判断：如果只看发布当天，权重承诺还不是权重本身；但就技术方向而言，M3 已经把长上下文效率放在了模型叙事中心。

MSA 的机制描述很具体。MiniMax 说，稀疏注意力通常通过预筛选阶段避免全注意力的二次复杂度；MSA 相比 DSA、MoBA 等做法，采用更精细的 KV block 划分，并在相同稀疏度下获得更高的有效上下文覆盖。算子层面，它使用「KV outer gather Q」：以 KV block 为外循环，聚合命中这些 block 的 queries，使每个 block 只读一次并保持连续内存访问。这个实现判断很关键，因为稀疏注意力最常见的失败，是理论 FLOPs 省了，真实 wall-clock 没省下来。

Together AI 的 serving 文章进一步说明，M3 的落地需要 KV-block-major sparse attention、paged MSA decode、optimized index scoring 和 multimodal gateway 这类系统工作。这印证了一个判断：MSA 不是改一行 attention mask 就能上线，它把架构收益和推理系统绑定在一起。对 builder 来说，采用 M3 的难点不会只在模型能力，而在服务栈是否能吃到 MSA 的结构性收益。

为何重要

长上下文的竞争正在从窗口长度转向单位成本。早期 1M context 是展示能力，后来变成产品卖点；M3 把问题推进到更硬的一层：同样是 1M，谁能用更少计算、更低延迟、更少显存把它跑起来。这个维度比「能不能读完」更接近生产，因为付费用户关心的是持续使用，而不是一次演示。

MSA 还改变了 agent 设计的想象空间。代码 agent、论文复现 agent、长文档工作流都需要长时间保留状态，并不断把工具结果带回上下文。如果每轮都按全注意力的成本增长，这类 agent 会卡在经济性上；如果稀疏注意力能稳定保留有效上下文覆盖，agent 才能把更长历史当成工作记忆。判断要谨慎，但方向值得重视。

更深一层，M3 表明中国模型实验室正在把竞争焦点转向成本曲线。DeepSeek 押注开放权重与长上下文效率，MiniMax 押注 MSA，这些路线共同说明：开放模型阵营不只想追能力上限，也在寻找闭源 API 难以解释的单位经济性优势。对 builder 来说，这比单点跑分更可用。

对建设者的影响

如果你的产品上下文经常超过 512K，M3 值得进入评测队列。MiniMax 的价格分层把 512K 以内和更长上下文分开，这个边界本身说明 MSA 的经济价值主要在超长窗口里释放。普通聊天、短代码修改、轻量客服未必能感受到 MSA；全仓库理解、长报告审阅、跨文档研究才是更合适的测试场景。

评测时不要只看回答质量，还要测端到端成本。MSA 的宣传点是 1M context 下每 token 计算量 1/20、prefill 超过 9x、decode 超过 15x；这些如果不能在你的框架、并发和上下文形态里体现，就只是供应商曲线。务实的评测应该记录首 token 延迟、长上下文 prefill、decode 吞吐、失败率和工具调用后的上下文膨胀。

如果你打算自托管，先确认 serving 栈而不是只等权重。Together AI 的实现提示已经很清楚：M3 需要专门的 sparse attention、paged decode 和 index scoring 支持。没有这些，权重开放也只能带来可下载性，未必带来可用经济性。对多数团队，先用 API 验证业务价值，再等成熟 serving 后再自托管，是更稳的路径。

该忽略什么

第一，忽略「1M context」本身的重复宣传。窗口长度已经不稀缺，稀缺的是用得起的窗口。M3 是否重要，取决于 MSA 的成本曲线能否在真实 serving 中复现，而不是标题里有没有 1M。

第二，忽略把 MSA 当成无损魔法的说法。稀疏注意力一定在做选择，选择就有任务边界。官方说多数能力接近全注意力，这仍需要技术报告和权重复现来验证；在此之前，把 MSA 看作值得测试的工程假设，而不是确定结论。

第三，忽略「开放权重」的时间差。发布文案里的开放计划有战略意义，但 builder 不能在权重和 serving 支持落地前写自托管承诺。真正能进路线图的，是 API 评测、场景筛选和对 MSA 支持生态的跟踪。

来源

MiniMax M3: Frontier Coding, 1M Context, Native Multimodality / official
Serving MiniMax-M3 for efficient inference / blog