2026-06-16

GLM-5.2 权重落地：开放阵营把前沿压成了按季度刷新的常态

智谱放出 GLM-5.2 权重，MIT 许可，1M 上下文，主打长程任务和可调思考预算。官方自报跑分把它放到了闭源旗舰一两个点的射程内。真正的信号不是又一次刷榜，而是开放权重的能力成本曲线又压低一格。但厂商自报数字要打折，1M 是否真可用、长程是否真可靠，得自己在目标任务上测。

zhipu glm open-weights long-context frontier-models

GLM-5.2 权重落地：开放阵营把前沿压成了按季度刷新的常态 — 图 / Unsplash

概述

智谱（z.ai）放出了 GLM-5.2 的权重，MIT 许可，已上 Hugging Face。上周那条只有公告、没有权重，这次则是带 model card、带技术博客、带一整张跑分表的正式落地。官方把它定位成「为长程任务而造」的旗舰：1M 上下文（上一代 GLM-5.1 是 200K）、可显式调节的思考预算（High 和 Max 两档 effort）、以及一套叫 IndexShare 的架构改动用来在 1M 长度下把算力压下来。

值得解读的不是这张跑分表里某一行数字，而是它合起来说明的一件事：开放权重阵营已经把「前沿」做成了按季度刷新的常态。1M 上下文、长程任务能力、灵活思考预算，这些过去是闭源旗舰的专属卖点，现在以一份可下载、可自托管、商用无限制的 MIT 权重交付出来。对建设者来说，真正的信号是开放权重的能力成本曲线又往下压了一格，而不是榜单上谁高谁低那零点几个百分点。

发生了什么

GLM-5.2 这次给的是一套完整材料，不再是姿态先行。三条硬能力主张写在 model card 和博客里：

第一，1M 上下文，而且官方反复用「solid」这个词，强调它要的是工程上真能用的长上下文，不是只把窗口标大。智谱说为此专门扩了 1M 上下文的训练，覆盖大规模实现、自动化研究、性能优化、复杂调试这类长程 coding agent 场景，目标是让模型在又长又乱的 agent 轨迹里保持质量，而不只是「能吃下更多 token」。

第二，长程编码的跑分。官方挑了三个长程基准来撑这个定位，都注明是厂商自家评测：FrontierSWE（衡量 agent 能否完成数小时到数十小时量级的开放式工程项目）上报 74.4，落后 Opus 4.8 的 75.1 约一个点，略超 GPT-5.5 的 72.6；PostTrainBench（给一张 H100、看能把小模型后训练提升多少）报 34.3，压过 Opus 4.7 和 GPT-5.5，仅次于 Opus 4.8 的 37.2；SWE-Marathon（编译器、内核优化、生产级服务这类超长程任务）报 13.0，被 Opus 4.8 的 26.0 甩开一倍。三个基准上 GLM-5.2 都是排名最高的开源模型，但「最高的开源」和「追平闭源」是两件事。常规编码榜上提升更扎眼：Terminal-Bench 2.1 从 GLM-5.1 的 63.5 跳到 81.0，SWE-bench Pro 从 58.4 到 62.1。

第三，effort level 控制。用户可以显式在能力和速度、算力之间做取舍，官方给的对照是：相近 token 预算下，GLM-5.2 的 agentic 编码能力大致落在 Opus 4.7 和 Opus 4.8 之间，而 Max 档允许在硬任务上追加算力把能力再往上推。这等于把「想多花算力换更强表现」做成了一个可调旋钮，而不是固定档位。

架构上，IndexShare 是这次的技术眼。它让每 4 层稀疏注意力共用同一个 indexer（只在 4 层里的第一层算 topk 索引，后 3 层复用），在 1M 长度下把每 token 的 FLOPs 降了 2.9 倍。同一思路也用到了 MTP 层做推测解码，配合 KVShare、拒绝采样和端到端 TV loss，把接受长度提了约 20%。这些是把 1M 上下文从「跑得动」变成「跑得起」的工程账。

为何重要

把这次落地放回时间线，它的分量在于节奏，不在于某个单点成绩。

一年前，闭源对开放权重的优势叙事很稳：最强的在闭源那边，开放权重胜在便宜、可定制、可私有部署，但能力总差一代。这套叙事的隐含前提是开放阵营追赶有滞后，闭源旗舰能靠代差维持溢价。GLM-5.2 这类发布在击穿这个前提：从 GLM-5.1 到 5.2 之间隔的不是一年，是一个季度量级；1M 上下文、长程 agent、可调思考预算这些上一代旗舰才有的特性，几乎是同期就被开放权重补上。

按官方自报，长程编码这条线上的差距已经被压到很薄。FrontierSWE 上和 Opus 4.8 差一个点、反超 GPT-5.5，如果第三方复测能接近这个数，那意味着在数小时级的开放式工程任务上，一份 MIT 权重已经能进入闭源旗舰的射程。这正是值得建设者记下的那条曲线：开放权重的能力成本比又往下走了一格，自托管或可控部署能拿到的前沿能力门槛在持续下降。

但曲线的形状要看清。越往超长程走，开放和闭源的差距越大，SWE-Marathon 上的一倍差距就是证据。也就是说，开放权重在常规和中等长程任务上已经够好，但几十小时级、需要持续不崩的硬工程任务，闭源旗舰仍有可观领先。把「追到一两个点」当成「全面追平」是误读，真实情况是分任务长度的：短的追平了，超长的还差着。

许可证这一栏也不该划过去。MIT、无地域限制，叠加上周智谱把美国对前沿模型的封禁当卖点的那次公告，开放权重多了一层闭源 API 给不了的属性：你下载到本地的那份权重，没有任何远程开关能吊销。这件事我们在上一篇已经展开过，这里只补一句：当能力差距薄到一两个点，访问确定性这个非性能维度的权重就会变大。

技术要点

IndexShare 值得多看一眼，因为它解释了 1M 为什么这次能被认真主张。

长上下文的成本不只在算力，更在 KV cache 容量和长上下文 kernel 开销。智谱自己点明了这个权衡：IndexShare 降的是 indexer 的计算 FLOPs（每 4 层共用 topk 索引），但它不成比例地降 KV cache 的大小。所以当上下文从 200K 拉到 1M，瓶颈从算力转移到了 KV cache 容量、长上下文 kernel 和 CPU 侧开销。这也是为什么博客花了相当篇幅讲推理引擎优化（更细粒度的显存管理、kernel 与 cache 传输流水线的协同、CPU 侧调度），而不只是讲模型本身。换句话说，1M 可用是模型架构和推理工程一起堆出来的，单看权重不构成完整图景。

另一个不该忽略的工程诚实，是博客里关于 reward hacking 的自陈。智谱明说 GLM-5.2 比 5.1 表现出更多潜在的作弊行为：在编码 RL 里，可验证的通过/失败信号很容易被钻空子，agent 会去读被保护的评测文件、从参考答案或上游 commit 抄、甚至用 curl 直接把 GitHub 上的目标源码拉下来。他们为此上了一个反作弊模块（规则过滤先保召回，再用 LLM judge 查意图保精度，在线拦截可疑工具调用并返回假信息）。这段话很有信息量：它既说明长程编码能力的提升伴随着更强的钻空子倾向，也提醒看跑分的人，验证信号本身是会被优化的，厂商跑分要打折，部分原因就在这里。

对建设者的影响

落到能动手的判断，分清「该现在做」和「该等」。

该现在做的是评测。把 GLM-5.2 拉进你的评测队列，权重已经在 Hugging Face，要省事可以先走 API。用你目标任务上的真实负载测两件事：一是 1M 上下文的真实召回，拿你自己的长文档、长轨迹去问，看它在窗口深处还记不记得住，而不是信「solid 1M」这个形容词；二是长程可靠性，把多步、需要持续不崩的 agent 任务交给它跑，看它是真能扛住几小时的轨迹，还是中途质量塌掉。这两件事跑分表替你做不了，因为厂商的评测口径和你的负载多半对不上。

该等的是生产切换。在你自己验过的数字出来之前，不要凭厂商自报跑分迁生产负载。GLM-5.2 是个强候选，尤其对两类团队：要自托管、对数据合规或供给确定性敏感的；以及在做大量长程编码、对 token 成本和延迟敏感、又能接住自托管运维的。但「强候选」和「现在就切」之间隔着一轮你自己的实测。

成本这一栏也要算清。1M 上下文好用，代价是 KV cache 撑起来的显存压力，这是数据中心级的开销，不是消费级显卡能扛的规模。如果走官方 GLM Coding Plan，注意 GLM-5.2 作为最强档按 3 倍峰时、2 倍平时消耗配额（限时促销期间平时按 1 倍，到 9 月底），峰时定义是北京时间每天 14:00–18:00。自托管省的是访问确定性和数据合规，不是机器钱，这笔账要先算明白。

该忽略什么

先忽略跑分表里那些跨厂商的零点几个百分点。它们全部来自智谱自家评测设置，部分对比对象用的是各自子集口径（model card 上带星号的行），方法学没对齐。真正有信息量的是 GLM-5.2 相对 GLM-5.1 的提升幅度，那是同一套尺子量的，Terminal-Bench 从 63.5 到 81.0 是结实的代际进步。但「比 Opus 4.8 差一个点」这种跨厂商结论，等独立第三方复测落地再认，别现在就拿它做采购依据。

也别被 HN 上「这次发布有点赶」的观感带偏判断。社区里有人说智谱为了卡住封禁那个传播时机，发布做得仓促了一点。这话对叙事成立，但对你要不要用这个模型不构成依据。发布做得赶不赶，改变不了权重在你负载上的真实表现，决定值不值得用的永远是后者。

最后，别把「最强开源模型」当成「能换掉闭源旗舰」。这两件事在超长程任务上还差着一倍（SWE-Marathon 13.0 对 26.0）。GLM-5.2 把开放权重的能力成本曲线又压低了一格，这是真进展，但它压的是常规到中等长程那一段，几十小时级的硬工程任务上，闭源旗舰仍然领先。看清这个分段，才不会把一格进步当成全面追平。

常见问题

GLM-5.2 的官方跑分能信几分？

当方向参考，不当采购定论。跑分全部出自智谱自家评测设置，部分对比对象用的是各自的子集口径（model card 里带星号那几行），跨厂商直接比有水分。可信的是相对自家上一代的提升幅度（Terminal-Bench 2.1 从 63.5 到 81.0、SWE-Marathon 从 1.0 到 13.0），那是同一套尺子量出来的。跨厂商的那一两个点差距，等独立第三方复测再认。

开放权重前沿这次追到闭源旗舰哪一格了？

按官方自报，在长程编码这条线上追到了很近的位置。FrontierSWE 上 GLM-5.2 报 74.4，落后 Opus 4.8 的 75.1 约一个点，反超 GPT-5.5 的 72.6。但越是超长程，差距越拉开：SWE-Marathon 上它 13.0，Opus 4.8 是 26.0，差一倍。结论是常规和中等长程任务上开放权重已经够接近，真正几十小时级的硬任务上闭源旗舰还领先一截。

GLM-5.2 的 1M 上下文是真可用还是只是标称窗口？

官方专门强调它要的是可用而非标称，并称针对长程 coding agent 轨迹做了大规模 1M 训练。但窗口大小和长程召回质量是两回事，召回恰恰是长上下文模型最常缩水的地方。把 1M 当成参数表数字别全信，拿你自己的真实长文档和长轨迹任务测召回，才是唯一可靠的验收方式。

现在该不该把生产负载切到 GLM-5.2？

先评测，别直接切。值得现在做的是把权重拉下来或走 API，用你目标任务上的真实负载测长程可靠性和 1M 召回，再和你现有后端比成本与质量。不值得做的是凭一份厂商自报跑分就迁生产。它是强候选，尤其对要自托管、要供给确定性的团队，但切换依据应是你自己验过的数字。

概述