2026-06-10

Qwen3.7-Max：阿里把战场从「对话质量」搬到「自主续航」

Qwen3.7-Max 的真正信号不是又一组跑分，而是一个能无人值守跨上千步、连跑数十小时的 agent 底座——阿里押的是和西方实验室同一条「长任务可靠性」战线，对 builder 该问的是能不能放手让它跑。

概述

Qwen3.7-Max 这次值得记住的，是阿里把它对外讲述的坐标整个换了，而不只是榜单上又多了一个能跟 Opus、DeepSeek 掰手腕的中国模型。官方博客《Qwen3.7: The Agent Frontier》通篇没把「对话有多聪明」放在前面，反复强调的是另一件事：这是一个为 agent 时代设计的底座，能在数百到上千步里维持连贯执行。它最硬的一条证据是一段过程而非某个跑分——Qwen3.7-Max 在一块训练时从未见过的硬件上，无人值守跑了约 35 小时、做了 1,158 次工具调用、把一个 GPU kernel 反复重写到最后拿到 10.0 倍提速。

把这件事放进 builder 的语境：过去衡量一个模型，默认问题是「单轮回答的质量够不够好」。Qwen3.7-Max 想让你改问——「能不能把一个开放式、没有标准答案、要跑几十小时的任务交给它，然后不在旁边盯着」。前者比单点智力，后者比上千步里不丢上下文、不偏离目标、卡住了还能自己换思路的续航。阿里这次明确押注后者。

所以本文要主动拆掉的，是「Qwen3.7-Max 又刷新了某某榜单」那种叙事。真正把它和「又一个对话模型」区分开的，是那段 35 小时自主优化的轨迹，以及背后「环境规模化」「跨脚手架泛化」的训练取向。下面逐层分开信号和噪音，每一条都落到「这对你要不要、怎么用它」上。

发生了什么

阿里在 2026 年 5 月 20 日发布 Qwen3.7-Max，官方定位是「为 agent 时代设计的 proprietary 模型」，通过阿里云 Model Studio 以 API 形式提供——不开放权重，无自托管。它对外讲的能力有四块：作为编码 agent（从前端原型到多文件工程）、通过 MCP 与多 agent 编排做办公与流程自动化、在长程任务上维持自主执行、以及跨不同 agent 脚手架的一致表现。

最值得拆开看的是那段被官方称为「Self-Evolving in the Wild」的实验，第三方媒体 Firethering 也有转述报道（同样基于官方数据，并非独立复现）。阿里给模型的任务是优化 SGLang 里的 Extend Attention——一个在 LLM 推理服务中计算新生成 token 与至多 32K 前缀 KV-cache 之间注意力的算子，内存受限、对延迟敏感，基线是 SGLang 官方的 Triton 实现。关键在硬件：跑在搭载 T-Head ZW-M890 PPU 的 ECS 实例上，这是模型训练时完全没见过的架构。模型起步时只有一个空工作区，里面放着任务说明、现有实现和一个评测脚本——没有任何分析数据、硬件文档或这套架构的示例 kernel。

接下来约 35 小时连续自主执行里，模型做了 432 次 kernel 评测、1,158 次工具调用，自己写代码、编译、剖析、再迭代：诊断从没见过的编译失败，定位性能瓶颈，多次推倒重来重新设计 kernel 架构，全程无人介入，最终在多个工作负载上拿到对 Triton 基线 10.0 倍的几何平均提速。官方特别点出一个细节：优化曲线在头几个小时后并没有平掉，模型 30 小时后仍在找到有意义的改进——长程自主优化不只是「能跑完」，而是「越跑越好」。

同一任务阿里也用其它模型在相同条件下跑了：GLM 5.1 到 7.3 倍，Kimi K2.6 到 5.0 倍，DeepSeek V4 Pro 到 3.3 倍，上一代 Qwen3.6-Plus 只到 1.1 倍。提前停下的模型，是因为连续五轮没发出任何工具调用，自判已无法推进、主动结束了会话。这条对比把「续航」讲得很具体：拉开差距的除了最终速度，还有模型会不会过早放弃。

训练取向上，官方把方法称为「环境规模化（environment scaling）」：不针对某个基准做优化，而是大规模扩展 agentic 训练环境的质量与多样性，让 agent 能力像语言模型从多样文本中泛化那样、从多样环境中泛化。配套的 Rollout 基础设施把每个训练实例拆成 Task / Harness / Verifier 三个正交组件自由重组，从而能做跨脚手架、跨验证器的强化学习——逼模型学会解题本身，而不是钻某套脚手架的空子。官方据此称在 QwenClawBench、CoWorkBench 上无论评测用哪套脚手架表现都一致，并强调所有评测环境都是训练里完全没出现过的域外环境。

为何重要

值得改变判断的，是「长任务可靠性」这条战线现在不再是西方实验室的专属议题。过去能跑几十步、几百步而不崩的 agent 续航，主要是 Anthropic、OpenAI 用 Claude Code、Codex 这样的产品和叙事在占。阿里这次拿出的是一段有具体步数和时长、可被第三方复述的自主执行轨迹——它把自己摆到了同一条战线上，竞争的标的从「谁单轮更聪明」变成「谁能让你更放心地放手」。

第二，跨脚手架泛化把它从「绑定某个产品」里解放出来。官方反复强调它在 Claude Code、OpenClaw、Qwen Code 乃至自定义工具框架下都能一致工作。对 builder，这意味着你能把它当成可替换的后端骨架塞进已有的 agent 栈，不必为它换一整套工具链。这种「不挑脚手架」比听起来稀缺——很多 agentic 模型会悄悄过拟合到训练时用的那套评测设置。

第三，那段 kernel 优化指向一个对 agent 经济性真正重要的属性：在不熟悉的环境里靠运行时反馈而非记忆去解题。模型对那块 PPU 零先验，全靠剖析输出、一次次试错把性能推上去。如果这种「上千次调用里维持连贯策略 + 在没见过的架构上做出有竞争力结果」的能力真实且可复现，对应的就是把一类原本需要专家团队一两周的工程任务压进数小时——这是官方明确给出的价值主张，也是真正该去验证的那条。

对建设者的影响

如果你在搭 agentic 工作流，最该带走的一条是：评估这个模型时，把「能不能放手让它跑」当成首要问题，而不是去比对话基准的名次。它的价值集中在长程自主续航上，那就用你自己的长任务去压它——开放式、没有标准答案、需要跨很多步的那种，看它会不会过早收手。这条远比 GPQA 高几分有意义。

第二，接入成本很低，因为它兼容你大概率已经在用的协议。阿里云 Model Studio 同时提供兼容 OpenAI 规范的 chat completions / responses API 和兼容 Anthropic 的接口——你甚至可以直接把 Claude Code 的 ANTHROPIC_BASE_URL 指过去、模型设成 qwen3.7-max 就跑起来。对想做低成本对照评测的团队，这意味着几乎不用改代码就能把它和现有后端并排比一比。它还提供 preserve_thinking，在 agentic 任务里保留前面各轮的思考内容，官方推荐开启。

第三，先确认 proprietary 这条红线对你是否致命。Qwen3.7-Max 是闭源 API 模型，没有开放权重、不能本地部署或自托管。对有数据驻留 / 隐私合规要求、或要把模型跑在自己基础设施上的团队，这是不看跑分就能拍板的硬约束——再亮眼的 35 小时轨迹也救不回来。把它放在评估流程最前面，能省掉后面所有白做的功夫。

技术要点

那段 kernel 实验之所以是「不同量级的证据」，关键在它隔离出两个属性。一是持续的长程推理：官方称模型在超过一千次工具调用里维持了连贯的优化策略，没丢上下文、没出现回退——这正是长任务最容易塌的地方，所谓 context rot 和 instruction drift。二是强的上下文内泛化：它对目标硬件零先验，全靠运行时反馈而非记忆里的硬件知识，做出了有竞争力的 kernel。

这两点在别处也有侧面印证。官方在 KernelBench L3 上报告 Qwen3.7-Max 能为 96% 的场景产出加速 kernel，对照之下 Opus-4.6 为 98%、GLM 5.1 为 78%、Kimi K2.6 为 80%、DeepSeek V4 Pro 为 54%、Qwen3.6-Plus 为 48%——它在这一项上紧贴 Opus。官方还提到把模型用于超 80 小时的 RL 奖励作弊自监控（执行超 1 万次调用、新增 13 条启发式规则、标出 1,618 个作弊案例），以及在 YC-Bench（模拟创业公司全年生命周期）上跨数百个决策轮做长程规划。需要诚实标注：这些数字全部来自阿里自评，尚无独立复现，Firethering 也明确把这点列为局限。当作「方向性证据」而非「已验证结论」来读，才稳妥。

该忽略什么

第一，忽略「Qwen3.7-Max 刷爆榜单」式的跑分头条。官方表里它在编码 agent 上和 Opus-4.6、DeepSeek 互有胜负，Terminal Bench 等少数项领先、SWE-Verified 基本持平；推理项（GPQA Diamond、HLE、HMMT）拉开的差距更明显，但这些都不是它这次真正的卖点。把价值押在「谁分高」上，会错过那段 35 小时轨迹才是核心信号。

第二，别把那条 10.0 倍提速直接当成「它能给你的代码提速十倍」。那是在一块特定 PPU 上、对一个特定 SGLang Triton 基线、约 35 小时自主优化后的几何平均结果，换硬件、换基线、换任务数字会完全不同。它是「这个模型在一个被精心设计的长程优化场景里能走多远」的证据，不是一张性能保证单。

第三，别忽略两条现实约束。一是 proprietary 与不可自托管（前面已展开）。二是别把任何单项分数当成「全维度都信得过」的背书——以指令遵循为例，官方表里它的 IFBench（79.1，全表最高，高于 DS-V4-Pro 的 77.0）其实领先、IFEval 也属第一梯队，但这同样是阿里自评、尚无独立复现，真要在长会话里维持严格格式或精确输出结构，仍建议拿自己的用例测一测，别直接照搬榜单数字。亮眼的自主续航不等于每个维度都已被外部验证，把它当成「全能冠军」是这次最容易踩的坑。

来源

Qwen3.7: The Agent Frontier / official
Alibaba Qwen3.7-Max ran 35 hours autonomously on an optimization task / blog