Qwen3.7-Max:阿里把战场从「对话质量」搬到「自主续航」

Qwen3.7-Max 的真正信号不是又一组跑分,而是一个能无人值守跨上千步、连跑数十小时的 agent 底座——阿里押的是和西方实验室同一条「长任务可靠性」战线,对 builder 该问的是能不能放手让它跑。

Qwen3.7-Max:阿里把战场从「对话质量」搬到「自主续航」
图 / Unsplash

概述

Qwen3.7-Max 这次值得记住的,是阿里把它对外讲述的坐标整个换了,而不只是榜单上又多了一个能跟 Opus、DeepSeek 掰手腕的中国模型。官方博客《Qwen3.7: The Agent Frontier》通篇没把「对话有多聪明」放在前面,反复强调的是另一件事:这是一个为 agent 时代设计的底座,能在数百到上千步里维持连贯执行。它最硬的一条证据是一段过程而非某个跑分——Qwen3.7-Max 在一块训练时从未见过的硬件上,无人值守跑了约 35 小时、做了 1,158 次工具调用、把一个 GPU kernel 反复重写到最后拿到 10.0 倍提速。

把这件事放进 builder 的语境:过去衡量一个模型,默认问题是「单轮回答的质量够不够好」。Qwen3.7-Max 想让你改问——「能不能把一个开放式、没有标准答案、要跑几十小时的任务交给它,然后不在旁边盯着」。前者比单点智力,后者比上千步里不丢上下文、不偏离目标、卡住了还能自己换思路的续航。阿里这次明确押注后者。

所以本文要主动拆掉的,是「Qwen3.7-Max 又刷新了某某榜单」那种叙事。真正把它和「又一个对话模型」区分开的,是那段 35 小时自主优化的轨迹,以及背后「环境规模化」「跨脚手架泛化」的训练取向。下面逐层分开信号和噪音,每一条都落到「这对你要不要、怎么用它」上。

发生了什么

阿里在 2026 年 5 月 20 日发布 Qwen3.7-Max,官方定位是「为 agent 时代设计的 proprietary 模型」,通过阿里云 Model Studio 以 API 形式提供——不开放权重,无自托管。它对外讲的能力有四块:作为编码 agent(从前端原型到多文件工程)、通过 MCP 与多 agent 编排做办公与流程自动化、在长程任务上维持自主执行、以及跨不同 agent 脚手架的一致表现。

最值得拆开看的是那段被官方称为「Self-Evolving in the Wild」的实验,第三方媒体 Firethering 也有转述报道(同样基于官方数据,并非独立复现)。阿里给模型的任务是优化 SGLang 里的 Extend Attention——一个在 LLM 推理服务中计算新生成 token 与至多 32K 前缀 KV-cache 之间注意力的算子,内存受限、对延迟敏感,基线是 SGLang 官方的 Triton 实现。关键在硬件:跑在搭载 T-Head ZW-M890 PPU 的 ECS 实例上,这是模型训练时完全没见过的架构。模型起步时只有一个空工作区,里面放着任务说明、现有实现和一个评测脚本——没有任何分析数据、硬件文档或这套架构的示例 kernel。

接下来约 35 小时连续自主执行里,模型做了 432 次 kernel 评测、1,158 次工具调用,自己写代码、编译、剖析、再迭代:诊断从没见过的编译失败,定位性能瓶颈,多次推倒重来重新设计 kernel 架构,全程无人介入,最终在多个工作负载上拿到对 Triton 基线 10.0 倍的几何平均提速。官方特别点出一个细节:优化曲线在头几个小时后并没有平掉,模型 30 小时后仍在找到有意义的改进——长程自主优化不只是「能跑完」,而是「越跑越好」。

同一任务阿里也用其它模型在相同条件下跑了:GLM 5.1 到 7.3 倍,Kimi K2.6 到 5.0 倍,DeepSeek V4 Pro 到 3.3 倍,上一代 Qwen3.6-Plus 只到 1.1 倍。提前停下的模型,是因为连续五轮没发出任何工具调用,自判已无法推进、主动结束了会话。这条对比把「续航」讲得很具体:拉开差距的除了最终速度,还有模型会不会过早放弃。

训练取向上,官方把方法称为「环境规模化(environment scaling)」:不针对某个基准做优化,而是大规模扩展 agentic 训练环境的质量与多样性,让 agent 能力像语言模型从多样文本中泛化那样、从多样环境中泛化。配套的 Rollout 基础设施把每个训练实例拆成 Task / Harness / Verifier 三个正交组件自由重组,从而能做跨脚手架、跨验证器的强化学习——逼模型学会解题本身,而不是钻某套脚手架的空子。官方据此称在 QwenClawBench、CoWorkBench 上无论评测用哪套脚手架表现都一致,并强调所有评测环境都是训练里完全没出现过的域外环境。

为何重要

值得改变判断的,是「长任务可靠性」这条战线现在不再是西方实验室的专属议题。过去能跑几十步、几百步而不崩的 agent 续航,主要是 Anthropic、OpenAI 用 Claude Code、Codex 这样的产品和叙事在占。阿里这次拿出的是一段有具体步数和时长、可被第三方复述的自主执行轨迹——它把自己摆到了同一条战线上,竞争的标的从「谁单轮更聪明」变成「谁能让你更放心地放手」。

第二,跨脚手架泛化把它从「绑定某个产品」里解放出来。官方反复强调它在 Claude Code、OpenClaw、Qwen Code 乃至自定义工具框架下都能一致工作。对 builder,这意味着你能把它当成可替换的后端骨架塞进已有的 agent 栈,不必为它换一整套工具链。这种「不挑脚手架」比听起来稀缺——很多 agentic 模型会悄悄过拟合到训练时用的那套评测设置。

第三,那段 kernel 优化指向一个对 agent 经济性真正重要的属性:在不熟悉的环境里靠运行时反馈而非记忆去解题。模型对那块 PPU 零先验,全靠剖析输出、一次次试错把性能推上去。如果这种「上千次调用里维持连贯策略 + 在没见过的架构上做出有竞争力结果」的能力真实且可复现,对应的就是把一类原本需要专家团队一两周的工程任务压进数小时——这是官方明确给出的价值主张,也是真正该去验证的那条。

对建设者的影响

如果你在搭 agentic 工作流,最该带走的一条是:评估这个模型时,把「能不能放手让它跑」当成首要问题,而不是去比对话基准的名次。它的价值集中在长程自主续航上,那就用你自己的长任务去压它——开放式、没有标准答案、需要跨很多步的那种,看它会不会过早收手。这条远比 GPQA 高几分有意义。

第二,接入成本很低,因为它兼容你大概率已经在用的协议。阿里云 Model Studio 同时提供兼容 OpenAI 规范的 chat completions / responses API 和兼容 Anthropic 的接口——你甚至可以直接把 Claude Code 的 ANTHROPIC_BASE_URL 指过去、模型设成 qwen3.7-max 就跑起来。对想做低成本对照评测的团队,这意味着几乎不用改代码就能把它和现有后端并排比一比。它还提供 preserve_thinking,在 agentic 任务里保留前面各轮的思考内容,官方推荐开启。

第三,先确认 proprietary 这条红线对你是否致命。Qwen3.7-Max 是闭源 API 模型,没有开放权重、不能本地部署或自托管。对有数据驻留 / 隐私合规要求、或要把模型跑在自己基础设施上的团队,这是不看跑分就能拍板的硬约束——再亮眼的 35 小时轨迹也救不回来。把它放在评估流程最前面,能省掉后面所有白做的功夫。

技术要点

那段 kernel 实验之所以是「不同量级的证据」,关键在它隔离出两个属性。一是持续的长程推理:官方称模型在超过一千次工具调用里维持了连贯的优化策略,没丢上下文、没出现回退——这正是长任务最容易塌的地方,所谓 context rot 和 instruction drift。二是强的上下文内泛化:它对目标硬件零先验,全靠运行时反馈而非记忆里的硬件知识,做出了有竞争力的 kernel。

这两点在别处也有侧面印证。官方在 KernelBench L3 上报告 Qwen3.7-Max 能为 96% 的场景产出加速 kernel,对照之下 Opus-4.6 为 98%、GLM 5.1 为 78%、Kimi K2.6 为 80%、DeepSeek V4 Pro 为 54%、Qwen3.6-Plus 为 48%——它在这一项上紧贴 Opus。官方还提到把模型用于超 80 小时的 RL 奖励作弊自监控(执行超 1 万次调用、新增 13 条启发式规则、标出 1,618 个作弊案例),以及在 YC-Bench(模拟创业公司全年生命周期)上跨数百个决策轮做长程规划。需要诚实标注:这些数字全部来自阿里自评,尚无独立复现,Firethering 也明确把这点列为局限。当作「方向性证据」而非「已验证结论」来读,才稳妥。

该忽略什么

第一,忽略「Qwen3.7-Max 刷爆榜单」式的跑分头条。官方表里它在编码 agent 上和 Opus-4.6、DeepSeek 互有胜负,Terminal Bench 等少数项领先、SWE-Verified 基本持平;推理项(GPQA Diamond、HLE、HMMT)拉开的差距更明显,但这些都不是它这次真正的卖点。把价值押在「谁分高」上,会错过那段 35 小时轨迹才是核心信号。

第二,别把那条 10.0 倍提速直接当成「它能给你的代码提速十倍」。那是在一块特定 PPU 上、对一个特定 SGLang Triton 基线、约 35 小时自主优化后的几何平均结果,换硬件、换基线、换任务数字会完全不同。它是「这个模型在一个被精心设计的长程优化场景里能走多远」的证据,不是一张性能保证单。

第三,别忽略两条现实约束。一是 proprietary 与不可自托管(前面已展开)。二是别把任何单项分数当成「全维度都信得过」的背书——以指令遵循为例,官方表里它的 IFBench(79.1,全表最高,高于 DS-V4-Pro 的 77.0)其实领先、IFEval 也属第一梯队,但这同样是阿里自评、尚无独立复现,真要在长会话里维持严格格式或精确输出结构,仍建议拿自己的用例测一测,别直接照搬榜单数字。亮眼的自主续航不等于每个维度都已被外部验证,把它当成「全能冠军」是这次最容易踩的坑。

来源

  1. Qwen3.7: The Agent Frontier / official
  2. Alibaba Qwen3.7-Max ran 35 hours autonomously on an optimization task / blog