【AI风向】阿里通义千问发布 Qwen3.7-Max：专为 Agent 时代打造的前沿模型，35小时自主运行不崩

通义千问今日发布 Qwen3.7-Max，定位「Agent 时代的基础模型」—— 在 Coding Agent、General Agent、STEM 推理三大维度横扫竞品。更惊人的是：一次 35 小时、1000+ 工具调用的全自主内核优化任务，全程零人工干预。

事件速览

2026 年 5 月 20 日，阿里通义千问团队正式发布 Qwen3.7-Max，这是其最新的闭源旗舰模型，明确以「Agent 时代」为设计目标。与此前版本不同，Qwen3.7-Max 的核心卖点不再是通用对话能力，而是编程 Agent、办公自动化、长程自主执行三个 Agent 核心场景。

一句话总结：这不是又一个比跑分的 LLM，这是一台为 AI Agent 专门调校的引擎。

Qwen3.7-Max 将通过阿里云 ModelStudio 提供 API 调用，目前标注为「即将上线」。

为什么这个发布值得你关注

1. Agent 不再是「插件功能」，而是设计原点

过去一年，各大模型厂商的路线大多是「先做好基础模型，再往上加 Agent 能力」—— 给 Claude 加 computer use，给 GPT 加 tools，给 Gemini 加 grounding。这些都是在通用模型上嫁接 Agent 功能。

Qwen3.7-Max 反其道而行：从设计之初就以 Agent 为第一优先级。官方博客明确写道：「built to be a versatile agent foundation」—— 它不是会 Agent 的 LLM，它就是为 Agent 而生。

这对 AI 创业者意味着什么？你不再需要「凑合着用」一个通用模型跑 Agent 工作流。 如果 Qwen3.7-Max 的定价延续阿里云的价格优势，它可能成为 AI 创业者部署多 Agent 系统的性价比最优解。

2. Benchmark 横扫：在 Agent 指标上全面压制

Qwen 官方公布了一份包含 30+ 项评测的详细对比表，对手包括 Anthropic Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max 和自家上一代 Qwen3.6-Plus。以下是关键赛道的表现：

Coding Agent（编程 Agent）：

Terminal Bench 2.0-Terminus：69.7（大幅领先 Opus-4.6 的 65.4 和 DS-V4-Pro 的 67.9）
SWE-Pro：60.6（全部参评模型中最高，Opus 57.3，K2.6 59.5）
SWE-Multilingual：78.3（最高）
NL2repo：47.2（与 Opus 47.6 几乎持平，远超其他）
SciCode：53.5（最高）

General Agent（通用 Agent）：

Skillsbench：59.2（远超第二名 K2.6 的 56.2，Qwen3.6-Plus 仅 45.7）
MCP-Mark：60.8（最高，DS-V4-Pro 57.1）
MCP-Atlas：76.4（最高）
Kernel Bench L3：1.98 / 96%（仅次于 Opus-4.6 的 2.63/98%，但远超前代 Qwen3.6-Plus 的 1.03/48%）

STEM & Reasoning：

GPQA Diamond：92.4（最高）
HLE：41.4（最高）
IMOAnswerBench：90.0（最高）
Apex：44.5（大幅领先第二名 DS-V4-Pro 的 38.3）

这些数字说明了什么？Qwen3.7-Max 的 Agent 能力不是「接近」顶级水平，而是已经在多个维度上超越了当前所有主流模型。 尤其是在 Skillsbench（Agent 技能执行）上的 59.2 分，相比 Qwen3.6-Plus 的 45.7 分，代际提升高达 29.5%。

Qwen3.7-Max Agent性能对比
▲ Qwen3.7-Max 在 Coding Agent、General Agent、STEM 三大维度的基准测试表现，多项指标达到或超越当前主流模型

3. 35 小时全自主运行：Agent 稳定性的终极验证

这是整个发布中最令人震撼的数据点：Qwen3.7-Max 完成了一次 35 小时的全自主 Linux 内核优化任务，涉及超过 1,000 次工具调用，全程零人工干预。

这意味着什么？大多数 AI Agent 在连续运行几小时后会因上下文膨胀、状态偏移、工具调用错误等原因逐渐退化甚至崩溃。35 小时连续自主运行并保持有效推理，这是 Agent 工程领域的重大突破。

对于 AI 创业者来说，这意味着你可以放心地将 Qwen3.7-Max 部署到需要长期运行的 Agent 工作流中 —— 例如 24 小时代码审查 Agent、自动化运维 Agent、持续内容生成管线等。

4. 跨框架兼容：不锁定生态

Qwen3.7-Max 的另一个关键特性是「cross-scaffold generalization」—— 它不绑定特定 Agent 框架。官方明确表示该模型在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架上表现一致。

这是一个聪明的策略。目前 Agent 框架生态高度碎片化 —— Anthropic 推 Claude Code，OpenAI 推 Codex，Nous Research 推 Hermes Agent，OpenClaw 独立发展。一个模型如果在不同框架上表现差异巨大，创业者就要被迫选边。Qwen3.7-Max 的跨框架一致性，意味着你可以根据实际需求选框架，而不被模型能力限制。

Agent 模型竞争格局正在重塑

Qwen3.7-Max 的发布，标志着 AI Agent 竞争进入了一个新阶段。回顾过去半年的发展：

2025 年底：Anthropic 推出 Claude Code，定义了「用 AI 写代码」的产品形态
2026 年初：OpenAI 发布 Codex CLI，Google 推出 Gemini with grounding
2026 年 4 月：Hermes Agent v0.13 新增 delegate_task 多 Agent 协作
2026 年 5 月：Hermes Agent v0.14 发布，支持 Grok OAuth、OpenAI 兼容代理
2026 年 5 月 20 日：Qwen3.7-Max 发布，首次有模型以 Agent 为核心设计目标

格局已经清晰：Agent 不再是 LLM 的附属功能，而是下一代模型的核心竞争力。 未来评判一个模型的好坏，SWE-bench 和 MMLU 将不再是唯一标准 —— Skillsbench、MCP-Mark、Kernel Bench 这些 Agent 原生评测将越来越重要。

AI Agent模型演进时间线
▲ 2025年底至今，AI Agent 模型和工具快速迭代，Qwen3.7-Max 是首个以 Agent 为核心设计目标的前沿模型

Agent 时代的新竞争逻辑

Qwen3.7-Max 的发布揭示了一个正在发生的产业变化：Agent 能力正在从「差异化卖点」变成「入场门票」。

六个月前，一个模型如果能在 SWE-bench 上拿到 75 分，已经可以被称为「编程 Agent 模型」并以此作为核心卖点。今天，Qwen3.7-Max 在几乎全部 Agent 相关评测上达到或超过现有最佳水平，而它对自己的定位只是「Agent 时代的基础模型」—— 注意，「基础」，不是「旗舰」。

这说明行业正在以惊人速度迭代。对于 AI 创业者，核心启示是：不要把你的产品价值建立在「某个模型比另一个强 5%」的基础上。 模型之间的差距在缩小，真正的竞争壁垒在于你的 Agent 工作流设计、数据飞轮、以及你对特定垂直场景的理解深度。

Qwen3.7-Max 的另一层含义是：中国 AI 团队在 Agent 方向上的投入正在产生实质成果。 从 Qwen3.6-Plus 到 Qwen3.7-Max，Skillsbench 从 45.7 跃升至 59.2，Kernel Bench L3 从 1.03/48% 跃升至 1.98/96% —— 这不是微调级别的进步，而是代际级别的跨越。国内 AI 创业者将有更多来自本土模型的选择，减少对海外 API 的依赖。

行动建议

对 AI 创业者的具体建议：

关注阿里云 ModelStudio 的定价。Qwen 系列历史上定价显著低于 Anthropic 和 OpenAI。如果 Qwen3.7-Max 延续这一定价策略，它可能将 Agent 部署成本降低 50-70%。对于运行多 Agent 系统的团队来说，这意味着月成本可能从几千美元降到几百美元。

提前适配。如果你的 Agent 工作流当前绑定在单一模型上（如 Claude），开始评估模型切换的成本。Qwen3.7-Max 的跨框架兼容性降低了适配门槛，但提前做好 Prompt 格式兼容和输出解析的准备仍然必要。

关注 MCP 集成能力。Qwen3.7-Max 在 MCP-Mark（60.8）和 MCP-Atlas（76.4）上的高分表明其 MCP 协议支持出色。如果你的 Agent 工具栈基于 MCP，Qwen3.7-Max 是天然的高性能选择。

考虑 GPU 部署。虽然 Qwen3.7-Max 目前仅通过 API 提供，但 Qwen 系列通常会在 API 发布后开源或提供本地部署选项。对于有合规需求的企业客户，这是关键考量。

对 Agent 开发者的建议：

重新评估模型选型标准。如果你的 Agent 项目还在用 MMLU 或 HumanEval 作为模型选型标准，是时候切换到 Agent 原生基准了。Skillsbench、Terminal-Bench、MCP-Mark 这些评测更能反映模型在实际 Agent 场景中的表现。

测试长程稳定性。35 小时的长程运行是 Qwen3.7-Max 的差异化亮点。如果你有需要长时间自主运行的 Agent 场景（代码审查、运维监控、数据采集），Qwen3.7-Max 值得优先测试。

本文由AI辅助创作，经人工审核编辑发布