Qwen3.6-35B-A3B 发布：阿里通义千问最新 MoE 模型，35B 参数仅激活 3B

\n## 前言\n\n2026年4月，阿里通义千问团队发布 Qwen3.6-35B-A3B，这是 Qwen3.6 系列的首个开源权重变体。作为一款 MoE（Mixture-of-Experts）架构模型，它在保持 35B 总参数的同时，每次推理仅激活 3B 参数，实现了性能与效率的完美平衡。

\n\n## 核心亮点\n\n### 1. 高效 MoE 架构\n\nQwen3.6-35B-A3B 采用混合专家架构：

\n\n- 总参数：35B\n- 激活参数：仅 3B（每次推理）\n- 专家数量：256 个专家，每次激活 8 个路由专家 + 1 个共享专家\n- 上下文长度：原生支持 262K tokens，可扩展至 100 万 tokens\n\n\n这种设计使得模型在保持强大能力的同时，推理成本大幅降低，非常适合生产环境部署。

\n\n### 2. 强化的 Agentic Coding 能力\n\nQwen3.6 在代码生成方面有显著提升：

\n\n- SWE-bench Verified：73.4 分（领先同类模型）\n- Terminal-Bench 2.0：51.5 分\n- SkillsBench Avg5：28.7 分\n\n\n特别值得一提的是，模型支持Thinking Preservation（思考保留），可以保留历史消息的推理上下文，非常适合迭代开发和复杂任务。

\n\n### 3. 多模态能力\n\nQwen3.6-35B-A3B 不仅擅长文本处理，还具备强大的视觉理解能力：

\n\n- MMMU-Pro：75.3 分\n- Mathvista：86.4 分\n- RealWorldQA：85.3 分\n\n\n在文档理解、图表分析、视频理解等任务上表现出色，适合构建多模态应用。

\n\n## 技术架构\n\nQwen3.6-35B-A3B 的架构设计颇具特色：

\n\n- 隐藏层维度：2048\n- 层数：40 层\n- 隐藏层布局：10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))\n- Gated DeltaNet：32 个 V 注意力头，16 个 QK 注意力头\n- Gated Attention：16 个 Q 注意力头，2 个 KV 注意力头\n\n\n这种创新的架构设计，结合了 DeltaNet 线性注意力和传统注意力机制的优势。

\n\n## 性能对比\n\n与同类模型相比，Qwen3.6-35B-A3B 在多个基准测试中表现优异：

\n\n\n测试项目Qwen3.6-35B-A3BQwen3.5-35B-A3BGemma4-31B\nSWE-bench Verified73.470.052.0\nMMLU-Pro85.285.385.2\nAIME2692.791.089.2\nGPQA86.084.284.3\n\n\n可以看到，Qwen3.6 在代码生成和 STEM 推理方面有明显优势。

\n\n## 部署与使用\n\nQwen3.6-35B-A3B 支持多种推理框架：

\n\n- SGLang：推荐用于生产环境，高吞吐量\n- vLLM：成熟稳定，广泛使用\n- KTransformers：优化推理效率\n- Hugging Face Transformers：快速原型开发\n\n\n模型可通过 Hugging Face 和 ModelScope 下载，支持本地部署和 API 调用。

\n\n## 应用场景\n\n基于 Qwen3.6-35B-A3B 的特性，适合以下场景：

\n\n- 代码助手：前端开发、仓库级代码推理\n- 文档分析：多格式文档理解与提取\n- 多模态应用：图文混合理解、视频分析\n- 长上下文任务：大型代码库分析、长文档处理\n\n\n## 如何获取\n\n\n- 🤗 Hugging Face 模型页面\n- 💬 Qwen Chat 在线体验\n- 📖 官方博客\n\n\n## 总结\n\nQwen3.6-35B-A3B 是通义千问团队在 MoE 架构上的又一次突破。通过创新的 Gated DeltaNet + MoE 设计，模型在保持强大能力的同时，推理成本大幅降低。对于需要高效部署、长上下文处理和多模态能力的开发者来说，这是一个值得尝试的选择。

\n\n

\n\n本文基于 Qwen3.6-35B-A3B 官方发布信息整理，更多技术细节请参考 Hugging Face 模型页面。