\n## 前言\n\n2026年4月,阿里通义千问团队发布 Qwen3.6-35B-A3B,这是 Qwen3.6 系列的首个开源权重变体。作为一款 MoE(Mixture-of-Experts)架构模型,它在保持 35B 总参数的同时,每次推理仅激活 3B 参数,实现了性能与效率的完美平衡。
\n\n## 核心亮点\n\n### 1. 高效 MoE 架构\n\nQwen3.6-35B-A3B 采用混合专家架构:
\n\n- 总参数:35B\n- 激活参数:仅 3B(每次推理)\n- 专家数量:256 个专家,每次激活 8 个路由专家 + 1 个共享专家\n- 上下文长度:原生支持 262K tokens,可扩展至 100 万 tokens\n\n\n这种设计使得模型在保持强大能力的同时,推理成本大幅降低,非常适合生产环境部署。
\n\n### 2. 强化的 Agentic Coding 能力\n\nQwen3.6 在代码生成方面有显著提升:
\n\n- SWE-bench Verified:73.4 分(领先同类模型)\n- Terminal-Bench 2.0:51.5 分\n- SkillsBench Avg5:28.7 分\n\n\n特别值得一提的是,模型支持Thinking Preservation(思考保留),可以保留历史消息的推理上下文,非常适合迭代开发和复杂任务。
\n\n### 3. 多模态能力\n\nQwen3.6-35B-A3B 不仅擅长文本处理,还具备强大的视觉理解能力:
\n\n- MMMU-Pro:75.3 分\n- Mathvista:86.4 分\n- RealWorldQA:85.3 分\n\n\n在文档理解、图表分析、视频理解等任务上表现出色,适合构建多模态应用。
\n\n## 技术架构\n\nQwen3.6-35B-A3B 的架构设计颇具特色:
\n\n- 隐藏层维度:2048\n- 层数:40 层\n- 隐藏层布局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))\n- Gated DeltaNet:32 个 V 注意力头,16 个 QK 注意力头\n- Gated Attention:16 个 Q 注意力头,2 个 KV 注意力头\n\n\n这种创新的架构设计,结合了 DeltaNet 线性注意力和传统注意力机制的优势。
\n\n## 性能对比\n\n与同类模型相比,Qwen3.6-35B-A3B 在多个基准测试中表现优异:
\n\n\n测试项目Qwen3.6-35B-A3BQwen3.5-35B-A3BGemma4-31B\nSWE-bench Verified73.470.052.0\nMMLU-Pro85.285.385.2\nAIME2692.791.089.2\nGPQA86.084.284.3\n\n\n可以看到,Qwen3.6 在代码生成和 STEM 推理方面有明显优势。
\n\n## 部署与使用\n\nQwen3.6-35B-A3B 支持多种推理框架:
\n\n- SGLang:推荐用于生产环境,高吞吐量\n- vLLM:成熟稳定,广泛使用\n- KTransformers:优化推理效率\n- Hugging Face Transformers:快速原型开发\n\n\n模型可通过 Hugging Face 和 ModelScope 下载,支持本地部署和 API 调用。
\n\n## 应用场景\n\n基于 Qwen3.6-35B-A3B 的特性,适合以下场景:
\n\n- 代码助手:前端开发、仓库级代码推理\n- 文档分析:多格式文档理解与提取\n- 多模态应用:图文混合理解、视频分析\n- 长上下文任务:大型代码库分析、长文档处理\n\n\n## 如何获取\n\n\n- 🤗 Hugging Face 模型页面\n- 💬 Qwen Chat 在线体验\n- 📖 官方博客\n\n\n## 总结\n\nQwen3.6-35B-A3B 是通义千问团队在 MoE 架构上的又一次突破。通过创新的 Gated DeltaNet + MoE 设计,模型在保持强大能力的同时,推理成本大幅降低。对于需要高效部署、长上下文处理和多模态能力的开发者来说,这是一个值得尝试的选择。
\n\n
\n\n本文基于 Qwen3.6-35B-A3B 官方发布信息整理,更多技术细节请参考 Hugging Face 模型页面。
\n