前言
2026年4月,阿里通义千问团队发布 Qwen3.6-35B-A3B,这是 Qwen3.6 系列的首个开源权重变体。作为一款 MoE(Mixture-of-Experts)架构模型,它在保持 35B 总参数的同时,每次推理仅激活 3B 参数,实现了性能与效率的完美平衡。
核心亮点
1. 高效 MoE 架构
Qwen3.6-35B-A3B 采用混合专家架构:
- 总参数:35B
- 激活参数:仅 3B(每次推理)
- 专家数量:256 个专家,每次激活 8 个路由专家 + 1 个共享专家
- 上下文长度:原生支持 262K tokens,可扩展至 100 万 tokens
这种设计使得模型在保持强大能力的同时,推理成本大幅降低,非常适合生产环境部署。
2. 强化的 Agentic Coding 能力
Qwen3.6 在代码生成方面有显著提升:
- SWE-bench Verified:73.4 分(领先同类模型)
- Terminal-Bench 2.0:51.5 分
- SkillsBench Avg5:28.7 分
特别值得一提的是,模型支持Thinking Preservation(思考保留),可以保留历史消息的推理上下文,非常适合迭代开发和复杂任务。
3. 多模态能力
Qwen3.6-35B-A3B 不仅擅长文本处理,还具备强大的视觉理解能力:
- MMMU-Pro:75.3 分
- Mathvista:86.4 分
- RealWorldQA:85.3 分
在文档理解、图表分析、视频理解等任务上表现出色,适合构建多模态应用。
技术架构
Qwen3.6-35B-A3B 的架构设计颇具特色:
- 隐藏层维度:2048
- 层数:40 层
- 隐藏层布局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- Gated DeltaNet:32 个 V 注意力头,16 个 QK 注意力头
- Gated Attention:16 个 Q 注意力头,2 个 KV 注意力头
这种创新的架构设计,结合了 DeltaNet 线性注意力和传统注意力机制的优势。
性能对比
与同类模型相比,Qwen3.6-35B-A3B 在多个基准测试中表现优异:
| 测试项目 | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma4-31B |
|---|---|---|---|
| SWE-bench Verified | 73.4 | 70.0 | 52.0 |
| MMLU-Pro | 85.2 | 85.3 | 85.2 |
| AIME26 | 92.7 | 91.0 | 89.2 |
| GPQA | 86.0 | 84.2 | 84.3 |
可以看到,Qwen3.6 在代码生成和 STEM 推理方面有明显优势。
部署与使用
Qwen3.6-35B-A3B 支持多种推理框架:
- SGLang:推荐用于生产环境,高吞吐量
- vLLM:成熟稳定,广泛使用
- KTransformers:优化推理效率
- Hugging Face Transformers:快速原型开发
模型可通过 Hugging Face 和 ModelScope 下载,支持本地部署和 API 调用。
应用场景
基于 Qwen3.6-35B-A3B 的特性,适合以下场景:
- 代码助手:前端开发、仓库级代码推理
- 文档分析:多格式文档理解与提取
- 多模态应用:图文混合理解、视频分析
- 长上下文任务:大型代码库分析、长文档处理
如何获取
总结
Qwen3.6-35B-A3B 是通义千问团队在 MoE 架构上的又一次突破。通过创新的 Gated DeltaNet + MoE 设计,模型在保持强大能力的同时,推理成本大幅降低。对于需要高效部署、长上下文处理和多模态能力的开发者来说,这是一个值得尝试的选择。
本文基于 Qwen3.6-35B-A3B 官方发布信息整理,更多技术细节请参考 Hugging Face 模型页面。