Qwen3.6-35B-A3B 发布:阿里通义千问最新 MoE 模型,35B 参数仅激活 3B

前言

2026年4月,阿里通义千问团队发布 Qwen3.6-35B-A3B,这是 Qwen3.6 系列的首个开源权重变体。作为一款 MoE(Mixture-of-Experts)架构模型,它在保持 35B 总参数的同时,每次推理仅激活 3B 参数,实现了性能与效率的完美平衡。

核心亮点

1. 高效 MoE 架构

Qwen3.6-35B-A3B 采用混合专家架构:

  • 总参数:35B
  • 激活参数:仅 3B(每次推理)
  • 专家数量:256 个专家,每次激活 8 个路由专家 + 1 个共享专家
  • 上下文长度:原生支持 262K tokens,可扩展至 100 万 tokens

这种设计使得模型在保持强大能力的同时,推理成本大幅降低,非常适合生产环境部署。

2. 强化的 Agentic Coding 能力

Qwen3.6 在代码生成方面有显著提升:

  • SWE-bench Verified:73.4 分(领先同类模型)
  • Terminal-Bench 2.0:51.5 分
  • SkillsBench Avg5:28.7 分

特别值得一提的是,模型支持Thinking Preservation(思考保留),可以保留历史消息的推理上下文,非常适合迭代开发和复杂任务。

3. 多模态能力

Qwen3.6-35B-A3B 不仅擅长文本处理,还具备强大的视觉理解能力:

  • MMMU-Pro:75.3 分
  • Mathvista:86.4 分
  • RealWorldQA:85.3 分

在文档理解、图表分析、视频理解等任务上表现出色,适合构建多模态应用。

技术架构

Qwen3.6-35B-A3B 的架构设计颇具特色:

  • 隐藏层维度:2048
  • 层数:40 层
  • 隐藏层布局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
  • Gated DeltaNet:32 个 V 注意力头,16 个 QK 注意力头
  • Gated Attention:16 个 Q 注意力头,2 个 KV 注意力头

这种创新的架构设计,结合了 DeltaNet 线性注意力和传统注意力机制的优势。

性能对比

与同类模型相比,Qwen3.6-35B-A3B 在多个基准测试中表现优异:

测试项目 Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma4-31B
SWE-bench Verified 73.4 70.0 52.0
MMLU-Pro 85.2 85.3 85.2
AIME26 92.7 91.0 89.2
GPQA 86.0 84.2 84.3

可以看到,Qwen3.6 在代码生成和 STEM 推理方面有明显优势。

部署与使用

Qwen3.6-35B-A3B 支持多种推理框架:

  • SGLang:推荐用于生产环境,高吞吐量
  • vLLM:成熟稳定,广泛使用
  • KTransformers:优化推理效率
  • Hugging Face Transformers:快速原型开发

模型可通过 Hugging Face 和 ModelScope 下载,支持本地部署和 API 调用。

应用场景

基于 Qwen3.6-35B-A3B 的特性,适合以下场景:

  • 代码助手:前端开发、仓库级代码推理
  • 文档分析:多格式文档理解与提取
  • 多模态应用:图文混合理解、视频分析
  • 长上下文任务:大型代码库分析、长文档处理

如何获取

总结

Qwen3.6-35B-A3B 是通义千问团队在 MoE 架构上的又一次突破。通过创新的 Gated DeltaNet + MoE 设计,模型在保持强大能力的同时,推理成本大幅降低。对于需要高效部署、长上下文处理和多模态能力的开发者来说,这是一个值得尝试的选择。


本文基于 Qwen3.6-35B-A3B 官方发布信息整理,更多技术细节请参考 Hugging Face 模型页面。

发表评论