小米 MiMo-V2.5:309B 参数的”性价比之王”,以及 Token Plan 的野心
如果说 2025 年底小米开源 MiMo-V2-Flash 是”试试水”,那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议,而且 API 价格低到令人怀疑标错了小数点。
今天就来拆解这个”手机厂做的最强开源大模型”,以及小米背后的 Token Plan 到底在下一盘什么棋。
一、MiMo-V2.5 是什么
MiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本,基于 MoE(混合专家)架构。
| 维度 | MiMo-V2.5 | MiMo-V2.5-Pro |
|---|---|---|
| 总参数 | 309B | 309B |
| 激活参数 | 15B | 15B |
| 上下文窗口 | 1M tokens | 1M tokens |
| 架构 | MoE + 混合注意力 | MoE + 混合注意力 |
| 开源协议 | MIT | MIT |
| API 价格(输入) | $0.4/M tokens | $1/M tokens |
| API 价格(输出) | $2/M tokens | $3/M tokens |
1M 上下文窗口是目前开源模型中最长的之一,比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。
价格对比:同级别的 GPT-5 输入 $2/M、输出 $10/M;Claude Sonnet 4.5 输入 $3/M、输出 $15/M。MiMo-V2.5 的价格只有它们的 1/5 到 1/7。
二、核心架构创新
混合注意力:5:1 的效率密码
MiMo-V2.5 继承了 V2-Flash 的混合注意力架构——每 5 层滑动窗口注意力(SWA)搭配 1 层全局注意力(GA),窗口大小只有 128 tokens。
这带来什么好处?KV 缓存减少近 6 倍。传统全注意力模型处理 1M 上下文需要巨大的显存开销,MiMo 用 SWA 把存储压缩到可承受范围,再通过可学习的注意力汇偏置(Sink Bias)保证长文本理解不退化。
多 Token 预测(MTP):3 倍推理加速
MiMo 不是逐字吐出回复,而是每个步骤同时”预测”接下来的 3 个 token,再由主模型验证。这个 MTP 模块只有 0.33B 参数/层,用了 dense FFN + SWA 保持轻量。
实测效果:3 层 MTP 平均接受 2.8-3.6 个 token,实际加速 2.0-2.6 倍。这意味着 MiMo-V2-Flash 可以做到 150 tokens/秒 的推理速度。
MOPD:多教师在线策略蒸馏
这是小米最原创的训练方法——Multi-Teacher On-Policy Distillation(MOPD)。
传统做法是:先用 SFT 教,再用 RL 练。MOPD 换了个思路:让学生模型从自己的策略分布中采样,然后多个领域专家教师给每个 token 级别的密集奖励。
效果惊人:只需要传统 SFT+RL 流程 1/50 的算力,就能达到教师模型的峰值性能。而且 MOPD 天然抗奖励黑客(reward hacking),因为奖励来自师生分布差异而非稀疏的最终结果。
三、Benchmark 表现
MiMo-V2.5 Pro 在推理和编码上已经追平 Kimi K2 Thinking 和 DeepSeek V3.2 Thinking:
| 基准 | MiMo-V2 Flash | Kimi K2 Thinking | DeepSeek V3.2 | GPT-5 High |
|---|---|---|---|---|
| MMLU-Pro | 84.9 | 84.6 | 85.0 | 87.5 |
| GPQA Diamond | 83.7 | 84.5 | 82.4 | 85.7 |
| AIME 2025 | 94.1 | 94.5 | 93.1 | 94.6 |
| SWE-Bench Verified | 73.4 | 71.3 | 73.1 | 74.9 |
| SWE-Bench Multilingual | 71.7 | 61.1 | 70.2 | 55.3 |
SWE-Bench Multilingual 上 MiMo 排开源第一,71.7% 远超 GPT-5 High 的 55.3%。在多语言编码场景下,这个便宜 5-7 倍的模型比最贵的闭源模型还强。
长上下文方面,MiMo 的混合 SWA 架构在 LongBench V2 上得 60.6,超过 Kimi K2 的 45.1——虽然 Kimi 用了全注意力架构且参数大 3 倍。
四、小米的 Token Plan:不止是模型
“Token Plan”是小米 MiMo API 平台的定价和生态战略。核心理念很简单:用极低价格抢占开发者生态,把 MiMo 变成 AI 时代的”安卓”。
定价策略
| 模型 | 输入价格 | 输出价格 | 对标 |
|---|---|---|---|
| MiMo-V2-Flash | $0.09/M | $0.29/M | — |
| MiMo-V2.5 | $0.4/M | $2/M | GPT-4o-mini 级 |
| MiMo-V2.5-Pro | $1/M | $3/M | Claude Sonnet 级 |
限时免费策略:MiMo API 平台目前提供免费额度,开发者可以零成本试用。这是典型的互联网打法——先用免费拉用户,再靠规模摊成本。
生态野心
小米做 AI 不是为了卖 API 赚钱,而是为了:
- 手机端侧部署:15B 激活参数的 MoE 模型,天然适合端侧推理。小米有全球第三的智能手机出货量,MiMo 可以直接跑在下一代小米手机上
- 智能家居中枢:MiMo-VL-Miloco 已经在智能家居场景上做了专门优化——手势识别、家居活动理解,这些都是小米 IoT 生态的刚需
- 汽车智能座舱:小米 SU7 的车载系统需要低延迟、低成本的 AI,MiMo 的 MTP 加速正好满足
- 开源社区护城河:MIT 协议全开源,包括 MTP 权重、推理代码贡献到 SGLang,开发者越用越离不开
简单说:小米卖的不是 Token,是”AI+硬件”的整体体验。Token Plan 的低价不是补贴,而是商业模式——API 便宜→开发者涌入→应用生态丰富→小米硬件更好卖。
五、适用场景
MiMo-V2.5 适合
- 长上下文任务:1M 窗口,代码库分析、长文档问答、法律合同审查
- 多语言编码:SWE-Bench Multilingual 开源第一,跨语言开发首选
- 高并发 API 服务:150 tokens/秒 + MTP 加速,吞吐量是同价位模型的 2-3 倍
- 预算有限的创业团队:价格只有 GPT-5 的 1/5,效果基本追平
MiMo-V2.5 不适合
- 极致推理:AIME/HMMT 上还差 GPT-5 几个点,数学竞赛场景不推荐
- 创意写作:Arena-Hard 创意写作评分相对较弱,文学创作不是它的强项
- 视觉任务:MiMo-V2.5 是纯文本模型,多模态需要等 MiMo-V2-Omni
六、个人评价
小米做 AI 这件事,很多人觉得是”手机厂不务正业”。但仔细看 MiMo 的技术选型,每一步都精准踩在了效率的最优解上:
- MoE + 混合注意力:不是追参数量,而是追推理效率
- MTP:不是投机解码的外挂,而是原生训练集成的加速
- MOPD:不是传统 RLHF 的重复,而是重新定义了蒸馏范式
- 1M 上下文:不是炫技,而是配合代码库/文档场景的刚需
15B 激活参数做到这个水平,意味着小米从一开始就在为端侧部署做准备——手机、汽车、音箱、电视,每一个小米设备都是 MiMo 的推理节点。
Token Plan 的定价不是慈善,是战略。当 API 便宜到开发者不假思索就选 MiMo 时,小米就赢了。
不求最强,但求最值。这很小米。
本文基于 MiMo 官方技术报告和公开资料整理,数据截至 2026 年 4 月。MiMo API 平台:https://platform.xiaomimimo.com