小米 MiMo-V2.5:309B 参数的性价比之王,以及 Token Plan 的野心

小米 MiMo-V2.5:309B 参数的”性价比之王”,以及 Token Plan 的野心

如果说 2025 年底小米开源 MiMo-V2-Flash 是”试试水”,那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议,而且 API 价格低到令人怀疑标错了小数点。

今天就来拆解这个”手机厂做的最强开源大模型”,以及小米背后的 Token Plan 到底在下一盘什么棋。


一、MiMo-V2.5 是什么

MiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本,基于 MoE(混合专家)架构。

维度 MiMo-V2.5 MiMo-V2.5-Pro
总参数 309B 309B
激活参数 15B 15B
上下文窗口 1M tokens 1M tokens
架构 MoE + 混合注意力 MoE + 混合注意力
开源协议 MIT MIT
API 价格(输入) $0.4/M tokens $1/M tokens
API 价格(输出) $2/M tokens $3/M tokens

1M 上下文窗口是目前开源模型中最长的之一,比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。

价格对比:同级别的 GPT-5 输入 $2/M、输出 $10/M;Claude Sonnet 4.5 输入 $3/M、输出 $15/M。MiMo-V2.5 的价格只有它们的 1/5 到 1/7。


二、核心架构创新

混合注意力:5:1 的效率密码

MiMo-V2.5 继承了 V2-Flash 的混合注意力架构——每 5 层滑动窗口注意力(SWA)搭配 1 层全局注意力(GA),窗口大小只有 128 tokens。

这带来什么好处?KV 缓存减少近 6 倍。传统全注意力模型处理 1M 上下文需要巨大的显存开销,MiMo 用 SWA 把存储压缩到可承受范围,再通过可学习的注意力汇偏置(Sink Bias)保证长文本理解不退化。

多 Token 预测(MTP):3 倍推理加速

MiMo 不是逐字吐出回复,而是每个步骤同时”预测”接下来的 3 个 token,再由主模型验证。这个 MTP 模块只有 0.33B 参数/层,用了 dense FFN + SWA 保持轻量。

实测效果:3 层 MTP 平均接受 2.8-3.6 个 token,实际加速 2.0-2.6 倍。这意味着 MiMo-V2-Flash 可以做到 150 tokens/秒 的推理速度。

MOPD:多教师在线策略蒸馏

这是小米最原创的训练方法——Multi-Teacher On-Policy Distillation(MOPD)

传统做法是:先用 SFT 教,再用 RL 练。MOPD 换了个思路:让学生模型从自己的策略分布中采样,然后多个领域专家教师给每个 token 级别的密集奖励。

效果惊人:只需要传统 SFT+RL 流程 1/50 的算力,就能达到教师模型的峰值性能。而且 MOPD 天然抗奖励黑客(reward hacking),因为奖励来自师生分布差异而非稀疏的最终结果。


三、Benchmark 表现

MiMo-V2.5 Pro 在推理和编码上已经追平 Kimi K2 Thinking 和 DeepSeek V3.2 Thinking:

基准 MiMo-V2 Flash Kimi K2 Thinking DeepSeek V3.2 GPT-5 High
MMLU-Pro 84.9 84.6 85.0 87.5
GPQA Diamond 83.7 84.5 82.4 85.7
AIME 2025 94.1 94.5 93.1 94.6
SWE-Bench Verified 73.4 71.3 73.1 74.9
SWE-Bench Multilingual 71.7 61.1 70.2 55.3

SWE-Bench Multilingual 上 MiMo 排开源第一,71.7% 远超 GPT-5 High 的 55.3%。在多语言编码场景下,这个便宜 5-7 倍的模型比最贵的闭源模型还强。

长上下文方面,MiMo 的混合 SWA 架构在 LongBench V2 上得 60.6,超过 Kimi K2 的 45.1——虽然 Kimi 用了全注意力架构且参数大 3 倍。


四、小米的 Token Plan:不止是模型

“Token Plan”是小米 MiMo API 平台的定价和生态战略。核心理念很简单:用极低价格抢占开发者生态,把 MiMo 变成 AI 时代的”安卓”

定价策略

模型 输入价格 输出价格 对标
MiMo-V2-Flash $0.09/M $0.29/M
MiMo-V2.5 $0.4/M $2/M GPT-4o-mini 级
MiMo-V2.5-Pro $1/M $3/M Claude Sonnet 级

限时免费策略:MiMo API 平台目前提供免费额度,开发者可以零成本试用。这是典型的互联网打法——先用免费拉用户,再靠规模摊成本。

生态野心

小米做 AI 不是为了卖 API 赚钱,而是为了:

  1. 手机端侧部署:15B 激活参数的 MoE 模型,天然适合端侧推理。小米有全球第三的智能手机出货量,MiMo 可以直接跑在下一代小米手机上
  2. 智能家居中枢:MiMo-VL-Miloco 已经在智能家居场景上做了专门优化——手势识别、家居活动理解,这些都是小米 IoT 生态的刚需
  3. 汽车智能座舱:小米 SU7 的车载系统需要低延迟、低成本的 AI,MiMo 的 MTP 加速正好满足
  4. 开源社区护城河:MIT 协议全开源,包括 MTP 权重、推理代码贡献到 SGLang,开发者越用越离不开

简单说:小米卖的不是 Token,是”AI+硬件”的整体体验。Token Plan 的低价不是补贴,而是商业模式——API 便宜→开发者涌入→应用生态丰富→小米硬件更好卖。


五、适用场景

MiMo-V2.5 适合

  • 长上下文任务:1M 窗口,代码库分析、长文档问答、法律合同审查
  • 多语言编码:SWE-Bench Multilingual 开源第一,跨语言开发首选
  • 高并发 API 服务:150 tokens/秒 + MTP 加速,吞吐量是同价位模型的 2-3 倍
  • 预算有限的创业团队:价格只有 GPT-5 的 1/5,效果基本追平

MiMo-V2.5 不适合

  • 极致推理:AIME/HMMT 上还差 GPT-5 几个点,数学竞赛场景不推荐
  • 创意写作:Arena-Hard 创意写作评分相对较弱,文学创作不是它的强项
  • 视觉任务:MiMo-V2.5 是纯文本模型,多模态需要等 MiMo-V2-Omni

六、个人评价

小米做 AI 这件事,很多人觉得是”手机厂不务正业”。但仔细看 MiMo 的技术选型,每一步都精准踩在了效率的最优解上:

  • MoE + 混合注意力:不是追参数量,而是追推理效率
  • MTP:不是投机解码的外挂,而是原生训练集成的加速
  • MOPD:不是传统 RLHF 的重复,而是重新定义了蒸馏范式
  • 1M 上下文:不是炫技,而是配合代码库/文档场景的刚需

15B 激活参数做到这个水平,意味着小米从一开始就在为端侧部署做准备——手机、汽车、音箱、电视,每一个小米设备都是 MiMo 的推理节点。

Token Plan 的定价不是慈善,是战略。当 API 便宜到开发者不假思索就选 MiMo 时,小米就赢了。

不求最强,但求最值。这很小米。


本文基于 MiMo 官方技术报告和公开资料整理,数据截至 2026 年 4 月。MiMo API 平台:https://platform.xiaomimimo.com

发表评论