小米 MiMo-V2.5：309B 参数的"性价比之王"，以及 Token Plan 的野心\n如果说 2025 年底小米开源 MiMo-V2-Flash 是"试试水"，那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议，而且 API 价格低到令人怀疑标错了小数点。

\n今天就来拆解这个"手机厂做的最强开源大模型"，以及小米背后的 Token Plan 到底在下一盘什么棋。

\n

\n## 一、MiMo-V2.5 是什么\nMiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本，基于 MoE（混合专家）架构。

\n\n\n\n维度\nMiMo-V2.5\nMiMo-V2.5-Pro\n\n\n\n\n总参数\n309B\n309B\n\n\n激活参数\n15B\n15B\n\n\n上下文窗口\n1M tokens\n1M tokens\n\n\n架构\nMoE + 混合注意力\nMoE + 混合注意力\n\n\n开源协议\nMIT\nMIT\n\n\nAPI 价格（输入）\n$0.4/M tokens\n$1/M tokens\n\n\nAPI 价格（输出）\n$2/M tokens\n$3/M tokens\n\n\n\n1M 上下文窗口是目前开源模型中最长的之一，比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。

\n价格对比：同级别的 GPT-5 输入 $2/M、输出 $10/M；Claude Sonnet 4.5 输入 $3/M、输出 $15/M。MiMo-V2.5 的价格只有它们的 1/5 到 1/7。

\n

\n## 二、核心架构创新\n### 混合注意力：5:1 的效率密码\nMiMo-V2.5 继承了 V2-Flash 的混合注意力架构——每 5 层滑动窗口注意力（SWA）搭配 1 层全局注意力（GA），窗口大小只有 128 tokens。

\n这带来什么好处？KV 缓存减少近 6 倍。传统全注意力模型处理 1M 上下文需要巨大的显存开销，MiMo 用 SWA 把存储压缩到可承受范围，再通过可学习的注意力汇偏置（Sink Bias）保证长文本理解不退化。

\n### 多 Token 预测（MTP）：3 倍推理加速\nMiMo 不是逐字吐出回复，而是每个步骤同时"预测"接下来的 3 个 token，再由主模型验证。这个 MTP 模块只有 0.33B 参数/层，用了 dense FFN + SWA 保持轻量。

\n实测效果：3 层 MTP 平均接受 2.8-3.6 个 token，实际加速 2.0-2.6 倍。这意味着 MiMo-V2-Flash 可以做到 150 tokens/秒 的推理速度。

\n### MOPD：多教师在线策略蒸馏\n这是小米最原创的训练方法——Multi-Teacher On-Policy Distillation（MOPD）。

\n传统做法是：先用 SFT 教，再用 RL 练。MOPD 换了个思路：让学生模型从自己的策略分布中采样，然后多个领域专家教师给每个 token 级别的密集奖励。

\n效果惊人：只需要传统 SFT+RL 流程 1/50 的算力，就能达到教师模型的峰值性能。而且 MOPD 天然抗奖励黑客（reward hacking），因为奖励来自师生分布差异而非稀疏的最终结果。

\n

\n## 三、Benchmark 表现\nMiMo-V2.5 Pro 在推理和编码上已经追平 Kimi K2 Thinking 和 DeepSeek V3.2 Thinking：

\n\n\n\n基准\nMiMo-V2 Flash\nKimi K2 Thinking\nDeepSeek V3.2\nGPT-5 High\n\n\n\n\nMMLU-Pro\n84.9\n84.6\n85.0\n87.5\n\n\nGPQA Diamond\n83.7\n84.5\n82.4\n85.7\n\n\nAIME 2025\n94.1\n94.5\n93.1\n94.6\n\n\nSWE-Bench Verified\n73.4\n71.3\n73.1\n74.9\n\n\nSWE-Bench Multilingual\n71.7\n61.1\n70.2\n55.3\n\n\n\nSWE-Bench Multilingual 上 MiMo 排开源第一，71.7% 远超 GPT-5 High 的 55.3%。在多语言编码场景下，这个便宜 5-7 倍的模型比最贵的闭源模型还强。

\n长上下文方面，MiMo 的混合 SWA 架构在 LongBench V2 上得 60.6，超过 Kimi K2 的 45.1——虽然 Kimi 用了全注意力架构且参数大 3 倍。

\n

\n## 四、小米的 Token Plan：不止是模型\n"Token Plan"是小米 MiMo API 平台的定价和生态战略。核心理念很简单：用极低价格抢占开发者生态，把 MiMo 变成 AI 时代的"安卓"。

\n### 定价策略\n\n\n\n模型\n输入价格\n输出价格\n对标\n\n\n\n\nMiMo-V2-Flash\n$0.09/M\n$0.29/M\n—\n\n\nMiMo-V2.5\n$0.4/M\n$2/M\nGPT-4o-mini 级\n\n\nMiMo-V2.5-Pro\n$1/M\n$3/M\nClaude Sonnet 级\n\n\n\n限时免费策略：MiMo API 平台目前提供免费额度，开发者可以零成本试用。这是典型的互联网打法——先用免费拉用户，再靠规模摊成本。

\n### 生态野心\n小米做 AI 不是为了卖 API 赚钱，而是为了：

\n\n- 手机端侧部署：15B 激活参数的 MoE 模型，天然适合端侧推理。小米有全球第三的智能手机出货量，MiMo 可以直接跑在下一代小米手机上\n- 智能家居中枢：MiMo-VL-Miloco 已经在智能家居场景上做了专门优化——手势识别、家居活动理解，这些都是小米 IoT 生态的刚需\n- 汽车智能座舱：小米 SU7 的车载系统需要低延迟、低成本的 AI，MiMo 的 MTP 加速正好满足\n- 开源社区护城河：MIT 协议全开源，包括 MTP 权重、推理代码贡献到 SGLang，开发者越用越离不开\n\n简单说：小米卖的不是 Token，是"AI+硬件"的整体体验。Token Plan 的低价不是补贴，而是商业模式——API 便宜→开发者涌入→应用生态丰富→小米硬件更好卖。

\n

\n## 五、适用场景\n### MiMo-V2.5 适合\n\n- 长上下文任务：1M 窗口，代码库分析、长文档问答、法律合同审查\n- 多语言编码：SWE-Bench Multilingual 开源第一，跨语言开发首选\n- 高并发 API 服务：150 tokens/秒 + MTP 加速，吞吐量是同价位模型的 2-3 倍\n- 预算有限的创业团队：价格只有 GPT-5 的 1/5，效果基本追平\n\n### MiMo-V2.5 不适合\n\n- 极致推理：AIME/HMMT 上还差 GPT-5 几个点，数学竞赛场景不推荐\n- 创意写作：Arena-Hard 创意写作评分相对较弱，文学创作不是它的强项\n- 视觉任务：MiMo-V2.5 是纯文本模型，多模态需要等 MiMo-V2-Omni\n\n

\n## 六、个人评价\n小米做 AI 这件事，很多人觉得是"手机厂不务正业"。但仔细看 MiMo 的技术选型，每一步都精准踩在了效率的最优解上：

\n\n- MoE + 混合注意力：不是追参数量，而是追推理效率\n- MTP：不是投机解码的外挂，而是原生训练集成的加速\n- MOPD：不是传统 RLHF 的重复，而是重新定义了蒸馏范式\n- 1M 上下文：不是炫技，而是配合代码库/文档场景的刚需\n\n15B 激活参数做到这个水平，意味着小米从一开始就在为端侧部署做准备——手机、汽车、音箱、电视，每一个小米设备都是 MiMo 的推理节点。

\nToken Plan 的定价不是慈善，是战略。当 API 便宜到开发者不假思索就选 MiMo 时，小米就赢了。

\n\n不求最强，但求最值。这很小米。

\n\n

\n本文基于 MiMo 官方技术报告和公开资料整理，数据截至 2026 年 4 月。MiMo API 平台：https://platform.xiaomimimo.com