小米 MiMo-V2.5:309B 参数的"性价比之王",以及 Token Plan 的野心\n如果说 2025 年底小米开源 MiMo-V2-Flash 是"试试水",那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议,而且 API 价格低到令人怀疑标错了小数点。
\n今天就来拆解这个"手机厂做的最强开源大模型",以及小米背后的 Token Plan 到底在下一盘什么棋。
\n
\n## 一、MiMo-V2.5 是什么\nMiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本,基于 MoE(混合专家)架构。
\n\n\n\n维度\nMiMo-V2.5\nMiMo-V2.5-Pro\n\n\n\n\n总参数\n309B\n309B\n\n\n激活参数\n15B\n15B\n\n\n上下文窗口\n1M tokens\n1M tokens\n\n\n架构\nMoE + 混合注意力\nMoE + 混合注意力\n\n\n开源协议\nMIT\nMIT\n\n\nAPI 价格(输入)\n$0.4/M tokens\n$1/M tokens\n\n\nAPI 价格(输出)\n$2/M tokens\n$3/M tokens\n\n\n\n1M 上下文窗口是目前开源模型中最长的之一,比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。
\n价格对比:同级别的 GPT-5 输入 $2/M、输出 $10/M;Claude Sonnet 4.5 输入 $3/M、输出 $15/M。MiMo-V2.5 的价格只有它们的 1/5 到 1/7。
\n
\n## 二、核心架构创新\n### 混合注意力:5:1 的效率密码\nMiMo-V2.5 继承了 V2-Flash 的混合注意力架构——每 5 层滑动窗口注意力(SWA)搭配 1 层全局注意力(GA),窗口大小只有 128 tokens。
\n这带来什么好处?KV 缓存减少近 6 倍。传统全注意力模型处理 1M 上下文需要巨大的显存开销,MiMo 用 SWA 把存储压缩到可承受范围,再通过可学习的注意力汇偏置(Sink Bias)保证长文本理解不退化。
\n### 多 Token 预测(MTP):3 倍推理加速\nMiMo 不是逐字吐出回复,而是每个步骤同时"预测"接下来的 3 个 token,再由主模型验证。这个 MTP 模块只有 0.33B 参数/层,用了 dense FFN + SWA 保持轻量。
\n实测效果:3 层 MTP 平均接受 2.8-3.6 个 token,实际加速 2.0-2.6 倍。这意味着 MiMo-V2-Flash 可以做到 150 tokens/秒 的推理速度。
\n### MOPD:多教师在线策略蒸馏\n这是小米最原创的训练方法——Multi-Teacher On-Policy Distillation(MOPD)。
\n传统做法是:先用 SFT 教,再用 RL 练。MOPD 换了个思路:让学生模型从自己的策略分布中采样,然后多个领域专家教师给每个 token 级别的密集奖励。
\n效果惊人:只需要传统 SFT+RL 流程 1/50 的算力,就能达到教师模型的峰值性能。而且 MOPD 天然抗奖励黑客(reward hacking),因为奖励来自师生分布差异而非稀疏的最终结果。
\n
\n## 三、Benchmark 表现\nMiMo-V2.5 Pro 在推理和编码上已经追平 Kimi K2 Thinking 和 DeepSeek V3.2 Thinking:
\n\n\n\n基准\nMiMo-V2 Flash\nKimi K2 Thinking\nDeepSeek V3.2\nGPT-5 High\n\n\n\n\nMMLU-Pro\n84.9\n84.6\n85.0\n87.5\n\n\nGPQA Diamond\n83.7\n84.5\n82.4\n85.7\n\n\nAIME 2025\n94.1\n94.5\n93.1\n94.6\n\n\nSWE-Bench Verified\n73.4\n71.3\n73.1\n74.9\n\n\nSWE-Bench Multilingual\n71.7\n61.1\n70.2\n55.3\n\n\n\nSWE-Bench Multilingual 上 MiMo 排开源第一,71.7% 远超 GPT-5 High 的 55.3%。在多语言编码场景下,这个便宜 5-7 倍的模型比最贵的闭源模型还强。
\n长上下文方面,MiMo 的混合 SWA 架构在 LongBench V2 上得 60.6,超过 Kimi K2 的 45.1——虽然 Kimi 用了全注意力架构且参数大 3 倍。
\n
\n## 四、小米的 Token Plan:不止是模型\n"Token Plan"是小米 MiMo API 平台的定价和生态战略。核心理念很简单:用极低价格抢占开发者生态,把 MiMo 变成 AI 时代的"安卓"。
\n### 定价策略\n\n\n\n模型\n输入价格\n输出价格\n对标\n\n\n\n\nMiMo-V2-Flash\n$0.09/M\n$0.29/M\n—\n\n\nMiMo-V2.5\n$0.4/M\n$2/M\nGPT-4o-mini 级\n\n\nMiMo-V2.5-Pro\n$1/M\n$3/M\nClaude Sonnet 级\n\n\n\n限时免费策略:MiMo API 平台目前提供免费额度,开发者可以零成本试用。这是典型的互联网打法——先用免费拉用户,再靠规模摊成本。
\n### 生态野心\n小米做 AI 不是为了卖 API 赚钱,而是为了:
\n\n- 手机端侧部署:15B 激活参数的 MoE 模型,天然适合端侧推理。小米有全球第三的智能手机出货量,MiMo 可以直接跑在下一代小米手机上\n- 智能家居中枢:MiMo-VL-Miloco 已经在智能家居场景上做了专门优化——手势识别、家居活动理解,这些都是小米 IoT 生态的刚需\n- 汽车智能座舱:小米 SU7 的车载系统需要低延迟、低成本的 AI,MiMo 的 MTP 加速正好满足\n- 开源社区护城河:MIT 协议全开源,包括 MTP 权重、推理代码贡献到 SGLang,开发者越用越离不开\n\n简单说:小米卖的不是 Token,是"AI+硬件"的整体体验。Token Plan 的低价不是补贴,而是商业模式——API 便宜→开发者涌入→应用生态丰富→小米硬件更好卖。
\n
\n## 五、适用场景\n### MiMo-V2.5 适合\n\n- 长上下文任务:1M 窗口,代码库分析、长文档问答、法律合同审查\n- 多语言编码:SWE-Bench Multilingual 开源第一,跨语言开发首选\n- 高并发 API 服务:150 tokens/秒 + MTP 加速,吞吐量是同价位模型的 2-3 倍\n- 预算有限的创业团队:价格只有 GPT-5 的 1/5,效果基本追平\n\n### MiMo-V2.5 不适合\n\n- 极致推理:AIME/HMMT 上还差 GPT-5 几个点,数学竞赛场景不推荐\n- 创意写作:Arena-Hard 创意写作评分相对较弱,文学创作不是它的强项\n- 视觉任务:MiMo-V2.5 是纯文本模型,多模态需要等 MiMo-V2-Omni\n\n
\n## 六、个人评价\n小米做 AI 这件事,很多人觉得是"手机厂不务正业"。但仔细看 MiMo 的技术选型,每一步都精准踩在了效率的最优解上:
\n\n- MoE + 混合注意力:不是追参数量,而是追推理效率\n- MTP:不是投机解码的外挂,而是原生训练集成的加速\n- MOPD:不是传统 RLHF 的重复,而是重新定义了蒸馏范式\n- 1M 上下文:不是炫技,而是配合代码库/文档场景的刚需\n\n15B 激活参数做到这个水平,意味着小米从一开始就在为端侧部署做准备——手机、汽车、音箱、电视,每一个小米设备都是 MiMo 的推理节点。
\nToken Plan 的定价不是慈善,是战略。当 API 便宜到开发者不假思索就选 MiMo 时,小米就赢了。
\n\n不求最强,但求最值。这很小米。
\n\n
\n本文基于 MiMo 官方技术报告和公开资料整理,数据截至 2026 年 4 月。MiMo API 平台:https://platform.xiaomimimo.com