小米 MiMo-V2.5：309B 参数的”性价比之王”，以及 Token Plan 的野心

如果说 2025 年底小米开源 MiMo-V2-Flash 是”试试水”，那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议，而且 API 价格低到令人怀疑标错了小数点。

今天就来拆解这个”手机厂做的最强开源大模型”，以及小米背后的 Token Plan 到底在下一盘什么棋。

一、MiMo-V2.5 是什么

MiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本，基于 MoE（混合专家）架构。

维度	MiMo-V2.5	MiMo-V2.5-Pro
总参数	309B	309B
激活参数	15B	15B
上下文窗口	1M tokens	1M tokens
架构	MoE + 混合注意力	MoE + 混合注意力
开源协议	MIT	MIT
API 价格（输入）	$0.4/M tokens	$1/M tokens
API 价格（输出）	$2/M tokens	$3/M tokens

1M 上下文窗口是目前开源模型中最长的之一，比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。

价格对比：同级别的 GPT-5 输入 $2/M、输出 $10/M；Claude Sonnet 4.5 输入 $3/M、输出 $15/M。MiMo-V2.5 的价格只有它们的 1/5 到 1/7。

二、核心架构创新

混合注意力：5:1 的效率密码

MiMo-V2.5 继承了 V2-Flash 的混合注意力架构——每 5 层滑动窗口注意力（SWA）搭配 1 层全局注意力（GA），窗口大小只有 128 tokens。

这带来什么好处？KV 缓存减少近 6 倍。传统全注意力模型处理 1M 上下文需要巨大的显存开销，MiMo 用 SWA 把存储压缩到可承受范围，再通过可学习的注意力汇偏置（Sink Bias）保证长文本理解不退化。

多 Token 预测（MTP）：3 倍推理加速

MiMo 不是逐字吐出回复，而是每个步骤同时”预测”接下来的 3 个 token，再由主模型验证。这个 MTP 模块只有 0.33B 参数/层，用了 dense FFN + SWA 保持轻量。

实测效果：3 层 MTP 平均接受 2.8-3.6 个 token，实际加速 2.0-2.6 倍。这意味着 MiMo-V2-Flash 可以做到 150 tokens/秒 的推理速度。

MOPD：多教师在线策略蒸馏

这是小米最原创的训练方法——Multi-Teacher On-Policy Distillation（MOPD）。

传统做法是：先用 SFT 教，再用 RL 练。MOPD 换了个思路：让学生模型从自己的策略分布中采样，然后多个领域专家教师给每个 token 级别的密集奖励。

效果惊人：只需要传统 SFT+RL 流程 1/50 的算力，就能达到教师模型的峰值性能。而且 MOPD 天然抗奖励黑客（reward hacking），因为奖励来自师生分布差异而非稀疏的最终结果。

三、Benchmark 表现

MiMo-V2.5 Pro 在推理和编码上已经追平 Kimi K2 Thinking 和 DeepSeek V3.2 Thinking：

基准	MiMo-V2 Flash	Kimi K2 Thinking	DeepSeek V3.2	GPT-5 High
MMLU-Pro	84.9	84.6	85.0	87.5
GPQA Diamond	83.7	84.5	82.4	85.7
AIME 2025	94.1	94.5	93.1	94.6
SWE-Bench Verified	73.4	71.3	73.1	74.9
SWE-Bench Multilingual	71.7	61.1	70.2	55.3

SWE-Bench Multilingual 上 MiMo 排开源第一，71.7% 远超 GPT-5 High 的 55.3%。在多语言编码场景下，这个便宜 5-7 倍的模型比最贵的闭源模型还强。

长上下文方面，MiMo 的混合 SWA 架构在 LongBench V2 上得 60.6，超过 Kimi K2 的 45.1——虽然 Kimi 用了全注意力架构且参数大 3 倍。

四、小米的 Token Plan：不止是模型

“Token Plan”是小米 MiMo API 平台的定价和生态战略。核心理念很简单：用极低价格抢占开发者生态，把 MiMo 变成 AI 时代的”安卓”。

定价策略

模型	输入价格	输出价格	对标
MiMo-V2-Flash	$0.09/M	$0.29/M	—
MiMo-V2.5	$0.4/M	$2/M	GPT-4o-mini 级
MiMo-V2.5-Pro	$1/M	$3/M	Claude Sonnet 级

限时免费策略：MiMo API 平台目前提供免费额度，开发者可以零成本试用。这是典型的互联网打法——先用免费拉用户，再靠规模摊成本。

生态野心

小米做 AI 不是为了卖 API 赚钱，而是为了：

手机端侧部署：15B 激活参数的 MoE 模型，天然适合端侧推理。小米有全球第三的智能手机出货量，MiMo 可以直接跑在下一代小米手机上
智能家居中枢：MiMo-VL-Miloco 已经在智能家居场景上做了专门优化——手势识别、家居活动理解，这些都是小米 IoT 生态的刚需
汽车智能座舱：小米 SU7 的车载系统需要低延迟、低成本的 AI，MiMo 的 MTP 加速正好满足
开源社区护城河：MIT 协议全开源，包括 MTP 权重、推理代码贡献到 SGLang，开发者越用越离不开

简单说：小米卖的不是 Token，是”AI+硬件”的整体体验。Token Plan 的低价不是补贴，而是商业模式——API 便宜→开发者涌入→应用生态丰富→小米硬件更好卖。

五、适用场景

MiMo-V2.5 适合

长上下文任务：1M 窗口，代码库分析、长文档问答、法律合同审查
多语言编码：SWE-Bench Multilingual 开源第一，跨语言开发首选
高并发 API 服务：150 tokens/秒 + MTP 加速，吞吐量是同价位模型的 2-3 倍
预算有限的创业团队：价格只有 GPT-5 的 1/5，效果基本追平

MiMo-V2.5 不适合

极致推理：AIME/HMMT 上还差 GPT-5 几个点，数学竞赛场景不推荐
创意写作：Arena-Hard 创意写作评分相对较弱，文学创作不是它的强项
视觉任务：MiMo-V2.5 是纯文本模型，多模态需要等 MiMo-V2-Omni

六、个人评价

小米做 AI 这件事，很多人觉得是”手机厂不务正业”。但仔细看 MiMo 的技术选型，每一步都精准踩在了效率的最优解上：

MoE + 混合注意力：不是追参数量，而是追推理效率
MTP：不是投机解码的外挂，而是原生训练集成的加速
MOPD：不是传统 RLHF 的重复，而是重新定义了蒸馏范式
1M 上下文：不是炫技，而是配合代码库/文档场景的刚需

15B 激活参数做到这个水平，意味着小米从一开始就在为端侧部署做准备——手机、汽车、音箱、电视，每一个小米设备都是 MiMo 的推理节点。

Token Plan 的定价不是慈善，是战略。当 API 便宜到开发者不假思索就选 MiMo 时，小米就赢了。

不求最强，但求最值。这很小米。

本文基于 MiMo 官方技术报告和公开资料整理，数据截至 2026 年 4 月。MiMo API 平台：https://platform.xiaomimimo.com

小米 MiMo-V2.5：309B 参数的性价比之王，以及 Token Plan 的野心

小米 MiMo-V2.5：309B 参数的”性价比之王”，以及 Token Plan 的野心

一、MiMo-V2.5 是什么

二、核心架构创新

混合注意力：5:1 的效率密码

多 Token 预测（MTP）：3 倍推理加速

MOPD：多教师在线策略蒸馏

三、Benchmark 表现

四、小米的 Token Plan：不止是模型

定价策略

生态野心

五、适用场景

MiMo-V2.5 适合

MiMo-V2.5 不适合

六、个人评价

发表评论取消回复

小米 MiMo-V2.5：309B 参数的”性价比之王”，以及 Token Plan 的野心

一、MiMo-V2.5 是什么

二、核心架构创新

混合注意力：5:1 的效率密码

多 Token 预测（MTP）：3 倍推理加速

MOPD：多教师在线策略蒸馏

三、Benchmark 表现

四、小米的 Token Plan：不止是模型

定价策略

生态野心

五、适用场景

MiMo-V2.5 适合

MiMo-V2.5 不适合

六、个人评价

发表评论 取消回复

发表评论取消回复