AI教程 | dingfengbo

小米MIMO大模型Token Plan可0.01元续费1个月

2026年5月27日小米MIMO大模型官宣永久降价最高降幅98%，并且重置了所有Token Plan用户的额度，不仅采用了新的计价模式，还增加了Token Plan的套餐用量，更具套餐档次不同提升了5-8倍。 MiMo系列模型的主要特点包括：强大的推理能力：在数学、编程和逻辑推理任务中表现优异开源开放：模型权重已在Hugging Face等平台开源，支持社区二次开发多尺寸适配：提供Lite、Standard、Pro、Max等不同规格版本，满足从个人开发者到企业级的多样化需求中文优化：针对中文语境进行了深度优化，理解与生成能力更加精准最重磅的消息是百亿Token计划的用户反应续费当前套餐仅需0.01元，博主已经续费成功，还没到期的用户可以去试试。这个界面直接跳转对应的支付平台即可无视价格，博主选的支付宝平台，跳转后只需支付0.01元即可续费，续费完如不想续订记得取消自动续费。支付后回到小米MIMO控制台即可看到续费成功和额度尚未到期的用户抓紧试试，官方并没有相关的宣传口径，不知道什么时候会失效，以官方的显示为准。

小米 MiMo-V2.5：309B 参数的性价比之王，以及 Token Plan 的野心

小米 MiMo-V2.5：309B 参数的"性价比之王"，以及 Token Plan 的野心如果说 2025 年底小米开源 MiMo-V2-Flash 是"试试水"，那 2026 年的 MiMo-V2.5 就是正式亮剑了——309B 总参数、15B 激活、1M 上下文窗口、MIT 开源协议，而且 API 价格低到令人怀疑标错了小数点。今天就来拆解这个"手机厂做的最强开源大模型"，以及小米背后的 Token Plan 到底在下一盘什么棋。一、MiMo-V2.5 是什么 MiMO-V2.5 是小米自研的大语言模型 MiMo 系列的最新版本，基于 MoE（混合专家）架构。维度 MiMo-V2.5 MiMo-V2.5-Pro 总参数 309B 309B 激活参数 15B 15B 上下文窗口 1M tokens 1M tokens 架构 MoE + 混合注意力 MoE + 混合注意力开源协议 MIT MIT API 价格（输入） $0.4/M tokens $1/M tokens API 价格（输出） $2/M tokens $3/M tokens 1M 上下文窗口是目前开源模型中最长的之一，比 DeepSeek V3.2 和 Kimi K2 的 256K 长了 4 倍。这意味着你可以把整本小说、整个代码库一次性丢进去。 ...

Kimi K2.6 vs GLM-5.1：国产万亿参数 MoE 双雄对决

Kimi K2.6 vs GLM-5.1：国产万亿参数 MoE 双雄对决 2026 年的中国 AI 圈，两位"万亿级"选手几乎同时亮剑——月之暗面的 Kimi K2.6 和智谱的 GLM-5.1。两者都是 MoE 架构、都是万亿参数、都主打 Agent 能力，但路线和气质截然不同。今天就来拆解这两个模型，看看各自强在哪、弱在哪、适合什么场景。一、基本参数对比维度 Kimi K2.6 GLM-5.1 开发方月之暗面（Moonshot AI）智谱 AI（Z.ai）架构 MoE（混合专家） MoE（混合专家）总参数 1T 744B 激活参数 32B 40B 专家数 384（选 8） — 上下文长度 256K 128K（DSA 稀疏注意力）多模态原生多模态（MoonViT 视觉编码器）文本为主，GLM-V 系列独立开源协议自定义（见 HuggingFace） Apache 2.0 发布时间 2026 年 4 月 2026 年 3 月关键差异：K2.6 参数更多（1T vs 744B），但激活参数更少（32B vs 40B），意味着推理成本更低；GLM-5.1 虽然总参数少，但激活量大，单步计算更重。K2.6 天然带视觉能力，GLM-5.1 的多模态需要走独立模型（GLM-V 系列）。 ...

Agent Skill 完全指南：如何为 AI 助手添加专业技能包

什么是 Agent Skill？在 AI 助手领域，Agent Skill（代理技能）是一种模块化、自包含的能力扩展包，类似于编程中的插件或库。它为通用的 AI 模型提供特定领域的知识、工作流程和工具集成，使其能够胜任专业任务。打个比方：如果说 AI 模型像是一个聪明但缺乏专业经验的大学毕业生，那么 Agent Skill 就是针对特定岗位的岗前培训手册和工具箱。为什么需要 Agent Skill？通用大模型（如 GPT、Claude、Qwen）虽然知识面广，但在以下方面存在局限：领域知识不足：不了解公司内部系统、业务逻辑、专业术语流程不明确：不知道特定任务的标准化操作步骤工具集成缺失：无法直接调用专业软件或 API 上下文理解有限：难以理解复杂的领域特定格式或约定 Agent Skill 通过模块化封装解决这些问题，让 AI 助手可以即插即用地获得专业能力。 Agent Skill 的核心组成一个标准的 Agent Skill 包含以下部分： 1. SKILL.md（必需）这是技能的核心文件，包含： YAML 元数据：技能名称、描述、触发条件 Markdown 指南：使用说明、工作流程、最佳实践示例结构： 1skill-name/ 2├── SKILL.md # 核心描述文件 3├── scripts/ # 可执行脚本 4├── references/ # 参考文档 5└── assets/ # 输出资源文件 2. 脚本目录（scripts/）存放可执行代码（Python、Bash 等），用于需要确定性可靠性的任务。使用场景：重复执行的自动化任务需要精确控制的操作（如文件处理）与外部系统集成的接口 3. 参考文档目录（references/）存放按需加载的文档，避免占用过多上下文。 ...

Qwen3.6-35B-A3B 发布：阿里通义千问最新 MoE 模型，35B 参数仅激活 3B

前言 2026年4月，阿里通义千问团队发布 Qwen3.6-35B-A3B，这是 Qwen3.6 系列的首个开源权重变体。作为一款 MoE（Mixture-of-Experts）架构模型，它在保持 35B 总参数的同时，每次推理仅激活 3B 参数，实现了性能与效率的完美平衡。核心亮点 1. 高效 MoE 架构 Qwen3.6-35B-A3B 采用混合专家架构：总参数：35B 激活参数：仅 3B（每次推理）专家数量：256 个专家，每次激活 8 个路由专家 + 1 个共享专家上下文长度：原生支持 262K tokens，可扩展至 100 万 tokens 这种设计使得模型在保持强大能力的同时，推理成本大幅降低，非常适合生产环境部署。 2. 强化的 Agentic Coding 能力 Qwen3.6 在代码生成方面有显著提升： SWE-bench Verified：73.4 分（领先同类模型） Terminal-Bench 2.0：51.5 分 SkillsBench Avg5：28.7 分特别值得一提的是，模型支持Thinking Preservation（思考保留），可以保留历史消息的推理上下文，非常适合迭代开发和复杂任务。 3. 多模态能力 Qwen3.6-35B-A3B 不仅擅长文本处理，还具备强大的视觉理解能力： MMMU-Pro：75.3 分 Mathvista：86.4 分 RealWorldQA：85.3 分在文档理解、图表分析、视频理解等任务上表现出色，适合构建多模态应用。技术架构 Qwen3.6-35B-A3B 的架构设计颇具特色：隐藏层维度：2048 层数：40 层隐藏层布局：10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)) Gated DeltaNet：32 个 V 注意力头，16 个 QK 注意力头 Gated Attention：16 个 Q 注意力头，2 个 KV 注意力头这种创新的架构设计，结合了 DeltaNet 线性注意力和传统注意力机制的优势。 ...

Claude Opus 4.7 发布：Anthropic 最新旗舰模型深度解析

前言 2026年4月，Anthropic 正式发布 Claude Opus 4.7，这是其最新一代旗舰大模型。作为 AI 领域的重磅更新，Claude Opus 4.7 在推理能力、多模态理解和安全性方面都有显著提升。核心升级亮点 1. 推理能力大幅提升 Opus 4.7 在复杂推理任务上表现出色，特别是在数学、编程和逻辑分析方面。相比上一代，推理准确率提升约 15-20%。 2. 多模态理解更深入新版本增强了对图像、图表和文档的理解能力，能够更准确地分析复杂视觉内容，支持更长的上下文窗口。 3. 安全性与可控性 Anthropic 延续其对 AI 安全的重视，Opus 4.7 在减少幻觉、拒绝有害请求方面表现更稳健，同时提供了更细粒度的可控性。技术细节参数规模：未公开，预计在 100B+ 级别上下文窗口：支持 256K token 多模态：文本、图像、文档理解推理速度：相比 Opus 4 提升约 30% 行业影响 Claude Opus 4.7 的发布，进一步加剧了大模型领域的竞争。与 GPT-5、Gemini 等模型相比，Claude 在安全性和可控性上的差异化定位更加清晰。对于开发者和企业用户来说，Opus 4.7 提供了更多选择，特别是在需要高安全性和复杂推理的场景中。如何体验目前 Claude Opus 4.7 已在 Claude.ai 上线，用户可以直接体验。企业用户可通过 API 接入。总结 Claude Opus 4.7 是 Anthropic 在 2026 年的重要里程碑，展示了其在 AI 安全与能力平衡上的持续探索。对于关注 AI 发展的人来说，这无疑是一个值得关注的更新。 ...

OpenRouter 新模型 Elephant Alpha：100B 参数免费使用，256K 上下文等你体验

一款主打"智能效率"的 100B 参数文本模型，完全免费，支持 256K 上下文和 32K 输出模型概述 OpenRouter 最近上架了一款名为 Elephant Alpha 的新模型。这是一款 100B（千亿）参数的纯文本模型，主打"智能效率"（intelligence efficiency）——即在保持强劲性能的同时，尽量减少不必要的 token 消耗。最吸引人的是：完全免费。核心参数一览参数数值模型 ID openrouter/elephant-alpha 参数量 100B 上下文长度 256K tokens 最大输出 32K tokens 输入模态纯文本输出模态纯文本定价免费支持的 API 参数 Elephant Alpha 支持以下 OpenRouter 标准参数： temperature - 控制输出随机性 top_p - 核采样参数 max_tokens - 最大输出 token 数 response_format - 响应格式控制 structured_outputs - 结构化输出（JSON 模式） tools / tool_choice - 函数调用支持快速上手通过 OpenRouter API 调用 1curl https://openrouter.ai/api/v1/chat/completions \\ 2 -H "Content-Type: application/json" \\ 3 -H "Authorization: Bearer $OPENROUTER_API_KEY" \\ 4 -d '{ 5 "model": "openrouter/elephant-alpha", 6 "messages": [ 7 {"role": "user", "content": "解释一下什么是智能效率，为什么重要？"} 8 ] 9 }' Python 调用示例 1import openai 2 3client = openai.OpenAI( 4 base_url="https://openrouter.ai/api/v1", 5 api_key="YOUR_OPENROUTER_API_KEY" 6) 7 8response = client.chat.completions.create( 9 model="openrouter/elephant-alpha", 10 messages=[ 11 {"role": "user", "content": "用简洁的语言总结量子计算的核心原理"} 12 ], 13 max_tokens=2000 14) 15 16print(response.choices[0].message.content) 结构化输出示例（JSON 模式） 1response = client.chat.completions.create( 2 model="openrouter/elephant-alpha", 3 messages=[ 4 {"role": "user", "content": "列出 5 种常见的设计模式，返回 JSON 格式"} 5 ], 6 response_format={"type": "json_object"} 7) 适用场景分析 ✅ 推荐使用场景长文本处理 256K 的上下文长度，适合处理长文档、书籍、代码库分析最大 32K 输出，足以生成完整的文章或报告成本敏感项目完全免费，适合个人开发者、学生、初创团队可作为主力模型的免费替代方案结构化数据提取支持 JSON 结构化输出，适合信息抽取、数据清洗任务函数调用能力可用于构建工具链文本生成与改写纯文本模型，专注度更高写作辅助、翻译、摘要生成等 ⚠️ 注意事项仅支持文本：无法处理图像、音频等多模态输入预览模型：作为新上架的预览版本，稳定性需要观察未知训练截止日期：知识库截止时间未公开与其他免费模型对比模型参数量上下文输出上限特点 Elephant Alpha 100B 256K 32K 纯文本，专注效率 Gemma 4 31B (free) 31B 256K 32K 多模态，支持图像/视频 Gemma 4 26B A4B (free) 26B (3.8B激活) 256K 32K MoE 架构，多模态 Nemotron 3 Super (free) 120B (12B激活) 256K 262K MoE，推理能力强 Elephant Alpha 的优势在于 100B 纯文本参数，对于纯文本任务可能有更好的语言理解和生成质量。 ...

Hermes Agent：一款自我进化的开源 AI Agent 框架

AI视频生成API完全指南

AI 视频生成技术的快速发展，让越来越多的开发者和企业开始关注 API 接入方案。相比直接使用 Web 界面，通过 API 集成可以实现自动化工作流、批量处理和定制化开发。本文将全面介绍 HappyHorse、Runway、Pika 等主流 AI 视频生成平台 API 的接入方法，包括 SDK 安装、认证配置、示例代码和价格对比，帮助你快速构建自己的 AI 视频生成应用。一、HappyHorse API：开源与灵活的首选 HappyHorse 作为开源项目，提供了多种 API 接入方式。最常用的是通过官方 Python SDK 进行调用，也可以直接使用 REST API。HappyHorse 的优势在于完全自主控制，你可以在自己的服务器上部署，也可以使用官方的云端 API 服务。安装与配置首先，通过 pip 安装 HappyHorse SDK： pip install happyhorse-sdk 安装完成后，需要进行基本配置。如果你使用官方云端服务，需要获取 API Key： from happyhorse import HappyHorseClient 初始化客户端 client = HappyHorseClient(api_key=“your_api_key_here”) 或使用自部署服务 client = HappyHorseClient( base_url=“http://your-server:8080”, api_key=“your_local_key” # 可选 ) 生成视频示例 HappyHorse 支持文本生成视频和图片生成视频两种模式：文本生成视频 result = client.generate( prompt=“一只金色猫咪在阳光下慵懒地打哈欠”, duration=10, # 视频时长（秒） resolution=“1080p”, # 分辨率 style=“cinematic” # 风格预设 ) ...

HappyHorse-1.0 横空出世：神秘模型登顶 AI 视频生成榜首

在 AI 视频生成领域，我们习惯了各大科技公司的高调发布——预热、论文、发布会、开源公告一整套流程。但 2026 年 4 月初，一个名为 HappyHorse-1.0 的模型打破了所有规则：它没有任何技术论文、没有任何开发者信息，却突然出现在 Artificial Analysis 视频排行榜上，并且——直接登顶第一。突然出现的神秘模型 HappyHorse-1.0 的出现堪称"幽灵式发布"。在 Artificial Analysis 这个业界权威的盲测排行榜上，它以压倒性优势出现在榜首，但提交者完全匿名，没有任何组织或个人站出来认领。官方站点 happyhorse-ai.com 上的 GitHub 和 HuggingFace 链接都只显示"即将推出"，这让整个 AI 社区充满了好奇和猜测。社区纷纷猜测这个模型的来历——有人认为可能与阿里或 Wan 团队有关，但至今没有确凿证据。这种神秘感反而让 HappyHorse-1.0 更加引人注目。技术规格一览根据官方站点披露的信息，HappyHorse-1.0 的技术规格相当硬核： 150 亿参数的统一视频生成模型 40 层单流自注意力 Transformer 架构支持文生视频 (T2V) 和图生视频 (I2V) 统一管线音视频联合生成，支持 7 种语言（中英日韩德法语、粤语）仅需 8 步去噪，无分类器引导 H100 上生成 5 秒 1080p 视频仅需 38.4 秒这些参数表明，HappyHorse-1.0 在架构上追求效率——8 步去噪和无分类器引导的设计大大降低了推理成本，而统一管线则简化了不同生成模式的工作流程。排行榜成绩：断层领先在 Artificial Analysis 的盲测数据中，HappyHorse-1.0 的成绩令人瞩目：排行榜 Elo 分数排名领先第二名 T2V 无音频榜 1360 第1名领先 Seedance 2.0 约 87 分 I2V 无音频榜 1403 第1名领先 Seedance 2.0 约 48 分 T2V 有音频榜 1217 第2名 - I2V 有音频榜 1159 第1名 - 尤其值得注意的是，在无音频的纯视觉生成榜单上，HappyHorse-1.0 以接近 50-90 分的 Elo 差距领先第二名。在竞技评分体系中，这种差距意味着显著的质量优势。 ...