小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理

在人工智能技术快速迭代的2026年，科技巨头小米于今日凌晨悄然发动了一场重磅攻势，一口气推出了三款自主研发的大型语言模型：MiMo-V2-Pro、MiMo-V2-Omni以及MiMo-V2-TTS，同时正式上线了Xiaomi MiMo Claw智能助理服务。这一系列动作不仅展现了小米在 AI 基座模型领域的深厚技术积累，更标志着其正式进军 AI Agent 应用生态的决心。从旗舰级的基座模型到全模态理解能力，再到高度拟真的语音合成技术，小米正试图构建一个涵盖「理解—推理—表达」全链路的 AI 生态。

小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理

MiMo-V2-Pro：为 Agent 时代打造的旗舰基座模型

Xiaomi MiMo-V2-Pro是小米此次发布的重头戏产品，专为现实世界中高强度的 Agent 工作场景而设计。该模型拥有超过 1T（一兆）的总参数量，采用 42B（四百二十亿）激活参数的混合注意力架构，并支持高达 1M（一百万 tokens）的超长上下文长度。这一规格使其能够从容应对大规模代码库分析、长篇文档处理等复杂任务。

在性能表现方面，MiMo-V2-Pro 在 Artificial Analysis 排行榜上位列全球第八、第二。更值得注意的是，在 OpenClaw、Claude Code 等智能体框架的实测中，该模型能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用，号称整体使用体感已超越 Claude Sonnet 4.6，逼近 Opus 4.6 的水平。

然而，MiMo-V2-Pro 的真正杀手锏在于其极具竞争力的定价策略。相较于Claude Opus 4.6的高昂使用成本，MiMo-V2-Pro的API定价仅为其五分之一。具体而言，256K 上下文以内的输入费用为每百万 tokens 约 NT$ 31.9（USD $1），输出费用约 NT$ 95.7（USD $3）; 而 1M 上下文以内的输入费用约 NT$ 63.8（USD $2），输出费用约 NT$ 191.4（USD $6）。

此外，MiMo-V2-Pro现已全面打通流行的金山WebOffice生态，原生支持Word、Excel、PPT、PDF四大主流文档格式，无缝覆盖超过95%的日常文档类型。 WPS 灵犀也已接入该模型，用户可直接向灵犀 Claw 提问或布置任务。

MiMo-V2-Omni：全模态理解的新标杆

MiMo-V2-Omni 是小米面向 Agent 时代推出的全模态基座模型，专为现实世界中复杂的多模态交互与执行场景而生。该模型可无缝接入各种Agent框架，实现了从理解到操控的跨越，大幅降低了全模态Agent的落地门槛。

在音频理解方面，MiMo-V2-Omni支持从环境声分类、多说话人分离、音频—视觉联合推理，到超过10小时连续长音频的深度理解。其综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一。

图像理解方面，MiMo-V2-Omni展现出强大的多学科视觉推理与复杂图表分析能力，号称超越Claude Opus 4.6，逼近Gemini 3 Pro等顶尖闭源模型水平。而在视频理解方面，该模型支持原生音视频联合输入，实现真正的多模态视频理解，具备强大的情境感知与未来推理能力。

凭借这些能力，MiMo-V2-Omni 能够跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略，最终端到端地交付完整结果。该模型现已开放API服务，支持256K上下文长度，输入费用约NT$ 12.8（USD $0.4）/百万 tokens，输出费用约 NT$ 63.8（USD $2）/百万 tokens。

MiMo-V2-TTS：高度可控的语音合成大模型

Xiaomi MiMo-V2-TTS是小米自主研发的语音合成大模型，基于自研 Audio Tokenizer 和多码本语音—文本联合建模架构。经过上亿小时语音数据的大规模预训练与多维度强化学习，该模型实现了高度可控的多粒度语音风格控制。

MiMo-V2-TTS 的核心优势在于其丰富的多元表达能力。用户可通过自然语言指令设置整体语音基调，同时对句内局部片段进行细粒度的情绪调节，实现同一语句中语气转折与情感递变的自然过渡。该模型支持多种方言的自然发音，包括东北话、四川话、河南话、粤语等，可进行角色扮演式的风格化演绎，更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

MiMo Claw 智能助理：一键部署的 AI 助手

与三款大模型同步推出的，还有 Xiaomi MiMo Claw 智能助理服务。用户可通过 MiMo Studio 官网免费体验这一「龙虾」助理，每次体验时长为 30 分钟。据官方介绍，Xiaomi MiMo Claw 可帮助用户完成文档生成、新闻获取、内容创作、开发提效、数据分析等多种任务。该工具采用常规的对话形式，自带文件系统，用户可实现网站的图片、新闻抓取，并存储在文件中。退出体验后，相关数据将被销毁，保障用户隐私。

MiMo Claw 的核心亮点包括：搭载 MiMo-V2-Pro 最新旗舰基座模型及 MiMo-V2-Flash-Omni 多模态理解模型; 一键部署OpenClaw，零成本体验; 内置多样技能，轻松完成复杂任务; 集成金山 WebOffice 在线文档预览，支持 Word、Excel、PPT、PDF 四大主流格式，目前不知道是否会推出国际版。

观点

小米此次一口气推出三款大模型并上线MiMo Claw智能助理，展现了其在AI领域的雄心与实力。从技术层面看，MiMo-V2系列在多个基准测试中已达到或逼近国际顶尖水平，特别是在Agent场景的优化上，小米选择了一条与OpenClaw、Claude Code等框架深度整合的路径，这一策略有助于快速建立开发者生态。

更值得关注的是其定价策略。在当前大型语言模型API价格普遍高昂的背景下，MiMo-V2-Pro以仅为Claude Opus 4.6五分之一的价格提供接近的性能，这一「高性价比」路线与小米过往在硬件领域的策略一脉相承。然而，价格优势能否转化为市场份额，还需看其在实际应用中的稳定性与开发者体验。

总体而言，小米的这一系列动作标志着正式加入 AI 基座模型的竞争行列。在这场技术与生态的双重较量中，小米能否凭借「高性价比 + 本土生态整合」的策略脱颖而出，值得持续关注。