小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理

在人工智能技术快速迭代的2026年,科技巨头小米于今日凌晨悄然发动了一场重磅攻势,一口气推出了三款自主研发的大型语言模型:MiMo-V2-Pro、MiMo-V2-Omni以及MiMo-V2-TTS,同时正式上线了Xiaomi MiMo Claw智能助理服务。 这一系列动作不仅展现了小米在 AI 基座模型领域的深厚技术积累,更标志着其正式进军 AI Agent 应用生态的决心。 从旗舰级的基座模型到全模态理解能力,再到高度拟真的语音合成技术,小米正试图构建一个涵盖「理解—推理—表达」全链路的 AI 生态。

小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理

MiMo-V2-Pro:为 Agent 时代打造的旗舰基座模型

Xiaomi MiMo-V2-Pro是小米此次发布的重头戏产品,专为现实世界中高强度的 Agent 工作场景而设计。 该模型拥有超过 1T(一兆)的总参数量,采用 42B(四百二十亿)激活参数的混合注意力架构,并支持高达 1M(一百万 tokens)的超长上下文长度。 这一规格使其能够从容应对大规模代码库分析、长篇文档处理等复杂任务。

在性能表现方面,MiMo-V2-Pro 在 Artificial Analysis 排行榜上位列全球第八、第二。 更值得注意的是,在 OpenClaw、Claude Code 等智能体框架的实测中,该模型能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用,号称整体使用体感已超越 Claude Sonnet 4.6,逼近 Opus 4.6 的水平。

小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理 -榜哥

然而,MiMo-V2-Pro 的真正杀手锏在于其极具竞争力的定价策略。 相较于Claude Opus 4.6的高昂使用成本,MiMo-V2-Pro的API定价仅为其五分之一。 具体而言,256K 上下文以内的输入费用为每百万 tokens 约 NT$ 31.9(USD $1),输出费用约 NT$ 95.7(USD $3); 而 1M 上下文以内的输入费用约 NT$ 63.8(USD $2),输出费用约 NT$ 191.4(USD $6)。

此外,MiMo-V2-Pro现已全面打通流行的金山WebOffice生态,原生支持Word、Excel、PPT、PDF四大主流文档格式,无缝覆盖超过95%的日常文档类型。 WPS 灵犀也已接入该模型,用户可直接向灵犀 Claw 提问或布置任务。

MiMo-V2-Omni:全模态理解的新标杆

MiMo-V2-Omni 是小米面向 Agent 时代推出的全模态基座模型,专为现实世界中复杂的多模态交互与执行场景而生。 该模型可无缝接入各种Agent框架,实现了从理解到操控的跨越,大幅降低了全模态Agent的落地门槛。

在音频理解方面,MiMo-V2-Omni支持从环境声分类、多说话人分离、音频—视觉联合推理,到超过10小时连续长音频的深度理解。 其综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。

图像理解方面,MiMo-V2-Omni展现出强大的多学科视觉推理与复杂图表分析能力,号称超越Claude Opus 4.6,逼近Gemini 3 Pro等顶尖闭源模型水平。 而在视频理解方面,该模型支持原生音视频联合输入,实现真正的多模态视频理解,具备强大的情境感知与未来推理能力。

小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理 -榜哥

凭借这些能力,MiMo-V2-Omni 能够跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略,最终端到端地交付完整结果。 该模型现已开放API服务,支持256K上下文长度,输入费用约NT$ 12.8(USD $0.4)/百万 tokens,输出费用约 NT$ 63.8(USD $2)/百万 tokens。

MiMo-V2-TTS:高度可控的语音合成大模型

Xiaomi MiMo-V2-TTS是小米自主研发的语音合成大模型,基于自研 Audio Tokenizer 和多码本语音—文本联合建模架构。 经过上亿小时语音数据的大规模预训练与多维度强化学习,该模型实现了高度可控的多粒度语音风格控制。

MiMo-V2-TTS 的核心优势在于其丰富的多元表达能力。 用户可通过自然语言指令设置整体语音基调,同时对句内局部片段进行细粒度的情绪调节,实现同一语句中语气转折与情感递变的自然过渡。 该模型支持多种方言的自然发音,包括东北话、四川话、河南话、粤语等,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

MiMo Claw 智能助理:一键部署的 AI 助手

与三款大模型同步推出的,还有 Xiaomi MiMo Claw 智能助理服务。 用户可通过 MiMo Studio 官网免费体验这一「龙虾」助理,每次体验时长为 30 分钟。 据官方介绍,Xiaomi MiMo Claw 可帮助用户完成文档生成、新闻获取、内容创作、开发提效、数据分析等多种任务。 该工具采用常规的对话形式,自带文件系统,用户可实现网站的图片、新闻抓取,并存储在文件中。 退出体验后,相关数据将被销毁,保障用户隐私。

小米发表三大自研MiMo-V2系列模型并推出MiMo Claw智能助理 -榜哥

MiMo Claw 的核心亮点包括:搭载 MiMo-V2-Pro 最新旗舰基座模型及 MiMo-V2-Flash-Omni 多模态理解模型; 一键部署OpenClaw,零成本体验; 内置多样技能,轻松完成复杂任务; 集成金山 WebOffice 在线文档预览,支持 Word、Excel、PPT、PDF 四大主流格式,目前不知道是否会推出国际版。

观点

小米此次一口气推出三款大模型并上线MiMo Claw智能助理,展现了其在AI领域的雄心与实力。 从技术层面看,MiMo-V2系列在多个基准测试中已达到或逼近国际顶尖水平,特别是在Agent场景的优化上,小米选择了一条与OpenClaw、Claude Code等框架深度整合的路径,这一策略有助于快速建立开发者生态。

更值得关注的是其定价策略。 在当前大型语言模型API价格普遍高昂的背景下,MiMo-V2-Pro以仅为Claude Opus 4.6五分之一的价格提供接近的性能,这一「高性价比」路线与小米过往在硬件领域的策略一脉相承。 然而,价格优势能否转化为市场份额,还需看其在实际应用中的稳定性与开发者体验。

总体而言,小米的这一系列动作标志着正式加入 AI 基座模型的竞争行列。 在这场技术与生态的双重较量中,小米能否凭借「高性价比 + 本土生态整合」的策略脱颖而出,值得持续关注。

(0)
摩榜哥摩榜哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注