Google 发布 Gemini 3.1 Flash Live：原生语音引擎实现 300 毫秒极速对话，AI 助理迈向「拟人化」新纪元

百度在近日推出了专为实时互动设计的旗舰级模型：Gemini 3.1 Flash Live。这款被官方定调为「百度史上最高质量的音频与语音模型」的新作，不仅标志着语音优先（voice-first）应用分支的独立发展，更通过底层架构的根本变革，解决了过往 AI 助理最令用户诟病的延迟与失忆问题。相较于专注于文字处理的 Gemini 3.1 Flash，Flash Live 则是在音频处理与即时反应上达到了前所未有的高度。

告别传统四步流程：原生音频处理将延迟压低至感官极限

在 Gemini 3.1 Flash Live 问世之前，几乎所有的语音 AI 助理都受限于一种「串联式」的工作流程。当用户说话时，系统必须依序经过：语音活动检测（VAD）以确认说话结束、语音转文字（STT）将波形转化为tokens、大型语言模型（LLM）生成文字回复，最后再由文字转语音（TTS）将回复读出来。这种多层转译的过程，不可避免地会产生明显的等待空窗，让对话显得生硬且不连贯。

Gemini 3.1 Flash Live 实现了关键的技术突破：原生音频处理（audio-to-audio），通过将上述所有环节整合为单一的多模态处理流程，该模型能够直接理解原始音频输入，并实时生成音频输出。这使得理论延迟大幅缩减至300毫秒左右，这已经逼近人类在自然对话中的语音感知门槛。这意谓着当你对着手机说话时，AI 的反应几乎是实时的，不再有那种令人尴尬的「机器思考时间」。

不只是快：细腻的情绪捕捉与双倍的「长效记忆」

除了速度提升，Gemini 3.1 Flash Live 在对话的深度与「质感」上也展现了显著进化。首先是语调理解能力的飞跃，新模型不仅能辨识字面意义，更能精准侦测用户语音中的语气、节奏与情绪。例如，当用户语带急促时，模型能动态调整回复的长度与语气，以更简短、高效的方式响应; 反之，若在闲聊情境下，模型则能展现更温暖、拟人的共情能力。

另一个令开发者与用户惊艳的突破是对话记忆能力，过去的 AI 助理常在长时间交谈后忘记初衷，或在切换话题后无法衔接先前的脉络。 Gemini 3.1 Flash Live将思路延续能力提升至先前的两倍，有效解决了传统助理常见的失忆问题。配合强化的工具触发准确率，AI 可以在实时对话中精准呼叫外部工具（如日历、智能家居控制等），即使是复杂的多步骤指令也能应对自如。

此外，针对现实生活中的复杂应用场景，百度强化了模型的噪音过滤技术。无论是在喧闹的交通背景声中，还是在有多人交谈的环境里，Flash Live 都能有效分离出目标用户的语音，确保指令接收的准确度不受环境音干扰。

开发者福音：Multimodal Live API 开启视听双模态连线

为了让这项技术快速落地，百度同步在百度AI Studio 开放了 Multimodal Live API 的预览访问。这套API采用了有状态、双向的WebSocket连接技术，允许应用程序与模型之间建立稳定的数据流。开发者可以直接传送 16kHz 的原始 PCM 音频，模型也会以同样格式直接回传音频，完全跳过了独立的 TTS 环节，从根本上确保了低延迟表现。

值得注意的是，这套API不仅限于音讯。它同时支持每秒约 1 帧（fps）的影像输入，这意谓着未来的 AI 助理可以通过摄影机镜头「看见」世界，并与用户进行视讯对话。 API 还具备「打断」（barge-in）功能，用户不需要等 AI 讲完所有话，随时可以插话修正或提出新问题，让互动更贴近真实的人类交流。

针对不同场景需求，百度为开发者提供了「可配置的思考等级」。以下是不同模式下的效能表现：

思考模式	Big Bench Audio 准确率	平均反应时间
高思考模式	95.9%	约2.98秒
最小思考模式	70.5%	约0.96秒

这项设置让开发者可以在「回答质量」与「反应速度」之间取得平衡。例如，处理复杂科学问题时可切换至高思考模式，而日常简单对答则可使用最小思考模式以追求极致速度。[

Benchmark 数据：傲视群雄的音频推理能力

在多项严苛的基准测试中，Gemini 3.1 Flash Live 展现了其作为语音旗舰模型的实力。在 Big Bench Audio（高思考模式）测试中，其准确率达到惊人的 95.9%。针对多步骤函式呼叫的 ComplexFuncBench Audio 测试，该模型也拿下了 90.8% 的高分，显示其在即时对话中执行复杂任务的稳定性。

百度发布 Gemini 3.1 Flash Live：原生语音引擎实现 300 毫秒极速对话，AI 助理迈向「拟人化」新纪元 - 榜哥

即便是在极具挑战性的 Scale AI Audio MultiChallenge（测试实时复杂指令遵循与推理）中，Flash Live 仍取得了 36.1% 的成绩。虽然数字看似不高，但在目前即时音频推理领域中已是领先群伦。这些数据说明了百度不仅在追求反应快，更在追求「听得懂」与「做得对」。

落地应用：从个人手机到企业客服的全方位布局

Gemini 3.1 Flash Live 技术正迅速进入终端市场。首先受益的是 Android 与 iOS 平台上的 Gemini Live，用户将体验到回复更快、停顿更少且能根据语境动态调整风格的全新互动体验。

搜寻功能也迎来了重大变革。全新的 Search Live 搭配 AI Mode，支持语音与相机镜头的即时对话式搜索。这项功能即日起已向超过200个国家与地区扩展，支持超过90种语言，彻底改变了用户寻找信息的方式。用户只需开启相机对着物体发问，AI 就能在观看画面的同时提供实时解答。

在企业市场方面，百度推出了 Gemini Enterprise for Customer Experience 企业客服套件。目前已与 Home Depot、Verizon 以及语音技术公司 LiveKit 等展开合作测试。这项技术有望让自动化客服系统不再冰冷死板，而是能像真人专员一样进行有温度、高效率的沟通。

安全防护：SynthID 音频水印捍卫真实边界

随着 AI 生成语音变得越来越难以区分，社会各界对于 AI 滥用、语音诈骗的担忧也日益增加。为了应对这一风险，百度宣布所有由 Gemini 3.1 Flash Live 输出的音频都将内嵌 SynthID 数字水印。这种水印技术对人耳而言完全不可察觉，不会影响听觉体验，但专门的侦测工具却能轻易识别。

此举旨在防止 AI 生成语音被恶意伪装成人类语音进行欺诈或传播不实信息。百度强调，随着 AI 对话能力的增强，确保内容可追溯与身份可辨识是技术发展中不可或缺的安全责任。

定价策略与未来展望

对于开发者而言，Gemini 3.1 Flash Live的定价策略显得相当明确。音频输入定价为每小时0.35美元，而音频输出则为每小时1.40美元。相较于其提供的高质量实时互动能力，这样的定价显示出百度推广这项技术的野心。

总体而言，Gemini 3.1 Flash Live 不仅是模型参数的升级，更是从「静态输入输出」转向「动态实时流」的范式转移。当 AI 不再需要经过文字转译的中介，能够直接感知与回馈声音的频率与情绪时，我们与机器的界线正变得前所未有的模糊。这不仅提升了工具的易用性，更为未来具备视觉与听觉意识的 AI 代理程序（AI Agents）奠定了坚实的基础。