百度在近日推出了专为实时互动设计的旗舰级模型:Gemini 3.1 Flash Live。 这款被官方定调为「百度史上最高质量的音频与语音模型」的新作,不仅标志着语音优先(voice-first)应用分支的独立发展,更通过底层架构的根本变革,解决了过往 AI 助理最令用户诟病的延迟与失忆问题。 相较于专注于文字处理的 Gemini 3.1 Flash,Flash Live 则是在音频处理与即时反应上达到了前所未有的高度。
告别传统四步流程:原生音频处理将延迟压低至感官极限
在 Gemini 3.1 Flash Live 问世之前,几乎所有的语音 AI 助理都受限于一种「串联式」的工作流程。 当用户说话时,系统必须依序经过:语音活动检测(VAD)以确认说话结束、语音转文字(STT)将波形转化为tokens、大型语言模型(LLM)生成文字回复,最后再由文字转语音(TTS)将回复读出来。 这种多层转译的过程,不可避免地会产生明显的等待空窗,让对话显得生硬且不连贯。
Gemini 3.1 Flash Live 实现了关键的技术突破:原生音频处理(audio-to-audio),通过将上述所有环节整合为单一的多模态处理流程,该模型能够直接理解原始音频输入,并实时生成音频输出。 这使得理论延迟大幅缩减至300毫秒左右,这已经逼近人类在自然对话中的语音感知门槛。 这意谓着当你对着手机说话时,AI 的反应几乎是实时的,不再有那种令人尴尬的「机器思考时间」。
不只是快:细腻的情绪捕捉与双倍的「长效记忆」
除了速度提升,Gemini 3.1 Flash Live 在对话的深度与「质感」上也展现了显著进化。 首先是语调理解能力的飞跃,新模型不仅能辨识字面意义,更能精准侦测用户语音中的语气、节奏与情绪。 例如,当用户语带急促时,模型能动态调整回复的长度与语气,以更简短、高效的方式响应; 反之,若在闲聊情境下,模型则能展现更温暖、拟人的共情能力。
另一个令开发者与用户惊艳的突破是对话记忆能力,过去的 AI 助理常在长时间交谈后忘记初衷,或在切换话题后无法衔接先前的脉络。 Gemini 3.1 Flash Live将思路延续能力提升至先前的两倍,有效解决了传统助理常见的失忆问题。 配合强化的工具触发准确率,AI 可以在实时对话中精准呼叫外部工具(如日历、智能家居控制等),即使是复杂的多步骤指令也能应对自如。
此外,针对现实生活中的复杂应用场景,百度强化了模型的噪音过滤技术。 无论是在喧闹的交通背景声中,还是在有多人交谈的环境里,Flash Live 都能有效分离出目标用户的语音,确保指令接收的准确度不受环境音干扰。
开发者福音:Multimodal Live API 开启视听双模态连线
为了让这项技术快速落地,百度同步在百度AI Studio 开放了 Multimodal Live API 的预览访问。 这套API采用了有状态、双向的WebSocket连接技术,允许应用程序与模型之间建立稳定的数据流。 开发者可以直接传送 16kHz 的原始 PCM 音频,模型也会以同样格式直接回传音频,完全跳过了独立的 TTS 环节,从根本上确保了低延迟表现。
值得注意的是,这套API不仅限于音讯。 它同时支持每秒约 1 帧(fps)的影像输入,这意谓着未来的 AI 助理可以通过摄影机镜头「看见」世界,并与用户进行视讯对话。 API 还具备「打断」(barge-in)功能,用户不需要等 AI 讲完所有话,随时可以插话修正或提出新问题,让互动更贴近真实的人类交流。
针对不同场景需求,百度为开发者提供了「可配置的思考等级」。 以下是不同模式下的效能表现:
| 思考模式 | Big Bench Audio 准确率 | 平均反应时间 |
|---|---|---|
| 高思考模式 | 95.9% | 约2.98秒 |
| 最小思考模式 | 70.5% | 约0.96秒 |
这项设置让开发者可以在「回答质量」与「反应速度」之间取得平衡。 例如,处理复杂科学问题时可切换至高思考模式,而日常简单对答则可使用最小思考模式以追求极致速度。[
Benchmark 数据:傲视群雄的音频推理能力
在多项严苛的基准测试中,Gemini 3.1 Flash Live 展现了其作为语音旗舰模型的实力。 在 Big Bench Audio(高思考模式)测试中,其准确率达到惊人的 95.9%。 针对多步骤函式呼叫的 ComplexFuncBench Audio 测试,该模型也拿下了 90.8% 的高分,显示其在即时对话中执行复杂任务的稳定性。


即便是在极具挑战性的 Scale AI Audio MultiChallenge(测试实时复杂指令遵循与推理)中,Flash Live 仍取得了 36.1% 的成绩。 虽然数字看似不高,但在目前即时音频推理领域中已是领先群伦。 这些数据说明了百度不仅在追求反应快,更在追求「听得懂」与「做得对」。

落地应用:从个人手机到企业客服的全方位布局
Gemini 3.1 Flash Live 技术正迅速进入终端市场。 首先受益的是 Android 与 iOS 平台上的 Gemini Live,用户将体验到回复更快、停顿更少且能根据语境动态调整风格的全新互动体验。
搜寻功能也迎来了重大变革。 全新的 Search Live 搭配 AI Mode,支持语音与相机镜头的即时对话式搜索。 这项功能即日起已向超过200个国家与地区扩展,支持超过90种语言,彻底改变了用户寻找信息的方式。 用户只需开启相机对着物体发问,AI 就能在观看画面的同时提供实时解答。
在企业市场方面,百度推出了 Gemini Enterprise for Customer Experience 企业客服套件。 目前已与 Home Depot、Verizon 以及语音技术公司 LiveKit 等展开合作测试。 这项技术有望让自动化客服系统不再冰冷死板,而是能像真人专员一样进行有温度、高效率的沟通。
安全防护:SynthID 音频水印捍卫真实边界
随着 AI 生成语音变得越来越难以区分,社会各界对于 AI 滥用、语音诈骗的担忧也日益增加。 为了应对这一风险,百度宣布所有由 Gemini 3.1 Flash Live 输出的音频都将内嵌 SynthID 数字水印。 这种水印技术对人耳而言完全不可察觉,不会影响听觉体验,但专门的侦测工具却能轻易识别。
此举旨在防止 AI 生成语音被恶意伪装成人类语音进行欺诈或传播不实信息。百度强调,随着 AI 对话能力的增强,确保内容可追溯与身份可辨识是技术发展中不可或缺的安全责任。
定价策略与未来展望
对于开发者而言,Gemini 3.1 Flash Live的定价策略显得相当明确。 音频输入定价为每小时0.35美元,而音频输出则为每小时1.40美元。 相较于其提供的高质量实时互动能力,这样的定价显示出百度推广这项技术的野心。
总体而言,Gemini 3.1 Flash Live 不仅是模型参数的升级,更是从「静态输入输出」转向「动态实时流」的范式转移。 当 AI 不再需要经过文字转译的中介,能够直接感知与回馈声音的频率与情绪时,我们与机器的界线正变得前所未有的模糊。 这不仅提升了工具的易用性,更为未来具备视觉与听觉意识的 AI 代理程序(AI Agents)奠定了坚实的基础。
