过去我们曾教程过如何在Windows 11 / Windows 10安装Whisper AI模型,虽然这方法算是最推荐的,转档速度不仅最快,有独显的人,还能用显卡来转,速度比 CPU 快很多,但操作上稍微复杂一点,而且是要用命令提示。 如果你想要找更简单使用 Whisper 桌面版的方法,这篇要介绍的 Buzz 就是一个不错选项,基于 OpenAI Whisper 模型的免费开源软件,Windows、Mac 都支持,而且不只是导入视频或音频档,连麦克风实时转换都可以,这点相当不错。

Buzz 基于 OpenAI Whisper 的免费开源语音转文字软件,导入文件、实时转录都支持
- 前往 GitHub 页面下载安装文件:https://github.com/chidiwilliams/buzz/releases/tag/v0.8.4
点击上方链接后,会进到Buzz的软件下载页面,Mac 部分有在App Store 上架(不过需要付费),据说接口更好用,你也可以下载开源软件版,我以 Windows 为例,目前最新版是 v0.8.4:

安装过程没特别需求的话,一直按下一步就好:

安装好后打开,操作界面设计很简单,如果你是要麦克风录音即时录制的话,就点击左上角麦克风图标:

设置你要的模型、麦克风输入来源,Language 部分基本上用预设的 Detect Language 自动侦测就好,侦测准度还蛮高的。 模型部分支持 Whisper、Faster Whisper 和 Hugging Face。 Whisper 部分有 Tiny、Base、Small、Medium、Large 五种:

而导入视频或音频文件有两种方式,一个是按+符号,另一个则是点击 File 菜单中的 Import Media File:

同样设置你要的模型、语言等,输出部分支持 TXT、SRT 或 VTT 三种格式,会自动保存在同文件的文件夹中,没问题就按 RUN:

就快开始处理了,等In Progress跑到100%即完成,根据你的视频或音频长度,所需的转录时间也不太一样:

像我这部 11 多分钟的花了 13 分 14 秒,跟安装在电脑里 Whisper 相比,速度明显慢很多,而且都是用 CPU 转录。 不过它比较不消耗资源,也可能是这原因才导致速度较慢:

点 2 下可以查看转录的文字内容,不过不支持修改。 另外如果你之前只有设置 SRT,突然又想要 TXT,这边也能另存成其他文字格式,按右下角的到三角形图标:

字幕文件可以直接用,不用修改任何东西:

Whisper 模型部分,如果你是要转录中文,那建议用 Large,英文的话是可以选小一点。
之前我们还有介绍另一个 Whisper JAX 在线版,单纯只是想要将声音、视频转成文本文件的话,用这线上工具也可以:
