6.4%。

这是 Google Chirp 3 在识别一段 TSMC 半导体技术解说影片时的字符错误率。同一段音档丢给 Groq Whisper,错误率是 36.5%。一个几乎逐字正确,另一个每三个字就错一个。

这不是什么精心设计的实验室条件。就是 YouTube 上随便找的日文解说影片,前三分钟,切下来跑两个引擎。结果的差距,大到让我重新思考一件事:我们对「免费 AI 工具」的信任,到底建立在什么基础上?

为什么我要做这个测试

我最近在做一个即时会议翻译工具——算是成为超级个体实践的延伸,一个人用 AI 完成本来需要一个团队的事。技术上不复杂——麦克风收音、语音识别、即时翻译、字幕显示。但实际用在日文商务会议上,会有一个致命的问题:识别结果会干扰理解。

「取引先」变成乱码,「発注書」被吃掉一半,「ご指導のほど」被听成完全不相干的词。这些不是偶尔的错误——是架构设计的系统性问题。而这些词,恰恰是商务场景中最关键的术语。

原本用的是 Groq 提供的免费 Whisper 模型。速度快、不花钱,日常对话勉强能用,听听嗯嗯啊啊,让人开心的影片没问题。但若对方是日本客户,你正在翻译一场关于设厂时程和品质异常的会议——「勉强能用」就不够了。

所以我想继续优化,试着达标更高的 benchmark 检视,用数据来回答:Chirp 3 到底好多少?值不值得花那个钱?

四个场景,一面倒的结果

测试架构:Groq Whisper vs Google Chirp 3 的规格对比

我挑了四段完全不同类型的日文影片,每段取前三分钟,分别送进两个引擎,以 YouTube 自动生成字幕为基准计算 CER(字符错误率,Character Error Rate——简单说就是识别结果跟正确答案之间的差异比例,越低越好)。

结果:

国际新闻(PIVOT 节目:川普攻击伊朗解说)——Groq 52.5%、Chirp 3 9.2%,改善 82.4%。

半导体商务(TSMC 熊本工厂战略分析)——Groq 61.6%、Chirp 3 25.5%,改善 58.6%。

半导体技术(TSMC 3nm、AI、地缘政治)——Groq 36.5%、Chirp 3 6.4%,改善 82.4%。

商务会话(自我介绍、会议准备)——Groq 40.6%、Chirp 3 13.0%,改善 68.0%。

平均下来:Groq 的 CER 是 47.8%,Chirp 3 是 13.5%。精准度提升 71.7%。

四个场景,Chirp 3 全胜。没有例外。

CER 比较:四个场景中 Chirp 3 全面胜出,平均精准度提升 71.7%

数字背后的关键:不只是模型好,是「知道该听什么」

Chirp 3 赢这么多,不只是因为模型本身更强。关键在一个功能:Speech Adaptation

这是 Google Cloud Speech-to-Text 提供的术语引导机制。你可以预先喂给模型最多 5,000 个「短语」(phrases),告诉它:这场会议可能会出现这些词,请优先识别。

我让系统放了约 1,000 个日文商务术语进去——从「取引先」「発注書」「見積書」到「応急措置」「前年比」「稟議」。效果立竿见影:这些词的命中率几乎是 100%。

反观 Groq Whisper 的 prompt 机制,上限只有 224 tokens,大约塞得下 40 个术语。而且 Whisper 有个恶名昭彰的问题:静音段会「幻觉」,把 prompt 里的内容直接吐出来当识别结果。

还有一个容易被忽略的差异:切片长度。Groq 用 5 秒一段,Chirp 3 用 15 秒。5 秒的语境太短,模型经常听到一半就断了,上下文不足导致误判。15 秒则给了模型足够的语境去做判断。

这三个因素叠加——更强的基础模型、1,000 个术语引导、更长的语境窗口——造成了三倍的精准度差距。

一场会议不到一美元

Chirp 3 不是免费的。计费方式是 $0.016 美元/分钟,以秒为最小计费单位。

算一下:一场一小时的日文商务会议,Chirp 3 的成本是 $0.96 美元。不到一美元。

如果你每个月开 20 场日文会议,月费大约 $19 美元,折合新台币 624 元。

成本分析:每月 20 场会议约 NT$624

624 元。换取的是:日本伙伴说的每一个专业术语,都能正确记录下来;我们会议纪录可以不再需要事后花一小时人工修正;翻译品质从「看得懂大意」提升到「可以直接当逐字稿用」。

创业这些年,我理解到:沟通的成本,从来不在工具上——在误解上。 一次听错「納期」导致的交期延误,代价远超过一年的 Chirp 3 费用。

我的翻译工具现在怎么用它

最后补充一下技术面。目前这一版翻译工具采用「多路路由」架构,意思是,我根据来源语言和使用模式,自动切换不同的识别引擎:

中文走 Qwen(阿里的中文 ASR 模型,WebSocket 串流),英文走 Groq Whisper(免费、速度快),日文一般模式也走 Groq,但日文商务模式自动切换到 Google Chirp 3,同时把使用者的术语表词汇一起送进 Speech Adaptation。其他语言则走 Deepgram Nova-3。

这个设计的逻辑很简单:不是所有场景都需要最高精准度,但商务场景不能妥协。 Groq 免费、速度快,适合日常对话和非正式场合。Chirp 3 贵一点、慢一点(15 秒才回传一次),但在精准度上是另一个等级。

STT 多路路由架构:根据语言与模式自动切换引擎

我按「商务模式」按钮,背后的路由就自动切换——不需要理解技术细节,只需要知道:开了这个按钮,你的日文会议纪录会从「大概对」变成「几乎完全对」。

精准度是信任的基础

回到最初的问题:免费 STT 够用吗?

如果只是想把 YouTube 影片的日文大意听个七七八八,知道大意那OK。但如果你在一场跨国会议里,对方正在用敬语委婉地表达不满,而翻译工具把「ご立腹」听成了「ボディポップ」(没有开玩笑,这是真实案例)——那就完全不够。

语音识别的精准度不是一个抽象的技术指标。它是沟通链条中最脆弱的一环。识别错了,翻译就错了;翻译错了,决策就偏了。在商务场景里,这条链是用信任串起来的。

6.4% 的错误率,意味着每 100 个字只错 6 个。47.8% 的错误率,意味着将近一半的内容不可靠。

我宁愿多花一点 Token 费用,也希望确保与伙伴之间的交流能维持更好的品质。不过我也理解,对很多朋友来说,日语素材其实不一定需要那么精准。人生已经够不容易了,需要轻松一点的时刻,就让自己轻松一点。


术语表

  • CER(Character Error Rate):字符错误率。衡量识别结果与正确答案的差异,计算方式是 Levenshtein 编辑距离除以正确答案的字数。越低越好,0% 代表完美。
  • STT(Speech-to-Text):语音转文字技术。
  • Ground Truth:用于比对的「正确答案」。本测试使用 YouTube 自动生成的日文字幕。
  • Speech Adaptation:Google Cloud STT 的功能,允许预先提供最多 5,000 个短语引导模型识别特定词汇。
  • Levenshtein Distance:编辑距离。将一个字串转换成另一个字串所需的最少操作次数(插入、删除、替换)。
  • Prompt:Whisper 模型的提示文字(上限 224 tokens),用于引导识别方向。功能类似 Speech Adaptation,但容量小得多。
  • RPM(Requests Per Minute):每分钟请求数,API 的速率限制。Groq 免费方案为 20 RPM。