6.4%：讓日文語音辨識的精準度，從「堪用」跳到「可商用」

6.4%。

這是 Google Chirp 3 在辨識一段 TSMC 半導體技術解說影片時的字元錯誤率。同一段音檔丟給 Groq Whisper，錯誤率是 36.5%。一個幾乎逐字正確，另一個每三個字就錯一個。

這不是什麼精心設計的實驗室條件。就是 YouTube 上隨便找的日文解說影片，前三分鐘，切下來跑兩個引擎。結果的差距，大到讓我重新思考一件事：我們對「免費 AI 工具」的信任，到底建立在什麼基礎上？

為什麼我要做這個測試

這套「即時會議記錄｜阿哥拉廣場」工具，算是成為超級個體實踐的延伸，透過與 AI 協作，一個人等於是一支部隊。技術上不複雜——麥克風收音、語音辨識、即時翻譯、字幕顯示。但實際用在日文商務會議上，會有一個致命的問題：辨識結果會干擾理解。

「取引先」變成亂碼，「発注書」被吃掉一半，「ご指導のほど」被聽成完全不相干的詞。這些不是偶爾的錯誤——是架構設計的系統性問題。而這些詞，恰恰是商務場景中最關鍵的術語。

原本用的是 Groq 提供的免費 Whisper 模型。速度快、不花錢，日常對話勉強能用，聽聽嗯嗯啊啊，讓人開心的影片沒問題。但若對方是日本客戶，你正在翻譯一場關於設廠時程和品質異常的會議——「勉強能用」就不夠了。

所以我想繼續優化，試著達標更高的 benchmark 檢視，用數據來回答：Chirp 3 到底好多少？值不值得花那個錢？

四個場景，一面倒的結果

測試架構：Groq Whisper vs Google Chirp 3 的規格對比

我挑了四段完全不同類型的日文影片，每段取前三分鐘，分別送進兩個引擎，以 YouTube 自動生成字幕為基準計算 CER（字元錯誤率，Character Error Rate——簡單說就是辨識結果跟正確答案之間的差異比例，越低越好）。

結果：

國際新聞（PIVOT 節目：川普攻擊伊朗解說）——Groq 52.5%、Chirp 3 9.2%，改善 82.4%。

半導體商務（TSMC 熊本工廠戰略分析）——Groq 61.6%、Chirp 3 25.5%，改善 58.6%。

半導體技術（TSMC 3nm、AI、地緣政治）——Groq 36.5%、Chirp 3 6.4%，改善 82.4%。

商務會話（自我介紹、會議準備）——Groq 40.6%、Chirp 3 13.0%，改善 68.0%。

平均下來：Groq 的 CER 是 47.8%，Chirp 3 是 13.5%。精準度提升 71.7%。

四個場景，Chirp 3 全勝。沒有例外。

CER 比較：四個場景中 Chirp 3 全面勝出，平均精準度提升 71.7%

數字背後的關鍵：不只是模型好，是「知道該聽什麼」

Chirp 3 贏這麼多，不只是因為模型本身更強。關鍵在一個功能：Speech Adaptation。

這是 Google Cloud Speech-to-Text 提供的術語引導機制。你可以預先餵給模型最多 5,000 個「短語」（phrases），告訴它：這場會議可能會出現這些詞，請優先辨識。

我讓系統放了約 1,000 個日文商務術語進去——從「取引先」「発注書」「見積書」到「応急措置」「前年比」「稟議」。效果立竿見影：這些詞的命中率幾乎是 100%。

反觀 Groq Whisper 的 prompt 機制，上限只有 224 tokens，大約塞得下 40 個術語。而且 Whisper 有個惡名昭彰的問題：靜音段會「幻覺」，把 prompt 裡的內容直接吐出來當辨識結果。

還有一個容易被忽略的差異：切片長度。Groq 用 5 秒一段，Chirp 3 用 15 秒。5 秒的語境太短，模型經常聽到一半就斷了，上下文不足導致誤判。15 秒則給了模型足夠的語境去做判斷。

這三個因素疊加——更強的基礎模型、1,000 個術語引導、更長的語境窗口——造成了三倍的精準度差距。

一場會議不到一美元

Chirp 3 不是免費的。計費方式是 $0.016 美元/分鐘，以秒為最小計費單位。

算一下：一場一小時的日文商務會議，Chirp 3 的成本是 $0.96 美元。不到一美元。

如果你每個月開 20 場日文會議，月費大約 $19 美元，折合新台幣 624 元。

成本分析：每月 20 場會議約 NT$624

624 元。換取的是：日本夥伴說的每一個專業術語，都能正確記錄下來；我們會議紀錄可以不再需要事後花一小時人工修正；翻譯品質從「看得懂大意」提升到「可以直接當逐字稿用」。

創業這些年，我理解到：溝通的成本，從來不在工具上——在誤解上。 一次聽錯「納期」導致的交期延誤，代價遠超過一年的 Chirp 3 費用。

我的翻譯工具現在怎麼用它

最後補充一下技術面。目前這一版翻譯工具採用「多路路由」架構，意思是，我根據來源語言和使用模式，自動切換不同的辨識引擎：

中文走 Qwen（阿里的中文 ASR 模型，WebSocket 串流），英文走 Groq Whisper（免費、速度快），日文一般模式也走 Groq，但日文商務模式自動切換到 Google Chirp 3，同時把使用者的術語表詞彙一起送進 Speech Adaptation。其他語言則走 Deepgram Nova-3。

這個設計的邏輯很簡單：不是所有場景都需要最高精準度，但商務場景不能妥協。 Groq 免費、速度快，適合日常對話和非正式場合。Chirp 3 貴一點、慢一點（15 秒才回傳一次），但在精準度上是另一個等級。

STT 多路路由架構：根據語言與模式自動切換引擎

我按「商務模式」按鈕（管理者才有的技能），背後的路由就自動切換——不需要理解技術細節，只需要知道：開了這個按鈕，你的日文會議紀錄會從「大概對」變成「幾乎完全對」。

精準度是信任的基礎

回到最初的問題：免費 STT 夠用嗎？

如果只是想把 YouTube 影片的日文大意聽個七七八八，知道大意那ＯＫ。但如果你在一場跨國會議裡，對方正在用敬語委婉地表達不滿，而翻譯工具把「ご立腹」聽成了「ボディポップ」（沒有開玩笑，這是真實案例）——那就完全不夠。

語音辨識的精準度不是一個抽象的技術指標。它是溝通鏈條中最脆弱的一環。辨識錯了，翻譯就錯了；翻譯錯了，決策就偏了。在商務場景裡，這條鏈是用信任串起來的。

6.4% 的錯誤率，意味著每 100 個字只錯 6 個。47.8% 的錯誤率，意味著將近一半的內容不可靠。

我寧願多花一點 Token 費用，也希望確保與夥伴之間的交流能維持更好的品質。不過我也理解，對很多朋友來說，日語素材其實不一定需要那麼精準。人生已經夠不容易了，需要輕鬆一點的時刻，就讓自己輕鬆一點。

術語表

CER（Character Error Rate）：字元錯誤率。衡量辨識結果與正確答案的差異，計算方式是 Levenshtein 編輯距離除以正確答案的字數。越低越好，0% 代表完美。
STT（Speech-to-Text）：語音轉文字技術。
Ground Truth：用於比對的「正確答案」。本測試使用 YouTube 自動生成的日文字幕。
Speech Adaptation：Google Cloud STT 的功能，允許預先提供最多 5,000 個短語引導模型辨識特定詞彙。
Levenshtein Distance：編輯距離。將一個字串轉換成另一個字串所需的最少操作次數（插入、刪除、替換）。
Prompt：Whisper 模型的提示文字（上限 224 tokens），用於引導辨識方向。功能類似 Speech Adaptation，但容量小得多。
RPM（Requests Per Minute）：每分鐘請求數，API 的速率限制。Groq 免費方案為 20 RPM。

為什麼我要做這個測試

四個場景，一面倒的結果

數字背後的關鍵：不只是模型好，是「知道該聽什麼」

一場會議不到一美元

我的翻譯工具現在怎麼用它

精準度是信任的基礎

術語表

💬 留言討論

延伸閱讀

知識管理不靠自律，靠管線

網站訪客數是零，但 Dashboard 說有 130 人

把 paulkuo.tw 變成一個自己進化的網站