付了三年訂閱費，最後自己做了一套更順的，一個人 × AI 的即時會議翻譯開發紀錄

我用了快三年的逐字稿服務 Good Tape 今天剛好到期。帳單拉出來一算：€476，大概台幣一萬七。我是Pro 方案。看了一下這個月的使用量：還剩20 小時。

為什麼想要自己做

因為AI Agent 進步太快！已經改變工作模式。加上常有會議 — 台日、中英、偶爾有東南亞夥伴。

持平來說，三年前Good Tape 是好工具，這是丹麥團隊做的，主打安全和準確。但它解決的是「事後」的問題：錄完音上傳，等它跑完逐字稿。沒有即時辨識，沒有翻譯，沒有摘要。

我三年付了 €476（台幣約一萬七），拿到逐字稿功能。當時能有這樣的功能已經很驚喜，但若能在「當下」，如會議正在進行中，對方講日文可以即時看到中文，那就更棒。不是會後才慢慢整理。

目前市場上的即時翻譯競品：

Transync AI — $8.99/月（10 小時），功能最接近我要的，有即時語音翻譯 + 會議摘要 + 60 語言。但要裝 App，而且超過時數另外買時數卡（$7.99/10hr 起）。用越多越貴。
JotMe — $9-15/月，107 語言，但綁 Chrome Extension
Wordly — 企業定價，按小時買包，10 小時起跳
KUDO — 年度授權，不公開價格，鎖定大型企業
Palabra — 要裝桌面 App，綁定特定會議軟體

我想要的其實很單純：打開瀏覽器就能用，不裝任何東西，手機電腦都行，跟老外開會可以一邊透過AI協助理解，且成本透明可控。如前天分享的，決定自己做。

工具叫「即時會議記錄｜阿哥拉廣場」，部署在我的個人網站上

🎙 即時語音辨識 — 說話的當下就出文字，不是錄完才轉
🌍 12 種語言即時翻譯 — 中、英、日、韓、越、泰、印尼、德、西、法、葡
📋 AI 會議摘要 — 一鍵產出重點整理 + 待辦事項 + 決議
📖 術語表 — 自訂專業術語對照，確保翻譯一致
🖥 字幕模式 — 全屏黑底大字，投影會議室用
⬇️ 全文匯出 — TXT / CSV，可丟進 Excel
💰 即時成本追蹤 — 每一筆 API 呼叫花多少錢，透明可見
🔐 三層認證 — Google / LINE / Facebook OAuth + 邀請碼

前端 2,533 行，後端 2,148 行。一個 HTML 檔加一個 Cloudflare Worker。

技術上最有趣的部分：三路語音辨識路由

語音辨識不是只挑一家 API 就好。不同語言有不同的最佳解。根據語言自動切換引擎：

三路語音辨識路由架構

🇹🇼 中文 → Qwen3-ASR（阿里雲 Qwen 團隊，WebSocket 串流）
🇺🇸 英文 → whisper-large-v3-turbo（LPU 硬體加速，200×+ 即時速度）
🌐 其他語言 → Deepgram Nova-3（WebSocket 串流）

翻譯統一用 Claude Haiku 4.5（Anthropic），再用串流輸出，翻譯結果是一個字一個字跳出來的，不是等全部翻完才顯示。除了考慮輸出品質，也有考慮成本。

Groq：$0.02/hr，英文最便宜
Qwen：~$0.40/hr，中文辨識率 97%+，專業術語（方言也支援）也準
Deepgram：$200 免費額度，多語言通吃

一場 1 小時的中英會議，API 成本大約 $0.50 USD。台幣 16 塊。換算一下：我在 Good Tape 花的 €476，等於用自建工具開超過 950 場會議。Transync AI 的 $8.99/月用一年是 $108，同樣的錢可以開 216 場。

但這篇文章真正想說的不是技術

做這個工具的過程，其實是一個學習「怎麼跟 AI 協作」的過程。我不是工程師。我的背景是生命科學、神學、農產電商、循環經濟等。寫程式對我很困難。雖然第一個創業的題目是做Fintech 的SAAS，但整套工具與服務都是靠七個人的團隊協助。

我有種感覺，跟 AI 協作，需要的不只是程式能力，應該是一種新的素養（我還說不太清楚）。

拆解問題比寫程式碼重要

Groq 串接不是一句「幫我加上 Groq」就會動。我把它拆成兩個 Phase：Phase A 後端先把 API endpoint 做好、部署、驗證能打通。Phase B 前端再做語言路由，讓它根據選的語言自動切引擎。

每個 Phase 獨立可驗證。壞了只壞一半，不會整個炸掉。這個拆法不是 AI 教我的，是我從多次失敗學到的 — 一次想做太多，中間 token 用完或 context 壓縮，連帶搞壞前面做對的部分。

問對問題，比叫 AI 直接寫更有效

不是說「幫我做一個翻譯工具」。而是：「現有的 WebSocket proxy 模式不能用在 Groq 上，因為它是 REST API 不是 WebSocket。前端需要改成 chunked HTTP 模式，每 3 秒切一段音訊 POST 出去。onstop + restart 循環會有 race condition 嗎？」

這種問題才會得到有用的答案。

功能寫完不是結束，要做 Code Review

我請 Claude 用工程角度檢查剛寫完的程式碼。結果真的抓到三個問題：Groq 連續失敗時完全靜默、MediaRecorder 的 closure 安全問題、動畫效果沒有在新引擎觸發。

這三個 bug 我自己不會發現。但我知道要「問這個問題」。

AI 不會主動幫你巡邏

Fitbit 健康數據壞了好幾天，是我偶然問了才發現。根因是一個 function 少傳了一個參數，每次排程執行都靜默失敗。AI 不會半夜起來幫你檢查系統有沒有壞掉。你要知道該問什麼、什麼時候該問。

這是一種新的工作體感

過去我們說「資訊素養」，是指會搜尋、會判斷資訊真假。現在我們可能需要的是「AI 素養」：

知道怎麼把大問題拆成 AI 能處理的小問題
知道怎麼描述技術約束條件，讓 AI 給出可執行的方案
知道什麼時候該信任 AI 的輸出，什麼時候該自己驗證
知道 AI 的能力邊界在哪裡 — 它能幫你寫、幫你查、幫你 review，但不會主動替你思考該做什麼

這不是工程師的專利。這是每個想善用 AI 的人都需要的能力。

我不會寫程式，但我想跟 AI 協作做出一個即時翻譯工具（一言不合就弄套軟體已經成真）。

為什麼想要自己做

工具叫「即時會議記錄｜阿哥拉廣場」，部署在我的個人網站上

技術上最有趣的部分：三路語音辨識路由

但這篇文章真正想說的不是技術

拆解問題比寫程式碼重要

問對問題，比叫 AI 直接寫更有效

功能寫完不是結束，要做 Code Review

AI 不會主動幫你巡邏

這是一種新的工作體感

💬 留言討論

延伸閱讀

知識管理不靠自律，靠管線

網站訪客數是零，但 Dashboard 說有 130 人

把 paulkuo.tw 變成一個自己進化的網站