我用了快三年的逐字稿服務 Good Tape 今天剛好到期。帳單拉出來一算:€476,大概台幣一萬七。我是Pro 方案。看了一下這個月的使用量:還剩20 小時。

為什麼想要自己做

因為AI Agent 進步太快!已經改變工作模式。加上常有會議 — 台日、中英、偶爾有東南亞夥伴。

持平來說,三年前Good Tape 是好工具,這是丹麥團隊做的,主打安全和準確。但它解決的是「事後」的問題:錄完音上傳,等它跑完逐字稿。沒有即時辨識,沒有翻譯,沒有摘要。

我三年付了 €476(台幣約一萬七),拿到逐字稿功能。當時能有這樣的功能已經很驚喜,但若能在「當下」,如會議正在進行中,對方講日文可以即時看到中文,那就更棒。不是會後才慢慢整理。

目前市場上的即時翻譯競品:

  • Transync AI — $8.99/月(10 小時),功能最接近我要的,有即時語音翻譯 + 會議摘要 + 60 語言。但要裝 App,而且超過時數另外買時數卡($7.99/10hr 起)。用越多越貴。
  • JotMe — $9-15/月,107 語言,但綁 Chrome Extension
  • Wordly — 企業定價,按小時買包,10 小時起跳
  • KUDO — 年度授權,不公開價格,鎖定大型企業
  • Palabra — 要裝桌面 App,綁定特定會議軟體

我想要的其實很單純:打開瀏覽器就能用,不裝任何東西,手機電腦都行,跟老外開會可以一邊透過AI協助理解,且成本透明可控。如前天分享的,決定自己做。

工具叫「即時會議記錄|阿哥拉廣場」,部署在我的個人網站上

  • 🎙 即時語音辨識 — 說話的當下就出文字,不是錄完才轉
  • 🌍 12 種語言即時翻譯 — 中、英、日、韓、越、泰、印尼、德、西、法、葡
  • 📋 AI 會議摘要 — 一鍵產出重點整理 + 待辦事項 + 決議
  • 📖 術語表 — 自訂專業術語對照,確保翻譯一致
  • 🖥 字幕模式 — 全屏黑底大字,投影會議室用
  • ⬇️ 全文匯出 — TXT / CSV,可丟進 Excel
  • 💰 即時成本追蹤 — 每一筆 API 呼叫花多少錢,透明可見
  • 🔐 三層認證 — Google / LINE / Facebook OAuth + 邀請碼

前端 2,533 行,後端 2,148 行。一個 HTML 檔加一個 Cloudflare Worker。

技術上最有趣的部分:三路語音辨識路由

語音辨識不是只挑一家 API 就好。不同語言有不同的最佳解。根據語言自動切換引擎:

三路語音辨識路由架構

  • 🇹🇼 中文 → Qwen3-ASR(阿里雲 Qwen 團隊,WebSocket 串流)
  • 🇺🇸 英文 → whisper-large-v3-turbo(LPU 硬體加速,200×+ 即時速度)
  • 🌐 其他語言 → Deepgram Nova-3(WebSocket 串流)

翻譯統一用 Claude Haiku 4.5(Anthropic),再用串流輸出,翻譯結果是一個字一個字跳出來的,不是等全部翻完才顯示。除了考慮輸出品質,也有考慮成本。

  • Groq:$0.02/hr,英文最便宜
  • Qwen:~$0.40/hr,中文辨識率 97%+,專業術語(方言也支援)也準
  • Deepgram:$200 免費額度,多語言通吃

一場 1 小時的中英會議,API 成本大約 $0.50 USD。台幣 16 塊。換算一下:我在 Good Tape 花的 €476,等於用自建工具開超過 950 場會議。Transync AI 的 $8.99/月用一年是 $108,同樣的錢可以開 216 場。

但這篇文章真正想說的不是技術

做這個工具的過程,其實是一個學習「怎麼跟 AI 協作」的過程。我不是工程師。我的背景是生命科學、神學、農產電商、循環經濟等。寫程式對我很困難。雖然第一個創業的題目是做Fintech 的SAAS,但整套工具與服務都是靠七個人的團隊協助。

我有種感覺,跟 AI 協作,需要的不只是程式能力,應該是一種新的素養(我還說不太清楚)。

拆解問題比寫程式碼重要

Groq 串接不是一句「幫我加上 Groq」就會動。我把它拆成兩個 Phase:Phase A 後端先把 API endpoint 做好、部署、驗證能打通。Phase B 前端再做語言路由,讓它根據選的語言自動切引擎。

每個 Phase 獨立可驗證。壞了只壞一半,不會整個炸掉。這個拆法不是 AI 教我的,是我從多次失敗學到的 — 一次想做太多,中間 token 用完或 context 壓縮,連帶搞壞前面做對的部分。

問對問題,比叫 AI 直接寫更有效

不是說「幫我做一個翻譯工具」。而是:「現有的 WebSocket proxy 模式不能用在 Groq 上,因為它是 REST API 不是 WebSocket。前端需要改成 chunked HTTP 模式,每 3 秒切一段音訊 POST 出去。onstop + restart 循環會有 race condition 嗎?」

這種問題才會得到有用的答案。

功能寫完不是結束,要做 Code Review

我請 Claude 用工程角度檢查剛寫完的程式碼。結果真的抓到三個問題:Groq 連續失敗時完全靜默、MediaRecorder 的 closure 安全問題、動畫效果沒有在新引擎觸發。

這三個 bug 我自己不會發現。但我知道要「問這個問題」。

AI 不會主動幫你巡邏

Fitbit 健康數據壞了好幾天,是我偶然問了才發現。根因是一個 function 少傳了一個參數,每次排程執行都靜默失敗。AI 不會半夜起來幫你檢查系統有沒有壞掉。你要知道該問什麼、什麼時候該問。

這是一種新的工作體感

過去我們說「資訊素養」,是指會搜尋、會判斷資訊真假。現在我們可能需要的是「AI 素養」:

  • 知道怎麼把大問題拆成 AI 能處理的小問題
  • 知道怎麼描述技術約束條件,讓 AI 給出可執行的方案
  • 知道什麼時候該信任 AI 的輸出,什麼時候該自己驗證
  • 知道 AI 的能力邊界在哪裡 — 它能幫你寫、幫你查、幫你 review,但不會主動替你思考該做什麼

這不是工程師的專利。這是每個想善用 AI 的人都需要的能力。

我不會寫程式,但我想跟 AI 協作做出一個即時翻譯工具(一言不合就弄套軟體已經成真)。