你的文章被 AI 吃掉了。
不是比喻。是事實。OpenAI 爬取了網路上的大部分內容來訓練 GPT。Google、Meta、Microsoft——都在做同樣的事。你的 GitHub repo、你的部落格、你的社群媒體貼文,都在某個資料中心的訓練集裡。
問題是:這合法嗎?
答案取決於你在哪裡。
全球各國在「著作權保護」、「技術創新」、「商業包容」與「TDM/AI 豁免」四個維度上,對網路爬蟲和 AI 訓練的法律態度天差地遠。畫成雷達圖的話,有的國家是張開的手掌,有的是緊握的拳頭。
日本是全球最激進的。2018 年修訂著作權法第 30 條之 4,基本上說:無論什麼目的,爬取和使用著作權素材來做「計算機情報解析」都可以。AI 研究?可以。商業產品訓練?也可以。日本刻意要把自己打造成 AI 友善的司法環境,看著美國的創新、看著歐盟的管制,選了最寬鬆的那一方。
新加坡緊跟在後。2021 年修訂著作權法,明確納入商業用途的「運算資料分析」例外,成為亞太地區 AI 創新的重要樞紐。
美國走的是另一條路——不靠成文法的廣泛豁免,靠的是司法判例。核心概念叫「轉化性合理使用」:如果你的使用方式在本質上改變了原始內容的用途和含義,就可能不算侵權。Google Books 掃描了幾百萬本書,版權方告上法院,法院說:這是轉化性的,合法。AI 訓練遵循同樣的邏輯——你的文章被拿去了,但它不是在賣你的文章,而是把它變成了統計權重,變成一個能生成新文本的系統。
美國的位置:最寬鬆。創新優先。市場說話。
歐盟在 2019 年通過了「數位單一市場著作權指令」,核心設計很不同:TDM 是被允許的,但有一個巨大的「但是」——權利人可以選擇退出(Opt-out)。如果 Le Monde 或 Der Spiegel 說「不要爬我們」,爬蟲得停。
這個框架的邏輯是:創新重要,但創作者的權利也重要,所以給一個選項。實際上呢?大型出版社有能力建立 Opt-out 機制,小媒體和個人創作者往往沒有議價權。結果是市場更集中,大贏家贏更多。
英國目前只有針對「非商業研究」的有限 TDM 例外,政策還在搖擺。整體態度比歐盟更保守。
然後是台灣。
台灣沒有明確的 TDM 法律框架。著作權法存在,但「為了什麼目的可以爬取資料」沒有清楚界定。2024 年 Lawsnote 案,一個法律資料庫平台因爬取內容被嚴格判決。訊息很清楚:爬蟲有風險,你可能被告。
結果是寒蟬效應。想做 AI 創新的台灣公司不確定自己的合法性。想保護內容的台灣創作者必須每次自己去告。這不是「平衡」,是無指引的空白。
台灣的沉默等同於投降。因為國際企業會遵循最有利於它們的法律——通常是美國法律。你的內容被美國公司依美國法律爬走了,而台灣法律既不保護你,也不鼓勵你。
我自己就在這個處境裡。我在 paulkuo.tw 上寫的每一篇文章,都可能被用來訓練某個模型。我知道這件事。我無法阻止。如果我住在歐盟,我可以要求 Googlebot 停止爬取。如果我住在日本,我至少知道遊戲規則是什麼。但我在台灣,法律沒有給我工具,只給了我一個模糊的威脅。
這不是個人問題。這是系統性的不對等。
所謂 TDM——文本與資料探勘——是利用程式自動分析大量數位資料的技術,目的是從非結構化文本中識別模式與知識。它是訓練大型語言模型和生成式 AI 的基礎技術。而 AI 豁免則是允許 AI 訓練過程中無需逐一取得版權許可的法律例外。各國的差異就在於:這個例外的範圍有多寬、創作者有沒有退出的權利。
前進的方向只有三條。第一,台灣可以學歐盟,建立創作者可以選擇退出的框架——但這需要立法意願。第二,台灣可以學日本,全面開放——但這犧牲了創作者。第三,維持現狀的空白——而空白的代價,永遠由最沒有議價權的人承擔。
現在的問題不是 AI 能不能用你的內容。它當然能。問題是你有沒有任何發言權。
在美國,市場和法院說話。在歐盟,監管說話。在日本,國家政策說話。
在台灣,沉默說話。而沉默的代價,由每一個創作者支付。
也許是時候讓這件事不再沉默了。
💬 留言討論
載入中...