你的文章被 AI 吃掉了。

不是比喻。是事实。OpenAI 爬取了网络上的大部分内容来训练 GPT。Google、Meta、Microsoft——都在做同样的事。你的 GitHub repo、你的博客、你的社群媒体贴文,都在某个数据中心的训练集里。

问题是:这合法吗?

答案取决于你在哪里。

全球各国在「著作权保护」、「技术创新」、「商业包容」与「TDM/AI 豁免」四个维度上,对网络爬虫和 AI 训练的法律态度天差地远。画成雷达图的话,有的国家是张开的手掌,有的是紧握的拳头。

日本是全球最激进的。2018 年修订著作权法第 30 条之 4,基本上说:无论什么目的,爬取和使用著作权素材来做「计算机情报解析」都可以。AI 研究?可以。商业产品训练?也可以。日本刻意要把自己打造成 AI 友善的司法环境,看着美国的创新、看着欧盟的管制,选了最宽松的那一方。

新加坡紧跟在后。2021 年修订著作权法,明确纳入商业用途的「运算数据分析」例外,成为亚太地区 AI 创新的重要枢纽。

美国走的是另一条路——不靠成文法的广泛豁免,靠的是司法判例。核心概念叫「转化性合理使用」:如果你的使用方式在本质上改变了原始内容的用途和含义,就可能不算侵权。Google Books 扫描了几百万本书,版权方告上法院,法院说:这是转化性的,合法。AI 训练遵循同样的逻辑——你的文章被拿去了,但它不是在卖你的文章,而是把它变成了统计权重,变成一个能生成新文本的系统。

美国的位置:最宽松。创新优先。市场说话。

欧盟在 2019 年通过了「数字单一市场著作权指令」,核心设计很不同:TDM 是被允许的,但有一个巨大的「但是」——权利人可以选择退出(Opt-out)。如果 Le Monde 或 Der Spiegel 说「不要爬我们」,爬虫得停。

这个框架的逻辑是:创新重要,但创作者的权利也重要,所以给一个选项。实际上呢?大型出版社有能力建立 Opt-out 机制,小媒体和个人创作者往往没有议价权。结果是市场更集中,大赢家赢更多。

英国目前只有针对「非商业研究」的有限 TDM 例外,政策还在摇摆。整体态度比欧盟更保守。

然后是台湾。

台湾没有明确的 TDM 法律框架。著作权法存在,但「为了什么目的可以爬取数据」没有清楚界定。2024 年 Lawsnote 案,一个法律数据库平台因爬取内容被严格判决。讯息很清楚:爬虫有风险,你可能被告。

结果是寒蝉效应。想做 AI 创新的台湾公司不确定自己的合法性。想保护内容的台湾创作者必须每次自己去告。这不是「平衡」,是无指引的空白。

台湾的沉默等同于投降。因为国际企业会遵循最有利于它们的法律——通常是美国法律。你的内容被美国公司依美国法律爬走了,而台湾法律既不保护你,也不鼓励你。

我自己就在这个处境里。我在 paulkuo.tw 上写的每一篇文章,都可能被用来训练某个模型。我知道这件事。我无法阻止。如果我住在欧盟,我可以要求 Googlebot 停止爬取。如果我住在日本,我至少知道游戏规则是什么。但我在台湾,法律没有给我工具,只给了我一个模糊的威胁。

这不是个人问题。这是系统性的不对等。

所谓 TDM——文本与数据探勘——是利用程序自动分析大量数字数据的技术,目的是从非结构化文本中识别模式与知识。它是训练大型语言模型和生成式 AI 的基础技术。而 AI 豁免则是允许 AI 训练过程中无需逐一取得版权许可的法律例外。各国的差异就在于:这个例外的范围有多宽、创作者有没有退出的权利。

前进的方向只有三条。第一,台湾可以学欧盟,建立创作者可以选择退出的框架——但这需要立法意愿。第二,台湾可以学日本,全面开放——但这牺牲了创作者。第三,维持现状的空白——而空白的代价,永远由最没有议价权的人承担。

现在的问题不是 AI 能不能用你的内容。它当然能。问题是你有没有任何发言权。

在美国,市场和法院说话。在欧盟,监管说话。在日本,国家政策说话。

在台湾,沉默说话。而沉默的代价,由每一个创作者支付。

也许是时候让这件事不再沉默了。