你的文章被 AI 吃掉了：各国网络爬虫与 AI 训练法律态度比较

你的文章被 AI 吃掉了。

不是比喻。是事实。OpenAI 爬取了网络上的大部分内容来训练 GPT。Google、Meta、Microsoft——都在做同样的事。你的 GitHub repo、你的博客、你的社群媒体贴文，都在某个数据中心的训练集里。

问题是：这合法吗？

答案取决于你在哪里。

全球各国在「著作权保护」、「技术创新」、「商业包容」与「TDM／AI 豁免」四个面向上，对网络爬虫和 AI 训练的法律态度天差地远。画成雷达图的话，有的国家是张开的手掌，有的是紧握的拳头。

日本是全球最激进的。2018 年修订著作权法第 30 条之 4，基本上说：无论什么目的，爬取和使用著作权素材来做「计算机情报解析」都可以。AI 研究？可以。商业产品训练？也可以。日本刻意要把自己打造成 AI 友善的司法环境，看着美国的创新、看着欧盟的管制，选了最宽松的那一方。

新加坡紧跟在后。2021 年修订著作权法，明确纳入商业用途的「运算数据分析」例外，成为亚太地区 AI 创新的重要枢纽。

美国走的是另一条路——不靠成文法的广泛豁免，靠的是司法判例。核心概念叫「转化性合理使用」：如果你的使用方式在本质上改变了原始内容的用途和含义，就可能不算侵权。Google Books 扫描了几百万本书，版权方告上法院，法院说：这是转化性的，合法。AI 训练遵循同样的逻辑——你的文章被拿去了，但它不是在卖你的文章，而是把它变成了统计权重，变成一个能生成新文本的系统。

美国的位置：最宽松。创新优先。市场说话。

欧盟在 2019 年通过了「数字单一市场著作权指令」，核心设计很不同：TDM 是被允许的，但有一个巨大的「但是」——权利人可以选择退出（Opt-out）。如果 Le Monde 或 Der Spiegel 说「不要爬我们」，爬虫得停。

这个框架的逻辑是：创新重要，但创作者的权利也重要，所以给一个选项。实际上呢？大型出版社有能力建立 Opt-out 机制，小媒体和个人创作者往往没有议价权。结果是市场更集中，大赢家赢更多。

英国目前只有针对「非商业研究」的有限 TDM 例外，政策还在摇摆。整体态度比欧盟更保守。

然后是台湾。

台湾没有明确的 TDM 法律框架。著作权法存在，但「为了什么目的可以爬取数据」没有清楚界定。2024 年 Lawsnote 案，一个法律数据库平台因爬取内容被严格判决。讯息很清楚：爬虫有风险，你可能被告。

结果是寒蝉效应。想做 AI 创新的台湾公司不确定自己的合法性。想保护内容的台湾创作者必须每次自己去告。这不是「平衡」，是无指引的空白。

台湾的沉默等同于投降。因为国际企业会遵循最有利于它们的法律——通常是美国法律。你的内容被美国公司依美国法律爬走了，而台湾法律既不保护你，也不鼓励你。

我自己就在这个处境里。我在 paulkuo.tw 上写的每一篇文章，都可能被用来训练某个模型。我知道这件事。我无法阻止。如果我住在欧盟，我可以要求 Googlebot 停止爬取。如果我住在日本，我至少知道游戏规则是什么。但我在台湾，法律没有给我工具，只给了我一个模糊的威胁。

这不是个人问题。这是系统性的不对等。

所谓 TDM——文本与数据探勘——是利用程序自动分析大量数字数据的技术，目的是从非结构化文本中识别模式与知识。它是训练大型语言模型和生成式 AI 的基础技术。而 AI 豁免则是允许 AI 训练过程中无需逐一取得版权许可的法律例外。各国的差异就在于：这个例外的范围有多宽、创作者有没有退出的权利。

前进的方向只有三条。第一，台湾可以学欧盟，建立创作者可以选择退出的框架——但这需要立法意愿。第二，台湾可以学日本，全面开放——但这牺牲了创作者。第三，维持现状的空白——而空白的代价，永远由最没有议价权的人承担。

现在的问题不是 AI 能不能用你的内容。它当然能。问题是你有没有任何发言权。

在美国，市场和法院说话。在欧盟，监管说话。在日本，国家政策说话。

在台湾，沉默说话。而沉默的代价，由每一个创作者支付。

也许是时候让这件事不再沉默了。

💬 留言讨论

延伸閱讀

Autoresearch 在个人 IP 场景的正确具身：不是让网站自己懂机器，是让 Agent 们一起懂我

为什么台湾可以让部分完成 Phase II 的细胞疗法“先有条件上市、再补验证”

不切窗口也能生图：让 Claude Code 借 Codex CLI 调用 OpenAI Image-2