这场“数据起义”的核心是一种新的认识,即在线信息——故事、艺术品、新闻文章、网络帖子和照片可能具有重要的未开发价值。在互联网上抓取公开内容的做法由来已久,大多数采取这种做法的公司和非营利组织都会公开披露。但在 ChatGPT 发布之前,数据所有者对此并不太了解,也不认为这是一个特别严重的问题。现在,当公众了解了更多关于 AI 训练的基础知识后,这种情况发生了变化。
与此同时,一些新闻机构也在抵制人工智能。6 月,在关于使用生成型人工智能的内部备忘录中,《纽约时报》表示,“人工智能公司应该尊重我们的知识产权。”同月,在代表在线出版商利益的贸易组织 Digital Content Next 发布的一份声明中,《纽约时报》和《华盛顿邮报》等在线出版商认为,使用受版权保护的新闻文章作为人工智能的训练数据具有潜在风险和法律问题,它们呼吁人工智能公司尊重出版商的知识产权和创作劳动。
迈阿密大学版权法教授杰西卡·D·利特曼·索维基(Jessica D. Litman Sawicki)表示,合理使用原则(Fair use)是对人工智能公司的一种有力辩护,因为人工智能模型的大多数输出内容并不明确地类似于某个特定人类的作品。但她认为,如果起诉人工智能公司的创作者能够展示足够多与他们作品非常相似的人工智能输出的例子,他们就会有充分的理由认为,他们的版权正在受到侵犯。