ChatGPT 训练数据与拥有者之争马斯克威胁告微软

亿万科技富翁 Twitter 董事长马斯克 Elon Musk 威胁要对微软 Microsoft Corp. 提起控告，理由是违法使用 Twitter 数据训练其 AI 模型。

Mashable 等外媒传出，微软让广告买家管理所有社群帐号的平台将剔除 Twitter。对此马斯克回应表示，「他们非法使用 Twitter 数据进行训练。该打官司了」。

马斯克 2015 年与 Sam Altman 等人共同创立开发 ChatGPT 的公司 OpenAI，但 2018 年离开董事会，官方理由是为了避免跟特斯拉 Tesla Inc. 产生利益冲突。不过，马斯克稍后提出另一个理由，称他跟 OpenAI 团队的部分理念不合。

马斯克离开董事会后不断批评 OpenAI，2 月表示 OpenAI 跟他创立的初衷完全不同，如今只是一个封闭源码、追求极致利润且完全被微软掌控的企业。

CNBC 报导，身兼特斯拉、SpaceX 董事长的马斯克经常通过 Twitter 发布从未实现过的计划，目前看来并无发起官司的迹象。Twitter 并未对此做出明确回应、微软则拒绝评论。

马斯克的威胁暗示，数据所有权已快速成为生成式 AI 的最新战场。科技巨头都在努力跟进 OpenAI 开发类似 ChatGPT 的 AI 模型，而拥有数据的则从中阻挠、或要求收费。

ChatGPT 是一种大型语言模型 LLM，需要大量资料进行训练，这些资料大多来自Reddit、StackOverflow、Twitter 等社群网站。人们会在社群网路随意闲聊，这些非正式的谈话对 LLM 来说非常珍贵。

AI 模型走出实验室及大学、进入商业模式后，数据拥有者便开始提要求。举例来说，Reddit 本周稍早宣布，将网友对话做为 AI 训练的公司，必须支付数据获取费用。

环球音乐集团 Universal Music Group 本周也在 AI 模仿饶舌歌手德瑞克 Drake 创作的一首歌爆红后宣布，利用歌手音乐训练 AI，不但违反协议也侵犯著作权。美国图片交易商Getty Images 则控告 Stable Diffusion 非法复制其内容训练 AI 生成图片。