OpenAI 舉報人因版權數據訓練模型滿心厭惡

據《紐約時報》報道,一位前 OpenAI 研究人員對該公司的人工智能訓練做法予以舉報,聲稱 OpenAI 在訓練其人工智能模型時違反了版權法,並認爲 OpenAI 當下的商業模式有顛覆我們所熟知的互聯網業務的可能。

這位前員工叫蘇奇爾·巴拉吉(Suchir Balaji),年僅 25 歲,在 OpenAI 工作了四年,因道德方面的問題決定離開這家人工智能公司。在巴拉吉看來,鑑於 ChatGPT 和其他 OpenAI 產品已經高度商業化,OpenAI 大規模抓取在線材料以滿足其數據需求旺盛的人工智能模型的這種做法,不再符合合理使用原則的標準。OpenAI——目前正面臨好幾起版權訴訟,其中包括去年由《紐約時報》提起的一起備受矚目的案件——卻持相反觀點。

“如果你和我想法一樣,”巴拉吉對《紐約時報》說,“你就只能離開公司。”

巴拉吉昨天在其個人網站的一篇帖子中所概述的警告,加劇了圍繞人工智能行業收集和使用受版權保護的材料來訓練人工智能模型這一不斷升溫的爭議,這在很大程度上是在缺乏全面的政府監管且處於公衆視線之外的情況下進行的。

“鑑於人工智能發展如此之快,”知識產權律師布拉德利·赫爾伯特告訴《紐約時報》,“國會是時候介入了。”

巴拉吉於 2020 年受僱,是負責收集和整理網絡收集的培訓數據的幾名員工之一,這些數據最終將被輸入到 OpenAI 的大型語言模型(LLM)中。因爲當時 OpenAI 在技術上仍然只是一家資金充足的研究公司,版權問題沒那麼要緊。

“對於一個研究項目,一般來說,你可以在任何數據上進行訓練,”巴拉吉告訴《紐約時報》。“當時就是這麼個想法。”

但 2022 年 11 月 ChatGPT 發佈後,巴爾吉表示,他的感受有了變化。畢竟,這個聊天機器人不再是一個閉門研究項目;相反,由 OpenAI 的大型語言模型提供支持,它被商品化並用於商業用途——包括在人工智能被用於生成直接反映或模仿其訓練所依據的受版權保護的原始材料的內容或服務的情況下,從而 威脅着 這些個人和企業的生計及盈利模式。

“對於整個互聯網生態系統來說,這不是一個可持續的模式,”比拉吉對《紐約時報》表示,

就其自身來說,在給《紐約時報》的一份聲明中,OpenAI——它已經完全放棄了其非營利的根基——聲稱,它以“受合理使用和相關原則保護的方式”使用公開可用的數據構建其“AI 模型”並且這對於“美國的競爭力”而言至關重要。