OpenAI正與數十家出版商洽談內容許可,年費用低至100萬美元
·OpenAI表示,正在與數十家出版商洽談達成文章授權協議。消息人士稱,OpenAI每年向一些媒體公司提供100萬至500萬美元的費用以獲得受版權保護的新聞文章,訓練其大語言模型。
1月5日,美國人工智能公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智能模型。
“我們正在與許多出版商進行多次談判和討論。他們很活躍,非常積極,目前進展順利。”OpenAI知識產權和內容主管湯姆·羅賓(Tom Rubin)在接受彭博社採訪時表示,“你看到了已經宣佈的交易,未來還會有更多。”
OpenAI最近與新聞出版巨頭施普林格出版集團 (Axel Springer) 簽署了一項多年期許可協議,這是該公司與此類出版商的首次合作。施普林格是一家總部位於德國的跨國大衆媒體公司,旗下擁有Business Insider和Politico等品牌。該交易的財務條款從未公開,但據The Information援引OpenAI兩位高管的消息稱,交易金額在數千萬美元左右。
7月,OpenAI宣佈與美聯社達成一項類似協議,金額未公開。這些交易對於OpenAI的未來至關重要,因爲它正在平衡構建模型所需數據的需求與對數據來源日益嚴格的審查。
實際上,這些交易似乎與前幾年類似。谷歌在2020年宣佈將總共投資10億美元與新聞機構合作。在新法律的壓力下,谷歌最近還同意每年向加拿大出版商支付總計1億美元,以換取其文章鏈接。
隨着新聞出版商與人工智能公司簽訂協議,用新聞文章訓練其模型,OpenAI等企業願意爲受版權保護信息支付的價格逐漸浮出水面。The Information援引匿名消息人士稱,OpenAI每年向一些媒體公司提供100萬至500萬美元的費用,以使用其新聞文章用於訓練大型語言模型。即使對於小型出版商來說,這個數額也很小,這可能會讓OpenAI難以達成交易。
與此同時,蘋果公司也正在參與開發生成式人工智能的競賽,並與擁有《Vogue》和《紐約客》的康迪納仕(Condnast)、擁有Daily Beast的NBC新聞和IAC等出版商簽訂了價值約5000萬美元的協議。
這些行動背後的邏輯都在於,當今大型語言模型訓練的大量數據資源來自於互聯網。然而就訓練生成式人工智能而言,似乎已經難有更多的免費午餐。
一方面,《紐約時報》、CNN、路透社和The Verge的母公司Vox Media最近阻止了OpenAI的GPT爬蟲訪問數據。另一方面,一些組織認爲基於其數據進行訓練構成版權侵權。
最近,《紐約時報》在美國聯邦法院起訴OpenAI和微軟,指控這兩家科技公司非法使用“數百萬篇”受《紐約時報》版權保護的文章,幫助開發ChatGPT和必應等工具背後的人工智能模型。這是一系列訴訟中最新的一起,也是關注度最高的一起,這些訴訟指控各種科技和人工智能公司侵犯了媒體公司、攝影網站、圖書作者和藝術家的知識產權。
一些法律專家表示,這些案件加在一起,有可能動搖蓬勃發展的生成式人工智能行業的基礎,但它們也可能落空。這是因爲科技公司可能會嚴重依賴一個過去對它們很有幫助的法律概念:“合理使用”原則。
從廣義上講,版權法區分了逐字抄襲別人的作品和“重新混合”或將其用於新的、創造性的用途,前者通常屬於非法。康奈爾大學數字和信息法教授詹姆斯·格里梅爾曼(James Grimmelmann)在接受《華盛頓郵報》採訪時表示,人工智能系統令人困惑的是,在這種情況下,它們似乎兩者都在做。
OpenAI和微軟已經在進行類似的辯護。去年11月,OpenAI在提交給美國版權局的一份文件中寫道:“我們認爲,人工智能模型的訓練符合合理使用的條件,完全符合現有的先例,即技術創新者以變革性方式使用受版權保護的材料,這完全符合版權法。”
格里梅爾曼則表示,生成式人工智能代表了“這一重大的技術變革,它可以製作任何東西的混合版本”。“挑戰在於,這些模型還可以明目張膽地記住它們訓練過的作品,並經常複製出幾乎一模一樣的作品。”他說,這是“傳統上版權法禁止的核心內容”。
《紐約時報》表示:“在不付費的情況下使用其內容進行創造以替代《紐約時報》並搶走觀衆的產品,並沒有什麼‘變革性’。”其總法律顧問黛安·布雷頓(Diane Brayton)在一份內部備忘錄中告訴員工,該報認識到生成式人工智能在新聞業的潛力,但“使用我們的工作來創建生成式人工智能工具必須獲得許可和反映該工作公平價值的協議,正如法律規定的那樣。”