理論賬、實踐賬、經濟賬:爭議中的生成式AI服務侵權第一案
21世紀經濟報道記者 馮戀閣 王俊 廣州、北京報道
一石激起千層浪。
近日,廣州互聯網法院近日生效了一起生成式AI服務侵犯他人著作權判決,這也是全球範圍內首例生成式AI服務侵犯他人著作權的生效判決(獨家丨AI畫出奧特曼:中國法院作出全球首例生成式AI服務侵犯著作權的生效判決)該案認爲,被告(某人工智能公司)在提供生成式人工智能服務過程中侵犯了原告對案涉奧特曼作品所享有的複製權和改編權,並應承擔相關民事責任。
判決結果公開後,爭議紛至沓來。
是不是隻要使用模型生成了著作權保護的形象就是侵權?版權內容是不是從此要從訓練數據庫中被剝離?人工智能服務提供者是否責任過重?.......行業,尤其是大模型廠商惴惴不安,法學界也暫未在這些問題上形成共識。
儘管我國並非判例法國家,但生效的判決無疑會對人工智能產業造成影響。一往無前發展技術,還是率先開展治理,似乎是任何一項新技術都面臨的左右互搏的處境。
生成式人工智能工具對著作權法理論與實踐造成的影響,剛剛開始,新一輪的利益對價仍在探索中。
接觸+實質性相似?能否解開AI版權之問
侵權判斷問題是這起案子判決公開後的第一大爭議點。
“著作權法下對侵權行爲的證明有兩種方式。”同濟大學法學院助理教授、上海市人工智能社會治理協同創新中心研究員朱悅指出,一種是直接證明,即通過自認、物證等證據證明侵害版權的行爲已經發生;另一種則是引入了環境因素的間接證明,即通過“接觸+實質性相似”的要件來判斷作品是否被侵權。
在版權法剛剛誕生時,由於技術發展所限,承載表達的往往是具有物理實體的“版”,通過直接證據證明侵權相對容易。然而,隨着技術進步和作品範圍擴大,作品的形態更加豐富,直接證明變得更加困難。直接證明的情況變得越來越少,“接觸+實質性相似”這類間接地證明覆制的方式逐漸成爲主導性規則。
生成式人工智能技術的全新技術和應用模式爲著作權法帶來的擔憂之一是:AI工具是否還能適用“接觸+實質性相似”侵權判定。
“AI應不應該走這條舉證路徑,從迴歸歷史、着眼技術的角度來看是可以討論的。”朱悅告訴21世紀經濟報道記者,直接證明可以是AIGC版權問題下的一個進路。“代碼中的數據預處理、數據表徵和訓練參數等信息都是客觀存在的。有可能通過直接查看代碼來判斷是否存在著作權法所保護的行爲。”
不過,暨南大學法學院/知識產權學院副教授吳雨輝指出,接觸+實質性相似是當下判斷著作權侵權的通用標準,如果認爲AI工具不適用這一侵權判定,需要做出足夠充分的論證,否則將會對整個著作權法理論與實務產生衝擊。
在被判定侵權後,合理使用往往被作爲一種救濟思路。不過在本案中,合理使用這一制度並沒有被討論。
阿里研究院AI治理中心主任傅宏宇認爲,目前大模型生成能力愈發強大,一方面,在各類場景中用戶期待模型能夠生成更爲逼真的圖片,而另一方面,AIGC侵犯版權的風險依然普遍存在。法院理應迴應AIGC技術帶來的核心差異,以及此類技術是否構成合理使用(包括轉換性使用)。
“基於AI的應用場景越來越廣泛,從利益平衡方面,技術發展和公衆利益需要全面充足的訓練數據,故兩者利益超越了版權人的利益,使用版權作品作爲訓練數據應當構成合理使用。”南京師範大學法學院教授、博士生導師樑志文表示。
樑志文認爲,爲避免“垃圾進、垃圾出”的結果,AI訓練使用版權作品,符合促進技術發展的要求。版權材料作爲訓練數據時,本身不屬於表達性使用,不同於讀者的欣賞,也不同於軟件的使用,它僅作爲一項類似於事實的數據而被使用。“訓練數據市場非屬版權人固有的許可市場,其使用沒有影響版權人對版權作品的正常利用。AI訓練數據也不應屬於版權人的潛在市場。”
吳雨輝認爲,在人工智能進行數據輸入的階段,存在拓展合理使用範圍的討論空間。因爲當下的人工智能深度學習對於數據的使用情形,無法直接適用合理使用的法律規定。但考慮到產業發展的合理需求,確實可以考慮在滿足“三步檢驗法”等審查標準的前提下,設置人工智能深度學習的合理使用特殊情形。
平臺、用戶、開發者,誰的責任?
本案的另一個爭議焦點,是明確指出了人工智能服務提供者的注意義務。本案指出,依據《生成式人工智能服務管理暫行辦法》《互聯網信息服務深度合成管理規定》等規定,服務提供者應採取建立舉報機制、提示潛在風險、進行顯著標識等行動。
法院的判決表明,生成式人工智能服務提供者需要對AIGC潛在的版權風險承擔一定責任。“這讓企業無所適從,接下來合規到底該怎麼做?”不少科技公司法務向21世紀經濟報道記者表示。
不同角色的權責如何劃分,不僅是本案,也是人工智能版權法討論中最複雜、最重要的問題。
傅宏宇認爲,判決可能存在將版權注意義務和人工智能合規責任混同的問題。
在他看來,判決認定被告的“過錯”時,援引的並非版權法的規定,而是認定被告沒有按照《生成式人工智能服務管理暫行辦法》建立投訴舉報機制,未對潛在風險進行提示,缺乏對生成內容的顯著標識,從而構成版權法意義上的“過錯”。
“著作權法並沒有對AIGC平臺的義務作出明確規定,但是學界和實務界早已廣泛討論過AIGC的相關知識產權風險,AIGC平臺理應對相應風險有所預知。”吳雨輝指出,《生成式人工智能服務管理暫行辦法》和《互聯網信息服務深度合成管理規定》也爲AIGC服務提供者提供了明確的合規指引。廣互案中,在AIGC已經明確構成了著作權侵權的情況下,法院要求平臺履行法律規定的注意義務,並無不妥。“ 需要注意的是,本案提到的關鍵詞過濾,是停止侵權措施,這意味着並沒有要求服務提供者進行事前過濾。”
對合規風險表露出擔憂的不止平臺。本案中的被告是一個接入了第三方AI工具的企業,但案件之外,生成式人工智能價值鏈上還有其他角色。基礎模型層的開發者使用訓練數據、應用端用戶使用AI作圖……權責又將如何劃分?
吳雨輝告訴21世紀經濟報道記者,用戶獲取侵權圖片的行爲不構成侵權,但是進一步使用侵權圖片的行爲(如複製或者傳播)則有可能構成侵權。開發基礎模型的公司有可能因在數據訓練階段未經許可使用權利人作品,而構成複製權侵權。
樑志文則認爲,當版權人起訴AI使用版權作品作爲訓練數據侵犯其版權時,其不應得到支持。請求AI開發者刪除訓練數據庫裡版權作品的訴求,如前文所述,構成合理使用的情況,不能得到支持。
“走到最後,判決應遵循的是著作權法的基本原則——利益平衡。”樑志文表示,在法律解釋和適用時需要在版權保護、技術發展和社會公衆三方面取得適度平衡,不可偏廢。
“案件背後不但有法律賬,還有經濟賬。”朱悅進一步指出,根據我國著作權法規定,取證、證據固定等一系列舉證工作都應該由提出侵權指控的原告來進行。
事實上,起訴用戶並非易事,一方面,用戶可能不具備負擔賠償費用的經濟實力,另一方面,他們可能面臨輿論壓力和反噬的風險。“這種情況可能導致案件變得更加複雜,原告方可能更傾向於將用戶排除在外,尋求其他更具有經濟實力和社會影響力的責任方。”
從原則上看,由於訓練數據中可能包含版權內容,模型提供者甚至更上游的主體也有可能是主要的責任方之一。
然而,模型的訓練階段通常依賴於開源數據集,其本身可能存在權利瑕疵,原告面臨的舉證問題更加複雜;另一方面。此外,從判決結果來看,法院也傾向於不過度強調前端研發的責任,以確保責任分配相對簡單,不將合規壓力過度施加在模型開發者身上。
“但技術中立原則並非人們所認爲的,新技術發展者對可能導致侵權行爲的現象無需負責,而有可能承擔間接侵權的責任。”樑志文說,對技術提供者版權責任的法律安排應該促進技術提供者與權利人之間的相互合作,既不能使技術提供者成爲權利人監控新技術、發展新市場、充當其權利保護的守門人,但也不能讓其提供的服務或技術成爲盜版者的天堂,或者使其利潤建立在以侵權爲基礎的商業模式上。
“總體來看,其實從業者、用戶都無須爲此太過憂心。當然,監管側也需要更全面地考慮整個生態系統的合規性,包括數據集提供者、模型開發者和最終用戶之間的關係,以制定更爲全面和合理的責任分配方案。”朱悅說。
AI治理,到底該如何推進?
“生成式人工智能工具對著作權法的理論與實踐產生了巨大的影響,本質上將形成新一輪的利益對價。”吳雨輝表示,掌握了技術話語權的人工智能控制者,既然享受了技術進步的紅利,便應當承擔起更多的注意義務,引領和保障人工智能技術的合規發展。
從ChatGPT到Sora,人工智能產業的變革不會停止。在規則中找尋一條發展之路,或許是當下的最優解。
已經身處人工智能價值鏈的從業者,如何做好合規?
首先是訓練階段,數據庫中版權數據如何處理的問題。“判決不支持刪除訓練數據的原因是被告爲AIGC服務提供者而不是大模型開發者,不涉及模型訓練。但是判決並沒有直接否定刪除訓練數據的可能性,在判決中也強調提示詞阻斷不能完全消除侵權圖片的生成。”傅宏宇表示。
不過,他指出,“此前數字內容平臺版權保護常用的‘侵權通知-刪除’規則並不適用於大模型輸出內容的管理。”大模型訓練數據規模龐大、來源多樣,判斷所有數據的版權合規性難度很大,而且大模型版本往往經過多次迭代,模型的使用基本脫離了原始訓練數據,刪除原始數據的手段並不能解決輸出端的版權侵權問題。
模型遺忘可能是一種解法。朱悅向21世紀經濟報道記者介紹道,這是當前較爲熱門的研究領域。通過特殊的技術手段,實現訓練數據集中特定數據的刪除。“不過,目前這些技術僅限於學術上的探索,絕大部分商業化模型廠商並不能在成熟的產品和服務上使模型忘記學習過的內容。”
而輸出階段,在朱悅看來,廣互的案件已經給出了當下相對切實可行的方案。從技術上來看,最簡單、最經濟的方式就是屏蔽關鍵字。“建立一個詞庫,對特定的關鍵字進行屏蔽,或者結合簡單的自然語言處理技術,這種方法比較容易實現。”
AI技術飛速發展,理論和司法實踐之間存在區隔,有一定合理性。“AI治理,很大程度上像是一個工程問題,”他說,“在各個不同領域的法律規則都有可能適用的情況下,在多重約束中掙扎得出一個合理、可行的結果,在一段時間內將是很正常的狀態。”
法庭之外,圍繞着AI版權問題的法律適用和權責劃分大討論還在持續。