字節跳動大模型遭內部實習生攻擊 知情人士透露“損失被誇大”
本報記者 李靜 北京報道
近日,社交平臺上有消息稱:“字節跳動實習生田某某因‘團隊資源分配不均’,在模型訓練過程中投毒,導致8000多張H100訓練一個多月都是錯誤的,損失超千萬美元。”
據字節跳動知情人士對《中國經營報》記者透露,確實有破壞模型訓練一事,不過傳聞也有誇張和虛構的信息。該人士表示,這件事情其實發生在今年6月底,田某某是在商業化技術團隊實習,因爲對團隊資源分配不滿,使用攻擊代碼破壞團隊的模型訓練任務。
據悉,田某某利用了Huggingface(HF)平臺的漏洞,在字節跳動公司的共享模型中寫入了破壞代碼,導致模型訓練效果忽高忽低,無法產生預期的訓練成果。
一位從事互聯網安全的人士對記者表示:“公司內部一般都有人專門負責測試審計代碼,但通常不會看全部代碼,如果隱藏得很好的話,即使看了也未必能發現,這種情況很難防範,如果不是實習生,就是正式員工如果想在代碼中隱藏一些別有意圖的代碼,也很難發現。所以對技術團隊來說,招人很關鍵。”
從成本的角度上,上述從事互聯網安全的人士補充道:“軟件開發上公司通常會信任同事不會有惡意,如果個個都懷疑,公司會承受不了成本壓力。”
北京大數據協會理事、北京融信數聯科技有限公司CTO張廣志對記者表示,技術的發展和應用,需要受到法律法規、倫理道德和管理規程的約束。從安全視角看,信任基(Trust Base)需要持續重視。無論硬件、軟件如何設計完善,仍不免需要人來操作。無論大模型或其他領域,信任基最大薄弱環節最終還是人。
其實互聯網公司發生過一些從內部對公司進行攻擊或破壞的案例,從內部攻擊造成的影響和損失都不算小。例如,2020年2月微盟研發中心運維部的核心運維人員通過VPN登錄服務器,並對線上生產環境進行了惡意破壞,刪除了數據庫,導致微盟平臺約300萬個商家的小程序全部宕機,事件從發生到數據全面找回歷時一週。該事件當時導致微盟市值蒸發超過30億港元,直接虧損0.87億元人民幣。此外,微盟還準備了1.5億元的賠付撥備金。
傳聞此次字節跳動遭內部實習生攻擊,損失可能超過千萬美元。但上述字節跳動知情人士表示“損失並沒有傳聞中那麼嚴重”。並且,該人士表示,受影響的業務其實不是豆包大模型,而是商業化技術團隊的模型訓練任務,也就是影響了廣告部門的一些技術工作。
對於該事件當中的實習生田某某,傳聞稱“被送進去”,但上述字節跳動知情人士透露,處理方式是“辭退+同步行業聯盟+同步情況給學校”。
如今大模型蓬勃發展正在逐漸融入千行百業,加上此次字節跳動發生的內部攻擊事情,大模型的安全問題無疑會得到更多的重視。張廣志認爲:“大模型的安全,除了法律法規、企業管理或是軟硬件約束,還可以從羣防羣治、羣策羣力的視角進一步完善。大模型最終面向用戶,在用戶側建立更完善的反饋機制,讓AI在陪伴用戶的同時,能夠反向約束髮揮監管作用,是一個探索的方向。”
(編輯:張靖超 審覈:李正豪 校對:顏京寧)