AI模型訓練催生“數據標註”崗位,時薪工人和科學家競爭上崗

隨着人工智能領域的迅猛增長,業界對大模型數據集的勞動力需求正在攀升,尤其是對文本、圖像、視頻和音頻進行標註的領域。爲了降低成本,這類崗位往往被外包到不發達國家。

11月24日,哥倫比亞廣播公司(CBS)《60分鐘》欄目報道稱,儘管數據標註行業爲肯尼亞創造了大量就業機會,但這類工作因爲薪資過低、工作時間過長以及審查內容涉及大量仇恨言論和暴力畫面等問題,對當地勞動者的身心健康造成了極大影響。

數據標註是人工智能技術研發中不可或缺的一環,指對圖片、語音、文本、視頻等數據進行處理,標記對象的特徵,生成滿足機器學習訓練要求的可讀數據編碼。科技專家表示,鬆懈的法律規定和低廉的收入已經成爲該行業的常態——從業人員從事最繁瑣和高負荷的工作,但幾乎無法得到法律保障。

“數據貼標”引發爭議

CBS報道稱,雖然人工智能技術日漸強大,但仍無法完全脫離人工的介入,原因是需要數據標記的新設備和新發明正在不斷涌現,比如汽車和醫療等行業。“數據貼標員”如今需要給汽車和行人貼上標籤,訓練自動駕駛汽車避讓障礙物的技能;圈出CT(計算機斷層掃描)、核磁共振成像(MRI)和X光片中的異常情況,讓人工智能學習如何識別異常情況。

出於降低勞動力成本的考慮,Meta和OpenAI等大型公司近年來將這類工作崗位轉給勞務外包公司。在肯尼亞,一家名爲Sama的公司爲上述公司招聘超過3000名員工,時薪爲2美元(摺合人民幣14.5元)。然而,《60分鐘》欄目獲取的文件則顯示,OpenAI向Sama支付的時薪實爲每名工人12.5美元(摺合人民幣90.5元)。面對質疑,這家總部位於加州的公司表示,相對於肯尼亞當地的工資水平,該公司向肯尼亞員工支付的薪酬“相對公平”。

一些負責內容貼標和篩查有害信息的肯尼亞員工表示,他們日均花8個小時坐在屏幕前研究照片和視頻,在物體周圍畫框並貼上標籤,讓人工智能算法學習如何識別內容。除此之外,他們必須每天查看色情、仇恨言論和過度暴力內容,幫助人工智能強化識別和過濾有害信息的功能。

有受訪者表示,在肯尼亞失業率高企的情況下,他們不得不接受這類工作。目前,肯尼亞的青年失業率高達67%,該國政府一直在爭取微軟、谷歌、蘋果和英特爾等科技巨頭的投資。

除了Sama,澳大利亞數據服務公司澳鵬(Appen)也在委內瑞拉和巴基斯坦等國家招募了大量數據標註員。據美國《連線》雜誌(Wired)報道,澳鵬的客戶包括亞馬遜、臉書、谷歌和微軟等公司。一名移居至哥倫比亞的委內瑞拉受訪者向該媒體表示,若每天的工作時間達到18個小時或以上,他們每週收入或可達到280美元(人民幣2028元),接近哥倫比亞285美元(人民幣2065元)的最低工資標準。

諮詢公司Grand View Research的數據顯示,2022年全球數據標註的市場價值爲22.2億美元,預計到2030年將增長到171億美元。在這股AI浪潮下,數據標註在一些國家成爲一個新興產業。《日本時報》報道稱,印度已成爲全球最大的數據標註勞動力市場之一。信息技術行業機構NASSCOM表示,到2030年,印度數據標註勞動力規模(包括全職和兼職)預計將達到100萬人。

印度研究機構“數字未來”實驗室主任烏爾瓦希·阿內賈(Urvashi Aneja)表示,儘管數據標註行業爲那些有居家工作需求的人創造了新的機會,但這類人羣處於人工智能價值鏈的底端。“很多工作都很不穩定……有了ChatGPT和其他生成式人工智能,內容審覈的問題將變得更加複雜,我們將看到更多低薪工人陷入其中。”阿內賈分析道。

AI訓練尋求激增

路透社報道稱,人工智能模型發展的早期階段需要大量低成本勞動力,幫助人工智能模型區分基本事實,例如圖像是汽車還是胡蘿蔔。然而,隨着人工智能技術發展日趨成熟,人工智能模型進行更復雜的更新則需要擁有專業知識的人類訓練師——這類人羣包括歷史學家和科學家以及擁有博士學位的人員。

總部位於法國巴黎的凱捷管理顧問公司2024年發佈的一份報告顯示,近七成商業領袖認爲,生成式人工智能領域的興起將催生出新的勞動力需求,包括人工智能審計師、人工智能倫理學家和快速工程師。“我們看到人工智能管理和數字化轉型中出現了一些新角色,這些角色專注於治理、戰略指定以及協助利益相關方整合人工智能政策等。”凱捷公司旗下公司索蓋蒂(Sogeti)副總裁兼美國生成式人工智能部門負責人道格•羅斯(Doug Ross)向商業技術網站ZDNet表示。

路透社報道稱,初創公司智研創科(Invisible Tech)僱傭了數千名遠程工作的人工智能內容培訓師,協助AI21 Labs和微軟等主要客戶訓練人工智能模型,以減少錯誤。智研創科爲AI訓練師開出的最高時薪爲40美元,具體取決於員工的職位和工作的複雜程度。其創始人弗朗西斯·佩德拉澤(Francis Pedraza)表示:“我們在全球100多個國家擁有至少5000名員工,他們都是博士、碩士學位持有者和知識專家。”

有公司甚至將受僱人羣轉向用戶。新加坡《海峽時報》報道稱,一家新加坡初創企業打出“賺取零花錢”的名號,招募公衆執行錄製聲音和標記圖片等任務,用戶無需具備技術,僅需要一部手機,便可通過一款名爲“Tictag”的應用程序執行任務,例如用閩南語錄制單詞或以不同的音量說“Bixby”(三星移動設備AI助手的名稱),獲取幾美分到幾美元的報酬。

此外,用戶被分配的任務還包括圖像註釋,如圈出圖片中汽車的品牌標識或標記物品顏色,進而爲人工智能模型提供準確的訓練數據。報道還稱,該公司將收集到的數據用於訓練語音和語言、安全監控、AI語音助手和圖像識別技術。