本科生已不夠,AI公司僱傭各領域專家訓練大模型

9月29日消息,人工智能模型的性能在很大程度上依賴於其訓練數據的質量。傳統方法通常是僱用大量低成本勞動力對圖像、文本等數據進行標註,以滿足模型訓練的基本需求。然而,這種方式容易導致模型在理解和生成信息時出現“幻覺”現象,即生成不準確或誤導性的信息。爲了解決這一問題,許多初創公司如今更傾向於聘請擁有高學歷和專業背景的專家來參與模型訓練,確保訓練數據的準確性和深度,從而提升模型的整體表現。

以下爲翻譯全文:

早年,像ChatGPT及其競爭對手Cohere等人工智能模型要生成類似人類的反應,需要依賴大量低成本的人力團隊,幫助模型區分基本事實,比如一張圖像是汽車還是胡蘿蔔。

然而,隨着競爭愈發激烈,對人工智能模型的升級已轉變爲一項高複雜度的專業任務,如今需要一個快速擴展的專業訓練師網絡。這些訓練師涵蓋從歷史學家到科學家等專業人才,有些甚至擁有博士學位。

Cohere聯合創始人Ivan Zhang在談到其內部訓練師隊伍的變化時表示:“一年前,我們還可以僱傭本科生來大致教AI如何改進。而現在,我們有執業醫師教模型如何在醫療環境中工作,還有金融分析師和會計師幫助模型在特定領域表現更好。”

爲提升培訓能力,估值已超50億美元的Cohere與一家名爲Invisible Tech的初創公司合作。Cohere是OpenAI的主要競爭對手之一,專注於爲企業提供AI服務。

初創公司Invisible Tech僱傭了數千名遠程培訓師,並已成爲AI行業的主要合作伙伴之一,爲包括AI21和微軟在內的多家人工智能公司提供訓練服務,幫助減少被稱爲“幻覺”的AI錯誤現象。Invisible創始人弗朗西斯·佩德拉薩(Francis Pedraza)表示:“我們在全球100多個國家擁有5000多名具有博士、碩士學位及深厚專業知識的專家。”

根據任務的複雜程度和工作地點,Invisible的時薪最高可達40美元。其他公司如Outlier支付的時薪高達50美元,而Labelbox則爲像量子物理這樣的“高專業性”科目提供高達200美元的時薪,基礎類任務起步價爲15美元。

Invisible成立於2015年,最初主要爲DoorDash等公司提供工作流程自動化服務,比如將外賣菜單數字化。然而,轉折點出現在2022年春季,在ChatGPT公開發布前,OpenAI主動尋求與Invisible合作。

佩德拉薩回憶道:“OpenAI遇到了一個問題,早期版本的ChatGPT在回答問題時容易陷入‘幻覺’,其答案不可靠。爲此,他們需要一個能夠通過人類反饋來強化AI學習的先進訓練夥伴。”

生成式人工智能依賴過去用於訓練的數據生成新內容。然而,有時它無法區分真假信息,產生所謂的“幻覺”。一個例子發生在2023年,當時谷歌的聊天機器人在宣傳視頻中分享了關於哪個望遠鏡首次拍攝到太陽系外行星的不準確信息。

AI公司意識到,“幻覺”現象可能會影響生成式人工智能在商業領域的吸引力,因此他們正在嘗試各種方法減少這種現象,其中包括利用人類訓練師來教導AI區分事實與虛構。

自與OpenAI合作以來,Invisible迅速成爲衆多生成式AI公司的首選培訓夥伴,其客戶包括Cohere、AI21和微軟等。儘管微軟尚未正式確認合作關係,但Cohere和AI21已承認是Invisible的大客戶。

佩德拉薩指出:“在人工智能行業,培訓成本是企業的第二大支出,僅次於算力。而高質量的培訓對於確保模型的準確性和可靠性至關重要。”

它是如何工作的?

OpenAI的生成式人工智能熱潮背後有一個名爲“人類數據團隊”的團隊支持。該團隊與AI訓練師合作,收集專業數據以訓練ChatGPT等模型。

熟悉該公司流程的知情人士透露,OpenAI的研究人員設計了一系列實驗,旨在解決諸如減少“幻覺”、優化寫作風格等問題。他們與Invisible等供應商的AI訓練師合作,根據需求收集和處理數據。

上述知情人士說,在任何時候,同時進行的實驗項目都可能多達數十項,這些項目有的可以採用OpenAI的自研工具,也可以使用供應商提供的解決方案。

Invisible會根據AI公司的需求,僱傭具有相關學科背景的專家,無論是研究瑞典歷史的學者還是金融建模專家,都可以爲這些AI項目貢獻力量,幫助減少AI公司管理大量訓練師的負擔。

佩德拉薩表示:“OpenAI擁有世界頂尖的計算機科學家,但他們不一定精通瑞典歷史、化學或生物等專業領域的問題。”他補充說,僅OpenAI就有超過1000名合同工爲其提供數據標註服務。

Cohere的Ivan Zhang親自體驗了Invisible訓練師的能力,併成功教會Cohere的生成式AI模型如何從大數據集中提取相關信息。

競爭加劇

在AI訓練數據集領域,Scale AI是Invisible的主要競爭對手。這傢俬營初創公司估值達140億美元,不僅提供數據集服務,還開始爲AI公司提供培訓服務,並將OpenAI列爲其客戶之一。Scale AI沒有迴應置評請求。

相比之下,Invisible的資金募集顯得更爲保守,自2021年起開始盈利,僅獲得了800萬美元的主要資本。佩德拉薩表示:“我們70%的股權歸團隊所有,30%的股權歸投資者。”他還透露,最近的公司估值已達5億美元。

最早進入AI訓練領域的培訓師主要通過從事數據標註工作,要求相對較低,因此報酬也較低,有時每小時薪酬低至2美元,主要由非洲和亞洲國家的勞動者完成。

然而,隨着AI技術的快速發展,對專業培訓師的需求急劇上升,涵蓋數十種語言和領域,創造了一個高薪利基市場。如今,來自各個學科的專家無需編程技能,也有機會成爲AI培訓師。

AI公司的需求正催生出更多提供類似服務的企業。Ivan Zhang說:“我的收件箱幾乎被不斷涌現的新公司所淹沒,這些公司紛紛涌入人工智能訓練服務市場。這的確是一個全新的領域,公司僱傭人類只是爲了給我們這樣的人工智能實驗室創造數據。”(小小)