智見|林詠華:基礎大模型是AI中的“CPU”
撰文:李姝
隨着 ChatGPT 等大模型的發佈,全球人工智能掀起了新一輪發展熱潮,國內外大模型技術研究與產業發展日新月異,通用人工智能進入全新發展時期。
在2023智源大會上,大會除了邀請到了圖靈獎得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis、麻省理工學院未來生命研究所創始人 Max Tegmark,OpenAI 首席執行官 Sam Altman 等200餘位人工智能頂尖專家以國際視角共話通用人工智能發展面臨的機遇與挑戰外,智源研究院發佈了全面開源的“悟道3.0”系列大模型及算法,報告了在高精度生命模擬和有機大分子建模方面的最新進展。
此次悟道3.0包含的項目有「悟道・天鷹」(Aquila)語言大模型系列、FlagEval (天秤)大模型語言評測體系以及「悟道・視界」視覺大模型系列。此外 FlagOpen 飛智也帶來了開源大模型技術體系最新進展。
作爲北京智源人工智能研究院副院長兼總工程師,林詠華談到此次智源發佈天鷹有兩個重要的亮點。
第一個亮點是高效,主要體現在兩方面:一方面通過大量對訓練架構的優化,提升了訓練的吞吐量;一方面通過大量對數據、數字的精細化處理和清洗,達到用少的數據量來訓練出一樣性能甚至性能更好的模型。
第二個亮點是通過這次打造迭代循環的生產線和流水線,能夠對模型的質量、安全性、價值觀以及所缺乏的能力很快速的進行調整和提升。這兩個亮點構成了未來大模型創新發展的良好基座。林詠華還談到,基礎模型已經成爲AI大模型時代,單一“產品”投入最大的部分。打造基礎大模型,就是在打造AI中的“CPU”。基礎模型很大程度上決定了後續模型能力、產業落地等因素。
大模型評測體系搭建時最核心的要素是什麼?智源研究院發佈的這套評測體系跟企業會有什麼樣的合作,以及具體的評測流程是怎樣的?國內外開源生態的差距如何?智源“悟道”和LLaMA在發展戰略上相比,有哪些獨特之處?帶着這些問題,本站科技與林詠華進行了深入交流。
以下爲採訪全文:
提問:智源發佈了一整套評測體系,您在這套評測體系搭建時最核心考慮哪些方面?
林詠華:這個評測體系是三個維度、600多個評測的子任務。
首先需要考慮的是要滿足文字語言的理解能力,所以有時候評測體系裡有很多理解能力的任務在裡面。
其次,現在咱們的模型已經從理解變成了生成模型,所以能夠應對各種任務之下的生成能力是我們第二個要去考慮的。但是它還有更往前的是它的認知能力。因此,我們會把它作爲一個人類助手進行考究,例如它的認知能力需要哪些維度的提升,包括代碼的編寫、改寫以及幫助人類做計劃甚至組織文字等等。
最後,我們還會有安全和倫理的評測在裡面。目前我們是從這三個維度去考慮和實施。今天我們在“天秤”評測體系還沒能做到,也是最後一個臺階,即人的心智評測。這有很多心理學的東西在裡面,這是很難的一個話題。未來我們會更多跟心理學進行交叉融合,去研究和探索怎樣把類人類的心智評測也能做到。
提問:我們這套評測體系跟企業有什麼樣的合作?它們大模型使用我們這個評測體系的流程是什麼樣的?
林詠華:現在我們有兩種模式,一個是在線,一個是離線。所謂在線評測,因爲我們已經開源API和例子,它只要接入API和例子,就可以在上面申請做這樣一個評測。那個模型是運行在這些企業和被評測團隊自己的環境裡,調用API來評測。
第二類是離線評測,離線評測更精準、更可信。企業在我們的平臺上上傳它的被評測模型,我們平臺自動拉起評測的環境,在我們平臺的算力來幫助它完成整個評測,這是更細、更可靠的評測方法。
提問:小模型企業和大模型技術怎樣結合以獲得更好的發展?
林詠華:我把這種結合歸納成三點,我加入智源的前10年一直做小模型,加入智源之後走入大模型賽道。所以從小模型和大模型的結合,或者大模型怎麼幫助小模型企業發展來講有三個維度:
第一個維度,對於小的AI模型來說,它可以把原有的算法進行更新,使其使用起來更加高效,可以大大幫助企業把原來的算法進行更新換代,節省產品成本。例如在計算機視覺方面,CNN爲主的卷積神經網絡已經用了很久,但是transformer出來之後,基於transformer同樣的視覺分類,比如大家經常聽到的VIT。我做過對比實驗,視覺領域以前我們一直用ResNet-50,另外一個是VIT,VIT是誕生於大模型時代的一個視覺模型,它要能達到一樣訓練後的性能只需要四分之一的顯存,也就是說用VIT去訓練視覺的分類。另外,上線推理的速度,它是ResNet-50的大概只有60%,這是個典型的例子,是計算機領域的小模型。
第二個維度,利用大模型時代新的算法和能力,可以催生以前我們想做但受制於當時小模型時代而落地不了的方案。舉個例子,CV領域很多行業落地的場景是數數,例如我的貨架上有多少瓶可樂,我的倉庫裡有多少瓶油。以前這個事情一直做不好,因爲通過傳統的方法,它的精度達不到,稍微遠一點點它就算不出來了。SAM模型能夠通過大模型海量訓練數據,分割鍵盤上的一顆顆按鍵,加上智源研究院推出的分割模型SegGPT,它的能力是如果我想把所有叫“可樂”的東西都摳出來,點一下某瓶可樂,它就把所有的可樂都出來。
當我們把這兩種大模型技術結合起來時,可以做到高精度的按需來數數的能力,這個就很好的解決了過去這麼多年傳統的小模型在CV領域沒能解決的很重要的產業落地的問題。
第三個維度,應用大模型中的小模型。我們在這次開源裡放進了量化實踐,可以做到4比特量化,量化之後這個模型尺寸只是4G的尺寸,這個意味着什麼?現在有很多新一代邊緣側小的推理芯片都已經可以做到8G的顯存了,意味着這種大模型中的小尺寸模型就可以放進去。這種邊緣側的這些芯片可能只是一二十美金一片,現在已經大量出現在很多應用領域,這也是很多傳統小模型賽道公司可以做的。這是我認爲的第三個維度,把大模型裡的小模型應用進去。
提問:智源“悟道”和LLaMA在發展戰略上相比,有沒有中國的特有之處?
林詠華:我們在中國比較在意數據質量,強調希望中文內容90%多是來源於國內互聯網。因爲畢竟國內互聯網的特色是有很好的管理方法,有互聯網許可,發在互聯網上的東西都是符合規範的。這是一個重要的跟LLaMA不一樣的地方。
至於發展戰略,這就看主體差異了,我們與Meta開源戰略不同。Meta把LLaMA研發出來,它本身有自己商用的那一套,貢獻給學術界做開源開放的研究探索。因此它發佈的是非商用的協議,希望能夠驅動純研究的探索,而不是驅動商業的。
首先,智源是個研究機構,希望推動學術發展,但同時智源承擔着作爲國內重要的AI大模型的牽頭創新體,我們希望早日看到大模型真的能夠產業落地,而不是隻停留在研究界。
其次,我們很清楚我們會持續迭代模型,不僅是不同的尺寸、不同的形態,甚至是同一個尺寸、同一個形態、同一個模型下,我們仍力求兩週後的版本比今天的版本更優秀,這也是我們幫助這個產業打磨好大模型往前走的道路。
提問:智源開發“悟道”的時候,是如何進行數據訓練的?
林詠華:智源有數據研究團隊,並且是我們2019年時就已經開始建立的團隊,它們一直持續的以合法的形式積累互聯網上的中文語料,就是“悟道”數據集。“悟道”數據集在我們內部一直是更新的,持續到今天,這是我們自己採集獲得的一個重要來源。當然,也有一些外部公開合法獲取的數據,但是那個數據拿回來要經過清洗。
但是相對於英文數據,我們嚴重缺少的是重要的高質量的數據,如中文書籍類的數據、中文文獻類的數據等等。在中文世界,它沒有像英文世界那麼開放,英文世界已經有這些做好的數據集,但是在中文世界沒有。中國的文獻集聚在各大出版社或者各個文獻平臺。
由於智源是個中立的非贏利機構,所以在北京市政府及相關機構的支持下,我們也獲得了一些重要的數據機構,願意把高質量的數據給到智源讓我們訓練這個,因爲它知道智源不是拿它賺錢,而是回饋產業。
提問:現在是不是類似BAT這樣的公司掌握越多的數據,它們就一定在這個“大模型”食物鏈最頂層?
林詠華:我覺得是這樣的。像大的互聯網公司,如果它們自己的模型是應用在它們自己的應用領域,無疑它們擁有的數據是最多的。例如小紅書、字節,它們有最多的視頻數據或者圖文數據,是互聯網這種類型的,它們開發的模型如果是服務於它們的應用領域,無疑是最多的。但是放眼國內各個行業所需要的基座模型,光有這種數據是不行的,還需要很多知識性數據,缺乏的那些數據也沒在它們那。類似天鷹這種最基礎性、最通用性的模型,還是需要各家力量一起,可以把數據開放、合理使用的問題去解決。
提問:大模型在目前應用過程中會產生一些杜撰的問題,您怎麼看這個問題?解決的路徑是什麼?
林詠華:基於大模型有很多隨機與概率作爲理論的基礎,所以很難百分之百消滅這個事情。我們需要用不同的方法,讓這樣的發生儘量的減少。
從研發角度,有一些是現在可以做的事情,有一些則需要研究。
現在可以做的事情:第一還是數據問題。現在海量數據讓模型訓練時,有可能海量數據裡對於某個概念或某個認知,裡面同時存在兩份定義,這兩份定義有矛盾或者有差異。打個比方,醫學名詞,有專業的醫學典著裡的定義,也有可能出現在某些名科上,所以本身在訓練語料裡可能出現對同一個事情不同的聲音。因爲太海量了,所以我們一直在做過濾,尤其對重要的領域、嚴肅的領域,我們需要過濾掉不正確的定義或者有偏差的定義,儘量有比較官方的定義,而避免出現我問一個問題,它看到有兩個答案,也不知道回答哪個答案,所以第一是需要從數據的角度去做回答功夫。
第二個是解決一些事實性的問題。現在比較有效的方法是疊加外部知識的增強。打個比方,怎樣通過大模型技術和檢索技術的結合,把外部的數據庫、外部的知識庫和外部企業重要的信息系統打通,因爲我們不可能把所有的知識、重要的條例等等全部讓大模型去學,並且效率可能也不夠、不好,這是個重要的研發領域。但現在用大模型和檢索技術結合,把外部的知識體系引進來,這個是切實可行的。
第三個則是還需要在研究中不斷摸索。現在有一些研究學者在不斷探究怎樣修改模型裡的結構,包括一些基礎理論,讓它可以減少不確定性。目前,第三點還在研究裡摸索,沒有像前面第一步、第二步那樣切實可行。
提問:之前業內觀點認爲TOP模型變得越來越閉環,他們說GPT3.5很詳細,但是GPT4.0一直沒有公佈,您怎麼看TOP模型未來開源和閉源的,思想搏弈是爲什麼?
林詠華:我覺得這裡沒有對錯,更多是主體和背後的機構的訴求。因爲現在TOP模型只能是互聯網大廠或者特別有實力的機構才能做。他們投入了那麼高昂的經費去做,比如千億模型需要大幾千萬,這種情況下,本身它是個商業機構,它決定閉源這個戰略是很正常的,因爲它要考慮怎樣讓這個投資可以有回報,所以站在它的立場是一個很正確的決定。
對於智源的特殊性來說,因爲我們是中立的研發機構,又是非贏利的,又是在科技部和北京市支持下發展。發展過程中,智源希望對產業有更多技術影響和回報,所以這決定了智源通過開源,尤其是商用可用的開源去做。
所以這裡沒有對錯,而是主體本身的性質來決定。OpenAI也不是第一天就閉源,它當時也是開源,但是當它面對跟微軟達成合作,就不得不做這樣一個選擇。
提問:一些企業基於開源生態去訓練模型,能夠發展成爲TOP模型嗎?
林詠華:我覺得是可以的。第一,今天國內的某些有資金實力的互聯網大廠,也是基於開源繼續往前去走,做它認爲自己業務和應用所需要的TOP的模型。
第二,這些年AI領域受益於開源,如果沒有開源,AI不會發展到今天,每次AI都是站在別人的肩膀上往前走。我相信,基於開源去做,可以讓大家走得更快。
提問:我國目前有超過30個城市建設或者提出建設智算中心,其中近10個城市智算中心投入運營,爲當地各行各業提供算力支撐,這對我國AI產業發展有怎樣的作用?
林詠華:這兩年不斷推動和發展智算中心,包括利用“東數西算”。我們欣喜的看到“東數西算”慢慢有些節點,因爲“東數西算”不是一開始就做智算這塊的,我們所定義的“智算”需要有AI加速計算能力。在過去兩年大模型的拉動下,有越來越多“東數西算”的節點,把它在新的數據中心打造成智算中心,這對AI產業發展尤其國內的產業發展很有幫助。
這裡一方面有充沛的算力,更重要的是它這樣做可以幫助拉動我們AI算力的成本。因爲大家要知道,在AI算力方面,無論用英偉達,還是國內新的AI芯片,這裡最後的使用成本有很大一部分是電費。這個電費基於不同芯片的能耗比、不同區域電費的高昂,通常會佔到使用成本的大概10%,甚至更高。但是咱們國內城市電費的差異可能差好幾倍,所以如果在電力能源充裕的地方和電力電費更低的地方去發展智算中心,無疑會大大降低大家的算力成本,這是很明顯、很有必要和很應該做的。