依靠羣體的力量:這家公司走出了一條不同於OpenAI的AGI路線
機器之心原創
作者:張倩
看過劇版《三體》的讀者或許都記得一個名場面:來自三體的智子封鎖了人類科技,還向地球人發出了「你們是蟲子」的宣告。但沒有超能力的普通人史強卻在蝗羣漫天飛舞的麥田中喊出:「把我們人類看成是蟲子的三體人,他們似乎忘了一個事實,那就是蟲子從來就沒有被真正地戰勝過」。
三體人看到的是單個蟲子脆弱的一面 —— 你可以輕鬆踩死一隻螞蟻,打死一隻蝗蟲、蜜蜂。但他們沒有看到的是,當這些蟲子集結在一起時,它們可以涌現出遠超個體簡單相加的力量。
科學家們很早就發現了這種力量,並將其命名爲「羣體智能」(Swarm Intelligence)。這種智能不是由某個中央大腦控制,而是通過個體間的簡單互動和信息交換自然形成的。它是一種集體智慧的體現,是自然界中一種奇妙而高效的協作方式。
其實,從宏觀上說,人類社會的不斷髮展和演化也是一種羣體智能現象,絕大多數文明成果都是人類個體在長期羣體化、社會化的生產生活中逐漸演化形成的產物。
那麼,人工智能的發展能否借鑑這種模式?答案自然是「能」。但長期以來,由於機器的個體智能化程度較低等原因,「羣體智能」遲遲難以涌現。
生成式 AI 的發展或許可以推動這些問題的解決,也讓「羣體智能」獲得了新一輪的關注。
「這波生成式 AI 相當於把個體的智能化水平提升上去了。而個體智能的提升,意味着羣體的智能有望實現指數級增長。」在近期的一次訪談中,RockAI CEO 劉凡平向機器之心表達了這樣的觀點。
RockAI 是一家成立於 2023 年 6 月的 AI 初創,他們自研了國內首個非 Attention 機制的 Yan 架構通用大模型,並將這個大模型部署在了手機、PC、無人機、機器人等多種端側設備上,還嘗試讓自己的大模型在這些設備上實現「自主學習」能力。
而這一切均服務於一個宏大的目標 —— 讓每一臺設備都擁有自己的智能,而且是可以像人類一樣實時學習、個性化自主進化的系統。劉凡平認爲,當這些擁有不同能力、不同個性的智能單元得以協同,即可完成數據共享、任務分配和策略協調,涌現出更爲宏大、多元的羣體智能,最終實現個性化與羣體智能的和諧統一,開啓人與機器的智能新時代。
那這一切怎麼去實現呢?在訪談中,劉凡平和鄒佳思(RockAI 聯合創始人)向機器之心分享了他們的路線圖和最新進展。
一條不同於 OpenAI 的 AGI 路線
前面提到,「羣體智能」的研究進展受限於單個個體的智能化程度,所以研究者們首先要解決的問題就是讓單個個體變得足夠聰明。
要說「聰明」,OpenAI 的模型可以說是出類拔萃。但從目前的情況來看,他們似乎更側重於訓練出擁有超級智能的單個大模型。而且,這條路線走起來並不容易,因爲它高度依賴海量的數據和計算資源,這在能源、數據和成本上都帶來了可持續性的問題。
此外,通過一個超級智能模型來處理所有任務是一種高度中心化的模式,這在實踐中容易出現智能增長的瓶頸,因爲單一模型缺乏靈活的適應能力和協作效應,導致其智能提升速度受到限制。
那麼,OpenAI 未來有沒有可能也走羣體智能的路線?這個問題目前還沒有明確答案。但可以看到的一點是,以該公司和其他大部分公司當前採用的 Transformer 架構去構建羣體智能的單個個體可能會遇到一些障礙。
首先是高算力需求的障礙。以 Attention 機制爲基礎的 Transformer 架構對計算資源的需求非常高,其計算複雜度爲 O (n^2)(n 爲序列長度)。這意味着隨着輸入序列的增長,計算成本急劇增加。在構建羣體智能時,我們需要多個單元大模型協同工作,而這些單元大模型往往部署在低算力的設備上(如無人機、手機、機器人等)。如果不經過量化、裁剪等操作,Transformer 架構的模型很難在低算力設備上直接部署。所以我們看到,很多公司都是通過這些操作讓模型成功在端側跑起來。
但對於羣體智能來說,光讓模型跑起來還不夠,還要讓它們具備自主學習的能力。在劉凡平看來,這一點至關重要。
他解釋說,在一個沒有自主學習的羣體中,最聰明的個體會主導其他智能體的決策,其他智能體只能跟隨它的指引。這種情況下,羣體智能的上限就是最聰明個體的水平,無法超越。但通過自主學習,每個智能體都可以獨立提升自身的智能水平,並逐漸接近最聰明的個體。而且,自主學習促進了知識共享,類似於人類的知識傳承。這樣,羣體中的所有智能體都會變得更聰明,羣體整體的智能水平有望實現指數級增長,遠遠超出簡單的個體累加。
而量化、裁剪等操作最致命的問題,就是破壞了模型的這種自主學習能力。「當一個模型被壓縮、量化、裁剪之後,這個模型就不再具備再學習的能力了,因爲它的權重已經發生了變化,這種變化基本是不可逆的。這就像我們把一個螺絲釘釘入牆中,如果在敲入的過程中螺絲釘受到損壞,那麼想要把它取出來重新使用就變得很困難,讓它變得更鋒利就變得不可能。」劉凡平解釋說。
講到這裡,實現羣體智能的路線其實就已經非常清晰了:
這其中的每個階段都不簡單:
這些難點就決定了,RockAI 必須走一條不同於 OpenAI 的路線,挑戰一些傳統的已經成爲「共識」的方法。
劉凡平提到,在前兩個階段,他們已經做出了一些成果,針對第三、四個階段也有了一些實驗和構想。
羣體智能的單元大模型 ——Yan 1.3
第一階段的標誌性進展是一個採用 Yan 架構(而非 Transformer 架構或其變體)的大模型。這個模型的 1.0 版本發佈於今年的 1 月份,爲非 Attention 機制的通用自然語言大模型。據瞭解,該模型有相較於同等參數 Transformer 的 7 倍訓練效率、5 倍推理吞吐和 3 倍記憶能力。而且,這一模型 100% 支持私有化部署應用,不經裁剪和壓縮即可在主流消費級 CPU 等端側設備上無損運行。
經過半年多的攻關,這一模型剛剛迎來了最新版本 ——Yan 1.3。
Yan 1.3 是一個 3B 參數的多模態模型,能夠處理文本、語音、視覺等多種輸入,並輸出文本和語音,實現了多模態的模擬人類交互。
儘管參數量較小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的訓練語料比 Llama 3 要少,訓練、推理算力也比 Llama 3 低很多。這在衆多非 Transformer 架構的模型中是一個非常領先的成績,其訓練、推理的低成本也讓它比其他架構更加貼近工業化和商業化。
這些出色的性能得益於高效的架構設計和算法創新。
在架構層面,RockAI 用一個名叫 MCSD(multi-channel slope and decay)的模塊替換了 Transformer 中的 Attention 機制,同時保留 Attention 機制中 token 之間的關聯性。在信息傳遞過程中,MCSD 強調了有效信息的傳遞,確保只有最重要的信息被傳遞給後續步驟,而且是以 O (n) 的複雜度往下傳,這樣可以提高整體效率。在驗證特徵有效性和 token 之間的關聯性方面,MCSD 表現優秀。
在算法層面,RockAI 提出了一種類腦激活機制。這是一種分區激活的機制,就像人開車和寫字會分別激活腦部的視覺區域和閱讀區域一樣,Yan 1.3 會根據學習的類型和知識範圍來自適應調整部分神經元,而不是讓全量的參數參與訓練。推理時也是如此。具體有哪些神經元來參與運算是由仿生神經元驅動的算法來決定的。
在今年的 GTC 大會上,Transformer 論文作者之一 Illia Polosukhin 提到,像 2+2 這樣的簡單問題可能會使用大模型的萬億參數資源。他認爲自適應計算是接下來必須出現的事情之一,我們需要知道在特定問題上應該花費多少計算資源。RcokAI 的類腦激活機制是自適應計算的一種實現思路。
這或許聽起來和 MoE 有點像。但劉凡平解釋說,類腦激活機制和 MoE 有着本質的區別。MoE 是通過「專家」投票來決定任務分配,每個「專家」的網絡結構都是固定的,其結果是可預測的。而類腦激活機制沒有「專家」,也沒有「專家」投票的過程,取而代之的是神經元的選擇過程。其中的每個神經元都是有價值的,選擇的過程也是一個自學習的過程。
這種分區激活機制在 MCSD 的基礎上進一步降低了 Yan 架構模型的訓練、推理計算複雜度和計算量。
「這也符合人類大腦的運行方式。人腦的功耗只有二十幾瓦,如果全部的 860 億個神經元每次都參與運算,大腦產生的生物電信號肯定是不夠用的。」劉凡平說道。目前,他們的類腦激活機制已經得到了腦科學團隊的理論支持和實際論證,也申請到了相關專利。
以端側設備爲載體,邁向羣體智能
在 Yan 1.3 的發佈現場,我們看到了該模型在 PC、手機、機器人、無人機等端側設備的部署情況。鑑於 Yan 1.2 發佈時甚至能在樹莓派上運行,這樣的端側部署進展並不令我們感到意外。
部署了 Yan 1.3 的無人機。無人機內置硬件爲 Jetson Orin NX + 5G 模組。
那麼,爲什麼一定要把模型部署在端側呢?雲端的模型不行嗎?鄒佳思提到,這是因爲模型要跟機器本體做高度適配。以機器人爲例,設備的很多參數是難以與雲端大模型融合。端側大模型更容易讓機器人肢體協調、大小腦協同工作。
視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650936264&idx=1&sn=0caf29b222e6af5c78faa730a7c0b036&chksm=84e7d7b6b3905ea0fe689d4776da60ed97d9459a3b7c9bdddbba252fd76a9bc9619b32d550ca&token=2042372117&lang=zh_CN#rd
部署了 Yan 1.3 的機器人。機器人內置硬件爲 Intel Core i3。
而且我們知道,這些端側智能體的潛力纔剛剛顯露。畢竟,以上創新的目標不只是讓模型能夠在端側跑起來(當前很多模型都能做到這一點),而是使其具備自主學習的能力,作爲「羣體智能的單元大模型」持續進化。無論是 Yan 架構的「0 壓縮、0 裁剪」無損部署,還是分區激活的高效計算,都是服務於這一目標。這是 RockAI 和其他專注於端側 AI 的公司的一個本質區別。
「如果我們拿一個 10 歲的孩子和一個 30 歲的博士來比,那肯定 30 歲的博士知識面更廣。但是,我們不能說這個 10 歲的孩子在未來無法達到甚至超越這位博士的成就。因爲如果這個 10 歲的孩子自我學習能力足夠高,他的未來成長速度可能比 30 歲的博士還要快。所以我們認爲,自主學習能力纔是衡量一個模型智能化程度的重要標誌。」劉凡平說道。可以說,這種自主學習能力纔是 RockAI 追求的「scaling law」。
爲了實現這種自主學習能力,RockAI 的團隊提出了一種「訓推同步」機制,即讓模型可以在推理的同時,實時有效且持續性地進行知識更新和學習,最終建立自己獨有的知識體系。這種「訓推同步」的運行方式類似於人類在說話的同時還能傾聽並將其內化爲自己的知識,對底層技術的要求非常高。
爲此,RockAI 的團隊正在尋找反向傳播的更優解,方法也已經有了一些原型,並且在世界人工智能大會上進行過展示。不過,他們的方法原型目前仍面臨一些挑戰,比如延遲。在後續 Yan 2.0 的發佈中,我們有望見到原型升級版的演示。
那麼,在每一臺設備都擁有了智能後,它們之間要怎麼聯結、交互,從而涌現出羣體智能?對此,劉凡平已經有了一些初步構想。
首先,它們會組成一個去中心化的動態系統。在系統中,每臺設備都擁有自主學習和決策的能力,而不需要依賴一箇中央智能來控制全局。同時,它們之間又可以共享局部數據或經驗,並通過快速的通信網絡互相傳遞信息,從而在需要時發起合作,並利用其他智能體的知識和資源來提升任務完成的效率。
路線「小衆」,挑戰與機遇並存
縱觀國內 AI 領域,RockAI 走的路可以說非常「小衆」,因爲裡面涉及到非常底層的創新。在硅谷,有不少人在做類似的底層研究,就連「神經網絡之父」Hinton 也對反向傳播的一些限制表示過擔憂,特別是它與大腦的生物學機制不符。不過,大家目前都還沒有找到特別有效的方法,因此這一方向還沒有出現明顯的技術代差。對於 RockAI 這樣的國內企業來說,這既是挑戰,也是機遇。
對於羣體智能,劉凡平相信,這是一條邁向更廣泛的通用人工智能的路線,因爲它的理論基礎是非常堅實的,「如果沒有羣體智能,就沒有人類社會的文明,更不會有科技的發展」。
而且,劉凡平認爲,羣體智能所能帶來的生產力變革比擁有超級智能的單個大模型所能帶來的更全面、更多樣。隨着自主架構大模型的研發成功和多元化硬件生態的構建,他們相信自己正在逐漸接近這一目標。
我們也期待看到這家公司的後續進展。
https://news.sciencenet.cn/sbhtmlnews/2023/2/373354.shtm
http://lib.ia.ac.cn/news/newsdetail/68393
https://www.shxwcb.com/1205619.html
https://mp.weixin.qq.com/s/t6TurjgHHxmC2D--c9-fcg