國產大模型被抄襲事件告終 斯坦福團隊致歉並撤下模型 面壁:知錯能改,善莫大焉
出品|本站科技《態度》欄目
作者|丁廣勝
斯坦福Llama3-V團隊的終於向面壁智能團隊正式道歉。
事情緣起於5月29日,斯坦福大學的一個研究團隊發佈了一個名爲Llama3V的模型,號稱只要500美元就能訓練出一個 SOTA 多模態模型,且效果比肩 GPT-4V、Gemini Ultra 與 Claude Opus。
一時間備受關注,該AI團隊背景豪華。3名作者擁有斯坦福大學、特斯拉、SpaceX的名校和企業背景。
但讓人大跌眼鏡的是,Llama3V與中國AI企業面壁智能在5月發佈的8B多模態開源小模型MiniCPM-Llama3-V 2.59高度重合。
6月2日,有人在 Llama3-V的 Github 項目下提出質疑,但留言很快被刪除。而後,事件引起面壁智能團隊注意。
面壁團隊通過測試 ,發現斯坦福大模型項目Llama3-V與MiniCPM一樣,可以識別出“清華簡”戰國古文字,“不僅對得一模一樣、連錯得都一模一樣”。
最後,斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和 Aksh Garg在X上就抄襲行爲向面壁智能團隊正式道歉,並表示會將Llama3-V模型撤下。
事件各方表態
面壁智能CEO李大海針對斯坦福團隊的Llama3V項目與面壁小鋼炮的相似案例談到,這項工作是團隊同學耗時數個月,從卷帙浩繁的清華簡中一個字一個字掃描下來,並逐一進行數據標註,融合進模型中的。更加tricky的是,兩個模型在高斯擾動驗證後,在正確和錯誤表現方面都高度相似。
李大海無奈的說道,技術創新不易,每一項工作都是團隊夜以繼日的奮鬥結果,也是以有限算力對全世界技術進步與創新發展作出的真誠奉獻。我們希望團隊的好工作被更多人關注與認可,但不是以這種方式。
“我們對這件事深表遺憾!一方面感慨這也是一種受到國際團隊認可的方式,另一方面也呼籲大家共建開放、合作、有信任的社區環境。一起加油合作,讓世界因AGI的到來變得更好!”
對此,面壁智能聯合創始人、首席科學家劉知遠也作出迴應。
劉知遠表示,已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼,比較有意思的證據是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋,就是對清華簡的識別能力。這是我們從清華簡逐字掃描並標註的數據集,並未公開,而Llama3-V展現出了一模一樣的清華簡識別能力,連做錯的樣例都一樣。
“人工智能的飛速發展離不開全球算法、數據與模型的開源共享,讓人們始終可以站在SOTA的肩上持續前進。我們這次開源的 MiniCPM-Llama3-V 2.5就用到了最新的Llama3作爲語言模型基座。而開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬。”
劉知遠指出,Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface刪庫,該團隊三人中的兩位也只是斯坦福大學本科生,未來還有很長的路,如果知錯能改,善莫大焉。
劉知遠談到,這次事件還讓我感慨的是過去十幾年科研經歷的斗轉星移。回想2006年我讀博時,大家的主要目標還是能不能在國際頂級會議上發篇論文;到2014年我開始做老師時,就只有獲得國際著名會議的最佳論文等重要成果,纔有機會登上系裡的新聞主頁;2018年BERT出來時,我們馬上看到了它的變革意義,做出了知識增強的預訓練模型ERNIE發在ACL 2019上,當時以爲已經站到國際前沿了;2020年OpenAI發佈了1700+億參數GPT-3,讓我們清醒認識到與國際頂尖成果的差距,知恥而後勇開始了“大模型”的探索;2022年底OpenAI推出的ChatGPT,讓大衆真切感受到AI領域國內外的差距,特別是2023年Llama等國際開源模型發佈後,開始有“國外一開源、國內就自研”說法;而到了2024年的今天,我們也應該看到國內大模型團隊如智譜-清華GLM、阿里Qwen、DeepSeek和麪壁-清華OpenBMB正在通過持續的開源共享,在國際上受到了廣泛的關注和認可,這次事件也算側面反映我們的創新成果也一直受到國際關注。
他提到,從橫向來看,我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距;同時,從縱向來看,我們已經從十幾年的nobody,快速成長爲人工智能科技創新的關鍵推動者。面向即將到來的AGI時代,我們應該更加自信積極地投身其中。
何爲面壁小鋼炮
今年5月,面壁小鋼炮 MiniCPM 系列,再次推出最強端側多模態模型 MiniCPM-Llama3-V 2.5,且支持30+ 多種語言。
MiniCPM 是以「以小博大」著稱的旗艦端側模型,也不斷推新端側多模態能力天花板—— MiniCPM-Llama3-V 2.5實現了「以最小參數,撬動最強性能」的最佳平衡點。
(OpenCompass 榜單變化顯示小參數、高性能模型成爲趨勢)
從評測結果看,MiniCPM-Llama3-V 2.5以8B 端側模型參數量級,貢獻了驚豔的 OCR(光學字符識別)SOTA 成績,以及端側模型中的最佳多模態綜合成績與幻覺能力水平。
在綜合評測權威平臺 OpenCompass 上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模態“巨無霸” GPT-4V 和 Gemini Pro。
OCR(光學字符識別)是多模態大模型最重要的能力之一,也是考察多模態識別與推理能力的硬核指標。新一代 MiniCPM-Llama3-V 2.5在 OCR 綜合能⼒權威榜單 OCRBench 上,越級超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等標杆模型,實現了性能 SOTA。
在評估多模態大模型性能可靠性的重要指標——幻覺能力上,MiniCPM-Llama3-V 2.5在 Object HalBench 榜單上超越了 GPT-4V 等衆多模型(注:目標幻覺率應爲0)。
在旨在評估多模態模型的基本現實世界空間理解能力的 RealWorldQA 榜單上,MiniCPM-Llama3-V 2.5再次超越 GPT-4V 和 Gemini Pro,這對8B 模型而言難能可貴。
值得注意的是,該模型首次進行端側系統加速,MiniCPM-Llama3-V 2.5已高效部署手機。
在圖像編碼方面,面壁首次整合 NPU 和 CPU 加速框架,並結合顯存管理、編譯優化技術,在 MiniCPM-Llama3-V 2.5圖像編碼方面實現了150倍加速提升。
在語言模型推理方面,目前開源社區的報告結果中,Llama 3語言模型在手機端側的解碼速度在0.5 token/s 上下,相比之下,多模態大模型的端側運行面臨着更大的效率挑戰,經過 CPU、編譯優化、顯存管理等優化方式,面壁將 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。
有別於常見的中英雙語模型,MiniCPM-Llama3-V2.5可支持30+ 多種語言,包括德語、法語、西班牙語、意大利語、俄語等主流語言,基本覆蓋一帶一路國家。
總結起來就是,通過一系列自研技術,小鋼炮系列開創的高清圖像識別(1344 * 1344分辨率)、強大 OCR 能力等,仍得到延續。8B 體量的新一代 MiniCPM-Llama3-V 2.5,仍帶來一系列驚豔亮點。
- 最強端側多模態綜合性能:超越多模態巨無霸 Gemini Pro 、GPT-4V
- OCR 能力 SOTA!180萬像素更清晰,難圖長圖長文本精準識別
- 量化後僅8G顯存,4070顯卡輕鬆推理,並可在手機端以6-8tokens/s 速度高效運行;
- 圖像編碼快150倍!首次端側系統級多模態加速;
- 支持30+ 多種語言
作爲面壁小鋼炮系列的最新模型,MiniCPM-Llama3-V 2.5在主流評測基準的多模態綜合性能達到了 GPT-4V 水平,具有優秀的 OCR 能力、任意長寬比高清圖理解能力、可信回答能力和多語言交互能力。
面壁方面表示,通過一系列端側優化技術,該模型可以在手機端部署及高效運行。MiniCPM-Llama3-V 2.5展示出了端側多模態大模型的巨大潛力,相信在不久的將來,會有更多更加強力的大模型出現在用戶移動端,提供可靠安全的智能服務,提升用戶生活工作效率,惠及更多應用場景。