面壁智能發佈新一代端側大模型
9月5日,AI初創企業北京面壁智能科技有限責任公司(簡稱面壁智能)推出新一代端側大模型——MiniCPM 3.0。
據瞭解,此次發佈的MiniCPM 3.0是面壁智能“小鋼炮”系列的最新產品。面壁智能CTO曾國洋在接受澎湃科技(www.thepaper.cn)採訪時介紹,MiniCPM3.0在上下文處理長度、Function Calling等方面進行了全面升級。在性能上超越瞭如阿里的Qwen2-7B和智譜的GLM4-9B等知名模型,在包括自然語言理解、知識、代碼、數學等多項能力上超越OpenAI的 GPT-3.5。
曾國洋介紹,在長文本技術上通過引入LLMxMapReduce長文本分幀處理技術,通過將長文本切分片段並行處理,再彙總答案,MiniCPM 3.0實現了無限長度的文本處理能力,使上下文長度從32K、128K拓展至512K甚至更高。
曾國洋表示,通過該項技術,可以打破大模型的記憶限制,使用戶可以讓模型一次性處理整本書籍、海量學術論文或是跨年聊天記錄,提升端側AI的實際應用能力。
據介紹,MiniCPM 3.0的Function Calling功能也得到了增強,能夠調用端上的各種工具和函數,擴展了模型的應用邊界,並配合RAG外掛知識庫技術使端側模型在實際應用中有多功能性。
面壁智能CEO李大海稱,正積極推動端側大模型商業落地,明年會有配備端側模型的終端設備開始量產,包括手機和PC等設備。據瞭解,面壁智能已與多家企業展開合作,推動端側大模型技術落地應用。在8月21日的世界機器人大會上,面壁智能與加速進化機器人合作,將MiniCPM模型植入人形機器人,作爲機器人的“大腦”,接收人的指令並執行動作。面壁智能方認爲,端側模型進入機器人的挑戰要高於手機和 PC,但卻是面向最終極的應用。
面壁智能成立於2022年8月,專注大模型技術創新與應用轉化。其創始團隊主要來自於清華大學自然語言處理實驗室(THUNLP),公司CEO李大海兼任知乎CTO(首席技術官);另一位公司聯合創始人劉知遠,則是清華大學計算機系副教授、博士生導師,研究方向爲計算機自然語言處理。
今年4月,該公司完成新一輪數億元融資,由春華創投、華爲哈勃領投,北京市人工智能產業投資基金等跟投。