萬千氣象看上海|商湯最新大模型叫板GPT-4 Turbo|尋找中國經濟新動能·魔都“模”力
4月24日,商湯科技突然在港交所宣佈暫停交易,此前股價飆漲31.15%。之所以出現如此漲幅,與該公司23日發佈的“日日新5.0”大模型密切相關。
據商湯科技董事長兼CEO徐立介紹,最新模型採用MoE混合專家架構,基於超過10TB tokens(模型處理文本時的基本單位)訓練,支持200K推理上下文窗口。作爲參考,MiniMax早於商湯前幾日發佈的最新模型,同樣支持200k tokens的上下文長度,可在1秒內處理近3萬字的文本。
“日日新5.0”所採用的MoE混合專家架構,是一種在深度學習模型Transformer架構基礎上的擴展,它通過集成多個專家模型來處理不同的輸入數據,從而提高模型的性能和效率。
在處理大規模參數模型方面,MoE架構能夠更好地平衡計算成本與模型參數規模。馬斯克旗下人工智能公司xAI發佈的Grok-1,以及近期崑崙萬維所發佈的天工2.0大模型均這一架構。
但資本市場看重的不只是模型架構本身,而是與大模型公司爭相追趕的GPT-4相比較的結果。從商湯公佈的測試結果來看,“日日新5.0”在知識、推理、數學、代碼等方面的能力,已全面對標GPT-4 Turbo。相較於Open推出的GPT-4版本,GPT-4 Turbo在多個關鍵能力上進行了提升,包括但不限於寫作、數學運算、邏輯推理及編碼能力。
徐立還將“日日新5.0”與Midjourney、stable diffusion 3進行對比,試圖展示其在高清長圖解析和理解、文生圖交互式生成、跨文檔知識抽取、總結問答展示等場景中的能力。 Midjourney與stable diffusion 3都可以通過輸入提示詞而生成圖像。
自“百模大戰”號角吹響,國內基礎大模型領域內的活躍玩家數量並沒有變多,反而是不斷減少,技術路線也趨於統一。儘管業內對開源與閉源存在諸多爭論,但訓練數據質量、模型具體參數和算力等基礎設施的建設已成爲主要競爭點。
作爲2014年便入局人工智能領域的科技企業,商湯在計算機視覺領域一直走在前列,其DeepID系列人臉識別算法準確率據稱高達98.52%,首次超過人眼識別準確率的記錄。
伴隨AI東風,這家由湯曉鷗創辦的公司於2021年末成功於港股掛牌上市。
在OpenAI掀起的大模型熱潮中,商湯同樣起步很早。2019年,該公司曾發佈10億參數規模的視覺模型,四年後又發佈了“日日新”大模型體系、開源多模態大模型“書生2.5”等,這些都爲商湯在大模型算法戰役中積累了不少彈藥。
商湯科技聯合創始人、首席科學家王曉剛認爲,語言模型、多模態模型等模型之間存在着密切關聯,以文生視頻模型爲例,在網絡架構、數據生產的管線研發等流程上都需要借鑑文生圖模型。這種模型之間的關聯性決定了經驗可不斷累積,誰的經驗更豐富,誰就有可能佔有更多優勢。
針對大模型所需的算力與數據方面,商湯相關基礎設施體系的建設也比較完備。
公開數據顯示,該公司目前已經儲備有45000塊GPU,算力規模達到12000P,預計在今年年底會進一步增加至16000P。
商湯科技聯合創始人、大裝置事業羣副總裁陳宇恆表示,商湯目前的數據處理引擎每天可以處理超過兩萬億個token的數據清洗(對數據集進行預處理的關鍵步驟)和蒸餾任務(一種知識轉移技術),爲大模型迭代供給數據。
藉助技術先發優勢、基礎設施和上市後的資金儲備,商湯成爲國內基礎大模型公司中的有力競爭者之一。但經過2023年的混戰之後,國內大模型進入商業落地的關鍵階段,商湯也需要向市場證明其大模型的商業價值。
智能算力緊缺的大背景下,大模型的推理成本一直是阻礙落地的重要因素。爲了讓更多場景以更低成本使用大模型,將部分推理任務放置在端側、降低雲端調用的算力成本,是商業落地的一個重點。
一位邊緣計算從業者告訴界面新聞,一方面,大模型端側部署利於保護數據安全;另一方面,將推理任務放在端側能夠隨時隨地進行調用,在自動駕駛等對響應速度高要求的場景中更貼合客戶需求。
爲了進一步提升性能,手機、PC廠商也於去年開始積極嘗試接入大模型。小米宣佈能在手機端側運行60億參數大模型,vivo也發佈了其自研的藍心大模型,PC品牌中聯想則推出了ThinkPad X1 Carbon AI等AI PC產品。這些消費級產品的發佈進一步拓展了端側大模型的市場規模。
據王曉剛透露,端側大模型的普及和推廣會是商湯今年的一個戰略重點。過去一年裡,商湯已針對各種端側芯片平臺做了大量的優化。此次商湯不僅推出了端側大模型SenseChat-Lite 1.8B,還面向金融、代碼、醫療等領域,推出了邊緣產品“商湯企業級大模型一體機”,足見其對端側大模型應用的重視程度。
從財報數據來看,商湯已經取得了一定進展,2023年生成式AI收入同比增長199.9%,與傳統AI、智能汽車一起,成爲其三大業務。
商湯也趕上了相關政策大力扶持的好時候。爲推進大模型商業落地,上海市相繼發佈了《上海市促進人工智能產業發展條例》、《上海市推動人工智能大模型創新發展若干措施(2023-2025年)》,在算力、數據、大模型示範應用等方面都制定了相關政策。
該公司於2023年年報中表示,未來將持續擴充算力規模、提升基礎設施和大模型的綜合服務能力,持續投入日日新模型體系的迭代,同時通過雲+端結合等創新優化策略,讓模型推理成本迅速降低,打開更廣闊的應用前景。