☰

萬千氣象看上海｜商湯最新大模型叫板GPT-4 Turbo｜尋找中國經濟新動能·魔都“模”力

4月24日，商湯科技突然在港交所宣佈暫停交易，此前股價飆漲31.15%。之所以出現如此漲幅，與該公司23日發佈的“日日新5.0”大模型密切相關。

據商湯科技董事長兼CEO徐立介紹，最新模型採用MoE混合專家架構，基於超過10TB tokens（模型處理文本時的基本單位）訓練，支持200K推理上下文窗口。作爲參考，MiniMax早於商湯前幾日發佈的最新模型，同樣支持200k tokens的上下文長度，可在1秒內處理近3萬字的文本。

“日日新5.0”所採用的MoE混合專家架構，是一種在深度學習模型Transformer架構基礎上的擴展，它通過集成多個專家模型來處理不同的輸入數據，從而提高模型的性能和效率。

在處理大規模參數模型方面，MoE架構能夠更好地平衡計算成本與模型參數規模。馬斯克旗下人工智能公司xAI發佈的Grok-1，以及近期崑崙萬維所發佈的天工2.0大模型均這一架構。

但資本市場看重的不只是模型架構本身，而是與大模型公司爭相追趕的GPT-4相比較的結果。從商湯公佈的測試結果來看，“日日新5.0”在知識、推理、數學、代碼等方面的能力，已全面對標GPT-4 Turbo。相較於Open推出的GPT-4版本，GPT-4 Turbo在多個關鍵能力上進行了提升，包括但不限於寫作、數學運算、邏輯推理及編碼能力。

徐立還將“日日新5.0”與Midjourney、stable diffusion 3進行對比，試圖展示其在高清長圖解析和理解、文生圖交互式生成、跨文檔知識抽取、總結問答展示等場景中的能力。 Midjourney與stable diffusion 3都可以通過輸入提示詞而生成圖像。

自“百模大戰”號角吹響，國內基礎大模型領域內的活躍玩家數量並沒有變多，反而是不斷減少，技術路線也趨於統一。儘管業內對開源與閉源存在諸多爭論，但訓練數據質量、模型具體參數和算力等基礎設施的建設已成爲主要競爭點。

作爲2014年便入局人工智能領域的科技企業，商湯在計算機視覺領域一直走在前列，其DeepID系列人臉識別算法準確率據稱高達98.52%，首次超過人眼識別準確率的記錄。

伴隨AI東風，這家由湯曉鷗創辦的公司於2021年末成功於港股掛牌上市。

在OpenAI掀起的大模型熱潮中，商湯同樣起步很早。2019年，該公司曾發佈10億參數規模的視覺模型，四年後又發佈了“日日新”大模型體系、開源多模態大模型“書生2.5”等，這些都爲商湯在大模型算法戰役中積累了不少彈藥。

商湯科技聯合創始人、首席科學家王曉剛認爲，語言模型、多模態模型等模型之間存在着密切關聯，以文生視頻模型爲例，在網絡架構、數據生產的管線研發等流程上都需要借鑑文生圖模型。這種模型之間的關聯性決定了經驗可不斷累積，誰的經驗更豐富，誰就有可能佔有更多優勢。

針對大模型所需的算力與數據方面，商湯相關基礎設施體系的建設也比較完備。

公開數據顯示，該公司目前已經儲備有45000塊GPU，算力規模達到12000P，預計在今年年底會進一步增加至16000P。

商湯科技聯合創始人、大裝置事業羣副總裁陳宇恆表示，商湯目前的數據處理引擎每天可以處理超過兩萬億個token的數據清洗（對數據集進行預處理的關鍵步驟）和蒸餾任務（一種知識轉移技術），爲大模型迭代供給數據。

藉助技術先發優勢、基礎設施和上市後的資金儲備，商湯成爲國內基礎大模型公司中的有力競爭者之一。但經過2023年的混戰之後，國內大模型進入商業落地的關鍵階段，商湯也需要向市場證明其大模型的商業價值。

智能算力緊缺的大背景下，大模型的推理成本一直是阻礙落地的重要因素。爲了讓更多場景以更低成本使用大模型，將部分推理任務放置在端側、降低雲端調用的算力成本，是商業落地的一個重點。

一位邊緣計算從業者告訴界面新聞，一方面，大模型端側部署利於保護數據安全；另一方面，將推理任務放在端側能夠隨時隨地進行調用，在自動駕駛等對響應速度高要求的場景中更貼合客戶需求。

爲了進一步提升性能，手機、PC廠商也於去年開始積極嘗試接入大模型。小米宣佈能在手機端側運行60億參數大模型，vivo也發佈了其自研的藍心大模型，PC品牌中聯想則推出了ThinkPad X1 Carbon AI等AI PC產品。這些消費級產品的發佈進一步拓展了端側大模型的市場規模。

據王曉剛透露，端側大模型的普及和推廣會是商湯今年的一個戰略重點。過去一年裡，商湯已針對各種端側芯片平臺做了大量的優化。此次商湯不僅推出了端側大模型SenseChat-Lite 1.8B，還面向金融、代碼、醫療等領域，推出了邊緣產品“商湯企業級大模型一體機”，足見其對端側大模型應用的重視程度。

從財報數據來看，商湯已經取得了一定進展，2023年生成式AI收入同比增長199.9%，與傳統AI、智能汽車一起，成爲其三大業務。

商湯也趕上了相關政策大力扶持的好時候。爲推進大模型商業落地，上海市相繼發佈了《上海市促進人工智能產業發展條例》、《上海市推動人工智能大模型創新發展若干措施（2023-2025年）》，在算力、數據、大模型示範應用等方面都制定了相關政策。

該公司於2023年年報中表示，未來將持續擴充算力規模、提升基礎設施和大模型的綜合服務能力，持續投入日日新模型體系的迭代，同時通過雲+端結合等創新優化策略，讓模型推理成本迅速降低，打開更廣闊的應用前景。

萬千氣象看上海｜商湯最新大模型叫板GPT-4 Turbo｜尋找中國經濟新動能·魔都“模”力

相關資訊