股價漲超30%後暫停交易,商湯日日新5.0有何亮點?

21世紀經濟報道記者 董靜怡 上海報道

4月23日,商湯科技SenseTime舉辦技術交流日活動,發佈了商湯“日日新SenseNova5.0”。

自去年4月首次發佈,商湯“日日新SenseNova”大模型體系已正式推出五個大版本迭代。基於超過10TB tokens訓練、覆蓋大量合成數據,“日日新SenseNova 5.0”(以下簡稱:日日新5.0)採用混合專家架構(MoE),推理時上下文窗口可以有效到 200K 左右。

據悉,本次更新主要聚集增強了知識、數學、推理及代碼能力,對標GPT-4 Turbo,主流客觀評測上達到或超越GPT-4 Turbo。

4月24日開盤後,商湯股價大漲,一度漲超36%。上午11點15分,商湯科技公告臨時停牌。截至停牌,公司股價爲0.80港元/股,漲幅達31.15%,總市值達268億港元。

商湯科技迴應21世紀經濟報道記者稱,昨日日日新大模型5.0發佈會廣受好評,受到市場極大關注;依照上市規則及港交所建議,公司將進一步刊發相關公告。

下午,商湯發佈公告表示,董事會注意到最近B類股份的交易價格及交易量發生不尋常波動,B類股份於4月24日上午11時15分起暫停買賣。公司已向聯交所申請B類股份於4月25日上午9時正起恢復買賣。

突破數據瓶頸

如何完成日日新5.0的升級?商湯科技董事長兼CEO徐立在技術交流日點出了關鍵路徑。

“商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。”徐立表示。

大模型的研發在行業當中有一條大家認知的基本法則,業內稱之爲“Scaling Law 尺度定律”。在尺度定律通常意義下,隨着模型的參數變大、數據量變大、訓練時長加長,則算法性能會越來越好。因此,要形成通用人工智能模型,對於算力的消耗就變成一種必然要求。

徐立表示,實際上還有兩條隱藏的假設,第一,可預測性,在小尺度上做很多實驗,跨越5-7個數量級尺度依然保持對性能的準確預測;第二,保序性,在小尺度上驗證了性能優劣,在更大尺度上依然保持。

“尺度定律是資源配置的引導器,可以指導我們在有限的研發資源上找到最優的模型架構和數據配方,讓模型能夠更高效地完成學習的過程。”徐立表示。

基於實驗結果,小模型在優化數據的情況下,性能可逼近甚至超越跨數據級的大模型。然而,數據一直是AI持續提升的瓶頸,也是日日新5.0最主要的提升之一。

在知識層面上,日日新5.0採用了超過10TB的Tokens,這確保了高質量數據的完備性,爲模型提供了豐富的知識基礎。

在推理層面上,日日新5.0通過合成構造思維鏈數據,這種數據構造方法有助於模型更好地理解和推理行業特定的邏輯和知識。

據介紹,在文科能力方面,“日日新5.0”的創意寫作能力、推理能力及總結能力均有提升,相同的中文知識注入後,可獲得更好的理解總結及問答,爲教育、內容產業等垂直應用場景提供輔助。在理科能力方面,“日日新5.0”數理能力、代碼能力及推理能力提高,爲金融、數據分析等場景落地提供基礎。

多模態能力上,支持高清長圖的解析和理解以及文生圖交互式生成,實現複雜的跨文檔知識抽取及總結問答展示,以及具備豐富的多模態交互能力。

徐立表示,“日日新 5.0 大模型體系綜合能力全面對標GPT-4 Turbo,技術領跑加速生成式AI向產業落地的全面躍遷。”

端雲協同

過去的一年,雲端的大模型在各個行業都是有了廣泛的應用。但智能終端,如手機、PC、汽車,也是通用人工智能應用的一個非常廣泛的載體和場景。

徐立表示,今年是大模型在端側應用爆發的元年,“端側能力的應用其實是大模型鋪開最核心的關鍵。”

爲了滿足移動終端用戶對大模型技術的應用需求,商湯此次也推出了1.8B(18億)參數規模的端側大模型。據瞭解,其在中端平臺實現18.3字/s的平均生成速度,旗艦平臺達到78.3字/s。

另一方面,端側大模型的也是彌補雲端的不足。

首先是模型性能與成本平衡的挑戰。商湯科技聯合創始人、首席科學家王曉剛在日前接受21世紀經濟報道記者採訪時表示,如果幾十億個端側設備都在不停地調用雲端大模型,將需要消耗巨大算力;另一方面涉及數據的傳輸和延遲,某些特定的場景應用需要快速決策。王曉剛舉例,在自動駕駛裡,大模型的部署必須發生在端側。

他進一步表示,不同的應用對於模型的準確率或體驗的要求是不一樣的,也就意味着,對於模型要求不是非常高的應用可以用端側模型。

因此,端雲協同解決方案應運而生,在端雲結合的架構中,端側設備(如智能手機、IoT設備等)上部署有較小的、針對特定任務優化的模型。這些模型可以快速響應用戶的需求,處理一些不需要大量計算資源的任務。

雲端則擁有更強大的計算資源和更大的模型,可以處理更復雜或需要大量數據的任務。雲端模型通常具有更多的參數,能夠提供更深層次的學習和推理能力。

端雲結合的MoE架構可以通過智能化判斷協同發揮端雲各自優勢,需要聯網搜索或處理複雜場景時分流至雲端處理,部分場景端側處理佔比超過80%,從而顯著降低推理成本。

王曉剛向記者表示,通過智能地選擇最合適的模型,端雲結合可以提供更快的響應時間和更準確的結果,從而優化用戶體驗。

商湯表示,將端側大模型應用的普及推廣作爲今年的戰略重點。

此外,對於金融、代碼、醫療、政務等重點行業邊緣側日益增長的AI應用需求,商湯還推出企業級大模型一體機。王曉剛認爲,與垂直行業相結合是體現模型“差異化”的一個關鍵指標,“而模型的應用價值在哪、還能朝哪些方向優化,這些需要行業進行牽引。”