對話傳神副總裁藺偉:以“數推分離”解大模型落地困局
大模型技術正加速走向商業應用。然而,真正將大模型落地企業場景的過程中,問題遠比想象中複雜。
目前,常見的主流大模型多采用數據與推理一體化的模式,這種模式難以持續不斷地實時學習企業業務知識,是大模型商業化的核心痛點之一。一方面,企業的數據是訓練模型成爲行業專家的基礎,但數據外流存在安全隱患,企業對公有云方案存疑;另一方面,企業自行訓練大模型成本高昂,不僅需要大規模算力和人才支持,傳統的微調模式還可能削弱模型的通用能力,使得整體效益難以爲繼。
OpenAI首席執行官薩姆·奧特曼曾在麻省理工學院的一次對話中提到,GPT-4在推理速度、算力成本等方面存在瓶頸,GPT-5將嘗試“數據與推理分離”的新策略。面對相似的問題,中國企業同樣在尋找可行路徑。
傳神語聯以“雙網絡架構”爲核心,推出了“數推分離”大模型技術。用副總裁藺偉的話來說,這種架構好比“兩個協同聯動的大腦”:一個負責學習客戶的數據,確保動態管理和迭代訓練;另一個作爲預訓練的推理網絡,專注於高效的推理和泛化能力。
不同於主流的技術路線,“數推分離”大模型不再一味追求大參數、海量數據的暴力增長,而是通過算法和架構的優化,讓企業以更低成本實現更高效的大模型能力。身處百模大戰中,傳神語聯爲什麼走向了一條與主流路徑不同的技術路線?又憑什麼能在這條與衆不同的路上實現突破?(袁寧)
以下爲《本站科技》與傳神語聯副總裁藺偉的交流,內容經編輯整理。
本站科技:傳神語聯相比其他大模型公司,技術優勢體現在哪裡?
藺偉: 我們的技術優勢主要體現在以下幾點:
一是雙網絡架構:傳統大模型通常採用單網絡架構,將預訓練網絡與用戶數據網絡混合在一起。這種方式在處理用戶動態數據時效率較低,同時可能導致基礎網絡退化。我們創新性地將兩者分離,用戶數據通過獨立的網絡處理,既能快速適應企業知識更新,又避免影響基礎網絡的性能和通用性。
二是高效的智慧轉化能力:我們的算法特別注重數據向智慧的轉化能力。簡單來說,相同的數據量,我們的模型能提煉出更高密度的知識和邏輯,而不是僅堆積冗餘數據。
三是全棧自主研發:我們團隊從底層算法庫到框架完全自主研發,這讓我們在調整模型結構、優化算法時擁有極高的靈活性。相比於依賴開源框架的企業,我們可以更快地響應企業需求,提供定製化解決方案。
本站科技:傳神語聯爲什麼會走向一條與主流方向不同的技術路線?
藺偉:回答這個問題,我們需要先理解不同公司背景的差異。以OpenAI爲例,它本質上是一個科研機構,而非盈利機構。從一開始,OpenAI的目標就是專注於前沿技術的探索,背後有充足的資金和資源支持。它無需考慮商業化帶來的盈利壓力,可以採取‘暴力美學’的方式,不計成本地追求技術上的極致。
對傳神語聯而言,我們的資源有限,必須從一開始就注重效率和可行性。我們的目標是用更低的成本實現同樣的智能效果,因此在技術選擇上,我們更加註重算法優化和架構創新,而非單純依靠堆算力和擴參數規模。我們清楚地計算過技術與商業化之間的賬,明白只有在有限資源的情況下找到一條獨特的路徑,才能實現可持續發展。
這種思路使我們走上了與OpenAI不同的技術路徑。這也解釋了爲什麼中國的大型科技公司,如華爲和阿里巴巴,可以嘗試類似OpenAI的路徑,而對於像傳神語聯這樣的創業公司來說,我們必須兼顧技術路徑和商業化需求,找到二者的平衡點。因爲儘管從技術角度看,“暴力美學”是一條捷徑,但從商業角度,它卻是一條困難重重的道路。這也是爲什麼我們能夠在技術上走出一條獨特道路的原因。
本站科技:同樣的技術路線還有別的企業在做嗎?
藺偉:在美國,已經有不少企業在探索類似的基於非標準Transformer架構的小參數模型。比如,微軟正在研發自己的模型Phi-3,這個模型在Transformer架構基礎上做了優化與創新。此外,還有像‘曼巴’(Mamba)這樣的新興技術,也在嘗試不同的路徑,避免完全依賴當前主流的架構設計。
我覺得對於算法架構的優化或探索,是行業發展的必然趨勢。從長遠來看,無論是出於降低成本的需求,還是提升模型效率的考慮,大模型技術的創新都會不斷深入。即便是OpenAI,未來可能也會調整其現有的架構,嘗試更加高效和低成本的技術路線。
本站科技:能否介紹一下傳神語聯的核心技術團隊?
藺偉: 自公司創立以來,傳神就選擇了國產原創這條路。我們的核心技術團隊也專注在AI技術領域,他們主要專注於重構和優化大模型算法的基礎架構,曾經參與過中國第一代指紋識別算法的開發。之後他們將目光轉向自然語言處理,並在傳神語聯的平臺上不斷創新。
本站科技:如果算生意賬的話,對於企業而言,token成本其實一直是在下降的,這方面我們有優勢嗎?
藺偉:那是公有云,我認爲絕大部分央國企幾乎不會用公有云或API的方式,一定是私有部署。因爲所有部署都要考慮安全的問題,中小企業肯定不是我們的市場,我們還是做中大型企業的思維。
本站科技:傳神語聯的商業模式是怎樣的?
藺偉: 目前主要還是通過大客戶進行私有云部署的模式,爲他們提供知識管理相關的解決方案。
本站科技:這部分市場有多大?
藺偉:我們可以類比中國的計算機市場或服務器市場。服務器大多是企業直接採購用於內部部署,而不是依賴IDC(互聯網數據中心)或公有云。類似地,大模型市場也分爲兩部分:一部分是面向公有云服務的市場,另一部分是企業私有化部署的市場。
我們專注的是企業私有化部署的領域,至少有數百億的潛力空間,能夠容納許多公司在其中找到定位。
本站科技:您怎麼看待模型層“贏家通吃”的觀點?
藺偉: 我不認同這種觀點。大模型並不像互聯網平臺那樣具有網絡效應,其本質更接近於計算機行業。即便是同一行業的不同企業,其對模型的需求也千差萬別。未來的大模型市場不會是一家獨大的局面,而是多種模型共存,分別服務於不同的場景和需求。
本站科技:傳神語聯2024年主要在做什麼?明年的重點事項是什麼?
藺偉:我們此前主要在做的就是把我們雙網這個架構給做起來了,我們拋棄了做參數這件事情,選擇了這條道路。2025年是AI大模型步入企業應用落地的關鍵時期。明年主要是把它兌現,變成產品,實現商業化。未來,傳神也會更加重視對模型“智慧”的深度挖掘,聚焦持續實時學習客戶數據的能力,通過數推分離技術,賦能企業大模型落地應用,並展現更多元的商業新範式。
本文來自本站科技報道,更多資訊和深度內容,關注我們。