文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術揭秘!

機器之心發佈

機器之心編輯部

在當今大模型技術日新月異的背景下,數據已躍升爲構建企業大模型知識庫、優化訓練與微調,乃至驅動模型創新不可或缺的核心要素。

對於企業來說,積累的寶貴知識廣泛散佈於形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內容質量亦呈現出顯著的差異性。對海量數據進行精細化的清洗與預處理工作,已成爲提升數據價值、確保模型精準高效的關鍵一環,如何有效提取並利用這些寶貴的知識資源,成爲了擺在所有企業面前的一道難題。

9 月 20 日,老牌數字化轉型技術服務提供商浩鯨科技在雲棲大會期間,成功舉行鯨智大模型技術體系發佈會,作爲企業內部的 “資產沉澱專家”,鯨智文檔大模型重磅首發。

鯨智文檔大模型的實踐邏輯

浩鯨科技成立於 2003 年,立足於電信行業,智慧觸角已觸及政務、電力、泛零售等多個領域,迄今已爲全球 80 多個國家和地區的電信運營商、700 + 政企客戶提供全棧數智化產品技術服務。

“鯨智文檔大模型” 始於浩鯨科技 20 餘年的數據治理、知識沉澱能力積累,作爲垂直領域模型,它從端到端解決場景需求的視角出發,結合了大小模型協作等思路,基於基礎大模型構建一套緊密配合的模型組合,主要分三個層面:

DocChain:文檔處理的智慧引擎

爲深度賦能企業用戶,浩鯨科技依託先進的鯨智文檔大模型,匠心打造了多模態文檔工具鏈 ——DocChain。該產品不僅實現了企業文檔向寶貴知識資產的轉化,更構建了一個集文檔知識精準提取、高效檢索與智能問答對話於一體的大模型知識服務平臺。DocChain 以其卓越的多模態處理能力、廣泛的文檔格式兼容性和極致的性能優化,成爲企業文檔處理領域的得力助手。

一體機:解決企業私域場景下低成本上線大模型的訴求

浩鯨科技爲解決客戶落地大模型過程中算力硬件缺乏、技術人員少、安全要求高等難題,同時推出了文檔大模型軟硬件一體機。一體機內置了高性能算力,並且預裝了大模型以及 DocChain 應用,可爲企業快速部署和驗證智慧文檔處理服務。

從部署上來說,文檔大模型一體機具備開箱即用、數據安全可控、性能無憂、快速集成等幾個特點,專爲輕量級場景設計,私有化部署解決企業隱私保護、數據安全等痛點,低成本實現企業內部大模型快速上線,覆蓋通用知識檢索、文檔問答、服務支撐及品牌宣傳等,可幫助企業迅速構建專屬大模型問答系統。

隨着基礎大模型的發展,以及模型增量訓練的知識衝突問題日益凸顯,RAG 逐漸成爲企業智能知識庫的標準解決方案,然而知識召回的準確率和完整性成爲了影響問答效果的關鍵因素。

鯨智文檔大模型,借鑑了 “大模型 + 小模型” 的思路,基於基座大模型構建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實現垂直應用場景的需求。當前,鯨智文檔大模型在多模態識別、檢索和精準召回上做了很多的嘗試,也取得了一定的成果。

AI 大模型的迅速發展,讓企業沉澱的大量文檔的知識理解和處理帶來了轉機,浩鯨科技正通過持續的技術創新與產品優化,推動大模型技術與企業領域知識深度融合,實現企業文檔向有價值的資產轉化,爲企業創造更多價值。返回