向量數據庫,展望AGI時代
無論是向量數據庫,還是大模型,歸根結底,大家在追捧它時的心態,焦慮大於需求。 向量數據庫的熱潮,在一定程度上“外化”了人們的焦慮。
但這並不能否定向量數據庫的實際價值,甚至更長遠來看,向量數據庫正走在證明自己的路上。
作者|思杭
編輯|皮爺
出品|產業家
每逢淘金熱,最後的贏家都是賣鏟人,而非淘金者。
這是著名的鏟子理論。在今年大模型的風口下,向量數據庫就成了這把鏟子。
在此之前,向量數據庫經歷了幾年的沉寂期,現在似乎終於成爲資本的“寵兒”。這個曾經冷卻的賽道如今在半年間就收穫了10億元融資,然而,資本“無節制”的追捧對於向量數據庫賽道究竟是獎勵,還是懲罰?是終於等到機會可以放手一搏?還是前路漫漫,遙遙無期?
判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態度。大模型應用的逐步落地於向量數據庫而言,無疑是最好的催熟劑。
然而任何新技術的到來,都需要更長的時間才能得到市場的接受。
對此,產業家通過了解多家目前已發佈向量數據庫的廠商,從他們口中可以窺見出目前的市場態度。
於星環科技而言,從5月份正式發佈向量數據庫產品至今,已走過近半年的時間。在他們的觀察中發現,客戶對大語言模型等深度學習應用非常感興趣。然而,客戶目前仍處於學習和選型的階段。在將新技術引入實際業務之前,客戶也需要時間來適應和了解這些新概念。
另外,在近期,騰訊雲也更是宣佈了向量數據庫的產品升級。在發佈會當天,騰訊雲數據庫副總經理羅雲對媒體表示,向量數據庫產品目前的對外客戶數已過千家。
據瞭解,目前騰訊雲在向量數據庫的發力點是從已有客戶開始拓展,如今客戶也正處於擁抱和適應新技術的階段。
一份關於向量數據庫更真實的市場調查是,隨着AI應用場景加速落地,據西南證券分析,預計2025年向量數據庫滲透率約爲30%,其中,中國向量數據庫市場規模約爲82.56億元。而據中國信通院測算,到2025年,中國數據庫市場規模將達688億元。這意味着,兩年後向量數據庫在中國的滲透率將超過10%。
在國內,不少數據庫廠商都在嘗試推出向量數據庫產品,然而從市場驗證階段走向實現盈利,中間還需要一段更漫長的時間。
在此過程中,不乏有質疑聲出現。比如前段時間,流數據庫公司 RisingWave創始人&CEO吳英駿公開發文“爲什麼你不應該押注向量數據庫?”。在文中,吳英駿表示,儘管他對向量數據庫的前景頗有信心,但目前並不鼓勵進入向量數據庫市場。
向量數據庫究竟是虛火過旺還是星辰大海?在向量數據庫這條賽道,能否看到更遠的未來?在這一命題下,筆者試圖從向量數據庫的市場應用和演進歷程,來揭開這一神秘的面紗。
一、“單打獨鬥” VS ”團隊協作“?
大模型解決的是計算問題,而向量數據庫則解決存儲問題。
這是從2023年初向量數據庫崛起開始,至今爲止行業內公認的看法。
“絕大多數人工智能研發的項目從未投入生產,這其中的關鍵原因是缺乏正確的工具。而大語言模型與非結構化數據的結合,可以爲AI應用相關的創業者打開新世界。”
在最吸金的海外向量數據庫創業公司中,Qdrant正是其中一家。其CEO兼聯合創始人Andre Zayarni對於當前向量數據庫與大語言模型的結合,發表了上述觀點。
一個更恰當的比喻是,向量數據庫充當了連接非結構化數據與AI應用的橋樑作用。也可以說,向量數據庫是專爲AI量身定製的。
實際上,在Gartner的調查報告中曾表示過當前非結構化數據的增長速度。現在90%的新數據都屬於非結構化數據,而非結構化數據的增速更是結構化數據增速的三倍以上。
然而,非結構化數據需求的激增,是否真的能帶來向量數據庫需求的增長?兩者也許未必能劃上等號。
在向量數據庫賽道中,一個更大的爭議點是,是否真的有必要單獨設計一款向量數據庫的產品,還是僅僅將向量化搜索能力嵌入到傳統數據庫當中即可。
回答這一問題前,理解究竟什麼是向量數據庫,以及向量數據庫的具體應用則十分必要。
首先,向量數據庫的“向量”也可以理解爲一種“標籤”或某種”屬性“。在AI應用中,這些標籤可以準確地幫助AI找到問題的答案,從而通過提取標籤來提取數據。
一個生動的比喻是,向量就像一張地圖,任何對象都可以根據時間序列信息在列表和表格中找到答案。
對此,星環科技基礎架構部副總經理劉熙給出了更具體的詮釋。與傳統的數據庫不同,向量數據庫處理的是非結構化數據,如圖片、視頻、長文本和音頻等。這些數據的意義不在於其物理表示,並不僅僅是一堆字節,真正有意義的地方在於隱藏的語義。
而向量數據庫在其中發揮的作用是,通過AI技術,例如典型的神經網絡,來識別、提取和編碼非結構化數據背後的語義特徵。最終,將這種數據的語義映射或嵌入到高維的向量空間中。
這樣做的好處是,將數據庫無法直接處理的語義問題,轉化爲向量空間中的一個搜索問題。簡而言之,利用AI技術,將數據庫無法直接處理的數據背後的語義,轉化爲一個結構化的過程。
放在更具體的場景裡,比如大語言模型要如何與向量數據庫建立連接?
對此,百度智能雲大數據技術負責人李蒞之前曾表示,從多個方面來看,向量數據庫都是大模型的必要設施。首先,大模型自身能夠存儲的數據是有限的,而大量的知識數據需要被存儲起來,以供大模型在問答時使用。
所以向量數據庫在其中的作用是,它可以讓大模型回答出更實時的內容。倘若讓大模型根據最新的消息做回答,這時候就需要通過一些外置的數據庫,將這些外置數據庫中存儲的數據直接輸給它,這樣大模型就可以結合這些數據去做更準確的回答。
而在大模型與向量數據庫結合的應用方面,星環科技提供了一個真實案例。在其開發的金融大模型中,向量數據庫就派上了用場。
劉熙告訴產業家,在金融大模型的開發場景中,從財經新聞中通過實體識別算法可以提取企業法人等信息。這些信息並不僅僅是向量,它們更像是一些屬性標籤。類似地,在以前的電商場景中,對於商品圖片,除了特徵向量外,還可能提取價格、顏色等結構化標籤。
所以,關於單獨設計向量數據庫產品,還是將向量化搜索能力嵌入到傳統數據庫中?這是一個”單打獨鬥“和”團隊協作“的話題。
在劉熙看來,基於傳統關係型數據庫封裝向量計算功能,和專業的向量數據庫,是兩條的技術路線。“如果只是小數據量、訪問併發延遲這類要求也不⾼的情況下,從原有數據庫⾥封裝向量計算的方法可能是可行的;但如果數據規模、訪問併發等指標達到一定級別,出於性能、擴展性、資源彈性方面的原因,這時則需要專業的向量數據庫。”
同樣地,羅雲也認爲這兩者並不互斥。但至於單獨設計向量數據庫產品,也是一種必然。
具體來看,向量在未來是一種通用人工智能背後的數據格式。也就是說,向量需要橋接關鍵數據庫、非關鍵數據庫等所有結構的數據。但將不同結構的數據放在一個數據管理平臺上,最後的結果是,不同數據格式的差異會導致沒有辦法更好地利用非結構化數據。
因此,在這種模式下,將向量化搜索能力插件到傳統數據庫中是很難的。比如在一個分佈式數據庫裡去支持向量化插件,讓它來處理騰訊雲存儲的數據,那麼它最後也會變成一個獨立的向量數據庫。
但如果數據庫的場景只是在MYSQL裡檢索部分的向量,那麼將向量化搜索能力嵌入傳統數據庫,這樣的解決方案也成立。
對此,李蒞的看法是,大模型的核心需求就是向量檢索的能力。按邏輯來講,傳統數據庫加上向量引擎,這樣的解決方案能夠行得通。
但問題也在於,業務規模發展壯大後,這時就單獨的向量數據庫產品,來支持上億用戶訪問量的大模型應用。其中,這裡面還要各種架構考量,比如存算分離等技術,來保證大模型的規模化擴展。
因此,綜合來看,得出的結論則是,短時期內,在大語言模型還未規模化使用時,“團隊協作”的方案還能夠解決一些問題。
但站在更長遠的角度,向量數據庫這條賽道一定會在數據庫領域中佔有一席之地。
二、向量數據庫的前世今生
從2017年到2019年,於向量數據庫的發展而言,是一段更爲重要的時間。
如果說,2023年大模型的爆火,讓向量數據庫進入到發展期,那麼2017~2019年就是它的萌芽期。
根據產業家瞭解,騰訊雲、星環科技、百度智能雲、京東科技等也恰都是在這個時間段將向量數據庫的相關組件應用到具體的業務之上。
這些都是目前市面上已發佈向量數據庫產品的廠商。
實際上,2017~2019年這段時間所對應的背景也正是,非結構化數據需求的激增。
一個具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業,各種結構數據也隨之出現。這一現象就導致了不同結構數據的處理需求。
除此之外,京東、騰訊和百度的內部產品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。
2018年,星環科技內部的AI團隊有了向量數據庫這一需求。
然而,當時向量數據庫的賽道還是一片沉寂,對於是否要專門研發處理向量數據的數據庫,星環科技內部也在謹慎考慮。
當時的場景是,星環科技AI團隊提出向量數據管理對於其AI業務非常重要。雖然當時有Faiss向量庫來處理這類數據,但由於當時Faiss的版本還處於比較早期的階段,AI團隊需要自己編寫代碼來管理這些向量數據,基本上每個項目都需要重複進行這樣的工作,非常費時費力,而且可能無法保證高可用性和安全性。
因此,向量數據庫的需求也早在當時就誕生了。和現在不同的是,當時並看不到太大的市場,儘管在星環科技的眼中,這項技術有十足的潛力。
於是,他們內部做出了一個決定。“即使向量數據庫可能不能立即商業化,但我們仍然認爲有必要爲將來做這樣的技術儲備。”劉熙回憶道。
那時星環還專注於開發多模型統一處理技術,逐步將一些數據庫的通用功能,如分佈式存儲、分佈式計算、安全性和資源管理等功能,從緊耦合的架構轉化爲鬆耦合的架構,目標是通過統一的架構來更好地支持各種數據庫,例如圖數據庫和時序數據庫。
同時,內部團隊不需要太多考慮面向客戶的問題,需求相對明確,因此星環科技很快就完成了從0到1的第一個版本,並交付給AI團隊。之後,隨着AI團隊的深入使用,星環科技向量數據庫開始持續迭代,最終成爲一個成熟產品走向市場。
類似的故事也發生在京東、騰訊雲和百度智能雲的內部。
京東的故事則發生於2017年。當時,團隊內部正在着手處理一些以圖搜圖的應用場景。爲了解決京東的搜圖場景,團隊構建了一個十億規模的向量數據庫,主要的場景是針對京東每天上架大量商品時,需要即時展示商品圖片。而實時性成爲了當時的重要問題。
而這正是京東向量數據庫vearch的誕生背景。
而相比之下,百度智能雲的故事就顯得不太一樣。
2019年,百度智能雲也將注意力轉移到了向量檢索技術的身上。他們計劃在Elastic Search公有云場景上去做一些向量的能力。
Elastic Search(ES)屬於NoSQL數據庫的一種。如果再細分,它是文檔型或搜索型數據庫。由於有各種搜索場景的需求,所以它會存向量的數據。而既然存了向量的數據,ES又是一個搜索型的數據庫,自然也要搜索向量的數據。這也是百度智能雲在此基礎上加向量檢索能力的背景。
具體來講,百度智能雲在ES上做了兩點改造:一是支持向量數據列式存儲格式,二是基於社區開源的向量相似度引擎做了一些搜索加速的改進。
四年後的今天,向量數據庫終於迎來自己了的光輝時刻。而在各種歡呼聲和質疑聲下,向量數據庫也在逐漸完成蛻變。
三、向量數據庫,展望AGI時代
從某種程度上而言,無論是向量數據庫,還是大模型,歸根結底,大家在追捧它時的心態,焦慮大於需求。而這種焦慮則來源於“害怕被落下”。
大模型、多模態、OpenAI的新應用等等新技術、新應用的出現,正在迅速刷新着人們對AGI時代的期待,彷彿它下一刻就會到來。
而向量數據庫的熱潮,在一定程度上“外化”了人們的焦慮。但這並不能否定向量數據庫的實際價值,甚至更長遠的價值。
雖然,目前向量數據庫仍處於發展初期,但可以確定的是,向量數據庫與大模型一定是捆綁關係。因此,未來其演進方向也一定隨着大模型能力的演進而發生變化。
在羅雲看來,“未來,向量數據庫解決的是整個智能世界的智能存儲和管理問題。”
而在具體的演進方向上,向量數據庫一定會考慮多模態數據的表達以及數據的智能化管理。
首先,在大模型應用百花齊放的背景下,向量數據庫對於多模態數據的處理意義,變得十分重要。
一個生活化的例子是,吃飯、看電影、聽音樂等等娛樂事項,這些記錄了你的一天。接下來,你想通過自然語言將其全部調取出來。
那麼如果沒有一個單獨的向量數據庫參與,以及沒有合理的多模態數據處理方式,這種情況下是無法查詢出這些數據的。而所謂的多模態也正是除了文字以外的照片、視頻、音頻等數據。
但隨着多模態數據規模上的提升,另一個問題也隨之出現。不同數據庫中數據如何將其統一管理並讓數據流通起來,這其中涉及到的智能化管理也是向量數據庫未來的發力點。
因此,未來的向量數據庫需要承載的是智能化數據平臺。
另外,在星環科技向量數據庫產品Hippo過去的研發過程中,劉熙對於擴展性、成本、易用性和路徑優化方面都提出了挑戰。
首先,在擴展性和成本方面,大模型的普及讓向量數據的規模不斷增大。對於向量數據的存儲和索引,也提高了對硬件資源的要求,成本也自然隨之提升。
而在易用性方面則涉及到了多種參數的挑戰。與傳統的關係型數據庫不同,向量搜索涉及到更多維度的考量,包括性能和召回率等。而爲了平衡性能和召回率,需要調整各種參數,但這對用戶來說並不友好。因此,簡化參數選擇,提高用戶體驗是更加重要的挑戰。
最後則是混合搜索中的路徑優化問題。與傳統的優化器相比,向量搜索的優化器更加複雜,因爲它需要考慮多維度的因素。如何設計一個能夠描述向量搜索代價的模型,以實現性能和召回率的平衡,是一個需要解決的難題。
不可否認的是,向量數據庫的未來有星辰大海,也有曲折的前路。
背靠大模型,向量數據庫在2023年成爲了資本的“寵兒”。然而,在未來的AGI時代,向量數據庫還有更多實事要幹。