OceanBase高管答每經記者:數據庫業務本質是取得信任的過程

10月23日,在數據庫公司OceanBase2024年度發佈會上,OceanBase CEO楊冰介紹,在專有云領域,OceanBase已實現從頭部金融核心系統到中腰部金融機構的規模化複製。目前,其正服務於全部政策性銀行、5/6國有大行,資產規模萬億元以上銀行客戶超20家、千億元以上銀行客戶近100家,以及70%的頭部保險、75%的頭部證券、50%的頭部基金公司。

OceanBase CEO楊冰在接受《每日經濟新聞》記者採訪時表示,數據庫業務在商業層面,本質上是一個取得信任的過程。經過四年發展,接下來局面有所不同。過去四年,在與客戶合作中,佔用時間最長的是前半階段,即建立連接和信任的階段,通常需要半年以上,甚至九個月到一年時間。不過,接下來開展業務,相對而言,多半時間將在後半階段即遷移和生產切換上。

OceanBase CEO楊冰演講現場 圖片來源:每經記者 張壽林 攝

數據庫業務本質上是一個逐步取得信任的過程

“首先願意用、願意去測。這些都不是問題了,也需要時間去試用。”楊冰向記者解釋,由於切換的是OLTP數據庫,一旦出現風險事件,不但客戶企業業務受損,相關負責人員也面臨職業生涯風險。因此,客戶非常謹慎地從周邊逐步驗證,週期較長。整體看,其中大部分時間用在業務前半段。

不過,經歷過去近四年發展,楊冰表示,在金融政企業務中,接下來將不會花太長時間在業務前半段。因爲通過前期不少企業客戶驗證,大家已經明確產品可用,接下來開展業務,相對而言,多半時間將在遷移和生產切換上。

楊冰向記者坦言,公共雲業務方面,在不少行業仍處於政企業務第一階段,客戶需要驗證和認可。不過,零售、智能製造及Fintech等子行業CIO圈層、開發者架構師圈層已大概認可,因此接下來,業務前半段佔用時間也將有所縮減。

在楊冰看來,數據庫業務規律即如此,本質上是一個逐步取得信任的過程。在業務起初階段,70%~80%的時間花在建立信任上。

一體化思路下同時處理各類數據,並非一定要將非結構化數據結構化

在數據層,楊冰說,佔全球80%以上的非結構化數據,由於AI能力的提升得到極大激發,非結構化數據挖掘分析的需求井噴。

對於非結構化數據挖掘,楊冰向記者表示,向量檢索承接了這項功能。圖片和音頻均屬非結構化數據,不具有表結構,但可將其半結構化,轉化爲計算機中一行行向量矩陣。無論圖片、音頻還是其他非結構化數據,通過一次映射,將其轉換爲半結構化向量,便可以向量匹配的方式直接使用。若再進一步結構化,理論上需再做一次結構化。

OceanBase CTO楊傳輝進一步告訴記者,OceanBase不僅處理結構化數據,也處理半結構化和無結構化數據,因而很多非結構化數據不需要轉化。在一體化思路下,同時處理結構化、非結構化以及半結構化的好處在於,很多業務所涉數據既包括非結構化也包括結構化,通過融合於一體的方式,可將整個業務做得更簡潔。但並非說需將非結構化數據結構化,而是有的需要轉換有的不用,這取決於業務需求。

楊傳輝介紹,早先數據庫是獨立式,不可一體化處理,因而出現半結構化數據用A數據庫處理、非結構化數據用B數據庫處理、結構化數據用C數據庫處理的情形,這便導致兩個問題。

一方面,技術棧挑戰性太高,除了頭部互聯網公司外,多數企業無力應付;另一方面,即便能夠應付,效率也低。爲什麼?假設一個業務中,先訪問半結構化數據,後訪問無結構化數據,再訪問結構化數據。在訪問過程中,訪問A時做一次過濾,再將過濾結果訪問B,接着將過濾結果訪問C,整個過程過濾效率非常低。若直接訪問一體化數據庫,則一次性完成過濾,不必產生大量中間結果。

“我們做‘望小京’,基於百寶箱只用了一週,如果是基於原來的獨立技術棧方式,我相信一定是非常複雜的工程。”楊傳輝說,通過一體化數據庫方案,能夠用一條SQL實現對結構化數據、向量數據、地理信息數據等全方位混合搜索,最終幫助客戶真正簡化技術棧。