Soul CTO 陶明:人和AI,如何“持續地聊天”?|36氪專訪
作者|宋婉心
編輯|鄭懷舟
進入2024年,國內大模型開始走入不同於海外同行的發展路線——從投入底層模型轉向探索應用層。
在C端,普通用戶對於大模型到底存在怎樣的真實需求,是廠商們實現AI落地的關鍵。
前段時間在迪拜舉辦的GITEX GLOBAL大會上,Soul展示了其在大模型落地社交場景的最新進展,比如最新自研的3D虛擬人多模態AI交互體驗。會上,36氪和Soul CTO 陶明進行了交流。
從以語音語義理解爲基礎的大模型橫空出世以來,“聊天”就是刻在大模型骨子裡的應用場景,如今諸多大模型廠商的產品,也是以聊天爲場景來做搜索及互動。
但進一步的問題也隨之浮出水面,用戶爲什麼要和機器人聊天?這樣的一對一聊天能持續多久?這一需求量有多少?
陶明向36氪表示,從Soul的實踐來看,如果人和AI不在場景裡面,“持續地聊天”有很大門檻。這也是當下AI聊天產品共同面臨的難點。
“AI只具備認知能力並不夠人格化,還必須要有感知和長記憶能力,才能給用戶帶來更多的體驗。”
2020年時,Soul 就已正式啓動對AIGC的技術研發工作。目前,Soul 已先後上線了自研語言大模型 Soul X,以及語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。
而如果從更早先的基因來看,在2016年創立之初,Soul就是一款基於AI推薦技術的陌生人社交產品。
當時Soul沒有采用導入通訊錄現實關係或者LBS的模式,而是採用了AI的解決方案,通過基於AI算法的靈犀引擎,對用戶在平臺上的內容及行爲進行分析,並推薦存在社交可能性的其他用戶。
到了大模型時代,Soul擁有了更好的AI工具後,如何革新社交場景?以下是36氪和Soul CTO陶明的對談精編:
01 關於AI在Soul的應用
36氪:看到Soul在Gitex主要展示的還是國內版本,海外的還沒上,原因是什麼?
陶明:我們在海外有產品,但體驗層面其實以及說給用戶端創造的這種粘性還不太夠,所以沒有把海外的產品給放出來。
但不管是海外產品還是主產品,只是面向不同的市場,有不同的產品表現形式、功能以及場景,但底層希望把它打通,所以展示的基礎技術能力是一樣的。
36氪:Soul的兩個AI模型在降本增效上有怎樣的體現?
陶明:一個(模型)是基於形象層面的3D大模型。Soul從2020年就開始探索,希望用戶在空間中打造另一個人設,同時一鍵生成自己的形象;另外一個是多模態大模型,希望用戶在Soul裡面不僅能跟真人進行對話,還能跟AI進行對話。這兩條線並行往前走,AI 大模型感知層面已經蠻成熟。
組織層面來講,原來的各個職能進行了重組,分 NLP、3D、CV、語音等,團隊把面向單模態模型的所有工作全部 close 掉,打造一個融合團隊來構建多模態模型。
技術層面,組織一定會帶來技術方向的改變,所以現在整個技術上只有兩條線,一條線是圍繞類似 GPU 融合去打造 3D、CV、語音的多模態模型;另外一條線是圍繞最近 OpenAI 發佈的 o1 模型這個思路去嘗試。
我們現在已經非常聚焦,不會在其他的技術分支上再投入資源。這樣的話其實就相對降本了。
36氪:從用戶本身來說,和一個數字人進行交流,是否是一個真實需求?
陶明:人機對話是產品基礎的原子能力,但不能直接把原子能力推向用戶,而要構建一個 AI being 和 Human being 共存的社區。這個社區其實並不是單點聊天就能夠維持住的,需要更多 AI與人共處的場景。
另外在單聊這一塊,包括大模型六小虎在內,他們做的一些 AI聊天產品,都有能力單獨聊,但難的是“持續地聊”,人和AI不在場景裡面,單聊是有蠻大門檻的。
所以爲什麼我們要堅持GPT-4o這個方向,AI 只具備認知能力並不夠人格化,還必須要有感知能力,才能給用戶帶來更多的體驗。
36氪:按照那些交互場景的方向往下發展,它跟奇蹟暖暖這樣的陪伴式遊戲有什麼區別?
陶明:戀與製作人這種,聊天互動是一次性的,但Soul的不同是,比如今天你感冒了,它可能第三天還會記得並問你感冒好了沒有,這個感受是完全不一樣的,這和“你說一句他回一句的”機械式溝通完全不一樣。
所以一定要加強AI的感知和記憶能力,這是最重要的事情,
36氪:如何實現AI的長記憶能力?
陶明:最開始是搜索思路,回答之前搜機庫把答案存下來;後來做了個 AI 小模型,在進入對話大模型之前,小模型會幫用戶提煉記憶點,可能有數百個記憶點,時間越長記憶點所涉及範圍會越廣。
現在設想的是對長記憶數據直接輸入進去,但這是一個大的技術方向,裡面還有很多細節,比如記憶不能說完全是持續的,比如整個記憶裡面某個點重複多次,不同時間點感冒應該取哪一次?不同場景是不一樣的,這需要人工去做一些標註輔助,不是一個模型就能解決的。
所以,端到端去解決用戶體驗還有改進空間,拋開產品、運營,很難純技術解決端到端。
36氪:目前soul更看重的指標什麼,是用戶的時長還是用戶的單人資產成本等?
陶明:現在還是更關注活躍用戶,因爲時長並不能代表全面的活躍概念,所以還要看全盤的活躍。因爲AI本身是一個普惠的工具,不能只是去服務某一羣人,而是Soul裡面任何一個用戶都能夠受益。
02 關於大模型應用前景
36氪:你們訓練是租賃芯片嗎?
陶明:有兩種類型,我們自身沒有ABC類機房,一方面我們在各個雲平臺買了獨佔的卡,另外一方面買了一些彈性的卡。
這也是從成本的角度去考慮,如果去年買了幾千張卡,到今年卡的價值就已經下降了60%了。我們現在在整合資源的層面,儘量把固定成本轉變爲可變成本。
36氪:現在行業內大模型研發難點在哪?
陶明:沒卡。我之前在美國,跟Llama的人聊過這個事情,因爲Llama的一些技術文檔其實非常詳細,我就問,這麼詳細不怕你的競爭對手或者海外的一些客戶會追上你嗎?
他們說,釋放這種技術文檔,其實很多人看到了,但是他沒法去做,原因就是沒有卡。此外還有時間問題,每個技術細節去跑訓練需要大量時間。
36氪:六小虎裡有的公司預訓練節奏開始收縮了。
陶明:因爲在預訓練層面的概念,大家已經看到天花板在哪裡了,所以是當前立馬達到天花板、還是短期達到、還是未來長期達到,都是一樣的,已經沒有意義了。當面對一個確定性的東西,知道每個玩家最後的底牌是什麼,大家的心態就變得沒有那麼焦慮了。
36氪:所以你覺得瓶頸在哪?英偉達嗎?
陶明:最終是在英偉達,但現在看來OpenAI還在引領。
36氪:大模型更新的主要瓶頸是因爲 B200 還沒上市麼?
陶明:對,它是一個很重要的因素。但對國內來講,現在其實不是資源的問題,國內資源沒有那麼缺乏,尤其是從去年下半年開始,原來很多囤卡的卡商現在都在拋貨,只要想去拿都能拿得到,就看願不願意投資做這麼大的投入。
但海外確實是卡資源的問題,國內短期不是算力的問題,是每家公司短期怎麼幹的問題,相當於六小虎搞預訓練,比如要達到GPT的水平,但達到之後又能做什麼,下一步怎麼辦?其實還想不到。
36氪:這一輪AI技術浪潮,你們是產品推着技術往前走還是技術研發推着產品發展?
陶明:原來的邏輯是產品出需求,然後技術實現,現在情況會有一些不同。
現在Soul內部有一個羣,這個羣裡產品和AI算法工程師,都可以提需求,其實換句話來講已經不分產品和工程師了,從現階段來看,工程師提的需求反而會更多一點。
技術工程師更知道AI現在能做什麼,不能做什麼,所以他們提的很多需求是具有確定性的,但這種情況是當下技術階段決定的,關於AI的邊界,最終產品和工程師的認知會拉平。
36氪:現在技術團隊大概有多少人?
陶明:技術團隊不到三四百人的規模,但是AI這塊佔了將近一半。
36氪:AI的人是新增的還是以前的人轉的?
陶明:原來就有這塊職能的人,現在又擴充了。
關注獲取更多資訊