讓馬斯克嫉妒的男人,OpenAI“第一投資人”:AI硬件是“僞命題”
最近,馬斯克怒寫46頁訴狀,將OpenAI及 Sam Altman 告上法庭,並要求OpenAI恢復開源狀態。對此,OpenAI“第一投資人”,被稱爲全球科技“投資之王”的Vinod Khosla表示,馬斯克是典型吃不到葡萄就說葡萄酸。
雖然Vinod Khosla有句名言:“一個方案有90%的機率失敗不是問題,只要還有10%的機會獲得100倍的收益”。
然而,他本人的投資眼光卻可謂毒辣。1990年代,Khosla投資了瞻博網絡,並建議其開發一種“互聯網路由器,而不是當時更常見的普通路由器”。據《華爾街日報》報道,Kleiner Perkins對瞻博網絡的300萬美元投資爲他帶來了70億美元的收益。
2019年,當OpenAI從一家非營利研究組織轉變爲“有盈利上限”公司,Khosla大膽地邁出了第一步,其創立的投資機構Khosla Ventures在種子輪向OpenAI投出高達5000萬美元。該金額是Khosla Ventures成立十五年來任何一筆投資規模的兩倍。
至少從10年前開始,Khosla就堅信,AI將徹底改變世界。他認爲:未來20年,AI有可能在80%的人類角色中承擔80%的工作量,並創造巨大的經濟價值。
上週,Khosla分享了自己對AI 交互與革命的最新洞察《How AI Will Change Our Relationship With Computers》(The Information)。這位科技“投資之王”表示:“AI硬件” (AI hardware) 和“小工具”(gadgets)等術語更像是一種“誤用”。不妨拋開“設備”的侷限,討論在人機交互變革的大背景下,將會發生哪些根本性變化?適道在不影響原意的情況下,對文章進行了簡譯和補充改寫。
01 語音主導界面,軟件將學習人類
第一個根本性變化——低延遲語音將成爲人機交互的主導界面。
想象一下,比起用手指戳半天屏幕,延遲在半秒內的語音顯然更加便利。與此同時,“無聲語音”技術也在迎面走來。當你在公共場合中,無需發出聲音就能和設備進行互動,不干擾他人,也能保護隱私。
第二個根本性變化——軟件將適應人類,而不是人類學習軟件。
到目前爲止,我們總是在自適應軟件——學習APP的複雜設計,記住層次化的菜單,並以此與機器交互。未來,我們不再需要像學習使用 Uber 或SAP、Oracle 這樣的複雜系統一樣,去學習如何使用這些APP。
綜上,新一代硬件將結合二者特徵——實現語音互動、能夠學習人類語言和人類本身。雖然處理某些視覺任務可能仍然需要屏幕,但核心交互將轉向語音——無論是無聲的還是有聲的。
Khosla指出:前蘋果首席設計官Jony Ive和Sam Altman討論過一個AI硬件項目,甚至在ChatGPT出現之前,大家就預言會出現這種界面。雖然早期熱度很快消退了,但他們的方向是正確的。問題出在,他們沒有充分關注AI所帶來的全新用戶體驗。
02 延遲不低的Rabbit何以得到Khosla青睞?
前段時間,初創公司Rabbit在CES 2024上發佈了其手持式AI硬件產品——R1,售價199美元,上線5日就賣了5萬臺,近1000萬美元。
和此前出圈的Ai Pin類似,Rabbit R1也採用緊湊小巧的設計,並標配了麥克風、攝像頭,不需要連接手機,沒有內置 App。不同的是,Ai Pin沒有屏幕,選擇“投影”顯示,看起來更酷炫;Rabbit R1則是搭載了一塊 2.88 英寸的觸摸屏,更爲穩妥。
Rabbit R1的定位爲AI Agent,用戶在不需要手機的情況下能夠完成很多任務:叫車、放歌、訂餐、訂酒店,甚至在Midjourney 上生成圖片。CEO呂騁(Jesse Lyu)在實測操作中,只需說一句“Play Feel Good Inc”,這首歌就能直接播放;對着屏幕中Discord論壇,問一句“大家都討論什麼”,Rabbit R1就可以對“看”到的內容進行總結。
Khosla本人正是Rabbit的早期投資人,投資金額高達千萬美元。在文章中,Khosla給出了投資Rabbit的理由:“Rabbit是人機交互在強大AI世界中的早期嘗試——設備通過自然語言,用語音與計算機(或稱爲“代理”)進行交流。”
Khosla舉了個自己的例子,當他徒步時,會使用“Picture This”APP識別自己遇到的植物,但這個過程很麻煩:停下來,暫停有聲讀物,打開應用,拍照,等待答案加載,關閉應用,將手機放回口袋。有了新設備,Khosla只需將設備指向植物並問:“這是什麼植物?”就會得到答案,然後繼續聽正在播放的有聲讀物。
不過,Khosla可能要“等上一陣”。外媒爆料,有拿到真機的網友發現,Rabbit R1會在收到問題後說一句“讓我看看”,接着就是20秒的無事發生,這延遲顯然不符合Khosla定義的“半秒內”。
但根據CEO呂騁在訪談中的迴應:Rabbit OS並非像ChatGPT一樣的大語言模型LLM,而是基於大動作模型(Large Action Model)開發。LAM能夠使AI學會人類操作各種APP的方式,並通過與LLM結合,從而實現“用戶發指令——AI執行”的效果。因此,Rabbit OS更像一個通用的APP控制器。
如果用戶僅使用LAM涉及的功能。例如,播放一首歌;詢問“橙子和橘子的區別”等任何不需要搜索最新信息的任務,Rabbit響應速度會非常快,幾乎在0.5秒以內。但如果涉及使用OpenAI,例如搜索最新信息,速度就會變慢,一般在7——8秒,涉及視覺則會更慢。不過,呂騁表示,這已經是目前行業內最快的速度。
Khosla本人似乎對Rabbit的目前的“延遲”不太在意,他更在意的是“讓AI代替人與APP交互”,並對Rabbit OS 基於LAM“跨APP工作”能力大爲讚賞:這代表傳統範式將完全顛覆,意味着最終我們不必與軟件交互,因爲AI 將替我們這樣做。
但新的問題來了,Rabbit爲何不以一種“APP”的形式出現在手機中?就像智商更高的Siri?
呂騁從創業者的角度給出了答案:首先,雖然Rabbit可以成爲一款APP,但如果Rabbit只是個APP,就意味着蘋果公司能接觸到代碼,無異於分享了公司的知識產權。其次,團隊不得不同時爲iOS和Android開發維護這款APP,這還需要大量的持續資金投入。最重要的是,當Rabbit會被放在和其他APP一樣的平臺上,會給自己帶來了不安:如果明天出現了一個更好的應用怎麼辦?用戶忠誠度幾乎爲零。
那麼,如果Siri自己變成高智商呢,還需要Rabbit R1嗎?呂騁表示:問題不在於技術,而在於商業模式,因爲iPhone不可能一夜之間沒有AppStore。而Rabbit R1可沒有內置 App。
對於Rabbit R1的定位,呂騁給出了一個靠譜的描述:AI時代的iPod。
試想,在非智能手機時代,你會一個褲兜裝手機,另一個褲兜裝iPod。未來,或許會一個褲兜裝iPhone,另一個褲兜裝AI Agent。
但正如呂騁恐懼“下一個更好的應用”,如果下一款更快的AI Agent出現呢?畢竟,199美元的售價像是買了個付費的“AI app”。用戶或許也可以花不高的價格買到下一款更好用的“AI app”,如此一來,建立在Rabbit R1上的拓展業務也將不再存在——“人們教Rabbit來做他們自己的事情,本質上是在創造Rabbit,而不是使用APP,當用戶銷售他們自己的Rabbit時,Rabbit OS將會從中抽成。”
03 AI Agent會是下一個iPhone嗎?
結合文章,適道發現一個新角度——AI時代的社交媒體將走向何方。
呂騁表示:還有很多事情我寧願去手機上查看,至少目前是這樣。首先是重要的社交功能;另一部分是專業的羣聊。
Khosla則指出:手機現在的設計是爲了分散我們的注意力。如果我在徒步旅行時拿出手機,我會看到我的電子郵件、短信和其他通知;我會被拉到某個社交平臺上,看到廣告,甚至可能陷入一個兔子洞,無意冒犯。
而這些新設計,比如Rabbit旨在節省時間和減少干擾。你告訴它要做什麼,它就只做那些,沒有多餘的。
Gartner最新預測,到2025年,50%消費者將“放棄或大幅限制與社交媒體的互動”。在 Gartner去年夏天的一項調查中,53%的消費者表示,社交媒體在前一年或過去五年中變得更糟。
有趣的是,根據傳播學中的“媒介即訊息”,隨着AI時代的到來,新一代AI Agent是否會摧毀iPhone所創造的社交媒體時代?“一個與真人分享的社交空間”是否將會終結?如果能,那麼,人類當前由“社交媒體”承載的“娛樂時間”又將投向何方?這其中又將蘊含哪些新“錢景”?