GPT-4o又炸場了,國內大模型創業者需要追趕什麼?
鋪天蓋地的話題圍繞OpenAI的春季發佈會展開,市場沒有等到GPT-5,但GPT-4o也足夠讓行業反覆琢磨——ChatGPT進入“Her”時代,對國內大模型公司意味着什麼?
OpenAI用幾個短小精悍的場景演示,讓用戶直觀瞭解到了GPT-4o的多模態理解能力、幾乎無延遲的反應能力,以及與人類相近的共情感受與表達能力,科幻電影《Her》中女性語音智能機器人的形象由此得到現實復刻。
ChatGPT成爲“Her”,在技術上的震撼點主要來自於GPT-4o對多模態實時交互的反應速度有如此快的提升。例如,它對音頻輸入的響應時間最短可達232毫秒,平均爲320毫秒,這與人類在對話中的響應時間非常相似。但在此之前,使用GPT-3.5和GPT-4的平均延遲分別爲2.8秒和5.4秒。
OpenAI在官網對這個變化背後的原因進行了闡釋。此前,其音頻模型(Voice Mode)是一個近似三個獨立模型組成的管道:一個簡單模型將音頻轉錄爲文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個簡單模型再將文本轉換回音頻。
在這個過程中,模型智力的主要來源GPT-4(或GPT-3.5)會丟失大量信息:它不能直接觀察音調、多個說話者以及背景噪音,也不能輸出笑聲、歌聲或表達情感。
在GPT-4o上,OpenAI訓練了一個跨文本、視覺和音頻的端到端新模型,這意味着所有輸入和輸出都來自同一個神經網絡。這大概是這個多模態模型在理解與生成能力以及反應速度上都獲得明顯提升的核心原因。
事實上,不需要跨模態融合、由同一神經網絡完成訓練的原生多模態大模型,正是國內大模型創業公司正在試圖突破的方向。因爲它能帶來所有GPT-4o目前展現出來的優勢:低成本、高效率,這不僅是產品優化的基礎,也是大規模商業化的前提。
但來自投資人視角的觀察結論是,即便只是音頻模型的端到端訓練,目前國內大模型創業公司也都還未走到這一步。
除了基於原生多模態的模型變化,促成GPT-4o反應如此之快的另一個重要因素在於模型尺寸。OpenAI並未公開表明過GPT-4o或是GPT-4 Turbo的參數大小,行業只是基於API調用價格以及傳聞(例如GPT-3.5 Turbo可能是一個20B大小的模型,而GPT-3.5爲175B),按照比例關係來推測過這些新模型的尺寸。
在此前提下,GPT-4o大概率是一個比1.8T更小的尺寸模型,而這種在保證模型能力的情況下變小、變快,甚至在某些維度上變強的工程化能力,正是OpenAI難以被競爭者超越的“魔法”所在。
這也是國內大模型行業正在努力的方向之一。爲了降低大模型的推理成本,行業理應壓縮模型,而從Scaling Law(規模法則)來看,這個目的只能通過“先變大、再變小”來實現,這樣纔有可能兼顧速度和性能。
至於如何像GPT-4o一樣“在變小的同時變強”,這也是各家技術比拼的關鍵點。
據界面新聞記者瞭解,國內從事底層大模型研發的創業公司普遍都在關注這一技術方向,但各自的重視程度並不相同。例如,有的觀點會認爲率先做出萬億參數大模型、達到GPT-4時刻更重要,有的則會認爲在研發的途中兼顧應用的成本與性價比同樣重要。但無一例外的是,目前行業還沒有呈現出太好的解法。
產品層面,來自國內大模型獨角獸的產品中,Kimi(Kimi+)、萬知、躍問等等,雖然已經具備一定多模理解與生成的能力,但更多還是聚焦於AI搜索引擎、AI專業助手等輕量級agent,在語音實時交互層面仍然無法達到ChatGPT的能力水平。
並且,Minimax在最新發布的海螺AI中加入了“小海螺”角色,功能在於提供實時語音對話服務,定位直接對標ChatGPT在語音交互上的能力。但根據公司的官方演示視頻,“小海螺”無論在反應速度、表達方式,還是在音色、情感等擬人能力上,仍然有距離感明顯的“AI感”。
因此,GPT-4o帶給行業的技術質問其實是,在同等參數量級與性能水平下,能否做到跟它同樣快?如果速度也能趕上,那能否兼顧其對音頻、視覺和文本的多模態實時交互能力?
實際上,GPT-4o的降本能力體現到產品和商業化上,是擴大AI應用用戶規模的前提。
OpenAI對於ChatGPT免費開放的決策,已經在行業內被普遍認爲是一個“正確路線”。前述投資人表示,“擴大用戶base,讓多模態大模型讓用戶更快、更簡單地先用起來,這個思路肯定是對的。”
獵豹移動董事長兼CEO傅盛在發佈會結束後談論道,“OpenAI發佈應用恰恰說明了應用在人工智能領域大有可爲,每一個創業者都應該去好好地做人工智能應用。”
不過,反過來看,OpenAI發佈GPT-4o而非GPT-5(或是GPT-4.5),還是給大模型技術遇冷的觀點留下生存空間。
傅盛表示,“如果不計成本的累參數,提高所謂的大模型能力,這條路肯定是容易遇到困難的,目前看起來GPT-5.0可能還要難產一段時間。”
金沙江創投主管合夥人朱嘯虎則對此發表了三個觀點:第一,大模型的技術迭代曲線明顯放緩;第二,開始卷免費,說明GPT的用戶和收入增長都已經碰到瓶頸,不是深度綁定大廠的模型公司基本已經出局;第三,應用會迅速爆發,推理成本再降一個數量級就會普及出現AI時代的國民應用。
暫且不論大模型創業公司生死存亡的問題,GPT-4o的出現的確留下了兩個矛盾信號:好消息是,關於OpenAI在GPT-5可能遇到的瓶頸,國內底層大模型加速追趕的窗口期或許到了;壞消息是,在應用層上,OpenAI目前所能打磨出來的用戶體驗,大概也需要國內創業者們花上好一陣時間來追趕。
此外,OpenAI給行業留下了一個謙虛的“挑釁”是,團隊指出,GPT-4o是其第一個完成這種端到端訓練的模型,因此團隊仍在探索其功能和侷限性——這意味着未來歷經迭代的GPT-4o,能力極限或許遠不止於此。