OpenAI發佈實時API,AI實時語音時代如何搶佔風口?

10 月 2 日,OpenAI 發佈了實時 API 公開測試版,用於構建基於 GPT-4o 語音到語音的 AI 應用和智能體。這是 GPT-4o 發佈之後,OpenAI 在實時語音交互能力上的最新進展。

GPT-4o 所展現出的實時語音交互能力讓外界印象深刻。而這很大程度上歸功於 GPT-4o 大幅降低的語音延遲,平均 320 毫秒的反應時間,讓 AI 與人的對話第一次接近了人類真實對話間的反應速率。同時其語氣和情感模擬,也更加深 AI 與人類溝通之間的沉浸感。

而國慶假期間,OpenAI 發佈的實時 API 公開測試版,則瞄準了 GPT-4o 語音到語音的 AI 應用和智能體,這像是給所以 AI 應用開發者的一個信號,大模型發展近兩年後,基於聲音的實時對話式 AI 場景或許會開始變的矚目起來。

OpenAI 這次也公佈了三家語音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前幾年曾經爆火的 ClubHouse,背後的技術提供方就是 Agora,其兄弟公司聲網則在國內更爲人所知。Agora 聚焦美國和國際市場,聲網則已經儼然是中國市場中 RTC(實時音視頻,Real-time Communications)能力最頭部且主要的提供者。

而當下實時對話式 AI 這場還未完全起勢的浪潮背後,發展多年的 RTC 技術作爲一項基礎能力,已經逐漸靠近實時多模態大模型發展浪潮的核心。

01.RTC是實時多模態大模型的必由之路

無可置疑的,大模型能力的提升直接促進了端到端實時多模態大模型的崛起。

此前,實時對話中的語音處理是基於傳統的三步驟——語音識別、語音轉文字、文字轉語音(STT-LLM-TTS)——方法來進行的。現在得益於大模型自身能力的進化,端到端實時多模態模型能夠直接處理語音,這與傳統的三步驟處理方法相比,響應速度要提升很多,這也是爲什麼實時對話式 AI 的前景開始備受期待。

語音處理這個技術難題被攻下後,大模型領域的頭部玩家們已經開始用腳投票了。

今年 6 月,Character AI 推出新的語音功能,用戶可以與 AI 角色進行語音對話。這家人工智能聊天機器人初創公司表示,新的通話功能在推出初期就吸引了來自 300 多萬用戶的 2000 多萬次通話。

Character AI 推出新語音功能幾天後,微軟 AI 負責人 Mustafa Suleyman 透露微軟將在今年年底爲用戶拿出實時的語音界面,允許完全動態的交互。

而在國內的大模型領域,智譜 AI 8 月末在智譜清言中上線了國內首個面向 C 端的視頻通話功能,該功能讓用戶能夠通過應用程序進行語音和視頻互動,整個體驗類似於與真人對話。用戶不僅可以使用手機的前置或後置攝像頭進行視頻通話,還能進行語音交互。這項功能特別適合在日常生活中的各種場景應用,比如協助學習、辨識物品等。

而在智譜清言新功能上線同日,科大訊飛星火極速超擬人交互技術也正式上線訊飛星火 APP,星火極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現重大突破,讓整體交互體驗更自然、更具情感。

電影《Her》中的場景,似乎真的要成真了。但 GPT-4o 進一步打開實時對話式 AI 的想象力所給人帶來的啓示,或許是我們仍然低估了「實時」在交互體驗上的重要性。

實時對話式 AI 中,「實時」與「AI」一樣重要,甚至作爲一場與 AI 的對話體驗中最決定性的變量,「實時」實際上的重要性要更勝後者。但要把「實時」拉到極限,端到端實時多模態模型的崛起只是近來取得技術突破的一條明線——它從思考速度上縮短了語音的交互時間。而另一條更綿長的發展暗線則是 RTC(實時音視頻,Real-Time Communications)技術的持續進步。

更詳細的拆解一下多模態大模型中實時語音交互的核心路徑,大概就能辨析 RTC 技術在其中的重要意義:

首先,語音輸入經過 RTC 傳輸到服務器,服務器端的多模態大模型接收到語音後開始預處理,這裡的預處理主要包含了音頻的 3A,例如語音的降噪、增益控制、回聲消除等操作,使得後續的語音識別更加準確,讓大模型更能聽懂用戶說的話;

隨後,預處理的語音數據送入模型進行語音識別和理解,系統再通過模型生成迴應,這其中還需要通過語音合成技術轉換爲語音信號;

最後,語音數據通過 RTC 傳輸到用戶端,完成一次完整的語音交互。

聲網在實踐中發現,傳統的 AI 語音對話(STT-LLM-TTS)在應用 RTC 後,響應延時可從 4-5 秒降低到 1-2 秒,而在具備端到端實時多模態處理能力後,通過 RTC 技術,大模型實時語音對話的延時可降到幾百毫秒內。從體驗上看,RTC 技術的應用讓對話式大模型的交互更智能,更具真實感。

在 GPT-4o 的發佈會上,有一個細節引人注意:用於演示的手機連接了一根網線。工程師 Mark 解釋說,這樣做是爲了確保網絡的穩定性。這也揭示了一個事實,即 GPT-4o 的演示是在固定設備、固定網絡和固定物理環境中進行的,以保證低延遲。

然而在實際應用中,用戶的設備通常不能始終連接網線,最終無論多強的模型能力,都需要依靠 RTC 技術來真正落到實時對話的場景中。而這其中多模態大模型在與 RTC 技術結合時如何保障低延時、流暢的語音交互體驗,變得尤爲關鍵。

一句話來說,RTC 是將多模態大模型與實時互動場景連接起來最關鍵的技術橋樑。

而隨着 RTC 從最初的一種前沿技術在近年逐漸變成一項基礎設施級別的能力並迅速在各個場景中延伸,加入了場景視角的 RTE(實時互動,Real time engagement)概念開始取代 RTC,成爲當下談論實時互動能力新的技術名詞。

以聲網創始人兼 CEO 趙斌對 RTE 的概念表述:

「RTC(實時音視頻)從 Communication 的視角,更多是在強調對語義信息進行高質量和高效率的傳遞。而 RTE(實時互動)更聚焦用戶所需要的共享時空,即俗話所說的場景。」從 RTC 到 RTE,就是從基礎能力向場景化能力的進化。

在這個端到端實時多模態模型產品化勢頭初現的時期,聲網和 RTE 開發者社區聯合發起了第十屆 RTE 大會。實時互動與 AI 的結合在當下所能承載的所有想象力,都會在這場大會中現身。

02.AI 濃度拉滿,第十屆 RTE 大會亮點前瞻

首先,不用懷疑的是,這場 RTE 大會上會有非常多足夠有分量的觀點交鋒。

國內大模型領域在 ToB 方向上走的最深的智譜 AI,以及國內大模型領域在 C 端產品化上最有心得的 MiniMax 將會出現在 RTE 大會上。作爲這兩年隨大模型迅速成長的創業公司,智譜 AI 和 MiniMax在 RTE 技術在大模型的 ToB 和 ToC 兩條路線上發展頗有心得。

而隨着大模型開源生態的迅速發展,大量個人開發者從去年開始加入了這一股大模型浪潮,實時對話式 AI 開始成爲一個備受開發者關注的產品賽道,通義千問也會帶着國內最大開發者生態的經驗在 RTE 大會中加入討論。

除此之外,此次 RTE 大會也不乏業內備受矚目的創業者身影。全球最受矚目的 AI 科學家之一,一年前從阿里巴巴離職躬身入局大模型的賈揚清也會出現在此次 RTE 大會的主論壇上,來分享他在 AI 基礎設施領域創業 18 個月後的經驗心得,以及他對 RTE 與 AI 結合的未來趨勢的判斷。

本次 RTE 大會也將通過七場行業分論壇的形式,展現一幅最具想象力的 AIGC+RTE 行業場景應用圖景,包括 AI+IoT、教育、泛娛樂、出海、數字化轉型等七大行業。50+行業大咖將會現身行業分論壇現場,帶來一線的場景實戰案例以及極具深度的行業洞察。

場景是技術迭代所結的果實,未來對於新場景的想象力也醞釀在當下技術的前沿趨勢中。本次 RTE 大會也在行業場景應用的討論之外,設置了五場技術專場,分別聚焦在音頻技術和 Voice AI、視頻技術和 AI 生成、RTC+大模型、空間計算和新硬件、雲架構和 AI 時代的 Infra 這五個技術方向,30+的技術大咖和專家學者將會帶來自己對所在領域最深入的技術見地。

當然,對於參與到 RTE 大會中的開發者們來說,這裡提供的不僅僅是觀點和見地。每年 RTE 大會都會爲參會開發者設置專屬活動,在今年的 Workshop 中提供了用 TEN 開源框架來現場動手搭建擁有音視頻理解能力的 AI Agent 的機會,這將爲開發者帶來更多 AI 實時互動場景創新靈感。

2024 年,實時對話式 AI 火熱,而 RTE 大會也迎來了十週年。

時間倒回到十年前,2015 年移動互聯網那時在國內還未完全成熟,RTE 大會在十年裡見證了直播、在線教育、遠程辦公這些新的技術場景景一次次以新物種的面目亮相併最終融入了大衆生活。在這個過程中, 實時互動技術逐漸成爲人們在社交和泛娛樂產品中的基礎設施。而隨着實時互動行業的發展,走過十年的 RTE 大會已經變得越來越重要,它已經是當下這個領域在全球範圍內規模最大、議題最全, 最具影響力的行業大會。

現在,AI 與實時互動的碰撞正涌現出新的技術和產品浪潮。而無論從前沿技術的探討深度,還是多場景創新應用的豐富性上,今年的第十屆 RTE 大會都像極了這樣一場「風口浪尖」上的實時互動領域盛會。

這場大會將會展現出這場變革至今爲止最銳利最先鋒的一面。已經身處這場變革中的開發者們,或者對實時互動即將出現的顛覆性變化感到興奮的所有人來說,請及時到場。

本文源自:極客公園