GPT上車,是不是營銷噱頭?
續航里程、車內大屏、智能駕駛之後,電動智能汽車捲起了高端人工智能。
12月20日,星途星紀元ES搭載奇瑞“LION AI”大模型;10日,理想汽車爲5.0版本的OTA召開了一次發佈會,重點包括名爲Mind GPT大模型上車;更早的時間,百度GPT類大模型文心一言已分別上車極越01和銀河L6(參數丨圖片);問界、小鵬、蔚來、長城也都已自研或聯合自研了自己的大模型,華爲盤古、XGPT靈犀、NOMI GPT、Coffee GPT計劃分別搭載在M9、X9、ET9和藍山車型上。奔馳則在海外探索ChatGPT直接上車的模式。
但從功能來看,現階段大部分的GPT在車上更像“娛樂項目”,回答些問題、生成一段文本或是一副圖畫。“我們做車還要和車相關,只是複製手機上能實現的功能,感覺意義不大。”一位車企的研發人員如此評價目前上車的GPT。
GPT上車,到底是一時風潮,還是戰略佈局?
01
能“控”車的理想Mind GPT
僅能作爲“娛樂項目”,是因爲目前大部分GPT在車內更像是一位僅能聊天的乘客,而非車輛的一部分。
在連接上,目前大部分GPT仍在雲端,通過聯網的方式“上車”,且僅能通過屏幕和音響系統接收人類的輸入,並進行輸出。無法像當前的語音助手一樣,在人類說:“我冷了”時,調高車內空調溫度。
在《電動汽車觀察家》的不完全統計中,理想的Mind GPT走得相對靠前,已經具備了一定的控車能力。
目前,Mind GPT在雲端和車機端都有模型,規模大小不同,負責的範圍也有所區別。除“聊天”之外,Mind GPT可以調用車內“車控、出行、媒體類”的API(應用程序編程接口),與語音助理系統協同,提供服務和響應。
“比如你想吃個火鍋,只需要給理想同學說,我們的車機界面就會生成火鍋的圖片供你選擇,自動算好出行路線等實現一系列高效、自然的操作。”理想汽車空間軟負責人李濤在一次採訪中舉例。
這背後,是語音助理對語音、視覺信號進行感知後,由MindGPT進行認知和理解,“自己”判斷是否生成一個(調用搜索、導航功能)的指令。如決定生成指令,則用該指令調用外部接口或給到車機進行執行和語音反饋播報。
“MindGPT得思考什麼時候調用哪個API,傳什麼參數,以及基於API返回內容生成回覆話術,這是一整套新的基於大模型agent(人工智能代理)架構。”理想汽車的一位研發工程師向《電動汽車觀察家》表示。
02
未來:從語音助理到人工智能Agent
此前,“調用哪個API、傳什麼參數,基於API返回內容生成什麼樣的話術”都是由人類工程師完成的。
目前,包括智能手機、智能座艙等在內的電子設備或應用產品,本質上是由工程師將產品、應用的底層能力封裝到一個Graphic(圖形) UI中,用戶按照一定的規則,通過點擊實現方式。
例如先點擊“音樂”圖案,在二級頁面點擊“FM”圖案,在三級頁面點擊“頻道”圖案,才能實現“聽廣播”這個功能。
目前的語音助理可以使人類指令通過語音的方式進行發送,但底層仍是語音指令庫與應用封裝路徑進行對應,來實現功能。
在這種模式下,交互和功能都是固定的很不靈活,但約束和指引清晰。所以,對人類來說新系統的學習成本較高,但一旦上,功能實現的成功率則極高。
GPT則提供了另一種交互方式。
雖然GPT與VOS(語音操作系統)的核心模塊,都屬於NLP(自然語言類模型),但其具有之前NLP模型不具備的理解和推理能力。
之前NLP模型主要用於識別“你在說什麼”,例如“冷了”、“打開”、“音樂”等字面意思。GPT則具有通過上下文、環境信息理解“言下之意”的能力,例如在對話過程中,對“你這個(笑話)太冷了”的反應,不是調高空調溫度,而是講一個“暖笑話”。
因爲,GPT能夠基於Prompt(提示詞)進行擴展、補全、完善,從而生成新的文本內容,甚至是轉換爲圖片、語音等其它模態。
所謂Prompt,指向模型提供輸入以引導其生成特定輸出的文本或指令。但相比語音助手往往需要需要明確甚至單一的Prompt不同,GPT所需的Prompt可以是複雜而模糊的。
如同人類常會遺忘,但一經提示會立刻想起。而這個“提示”(Prompt)可以是某句話、某個詞,甚至沒有直接關聯的某個景象或物體。Prompt 就是用以幫助GPT回想起自己預訓練時“學過”的東西。預訓練越加豐富,則對語言的理解愈發深刻。
當這種理解力疊加了API的調用能力時,人類與機器的交互便不再是通過手/口去操作機器,而是與一位助理進行溝通需求,由其去完成任務。
“原來的計算能力下,(軟件)沒有辦法解讀你的意圖,所以用 GUI 預設你的意圖。現在有了 LUI(語言交互界面,基於GPT理解能力構建),它能夠解讀你輸入的所有意圖,進而靈活匹配所有的 API。” 藍湖&MasterGo創始人任洋輝表示:“我覺得未來所有的能力可能都會均勻化,比如說你在任何的 APP 都可以買貨、訂機票、訂酒店……只要你講就可以了。這個 API 哪怕本應用裡沒有,它其實可以調用 API 市場裡的,隨時可以抽取。”
03
當下:僞場景和基礎準備
事實上,除聊天和畫畫外,也有不少車企正在探索賦予GPT一定的車控能力,基於車內人的狀態、表達,自由組合一些場景化的功能出來。“但據我瞭解現在GPT能夠應用的場景比較低頻,車機沒有必要必須要去佔據手機能做的事情。”上述車企研發人員表示。
如同GPT本身尚無形成成型的商業模式一樣,GPT上車目前也尚未找到能夠被人們高頻使用的場景。
另一方面,車端算力與GPT所需而言,差距巨大,由此降低模型性能表現。而完全依靠雲端算力,則意味着時延加大的問題,對於高安全性的汽車來說是不可接受的。
不過在探索的過程中,汽車智能化與GPT的落地方向是一致的。目前,小鵬、智己、奔馳等多家國內外車企推出的“場景”功能,可由車主能夠進行簡單編程組合出新的應用。背後,正是由數百甚至上千個被封裝出的原子級API所支撐。而這些原子級能力,也將成爲未來GPT作爲助理調動資源,提供了基礎。