o1駕駛無人機後空翻,OpenAI開發者日驚掉下巴!2分鐘爆改代碼寫App
新智元報道
編輯:桃子 好睏
【新智元導讀】OpenAI倫敦開發者日上,首次曝出了o1五大核心能力,還有圖像理解。o1兩分鐘構建應用駕駛無人機、電話訂餐、講解太陽系,現場演示讓所有開發者沸騰。
完整版o1的解禁,離我們不遠了!
就在剛剛舉辦的OpenAI倫敦開發者日上,開發者體驗主管Romain Huet帶着o1模型來秀場了。
o1 mini聯動Cursor在不到2分鐘時間內,搭建了一個可以交互的應用,駕駛無人機表演後空翻。
現場數百名開發者, 掌聲不斷。
還有利用RealTimeAPI,構建的實時語音AI智能體向人一樣,電話賣家訂購200個派。而且,o1還不忘了幽默風趣,對話情商非常高。
不僅如此,有了o1構建的太陽系可視化介紹應用,想必未來的教學一定非常有趣。
這還僅僅是預覽版+mini版o1的功能,在演講末,一張PPT展示了未來o1的五大能力:
o1演示炸場,臺下觀衆歡呼不斷
寫代碼搭App,駕駛無人機後空翻
整場最讓人震撼的是,用o1 mini+Cursor搭建應用駕駛無人機飛行。
Romain Huet告訴o1,我現在有一架無人機,還缺少一個用JavaScript編寫的交互界面,但是我不會如何編程。
接下來,他要求o1去構建這個應用,並設定好所有的交互按鈕和組件。
並且,他向模型發送了一個樣本視頻,作爲參考。
o1收到請求後,開始執行所有的任務。
在這過程中,爲了確保應用程序搭建能夠實時更新,Huet通過在UDP數據庫上發送可能與用戶-按鈕交互相關信息,從而實現實時數據傳輸。
並且,這個操作也非常簡單,只需要點擊每個按鈕,併發送更改評論,便可以在應用中得到更新。
最後,我們就得到了這樣的一個交互界面。
左邊黑的的框框是無人機攝像頭顯示屏,右邊就是各種交互的按鈕了。
見證奇蹟的時刻到了,Huet將無人機放置在地面上,打開終端,開始運行o1搭建的應用。
只見o1駕駛的無人機演講臺上飛起,與臺下的觀衆來了一張大合影。
更驚喜的是,無人機現場還來一個360度的運鏡。
整個應用構建,用了不到2分鐘的時間。
無人機demo完整視頻,如下:
AI實時語音訂購派,堪比真人
另外,Huet還秀了一波用RealTimeAPI構建實現實時語音的能力。這一功能實際上在上個月已經推出。
他表示,現在能夠實現更長時間、更穩定的對話。
旅行應用程序Wanderlust中,Huet假設自己正計劃倫敦和新加坡之旅,假設下週就要去新加坡。
他問道,你能給我提供一些遊覽的景點嗎?
隨後,在屏幕右邊可視化圖中,展示除了新加坡一些著名打卡點。
緊接着,Huet又讓他爲自己推薦酒店,以及更多細節。
實時語音一邊說,一邊給出了結果。
接下里,他又讓o1在倫敦chiswell街區的當地商店訂購一份pie。
OpenAI開發者論壇負責人Spencer Bentley分享
Huet:我們臺下有數百位開發者,他們可能喜歡吃一些甜點,你能幫我看看附近這兒可能有哪些商店?
o1:這是一些關於pie商店更多的細節。
不過,o1給出的結果中,第二個並非是真實存在的商店,只有其餘兩個是。
爲了方便演示,讓現場工作人員擔任賣家,Huet邀請同伴上臺,一起來完成這個任務。
「在預算允許的情況下,幫我們訂購200個pie,可以是肉和蔬菜的混合餡料」。
o1直接給IIan's Poah Pies打去了電話,並像人一樣主動訂購。
介紹太陽系,讓教學更有趣
另外一個用RealTimeAPI構建太陽系導航應用程序,利用o1實時語音能力介紹星系。
從太陽系中最大的木星,到地球,再到火星深入介紹,o1全部都能娓娓道來。
OpenAI研究員表示,這一功能教會了自己:在教女兒新知識時如何成爲有趣的父母。
奧特曼QA環節,自曝最敬佩Cursor
沒有Sam Altamn的開發者日,就不算是完整的。在整場演講結束後,最後一個環節,就是Altamn QA問答了。
在線上,奧特曼拋出了一個深刻的思考:
人們總是傾向於用歷史上的技術革命來類比當前的AI革命。
但這種類比方式本身是存在問題的。比如說,互聯網革命就與現在的情況有很大的不同。
也許拿晶體管來做比較會更恰當。
晶體管是物理學領域的重大發現,它具有驚人的規模化潛力,並且迅速在全球範圍內得到應用和普及。
雖然晶體管技術讓整個人類社會受益,但現在人們並不會把那些最早開發晶體管的公司僅僅定義爲「晶體管公司」。
「我不祈求上帝站在我這邊,而是祈求自己能夠站在上帝這邊。在開發這些人工智能模型的過程中,我確實感覺自己是在追隨光明與正義的道路。」
問:我們應該期待像o1這樣的模型還是更大規模的模型?
奧特曼:希望全面提升大語言模型的性能,但這個推理思路很重要。
「不方便透露太多細節...但我預計視覺模型領域會有突破性進展。」(這似乎暗示即將推出比GPT-4更強大的視覺模型)
問:在技術整合方面會達到什麼程度?基於OpenAI構建產品的AI創業公司應該如何規劃?
奧特曼:建議創始人應該打造這樣的公司——既能充分利用當前大語言模型的優勢,又能在未來模型升級時獲得更大發展空間。
問:開源的定位是什麼?
奧特曼:答案表明開源確實有其存在空間,但同時也需要很好地整合專有模型。不過,這個回答似乎沒有提供太多實質性內容。
問:什麼是AI智能體(Agent)?
奧特曼:「一個可以接受長期任務並且在執行過程中只需少量監督的系統。」我認爲Harrison Chase在Langchain的博客中給出的定義更加嚴謹,但從商業角度來看,這個定義很實用。
問:AI智能體能做什麼?
奧特曼:它們能夠完成人類因能力限制而無法完成的任務,比如同時與300家餐廳進行通話,讓AI智能體在每家餐廳進行交談並即時收集信息。
或者說,它像一位極其智慧的高級同事,你可以放心地交給他兩天或一週的工作任務。
說實話,我很討厭「agentic」這個詞。不讓我們一起邊討論邊思考,然後創造一個新詞吧!
問:在過去10年裡,他的領導方式發生了哪些變化?
奧特曼:公司發展速度驚人,僅用兩年時間就實現了數十億美元的營收規模。從追求10%的提升轉向追求10倍的突破,這需要進行大量的調整和改變。
問:對於Peter Thiel「要招聘30歲以下的員工」的建議,你怎麼看?
奧特曼:我創立OpenAI時就已經過了30歲。團隊需要不同年齡層的人才,真正重要的是要始終保持極高的人才標準。
問:你最擔憂的是什麼?
奧特曼:從整個行業角度來看,我們正在嘗試解決的問題的系統性複雜度。
問:如果現在要創建新公司,他會選擇什麼方向?
奧特曼:專注於某個特定領域,比如開發AI法律顧問或AI工程師助手。
問:你覺得有什麼重要信息需要讓更多人知道?
奧特曼:一個能夠全面瞭解並陪伴你生活的智能助手。
問:除了OpenAI的團隊,你最敬佩誰?
奧特曼:Cursor團隊——他們打造了一個極具突破性的AI應用體驗。
問:如果能夠實現理想中的未來,你覺得會是什麼樣子?
奧特曼:在接下來的5年裡,我們可能會看到AI技術以難以想象的速度進步。但有趣的是,社會表面的變化可能並不會那麼劇烈——真正的影響可能要在更長遠的未來纔會完全顯現。
如下,是Sam Altman現場一部分QA視頻。
參考資料:
https://x.com/tarekayed00/status/1851570058285232392
https://x.com/morqon/status/1851580985562779890
https://x.com/caromcc_/status/1851570587287601237
https://x.com/Foxalabs/status/1851574681112879535