丁磊:直面Sora,拒絕胡扯!
近兩週,相信大家的朋友圈都被一個詞刷屏了:Sora。
2月16日凌晨,在沒有任何預兆和消息透露的情況下,OpenAI突然發佈了自己的首個文生視頻模型:Sora,大幅刷新行業多個指標,將視頻生成的時長一次性提升了15倍,顛覆了生成式 AI 在視頻領域的全球市場格局。
OpenAI新爆款Sora的熱度持續發酵,以黑馬之姿佔據各大平臺話題中心——馬斯克感嘆“人類願賭服輸”;楊立昆狠批“Sora不是世界模型,參數量或僅30億”;周鴻禕預言“AGI實現將從10年縮短到1年”...
似乎一夜之間,人們又回到了一年多前那個令人焦慮的“ChatGPT時刻”。在爭議之外,Sora到底“牛”在哪?對於創業者和行業來講,會引發“地震”嗎?
丁磊博士在AI領域有20多年的研究和工作經驗,曾爲硅谷公司PayPal創立人工智能平臺,並出版了《生成式人工智能》一書。中信書院特邀丁磊博士,以資深從業者的視角,爲我們理清思路。
來 源 | 中信書院 (ID:citicbook)作 者 | 丁 磊編 輯 | 三 昧
從文字到視頻Sora到底有多“可怕”
OpenAI發佈了一個由Sora據一段文字生成的長達60秒的視頻,要知道就在不久之前,谷歌公司發佈的最新視頻生成模型VideoPoet,其生成的視頻也就僅僅10秒。
當然,Sora的突破不僅僅在於時長,這個60秒的視頻,不管是流暢度和穩定性,還是對光影反射、運動方式等細節的處理方面,特別是對物理世界的學習能力,都表現出極高的水準。
那Sora到底是怎樣根據一段文字生成如此驚豔的視頻?
我們知道視頻是一幀一幀的圖片連接而成的,而想要了解“文字生成視頻”,我們應該先了解“文字生成圖片”。
近兩年,隨着Midjourney、Stable Diffusion、Dall-E等圖片生成工具的出現以及性能的升級強化,幾乎是和ChatGPT一道,將人們對生成式AI的關注度推到了一個前所未有的高度。這些工具能根據一段提示詞創作出風格迥異、內容豐富的圖片,其對細節的處理已經相當出色(如圖1)。
這些圖片生成工具的背後,是一項稱爲Diffusion(擴散)模型的關鍵技術,它能夠將一張馬賽克一樣的圖片,不斷結合提示詞提供的信息,多次還原,最後形成一張完整、清晰的圖片。
Diffusion模型完整的擴散過程包括正向擴散和逆向擴散兩個過程(如圖2),在正向擴散過程中通過逐步添加高斯噪聲使得圖片變得模糊,而在逆向擴散過程中通過學習正向反過程來訓練模型,兩者結合形成最終的Diffusion模型。
既然有了圖片,爲了得到最終的視頻,我們就需要想辦法讓圖片動起來,這就要用到大名鼎鼎的Transformer模型了。
Transformer模型是一個用來處理各類序列問題的強大模型,一類是文本生成,ChatGPT就是利用Transformer模型根據用戶輸入的提示詞,來生成連續的文字內容的。另一類是視頻生成,由於視頻本質上是由連續的圖片幀組成的,我們同樣可以將視頻理解爲一種圖像數據序列,無非是其在圖像領域的自然延展。
實際運用過程中,Sora把視頻分解爲更小的數據單元Patch(時空碎片),每個Patch相當於文本序列模型中的一個Token(詞元),而這也是Sora最重要的理念之一。
從Sora生成的視頻中我們似乎可以察覺到,它就像具備了理解世界通識的能力,能夠準確的模擬事物在現實世界中的真實表現,例如最基本的動作連貫性、流體運行的形態、光影隨動物的變化、物體尺寸的比例等等這些,都表現的像是真實拍攝的視頻一樣,令人歎爲觀止。
比如,給出提示詞:“攝像機跟隨一輛白色老式SUV,頂部有黑色行李架,它加速通過一條陡峭的土路,周圍是松樹,地勢陡峭,車輪捲起了塵土...”,Sora生成了汽車在山間疾馳的視頻(如圖3),此時“世界模型”就需要預測汽車輪胎和路面相互作用所形成的車輪印跡、汽車疾馳時揚起的塵土和一系列的光影變化等。
圖3:Sora生成的視頻部分截取圖源:OpenAI 官網
Sora的橫空出世,不僅帶來了視頻生成領域全新的應用體驗,其兼具的內容生成和理解世界的能力更是讓人們對生成式AI有了新的認識和思考。
三個維度看Sora引發的“地震”
Sora真正令人震驚之處,是在於模型能夠理解物體在物理世界中的存在方式和運行規律,模型可以學習物理世界的規律又可以準確模擬出真實的物理世界。隨着這種能力的進一步深化,由Sora推動的人工智能跨越式發展,將極大拉近我們與更具通用性的未來智能世界的距離。
引爆AI產業投資熱情
資本市場一向是很敏感的,Sora引爆了資本對AI產業的投資熱情,涉及AI概念的賽道整體上漲,更多人看到了生成式AI的發展和希望。其中走在前列的仍是科技巨頭,國內外科技巨頭都在不斷增加對AI技術的持續投入。
緊隨其後的,無論是互聯網,還是信息、金融、零售等等各行業,也有更多企業宣佈積極投入大模型研發和AI的相關佈局。越來越多的投資者也意識到,想要讓人工智能在特定的行業內得到更加廣泛和深入的應用,需要更多的投入和耐心,而這對生產力水平的提升,以及對產業結構的調整和發展也有着深遠的意義。
給行業帶來“巨震”
最先受到影響的無疑是影視、短視頻、廣告、互娛、媒體等這些行業。Sora能夠快速生成高質量視頻內容,大幅降低了特效和高風險鏡頭的製作成本,提高內容製作效率。藉助Sora,廣告公司則可以迅速製作符合市場需求的視頻廣告,縮短了創意到成品的週期。
而這必將是一把雙刃劍,視頻內容製作成本和門檻大幅降低的同時,也會加劇行業的競爭,它對創作者提出了更高的要求,創作者必須不斷創新,才能保持其作品的吸引力和市場份額。
我們離失業還遠嗎?
不僅僅是視頻,生成式AI帶動文本、圖像、音頻等各種內容生成技術快速發展,應用場景快速演化,各行各業都會受到影響,這也加劇了人們擔憂和隱慮,有人不免驚呼“硅基生命終將取代碳基生命”“AI接管人類社會的步伐在加快”等。有些人可能徹底選擇“躺平”了,認爲AI進化如此之快,甚至可以學習物理世界了,我們離失業還遠麼!
目前,各種生成式AI模型仍在研發階段,還有待進一步落地應用,談論是否能取代人類的工作還爲時過早,但是這不可否定AI的影響力。AI帶來的改變是深入各行各業和我們生活的每個角落的。
AI的快速進步會極大的提升生產效率和工作方式,重新定義人在工作中的位置。隨着越來越多的新興職業和崗位的出現,例如AI產品經理、提示詞(Prompt)工程師、AI創意師、AI 調校師等等,這些職業的需求和數量也將逐步提升,可以說,AI也帶來職業結構的改變。
與其說AI將取代從業者,不如說AI代替的是枯燥繁重的工作內容,AI淘汰的不是人類,是落後的生產力。對於AI,我們不應該將其視爲競爭對手,而是將其視作我們的工作夥伴,訓練並加以使用。正所謂,君子生非異也,善假於物也。
由Sora到世界模型生成式AI的未來已來
面對Sora帶來的震驚,人們的反應也可以說是喜憂參半。一方面見證了生成式AI的又一“奇蹟”,另一方面也興許會發現大語言模型離解決實際問題的距離還很遠,而且“馴服”大模型仍需要時間。
有研究聲稱隨着越來越多人使用,大模型似乎變笨了,甚至還出現了“幻覺”。出現這種問題的主要原因是目前主流的生成式模型仍然缺少對於物理世界的理解,以致於對於一個正常人來說非常容易解答的問題,在大模型看來卻無法給出正確的輸出。
Sora的出現讓我們更加清晰的認識到了這個問題,也爲生成式AI的未來發展提供了方向,就是讓大模型認識和學習物理世界,建立起大模型與物理世界的聯通。這必將帶來AI新的應用和突破。有人認爲,Sora意味着實現通用人工智能的時間被大大縮短。
人腦認識事物的過程類似一個模型。從認識論的角度來看,在人腦認識的過程中會逐漸形成“關於世界的模型”。人的主觀知識並不一定從一開始就符合現實規律,但是通過不斷的實踐和不斷的比較中,從模型獲得的預期結果與實踐的結果,來修正主觀認識,以減少模型預測與實踐之間的差異。這種調整機制可以使得人腦關於世界的模型更接近真理。
這就好比說,體育運動是人類對物理世界認知和學習過程的體現。以乒乓球運動爲例,運動員一開始能掌握最簡單的推、攻技巧,對於常規的來球,一般都能正常應對,回球路線也符合自己的預期。隨着來球的速度、旋轉的變化,運動員發現以往的接球技巧很難完全應對了,回球時而下網、時而出臺。
運動員逐漸認知到,通過調整球拍接球的力度和角度可以應對不同的來球情況。隨着接觸到的來球情況變得多樣,大腦裡就會構建越來越複雜的“世界模型”,之後在賽場上無論遇到什麼情況,都能應對自如。這就是人類的“世界模型”認知和學習的過程。
“世界模型”也是心理學和工程科學上的一個重要概念。例如,著名人工智能科學家Yann LeCun(楊立昆)在談論機器智能的時候就提到了世界模型的重要性:世界模型模塊構成了架構中最複雜的部分,其作用包括:估計世界狀況的缺失信息,以及預測世界的未來狀態(如圖4)。
世界模型可以被看作是世界相關方面的一種“模擬器”,對真實的物理世界進行建立模型,從而讓機器像人類一樣,對世界有一個全面而準確的認知,可以預測世界的自然演變,或者可以預測由特定行爲產生的未來世界狀態。
回到對Sora的討論,Sora帶給人們的震撼是,它似乎通過學習,不斷締造物理場景下的“知識體系”,通過融匯這些知識,生成高質量的視頻內容,給人類帶來以假亂真的視覺感受。當然,如果我們以“世界模型”的標準來重新審視目前的生成結果,Sora距離真正意義上的“世界模型”還有一段不小的距離。
一方面,Sora在處理複雜場景和物理效果時仍然存在一些不足。例如,當場景中涉及到多個物體的交互或複雜的物理運動時,Sora可能會出現失誤或偏差。
另一方面,Sora主要依賴於大量的訓練數據來學習視頻的生成規律,這種方式雖然有效但在一定程度限制了其在新場景下的泛化能力。
Sora讓我們看到了AI形成“世界模型”的影子,一旦AI與物理世界建立了聯通,學習到了“世界模型”,AI的推理和預測能力將實現突破,這將在很多應用場景和專業領域裡大有可爲。這樣的AI能夠執行復雜任務和操作,甚至能夠完全模仿人類智能的行爲,最終實現通用人工智能。
引領科技革命爲什麼這次又是美國?
我曾爲硅谷公司PayPal建立了服務全球用戶的數據科學平臺,在AI領域有20多年的研究和工作經驗。在硅谷工作多年,我非常瞭解爲什麼硅谷會出現OpenAI及山姆·奧特曼這樣的人——是硅谷的“工程師文化基因”造就了他們。
OpenAI是長在美國硅谷重視工程師地位的文化土壤裡,有着強大的“工程師文化基因”,簡單說就是工程師可以主導研發,擁有更大自主性,發揮創造性的空間更大。
同時,OpenAI堅持產品驅動,沒有知識分子的清高,無論是Transformer還是Instruction Tuning等算法模型,不因爲是別人發明的就避之不用,而是秉承“拿來主義”,持續在自己的大模型裡埋首用功。對一個企業來說,最大的價值創造永遠在用戶使用的產品裡。
那麼,爲什麼谷歌等大公司目前在人工智能領域的研發都很難超越OpenAI?
一個關鍵因素是這些大公司還是按照原有的軟件研發方式研發新的AI技術,將任務拆成不同的細分任務,多部門人員各自負責細分業務,這是一種“養雞模式”。
以大模型訓練爲核心的新興AI技術研發,其本質是一個很難拆解的任務,需要核心領導層在技術、產品和業務等層面都有端到端的視野和管控能力。這更像是一種“養娃模式”,父母需要站在全局角度,親自教授培養孩子,也就是說孩子的教育不需要那麼多老師,核心人物只要少數。據OpenAI發佈的Sora技術報告,Sora作者團隊僅有13人。
值得一提的是,OpenAI的CEO山姆·奧特曼,其個人能力就非常強,不僅懂技術,也懂商業運作,甚至在去年底發生了舉世矚目的“宮鬥”事件後,都能快速回歸原位,足見其影響力之強大。正是有這樣一位領導者,全局把控公司運營方式,同時避免過多受股東制約,才能讓OpenAI始終走在AI技術創新的前沿。
就AI產業發展來說,中國的人才不比美國少,要想在AI競爭中快速佔據有利位置,不妨加快佈局,充分尊重模型訓練本身的規律,用客觀全面的AI思維,去迎接新一輪的挑戰。
現在大家普遍對人工智能感到焦慮,在我的新書《生成式人工智能——AIGC的邏輯與應用》當中,比較詳細地展望了AIGC的未來趨勢以及對個人的影響,我們身處在AI技術日益革新的世界中,每一個人,與其踟躕不定,不如就此前行。
一本書帶你讀透AIGC!
帶你釐清底層邏輯、掌控智能未來
一本由人工智能創作的關於人工智能的普及讀物
人人讀得懂、學得會、用得上
輕鬆掌握ChatGPT與生成式AI
基辛格百歲沉澱之作
探討人工智能改變人類社會的方式
以及對我們所有人的意義
世界互聯網教父凱文·凱利全新作品
引領AI時代的思想之書
揭示數字技術帶來的風險與挑戰,
掌控智能世界中的生活主動權
-End-
2024.2.27
編輯:Yoyo | 審覈:楚旂