“Sora目前仍不夠可靠,應用場景受限”

近日,博主“AI瘋人院”在網絡上發佈了一部利用AI技術生成的《西遊記》動畫短片。短片中展現了錯落有致的宮殿羣、鬱鬱蔥蔥的花果山,還有山間雲捲雲舒、山石崩裂等動畫畫面,令衆多網友讚歎不已。這段短片利用了AI規劃分鏡並繪製圖片,再輔以“圖片生產視頻”軟件讓圖片“動起來”。視頻作者馮先生在接受媒體採訪時表示,這段視頻如果人工製作至少需要半年,而自己在AI的幫助下用時一週就完成了。

值得一提的是,上述動畫短片並非由AI直接生成,在動作畫面上也有侷限性,無法實現複雜的打鬥場景。然而,短視頻生成模型Sora的問世,讓AI根據指令直接生成複雜逼真的動畫成爲可能。

北京時間2月16日凌晨,Sora“橫空出世”。這是OpenAI推出的一款能根據文字指令即時生成短視頻的模型。OpenAI曾在2022年11月30日發佈名爲ChatGPT的全新聊天機器人模型,開啓了AI新時代。此番,OpenAI強勢推出又一王炸Sora,將帶來哪些改變?

談及OpenAI開年的這一震撼級發佈,多名業內專家在連線中向南都記者表達了一個共識,即目前的Sora功能讓人眼前一亮,但仍未完全進化。

A

眼見爲實?深度生成視頻以假亂真 AI監管需綜合治理體系

Sora採用Transformer與擴散模型結合的技術路線,能夠生成長達1分鐘的高清視頻,視頻中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動。

2月16日,OpenAI宣佈推出文生視頻大模型“Sora”,迅速引發AI圈的關注。Sora展示的全新影像畫面精細生動,遠勝於此前生成式AI所生產的動畫內容。這款模型不僅能理解用戶的要求,還了解物體在物理世界中的存在方式。

中國人工智能產業聯盟安全治理委員會專委會副主委、浙江大學教授潘恩榮認爲,生成式AI從文本到圖像再到視頻,是一個快速發展的過程。從目前Sora官方所發佈的樣片來看,其強大的圖像視頻生成能力在某種程度上確實能達到以假亂真的效果。雖然客觀實踐並不會因人工智能變得虛幻,但是人的認知發生了改變。

“可以認爲我們改變了一些傳統的觀念,比方說‘眼見爲實’。”潘恩榮告訴南都記者,這也會帶來社會生活的一系列問題,例如視頻證據要如何舉證,如何證明視頻證據的有效性等。“所以從人的認知的角度來講,這個‘真實’就不存在了。”

Sora問世前,已經出現過多起不法分子利用AI技術僞造視頻詐騙的事件。今年年初,有詐騙分子用AI假造香港特首李家超和特斯拉CEO馬斯克的視頻向香港市民推介一項投資計劃。爲此,1月24日香港特區政府緊急發佈新聞公告,嚴正澄清。去年2月,浙江省一派出所接到報案。詐騙分子截取陳先生好友“阿誠”在社交平臺已發佈的視頻,利用“AI換臉”技術,用合成的新視頻假冒好友與陳先生聊天,從而實施詐騙。

Sora如果實現大規模推廣,將大大降低普通人利用AI合成高質量視頻的難度。據中國科學院信息工程研究所正高級工程師韓冀中介紹,Sora應用的技術與此前的深度僞造技術相互承接,又有所不同。深度僞造技術引起公衆注意是從2018年開始的,當時的人臉“換臉”技術主要是基於GAN(生成式對抗網絡)。後來,Transformer和擴散模型被成功用在文本生成圖片和語音生成任務中,出現很多開源軟件及成熟的工具平臺。普通人簡單學習之後就可以很快掌握並生成多媒體,比如讓“孫燕姿”唱歌、“郭德綱”說英文等。

在此前技術的基礎上,Sora採用Transformer與擴散模型結合的技術路線,能夠生成長達1分鐘的高清視頻,視頻中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動。“Sora相比於之前Runway、Pika等的文生視頻產品,生成的視頻內容在三維空間的一致性、在時間上的連貫性上都取得很大的進步。”

鑑於Sora生成的視頻內容高度逼真,韓冀中指出,基於Sora的虛假信息傳播可能在國際衝突、國內政治、社會、經濟安全等領域帶來新的挑戰。目前,國內外互聯網平臺在內容審覈上都建立了針對政治謠言、色情、暴恐類信息的檢測機制。因此,互聯網內容無論是不是僞造合成的,帶有明確特徵的不當內容都能被較爲有效地甄別和攔截。

但是,對於難以判斷真假的信息,尤其是涉及熱點輿情與名人明星的信息,在第一時間進行深度分析與研判,及時阻斷其傳播,依然有許多問題需要解決。隨着未來AI生成內容越來越多,網絡上將存在大量合成的文字、圖片和視頻,僞造合成的不一定是有害的,這就不僅需要在技術上改進,也需要建立更加完善的綜合治理體系,纔能有效實現安全防禦。

據介紹,OpenAI公司仍在試圖瞭解Sora的危險性,因此尚未向公衆發佈該系統。OpenAI針對Sora開展的“紅隊”演習中,專家們試圖破壞AI模型的保護措施,以評估其被濫用的可能性。OpenAI發言人表示,目前參與測試Sora的都是“在錯誤信息、仇恨內容和偏見等領域的專家”。

這項測試至關重要,因爲Sora可能會被別有用心者用來生成虛假視頻,以騷擾他人,甚至影響政治選舉。學術界、商界、政府以及AI專家都很擔心,AI生成的“深度僞造”內容可能會造成虛假和錯誤信息的廣泛傳播。美國加州大學伯克利分校的哈尼·法裡德認爲,與生成式AI領域的其他技術一樣,人們有理由相信,文本-視頻技術會持續改進。因爲一旦Sora與由AI驅動的語音克隆技術相結合,將爲不懷好意者提供全新工具,並創建出逼真的深度僞造內容,這將讓人們越來越難以區分真僞。OpenAI發言人強調稱,在將Sora用於OpenAI的產品之前,公司正採取幾項重要的安全措施。例如已使用了自動化流程,旨在防止其商業AI模型生成針對政客和名人的虛假內容。

B

實現科技跨越式發展?目前應用場景有限 存在不符合物理規律等問題

其實,AI實現文字生成視頻並不是新鮮事。韓冀中告訴南都記者,Diffusion網絡的提出,催生了跨模態內容生成,使AI可以用文字生成視頻,雖然生成的水平不及Sora。

而且,目前Sora的應用場景還很有限。“生成式AI從文本到影像世界,還沒有到跨越式發展的程度。”騰訊機器學習平臺部專家工程師姚軍指出,目前Sora可以用來解決一些創意輔助的場景,但是不夠可靠,所以應用的場景是受限的。

OpenAI公司坦承,目前Sora模型也有弱點。它可能難以準確模擬複雜場景的物理特性,且可能無法理解因果關係。例如,該系統最近生成了一個人吃餅乾的視頻,但餅乾怎麼吃也沒變小,被咬的餅乾也神奇地沒有咬痕。此外,該模型還可能混淆文字提示的空間細節,也可能難以精確描述隨時間推移發生的事件。美國普林斯頓大學的阿凡德·納拉亞南指出,Sora生成的視頻在描繪有大量動作的複雜場景時仍然會出現一些奇怪的小問題。

對於官方公佈的一些Sora的“硬傷”。姚軍解釋道,因爲其模型不是依靠內在的物理仿真引擎,所以所生成的視頻常常顯得“不可靠”,會出現不符合真實物理規律的地方,這是當下這類依賴大規模數據驅動的大規模參數模型迭代的技術思路難以根除的問題。

根據韓冀中的介紹,針對視頻生成模型是否構建通用物理世界模擬器的一條有前景的道路,在學術界依然有不同觀點。比如Meta的Yann Lecunn在Sora推出之前,就一直認爲LLM(大型語言模型)不是世界模型的正確路徑。“從Sora發佈的一些失敗視頻中,也看到目前Sora對物體交互場景的理解還有缺陷。”

C

近兩年可實現通用人工智能?“AGI在一兩年內實現過於樂觀,但Sora大規模推廣在望”

針對此次Sora所帶來的討論,360創始人周鴻禕在社交網絡上也分享了自己的看法。他認爲,Sora的誕生意味着AGI(通用人工智能)實現可能從10年縮短至一兩年。

談到Sora最大的優勢,周鴻禕表示,以往文字視頻軟件都是在2D平面上對圖形元素進行操作,可以把視頻看成多個真實圖片的組合,並沒有真正掌握這個世界的知識。但Sora產生的視頻裡,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習。一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一張圖,這就離AGI真的不遠了,不是10年20年的問題,可能一兩年很快就可以實現。”

然而,在業內專家看來,認爲AGI能在一兩年內實現的觀點過於樂觀。姚軍表示,“從原理上不難得出,這類模型不具備世界模型,沒有真正的一套知識框架內核,只是依賴數據中體現的‘大數原理’,與現實世界有一定的重合,但遠達不到‘世界模型’的門檻。”

潘恩榮也認爲,AGI在一兩年內實現不能作爲一種真實的預測。“因爲我們講的通用人工智能往往指的是‘人’作爲主體所作用的能力,然而現在人工智能能實現的事情,更像是‘物’的能力。”

對於公衆何時能夠大規模使用此類產品,姚軍告訴南都記者,“預計很快。”姚軍表示,在未見到嚴肅論文的情況下,僅憑感覺目前Sora是在吸取了很多LLM和文生圖的迭代經驗,部分解決了訓練數據的約束,據說是用到了遊戲引擎生成的視頻數據,同時,由於傳聞該模型的規模並不大,所以其成果預計可以很快進行應用落地。

但不論如何,有一件事毋庸置疑,模型後續效果的優化速度會越來越快,就像當時文生圖技術出現後一樣,一個季度一次升級,一年一個大變樣。

有人靠Sora賺錢了?

“Sora教程解讀”九成是網絡資料 有電商平臺上售價99元

“變現教程”大多是公開內容,Sora還未公測就有商家號稱有“內測名額”。記者在多個電商、社交平臺搜索以不同關鍵詞搜索發現,市面上不乏有Sora的“教程”“解讀”,售價在幾元至近百元不等,其中90%的內容是能夠在網絡上公開找到的資料。

有“教程”列舉了普通人

用Sora賺錢的“十大機會”

此外,記者還發現了以Sora爲免費送資料,但疑似進羣拉新並誘導付費的“套路”。記者瀏覽發現,在某電商平臺上,這類“教程”的售價最高爲99元,最低則只有0.1元(需要加羣)。記者購買了其中一份“教程”發現,“教程”是一份在線文檔,其主要的內容包括Sora的介紹、生成的視頻、還包含大段的其他媒體、自媒體發佈的解讀文章,其中90%的內容都是能夠在網絡上公開找到的資料。

而另一份售賣的“教程”則列舉了普通人能夠用Sora賺錢的“十大機會”,包括售賣Sora賬號和邀請碼、使用Sora生產視頻做自媒體、製作Sora使用教程知識付費等。

OpenAI至今沒對公衆開放Sora的測試權限,但記者發現,許多售賣“教程”的人表示擁有“申請Sora內測名額步驟”。

記者下載該份“教程”後發現,其所謂的“Sora內測名額”實際上是要用戶以“紅隊”(網絡實戰攻防演練中的攻擊方)身份在OpenAI官網進行內測申請,“教程”還頗爲貼心地提醒用戶“填寫信息最好郵件寫谷歌,居住國家選美國,專業知識選擇計算機”,並表示“通過(不通過)全看緣分”。

49.9元至1.6萬元賣課和合夥人資格

記者發現,相比認真售賣“教程”的賣課人員,還存在不少標價0.1元,或者乾脆免費贈送課程的賣家。

記者通過電商平臺購買了一份標價0.1元的“教程”後,被賣家拉入了一個“AI破局羣”,該羣不僅贈送“Sora資料”,還有“新人福利”,不過該份教程除了建議正常的賺錢方式,除寫公衆號獲得粉絲外,還包括拉新和進一步賣課的“玩法”。

2月20日下午,記者加入該羣后發現在短短兩小時內就有9人被拉入了羣聊,羣管理員在羣內發佈消息稱“曾經抓住了AI機會,成立了團隊創業,all in(全部投入),放大,44天就有2萬人付費,太強了”,“一句話,如果你也想入局AI,探索副業或者創業機會,值得加入,即使最終不玩AI,499的試錯也值得。”

那麼,如何深度參加呢?記者在課程售賣者的朋友圈看到,可以以1.6萬元的價格成爲“合夥人”,或者199元、49.9元的價格進入星球,購買專欄。此外,還能通過“拉新”賺到錢或者兌換這些知識內容,“加入‘戰隊’可以拿到最高比例50%的拉新獎勵,499起步價,每單多賺100多。”

需要注意的是,上述“玩法”已經和Sora沒有關係了。記者觀看了一段羣友分享的視頻發現,這樣的同類羣數量多達100個,講師在羣內發表視頻時直白表示,“我實際上不懂AI,像我們這樣的普通人不需要特別懂AI,但依然能通過AI賺到錢。”記者瀏覽視頻發現,其演講的核心內容就是如何利用信息差,通過知識付費賺錢。

鏈接

Sora兩大技術孵化強大功能

Sora日語意爲“天空”,其背後的團隊之所以選擇這個名字,是因爲它“讓人聯想到無限的創造潛力”。該系統是生成式AI的一個最新實例。生成式AI可即時創建文本、圖像和聲音。

Sora目前可單獨使用文本指令,或將文本與圖像相結合,來創建長達60秒的視頻,而且是一鏡到底。比如一段演示視頻依據如下文字描述生成:一位時尚女性漫步於充滿城市標牌的東京街道上,道路兩邊霓虹燈閃爍,透出陣陣暖意。Sora不僅準確呈現了細節,還生成了具有豐富情感的角色。

目前OpenAI官網上已更新了48個視頻,包括一隻狗在雪地裡嬉戲,車輛在路上行駛,以及更奇幻的場景,如鯊魚在城市摩天大樓之間游泳等。爲實現更高水平的真實感,Sora結合了兩種不同的AI技術。一是類似於DALL-E等AI圖像生成器中使用的擴散模型,這些模型學習將隨機圖像像素轉換爲相干圖像;二是“轉換器架構”技術,其被用於將序列數據依據上下文內容拼接在一起。例如,大型語言模型使用轉換器架構將零散的單詞組裝成人們可理解的句子。OpenAI將視頻片段分解爲視覺“時空補丁”,Sora的轉換器架構可處理這些補丁。

英偉達公司高級研究科學家範麟熙在社交媒體平臺X上稱,Sora是一個可模擬現實世界的“數據驅動的物理引擎”。