李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?
近日,百度CEO李彥宏稱“百度不做Sora”的演講被媒體曝光後,有關“中國版Sora到底值不值得做”的話題又在微博、小紅書等社交媒體引發衆多爭論。
李彥宏在內部講話中稱,Sora這種視頻生成模型的投入週期太長,10年、20年都可能拿不到業務收益,無論多火爆,百度都不去做。
反對的聲音認爲,這屬於百度自身業務的問題。國內目前在視頻生成模型上最有希望的公司是快手和字節跳動,二者的業務離視頻更近,待其視頻生成足夠優秀之後會快速完成拉新,並帶動用戶體驗提升。
快手和字節跳動是國內互聯網大廠中積極佈局視頻生成大模型的公司。Sora發佈後,快手便推出文生視頻大模型“可靈”,其背後的技術原理和OpenAI的Sora類似,都是把常用於視頻生成人工智能的擴散模型與Transformer架構相結合,依託於快手短視頻平臺,擁有大量可用於訓練的視頻數據。“可靈”發佈幾個月之後,字節跳動旗下火山引擎發佈了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業市場開啓邀測。
除字節跳動和快手之外,今年發佈視頻生成模型的公司還包括阿里雲、Minimax、生數科技、智譜AI等公司。
國內視頻生成模型領域雖然看起來火熱,但確實面臨着非常嚴峻的挑戰,李彥宏對視頻生成做出的判斷並非無稽之談。
界面新聞從一位負責視頻生成模型的技術人士處瞭解到,生成式AI技術正大幅降低視頻生成的門檻,導致視頻數據以20倍左右的速度增長,對計算成本和效率提出了嚴峻的挑戰。以Sora模型爲例,其訓練和推理所需的算力需求分別達到了GPT-4的4.5倍和近400倍。
中國銀河證券研究院的報告也顯示,Sora對算力需求呈指數級增長。其根據Sora參數規模推演出的訓練單次算力需求或可達到2.6×10^24Flops,相當於GPT-3175B的8.2倍。目前Sora還在初級階段,伴隨不斷迭代調優,其訓練數據集規模將進一步增大,未來算力需求也會大幅增加。
上述技術人士還表示,在編解碼層和框架層,視頻生成模型也面臨着諸多挑戰。一方面是效率的問題,另一方面是在計算需求日益增長的情況下,能否靈活處理越來越複雜的需求。
這些都對視頻生成模型形成巨大考驗,但其在商業化上的形勢仍然不夠明朗,一定程度上使訓練和推理成本上的挑戰更爲嚴峻。
據界面新聞了解,目前視頻生成模型的落地大多在影視製作、電商營銷等領域,處於概念多於實質的階段。
快手曾高調推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,並於近日聯合李少紅、賈樟柯等9位知名導演,啓動了完全依託視頻生成大模型製作電影短片“可靈AI”導演共創計劃,試圖以此來證明視頻生成大模型在影視製作領域的可用性。
但《山海奇鏡之劈波斬浪》整部影片並不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時長5秒的分鏡頭,再由後期剪輯團隊剪輯而成。其在成本上整體的降幅不超過四分之一,遠不如外界預期的那麼大。
從快手近期的一系列動作來看,其仍然在爲可靈AI的落地尋找更多應用場景。比如,快手試圖通過資源和流量扶植的方式,讓品牌方、製作機構、媒體等需求方能夠與AIGC創作者進行商務合作,以支持使用可靈AI的創作者獲得變現機會。這在一定程度上反映了AIGC的變現並不像想象中的那麼容易。
在這些挑戰之下,視頻生成模型領域的一個發展趨勢是降本。雖然很多公司依然在積極投入視頻生成模型,但儘可能降低訓練和推理成本,已經是很多公司都在探索的方向。
在預處理過程統一視頻的數據格式、提高數據質量、實現數據標準化、減少數據量以及處理標註信息,則是其他一些公司降本的重點。抖音一位視頻架構技術負責人表示,超大規模視頻訓練數據集導致計算和處理成本激增、視頻樣本數據參差不齊,以及處理鏈路環節多、工程複雜等,都讓視頻生成模型訓練和推理成本增加。同時,對GPU、CPU、ARM等多種異構算力資源的調度部署也是挑戰之一。
據界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來應對模型訓練的算力成本挑戰,該方案可使用大量潮汐資源,爲模型訓練提供支撐。
除此之外,通過自研芯片在同等視頻壓縮效率下實現視頻大模型訓練和推理成本降低,是部分互聯網大廠選擇的方向。而一些AIGC公司則在探索將低質量視頻與高質量圖像相結合,在保障視頻輸出畫質的基礎上降低訓練模型成本的方法。當成本真的降下來,視頻生成模型的未來之路也會更加明晰。