萬興科技朱偉:Sora至今沒有商業化,視頻模型成熟需要週期丨GenAICon 2024

智東西作者 GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行,在大會首日的主會場大模型專場上,萬興科技副總裁朱偉以《音視頻多媒體大模型市場洞察與落地實踐》爲題發表演講。

當前,大模型正從1.0圖文時代進入以音視頻多媒體爲載體的2.0時代。視頻創作需求量巨大,然而長期來視頻相關模型僅佔極少數,且大模型在音視頻領域的應用面臨數據集缺失、視頻內容結構及層級複雜、算力成本高等嚴峻挑戰。

萬興科技副總裁朱偉認爲,大模型的出現爲視頻創作帶來前所未有的便利和可能性,2024年有望迎來AI視頻的元年。在此背景下,萬興科技在4月28日旗下萬興“天幕”音視頻多媒體大模型正式公測。

“天幕”大模型於今年1月份發佈,聚焦數字創意垂類創作場景,基於15億創作者及100億本土化高質量音視頻數據沉澱,以音視頻生成式AI技術爲基礎,具有多媒體、垂直解決方案、算力數據及應用本土化三大特色。

這是國內首個專注於數字創意領域的音視頻多媒體大模型,已通過中央網信辦備案,將支持60秒視頻一鍵生成,並具備視頻生視頻、文生音樂、文生音效等近百項原子能力,全鏈條賦能全球創作者。

以下爲朱偉的演講實錄:

我們萬興的模型叫“音視頻多媒體大模型”,專注於市場及應用方面的情況。公司成立20多年來,一直在音視頻、多媒體領域深耕,爲音視頻內容生產者賦能。我們主要是視頻內容生產的工具和服務的廠家。

如今,我們在音視頻多媒體領域已有超過20年的積累,當大模型出現後,我們很欣喜,因爲它爲我們所在的行業和用戶提供了更優秀的技術服務。因此,我們希望通過此次分享,向大家介紹音視頻多媒體大模型在市場上的一些趨勢以及實踐經驗。

一、大模型開始進入2.0時代,音視頻模態入口尚未完全打開

說到大模型,萬興科技在深度學習來臨之時就已組建團隊進行人工智能(AI)的研究。隨着大模型時代來臨,我們必然跟隨潮流,因爲我們相信大模型會爲內容製作,特別是視頻內容製作,帶來更大的驅動力。我們曾提出大模型應該像基礎設施一樣,賦能各行各業,我們也一直堅信這一觀點。

去年,大家都在說“百模大戰”,整個大模型領域呈現爆發式增長,許多大型模型相繼問世,並且很多模型已經投入商用,特別在文本和圖片領域已經形成商業的閉環,給用戶帶來價值。其中,一些產品一旦接入大模型後,我們發現它獲得了十倍甚至幾十倍的增長,這讓我們深信大模型或將爲很多行業帶來超乎尋常的改變。此外,我們看到,3月份ChatGPT的訪問量已達17億多,量已經很大了。

不過,我們也同時意識到一些問題,比如增長速度已經開始放緩。

這是爲什麼呢?特別以文本和圖片爲主的大模型,用戶的使用量沒有像去年或者前年底大規模的爆發是爲什麼?我們認爲這可能是因爲下一個模態的入口尚未完全打開。

什麼意思?我們認爲,在AI 2.0時代,大模型也開始進入2.0時代。爲什麼這麼說?大模型正從以圖文爲主的時代,如果將其定義爲1.0時代,今年開始逐漸轉向以音視頻多媒體爲載體的2.0時代。

這個趨勢與萬興的業務密切相關,因此我們一直在研究和實踐這一領域的技術,並關注市場用戶的需求。

從數據上看,互聯網流量中,80%是視頻流量,這與視頻數據體積有一定的關係,但也反映了用戶偏好,他們更傾向於視頻內容。尤其在大模型進行用戶調研時,一些公開資料顯示,用戶最希望大模型能夠生成視頻,這是用戶需求排名前三的項目之一。

因此,用戶迫切希望大模型能夠協助他們進行視頻創作。而萬興正好是視頻創意賽道20多年的深耕者,因此責無旁貸地要做音視頻生成領域的事。

過去,視頻創作是好萊塢導演、剪輯師們的專利。但隨着科技發展、手機攝影設備的普及以及AI能力的提升,這讓編輯視頻變得越來越容易,創作視頻的人也越來越多,需求越來越大。

二、Sora至今沒有成功商業化,視頻模型應用難度與挑戰大

一個問題是,這兩年,在文本和圖像領域的模型比較多,但是視頻領域的模型卻較少,從一些行業數據上看,視頻模型相對文本、圖像來講少之又少。雖然一些視頻模型出來了,但面臨的問題比文本、圖像嚴峻得多,比如數據、算法、成本,特別是效果。

事實上,視頻大模型效果還有很大的提升空間。今年過年期間發佈的Sora,被認爲是目前效果最好的視頻模型,我相信行業第二梯隊跟它的效果比起來,有較大的提升空間。

視頻模型佔比非常少,但我們也開始在應用了,只是說應用的難度和挑戰較大。

那麼,視頻模型爲什麼應用難度那麼大?就像Sora,在今年過年的時候發佈了視頻,但至今不僅沒有商業化,也沒有對公衆普遍開放的時間點。所以我們認爲,雖然大家都在做視頻模型,但離商業化還有距離。

鑑於這些原因,我們不禁思考:爲什麼視頻和多媒體方面的工作沒有像文字語言模型那樣一出來就被大範圍使用?

我們認爲視頻的場景是比較複雜的,無論是它的信息包含量還是表達方式,甚至還要加入時間維度,這都使得視頻的表達變得非常複雜。另外,視頻製作本身也是一個漫長的過程。

我們的工具主要針對半專業用戶,而非專業用戶。半專業用戶使用我們的工具和海量數據,製作一個視頻需要1.6小時,說明整個視頻製作是有一定的門檻。

從AI技術的角度來看,視頻模型的成熟和應用肯定需要一定的週期。因此,我們一直認爲2024年可能會成爲AI視頻的元年,也就是說,我們相信今年AI視頻會越來越多,甚至會有一個爆發的趨勢。在這種趨勢下,作爲音視頻領域的一家公司,尤其是爲音視頻創作者提供賦能的公司,萬興科技感受到了前所未有的機遇。

三、獲取視頻數據不難,難在轉化成大模型可用的數據

目前,公司在全球200多個國家積累了一大批忠實用戶。很多用戶都在反饋一個問題:爲什麼我們的產品還沒有AI能力,或者爲什麼還沒有那項AI能力?

儘管我們的產品從幾年前就開始陸續增加了一些AI功能,但用戶的需求遠遠超過我們提供的速度和能力。因此,我們既感受到機會,也感受到了壓力。

同時,我相信老用戶對我們公司的瞭解。在過去的20多年裡,我們一直在不斷爲用戶提供當前時代的技術能力和賦能。隨着從最早的PC時代到移動互聯網時代,再到如今的AI時代,我們一直致力於爲用戶提供相應的技術賦能。因此,我認爲用戶對我們也有期待。

對於全球的視頻或多媒體創作者,我們有着比較深刻的認知和理解。我們知道,一個視頻創作者在什麼時候需要什麼樣的能力和賦能,以便有利於他去創造視頻。除了大模型的能力,我們還積累了許多傳統算法方面的能力,這些能力在與大模型相結合時,對賦能創作者起到非常大的作用。

在大模型時代,我們原來的能力起了很大的作用,我們將其稱之爲“數據生產和管理的能力”,也就是對於數據處理的能力。

獲取視頻數據並不難,但要將其轉化爲可用於大模型訓練的數據,仍然需要一定的成本、時間和技術能力。這正是擁有這樣一個平臺的好處,可以更好地處理這個問題。同時,我們對算法基礎設施的投資,特別是自研的推理訓練平臺,也爲大模型研發提供了更好的支持。

四、今年1月發佈音視頻多媒體大模型,三大特點支撐商業化落地

基於多年來的基礎積累、用戶的期待以及這些多年的數據、算法、技術的積累,和對大模型時代的觀察,今年年初,也就是1月底,我們發佈了自己的多媒體大模型,即“音視頻多媒體大模型”萬興“天幕”。

讓我簡單介紹一下“天幕”具備什麼樣的特點。

第一,從多模態到多媒體。

如今大家都在提多模態,我們並沒有否認多模態,只是從應用和用戶認知的角度來看,對於普通視頻剪輯用戶來說,多模態這個術語有些過於技術化了。因此,我們想要強調的是,多模態實際上是指文字、圖片等各種元素的組合。我們的目標是將所有這些多模態元素很好地融合在一起,最終讓用戶在剪輯視頻時產生高質量的多媒體視頻。

此外,我們目前在視頻模型方面並沒有着手最底層的L0模型,而是在L0.5或往上的層級,我們更多地致力於提供垂類解決方案,更多地希望我們的模型能夠給用戶帶來價值,能夠解決用戶的實際需求。

舉例來說,對於多模態和多媒體這兩個概念,我們更強調視頻中應包含片頭、主題、字幕等多個模態元素的融合,形成一個多媒體視頻。我們強調的不是多模態的處理能力,而是每個模態最終形成一個視頻的融合能力,這是我們的模型想達到的第一個特點。

第二,從通用模型到垂直解決方案。

通用模型像ChatGPT已經存在了很長時間,訪問量增長趨緩。使用ChatGPT詢問中醫問題時,可能得到的答案並不理想。因此我們認爲,如果GPT是一個基礎模型,就需要在此基礎上進行市場化,並解決用戶的實際問題,最終創造商業價值。這必須通過解決某些人的某些問題來實現。

在開發“天幕”大模型時,我們重點強調如何提供垂直的解決方案,以解決用戶的具體問題。我們不會將通用能力作爲一個產品,而是將其與垂直場景結合,形成可用的功能或解決方案。目前這種做法可能是一個較好的商業化解決方案。

第三,在數據、算力、應用方面進行本土化擴充。

大家可能會說,全球的數據都已經有了,爲什麼還要做這件事?這其實是我們在研究中的一種感受。我記得在去年10月、11月份的時候,當時我們做了一個名爲《女孩的一生》的視頻。做出來後,很多朋友問我說,你們那個視頻爲什麼前面看起來像一個東方小女孩,到後面老的時候好像變成一個西方老太太?我想這可能就是數據問題。

我們最近又重新做了《女孩的一生》這個視頻,ID的一致性和人的ID屬性得到了較好的保持,所以數據完整性非常重要。因此,我們說自己是土生土長的面向全球市場的大模型。

五、“天幕”大模型4月28日公測,可一鍵生成60秒+視頻

說了這麼多我們的大模型,那它到底有什麼特點和能力?我通過幾個原子能力的視頻來給大家簡單介紹一下,我們從4月28日起開展公測,希望大家能多體驗,提供指導意見。

首先是文生視頻的能力,即一鍵生成60秒以上的視頻。這意味着可以用一鍵方式將一個簡短的故事轉化爲視頻。生成的視頻質量包括故事情節、角色形象、畫面連貫性等方面,基本上能夠按照你的故事情節完成視頻製作。

在這個領域,我們並沒有過多地與其他模型比較生成視頻的基礎能力,比如生成的質量和時長。我們更多地希望用文生視頻的能力解決用戶在視頻創作過程中遇到的無法獲得素材、無法插入場景等一系列的問題。

另外一塊是視頻生視頻,主要偏向視頻風格化。這個算法已經比較多了,但真正將其應用到行業產品中並商業化的,並不多見。我們現在的技術不僅在C端產品中讓用戶使用,也在B端與國內視頻媒體行業溝通合作,思考怎樣給他們賦能。

我們提供生成音效的能力,即用文字方式生成音效。這些生成能力極大地方便了用戶在視頻剪輯過程中尋找素材的時間和效率,所以當把這些能力給到用戶以後,用戶還是比較喜愛的。

另外,我們還提供生成音樂的能力,因爲每個視頻都需要配備背景音樂。但以往爲用戶尋找背景音樂是一件費時費力的事情,而且還涉及版權問題。我們的這些能力爲用戶帶來了很好的解決方案。

因此,我們可以說是國內首家擁有音視頻多媒體大模型的企業,並且已經通過了中央網信辦的備案,可以有效支撐後續公司全球業務的開展。

六、已推出多款具有大模型能力的AI產品,未來將構建天幕模型開放生態

我之前提到大模型的能力,一旦有了一個小的能力成熟,我們就會推進其應用到產品上,讓產品面向用戶進行體驗。

特別是我們公司的主力產品Wondershare Filmora,中文版名稱爲“萬興喵影”,去年陸續增加了很多AI能力,爲用戶解決個性化問題和特定問題。我們發現我們的用戶對這些能力的喜愛度和使用度有了很大的提升。這也讓我們更加決心在AI大模型領域進一步投入。

此外,在國內市場,我們還開發了一款新產品萬興播爆,利用口播數字人的能力通過文生視頻的方式,爲跨境電商賣家提供方便,讓他們能夠更輕鬆地製作商品展示介紹視頻。這一領域也受到越來越多人的喜愛。

現階段,我們更多地是利用AI和模型的能力來賦能自己內部的產品,通過產品將模型的價值傳遞給最終用戶,解決用戶的問題,產生價值。

今年開始,我們逐步把模型的能力又往外擴充,希望整個“天幕”能力除了內部使用外,也能夠賦能各行各業,特別是生態賦能。

我們在長沙有一個AI Lab中心,在長沙馬欄山一帶,算是湖南視頻媒體文創產業集中地。我們正在探索與一些企業的合作,尤其是媒體企業,目前主要是在視頻後期處理階段,利用我們的技術提高他們的效率,降低他們的成本,爲傳統媒體行業降本增效。

所以整體來看,我們錨定“新生代AIGC數字創意賦能者”定位。因爲我們相信AI會在整個視頻製作業會產生一個顛覆式的變化,利用AI和大模型的能力降低成本、提高效率,是時代的趨勢。

我們的天幕大模型上一次發佈以後主要在內部使用,並在一些小範圍試用。4月28日,我們正式公測。或許我們的模型現在還不夠完美,但正是因爲不完美,纔有了更多的憧憬。未來,我們一定會不懈努力,不斷完善我們的模型,還請大家多提意見和建議。感謝大家!

以上是朱偉演講內容的完整整理。