騰訊、清華大學、港科大,有大動作!

AI領域,又傳出新消息!

券商中國記者獲悉,3月15日,騰訊和清華大學、香港科技大學聯合推出全新圖生視頻大模型“Follow-Your-Click”,基於輸入模型的圖片,只需點擊對應區域,加上少量提示詞,就可以讓圖片中原本靜態的區域動起來,一鍵轉換成視頻。

據瞭解,圖像到視頻生成的技術在電影內容製作、增強現實、遊戲製作以及廣告等多個行業的AIGC應用上有着廣泛前景,是2024年最熱門的AI技術之一。有研究機構指出,國內外大廠AI視頻生成不斷突破,未來AI+趨勢勢不可擋。

那麼,哪些領域將受益呢?

圖生視頻大模型

3月15日,騰訊和清華大學、香港科技大學聯合推出全新圖生視頻模型“Follow-Your-Click”,基於輸入模型的圖片,只需點擊對應區域,加上少量提示詞,就可以讓圖片中原本靜態的區域動起來,一鍵轉換成視頻。

當前的圖生視頻大模型中,一般的生成方法不僅需要用戶在提示詞中描述運動區域,還需要提供運動指令的詳細描述,過程較爲複雜。另外,從生成的效果來看,現有圖像生成視頻技術在移動圖像的指定部分上缺乏控制,生成的視頻往往需要移動整個場景,而不是圖像上的某一個區域,精準度和靈活性上有所欠缺。

爲了解決這些問題,騰訊混元大模型團隊、清華和港科大的聯合項目組提出了更實用和可控的圖像到視頻生成模型Follow-Your-Click,帶來更加便捷的交互,也讓圖片“一鍵點,萬物動”成爲現實。

據瞭解,騰訊混元大模型團隊,正在持續研究和探索多模態技術,擁有行業領先的視頻生成能力。此前,騰訊混元大模型作爲技術合作夥伴,支持《人民日報》打造原創視頻《江山如此多嬌》,生成中國大美河山的精美視頻片段,展示出了較強的內容理解、邏輯推理和畫面生成能力。

騰訊混元大模型是騰訊自研的通用大語言模型,於去年9月7日首次公開亮相,作爲騰訊全鏈路自研的大模型,騰訊混元定位爲“實用級”,主要聚焦業務場景和行業應用。去年5月份,騰訊董事會主席兼首席執行官馬化騰曾表示,大模型是百年不遇的、類似工業革命一樣的機遇。對於工業革命來講,早一個月把電燈泡拿出來在長的時間跨度上來看是不那麼重要的。關鍵還是要把底層的算法、算力和數據紮紮實實做好,而且更關鍵的是場景落地。

截至2023年12月,作爲實用級的通用大模型,騰訊內部已有超過300項業務和應用場景接入騰訊混元大模型內測,包括騰訊會議、騰訊文檔、企業微信、騰訊廣告和微信搜一搜等。

新技術涌現,哪些領域最受益?

值得關注的是,近期,在AI視頻生成領域,國內外都涌現出不少新技術。

2月15日,OpenAI在全球AI生成視頻領域扔出一枚爆炸性消息。當日,該公司發佈了一款名爲Sora的“文本生成視頻”模型,並向部分研究人員和創作者開放Sora的訪問權限。Sora除了可以根據文字描述生成視頻外,還可以根據現有的圖片生成視頻,目前可生成的視頻長度在1分鐘左右;而且,視頻可具有多個角色、特定類型的運動、精確主題和背景細節等複雜場景。Sora視頻生成模型,在清晰度、連貫性、理解能力、一致性、時長方面都產生較大突破。隨後,Sora引爆網絡,資本市場上AI概念股也被連番炒作。

緊跟Sora,2月26日,谷歌Deep Mind團隊發佈了110億參數的AI基礎世界模型Genie。僅用一張圖片,便可生成一個交互式世界,生成的世界“動作可控”,用戶可以其中逐幀行動。谷歌表示,Genie開啓了“圖/文生成交互世界”的時代,還將成爲實現通用AI Agent的催化劑。

平安證券表示,OpenAI、谷歌相繼發佈多模態大模型Sora、Genie,AGI浪潮或將加速到來。

長江證券指出,Genie定義生成式AI全新範式,重塑生成式交互環境格局。1)Genie或使視頻遊戲領域迎來變革:Genie通過單個圖片、照片、草圖提示即可轉換爲用戶可玩的遊戲,生成交互式、動作可控的環境。生成的遊戲可根據玩家的指令動態地生成遊戲的每個新幀,這種革新的交互方式爲遊戲玩家帶來了新的體驗感,未來有望一鍵生成可玩的遊戲世界。2)機器人領域的應用爲培養通用智能體開闢新途徑:Genie能夠掌握一組統一的動作模式,通過學習真實的機器人手臂操縱各種家用物體的視頻,它領會了機器人手臂所做動作以及如何控制它,並且學會的動作可應用於真實世界。由於方法通用,Genie可推廣於任何類型領域從而讓未來的AI智能體在不斷擴展的新世界中進行訓練。

2月28日,阿里巴巴智能計算研究所發佈了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO僅需一張人物肖像照片和音頻,就可以讓照片中的人物按照音頻內容“張嘴”唱歌、說話,且口型基本一致,面部表情和頭部姿態非常自然。EMO爲多模態領域的視頻AI帶來新玩法:1)不同於文生視頻模型Sora,EMO主攻圖+音頻生成視頻的方向:輸入單張照片+任意語速的人聲音頻,EMO即可自動生成具有豐富面部表情和頭部姿勢的聲音肖像視頻。2)表現優於同類產品PIKA:由於受限於產品架構,PIKA只能分段生成3秒的脣形同步視頻,且僅能實現脣部配合音頻發生運動的功能,而EMO可根據音頻時長,生成對應時長的視頻,並保持角色身份的一致性。相較之下,EMO更具靈活性,生成的視頻也更自然、更富有情感。

長江證券表示,海外大廠在AI視頻生成領域掀起新浪潮,我國也在不斷加速追趕步伐。AI視頻賽道涌現新玩法,未來AI+趨勢勢不可擋,建議關注AI+IP/遊戲/影視/電商/廣告商業化落地投資機會。國泰君安認爲,隨着AI視頻類模型的成熟,影視製作的全流程均有望受益於AI模型迭代,影視產業望深度受益於AI發展。

平安證券指出,當前,全球範圍內大模型領域的競爭依然白熱化,這將持續拔升大模型的整體能力水平。大模型需要大算力,大模型算法的迭代升級將爲全球和中國AI算力市場的增長提供強勁動力。在美國對華半導體出口管制升級的背景下,我國國產AI芯片產業鏈將加快成熟,相關AI芯片和服務器廠商將深度受益。另外,在應用端,我國國產大模型能力持續升級,AIGC產業未來發展前景廣闊。海通證券則表示,隨着國內外數字經濟的蓬勃發展,AI、智算需求高速增長,相關化工新材料的需求也有望增加。

責編:戰術恆

校對:王朝全