給文字動畫注入語義靈魂!港科大開源「文字跳動」技術,每個單詞都浪漫

新智元報道

編輯:LRT

【新智元導讀】香港科技大學和特拉維夫大學的團隊開源了基於視頻大模型的「文字跳動」(Dynamic Typography)技術,僅需選擇一個字母,並給出一段簡單的文字描述,就可以生成SVG動畫讓這個字母「躍然紙上」.

ROMANTIC(浪漫的)中的「M」,變成了一對情侶手拉手,前後走。

Father(父親)中的「h」,被演繹爲一個父親耐心地牽着他的小孩一起散步。

PASSION(激情)中的「N」,可以化爲一對情侶擁吻在一起。

SWAN(天鵝)中的「S」,竟變成一隻天鵝優雅地伸展着她的脖頸。

TELESCOPE(望遠鏡)中的「P」,成爲了一個真的望遠鏡!緩緩地轉向鏡頭。

這就是來自港科大和特拉維夫大學的研究團隊爲我們帶來的最新作品:Dynamic Typography。

論文鏈接: https://arxiv.org/abs/2404.11614

項目主頁: https://animate-your-word.github.io/demo/

下面爲視頻demo,強烈推薦大家打開聲音看一下哦!

讓文字動起來

文本動畫是一種表達性的媒介,它將靜態溝通轉變爲動態體驗,從而喚起情感,強調文本的意義,並構建引人入勝的敘事,從而被廣泛應用於梗圖,視頻,及廣告製作中。然而,想要製作這樣符合語義的動畫需要在圖形設計和動畫製作方面的專業知識。

因此,研究人員提出了一種全新自動化文本動畫方案「文字跳動」,實現了文本與動畫的完美融合。

該方案可以拆解爲兩個步驟:

1. 根據用戶的描述,字母將被變形從而傳達文本語義。

2. 變形的字母將被賦予用戶描述的生動動態效果,從而達成文字動畫。

在文字絲滑運動的同時保持其可讀性極具挑戰性。當下的文生視頻模型均難以保證生成可讀的文字,更無法將文字根據其語義信息「變形」從而更好的傳達運動信息。而重新訓練這樣的模型需要大量難以獲取的風格化文字視頻作爲數據集。

研究人員使用了Score Distillation Sampling(SDS)技術,通過蒸餾大參數量文生視頻基礎模型中的先驗知識,預測文字的矢量圖中的控制點在每一幀的位移,並通過額外的可讀性約束以及結構保持技術實現了文字運動過程中可讀性和外觀的保持。

研究人員展示了他們提出的框架在各種文生視頻模型上的通用性,並強調了該方法相比基線方法的優越性。實驗結果表明了他們的技術可以成功生成與用戶描述相符且連貫的文本動畫,同時保持了原文字可讀性。

方法

1. 數據表徵

在這項工作中,字母的輪廓被表徵爲若干條相連的三次貝塞爾曲線,由貝塞爾曲線控制點決定其形狀。作者提出的方法爲每一幀預測每個控制點的位移。這些位移將字母「變形」從而傳達語義信息,並通過每一幀不同的位移加入運動。

字母的輪廓被提取爲相連接的三次貝塞爾曲線

2. 模型框架

給定一個表徵爲貝塞爾曲線的字母,研究人員首先使用一個基於座標的MLP(稱爲Base Field,基礎場)將字母變形可以表徵其語義信息的base shape,如圖中的「CAMEL」的「M」被變形爲駱駝的樣子。

Base shape緊接着被複制到每一幀,並通過另外一個基於座標的MLP(稱爲Displacement Field,位移場)預測每個控制點在每一幀的位移,從而爲base shape加入運動。

每一幀接着通過一個可微渲染器渲染爲像素圖片,並 拼接爲輸出視頻。基礎場和位移場通過文生視頻的先驗知識以及其他的約束項完成端到端的共同優化。

3. 優化

當下基於擴散的文生圖模型如Stable Diffusion通過大規模的二維像素圖片進行訓練,包含了豐富的先驗知識。Score Distillation Sampling(SDS)旨在蒸餾擴散模型中的先驗知識,用於訓練其他模型生成其他模態的內容,如訓練NeRF中MLP的參數從而生成3D模型。

在該工作中,研究人員通過SDS蒸餾一個基於擴散的文生視頻模型,基於得到的先驗知識訓練基礎場以及位移場中的參數。

此外,爲了保證生成視頻的每一幀仍然保持字母本身的可讀性,(如單詞「CAMEL」中的字母「M」在外觀近似於駱駝的同時也需要保持單詞M的形狀,使用戶可以辨認出其是字母M),該工作通過加入基於Learned Perceptual Image Patch Similarity(LPIPS)的約束項,約束base shape與原字母的感知相似度。

爲了緩解觀察到的貝賽爾曲線頻繁交叉導致嚴重閃爍的問題,該工作加入了基於三角化的結構保持約束項,在變形以及運動的過程中維持穩定的骨架結構。

貝塞爾曲線的頻繁交叉造成了嚴重的閃爍

基於三角化的structure-preservation loss

實驗

實驗方面,研究人員從文字的可讀性(legibility)以及用戶提供的文本描述與視頻的一致性兩方面進行評估。

該工作與兩類不同的方法進行了比較:一類是針對像素圖的文生視頻模型,另一類是針對矢量圖的通用動畫化方案。

在針對像素圖的文生視頻模型中,該工作與當下領先的文生視頻模型Gen-2以及圖生視頻模型DynamiCrafter進行了比較。

通過定性以及定量的對比結果可以看出,其他的方法大多很難在生成視頻時保持字母的可讀性,亦或難以生成符合語義的運動。而該論文提出的方法在生成符合 用戶給定的文本描述的運動的同時,有效的保持了字母在運動過程中的可讀性。

與其他方法的定性對比

與其他方法的定量對比

爲了進一步證明該工作中每一個模塊的作用,研究人員進行了充分的消融實驗。實驗結果表明,base shape的設計以及基於三角化的結構保持技術有效的提升了視頻質量,而基於感官相似度的可讀性約束有效的保持了字母在運動過程中的可讀性。

消融實驗定性結果

消融實驗定量結果

研究人員進一步說明了他們提出的框架在各種文生視頻模型上的通用性,這意味着該框架可以兼容於未來視頻生成模型的進一步發展,並隨着視頻生成模型效果的提升生成更具吸引力的文字動畫。

蒸餾不同視頻生成模型的結果對比

參考資料:

https://arxiv.org/abs/2404.11614