☰

暗物智能科技申請多模態驅動的視頻生成專利，實現視頻內容的個性化和豐富性

金融界2024年10月25日消息，國家知識產權局信息顯示，暗物智能科技（廣州）有限公司申請一項名爲“一種多模態驅動的視頻生成方法、裝置、計算機設備及可讀存儲介質”的專利，公開號 CN 118803301 A，申請日期爲 2024 年 6 月。

專利摘要顯示，本發明公開了一種多模態驅動的視頻生成方法、裝置、計算機設備及可讀存儲介質，包括：首先獲取用戶需求文本和多媒體內容，通過編碼處理得到對應的特徵向量。接着，利用預先訓練的多模態融合模型將這些特徵向量融合，生成一個融合特徵向量。該融合向量被輸入到預先訓練的視頻生成模型中，以產生初始視頻內容。同時，此融合特徵向量還與初始視頻一起被送入音頻生成模型，以生成相應的音頻。最後，將初始視頻與生成的音頻進行拼接，形成最終的目標視頻。如此設計，通過多模態信息的深度融合，實現了視頻內容的個性化和豐富性，滿足了用戶對高質量視頻的需求。

本文源自：金融界

作者：情報員

暗物智能科技申請多模態驅動的視頻生成專利，實現視頻內容的個性化和豐富性

相關資訊