暗物智能科技申請多模態驅動的視頻生成專利,實現視頻內容的個性化和豐富性

金融界2024年10月25日消息,國家知識產權局信息顯示,暗物智能科技(廣州)有限公司申請一項名爲“一種多模態驅動的視頻生成方法、裝置、計算機設備及可讀存儲介質”的專利,公開號 CN 118803301 A,申請日期爲 2024 年 6 月。

專利摘要顯示,本發明公開了一種多模態驅動的視頻生成方法、裝置、計算機設備及可讀存儲介質,包括:首先獲取用戶需求文本和多媒體內容,通過編碼處理得到對應的特徵向量。接着,利用預先訓練的多模態融合模型將這些特徵向量融合,生成一個融合特徵向量。該融合向量被輸入到預先訓練的視頻生成模型中,以產生初始視頻內容。同時,此融合特徵向量還與初始視頻一起被送入音頻生成模型,以生成相應的音頻。最後,將初始視頻與生成的音頻進行拼接,形成最終的目標視頻。如此設計,通過多模態信息的深度融合,實現了視頻內容的個性化和豐富性,滿足了用戶對高質量視頻的需求。

本文源自:金融界

作者:情報員