快手聯合推出開源文生視頻 AI 模型:最高 10 秒 768P@24fps
IT之家 10 月 12 日消息,由快手科技、北京大學和北京郵電大學聯合組建的研究團隊推出 Pyramid Flow 文生視頻模型,用戶在輸入文本之後,即可生成最長 10 秒、分辨率高達 1280x768、幀率 24fps 的高質量視頻。
Pyramid Flow 文生視頻模型主要面向開發者、藝術家和創作者等,提供更高效、更靈活的視頻生成解決方案,目前已經在 Hugging Face 平臺上線,並完全開源。
IT之家查詢官方介紹,附上 Pyramid Flow 的核心特點如下:
高效生成:Pyramid Flow 採用新技術,通過統一 AI 模型分階段生成視頻,大多數階段爲低分辨率,只有最後階段爲全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺質量前提下,大幅降低了計算成本,tokens 數量是傳統 diffusion 模型的四分之一。
快速推理:在推理過程中,該模型可以在 56 秒內生成一個 5 秒、384p 的視頻,速度媲美許多全序列 diffusion 模型,甚至更快。
開源和商業使用:Pyramid-Flow 在 MIT 許可證下發布,允許廣泛的使用,包括商業應用、修改和再分發,吸引了希望將模型集成到專有系統中的開發者和公司。
IT之家附上參考地址