MSU2020年度世界視頻編碼大賽 金山雲斬獲UGC賽道冠軍
(原標題:MSU2020年度世界視頻編碼大賽 金山雲斬獲UGC賽道冠軍)
近日,莫斯科國立大學(Moscow State University)舉辦的世界視頻編碼器大賽傳來好消息,金山雲自主研發的KAV1編碼器在UGC賽道中拔得頭籌。
MSU視頻編碼大賽是全球盛宴,在視頻編碼領域具有極大的影響力,迄今已連續舉辦了15屆,每年都會吸引衆多國內外重量級企業和組織參加。
本次,金山雲KAV1在UGC賽道中斬獲冠軍,不僅證明了金山雲在視頻編碼領域的團隊實力與創新潛力,也讓業界看到了AV1未來的廣泛應用前景。
在UGC賽道中排名問鼎
目前,UGC(User Generated Content,用戶原創內容)和PGC(Professionally Generated Content,專業生產內容)是互聯網視頻的兩大主要來源。作爲一種泛衆化的傳播範式,UGC拍攝的低門檻能滿足普通人自我表達的訴求,因爲每一個人都可以用短視頻這種最爲簡要、直觀的形式與他人和社會分享自己的觀點與生活。事實上,在抖音、快手、B站等視頻類社交平臺,無論是長視頻還是短視頻,用戶參與(UGC)都是更大的比重。
除了內容來源不同,PGC視頻和UGC視頻的區別更在於整體質量的差異。PGC視頻在拍攝時就會選擇更佳的光照對比度和合理的動靜場景比例,在製作初期也會採用專業的編碼手段來確保壓制質量。與之相比,UGC的拍攝製作、壓制和後期效果都是由非專業人員完成,缺少對拍攝環境的把關,製作初期會存在對焦失真、模糊和噪聲大等問題,在處理過程中也會經歷多次視頻轉碼,其難度也會隨着轉碼次數的變多而增大。
儘管如此,鑑於全球視頻雲服務中的主要流量是UGC,因此關注UGC編碼能夠更貼合實際業務場景,這也是MSU大賽UGC賽道的初衷。本次UGC賽道視頻取自數個互聯網頭部高自由度原創視頻平臺,通過沿用MSU一貫使用的時空複雜度聚類方法獲得,它們覆蓋了多種場景。
本次UGC賽道結果顯示,金山雲KAV1在人工評測中壓縮率較Reference(X265)提升41%(去年主觀賽道冠軍相較於X265的提升是33%),相對於svt-av1、VP9和x264分別提升45%、71%和73%,這足以展示金山雲KAV1在UGC賽道中相較於其他編碼器的優勢。
MSU大賽現有的主觀、客觀、4K等賽道主要集中在AV1、VVC中,這些編碼器均是爲了4K、8K等高清視頻而生,在一些低清場景下,其優勢可能不如目前流行的x265等編碼器明顯。金山雲KAV1作爲AV1標準的自研編碼器,雖然是以“一切爲了高清”爲目標,卻也能在UGC場景中優勢明顯。據悉,爲了本次MSU賽事,金山雲專業的視頻編碼器研發團隊在編碼器和AI兩個方向上取長補短,研製出了貼合人眼感知模型的KAV1。
金山雲KAV1第一次參加編碼器領域盛宴就能取得不俗的成績,這表明,近年來金山雲在AI和編解碼方面的研發持續收穫成效。
對焦失真、模糊、噪聲、場景區分巨大等因素,導致UGC視頻的主觀優化成爲較PGC視頻更有挑戰性的一環。爲了更好地優化UGC場景的編碼效果,金山雲自主研發並且發佈了圖像視頻感知評價指標Kingsoft Cloud Perceptual Assessment(KPA)。
本次MSU大賽中,利用KPA強大的能力,金山雲KAV1在繼承經典視頻混合框架的基礎上,基於KPA重新設計了RDO目標函數,同時利用JND+KPA兩者大幅度去除了人眼不感知的區域所佔用的碼率,包括時域空域的採集噪聲、壓縮帶來的壓縮噪聲、暗場和高頻集中等不敏感區域。同時,全面提升了預測、變換、量化、熵編碼等各個流程的壓縮效率,如採取 Warp Motion 技術提升對局部仿射運動的估計;增加 DCT-8/DST-7等變換提升殘差的變換效率;精細調整每一個編碼單元的QP以獲得更爲優良的碼率分配;革新熵編碼機制超越經典 CABAC 算數碼。通過這些手段,金山雲KAV1在確保壓縮率的基礎上大大提升了圖像畫質。
(左側) x265編碼後的圖像 (右側)金山雲KAV1編碼後的圖像
目前,能夠達到商用級的評價指標非常少,學術界的評價指標主要都是針對有非常明確邊界條件約束的場景。商用級的全參考評價指標目前除了PSNR和SSIM之外,就是Netflix在2016年發佈的VMAF,然而VMAF是主要針對Netflix的PGC場景進行設計的,無法直接用在UGC視頻當中。KPA主要針對UGC視頻,並且除了通用的整體質量評價外,還包括子維度質量、局部質量等細分評價指標。
在KPA的研發過程中,通過收集各種場景下UGC及PGC視頻,並保證至少50以上的專業評測人員對每個視頻進行主觀評測,從源頭上避免數據主觀評測波動和精度問題。同時,對收集到的數據,從內容、場景、質量等多個維度進行平衡篩選,在確保數據規模遠超業界開源數據的基礎上,提升數據的多樣性。在模型層面,通過攻防設計、協同學習、困難樣本挖掘等方法,提升模型的魯棒性和精度,在UGC場景中SROCC和gMAD分數均優於業界知名的有參考算法VMAF。
在視頻高清化的趨勢下,用戶對視頻的要求在不斷提升,這就會對視頻編解碼技術提出越來越高的要求。基於在視頻編解碼方面的優勢,金山雲始終堅持技術立業,一直在不斷探索核心技術,尋求持續突破。