南京龍垣申請基於說話人語音微動作的說話人識別專利,提升模型泛化性能
金融界2024年11月11日消息,國家知識產權局信息顯示,南京龍垣信息科技有限公司申請一項名爲“基於說話人語音微動作的說話人識別方法”的專利,公開號 CN 118918900 A ,申請日期爲 2024 年 8 月。
專利摘要顯示,本發明涉及電子數字數據處理技術領域,具體涉及一種基於說話人語音微動作的說話人識別方法,包括:語音流經過預處理後提取Fbank特徵分別送入教師網絡和學生網絡中,得到各自對應的特徵嵌入;將教師網絡和學生網絡分別得到的特徵嵌入送入loss函數中並進行反向傳播;學生網絡正常迭代,教師網絡通過EMA滑動平均的方法進行迭代;將經過ECAPA‑TDNN聲紋模型提取得到的聲紋特徵信息與通過口音數據訓練得到的說話人語音微動作信息進行特徵聚合和分類,進行說話人識別;本發明利用數據增強等方法提升模型的泛化性能,避免擬合在信道特徵當中,且不需要人工標註,並通過引入新的特徵來幫助說話人驗證模型取得在更大人羣中識別說話人的能力。
本文源自:金融界
作者:情報員