碩恩網絡取得技能短語抽取方法專利,降低數據預備與算法訓練成本

金融界 2024 年 7 月 12 日消息,天眼查知識產權信息顯示,上海碩恩網絡科技股份有限公司取得一項名爲“一種技能短語抽取方法“,授權公告號 CN112036120B,申請日期爲 2020 年 8 月。

專利摘要顯示,本發明涉及計算機自然語言處理中短語抽取技術領域,具體的講是一種技能短語抽取方法,首先獲取文本內容,對獲取的文本進行預處理,即刪除文本主題前方帶有的數字或者特殊索引符號,然後利用分隔符將文本分割成句子片段,之後構造抽取規則,運行抽取規則抽取技能短語片段,再對抽取的片段進行清洗,刪除詞語序列中的修飾詞等沒有實際意義的詞語,然後進行分詞處理,最後針對分詞後的詞語序列進行短語構建,形成技能短語。本發明可以應用在非結構化數據中,例如企業招聘等領域,在實施中不需要構建訓練集和分類器,降低了數據預備與算法訓練成本,能夠自動確定技能短語的長度,避免主觀性,避免了統計法中閾值選擇的難題。

本文源自:金融界

作者:情報員