北京2020年12月29日 /美通社/ -- 近日,北森獲得國家知識產(chǎn)權(quán)局授權(quán)的AI簡歷解析相關(guān)技術(shù)發(fā)明專利 -- “一種基于深度學(xué)習(xí)的簡歷解析方法和系統(tǒng)”。該項(xiàng)專利技術(shù)由北森成都總部相關(guān)團(tuán)隊(duì)研發(fā),專利期限為20年,將被用于招聘場景下大規(guī)模、多類別、復(fù)雜簡歷的智能化解析。
本次申請的是北森簡歷解析的核心技術(shù)專利。無論是招聘網(wǎng)站的固定格式簡歷,還是候選人郵箱投遞的表格式、自由格式簡歷,甚至是移動端拍照上傳的圖片簡歷,該技術(shù)可以從任意格式的半結(jié)構(gòu)化文檔簡歷中,提取候選人的個人信息、工作經(jīng)歷、教育背景等字段信息,以支持后續(xù)搜索、篩選、智能推薦等工作展開。
相比于目前市面上常見的簡歷解析技術(shù),北森實(shí)現(xiàn)兩大突破。
其一,字段提取方法上,使用獨(dú)立的語句切分+文本分類模型替換序列標(biāo)注。
同類的其他技術(shù)在提取字段信息時,是通過序列標(biāo)注模型來識別目標(biāo)實(shí)體的起止位置和類別,這種方式會增加任務(wù)的訓(xùn)練難度,對訓(xùn)練數(shù)據(jù)也有更高要求。
北森則利用“半結(jié)構(gòu)化簡歷的布局通常更明晰,字段之間會以空格、冒號等隔開”的特點(diǎn),將字段的提取分為語句切分和字段類別識別兩個階段任務(wù)分別建模實(shí)現(xiàn)。相比于以往,該方法可以提取長文本字段,讓起止位置的識別更準(zhǔn)確,并且能夠支持上百種類別識別。
其二,使用句子粒度的區(qū)塊和分條模型替換詞粒度的分類器。
在從簡歷中確定個人信息、教育經(jīng)歷、工作經(jīng)歷等區(qū)塊的位置時,同類技術(shù)最好的方法是以詞為粒度,每行文本獨(dú)立地通過文本分類模型得到區(qū)塊類別。但是這種技術(shù)在遇到相似的信息時,比如相似的實(shí)習(xí)經(jīng)歷或工作經(jīng)歷,容易出現(xiàn)判別錯誤。
實(shí)際上,通過大量分析簡歷發(fā)現(xiàn),簡歷的每行內(nèi)容屬于哪個區(qū)塊是有一定相關(guān)性的,即當(dāng)前行屬于哪個區(qū)塊會受到上一行和下一行內(nèi)容的影響。所以,北森提出區(qū)塊和條目識別模型的序列標(biāo)注,以句子為單位進(jìn)行輸入,且包括類別信息,可以在建模過程中直接捕獲到前后幾行對當(dāng)前行的影響,大大提升準(zhǔn)確率。
從最原始的模板解析到現(xiàn)在基于深度學(xué)習(xí)的智能簡歷解析,北森簡歷解析經(jīng)歷了四大發(fā)展階段,每一次重構(gòu)都是重大突破。目前簡歷解析涉及從文檔讀取、布局識別、字段識別等方方面面,而北森將持續(xù)探索簡歷解析技術(shù)的研發(fā)與落地,為行業(yè)帶來更優(yōu)體驗(yàn)。
“基于深度學(xué)習(xí)的簡歷解析方法和系統(tǒng)”將進(jìn)一步在北森的招聘產(chǎn)品及服務(wù)中進(jìn)行應(yīng)用。通過在內(nèi)容提取、類別識別等各個方面的優(yōu)化,相關(guān)產(chǎn)品將創(chuàng)新性推出更準(zhǔn)確、更全面的簡歷字段解析體驗(yàn);同時,北森會針對渠道簡歷、獵頭推薦簡歷等樣式較固定的簡歷提供了解析配置,遇到個別字段解析出現(xiàn)問題可以快速響應(yīng),快速兼容,影響小上線快,給客戶更好的技術(shù)支持體驗(yàn)。