一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)抽取技術(shù)領(lǐng)域,具體涉及一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 學(xué)科術(shù)語是一個領(lǐng)域中最基本的單元,為了更好地描述該領(lǐng)域的知識體系,需要 得到該領(lǐng)域當(dāng)中的所有學(xué)科術(shù)語。而隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,同一個領(lǐng)域中知識快 速膨脹,新的領(lǐng)域?qū)映霾桓F,學(xué)科術(shù)語的抽取及應(yīng)用也越來越被受重視,例如,很多在線教 育公司(比如明博教育等等)利用用戶正在閱讀的語料,會為用戶標(biāo)注出其中語料中的學(xué) 科術(shù)語,并可以根據(jù)這些學(xué)科術(shù)語為用戶推薦相關(guān)的教育資源,更好的滿足了用戶的需求。 隨著學(xué)科知識不斷增多,用戶受教育的需求日益膨脹,獲取對應(yīng)領(lǐng)域當(dāng)中的學(xué)科術(shù)語成為 這些在線教育公司的基本任務(wù)。但隨著知識量及新技術(shù)領(lǐng)域的不斷增加,從對應(yīng)的領(lǐng)域中 找到相關(guān)的學(xué)科術(shù)語變得越來越困難。
[0003] 現(xiàn)有的學(xué)科術(shù)語抽取,通常使用專家標(biāo)注的方法。專家憑借對相關(guān)領(lǐng)域知識的認(rèn) 知,書寫領(lǐng)域當(dāng)中的學(xué)科術(shù)語。這樣的方法,具有很高的準(zhǔn)確率,但是即使是專家也會遺漏 掉很多術(shù)語,同時隨著知識量的不斷增加,專家的方法不具有好的持續(xù)性,現(xiàn)有的工作也很 難迀移到其它領(lǐng)域。
[0004] 通過多年研宄,研宄人員提出了一些使用計算機(jī)完成的學(xué)科術(shù)語的抽取方法, KushalDave(可參考KushalDave,VasudevaVarma發(fā)表的論文"PatternBasedKeyword ExtractionforContextualAdvertising" ?CIKM' 10, 0ctober26 - 30.)提出了 一種基 于詞語分塊的N-gram(大詞匯連續(xù)語音識別中常用的一種語言模型)關(guān)鍵詞抽取模型, 在模型當(dāng)中,首先列舉所有單詞的分塊,再利用每個單詞的詞性標(biāo)注(P〇S-tagging)構(gòu)造 一個二元的樸素貝葉斯(Na'fveBayes)分類器,KushalDave將模型應(yīng)用于廣告關(guān)鍵詞 的抽取系統(tǒng)中,并取得了不錯的效果。Steier和Belew(可參考Steier,A.M.,Belew,R. K.Exportingphrases:astatisticalanalysisoftopicallanguage.InProceedings ofSecondSymposiumonDocumentAnalysisandInformationRetrieval, 2010:pages 179-190.)兩人提出了一種基于兩個單詞間互信息的方法來抽取學(xué)科術(shù)語;Wanget al.(可參考Wang,J.,Liu,J.andWang,C.KeywordextractionbasedonPageRank.In ProceedingsoftheIlthPacific-AsiaConferenceonKnowledgeDiscoveryand DataMining.Nanjing,China,2007:pages857-864.)提出了一種基于Page-Rank(網(wǎng)頁 排名)的短語評分算法,進(jìn)一步來獲取關(guān)鍵詞;Matsuo和Ishizuka(可參考Matsuo,Y.and Ishizuka,M. .Keywordextractionfromasingledocumentusingwordco-occurrence statisticalinformation.InternationalJournalonArtificialIntelligence Tools. 2004:13(1),157-169.)使用單詞之間的共現(xiàn)次數(shù)的方法來抽取關(guān)鍵詞。
[0005] 上述這些抽取方法節(jié)省了大量人力成本,但是這些方法都沒有考慮術(shù)語出現(xiàn)的上 下文信息,需要大量的數(shù)據(jù)來訓(xùn)練抽取器,而一些新興的領(lǐng)域缺失相關(guān)語料,所以抽取結(jié)果 相對較差;同時,這些方法都是在英語的基礎(chǔ)上完成的,并不適應(yīng)于各種語言;最后,在抽 取出新的學(xué)科術(shù)語之后,沒有考慮進(jìn)一步的術(shù)語去噪,術(shù)語當(dāng)中依然存在一些無關(guān)的單詞。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種基于序列標(biāo)注模型的學(xué) 科術(shù)語抽取方法及系統(tǒng),實現(xiàn)語料中學(xué)科術(shù)語的快速、準(zhǔn)確的抽取,并能夠?qū)崿F(xiàn)已有知識結(jié) 構(gòu)體系的擴(kuò)大、完善。
[0007] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0008] -種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,包括以下步驟:
[0009] (1)將某一學(xué)科領(lǐng)域的訓(xùn)練語料中的學(xué)科術(shù)語進(jìn)行標(biāo)注,得到標(biāo)注語料;
[0010] (2)將所述標(biāo)注語料按字切分,并對切分后的每個字設(shè)置一個標(biāo)簽t,得到標(biāo)注序 列,其中,tGT,T= {B,I,0},B標(biāo)簽表示一個學(xué)科術(shù)語的開始,I標(biāo)簽表示一個學(xué)科術(shù)語 的內(nèi)部,〇標(biāo)簽表示非學(xué)科術(shù)語;
[0011] (3)將所述訓(xùn)練語料作為觀察序列,將所述標(biāo)注序列作為狀態(tài)序列,利用條件隨機(jī) 場模型訓(xùn)練得到用于學(xué)科術(shù)語抽取的序列標(biāo)注模型;
[0012] (4)根據(jù)所述序列標(biāo)注模型初步抽取出所述學(xué)科領(lǐng)域中待抽取語料中的學(xué)科術(shù) 語;
[0013] (5)篩選出初步抽取出的學(xué)科術(shù)語中屬于所述學(xué)科領(lǐng)域的真正學(xué)科術(shù)語,包括: 計算初步抽取出的學(xué)科術(shù)語與所述學(xué)科領(lǐng)域的已有知識結(jié)構(gòu)體系中所有學(xué)科術(shù)語的相似 度,判斷計算出的最大相似度是否大于設(shè)定閾值,若是,則判定初步抽取出的學(xué)科術(shù)語為所 述學(xué)科領(lǐng)域的真正學(xué)科術(shù)語;若否,則判定初步抽取出的學(xué)科術(shù)語為所述學(xué)科領(lǐng)域不相關(guān) 的學(xué)科術(shù)語。
[0014] 進(jìn)一步,如上所述的一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,步驟(4)中,根 據(jù)序列標(biāo)注模型初步抽取待抽取語料中的學(xué)科術(shù)語,包括:
[0015] (4. 1)將待抽取語料作為所述序列標(biāo)注模型的輸入,得到該待抽取語料對應(yīng)的狀 態(tài)序列w,W= (W1,W2,W3,......,Wn},n為待抽取語料的字長度,Wi為待抽取語料中第i個字 的標(biāo)簽,WiGT,T= {B,I,0};
[0016] (4. 2)如果狀態(tài)序列W中的標(biāo)簽同時滿足以下三個條件,則標(biāo)簽{Wi,wi+1,…,界,}對 應(yīng)的詞為初步抽取出的一個學(xué)科術(shù)語:
[0017]①Wi =B;
[0018] ②k>i,wi+1=…=wk=I,或k=i;
[0019] ③wk+1=0〇
[0020] 進(jìn)一步,如上所述的一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,步驟(5)中,學(xué) 科術(shù)語之間的相似度包括學(xué)科術(shù)語之間的表征相似度和語義相似度;所述表征相似度是指 學(xué)科術(shù)語的構(gòu)成上的相似度;
[0021] 計算初步抽取出的學(xué)科術(shù)語X與所述學(xué)科領(lǐng)域的已有知識結(jié)構(gòu)體系中學(xué)科術(shù)語y 之間的相似度fatherProb(x,y)的計算公式為:
[0022] fatherProb(x,y) =ayXeditSimi(x,y) + 0yXsemanticFatherSimi(x,y)
[0023] ay+0y=I
[0024] 其中,editSimi(x,y)為學(xué)科術(shù)語x與學(xué)科術(shù)語y之間的表征相似度, semanticFatherSimi(X,y)學(xué)科術(shù)語X與學(xué)科術(shù)語y的所有子節(jié)點的學(xué)科術(shù)語之間的平均 語義相似度,ay為表征相似度的權(quán)重,0y為平均語義相似度的權(quán)重;
[0025] 根據(jù)兩個學(xué)科術(shù)語之間的編輯距離計算學(xué)科術(shù)語之間的表征相似度,學(xué)科術(shù)語X 與學(xué)科術(shù)語y之間的表征相似度editSimi(X,y)計算公式為:
【主權(quán)項】
1. 一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,包括w下步驟: (1) 將某一學(xué)科領(lǐng)域的訓(xùn)練語料中的學(xué)科術(shù)語進(jìn)行標(biāo)注,得到標(biāo)注語料; (2) 將所述標(biāo)注語料按字切分,并對切分后的每個字設(shè)置一個標(biāo)簽t,得到標(biāo)注序列, 其中,tGT,T=巧,I,0},B標(biāo)簽表示一個學(xué)科術(shù)語的開始,I標(biāo)簽表示一個學(xué)科術(shù)語的內(nèi) 部,0標(biāo)簽表示非學(xué)科術(shù)語; (3) 將所述訓(xùn)練語料作為觀察序列,將所述標(biāo)注序列作為狀態(tài)序列,利用條件隨機(jī)場模 型訓(xùn)練得到用于學(xué)科術(shù)語抽取的序列標(biāo)注模型; (4) 根據(jù)所述序列標(biāo)注模型初步抽取出所述學(xué)科領(lǐng)域中待抽取語料中的學(xué)科術(shù)語; (5) 篩選出初步抽取出的學(xué)科術(shù)語中屬于所述學(xué)科領(lǐng)域的真正學(xué)科術(shù)語,包括:計算 初步抽取出的學(xué)科術(shù)語與所述學(xué)科領(lǐng)域的已有知識結(jié)構(gòu)體系中所有學(xué)科術(shù)語的相似度,判 斷計算出的最大相似度是否大于設(shè)定闊值,若是,則判定初步抽取出的學(xué)科術(shù)語為所述學(xué) 科領(lǐng)域的真正學(xué)科術(shù)語;若否,則判定初步抽取出的學(xué)科術(shù)語為所述學(xué)科領(lǐng)域不相關(guān)的學(xué) 科術(shù)語。
2. 根據(jù)權(quán)利要求1所述的一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,其特征在于, 步驟(4)中,根據(jù)序列標(biāo)注模型初步抽取待抽取語料中的學(xué)科術(shù)語,包括: (4. 1)將待抽取語料作為所述序列標(biāo)注模型的輸入,得到該待抽取語料對應(yīng)的狀態(tài)序 列W,W= {w。W2,W3,……,W。},n為待抽取語料的字長度,Wi為待抽取語料中第i個字的標(biāo) 簽,WiET,T= {6, 1,0}; (4.。如果狀態(tài)序列W中的標(biāo)簽同時滿足^下立個條件,則標(biāo)簽k,Ww,…,wj對應(yīng) 的詞為初步抽取出的一個學(xué)科術(shù)語: ① Wi=B; ② k>i,Ww=…=Wk=I,或k=i; 這)Wk+1= 0。
3. 根據(jù)權(quán)利要求1所述的一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法,其特征在于, 步驟巧)中,學(xué)科術(shù)語之間的相似度包括學(xué)科