基于規則的文本標引方法
【技術領域】
[0001 ]本發明涉及文本標弓I的技術領域,具體說是一種基于規則的文本標弓I方法。
【背景技術】
[0002]隨著互聯網技術的不斷發展,網絡已成為巨大的、分布廣泛的信息源,在對網絡信息進行分析時,往往需要對互聯網上的新聞評論、論壇帖子等文本進行分析,判斷其中是否有傳銷廣告、色情及其他違規信息,并對其打上相應的標簽。
[0003]又由于中文語言文本結構非常復雜,業界在文本標引中普遍使用的關鍵詞掃描技術、廣告聯系方式匹配技術和建模統計技術均無法達到需要的精準度,且此類技術在上線后若需進行效果改善,或遇到新問題急需解決的情況,都存在可操作性差甚至無法人工改善,且改善后上線周期長的問題。
【發明內容】
[0004]本發明要解決的技術問題是提供一種基于規則的文本標引方法。
[0005]本發明為解決公知技術中存在的技術問題所采取的技術方案是:
本發明的基于規則的文本標引方法,包括以下步驟:
A、建立包括有關鍵詞集合的知識集合,建立以詞為基礎的特征集合;
B、將上述特征集合按樹形分類分等級并形成詞樹集,詞樹集中的每一枝節點作為規則引用的最小集合;
C、建立規則集合,定義文本打標簽的條件;
D、掃描文本,對文本進行關鍵詞掃描、分詞,提取文本內的關鍵特征;
E、對提取出的關鍵特征進行整理,并逐一與規則進行匹配;
F、關鍵特征與規則成功匹配的,則觸發“命中”邏輯,將規則所攜帶的標簽信息及關鍵特征作為結果輸出。
[0006 ]本發明還可以采用以下技術措施:
步驟D之后,對關鍵詞掃描的結果和分詞結果進行匹配,刪除關鍵詞掃描中輸出的歧義關鍵詞。
[0007 ]關鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯系方式特征,禁止詞特征。
[0008]本發明具有的優點和積極效果是:
本發明的基于規則的文本標引方法,包括以下步驟:建立特征枚舉集合,集合中包括特征詞集,特征鄰接詞集,禁止詞集及其他特征變量集合等;建立規則集合,描述當某些特征符合某種同現關系后需要激活哪些標引標簽的邏輯;對文本進行特征掃描,得到該文本包含的特征元素集合;對逐一使用規則匹配文本的特征關系集合;符合規則的文本,將根據規則的描述打上相應的標簽,并將特征及其同現關系作為線索輸出。本發明解決了單純特征匹配無法在復雜的中文語義下進行準確判斷的問題。
【具體實施方式】
[0009]以下通過具體實施例對本發明進行詳細說明。
[0010]本發明的基于規則的文本標弓I方法,包括以下步驟:
A、建立包括有關鍵詞集合的知識集合,建立以詞為基礎的特征集合;
B、將上述特征集合按樹形分類分等級并形成詞樹集,詞樹集中的每一枝節點作為規則引用的最小集合;
C、建立規則集合,定義文本打標簽的條件;
D、掃描文本,對文本進行關鍵詞掃描、分詞,提取文本內的關鍵特征;
E、對提取出的關鍵特征進行整理,并逐一與規則進行匹配;
F、關鍵特征與規則成功匹配的,則觸發“命中”邏輯,將規則所攜帶的標簽信息及關鍵特征作為結果輸出。
[0011]步驟D之后,對關鍵詞掃描的結果和分詞結果進行匹配,刪除關鍵詞掃描中輸出的歧義關鍵詞。
[0012]關鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯系方式特征,禁止詞特征。
[0013]實施例1:
下面以廣告文本標引為例:
“$Ru_廣告 _賣考試答案=IsNear(WordFilter(FindWTSSeg(〃class 廣告 _交易行為〃),FindWTS( "class廣告_交易行為干擾詞")),HaveContact (ceI lphone ,0.5),10) &IsHaveffTS ("class廣告_考試答案〃)”是網頁內的一段對應數據,
本發明的處理步驟如下:
1)關鍵詞掃描得到文中是否有"class廣告_交易行為""class廣告_交易行為干擾詞""class 廣告 _考試答案〃類的特征詞(FindWTSSeg,FindWTS,IsHaveWTS);
2)對〃class廣告_交易行為〃類詞的掃描結果和分詞結果進行匹配,刪除不符合中文分詞語法的誤命中詞(例如“本店有售”出現在“本店有售后服務”中的情況)(FindWTSSeg);
3)對文本進行聯系方式提取,得到文中的聯系方式權值在0.5以上的手機號碼特征(HaveContact);
4)class廣告_交易行為干擾詞"的特征詞結果,對"class廣告_交易行為"進行干擾詞排除,將"class廣告_交易行為"的命中詞更加精確化(WordFilter);
5)對〃class廣告_交易行為〃和手機號特征進行距離檢查,找出在文中出現兩特征距離小于1個字的特征組合(IsNear );
6)若5步驟的特征組合存在,且(&)文中同時存在"class廣告_考試答案〃的特征詞,則此規則命中,將對此文本打上名為“廣告_賣考試答案”的標簽。
[0014]以上所述,僅是本發明的較佳實施例而已,并非對本發明作任何形式上的限制,雖然本發明已以較佳實施例公開如上,然而,并非用以限定本發明,任何熟悉本專業的技術人員,在不脫離本發明技術方案范圍內,當然會利用揭示的技術內容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發明技術方案的范圍內。
【主權項】
1.一種基于規則的文本標弓I方法,包括以下步驟: A、建立包括有關鍵詞集合的知識集合,建立以詞為基礎的特征集合; B、將上述特征集合按樹形分類分等級并形成詞樹集,詞樹集中的每一枝節點作為規則引用的最小集合; C、建立規則集合,定義文本打標簽的條件; D、掃描文本,對文本進行關鍵詞掃描、分詞,提取文本內的關鍵特征; E、對提取出的關鍵特征進行整理,并逐一與規則進行匹配; F、關鍵特征與規則成功匹配的,則觸發“命中”邏輯,將規則所攜帶的標簽信息及關鍵特征作為結果輸出。2.根據權利要求1所述的基于規則的文本標引方法,其特征在于:步驟D之后,對關鍵詞掃描的結果和分詞結果進行匹配,刪除關鍵詞掃描中輸出的歧義關鍵詞。3.根據權利要求1所述的基于規則的文本標引方法,其特征在于:關鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯系方式特征,禁止詞特征。
【專利摘要】一種基于規則的文本標引方法,包括以下步驟:建立特征枚舉集合,集合中包括特征詞集,特征鄰接詞集,禁止詞集及其他特征變量集合等;建立規則集合,描述當某些特征符合某種同現關系后需要激活哪些標引標簽的邏輯;對文本進行特征掃描,得到該文本包含的特征元素集合;對逐一使用規則匹配文本的特征關系集合;符合規則的文本,將根據規則的描述打上相應的標簽,并將特征及其同現關系作為線索輸出。本發明解決了單純特征匹配無法在復雜的中文語義下進行準確判斷的問題。
【IPC分類】G06F17/27, G06F17/21
【公開號】CN105573968
【申請號】CN201510910423
【發明人】常毅, 周祖勝
【申請人】天津海量信息技術有限公司
【公開日】2016年5月11日
【申請日】2015年12月10日