專利名稱:一種從Web網(wǎng)頁中獲取漢語全稱的方法
技術領域:
本發(fā)明涉及中文信息處理和信息檢索領域的全稱獲取技術,尤其涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法,從Web網(wǎng)頁上獲取多學科、大規(guī)模、高準確率的漢語全稱的方法。
背景技術:
自然語言處理是計算機科學領域與人工智能領域中的一個重要問題。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著計算機和互聯(lián)網(wǎng)的廣泛應用,計算機可處理的自然語言文本數(shù)量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機交互等應用需求急速增長,自然語言處理的對象也從小規(guī)模受限語言處理轉(zhuǎn)向大規(guī)模真實文本處理,其研究必將對人們的生活產(chǎn)生深遠的影響。
中文信息處理是研究如何利用計算機對漢語信息進行自動處理。漢語是一門意合語言,和西方語言相比,缺少顯式的標記,語法、語義、語用方面也更加靈活,增加了計算機理解和處理的難度,要讓計算機能夠處理中文信息,尚有許多困難需要克服。目前,中文信息處理已經(jīng)在語音識別、分詞、機器翻譯等領域取得了一些成果。中文信息自動化處理程度的提升,將對我國的科技、文化、經(jīng)濟、安全等帶來可觀的效益。信息檢索研究如何從紛繁復雜的大量信息中快速、準確獲取所需信息的技術。信息檢索技術經(jīng)過多年的發(fā)展,目前已經(jīng)相當成熟,新型信息檢索技術正朝智能化、動態(tài)化、多樣化、個性化等方向發(fā)展。全稱(Full Name,Fn)是對名稱的完整稱呼,簡稱(Abbreviation,An)是為了表達的簡潔明快,而對全稱進行精簡壓縮后得到的稱呼,若Fn和An具有全簡稱關系,則稱Fn為An的全稱,An為Fn的簡稱,記作FA (Fn7An)0由全稱到簡稱,可以看作是一個信息量的壓縮過程,由簡稱到全稱,則可以看作是一個解壓的過程,例如對Cl= “中國科學院計算技術研究所”進行壓縮,得到c2= “中國科學院計算所”,再對c2進行壓縮,得到c3= “中科院計算所”,對c3解壓得到c2,再對c2解壓得到Cl。全稱和簡稱都是相對的概念,比如在上例中,c2相對于Cl是簡稱,但相對于c3卻是全稱,單獨講c2是全稱或簡稱都是沒有意義的。全簡稱關系獲取作為文本知識獲取(Knowledge Acquisition from Text,KAT)和信息檢索等應用中一個基本而又關鍵的問題,其獲取方法可以分為兩大類一類是基于模式的方法,主要利用語言學和自然語言處理技術,通過詞法分析和語法分析提取關系模式,然后利用模式匹配獲取全簡稱關系,該方法準確率依賴于語言學知識和模式庫;另一類是基于統(tǒng)計的方法,主要基于語料庫和統(tǒng)計語言模型,通過計算概念之間的關聯(lián)度來獲取全簡稱關系,該方法準確率和效率難以達到理想的實用要求。全簡稱關系的獲取問題又可以從兩個角度來看一個是挖掘的角度,就是在沒有外界輸入的條件下獲取全簡稱對 ’另一個是查找的角度,就是已知全稱找簡稱或已知簡稱找全稱。本發(fā)明中所提到的“全稱”或“簡稱”,如無特別說明,均指漢語全稱或漢語簡稱。
發(fā)明內(nèi)容
針對現(xiàn)有的全簡稱關系獲取技術中具有的局限性或者準確率不高的缺陷,本發(fā)明提供一種準確率高且適用于多學科、超大規(guī)模的一種從Web網(wǎng)頁中獲取漢語全稱的方法。為了解決上述問題,本發(fā)明提供了一種從Web網(wǎng)頁中獲取漢語全稱的方法,包括一下步驟
步驟I、輸入一個給定的漢語簡稱;
步驟2、選擇查詢模式來構造查詢項,將查詢項提交到Google搜索引擎中搜索,保存前N項錨文本作為錨語料;
步驟3、通過正則表達式,從錨語料中獲取出包含查詢項的關系的句子,保存下來作為全簡稱語料;
步驟4、利用簡稱提取算法EFN從全簡稱語料中提取出候選全稱,形成候選全稱集合; 步驟5、對候選全稱集合進行基于全簡稱關系約束的驗證,形成全稱集合;
步驟6、對全稱集合進行基于全簡稱關系約束的分類,從而形成帶有類別標注的全稱集
八
口 ο上述技術方案中,在所述的步驟2中,所述的查詢模式包括兩種查詢模式I 簡稱An”,查詢模式2 :“An全稱”。我們以4000個漢語An做實驗,其中用查詢模式I能得到錨語料的占88. 75%,用查詢模式2能得到錨語料的占24. 76%,用查詢模式I或查詢模式2能得到錨語料的占91. 07%。因此,為了提高查詢效率,我們優(yōu)先選擇查詢模式1,其次選擇查詢模式2。上述技術方案中,在所述的步驟4中,全稱提取算法EFN包括兩個算法EFNl和EFN2,分別對應步驟2中的兩種查詢模式,即當步驟2中選擇查詢模式I時,步驟4中采用EFNl來提取Fn,當步驟2中選擇查詢模式2時,步驟4中采用EFN2來提取Fn。上述技術方案中,在所述的步驟5中,若全稱集合為空,且步驟2中還有查詢模式可供選擇,則重新執(zhí)行步驟2—6 ;如果全稱集合為空,同時步驟2中沒有可供選擇的查詢模式,則退出,表明不能從Web上搜索到所給定簡稱的全稱。上述技術方案中,在所述的步驟5)中,全簡稱關系約束是一個四元組R=(Fn,An,F(xiàn),A),其中,F(xiàn)n是對象的全稱,An是對象的簡稱,F(xiàn)是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。下文中將進一步對這兩種約束進行解釋。有益效果本發(fā)明是根據(jù)已知的全稱從Web上獲取它對應的簡稱,即從查找的角度來獲取全簡稱關系的,利用基于模式的方法來從Google中獲取候選簡稱,利用基于統(tǒng)計的方法來對候選簡稱進行驗證,具有多學科性、大規(guī)模、準確率高等優(yōu)點,并探討了用計算機實現(xiàn)簡稱的分類,為大規(guī)模知識的智能獲取提供了有效的支撐。
圖I為由簡稱獲取全稱的總示意圖
圖2為利用查詢模式I獲取全稱的流程圖
圖3為利用查詢模式2獲取全稱的流程 圖4為對候選全稱集進行后處理的流程圖;圖5為由全簡稱的約束函數(shù)集生成的驗證決策樹。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步描述
在對本發(fā)明的方法進行說明之前,首先對全簡稱關系中簡稱的形成規(guī)律和構詞方法進行整理和總結(jié)。在全簡稱關系中,由全稱到簡稱的過程可以看成是一個信息量的壓縮過程,在信息量的壓縮過程中有時會有語義的等價轉(zhuǎn)換和語序的調(diào)整,所以我們將全簡稱關系分為普通型、異字型和異序型。普通型簡稱中的每個字都出現(xiàn)在全稱中,且保留它們在全稱中的順序,例如, Fn= “中華人民共和國”,An= “中國”;
異字型簡稱中的某些字不在全稱中出現(xiàn),即由全稱到簡稱不但進行了信息量的壓縮,還進行了語義的等價轉(zhuǎn)換,例如Fn= “媧皇圣母廟”,An= “女媧廟”;
異序型簡稱中漢字間的順序跟它們在全稱中對應成分的順序不一致,例如,F(xiàn)n=“哈爾濱第六制藥廠”,An= “哈藥六廠”。在本發(fā)明中,定義了全簡稱關系約束來表示Fn和An之間的約束,全簡稱關系約束是一個四元組R= (Fn, An, F,A),其中,Fn是對象的全稱,An是對象的簡稱,F是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。在對約束函數(shù)集和約束公理集進行詳細說明前,列出在下文中使用到的基本符號
An表簡稱;
Cfn表示An的候選全稱;
Fn表不An的全稱;
GoogleArchSet (An)表不An的Google錨文本集,即從Google中查找An對應的全稱時所返回的前100條錨語文本的集合,若返回的錨文本總數(shù)N少于100,則GoogleArchSet(An)只包含僅有的N條錨文本;
CfnSet (An)表示An的候選全稱集,即從GoogleArchSet (An)中提取出的An對應的候選全稱組成的集合;
N_CfnSet (An)表示CfnSet (An)中所含候選全稱的個數(shù);
FnSet (An)表示An的全稱集,即CfnSet(An)中的所有元素經(jīng)過驗證之后形成的集合; AnSet (Fn)表示Fn的簡稱集,即對于給定的Fn,從Google中獲取的對應簡稱組成的集
合;
FA (Fn, An)表示Fn和An具有全簡稱關系;
length(str)表示概念詞漢字串str的長度,即str中所含漢字的個數(shù); n_word (Fn, An)表示同時出現(xiàn)在Fn和An中的漢字個數(shù);
N_Clas (Fn)表示Fn經(jīng)過分詞后,出現(xiàn)的分詞個數(shù);
N_Cover (Fn, An)表示Fn中被An覆蓋到的分詞個數(shù);
CoverSet (Fn, An)表示Fn中被An覆蓋到的分詞的集合;
P:表不全稱所包含的分詞;
pi / p2 / ···/ pm:表示由分詞pl、p2…pm組成的分詞序列,其中的/表示分詞間的分隔符;
centre (Fn)表示Fn的分詞中心點的位置,即Fn經(jīng)過分詞后,最中間的那個分詞的位置,或最中間的那兩個分詞的平均位置,centre (Fn) = (N_Clas (Fn) +1)/2 ;
Cli (Fn)表示Fn的第i個分詞的中心偏移量,即Fn的分詞中心點的位置與Fn的第i個分詞的位置之間的位移,(Ii (Fn) =i-centre (Fn);
I (Fn)表示Fn的最大中心偏移量,即Fn的所有分詞的中心偏移量地最大值,!
(Fn) = (N_Clas(Fn)-l)/2 ;
Leni (Fn, An)表不第i個未被覆蓋分詞串所含的分詞數(shù)。對Fn進行分詞后,未被An覆蓋到的那些分詞,如果在Fn中相聯(lián)則組成未被覆蓋分詞串,如果不相聯(lián)則單獨成串,第i個未被覆蓋分詞串所含的分詞個數(shù)記為Leni(Fr^An);
freq (Fn, An)表示從 GoogleArchSet (An)中提取出 Fn 的個數(shù);
ε表示一個無窮小的數(shù);
loca (Cfn, An)表示Cfn在CfnSet (An)中的頻度次序,即對CfnSet (An)中的元素按freq (Cfn, An)的大小升序排序后,Cfn的次序;
NoInclude (si, Set)表示漢字串的集合Set中的任何漢字串都不是漢字串si的子串; Interrogative表示疑問詞集合,包含“什么”、“怎么”、“啥”、“嗎”等; concat(sl, s2)表示漢字串si和漢字串s2連接后的漢字串;
COnCat(sl,…,sn)表示漢字串si、……、sn相互依次連接后的漢字串;
Contain (si, s2)表示漢字串s2中的每個字都出現(xiàn)在漢字串si中;
Include (si, s2)表示漢字串s2是漢字串si的真子串;
prefix (si, s2)表示si相對于s2的前綴,prefix (si, s2)不為空,即si =concat (prefix (si, s2), s2, s3),其中 s3 可為空串;
D rie〔CfnSet(An), Cfni)表示將 Cftij 從 CftiSet(An)中刪除。下面從十一個方面對約束函數(shù)集中的具體含義進行說明
約束函數(shù)I =An的字來自Fn中的比率。一般情況下,全稱包含簡稱所包括的所有漢字。例如,An= “北大”,F(xiàn)n= “北京大學”,An中的每個漢字都來自于Fn中。在候選全稱集中,包含An的字的比率越高的候選全稱的優(yōu)先級越高。約束函數(shù)I的形式定義和計算如下(注明此函數(shù)來自對發(fā)明專利“一種根據(jù)實體的漢語簡稱識別出實體全稱的方法和系統(tǒng)(專利號ZL200710119513. 4)”的改進)
,、^word(CfntAn)
Λ(軌圳=———
例如,An= “八卦掌”,Cfn1 = “八卦連環(huán)掌”,Cfn2 = “八卦連環(huán)拳”。根據(jù)約束函數(shù)1,^f1(CfnllAn) > Z1(Cfn2tAn) ’所以Cfn1的優(yōu)先級比Cfn2的優(yōu)先級高。
約束函數(shù)2 Fn與An的語序。在縮略過程中,絕大多數(shù)簡稱保持著全稱中的字序。例如,An= “奧運會”,F(xiàn)n= “奧林匹克運動會”,An中的三個字的順序嚴格按在Fn中出現(xiàn)的順序排列。約束函數(shù)2的形式定義和計算如下(注明此函數(shù)與發(fā)明專利“一種根據(jù)實體的漢語簡稱識別出實體全稱的方法和系統(tǒng)(專利號ZL200710119513. 4)”的一致)
注意Fn與An語序相同蘊含著An中的所有字都出現(xiàn)在Fn中,若An中有不出現(xiàn)在Fn中的字,則約束函數(shù)2的值為O。約束函數(shù)3 =An對Fn的分詞覆蓋率
全稱通常由多個分詞組成,有的情況下全稱的一個或多個分詞在簡稱中可以被省略,但一般被省略分詞不會超出全稱分詞數(shù)的二分之一,候選全稱被簡稱覆蓋的分詞越多,就越可能成為全稱。約束函數(shù)3的形式定義和計算如下(注明此函數(shù)來自對發(fā)明專利“一種根據(jù)實體
的漢語簡稱識別出實體全稱的方法和系統(tǒng)(專利號ZL200710119513. 4)”的改進)
, r N_Clas(Cfn)N _C Ias(Cfn)
I — Io 0-4 f% --, i ^ 10
b¥_C Over(CfnpAn)I— N_CotwrfC fnrA-n)
UCfnlAn) = _^ cias(cfn)
O -=-^ > 10
INCoveriCfntAn)-
例如,An = “北大”,Cfn1= “北京/大學”,Cfn2 = “北京/交通/大學”,根據(jù)約束函數(shù)
3,^(Cfn1,An) > f3(Cfn2, An),所以Cfn1的優(yōu)先級比Cfn2的優(yōu)先級高。約束函數(shù)4 An對Fn的分詞覆蓋重心
全稱通常由多個分詞組成,有的情況下全稱中的一個或多個分詞可以在簡稱中被省略,但是被省略的分詞應該均勻的分布在全稱中,而不應該都集中在全稱的前部分或后部分。例如,An= “貴航集團”,F(xiàn)n= “中國/貴州/航空/工業(yè)/集團/公司”,F(xiàn)n中省略的分詞“中國”、“工業(yè)”、“公司”分別在Fn的前部分、中間部分和后部分。約束函數(shù)4的形式定義和計算如下
t %£ dt (Cfn),
例如,An = “山大”,Cfn1 = “山東/大學”,Cfn2 = “山東/大學/威海/分校'Cfn1中被An覆蓋到的分詞“山東”和“大學”均勻分布在Cfn1中,而Cfn2中被An覆蓋到的分詞“山
東”和“大學”都分布在Cfn2的前半部分。根據(jù)約束函數(shù)4J4(Cfn1MTi) > f4(Cfn2,An)
,所以Cfn1的優(yōu)先級比Cfn2的優(yōu)先級高。約束函數(shù)5 Fn中未被An覆蓋到的最長連續(xù)分詞數(shù)
候選全稱通常由多個分詞組成,有的情況下全稱中的一個或多個分詞可以在簡稱中被省略,但是被省略的分詞在全稱中通常不會連續(xù)出現(xiàn),即全稱中的分詞連續(xù)在簡稱中省略的概率比較小。約束函數(shù)5的形式定義和計算如下
權利要求
1.一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于包括一下步驟 步驟I、輸入一個給定的漢語簡稱; 步驟2、選擇查詢模式來構造查詢項,將查詢項提交到Google搜索引擎中搜索,保存前N項錨文本作為錨語料; 步驟3、通過正則表達式,從錨語料中獲取出包含查詢項的關系的句子,保存下來作為全簡稱語料; 步驟4、利用簡稱提取算法EFN從全簡稱語料中提取出候選全稱,形成候選全稱集合; 步驟5、對候選全稱集合進行基于全簡稱關系約束的驗證,形成全稱集合; 步驟6、對全稱集合進行基于全簡稱關系約束的分類,從而形成帶有類別標注的全稱集
2.根據(jù)權利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述步驟2中,若Google返回的查詢結(jié)果>100條,則N取100,否則N取Google返回的查詢結(jié)果的條數(shù)。
3.根據(jù)權利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于上述步驟2中,所述的查詢模式包括兩種查詢模式I 簡稱An”,查詢模式2 :“An全稱”;先選擇查詢模式I,其次選擇查詢模式2。
4.根據(jù)權利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于上述步驟4中,全稱提取算法EFN包括兩個算法CFNEAl和CFNEA2,分別對應步驟2中的兩種查詢模式,即當步驟2中選擇查詢模式I時,步驟4中采用CFNEAl來提取Fn,當步驟2中選擇查詢模式2時,步驟4中采用CFNEA2來提取Fn。
5.根據(jù)權利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于當步驟2選擇查詢模式I時,步驟4執(zhí)行以下步驟 全簡稱句子主要分為三種類型,即標號對型、無后綴型和有后綴型;標號對型=An后面無漢字,且Cfn被配對標號所標出,無需確定Cfn的邊界,直接提?。粺o后綴型An后面無漢字,Cfn未被配對標號標出,Cfn需定左邊界;有后綴型An后面有漢字,表明An是另一簡稱“An*”的前半部分,故Cfn也該是“An*”對應的全稱“Cfn*”的前半部分,故Cfn需確定左右邊界; 步驟A-I、利用算法FCFNEA提取基準候選全稱集; 提取基準候選全稱集的算法(formal candidate fullname extract algorithmFCFNEA)輸入標號對型全簡稱句子集合Senttag ,無后綴型全簡稱句子集合Sentno ,有后綴型全簡稱句子集合Senthas 輸出基準候選全稱集合Cfnformal ¥ sent_tag € Senttag ,提取標號對中的詞條 cfn_formal Cfnft}rmal,并統(tǒng)計cfn_norm的頻度; Vsent_no G Sentno,¥ cfnjoraial e Cfnformal,若 cfnJbrmal 包含在sent no 中,Ucfn formal 的頻度 +ι,并從Sentnn 中刪除sent no ;—一IiUS一 Vsent_has £ Senthas,¥ cfnjormal E Cfnformal,若 cfnjormal 包含在sent_no 中,則cfn_formal 的頻度 +ι; Vcfn_formai G Cfnform al,利用ictclas進行分詞,將第一個分詞pre和最后一個分詞suf 組成< pre, suf >,< pre, suf > Set_fix Vsentjio G Sentno,V < pre, suf > e Set_fix,若sentjio 中存在前綴為 pre且后綴為suf的詞條cfnjk,K1JcfnJix Cfnfix,從Sentno中刪除sent_no,利用優(yōu)先級排序策略PSCF求出Cfnfix的最優(yōu)候選Inax(Cfnfix) Cfnformal ; return CFNformal 在算法FCFNEA的Step5中用到的優(yōu)先級排序策略PSCF的定義如下 優(yōu)先級排序策略(priority sort comparison function PSCF)¥ Cfiij X Cftij e CfnSet(An),Cfni > CfHj iff 1).n_word(Cftij,An)之 n_word(Cfnj,An);2).IeEgth(Cfhi) < Iengtli(CfEj) > if ILword(CfiiilAn) = ILworcl(CfnjlAn)jCfni = Cftij iff i). n—word(Cfii5,An) = n_word(CfHj,An);2). Iength(Cfiij) = length (Cfnj); if 3Cfnk € CfnSet(Aii), VCfni GSetjCfn(An),都有Cfek > Cfiv 則稱Cfnk 是CftiSet(An)中的最優(yōu)候選,記為 max(CfnSet(An)); 步驟A-2、利用算法ICFNEA提取非基準候選全稱集; 提取非基準候選全稱的算法(informal candidate ful lname extract algorithmICFNEA) 輸入待提取的短語或短句Οο—Γθ θΓθπ ,已知概念詞Inputitem= (C1C2......Cj ; 輸出提取出的全簡稱候選 對CbTdfermi進行分詞并且標注詞性,分詞結(jié)果為-JP1P2……PJ ; 定義位置變量left—flagbk, Ief胤 for each Ci ^ (CnCn^1......Cj for each Pj ^ {Pieft_fiaf ieft_fiag-i......PJ if Ci出現(xiàn)在&中 Then left_flagR j break; end if end for each end for each for each Pk ^ (P1P2......Pjif 的詞性^ {連詞介詞助詞動詞量詞標號} and k < left—flag Then IeftR k+l; end ifend for each return Candidate^ (Pleft......Pj; 步驟A-3、利用類比的方法對非基準候選全稱集中的候選全稱再定左右邊界; 類比的方法具體見如下的方法I和方法2 ; 形式表示
6.根據(jù)權利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于當步驟2選擇查詢模式2時,步驟4執(zhí)行以下步驟 步驟B-1、利用算法CFNEA2提取候選全稱集; 提取候選全稱的算法(candidate ful lname extract algorithm CFNEA2 ) 輸入前綴已知簡稱? I即utitern,待提取的短語或短句Cb-refermt 輸出提取出的全簡稱候選; 定義標記Λ^^βΟ,(開源的似乎是不能用于商業(yè)目的)對Co-referent分詞,記為(P1P2……PJ ; for each Pi ^ (P1P2......Pj if fIag-Q and Pi和Prefix有相同的字and Pi和Inputitem無相同的字 Then flagRl; end if if flag=I and Pi 和 Prefix 無相同的字 Thenbreak;end if i f Pi和Inputi tem有相同的字 Thenbreak;end ifend for each if fIag=O Then iBO/Candi da teR (Pi......Pj Return Candidate 通過上述操作得到候選全稱集。
7.根據(jù)權利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述的步驟5中,若全稱集合為空,且步驟2中還有查詢模式可供選擇,則重新執(zhí)行步驟2—6 ;如果全稱集合為空,同時步驟2中沒有可供選擇的查詢模式,則退出,表明不能從Web上搜索到所給定簡稱的全稱。
8.根據(jù)權利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述的步驟5中,全簡稱關系約束是一個四元組R= (Fn, An, F,A),其中,F(xiàn)n是對象的全稱,An是對象的簡稱,F(xiàn)是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集;約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。
9.根據(jù)權利要求8所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于所述步驟5、6的具體實現(xiàn)步驟如下 步驟C-1、利用約束公理集中的約束公理1-4驗證候選全稱集中的每個候選全稱; 步驟C-2、由約束函數(shù)集生成決策樹,利用決策樹對候選全稱集中的候選全稱進行分類,去除類別是“F1”、“F2”和“F3”的候選全稱,保留類別是“T”的候選全稱,從而生成全稱集; “F1”表示低頻異字型錯誤,“F2”表示高頻異字型錯誤,“F3”表示低頻異序型錯誤,“Y”表示正確; 步驟C-3、對全稱集進行基于約束函數(shù)集的分類; 根據(jù)全稱是否有異字或異序,分為普通型、異字型和異序型,普通型又根據(jù)語境是否相關分為強語境無關型、弱語境無關型和語境相關型,語境無關型再根據(jù)FN在全稱集中頻度的相對高低分為高頻型和低頻型,語境相關型根據(jù)An對FN的覆蓋重心分為前向型、居中型和后向型; 具體的分類標準和各類全稱需要滿足的條件 高頻強語境無關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的每個分詞在An中都有對應,且Fn在全稱集中頻度最高; 低頻強語境無關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的每個分詞在An中都有對應,且Fn在全稱集中頻度不最高; 高頻弱語境無關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的大部分分詞在An中都有對應,且Fn在全稱集中頻度最高; 低頻弱語境無關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的大部分分詞在An中都有對應,且Fn在全稱集中頻度不最高; 前向型語境相關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中被省略的分詞大多在Fn的后半部分; 居中型語境無關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中前后部分被省略的分詞個數(shù)差不多; 后向型語境相關的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中被省略的分詞大多在Fn的前半部分; 異序型的直觀意義=Fn包含An中的所有字但語序有變,F(xiàn)n在全稱集中頻度最高; 異字型的直觀意義=Fn不包含An中的所有字但Fn的頻度很高或在全稱集中的相對頻度很高; 步驟C-4、按優(yōu)先級綜合函數(shù)PRI(Cfn,An)對全稱集中同一類的全稱進行排序; 在步驟C-4中用到的優(yōu)先級綜合函數(shù)PRI (Cfn, An)的定義如下
10.根據(jù)權利要求要求8或9所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于所述的約束函數(shù)集的具體含義為 約束函數(shù)I =An的字來自Fn中的比率全稱包含簡稱所包括的所有漢字,即An中的每個漢字都來自于Fn中,在候選全稱集中,包含An的字的比率越高的候選全稱的優(yōu)先級越高; 約束函數(shù)I的形式定義和計算如下
全文摘要
本發(fā)明涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法,包括輸入已知簡稱,選擇查詢模式來構造查詢項,提交查詢項到Google中獲取錨文本,再從錨文本中獲取全簡稱語料,最后利用提取算法提取候選全稱,并利用優(yōu)先級綜合函數(shù)對候選全稱進行排序;其中查詢模式有兩種,對應的提取全稱的提取算法也有兩種。本發(fā)明還定義了全簡稱關系的本體,包括一組約束公理和一組約束函數(shù),其中約束公理定性地表示全稱和簡稱之間的約束,約束函數(shù)集定量地表示了全稱和簡稱之間的約束,并基于全簡稱本體提出了一種全稱的驗證方法和分類方法。本發(fā)明可實現(xiàn)全稱的大規(guī)模、高準確率的獲取,并探討了用計算機實現(xiàn)全稱的分類,為大規(guī)模知識的智能獲取提供了有效的支撐。
文檔編號G06F17/30GK102955818SQ201110253100
公開日2013年3月6日 申請日期2011年8月31日 優(yōu)先權日2011年8月31日
發(fā)明者王石, 丁遠鈞, 符建輝, 王衛(wèi)民 申請人:鎮(zhèn)江諾尼基智能技術有限公司