確定語料與實體的相關性的方法和裝置及分類器訓練方法
【專利摘要】本發明公開了一種確定語料與實體的相關性的方法和裝置及分類器訓練方法。所述確定相關性的方法包括:利用通用分類器基于從作為未標注語料的第二組語料提取的通用特征對第二組語料進行分類,以確定第二組語料中的每個語料與第一給定實體的相關性,從而得到作為對第二組語料的標注結果的機器標注語料;基于所述通用特征和從機器標注語料中選取的與第一給定實體相關的補充特征,結合實體名稱相關的啟發式規則,利用機器標注語料,訓練針對第一給定實體的自適應分類器;以及基于從第一組語料提取的通用特征和所述補充特征,結合實體名稱相關的啟發式規則,利用訓練好的自適應分類器,確定第一組語料中的每個語料與第一給定實體的相關性。
【專利說明】確定語料與實體的相關性的方法和裝置及分類器訓練方法
【技術領域】
[0001]本發明一般地涉及信息挖掘領域。具體而言,本發明涉及一種用于確定語料與給定實體的相關性的方法和裝置及相關的分類器訓練方法。
【背景技術】
[0002]微博(例如,推特、搜狐微博和騰訊微博等)作為一種社交媒體,迅速地贏得了世界范圍的歡迎。如何管理與微博有關的信息以掌握人們對政府政策的響應、人們對商品的反饋和評論等已受到研究團體的大量關注。存在一些研究,諸如觀點挖掘和在線聲譽管理等,它們聚焦于監控用戶生成的媒體。這些研究的關鍵內容之一在于首先要獲得與所研究實體(諸如公司的機構)有關的信息。
[0003]獲得與所研究實體有關的信息將面臨以下兩個問題。首先,微博和實體都包含很少信息。微博不同于傳統的由用戶所生成的媒體。它允許用戶生成不超過140個字符的消息。故只能獲得小的上下文信息。因此,可供比對的信息量相對較少。第二,實體名稱本身可能是模糊的,這也會增大分析的難度。例如,蘋果公司的名稱Apple也可以表示作為水果的蘋果。亞馬遜公司的名稱Amazon也可以表示亞馬遜河和亞馬遜叢林。可見,確定微博與實體之間是否相關只能依賴于微博本身較少的信息量并面臨實體名稱具有歧義的問題。如果不能準確有效地判斷微博與實體之間的相關性,就難以針對實體搜集和分類微博,并進而進行深入研究,如分析人們談論特定實體的相關內容。
[0004]此外,通常采用分類器來針對實體對微博進行分類。簡單地說,通過針對特定實體(例如,蘋果公司)搜集大量已標記的訓練語料(即標注了該微博是否是與蘋果公司相關的微博),利用所搜集的語料對分類器進行訓練,就可以使用訓練好的分類器針對特定實體(蘋果公司)分類語料(如未標記的大量微博),即判斷語料是否與特定實體相關。然而,針對每一個特定實體訓練一個分類器是繁復的。因此,也希望能夠使得訓練數據中的實體和測試數據中的實體可以不同,避免將分類器訓練為針對特定實體。
【發明內容】
[0005]在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0006]本發明的目的是針對現有技術的上述問題,提出了一種能夠確定語料與實體的相關性的方法和裝置及相關分類器訓練方法。該方案對于具有較少信息量的微博,能夠不針對特定實體訓練分類器,訓練好的分類器能針對特定實體進行分類,即確定語料與特定實體的相關性,并且能夠有效地處理具有歧義的實體名稱,避免與該實體無關的、與具有相同實體名稱的其它實體相關的語料被分類為與該實體相關。
[0007]為了實現上述目的,根據本發明的一個方面,提供了一種用于確定第一組語料中的每個語料與第一給定實體的相關性的方法,包括:利用通用分類器基于從作為未標注語料的第二組語料提取的通用特征對所述第二組語料進行分類,以確定所述第二組語料中的每個語料與所述第一給定實體的相關性,從而得到作為對所述第二組語料的標注結果的機器標注語料;基于所述通用特征和從所述機器標注語料中選取的與所述第一給定實體相關的補充特征,結合實體名稱相關的啟發式規則,利用所述機器標注語料,訓練針對所述第一給定實體的自適應分類器;以及基于從第一組語料提取的通用特征和所述補充特征,結合實體名稱相關的啟發式規則,利用訓練好的所述自適應分類器,確定第一組語料中的每個語料與第一給定實體的相關性。
[0008]根據本發明的另一個方面,提供了一種用于確定語料與給定實體的相關性的分類器的訓練方法,包括:獲取與給定實體相關聯的實體主頁頁面、具有網絡百科全書屬性的網頁頁面、搜索引擎返回的鏈接頁面、搜索引擎返回的相關頁面中的至少一種;從所獲取的頁面中提取一元詞、二元詞、二元字符、三元字符、元數據中的關鍵詞、URL地址中包括的主機名中的至少一個,作為機構信息;從與給定實體相關聯的已經標注好的訓練語料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機名中的至少一個,作為語料信息;基于所述機構信息和所述語料信息,計算通用特征,所述通用特征包括:語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的至少一種;以及基于所計算的通用特征,結合實體名稱相關的啟發式規則,利用所述訓練語料的標注結果,訓練所述分類器。
[0009]根據本發明的另一個方面,提供了一種用于確定第一組語料中的每個語料與第一給定實體的相關性的裝置,包括:通用分類器,用于基于從作為未標注語料的第二組語料提取的通用特征對所述第二組語料進行分類,以確定所述第二組語料中的每個語料與所述第一給定實體的相關性,從而得到作為對所述第二組語料的標注結果的機器標注語料;自適應分類器訓練單元,用于基于所述通用分類器使用的通用特征和從所述機器標注語料中選取的與所述第一給定實體相關的補充特征,結合實體名稱相關的啟發式規則,利用所述機器標注語料,訓練針對所述第一給定實體的自適應分類器;以及所述自適應分類器,用于基于從第一組語料提取的通用特征和所述補充特征,結合實體名稱相關的啟發式規則,確定第一組語料中的每個語料與第一給定實體的相關性。
[0010]另外,根據本發明的另一方面,還提供了 一種存儲介質。所述存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行根據本發明的上述方法。
[0011]此外,根據本發明的再一方面,還提供了 一種程序產品。所述程序產品包括機器可執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行根據本發明的上述方法。
【專利附圖】
【附圖說明】
[0012]參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中:
[0013]圖1示出了用于確定語料與給定實體的相關性的方法的第一實施例的流程圖;[0014]圖2示出了用于確定語料與給定實體的相關性的分類器的訓練方法的流程圖;
[0015]圖3示出了用于確定語料與給定實體的相關性的裝置的第一實施例的結構方框圖;
[0016]圖4示出了用于確定語料與給定實體的相關性的方法的第二實施例的流程圖;
[0017]圖5示出了用于確定語料與給定實體的相關性的裝置的第二實施例的結構方框圖;
[0018]圖6示出了根據本發明的實施例的通用特征提取單元的結構方框圖;以及
[0019]圖7示出了可用于實施根據本發明實施例的方法和裝置的計算機的示意性框圖。
【具體實施方式】
[0020]在下文中將結合附圖對本發明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
[0021]在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明關系不大的其他細節。另外,還需要指出的是,在本發明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。
[0022]本發明的基本思想是首先以已經針對一個或多個第二給定實體標注的第三組語料(即大量微博,每個微博均已標注了是否與第二給定實體相關,實體例如是機構、組織、公司等),基于通用特征,并結合啟發式規則,對通用分類器進行訓練,其中通用特征表征微博與實體的相關性,但不針對特定實體;為了針對特定的第一給定實體、對未標注的第一組語料中的每個語料進行分類(即確定第一組語料中的每個語料與第一給定實體的相關性),先利用通用分類器針對第一給定實體對第二組語料(也是未標注的)進行機器標注,提取通用特征并得到機器標注語料;然后,從機器標注語料中選取對第一給定實體指示性強的關鍵詞作為補充特征,基于通用特征、補充特征并結合啟發式規則,利用機器標注語料,訓練針對第一給定實體的自適應分類器;從而,基于通用特征、補充特征并結合啟發式規則,利用訓練好的自適應分類器針對第一給定實體對第一組語料進行識別。
[0023]這樣,訓練通用分類器時采用第三組語料,并不針對特定的給定實體;而應用時,先針對第一給定實體,借助于通用分類器和第二組語料對自適應分類器進行訓練,訓練好的自適應分類器就可以針對第一給定實體對第一組語料進行分類。
[0024]首先,將參照圖2描述根據本發明的實施例的用于確定語料與給定實體的相關性的通用分類器的訓練方法的流程。
[0025]圖2示出了用于確定語料與給定實體的相關性的通用分類器的訓練方法的流程圖。
[0026]如圖2所示,根據本發明的用于確定語料與給定實體的相關性的通用分類器的訓練方法,包括如下步驟:獲取與給定實體相關聯的實體主頁頁面、具有網絡百科全書屬性的網頁頁面、搜索引擎返回的鏈接頁面、搜索引擎返回的相關頁面中的至少一種(步驟S21);從所獲取的頁面中提取一元詞、二元詞、二元字符、三元字符、元數據中的關鍵詞、URL地址中包括的主機名中的至少一個,作為機構信息(步驟S22);從與給定實體相關聯的已經標注好的訓練語料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機名中的至少一個,作為語料信息(步驟S23);基于所述機構信息和所述語料信息,計算通用特征,所述通用特征包括:語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的至少一種(步驟S24);以及基于所計算的通用特征,結合實體名稱相關的啟發式規則,利用所述訓練語料的標注結果,訓練所述分類器(步驟S25 )。
[0027]通過步驟S21、S22,獲取表征給定實體的機構信息來豐富對與給定實體的描述,從而與具有相同實體名稱的其它實體更加有效地進行區分。顯然,對于一個給定實體的描述信息越豐富,則該給定實體越明確。
[0028]機構信息的來源包括,但不限于步驟S21中列出的四個方面。
[0029]1.與給定實體相關聯的實體主頁頁面
[0030]假設給定實體均至少具有一個自己的主頁,并且該主頁的URL作為指示給定實體的輸入。顯然,實體自己的主頁對于實體本身的描述而言,非常基本和重要。實體主頁中的詞語通常與該實體更相關并且更能表示該實體。可以從給定實體的實體主頁中提取與給定實體相關聯的詞作為機構信息。
[0031]可以利用實體的主頁的URL,抓取該主頁的一定深度的所有頁面。優選地,深度為
I。即,可抓取自主頁頁面起,深度為I的所有頁面作為給定實體的實體主頁頁面。
[0032]2.與給定實體相關聯的具有網絡百科全書屬性的網頁頁面
[0033]具有網絡百科全書屬性的網頁頁面例如是維基百科頁面和維基百科反例頁面。
[0034]維基百科(wikipedia)提供有消歧(disambiguation)功能,利用此功能能夠獲得與實體名稱對應的多個候選條目,候選條目包括鏈接。可以對候選相關條目進行分析以確定鏈接中是否含有給定實體的實體主頁的URL。如果鏈接中含有給定實體的實體主頁的URL,則可以認為該候選相關條目與給定實體相關聯,可進而提取該條目對應的頁面中的詞語作為機構信息。該頁面可以作為機構信息的正例數據源,不含有給定實體的實體主頁的URL的鏈接對應的頁面可以作為反例數據源。
[0035]3.與給定實體相關聯的搜索引擎返回的鏈接頁面
[0036]搜索引擎例如是谷歌(Google)。Google提供了檢索關鍵字“link”,采用與實體對應的URL構造檢索關鍵字,例如“link:ht tp://……”,輸入到Google的搜索欄中,可以得到返回的鏈接頁面。
[0037]優選地,選取前100個鏈接頁面作為機構信息的數據源。
[0038]4.與給定實體相關聯的搜索引擎返回的相關頁面
[0039]類似于上述鏈接頁面,Google提供了檢索關鍵字“related”,采用與實體對應的URL構造檢索關鍵字,例如“related:ht tp: //……”,輸入到Google的搜索欄中,可以得到返回的相關頁面。
[0040]優選地,選取前100個相關頁面作為機構信息的數據源。
[0041]在步驟S21中,從上述4種數據源中的至少一種獲取與給定實體相關聯的頁面。[0042]在步驟S22中,從所獲取的頁面中提取一元詞、二元詞、二元字符、三元字符、元數據中的關鍵詞、URL地址中包括的主機名中的至少一個,作為機構信息。
[0043]實體可以被表示為簡檔(profile)的集合,即機構信息。例如,機構信息可表示為Org = {p1; p2,, pj ο其中,每一個簡檔可以是關鍵詞及對應權重的集合。
[0044]可以針對上面步驟S21中獲得的頁面,建立如下的四種簡檔。
[0045]1.一兀詞簡檔(unigram profile)
[0046]可以將一元詞簡檔表示為Pu = set {uigram:weight}。
[0047]利用現有技術,可以對網頁頁面進行正文提取、分詞、去除停用詞、詞干提取等預處理,從而得到一元詞unigram。以“西安交通大學”為例,在一元詞的情況下,“西安交通大
學”將被表示為西/安/交/通/大/學。
[0048]權重weight決定特征對應的取值,為簡化處理,可將權重均設為1,從而使得特征對應的取值為O或I。
[0049]2.二兀詞簡檔(bigram profile)
[0050]可以將二元詞簡檔表示為Pb = set {bigram:weight}。
[0051]采用與一元詞類似的預處理,可以得到二元詞bigram。以“西安交通大學”為例,在二元詞的情況下,“西安交通大學”將被表示為西安/安交/交通/通大/大學。
[0052]權重weight決定特征對應的取值,為簡化處理,可將權重均設為1,從而使得特征對應的取值為O或I。
[0053]應注意,在詞級上,unigram為一元詞,bigram為二元詞。在字符級上,bigram包括二元字符。
[0054]類似地,本領域技術人員還可想到trigram,如包括三元字符等。
[0055]3.兀數據簡檔(metadata profile)
[0056]步驟S21中獲得的頁面大多為HTML文件,其中提供有元數據。元數據包括對頁面的描述、關鍵詞、文檔作者、上一次修改時間等信息。其中,關鍵詞是具有指示性作用的詞。因此,可將HTML頁面的元數據中的關鍵詞提取出來,作為元數據簡檔,其可表示為Pm =set {word:weight} ,word為元數據的關鍵詞。權重weight決定特征對應的取值,為簡化處理,可將權重均設為I,從而使得特征對應的取值為O或I。
[0057]4.URL 簡檔(URL profile)
[0058]步驟S21中獲得的頁面都對應一個URL,URL中包括主機名。可以將主機名host_name從URL中獲取出來,作為關鍵字,構成URL簡檔,表示為Plri = set {host_name:weight}。權重weight決定特征對應的取值,為簡化處理,可將權重均設為I,從而使得特征對應的取值為O或I。
[0059]至此,通過步驟S21、S22得到了表征實體的機構信息,應注意,機構信息是針對某一給定實體的。
[0060]為了將表征某一給定實體的機構信息與微博進行比較,確定微博與給定實體的相關性,需要對微博進行處理,提取相關信息,以與機構信息類似的方式表征微博。
[0061]由于要訓練分類器,因此,訓練語料應是針對給定實體標注好的。即已知訓練語料中的每一個語料(微博)是否與給定實體相關。該給定實體應與機構信息所對應的實體是同一實體。[0062]在步驟S23,從與給定實體相關聯的已經標注好的訓練語料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機名中的至少一個,作為語料信息。
[0063]應注意,由于微博并不一定具有元數據,因此,并未提取元數據中的關鍵詞。
[0064]應注意,通過對微博進行預處理,如URL提取、縮寫還原、分詞、去除停用詞、詞干提取等,可以從微博中提取URL地址中包括的主機名、unigram、bigram等關鍵字。這對本領域技術人員來說是例行的工作。
[0065]語料信息可以表示為Ti=Set {key:weight}。其中,key可以表示uni gram、bigram和URL地址中包括的主機名,為簡化處理,可將權重weight均設為I。Ti表示第i個語料的語料息。
[0066]應注意,機構信息和語料信息中的unigram、bigram、元數據中的關鍵詞和URL地址中包括的主機名等都是采用字符串的形式進行表示,以利于比較。由于字符串的比較只有在被比較的字符串完全相同的情況下,才認為字符串相同,因此,即使包括unigram和bigram的機構信息與包括unigram和bigram的語料信息直接進行比較,也只可能unigram與unigram匹配,bigram與bigram匹配。元數據中的關鍵詞、URL地址中包括的主機名等會根據其實際的字符串長度,與uni gram、b i gram、元數據中的關鍵詞、URL地址中包括的主機名中的適當的一個匹配。
[0067]下面,在步驟S24中,基于所述機構信息和所述語料信息,計算通用特征。首先,介紹通用特征本身。
[0068]如上所述,機構信息是針對給定實體提取出來的,用于表征給定實體。而訓練語料也針對給定實體進行了標注,并從中提取出了語料信息。如果將特征限定為具體的針對給定實體的特征,則仍存在現有技術中訓練針對的實體必須與識別針對的實體相同的限制。本發明的發明人意識到可以將特征抽象為與給定實體無關,而僅與實體的某一方面相關。也就是說特征(通用特征)可以表征語料與實體的某一方面的相關性,而非語料與某一特定實體的某一方面的相關性。
[0069]因此,為了更好地計算通用特征,訓練通用分類器所采用的訓練語料優選包括針對多個給定實體(多個第二給定實體)標注好的語料。并且訓練通用分類器時,提取多個第二給定實體的機構信息。由于通用特征可以不針對特定實體,因此所述多個第二給定實體可以包括識別時所針對的第一給定實體,也可以不包括識別時所針對的第一給定實體。
[0070]當進行識別時,可針對給定實體,計算給定實體的通用特征,從而使通用特征針對給定實體,并可僅依賴于通用特征,確定語料與給定實體的相關性。后文將看到,在識別時,為了更好地與給定實體相適應,還引入了補充特征來確定語料與給定實體的相關性。
[0071]通用特征包括:語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性。
[0072]所述語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的每一個均包括一元特征相關性、多元特征相關性、元數據相關性、主機名相關性。語料與實體主頁頁面的相關性包括一元特征相關性Fu\多元特征相關性Fb\元數據相關性Fmh、主機名相關性Fmlh。語料與網絡百科全書頁面(正例)的相關性包括一元特征相關性Fuw、多元特征相關性Fbw、元數據相關性Fmw、主機名相關性Furtw。語料與網絡百科全書頁面(負例)的相關性包括一元特征相關性Fu'多元特征相關性Fb'元數據相關性Fm'主機名相關性Furl'語料與搜索引擎鏈接頁面的相關性包括一元特征相關性Fu\多元特征相關性Fb\元數據相關性F/、主機名相關性F-1。語料與搜索引擎相關頁面的相關性包括一元特征相關性Fu'多元特征相關性Fb'元數據相關性Fm'主機名相關性Furl'
[0073]第i個語料的通用特征F (Ti, Org)可以被表示為:
【權利要求】
1.一種用于確定第一組語料中的每個語料與第一給定實體的相關性的方法,包括:利用通用分類器基于從作為未標注語料的第二組語料提取的通用特征對所述第二組語料進行分類,以確定所述第二組語料中的每個語料與所述第一給定實體的相關性,從而得到作為對所述第二組語料的標注結果的機器標注語料;基于所述通用特征和從所述機器標注語料中選取的與所述第一給定實體相關的補充特征,結合實體名稱相關的啟發式規則,利用所述機器標注語料,訓練針對所述第一給定實體的自適應分類器;以及基于從第一組語料提取的通用特征和所述補充特征,結合實體名稱相關的啟發式規則,利用訓練好的所述自適應分類器,確定第一組語料中的每個語料與第一給定實體的相關性。
2.如權利要求1所述的方法,其中,所述通用特征包括:語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的至少一種。
3.如權利要求2所述的方法,其中,所述語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的每一個均包括一元特征相關性、多元特征相關性、元數據相關性、主機名相關性中的至少一個;所述一元特征相關性包括頁面中的一元詞是否出現在語料中,所述多元特征相關性包括頁面中的二元詞、二元字符、三元字符中的至少一個是否出現在語料中,所述元數據相關性包括頁面的元數據中的關鍵詞是否出現在語料中,所述主機名相關性包括頁面的URL地址中包括的主機名是否出現在語料中。
4.如權利要求3所述的方法,其中,通過如下步驟提取所述通用特征:`獲取與給定實體相關聯的實體主頁頁面、具有網絡百科全書屬性的網頁頁面、搜索引擎返回的鏈接頁面、搜索引擎返回的相關頁面中的至少一種;從所獲取的頁面中提取一元詞、二元詞、二元字符、三元字符、元數據中的關鍵詞、URL地址中包括的主機名中的至少一個,作為機構信息;從語料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機名中的至少一個,作為語料信息;基于所述機構信息和所述語料信息,計算得到所述通用特征。
5.如權利要求1所述的方法,其中,實體名稱相關的啟發式規則包括:實體名稱本身是否包括不止一個單詞、和/或語料中是否包含完整實體名稱。
6.如權利要求1所述的方法,其中,所述補充特征包括:從所述機器標注語料中選取的與所述第一給定實體相關的一元詞、二元詞、二元字符、三元字符中的至少一個。
7.如權利要求6所述的方法,其中,所述方法還包括:在所述訓練自適應分類器的步驟之前的特征選取步驟,用于從所述機器標注語料中選取關鍵詞,作為所述補充特征;自適應訓練結束步驟,用于驗證自適應訓練結束條件,在滿足自適應訓練結束條件的情況下結束自適應訓練,在不滿足自適應訓練結束條件的情況下重復所述特征選取步驟和所述訓練自適應分類器的步驟,直到滿足所述自適應訓練結束條件。
8.如權利要求7所述的方法,其中,所述自適應訓練結束條件包括:迭代達到預定次數或自適應分類器的分類結果基本穩定。
9.一種用于確定語料與給定實體的相關性的分類器的訓練方法,包括:獲取與給定實體相關聯的實體主頁頁面、具有網絡百科全書屬性的網頁頁面、搜索引擎返回的鏈接頁面、搜索引擎返回的相關頁面中的至少一種;從所獲取的頁面中提取一元詞、二元詞、二元字符、三元字符、元數據中的關鍵詞、URL地址中包括的主機名中的至少一個,作為機構信息;從與給定實體相關聯的已經標注好的訓練語料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機名中的至少一個,作為語料信息;基于所述機構信息和所述語料信息,計算通用特征,所述通用特征包括:語料與實體主頁頁面的相關性、語料與網絡百科全書頁面的相關性、語料與搜索引擎鏈接頁面的相關性、語料與搜索引擎相關頁面的相關性中的至少一種;基于所計算的通用特征,結合實體名稱相關的啟發式規則,利用所述訓練語料的標注結果,訓練所述分類器。
10.一種用于確定第一組語料中的每個語料與第一給定實體的相關性的裝置,包括:通用分類器,用于基于從作為未標注語料的第二組語料提取的通用特征對所述第二組語料進行分類,以確定所述第二組語料中的每個語料與所述第一給定實體的相關性,從而得到作為對所述第二組語料的標注結果的機器標注語料;自適應分類器訓練單元,用于基于所述通用分類器使用的通用特征和從所述機器標注語料中選取的與所述第一給定實體相關的補充特征,結合實體名稱相關的啟發式規則,利用所述機器標注語料,訓練`針對所述第一給定實體的自適應分類器;以及所述自適應分類器,用于基于從第一組語料提取的通用特征和所述補充特征,結合實體名稱相關的啟發式規則,確定第一組語料中的每個語料與第一給定實體的相關性。
【文檔編號】G06F17/30GK103514194SQ201210212662
【公開日】2014年1月15日 申請日期:2012年6月21日 優先權日:2012年6月21日
【發明者】張姝, 孟遙, 于浩 申請人:富士通株式會社