確定代表自然語句的主題的術語的組合的方法和系統的制作方法
【技術領域】
[0001]本發明涉及注釋自然語言的文本,更具體而言涉及確定代表較大文本主體的主題的關鍵術語。
【背景技術】
[0002]自然語言處理(NLP)在文件的非結構性文本中標識實體或對象,并且確定這些實體之間的關系。NLP引擎通過使得所述非結構性文本中的語言符號或單詞與含有關鍵術語和該關鍵術語的變體的詞典中的條目相匹配來標識所述實體或對象以及該實體或對象的變體。該對應詞典條目代表該非結構性文本中的實體或對象。人們就基于被匹配的條目的注釋或概念是否應該被應用到所述語言符號或單詞做出受限的固定(inflexible)布爾決定。
[0003]授予Salkeld等的美國專利US8,332,434教導了一種將一組單詞映射到一組本體術語的系統。針對本體上下文的不同起始點確定與本體上下文中的一組單詞對應的術語集合。使用考慮到一致性和通俗性的適合度函數,對從每個起始點開始獲取的術語集合進行排序。如果具有非常高的術語排序的術語的本體與起始點本體具有無價值的(trivial)相關性,則被降低級別或丟棄。
【發明內容】
[0004]本發明的實施例是一種用于確定代表自然語句的主題的術語的組合的方法、計算機系統以及計算機程序產品。
[0005]確定從句子的開頭到所述句子中的與所述術語的組合中的術語匹配的相應術語的相應的單詞數量。所述句子被劃分成多種多樣的自然語言短語,所述自然語言短語包括復雜短語和從所述復雜短語中抽取的第一和第二簡單短語。所述復雜短語比整個句子短。部分基于(a)從句子的開頭到所述句子中的與所述術語的組合中的術語匹配的相應術語的相應的單詞數量、(b)所述組合中的所有術語是否都包含在所述第一和/或第二簡單短語中、以及(c)所述組合中的所有術語是否都包含在所述復雜短語中但是沒有包含在所述第一和/或第二簡單短語中,確定所述術語的組合代表所述句子的主題有多好。
[0006]本發明的實施例提供用于注釋非結構性文本的自然語言處理,其增加了優于現有基于詞典的語言符號匹配方法的查全率(recall),同時生成置信度來評估精度。與現有注釋方法的僵化布爾決定相比,該置信度提供了精度的更靈活評估
【附圖說明】
[0007]圖1是根據本發明實施例的用于生成術語的組合的置信度的系統的框圖。
[0008]圖2A-2B描述了根據本發明實施例的在圖1的系統中包括的計算機系統中執行的置信度生成器程序的流程圖。
[0009]圖3描述了由根據本發明實施例的在圖1的系統中包括的計算機系統中執行的置信度生成程序生成的分析樹的實例。
[0010]圖4根據本發明實施例的用于生成術語的組合的置信度的圖1的系統中所包括的計算機系統的框圖。
【具體實施方式】
[0011]概述
[0012]本發明的實施例確定置信度,該置信度指示了術語的預定組合代表諸如自認/人類語言的句子或句子組的非結構性自然語言文本的可能性。非結構性文本可以是對專家系統的采用在自然語言中的句子而不是關鍵詞表達的用戶查詢,其中非結構性文本的整個含義與用戶希望某些事情,諸如求助指導或產品,相關聯。代替針對查詢中的文本的整體搜索文檔的搜索引擎,本發明的實施例使得查詢的非結構性文本與被用來的搜索文檔的預定術語或關鍵詞的組合相關聯。所述術語的預定組合有時被稱為語義類型,并且根據最高置信度所選擇的術語的具體組合可以被用作一組搜索術語。如下面詳細描述的那樣,用于代表性搜索術語的置信度基于與預定術語組合中的術語(或其同義詞)匹配的非結構性文本中的語言符號(例如,單詞)之間的接近度的兩種不同測量。通常,在句子中彼此相近的那些單詞(或其同義詞)會比在句子中彼此更遠的那些單詞(或其同義詞)被賦予更多的權重。而且,在包含在句子的復雜短語中的簡單短語中一起出現的那些單詞(或其同義詞)會比在復雜短語中一起出現而不是在句子的任何簡單短語中一起出現的那些單詞(或其同義詞)被賦予更多的權重。
[0013]用于生成術語組合的置信度的系統
[0014]圖1是本劇本發明實施例的用于生成術語組合的置信度的系統10的框圖。系統100包括計算機102,其可以包括任何類型的繼續按系統,包括例如:個人計算機,大型計算機、膝上計算機、服務器等等。計算機102包括:中央處理單元(CPU)(未示出)、有形數據存儲器件(未示出)以及內存(未示出)。計算機102利用CPU執行經由內存(未示出)存儲在有形存儲器件中的基于軟件的置信度生成程序104 (即,計算機程序指令),以便接收自然語言的非結構性文本106以及生成相應的預定術語組合110的置信度108,其中所生成的置信度108指示了相應術語組合110為非結構性文本106的主題、概念或本質的可能性。置信度生成程序104(1)基于本體112中的規則標識在非結構性文本106中出現的術語組合110 ; (2)生成包括作為根部的非結構性文本106和作為節點的非結構性文本106的術語和短語的分析樹114 ; (3)基于術語組合110中的術語距非結構性文本106的開頭的距離確定第一接近度測量值;以及(4)基于該術語距分析樹114的根部的距離確定第二接近度測量值。置信度生成程序104基于第一和第二接近度測量值生成術語組合110的置信度108。在一個實施例中,分析樹114是通過深度分析形成的短語結構分析樹。短語結構分析樹中的每個節點包含單詞或短語(例如名詞短語或動詞短語)。短語結構分析樹中的每個短語可以包括一個或多個單詞和/或一個或多個其他短語。
[0015]作為一個實例,計算機102接收作為非結構性文本106的用戶提供的句子,其中,該句子查詢制造商專家系統(未示出)關于由制造商提供的產品以及用戶希望的進一步信息。置信度生成程序104標識具有與在用戶提供的句子中出現的相應第一和第二單詞匹配的第一和第二術語(或該術語的同義詞)的預定術語組合110。置信度生成程序104生成分析樹114使得該句子為分析樹114的根部而該句子的單詞、短語的元素以及短語為節點。置信度生成程序104基于第一單詞距該句子的開頭的第一距離與第二單詞距該句子的開頭的距離之間的差值來確定第一接近度測量值。置信度生成程序104基于分析樹114的第一級別數和第二級別數之間的差值來確定第二接近度測量值。第一級別數是分析樹114的第一單詞與根部之間的級別數。第二級別數是分析樹114的第二單詞與根部之間的級別數。基于第一和第二接近度測量值,置信度生成程序104確定所標識的兩個術語(two-term)組合指示用戶提供的句子的概念(concept)或主題(subject matter)的可能性(Iikehood)。本發明可等同地應用到三、四或更多數兩的術語的組合。
[0016]計算機102的內部和外部組件將在下面參照圖4進行進一步描述。系統10的組合的功能將在下面參照圖2A-2B的闡述中進一步描述。
[0017]圖2A-2B描述了根據本發明實施例的在圖1的系統中所包括的計算機系統中執行的置信度生成器程序的流程圖。在步驟202中,置信度生成器程序104(參見圖1)接收用戶輸入的自然語言句子作為非結構性文本106(參見圖1)。可替換地,程序104 (參見圖1)可以接收多個句子和其他類型的非結構性文本。
[0018]在步驟204之前,置信度生成器程序104 (參見圖1)通過利用本體112 (參見圖1)中的規則生成多個術語組合110(參見圖1),其中該術語組合110(參見圖1)為潛在代表在步驟202中接收的句子的主題的概念。Each rule in本體112(參見圖1)中的每個規則指定了在步驟202中接收的句子中包括的單詞和具體術語組合110 (參見圖1)之間的關系。例如,置信度生成器程序104(參見圖1)標識在步驟202中接收到的句子中的“pipe(管道)”和“stuck(卡塞)”并使用本體112 (參見圖1)中的規則StuckPipe具有Child Pipe來生成術語組合(即,概念)“StuckPipe”。
[0019]在步驟204中,置信度生成器程序104 (參見圖1)從多個術語組合110 (參見圖1)中選擇第一預定術語組合,并且確定置信度108 (參見圖1)的初始值。返回到步驟204的每個循環(下面所述)從多個術語組合110 (參見圖1)中選擇下一個術語組合。在一個實施例中,置信度108(參見圖1)的初始值為100%。如果在步驟204中所選擇的術語組合基于一個或多個先前處理的術語組合,則置信度108(參見圖1)的初始值可以小于100%。例如,置信度生成器程序104 (參見圖1)根據“pump (泵)”和“pressure (壓力)”形成的組合“pump pressure”其置信度為70%而根據“pressure (壓力)”和“ increase (增加)”形成的組合“pump pressure”其置信度為80%。在該實施例中,置信度生成器程序104 (參見圖1)隨后根據先前形成的初始值為75%的置信度108(參見圖1)的“pump pressure”和“pressure increase” 形成“pump pressure increase”。在該實例中,選擇 75% 以便處于用于“pump pressure”的70%水平和用于“pressure increase”的80%水平的中間,但是可以考慮其他因素(例如,一個術語由于更高的出現頻率而導致其更重要)來對“pumppressure”和“pressure increase”賦予不同權重,以便選擇70%和80%之間的另一個值。在一個實施例中,所述多個術語組合采用資源描述框架((RDF)數據模型表達。
[0020]在步驟206中,置信度生成器程序104(參見圖1)確定在步驟204中所選擇的術語組合110(參見圖1)的每個術語是