專利名稱:識別多級詞匯組合的方法和設備的制作方法
技術領域:
本申請涉及字符識別處理,更具體地說,本發明涉及識別多級詞匯組合的方法和設備。
背景技術:
在一些特殊的OCR(光學字符識別)應用中,例如地址(省+市+縣)識別和產品 (制造商+種類+類型)識別,識別的對象是多級詞匯的組合,各級詞匯之間例如在語義上從粗/大到細/小。在現有技術中,對于每級詞匯采集候選詞匯,然后針對每級分別選擇置信度最高的候選詞匯作為最終識別的多級詞匯組合。這種傳統的多級詞匯組合識別方法, 難以同時實現高識別率和低拒識率,另外,在非最低級詞匯輸入錯誤或無法識別時,傳統的方法也無法自動進行修正。
發明內容
在下文中給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍后論述的更詳細描述的前序。根據本發明的一個方面,一種識別多級詞匯組合的方法,該多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,該方法包括分別獨立識別每級詞匯;根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。根據本發明的另一方面,一種識別多級詞匯組合的設備,該多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,該設備包括詞匯識別單元,被配置為分別獨立識別每級詞匯,詞匯組合識別單元,被配置為根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。根據本發明的識別多級詞匯組合的方法和設備具有較強的容錯性,能夠實現多級詞匯組合識別的高識別率和低拒識率。
參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中圖1是根據本發明的實施例的識別多級詞匯組合的方法的流程圖;圖2是根據本發明的實施例的識別多級詞匯組合的方法中根據每級詞匯的識別結果來確定多級詞匯組合的識別結果的步驟的一個實現的流程圖;圖3是根據本發明的識別多級詞匯組合的設備的框圖;圖4是可用于實施根據本發明實施例的方法和裝置的計算機的示意性框圖;以及
圖5a_5i是利用本發明的實施例的識別多級詞匯組合的設備對輸入的地址進行識別的屏幕顯示示例。
具體實施例方式下面參照附圖來說明本發明的實施例。在本發明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知的部件和處理的表示和描述。以下的部分內容以手寫地址識別作為識別多級詞匯組合的示例,但是應該理解, 本發明不限于此。本發明也可以適用于與地址類似的多級詞匯組合的識別,例如產品的識別。以下參照圖1來描述根據本發明的識別多級詞匯組合的方法的實施例。該實施例用于識別多級詞匯組合。多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集。以識別對象是“省+市+縣”的模式的地址為例,“河南信陽淮濱”就是一個多級詞匯組合。該多級詞匯組合包括三級詞匯“河南”為第一級詞匯,“信陽” 為第二級詞匯,“淮濱”為第三級詞匯。每一級都有該級詞匯的候選級,例如第一級詞匯的候選集包括“河南”、“甘肅”、“山西”等詞匯,第二級詞匯的候選集包括“信陽”、“鄭州”、“酒泉”、“蘭州”、“太原”、“大同”等詞匯。不同的下級詞匯候選集的子集不同的第一級詞匯,例如“河南”所對應的下級詞匯候選集(也就是第二級詞匯候選集)的子集包括“信陽”、“鄭州”等詞匯,而“甘肅”所對應的下級詞匯候選集(也就是第二級詞匯候選集)的子集包括 “酒泉”、“蘭州”等詞匯。應注意,這里不考慮如何劃分作為識別對象的多級詞匯組合中的每一級,可以認為每一級已經預先進行了劃分,或者認為各級詞匯之間有明顯的間隔,很容易劃分。如圖1所示,在步驟102中,可以分別獨立識別每級詞匯。在步驟S104中,可以根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。在一個示例中,在步驟102中,可以計算每級候選詞匯置信度列表。其中,每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度。以識別對象是“省+市 +縣”的模式的地址為例,對于作為識別對象的第一級詞匯,計算第一級詞匯候選集中的每個候選詞匯相對于該第一級詞匯的置信度,從而形成第一級候選詞匯置信度列表。同樣地, 對于作為識別對象的第二級詞匯,計算第二級詞匯候選集中的每個候選詞匯相對于該第二級詞匯的置信度,從而形成第二級候選詞匯置信度列表;對于作為識別對象的第三級詞匯, 計算第三級詞匯候選集中的每個候選詞匯相對于該第三級詞匯的置信度,從而形成第三級候選詞匯置信度列表。這里,每級候選詞匯置信度列表可以作為每級詞匯的識別結果。關于置信度的計算是本領域技術人員可以實現的,這里不再詳細描述。在一個示例中,在步驟104中,可以根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表。其中,候選多級詞匯組合置信度列表可以包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。候選多級詞匯組合候選集可以包括所有可能的多級詞匯組合。以識別對象是“省+市+縣”的模式的地址為例,候選多級詞匯組合候選集可以包括“河南信陽淮濱”、“甘肅酒泉瓜州”、“山東煙臺海陽”等多級詞匯組合。在一個示例中,可以將候選多級詞匯組合所對應的每級候選詞匯的置信度的平均值作為該候選多級詞匯組合的置信度。在一個示例中,可以將置信度最高的多級候選詞匯組合作為識別結果。在一個示例中,由于考慮到最低級詞匯所包含的信息量最豐富,在步驟104中,可以從多級詞匯組合候選集中置信度最高的N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為多級詞匯組合的識別結果,其中N為大于或等于1的整數。以識別對象是“省+市+縣”的模式的地址為例,假設N為2,假設候選多級詞匯組合集中置信度最高的2個候選多級詞匯組合是“山東青島萊西”和“山東煙臺萊州”, 則比較這兩個候選多級詞匯組合中最低級候選詞匯“萊西”和“萊州”的置信度,如果“萊西” 的置信度高,則將“山東青島萊西”確定為識別結果,如果“萊州”的置信度高,則將“山東煙臺萊州”確定為識別結果。在一個示例中,在步驟104中,根據每級候選詞匯置信度列表計算候選多級詞匯組合置信度列表可以包括從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度,并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。在每級詞匯由字符組成的情況下,可以以每個候選多級詞匯組合對應的每級候選詞匯所包含的字符的數目除以每個候選多級詞匯組合所包括的字符的數目作為權值,來計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值。以候選多級詞匯組合“黑龍江哈爾濱五常”為例, 該詞匯組合所包括的字符的數目為8,“黑龍江” “哈爾濱” “五常”所包括的字符的數目分別為3、3、2,則“黑龍江” “哈爾濱” “五常”對應的權值分別為3/8,3/8和1/4。在一個示例中,在每級詞匯由字符組成的情況下,計算每級候選詞匯置信度列表可以包括計算每級詞匯所包括的字符的置信度,并且對每級詞匯所包括的字符的置信度進行平均作為每級候選詞匯的置信度。以下參照圖2來描述根據本發明的實施例的識別多級詞匯組合的方法中步驟 S104的一個實現。如圖2所示,在步驟202中,可以從多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出。在步驟204中,可以判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值。如果置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度大于或等于預定閾值(在步驟204 中為是),則在步驟206中,將該候選多級詞匯組合確定為多級詞匯組合的識別結果。如果置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度小于預定閾值(在步驟204中為否),則拒識。其中N為大于或等于1的整數。在一個示例中,在拒識后,可以人工對在步驟202中輸出的候選識別結果進行判斷。以下參照圖3來描述根據本發明的識別多級詞匯組合的設備300。如圖3所示,識別多級詞匯組合的設備300可以包括詞匯識別單元302,被配置為分別獨立識別每級詞匯,詞匯組合識別單元304,被配置為根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。在一個示例中,詞匯識別單元302可以計算每級候選詞匯置信度列表,每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度。詞匯組合識別單元304可以根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表。其中,候選多級詞匯組合置信度列表包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。在又一個示例中,詞匯組合識別單元304從多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出,并判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值,如果是,則將該候選多級詞匯組合確定為多級詞匯組合的識別結果,如果否,則拒識,其中N為大于或等于1的整數。在又一個示例中,詞匯組合識別單元304從多級詞匯組合候選集中置信度最高的 N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為多級詞匯組合的識別結果,其中N為大于或等于1的整數。可選的,詞匯組合識別單元從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度,并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。可選的,每級詞匯由字符組成,詞匯識別單元計算每級詞匯所包括的字符的置信度,并且對每級詞匯所包括的字符的置信度進行平均作為每級候選詞匯的置信度。可選的,詞匯組合識別單元以每個候選多級詞匯組合對應的每級候選詞匯所包含的字符的數目除以每個候選多級詞匯組合所包括的字符的數目作為權值,來計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值。關于識別多級詞匯組合的設備300的各個部件的操作和功能可以參考參照圖1和 2描述的識別多級詞匯組合的方法,這里不再贅述。圖4示出了可用于實施根據本發明實施例的方法和裝置的計算機的示意性框圖。 在圖4中,中央處理單元(CPU)401根據只讀存儲器(ROM)402中存儲的程序或從存儲部分 408加載到隨機存取存儲器(RAM) 403的程序執行各種處理。在RAM 403中,還根據需要存儲當CPU 401執行各種處理等等時所需的數據。CPU 40UROM 402和RAM 403經由總線504 彼此連接。輸入/輸出接口 405也連接到總線404。下述部件連接到輸入/輸出接口 405 輸入部分406(包括鍵盤、鼠標等等)、輸出部分407(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分408 (包括硬盤等)、通信部分409 (包括網絡接口卡比如LAN卡、調制解調器等)。通信部分409經由網絡比如因特網執行通信處理。根據需要,驅動器410也可連接到輸入/輸出接口 405。可拆卸介質411比如磁盤、光盤、磁光盤、半導體存儲器等等可以根據需要被安裝在驅動器410上,使得從中讀出的計算機程序根據需要被安裝到存儲部分408中。在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質411安裝構成軟件的程序。本領域的技術人員應當理解,這種存儲介質不局限于圖4所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質411。可拆卸介質411的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質可以是 ROM 402、存儲部分408中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發給用戶。圖5a_5i是利用本發明的實施例的識別多級詞匯組合的設備對輸入的多級地址進行識別的屏幕顯示示例,其中將置信度的預定閾值設定為0. 40,一個多級地址包括省、 市、縣三級。可以看到,圖fe中輸入的多級地址的每一級都具有良好的質量,因此可以正確識別輸入的多級地址;圖恥中輸入的多級地址的每一級的質量較差,但其中的最低級、即縣級地址的置信度為0. 43,大于預定閾值0. 40,因此仍然可以正確識別輸入的多級地址;圖 5c中輸入的中間級、即市級地址質量很差,幾乎無法識別,但是由于輸入的縣級地址的置信度大于預定閾值,本發明的實施例的設備仍然正確識別出期望輸入的多級地址。可以看到, 采用本發明的實施例的識別多級詞匯組合的方法對于質量較低的多級地址輸入具有魯棒性,并且還可以在輸入的非最低級(第一級或第二級)地址難以識別(如,輸入錯誤或缺失)的情況下,依靠多級詞匯組合整體的置信度,識別出所輸入的多級地址。在圖5d中,沒有輸入縣級地址,在這種情況下,只能識別出省級和市級地址。在圖 5e中,誤將縣級地址作為中間級地址輸入,本發明的設備仍然可以正確識別出期望輸入的多級地址。在圖5f中,輸入了錯誤的市級地址,本發明的設備仍然可以正確識別出期望的多級地址。因此,采用本發明的實施例的識別多級詞匯組合的方法和設備對于錯誤輸入具有較高的容限。在圖5g_5i中,沒有正確地識別出輸入的多級地址,由于最低級地址的置信度小于預定閾值,本發明的實施例的識別多級詞匯組合的方法和設備對輸入的多級地址拒識。通過以上地址識別的具體示例可以看出,根據本發明的實施例的識別多級詞匯組合的方法和設備具有較強的容錯性,能夠實現高識別率和低拒識率。上面對本發明的一些實施方式進行了詳細的描述。如本領域的普通技術人員所能理解的,本發明的方法和裝置的全部或者任何步驟或者部件,可以在任何計算設備(包括處理器、存儲介質等)或者計算設備的網絡中,以硬件、固件、軟件或者它們的組合加以實現,這是本領域普通技術人員在了解本發明的內容的情況下運用他們的基本編程技能就能實現的,因此不需在此具體說明。此外,顯而易見的是,在上面的說明中涉及到可能的外部操作的時候,無疑要使用與任何計算設備相連的任何顯示設備和任何輸入設備、相應的接口和控制程序。總而言之, 計算機、計算機系統或者計算機網絡中的相關硬件、軟件和實現本發明的前述方法中的各種操作的硬件、固件、軟件或者它們的組合,即構成本發明的設備及其各組成部件。因此,基于上述理解,本發明的目的還可以通過在任何信息處理設備上運行一個程序或者一組程序來實現。所述信息處理設備可以是公知的通用設備。因此,本發明的目的也可以僅僅通過提供包含實現所述方法或者設備的程序代碼的程序產品來實現。也就是說,這樣的程序產品也構成本發明,并且存儲或者傳輸這樣的程序產品的介質也構成本發明。顯然,所述存儲或者傳輸介質可以是本領域技術人員已知的,或者將來所開發出來的任何類型的存儲或者傳輸介質,因此也沒有必要在此對各種存儲或者傳輸介質一一列舉。在本發明的設備和方法中,顯然,各部件或各步驟是可以分解、組合和/或分解后重新組合的。這些分解和/或重新組合應視為本發明的等效方案。還需要指出的是,執行上述系列處理的步驟可以自然地按照說明的順序按時間順序執行,但是并不需要一定按照時間順序執行。某些步驟可以并行或彼此獨立地執行。同時,在上面對本發明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。應該強調,術語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。雖然已經詳細說明了本發明及其優點,但是應當理解在不超出由所附的權利要求所限定的本發明的精神和范圍的情況下可以進行各種改變、替代和變換。而且,本申請的范圍不僅限于說明書所描述的過程、設備、手段、方法和步驟的具體實施例。本領域內的普通技術人員從本發明的公開內容將容易理解,根據本發明可以使用執行與在此所述的相應實施例基本相同的功能或者獲得與其基本相同的結果的、現有和將來要被開發的過程、設備、 手段、方法或者步驟。因此,所附的權利要求旨在在它們的范圍內包括這樣的過程、設備、手段、方法或者步驟。關于包括以上各實施例的實施方式,還公開了以下的附記。艦1. 一種識別多級詞匯組合的方法,所述多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,所述方法包括分別獨立識別每級詞匯;根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。2.如附記1所述的方法,其中識別每級詞匯包括計算每級候選詞匯置信度列表, 所述每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度;根據每級詞匯的識別結果來計算多級詞匯組合的識別結果包括根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表,所述候選多級詞匯組合置信度列表包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。3.如附記2所述的方法,其中根據每級詞匯的識別結果來確定多級詞匯組合的識別結果包括從所述多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出,并判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值,如果是,則將該候選多級詞匯組合確定為所述多級詞匯組合的識別結果,如果否,則拒識,其中N為大于或等于1的整數。4.如附記2所述的方法,其中根據每級詞匯的識別結果來確定多級詞匯組合的識別結果包括從所述多級詞匯組合候選集中置信度最高的N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為所述多級詞匯組合的識別結果,其中N為大于或等于1的整數。5.如附記2所述的方法,其中根據每級候選詞匯置信度列表計算候選多級詞匯組合置信度列表包括從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度,并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。6.如附記5所述的方法,其中所述每級詞匯由字符組成,所述計算每級候選詞匯置信度列表包括計算每級詞匯所包括的字符的置信度,并且對每級詞匯所包括的字符的置信度進行平均作為每級候選詞匯的置信度。7.如附記6所述的方法,其中計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度包括以每個候選多級詞匯組合對應的每級候選詞匯所包含的字符的數目除以每個候選多級詞匯組合所包括的字符的數目作為權值,來計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值。8. 一種識別多級詞匯組合的設備,所述多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,所述設備包括詞匯識別單元,被配置為分別獨立識別每級詞匯,詞匯組合識別單元,被配置為根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。9.如附記8所述的設備,其中所述詞匯識別單元計算每級候選詞匯置信度列表, 所述每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度;所述詞匯組合識別單元根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表,所述候選多級詞匯組合置信度列表包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。10.如附記9所述的設備,其中所述詞匯組合識別單元從所述多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出,并判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值,如果是,則將該候選多級詞匯組合確定為所述多級詞匯組合的識別結果,如果否,則拒識,其中N 為大于或等于1的整數。11.如附記9所述的設備,其中所述詞匯組合識別單元從所述多級詞匯組合候選集中置信度最高的N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為所述多級詞匯組合的識別結果,其中N為大于或等于1的整數。12.如附記9所述的設備,其中所述詞匯組合識別單元從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度, 并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。13.如附記12所述的設備,其中所述每級詞匯由字符組成,所述詞匯識別單元計算每級詞匯所包括的字符的置信度,并且對每級詞匯所包括的字符的置信度進行平均作為每級候選詞匯的置信度。14.如附記13所述的設備,其中所述詞匯組合識別單元以每個候選多級詞匯組合對應的每級候選詞匯所包含的字符的數目除以每個候選多級詞匯組合所包括的字符的數目作為權值,來計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值。
權利要求
1.一種識別多級詞匯組合的方法,其特征在于,所述多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,所述方法包括分別獨立識別每級詞匯;根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。
2.如權利要求1所述的方法,其中識別每級詞匯包括計算每級候選詞匯置信度列表, 所述每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度;根據每級詞匯的識別結果來計算多級詞匯組合的識別結果包括根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表,所述候選多級詞匯組合置信度列表包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。
3.如權利要求2所述的方法,其中根據每級詞匯的識別結果來確定多級詞匯組合的識別結果包括從所述多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出,并判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值,如果是,則將該候選多級詞匯組合確定為所述多級詞匯組合的識別結果,如果否,則拒識,其中N為大于或等于1的整數。
4.如權利要求2所述的方法,其中根據每級詞匯的識別結果來確定多級詞匯組合的識別結果包括從所述多級詞匯組合候選集中置信度最高的N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為所述多級詞匯組合的識別結果,其中N為大于或等于1的整數。
5.如權利要求2所述的方法,其中根據每級候選詞匯置信度列表計算候選多級詞匯組合置信度列表包括從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度,并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。
6.一種識別多級詞匯組合的設備,其特征在于,所述多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,所述設備包括詞匯識別單元,被配置為分別獨立識別每級詞匯,詞匯組合識別單元,被配置為根據每級詞匯的識別結果來確定多級詞匯組合的識別結^ ο
7.如權利要求6所述的設備,其中所述詞匯識別單元計算每級候選詞匯置信度列表, 所述每級詞匯置信度列表包括每級詞匯的候選集中的每個候選詞匯的置信度;所述詞匯組合識別單元根據每級候選詞匯置信度列表確定候選多級詞匯組合置信度列表,所述候選多級詞匯組合置信度列表包括多級詞匯組合候選集中的每個候選多級詞匯組合的置信度。
8.如權利要求7所述的設備,其中所述詞匯組合識別單元從所述多級詞匯組合候選集中選擇置信度最高的N個候選多級詞匯組合作為候選識別結果輸出,并判斷置信度最高的一個候選多級詞匯組合中的最低級候選詞匯的置信度是否大于或等于預定閾值,如果是, 則將該候選多級詞匯組合確定為所述多級詞匯組合的識別結果,如果否,則拒識,其中N為大于或等于1的整數。
9.如權利要求7所述的設備,其中所述詞匯組合識別單元從所述多級詞匯組合候選集中置信度最高的N個候選多級詞匯組合選擇對應的最低級候選詞匯的置信度最高的候選多級詞匯組合確定為所述多級詞匯組合的識別結果,其中N為大于或等于1的整數。
10.如權利要求7所述的設備,其中所述詞匯組合識別單元從每級候選詞匯置信度列表查找出多級詞匯組合候選集中的每個候選多級詞匯組合對應的每級候選詞匯的置信度, 并計算每個候選多級詞匯組合對應的每級候選詞匯的置信度加權平均值作為該候選多級詞匯組合的置信度。
全文摘要
提供了識別多級詞匯組合的方法和設備。一種識別多級詞匯組合的方法,所述多級詞匯組合包括多個級別的詞匯,不同的上級詞匯對應于不同的下級詞匯候選集的子集,該方法包括分別獨立識別每級詞匯;根據每級詞匯的識別結果來確定多級詞匯組合的識別結果。根據本發明的識別多級詞匯組合的方法和設備具有較強的容錯性,能夠實現高識別率和低拒識率。
文檔編號G06K9/72GK102402695SQ20101028023
公開日2012年4月4日 申請日期2010年9月9日 優先權日2010年9月9日
發明者于浩, 孫俊, 直井聰, 鄭大念 申請人:富士通株式會社