專利名稱:一種語義模糊匹配方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及語音識(shí)別領(lǐng)域,具體來說,涉及一種語義模糊匹配方法。
背景技術(shù):
人機(jī)交互系統(tǒng)是由用戶通過口語提出查詢請(qǐng)求,系統(tǒng)提供信息服務(wù)。一個(gè)典型的人機(jī)交互系統(tǒng)包括自動(dòng)語音識(shí)別,口語理解,對(duì)話管理和語音合成這四個(gè)組成部分??谡Z理解部分是將語音識(shí)別后的查詢語句轉(zhuǎn)化成相應(yīng)的語義表示。然而,口語理解經(jīng)常會(huì)遇到 這樣的問題,即用戶的查詢語句存在語音識(shí)別帶來的發(fā)音變異、識(shí)別錯(cuò)誤和關(guān)鍵語義概念的不完整,如何在獲得部分關(guān)鍵信息的情況下仍能獲得正確的理解結(jié)果,這就需要用模糊匹配來提高系統(tǒng)的魯棒性。通常的人機(jī)交互服務(wù)都是限定在某些特定領(lǐng)域的,相關(guān)領(lǐng)域的數(shù)據(jù)都會(huì)保存在數(shù)據(jù)庫中。傳統(tǒng)的模糊匹配算法主要是在給定的文本串中找出與模式串匹配的子串的起始位置,多數(shù)是使用編輯距離作為相似性函數(shù),這樣的方法中用戶查詢語句中的每個(gè)漢字都要參與運(yùn)算,如果句子比較長(zhǎng),則運(yùn)算速度將大大降低。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的問題,本發(fā)明實(shí)施例的目的在于提供一種語義模糊匹配方法,所述方法包括對(duì)語音識(shí)別后的文本進(jìn)行特征提取,得到特征數(shù)據(jù);用條件隨機(jī)場(chǎng)CRF模型對(duì)所述特征數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別,找到句子中關(guān)鍵語義類;對(duì)所述關(guān)鍵語義類進(jìn)行精確匹配,在精確匹配失敗時(shí)進(jìn)行模糊匹配,計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進(jìn)行類別標(biāo)注。優(yōu)選地,所述計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個(gè)數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個(gè)數(shù)之和,所得的商越大,相似度越高。優(yōu)選地,所述CRF模型通過以下步驟獲得根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法;對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實(shí)體名詞的類別;對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取,提取出實(shí)體名詞;用CRF對(duì)提取的實(shí)體名詞進(jìn)行訓(xùn)練,得到CRF模型。優(yōu)選地,所述方法還包括對(duì)所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進(jìn)行語義理解,給出
語義表示。優(yōu)選地,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。優(yōu)選地,所述關(guān)鍵詞為詞典詞條。本發(fā)明實(shí)施例利用統(tǒng)計(jì)的方法,即CRF(conditional random field,條件隨機(jī)場(chǎng))進(jìn)行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進(jìn)行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進(jìn)行相似度計(jì)算,用相似度最大的詞典詞條來取代用戶查詢中出錯(cuò)的關(guān)鍵語義類,減少了運(yùn)算量,提高了識(shí)別的速度。
圖1是本發(fā)明實(shí)施例的口語理解系統(tǒng)示意圖;圖2是本發(fā)明實(shí)施例的語義模糊匹配方法的流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)、清楚、完整的說明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。圖1是本發(fā)明實(shí)施例的口語理解系統(tǒng)示意圖。圖1中,語義的匹配和理解系統(tǒng)包括語音識(shí)別系統(tǒng)、語義類標(biāo)注部分、語義理解部分。其中語義類標(biāo)注備份又包括三個(gè)單元特征提取單元、精確匹配單元、模糊匹配單元。其中特征提取單元需要與CRF模型配合工作。 具體地,語義類標(biāo)注部分需要對(duì)語音識(shí)別后的文本進(jìn)行特征提取,然后通過一個(gè)訓(xùn)練好的CRF模型進(jìn)行命名實(shí)體的識(shí)別,找到句子中關(guān)鍵的語義概念,送入精確匹配部分進(jìn)行類別標(biāo)注,如果精確匹配失敗,則進(jìn)入模糊匹配,通過計(jì)算已經(jīng)標(biāo)記出的實(shí)體名詞與詞典中關(guān)鍵詞的相似度,選擇最優(yōu)的詞匯進(jìn)行修正,并進(jìn)行類別標(biāo)注。然后送入語義理解部分,給出這個(gè)句子的語義表示,通過查詢數(shù)據(jù)庫給用戶進(jìn)行反饋。要說明的是,這里的語音可以是人的語音,也可以是自然語音,在此不做特別限制。這里采用鏈狀結(jié)構(gòu)的CRF圖模型,記觀測(cè)串為1=(禮界2,...而),標(biāo)記串(狀態(tài))序列為Y=(yl, y2,…yn),其定義如下P^y I 灰)= 7^exP(Z2XA(U ))
Z(If) /(r k⑴其中fk是特征函數(shù),Xk是對(duì)應(yīng)的特征函數(shù)的權(quán)重,t是標(biāo)記,Z (W)是歸一化因子,使得上述的概率分布在(0,I)之間。CRF的模型參數(shù)估計(jì)通常用L-BFGS算法來完成的。CRF的解碼過程,即為求解未知串標(biāo)注的過程,需要搜索計(jì)算該串上的一個(gè)最大聯(lián)合概率,即Y* = argmaXyP (Y | ff) (2)在線性鏈CRF上,這個(gè)計(jì)算任務(wù)可以用Viterbi算法來完成。根據(jù)領(lǐng)域構(gòu)造CRF的訓(xùn)練數(shù)據(jù),數(shù)據(jù)要盡可能覆蓋各種口語常見的說法,而且要包含本系統(tǒng)中所使用到的各種領(lǐng)域。對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,即標(biāo)注出每個(gè)查詢語句中的實(shí)體名詞的類別。特征提取,為了更好的提取出涉及到的各種實(shí)體名詞(包括人名以及其他名詞),根據(jù)中文人名構(gòu)詞的特點(diǎn),我們建立了關(guān)于中國人名的姓氏用字和名字的常用字字典,用于構(gòu)造特征模板。同時(shí)為了把人名和影視名更加準(zhǔn)確的提取出來,通過大量數(shù)據(jù)統(tǒng)計(jì)出了出現(xiàn)在人名和影視名前后位置的單字和雙字,建立了人名和領(lǐng)域名的左右指界詞詞典,進(jìn)行特征的提取。所述左右指界詞詞典指的是一句話中出現(xiàn)在人名或者領(lǐng)域名左右兩邊的詞匯。比如說我想聽劉德華的歌曲。劉德華是人名,出現(xiàn)在劉德華的左邊界詞是“聽”,右邊界詞是“的”,即為左右指界詞,也可以稱為左右邊界詞。用CRF對(duì)提取了特征的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到一個(gè)CRF模型。要說明的是,條件隨機(jī)場(chǎng)的訓(xùn)練使用的是開源工具CRF++ ;訓(xùn)練的大致步驟包括按照訓(xùn)練文本的格式進(jìn)行特征的提取,因?yàn)獒槍?duì)的是口語,用詞作為研究對(duì)象可能會(huì)引入分詞的錯(cuò)誤,所以選擇單字作為研究對(duì)象進(jìn)行特征提?。贿x擇哪些特征不僅僅取決于用于已經(jīng)提取了特征的訓(xùn)練文本,還取決于工具中模板文件,即除了單字特征,還要用到特征之間的組合特征;訓(xùn)練之后會(huì)得到一個(gè)模型文件;測(cè)試的過程是準(zhǔn)備一個(gè)測(cè)試的文件,同樣需要提取特征,格式必須和訓(xùn)練的文本文件一樣,然后用訓(xùn)練好的模型進(jìn)行測(cè)試,得到對(duì)于每個(gè)字的標(biāo)注結(jié)果。針對(duì)用戶輸入的查詢語句,用上述方法進(jìn)行特征提取并用已經(jīng)訓(xùn)練好的CRF模型進(jìn)行實(shí)體識(shí)別,初步定位了句子中的關(guān)鍵語義類。已經(jīng)定位好的關(guān)鍵語義類可能有錯(cuò)誤,也可能沒有錯(cuò)誤,這時(shí)首先進(jìn)行精確匹配,即判斷CRF識(shí)別的語義類,領(lǐng)域字典中是否存在,如果不存在則進(jìn)行模糊匹配。用Dice相似度對(duì)CRF識(shí)別的語義類與領(lǐng)域字典中的詞條進(jìn)行相似度計(jì)算,Dice相似度計(jì)算公式如下⑶用兩個(gè)詞匯交集的漢字個(gè)數(shù)的兩倍去除以兩個(gè)詞匯長(zhǎng)度的和。尋找相似度最大的詞條對(duì)原句中的錯(cuò)誤進(jìn)行替換,就完成了語義類的模糊匹配。圖2是本發(fā)明實(shí)施例的語義模糊匹配方法的流程示意圖。如圖2所示,所述方法包括步驟200,提取特征數(shù)據(jù);具體為對(duì)語音識(shí)別后的文本進(jìn)行特征提取,得到特征數(shù)據(jù);步驟202,獲取關(guān)鍵語義類;具體為用條件隨機(jī)場(chǎng)CRF模型對(duì)所述特征數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別,找到關(guān)鍵語義類;步驟204,精確匹配,具體為對(duì)所述關(guān)鍵語義類進(jìn)行精確匹配,在精確匹配成功時(shí)對(duì)所述關(guān)鍵語義類進(jìn)行類別標(biāo)注,并進(jìn)入步驟208,語義理解,具體為對(duì)所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進(jìn)行語義理解,給出語義表示。在步驟204中在精確匹配失敗時(shí)進(jìn)入步驟206,進(jìn)行模糊匹配,計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進(jìn)行類別標(biāo)注,隨后再進(jìn)入步驟208。優(yōu)選地,所述計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個(gè)數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個(gè)數(shù)之和,所得的商越大,相似度越高。優(yōu)選地,所述CRF模型通過以下步驟獲得根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法;對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實(shí)體名詞的類別;對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取,提取出實(shí)體名詞;用CRF對(duì)提取的實(shí)體名詞進(jìn)行訓(xùn)練,得到CRF模型。優(yōu)選地,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。優(yōu)選地,所述關(guān)鍵詞為詞典詞條。本發(fā)明實(shí)施例利用統(tǒng)計(jì)的方法,即CRF(conditional random field,條件隨機(jī)場(chǎng))進(jìn)行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進(jìn)行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進(jìn)行相似度計(jì)算,用相似度最大的詞典詞條來取代用戶查詢中出錯(cuò)的關(guān)鍵語義類,減少了運(yùn)算量,提高了識(shí)別的速度。本領(lǐng)域技術(shù)人員應(yīng)該進(jìn)一步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。本領(lǐng)域技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本申請(qǐng)的范圍。結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。以上所述的具體實(shí)施方式
,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式
而已,并不用于限定本申請(qǐng)的保護(hù)范圍,凡在本申請(qǐng)的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種語義模糊匹配方法,其特征在于,所述方法包括 對(duì)語音識(shí)別后的文本進(jìn)行特征提取,得到特征數(shù)據(jù); 用條件隨機(jī)場(chǎng)CRF模型對(duì)所述特征數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別,找到關(guān)鍵語義類; 對(duì)所述關(guān)鍵語義類進(jìn)行精確匹配,在精確匹配失敗時(shí)進(jìn)行模糊匹配,計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進(jìn)行類別標(biāo)注。
2.如權(quán)利要求1所述的語義模糊匹配方法,其特征在于,所述計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,具體包括,用所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的交集的漢字個(gè)數(shù)的兩倍除以所述關(guān)鍵語義類的詞匯與關(guān)鍵詞的所有漢字的個(gè)數(shù)之和,所得的商越大,相似度越高。
3.如權(quán)利要求1所述的語義模糊匹配方法,其特征在于,所述CRF模型通過以下步驟獲得 根據(jù)領(lǐng)域構(gòu)造訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)盡可能覆蓋各種口語常見的說法; 對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,即標(biāo)注出訓(xùn)練數(shù)據(jù)中實(shí)體名詞的類別; 對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取,提取出實(shí)體名詞; 用CRF對(duì)提取的實(shí)體名詞進(jìn)行訓(xùn)練,得到CRF模型。
4.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述方法還包括對(duì)所述經(jīng)過類別標(biāo)注的關(guān)鍵語義類進(jìn)行語義理解,給出語義表示。
5.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述相似度較大的關(guān)鍵詞為相似度最大的關(guān)鍵詞。
6.如權(quán)利要求1-3之一所述的語義模糊匹配方法,其特征在于,所述關(guān)鍵詞為詞典詞條。
全文摘要
本發(fā)明實(shí)施例提供一種語義模糊匹配方法,所述方法包括對(duì)語音識(shí)別后的文本進(jìn)行特征提取,得到特征數(shù)據(jù);用條件隨機(jī)場(chǎng)CRF模型對(duì)所述特征數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別,找到句子中關(guān)鍵語義類;對(duì)所述關(guān)鍵語義類進(jìn)行精確匹配,在精確匹配失敗時(shí)進(jìn)行模糊匹配,計(jì)算所述關(guān)鍵語義類與詞典中關(guān)鍵詞的相似度,選擇相似度較大的關(guān)鍵詞替代所述關(guān)鍵語義類,并進(jìn)行類別標(biāo)注。本發(fā)明實(shí)施例利用統(tǒng)計(jì)的方法,即CRF進(jìn)行序列標(biāo)注,將查詢語句中的關(guān)鍵語義類進(jìn)行初步標(biāo)注和定位,縮小模糊匹配的范圍,然后再依照領(lǐng)域詞典,進(jìn)行相似度計(jì)算,用相似度最大的詞典詞條來取代用戶查詢中出錯(cuò)的關(guān)鍵語義類,減少了運(yùn)算量,提高了識(shí)別的速度。
文檔編號(hào)G06F17/30GK103020230SQ201210543839
公開日2013年4月3日 申請(qǐng)日期2012年12月14日 優(yōu)先權(quán)日2012年12月14日
發(fā)明者張艷, 李艷玲, 徐為群, 顏永紅 申請(qǐng)人:中國科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司