一種語音識別匹配的方法和設備的制作方法
【專利摘要】本發明公開了一種語音識別匹配的方法和設備,其主要內容包括:在確定語音信息轉化得到的拼音形式的字符信息后,根據模糊匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,對轉化得到的字符信息根據拼音進行模糊匹配,將現有技術中采用單一的完全匹配策略擴展至對轉化得到的拼音形式的字符信息根據拼音進行模糊匹配,有效地增加了對轉化得到的字符信息的語音識別率,進而提高了語音識別技術的效率。
【專利說明】一種語音識別匹配的方法和設備
【技術領域】
[0001]本發明涉及計算機科學中人工智能【技術領域】,尤其涉及一種語音識別匹配的方法和設備。
【背景技術】
[0002]語音不僅是人類之間信息交流最自然、最有效、最方便的工具,而且也成為人與機器之間進行通信的重要工具。
[0003]隨著科學技術的不斷發展,人工智能作為計算機科學的分支,致力于研發一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等,其中,語音識別作為一個分支,以語音為研究對象,其目標是將人類的語音中的詞匯內容轉換為計算機可執行的輸入符號進而實現語音識別。
[0004]以移動終端根據用戶的語音指令,查找移動終端中存儲的聯系人電話號碼信息為例,說明現有技術中語音識別技術的應用。
[0005]第一步:接收用戶發出的包含聯系人姓名的語音指令,并根據語音指令轉化后的語音信號確定該語音指令對應的拼音信息。
[0006]第二步:根據拼音信息的完全匹配算法,從存儲的聯系人電話號碼中確定該拼音信息對應的聯系人姓名。
[0007]所述完全匹配算法是指將接收到的拼音信息與本地存儲的拼音信息進行比較,確定接收到的拼音信息與本地存儲的拼音信息是否完全一致。
[0008]具體地,利用拼音信息的完全匹配算法,將接收到的拼音信息與本地存儲的拼音信息進行比較,當比較結果為接收到的拼音信息與本地存儲的拼音信息完全一致時,根據本地建立的拼音信息與聯系人姓名之間的對應關系,將確定與接收到的拼音信息完全一致的本地存儲的拼音信息對應的聯系人姓名。
[0009]第三步:根據本地存儲的聯系人姓名和電話號碼之間的對應關系,得到接收到的語音指令對應的聯系人的電話號碼信息。
[0010]由于中文自身的特殊性以及不同的地方方言的多樣性,不同地方的用戶針對同一中文詞匯發出的語音指令也存在差異,在語音識別服務器將語音指令轉化為拼音信息過程中,并不能考慮到發出該語音指令的用戶的口音特性,簡單的依據本地存儲的大詞匯表進行語音到拼音的轉化,使得轉化后的拼音相對于接收到的語音指令存在誤差,而后再簡單的根據拼音信息之間的對應關系確定聯系人姓名,將使得語音識別率大大降低。
[0011 ] 由此可見,在現有技術中,語音識別技術中存在語音識別率較低的問題。
【發明內容】
[0012]本發明實施例提供了一種語音識別匹配的方法和設備,用于解決目前語音識別技術中存在的語音識別率較低的問題。
[0013]一種語音識別匹配的方法,所述方法包括:[0014]確定語音信息轉化得到的拼音形式的字符信息;
[0015]根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
[0016]一種語音識別匹配設備,所述設備包括:
[0017]確定模塊,用于確定語音信息轉化得到的拼音形式的字符信息;
[0018]模糊匹配模塊,用于根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
[0019]本發明有益效果如下:
[0020]本發明實施例在確定語音信息轉化得到的拼音形式的字符信息后,根據模糊匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,對轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息,將現有技術中采用單一的完全匹配策略擴展至對轉化得到的拼音形式的字符信息根據拼音進行模糊匹配,有效地增加了對轉化得到的字符信息的語音識別率,進而提高了語音識別技術的效率。
【專利附圖】
【附圖說明】
[0021]圖1為本發明實施例一的一種語音識別匹配的方法的流程圖;
[0022]圖2為模糊完全匹配策略的流程圖;
[0023]圖3為部分模糊匹配策略的流程示意圖;
[0024]圖4為本發明實施例二的一種語音識別匹配的方法的流程圖;
[0025]圖5為本發明實施例三的一種語音識別匹配設備的結構示意圖。
【具體實施方式】
[0026]為了實現本發明的目的,本發明實施例提供了一種語音識別匹配的方法和設備,確定語音信息轉化得到的拼音形式的字符信息,并根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
[0027]與現有技術相比,在確定語音信息轉化得到的拼音形式的字符信息后,根據模糊匹配策略,從本地數據庫中存儲的以拼音和漢字形式的字符信息中,對轉化得到的字符信息根據拼音進行模糊匹配,將現有技術中采用單一的完全匹配策略擴展至對轉化得到的拼音形式的字符信息根據拼音進行模糊匹配,有效地增加了對轉化得到的字符信息的語音識別率,進而提高了語音識別技術的效率。
[0028]下面結合說明書附圖對本發明各實施例進行詳細描述。
[0029]實施例一:
[0030]如圖1所示,為本發明實施例一的一種語音識別匹配的方法的流程圖。該方法包括:
[0031]步驟101:確定語音信息轉化得到的拼音形式的字符信息。[0032]在步驟101中,用戶向可識別語音信息的終端發出語音信息,終端在接收到該語音信息時,可以自身對該語音信息進行解析,確定該語音信息轉化得到的拼音形式的字符信息;還可以將接收到的語音信息上傳至語音識別服務器,由語音識別服務器對接收到的該語音信息進行解析,并將確定的語音信息轉化得到的拼音形式的字符信息發送給終端。
[0033]所述語音信息中包含了聯系人信息和/或當前待執行操作信息,例如:一條語音信息為:給張三打電話,其中,張三屬于聯系人信息;“打電話”屬于當前待執行操作信息。再例如一條語音信息為:去中關村廣場,其中,中關村屬于類似聯系人信息;“去”屬于當前執行操作信息。
[0034]需要說明的是,所述語音信息可以是語音指令形式的信息,這里不做具體限定。
[0035]具體地,終端和/或語音識別服務器對接收到的語音信息進行解析,初步識別該語音信息,將其中表示聯系人信息的語音信息轉化為拼音形式的字符信息。
[0036]由于用戶之間發音存在差別,以及漢語中一些文字在不同地區發音存在差異,因此,語音識別服務器對接收到的語音信息進行解析時,只能根據預先設定的聲音模型對接收到的語音信息進行解析,存在將語音信息轉化得到的拼音形式的字符信息與用戶發出的語音信息不完全一致的情況,可能還存在采集的語音信息是不完整的,因此,在這里將由語音信息轉化得到的拼音形式的字符信息看作是模糊的字符信息,即不確定的字符信息。
[0037]步驟102:根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
[0038]在步驟102中,根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配的方式有兩種:一種方式是模糊完全匹配;另一種方式是部分模糊匹配。
[0039]第一種方式:模糊完全匹配,如圖2所示,為模糊完全匹配策略的流程圖,具體包括:
[0040]步驟11:根據確定的字符信息的字段數量,從本地數據庫中查找出相同字段數量的拼音形式的字符信息。
[0041]所述字段是指拼音形式的字符信息中能唯一確定一個漢字形式的字符信息,例如:“dong”確定一個漢字“東”或者發相同音的其他漢字,此時,“dong”被看作是拼音形式的字符信息中的一個字段。
[0042]所述字段數量是指確定的字符信息中包含字的個數,例如:“dong xi nan bei”是確定的字符信息,其中,“dong”確定一個漢字;“xi”確定一個漢字;“nan”確定一個漢字;“bei”確定一個漢字;因此,該確定的字符信息中的字段數量為4。
[0043]具體地,根據確定的字符信息的字段數量,從本地數據庫中查找具有相同字段數量的拼音形式的字符信息。例如,查找具有4個字段數量的拼音形式的字符信息。
[0044]步驟12:將確定的字符信息分別與查找出的字符信息進行相似度運算,從查找出的字符信息中,確定相似度滿足第一閾值條件的字符信息。
[0045]其中,將確定的字符信息分別與查找出的字符信息進行相似度運算的具體方式為:
[0046]第一步:將確定的字符信息中的每個字段與一個查找出的字符信息中的相應字段進行以下操作,直至獲得確定的字符信息中每個字段與查找出的字符信息中的相應字段的相似度:
[0047]首先:判斷確定的字符信息中的一個字段是否與查找出的字符信息中的相應字段是否在預設的拼音對列表中。
[0048]所述預設的拼音對列表是指:中文拼音依據聲韻母區分準則差別較大但發音特性相近或依據聲韻母區分準則差別較小但發音差別很大的例外情況。例如:聲母1、r通常認為比較相近,但是當它們帶上韻母i時,ri和Ii的發音差別就很大,因此{ri,li}屬于一組拼音對,存儲在拼音對列表中,其相似度較小,對應一個相似度值;另外,hui和fei其無論聲母還是韻母都不相同,但發音卻很相近,因此{hui,fei}也屬于一組拼音對,存儲在拼音對列表中,其相似度較大,對應一個相似度值。
[0049]其次:若判斷結果為是,則根據拼音對列表中為預設的拼音對設定的相似度,將該設定的相似度作為該字段與查找出的字符信息中的相應字段之間的相似度;
[0050]若判斷結果為否,則分離該字段的聲母和韻母,分別確定該字段與查找出的字符信息中的字段的聲母相似度和韻母相似度,并得到該字段與查找出的字符信息中的相應字段之間的相似度。
[0051]其中,所述相應字段是指確定的字符信息中的一個字段在確定的字符信息中的位置與一個查找出的字符信息中的一個字段在查找出的字符信息中的位置一一對應,例如:“dongxi ”和“tongshi ”,其中,“dong”和“tong”是字符信息中互為相應的字段,“dong”和“shi”不是字符信息中互為相應的字段。
[0052]所述為預設的拼音對列表設定的相似度是指根據實踐中無法依據聲母韻母區分準則只能依據讀音確定某兩個發音接近或相遠的拼音之間的相似度,通過量化的數據表示,以表格的形式存儲在本地,也可以通過概率的方式確定相似度,即確定某兩個發音接近的拼音出錯的概率。
[0053]例如:確定的字符信息中的一個字段為“hui”,查找出的字符信息中的相應字段為“fei”,根據本地存儲的拼音對列表中為預設的拼音對設定的相似度表,查找并確定“hui”與“fei”之間的相似度。
[0054]較優地,在分離該字段的聲母和韻母之前,對確定的字符信息進行預處理,將其中包含的無法識別的拼音轉化成可識別的拼音。例如:電腦拼音中經常用u和V指代漢語拼音中的U,如Iv (呂),yuan (元),為了處理方便,統一將U對應成V,特殊地,在聲母分別為j、q、X和y時,韻母中包含U時,將u轉換為V。
[0055]分別分離確定的字符信息中每一個字段的聲母和韻母與查找的字符信息中相應字段的聲母和韻母,并根據本地存儲的聲母相似度表和韻母相似度表,分別確定該字段與查找出的字符信息中的字段的聲母相似度和韻母相似度,并將確定的聲母相似度和韻母相似度進行綜合評估,得到該字段與查找出的字符信息中的相應字段之間的相似度。
[0056]所述綜合評估的方式為可以進行加權求和得到綜合相似度,也可以根據確定的聲母相似度與韻母相似度之間的大小關系,確定綜合評估結果:當確定的聲母相似度與韻母相似度都屬于相似度較高或至少有一項相似度較高時,則將聲母相似度與韻母相似度進行加法運算得到綜合評估結果;當確定的聲母相似度與韻母相似度都較低時,則將聲母相似度與韻母相似度進行加法運算同時加上一個加權因子得到綜合評估結果。[0057]假如相似度的取值范圍是0?1時,大于0.6的為相似度較高,小于0.4為相似度較低。
[0058]第二步:在獲得確定的字符信息中每個字段與查找出的字符信息中的相應字段的相似度后,根據各字段間的相似度,確定字符信息間的相似度。
[0059]具體地,在獲得確定的字符信息中每個字段與一個查找出的字符信息中的相應字符的相似度后,將得到的各字段間的相似度進行相似度的綜合計算,得到確定的字符信息與一個查找出的字符信息之間的相似度。
[0060]第三步:從查找出的字符信息中,確定相似度滿足第一閾值條件的字符信息。
[0061]具體地,所述第一閾值條件是指相似度達到設定的閾值。其中,設定的閾值可根據實踐采集的數據確定,也可以根據語音模型的概率值確定,具體不做限定。
[0062]根據上述步驟得到的確定的字符信息與至少一個查找出的字符信息之間的相似度與第一閾值條件進行比較,當得到的相似度滿足第一閾值條件時,確定相似度滿足第一閾值條件的查找出的字符信息;當得到的相似度都不滿足第一閾值條件時,可以繼續第二種部分模糊匹配或者返回查找失敗結果。
[0063]步驟13:將所述相似度滿足第一閾值條件的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
[0064]第二種方式:部分模糊匹配,如圖3所示,為部分模糊匹配策略的流程示意圖,具體包括:
[0065]步驟21:根據確定的字符信息中的字段數量,從本地數據庫中查找出不等于(大于或小于)所述字段數量的拼音形式的字符信息,當查找出的字符信息的字段數量大于確定的字符信息的字段數量時,執行步驟22;當查找出的字符信息的字段數量小于確定的字符信息的字段數量時,執行步驟24。
[0066]在本步中,若查找的字符信息的字段數量大于確定的字符信息中的字段數量,SP假設確定的字符信息中的字段數量為4,那么從本地數據庫中查找字段數量大于4或者小于4的拼音形式的字符信息。
[0067]步驟22:當查找出的字符信息的字段數量大于確定的字符信息的字段數量時,分別對查找出的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同。
[0068]具體地,針對查找出的每一個大于所述字段數量的拼音形式的字符信息,執行以下操作:
[0069]首先,將每一個查找出的字符信息進行拆分,其中,拆分的原則是同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同。
[0070]例如:確定的字符信息為“yong tao”,查找出的一個字符信息為“zhang yongtao”,將對查找出該字符信息進行拆分,拆分結果為:“zhangyong”、“zhangtao”和“ yongtao ”三個分詞。
[0071]其次,針對查找出的字符信息拆分后的分詞,確定查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度。
[0072]仍以確定的字符信息為“yong tao”,查找出的一個字符信息為“zhang yongtao”,將對查找出該字符信息進行拆分,拆分結果為:“zhangyong”、“zhangtao”和“yongtao”三個分詞為例,此時,
[0073]將“zhangyong”與“yong tao”進行相似度運算,確定“zhangyong”的相似度Al ;
[0074]將“zhangtao”與“yong tao”進行相似度運算,確定“zhangtao”的相似度A2 ;
[0075]將“yongtao”與“yong tao”進行相似度運算,確定“yongtao”的相似度A3。
[0076]由于拆分后得到的每一個分詞只是查找到的字符信息的一部分,因此,將拆分后的每一個分詞與確定的字符信息進行相似度運算,得到拆分后每一個分詞的相似度,從中選出相似度最高的一個分詞的相似度作為查找出的字符信息與確定的字符信息的相似度。
[0077]為了提高識別的精度,還可以依據查找出的字符信息的字段數量與確定的字符信息的字段數量之間差的數值大小選定一個加權系數,則查找出的字符信息與確定的字符信息的相似度通過拆分后每一個分詞的相似度的進行加權運算得到。
[0078]所述加權系數確定的規則為:若查找出的字符信息的字段數量與確定的字符信息的字段數量之間差的數值越小,加權系數越小,若查找出的字符信息的字段數量與確定的字符信息的字段數量之間差的數值越大,則加權系數越大。
[0079]假設“zhangyong”、“zhangtao”和“yongtao”三個分詞與確定的字符信息的相似度為A1、A2和A3,則“zhangyongtao”與確定的字符信息的最終相似度為min{Al,A2,A3}*加權系數。
[0080]步驟23:若查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
[0081]具體地,根據確定查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度,得到該查找出的字符信息與確定的字符信息的相似度,將得到的相似度與第二閾值條件進行比較,當得到的相似度滿足第二閾值條件時,確定相似度滿足第二閾值條件的查找出的字符信息,并將該查找出的字符信息轉換為漢字形式,將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息;當得到的相似度都不滿足第二閾值條件時,返回查找失敗結果,指示重新輸入語音信息。
[0082]需要說明的是,所述第二閾值條件是指相似度達到設定的閾值。其中,設定的閾值可根據實踐采集的數據確定,也可以根據語音模型的概率值確定,具體不做限定。第一閾值條件與第二閾值條件中的“第一”和“第二”沒有什么特別意義,只表示這是兩個不同的閾值。
[0083]較優地,根據確定查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度,判斷查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度是否都大于設定的門限值,若是,則確定大于設定的門限值的查找出的字符信息,并將該查找出的字符信息轉換為漢字形式,將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息;否則,返回查找失敗結果,指示重新輸入語音信息。
[0084]所述設定的門限值是指相似度達到設定的數值。其中,設定的門限值可根據實踐采集的數據確定,也可以根據語音模型的概率值確定,具體不做限定。
[0085]假設根據確定查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度,得到該查找出的字符信息與確定的字符信息的相似度,其中,存在兩個查找出的字符信息與確定的字符信息的相似度相同,此時,將查找出的字符信息中拆分得到的分詞個數較少的字符信息優先進行比較。
[0086]步驟24:當查找出的字符信息字段數量小于確定的字符信息字段數量時,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與查找出的字符信息中的字段數量相同。
[0087]本步驟24的【具體實施方式】與步驟22的相同,這里不再做具體描述。
[0088]步驟25:若確定的字符信息拆分后的分詞與查找出的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
[0089]本步驟25的【具體實施方式】與步驟23的相同,這里不再做具體描述。
[0090]需要說明的是,模糊完全匹配方式和部分模糊匹配方式可以是遞進的關系,在通過模糊完全匹配方式沒有確定出相匹配的字符信息時,繼續通過部分模糊匹配方式進行字符信息匹配操作;模糊完全匹配方式和部分模糊匹配方式還可以是并列的關系,在為某語音信息轉化得到的拼音形式的字符信息確定相應的漢字形式的字符信息時,選擇其中一種方式進行匹配操作。
[0091]通過實施例一的方案,在確定語音信息轉化得到的拼音形式的字符信息后,采用了模糊完全匹配和/或部分模糊匹配的方式,從本地數據庫中查找與其匹配的漢字形式的字符信息;在利用模糊完全匹配方式進行模糊匹配時,不僅考慮到聲母和韻母的相似度,還考慮到中文語音中一些特殊字母在日常生活中存在的發音的相似性,通過這樣的模糊完全匹配方式進行語音識別,提高了語音識別的識別率,并且增強了由拼音形式的字符信息確定漢字形式的字符信息的準確性。
[0092]實施例二:
[0093]如圖4所示,為本發明實施例二的一種語音識別匹配的方法的流程圖。本實施例二是實施例一中各步驟的詳細描述,該方法具體包括:
[0094]步驟201:確定語音信息轉化得到的拼音形式的字符信息。
[0095]步驟202:判斷是否能夠對確定的字符信息進行完全匹配操作,若是,則返回確定的字符信息對應的漢字形式的字符信息;否則,執行步驟203。
[0096]在本步驟202中,將本地數據庫中包含的所有的以拼音和漢字形式的字符信息,與轉化得到的字符信息進行比較,確定本地數據庫中是否存在字符信息與轉化得到的字符信息一一對應,當存在完全匹配的字符信息時,將滿足一一對應關系的本地數據庫中的拼音形式的字符信息對應的漢字形式的字符信息作為確定的字符信息對應的漢字形式的字符信息,返回給用戶進行查看。
[0097]步驟203:判斷是否能夠對確定的字符信息進行部分完全匹配操作,若是,則返回確定的字符信息對應的漢字形式的字符信息,若否,執行步驟204。
[0098]其中,所述部分完全匹配操作包括:
[0099]根據確定的字符信息的字段數量,從本地數據庫中查找出與所述字段數量不同的拼音形式的字符信息;
[0100]若查找出的字符信息字段數量大于確定的字符信息字段數量,則對查找出的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同,并確定查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度;
[0101]若查找出的字符信息字段數量小于確定的字符信息字段數量,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與查找出的字符信息中的字段數量相同,并確定查找出的字符信息與確定的字符信息拆分后的分詞之間的相似度。
[0102]根據確定查找出的字符信息拆分后的每一個分詞與確定的字符信息之間的相似度或者查找出的字符信息與確定的字符信息拆分后的分詞之間的相似度,得到該查找出的字符信息與確定的字符信息的相似度,將得到的相似度與第三閾值條件進行比較,當得到的相似度滿足第三閾值條件時,確定相似度滿足第三閾值條件的查找出的字符信息,并將該查找出的字符信息轉換為漢字形式,將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息;當得到的相似度都不滿足第三閾值條件時,執行步驟204。
[0103]需要說明的是,所述第三閾值條件是指相似度達到設定的閾值。其中,設定的閾值可根據實踐采集的數據確定,也可以根據語音模型的概率值確定,具體不做限定。第一閾值條件、第二閾值條件和第二閾值條件中的“第一”、“第二”和“第三”沒有什么特別意義,只表示這是三個不同的閾值。
[0104]步驟204:判斷是否能夠對確定的字符信息進行模糊完全匹配操作,若是,則返回確定的字符信息對應的漢字形式的字符信息,若否,執行步驟205。
[0105]其中,模糊完全匹配操作的具體實現方式見實施例一圖2對應的文字部分,這里不再做具體描述。
[0106]需要說明的是,在本實施方案中,除了上述實施順序外,步驟203與步驟204還可以是同時執行的,若步驟203和204同時執行,則返回滿足第二閾值條件字符信息對應的漢字形式的字符信息和滿足第三閾值條件的字符信息對應的漢字形式的字符信息。
[0107]步驟205:判斷是否能夠對確定的字符信息進行部分模糊匹配操作,若是,則返回確定的字符信息對應的漢字形式的字符信息,若否,返回匹配失敗消息,指示重新發送語音信息。
[0108]其中,部分模糊匹配操作的具體實現方式見實施例一圖3對應的文字部分,這里不再做具體描述。
[0109]實施例三:
[0110]如圖5所示,為本發明實施例三的一種語音識別匹配設備的結構示意圖。所述語音識別匹配設備包括:確定模塊31和模糊匹配模塊32,其中:
[0111]確定模塊31,用于確定語音信息轉化得到的拼音形式的字符信息;
[0112]模糊匹配模塊32,用于根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
[0113]所述模糊匹配模塊32,具體包括:第一字符信息查找單元41、相似度計算單元42和第一匹配結果確定單元43,其中:
[0114]第一字符信息查找單元41,用于根據確定的字符信息中的字段數量,從本地數據庫中查找出相同字段數量的拼音形式的字符信息;
[0115]相似度計算單元42,用于將確定的字符信息分別與查找出的字符信息進行相似度運算,從查找出的字符信息中,確定相似度滿足第一閾值條件的字符信息;
[0116]第一匹配結果確定單元43,用于將所述相似度滿足第一閾值條件的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
[0117]所述相似度計算單元42,具體用于將確定的字符信息中的每個字段與一個查找出的字符信息中的字段進行以下操作,直至獲得確定的字符信息中每個字段與查找出的字符信息中的字段的相似度:
[0118]判斷確定的字符信息中的一個字段與查找出的字符信息中的相應字段是否在預設的拼音對列表中;
[0119]若是,則根據拼音對列表為預設的拼音對設定的相似度,將該設定的相似度作為該字段與查找出的字符信息中的相應字段之間的相似度;
[0120]若否,則分離該字段的聲母和韻母,分別確定該字段與查找出的字符信息中的字段的聲母相似度和韻母相似度,并得到該字段與查找出的字符信息中的相應字段之間的相似度;
[0121]在獲得確定的字符信息中每個字段與查找出的字符信息中的字段的相似度后,根據各字段間的相似度,確定字符信息間的相似度。
[0122]所述模糊匹配模塊32,還包括:第二字符信息查找單元44、拆分單元45和第二匹配結果確定單元46,其中:
[0123]第二字符信息查找單元44,用于根據確定的字符信息中的字段數量,從本地數據庫中查找出與所述字段數量不同的拼音形式的字符信息;
[0124]拆分單元45,用于當查找出的字符信息字段數量大于確定的字符信息字段數量時,則對查找出的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同,以及當查找出的字符信息字段數量小于確定的字符信息字段數量,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與查找出的字符信息中的字段數量相同;
[0125]第二匹配結果確定單元46,用于當查找出的字符信息字段數量大于確定的字符信息字段數量時,若查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息,以及當查找出的字符信息字段數量小于確定的字符信息字段數量時,若確定的字符信息拆分后的分詞與查找中的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
[0126]所述設備還包括:第一判斷模塊33和第二判斷模塊34,其中:
[0127]第一判斷模塊33,用于在為轉化得到的字符信息進行模糊匹配之前,判斷是否能夠對確定的字符信息進行完全匹配操作;
[0128]第二判斷模塊34,用于在第一判斷模塊的判斷結果為否時,進一步判斷是否能夠對確定的字符信息進行部分完全匹配操作,若否,則觸發模糊匹配模塊12。
[0129]較優地,第二判斷模塊34,用于在第一判斷模塊的判斷結果為否時,觸發模糊匹配模塊32,同時,執行對確定的字符信息進行部分完全匹配操作。[0130]顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。
【權利要求】
1.一種語音識別匹配的方法,其特征在于,所述方法包括: 確定語音信息轉化得到的拼音形式的字符信息; 根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
2.如權利要求1所述的語音識別匹配的方法,其特征在于,為轉化得到的字符信息進行模糊匹配,具體包括: 根據確定的字符信息的字段數量,從本地數據庫中查找出相同字段數量的拼音形式的字符信息; 將確定的字符信息分別與查找出的字符信息進行相似度運算,從查找出的字符信息中,確定相似度滿足第一閾值條件的字符信息; 將所述相似度滿足第一閾值條件的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
3.如權利要求2所述的語音識別匹配的方法,其特征在于,將確定的拼音形式的字符信息分別與查找出的字符信息進行相似度運算,具體包括: 將確定的字符信息中的每個字段與一個查找出的字符信息中的相應字段進行以下操作,直至獲得確定的字符信息中每個字段與查找出的字符信息中的相應字段的相似度: 判斷確定的字符信息 中的一個字段與查找出的字符信息中的相應字段是否在預設的拼音對列表中; 若是,則根據拼音對列表中為預設的拼音對設定的相似度,將該設定的相似度作為該字段與查找出的字符信息中的相應字段之間的相似度; 若否,則分離該字段的聲母和韻母,分別確定該字段與查找出的字符信息中的字段的聲母相似度和韻母相似度,并得到該字段與查找出的字符信息中的相應字段之間的相似度; 在獲得確定的字符信息中每個字段與查找出的字符信息中的相應字段的相似度后,根據各字段間的相似度,確定字符信息間的相似度。
4.如權利要求1或2所述的語音識別匹配的方法,其特征在于,為轉化得到的字符信息進行模糊匹配,具體還包括: 根據確定的字符信息的字段數量,從本地數據庫中查找出與所述字段數量不同的拼音形式的字符信息; 當查找出的字符信息的字段數量大于確定的字符信息的字段數量時,則對查找出的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同,若查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息; 當查找出的字符信息字段數量小于確定的字符信息字段數量時,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與查找出的字符信息中的字段數量相同,若確定的字符信息拆分后的分詞與查找出的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
5.如權利要求1所述的語音識別匹配的方法,其特征在于,為轉化得到的字符信息進行模糊匹配之前,所述方法還包括: 判斷是否能夠對確定的字符信息進行完全匹配操作; 若否,則進一步判斷是否能夠對確定的字符信息進行部分完全匹配操作,若否,則執行對確定的字符信息進行模糊匹配操作。
6.如權利要求5所述的語音識別匹配的方法,其特征在于,所述部分完全匹配操作包括: 根據確定的字符信息的字段數量,從本地數據庫中查找出與所述字段數量不同的拼音形式的字符信息; 若查找出的字符信息字段數量大于確定的字符信息字段數量,則對查找出的字符信息進行拆分,其中, 同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同,并確定查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度; 若查找出的字符信息字段數量小于確定的字符信息字段數量,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與查找出的字符信息中的字段數量相同,并確定查找出的字符信息與確定的字符信息拆分后的分詞之間的相似度。
7.一種語音識別匹配設備,其特征在于,所述設備包括: 確定模塊,用于確定語音信息轉化得到的拼音形式的字符信息; 模糊匹配模塊,用于根據模糊拼音匹配策略,從本地數據庫中以拼音和漢字形式存儲的字符信息中,為轉化得到的字符信息根據拼音進行模糊匹配,得到本地數據庫中與轉化后的字符信息匹配的漢字形式的字符信息。
8.如權利要求7所述的語音識別匹配設備,其特征在于,所述模糊匹配模塊,具體包括: 第一字符信息查找單元,用于根據確定的字符信息中的字段數量,從本地數據庫中查找出相同字段數量的拼音形式的字符信息; 相似度計算單元,用于將確定的字符信息分別與查找出的字符信息進行相似度運算,從查找出的字符信息中,確定相似度滿足第一閾值條件的字符信息; 第一匹配結果確定單元,用于將所述相似度滿足第一閾值條件的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
9.如權利要求8所述的語音識別匹配設備,其特征在于, 所述相似度計算單元,具體用于將確定的字符信息中的每個字段與一個查找出的字符信息中的相應字段進行以下操作,直至獲得確定的字符信息中每個字段與查找出的字符信息中的字段的相似度: 判斷確定的字符信息中的一個字段與查找出的字符信息中的相應字段是否在預設的拼音對列表中; 若是,則根據拼音對列表為預設的拼音對設定的相似度,將該設定的相似度作為該字段與查找出的字符信息中的相應字段之間的相似度;若否,則分離該字段的聲母和韻母,分別確定該字段與查找出的字符信息中的字段的聲母相似度和韻母相似度,并得到該字段與查找出的字符信息中的相應字段之間的相似度; 在獲得確定的字符信息中每個字段與查找出的字符信息中的字段的相似度后,根據各字段間的相似度,確定字符信息間的相似度。
10.如權利要求7或8所述的語音識別匹配設備,其特征在于,所述模糊匹配模塊,還包括: 第二字符信息查找單元,用于根據確定的字符信息中的字段數量,從本地數據庫中查找出與所述字段數量不同的拼音形式的字符信息; 拆分單元,用于當查找出的字符信息字段數量大于確定的字符信息字段數量時,則對查找出的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同,且分詞中的字段數量與確定的字符信息中的字段數量相同,以及當查找出的字符信息字段數量小于確定的字符信息字段數量,則對確定的字符信息進行拆分,其中,同一字符信息拆分后的每個分詞內容不相同 ,且分詞中的字段數量與查找出的字符信息中的字段數量相同; 第二匹配結果確定單元,用于當查找出的字符信息字段數量大于確定的字符信息字段數量時,若查找出的字符信息拆分后的分詞與確定的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息,以及當查找出的字符信息字段數量小于確定的字符信息字段數量時,若確定的字符信息拆分后的分詞與查找中的字符信息之間的相似度滿足第二閾值條件,則將該查找出的字符信息轉換為漢字形式,并將該漢字形式的字符信息作為所述匹配的漢字形式的字符信息。
11.如權利要求7所述的語音識別匹配設備,其特征在于,所述設備還包括:第一判斷模塊和第二判斷模塊,其中: 第一判斷模塊,用于在為轉化得到的字符信息進行模糊匹配之前,判斷是否能夠對確定的字符信息進行完全匹配操作; 第二判斷模塊,用于在第一判斷模塊的判斷結果為否時,判斷是否能夠對確定的字符信息進行部分完全匹配操作,若否,則觸發模糊匹配模塊。
【文檔編號】G10L15/08GK103456297SQ201210171583
【公開日】2013年12月18日 申請日期:2012年5月29日 優先權日:2012年5月29日
【發明者】翁瑋文, 黃曉慶, 劉琨, 焦偉 申請人:中國移動通信集團公司