遠講語音識別方法及裝置的制造方法
【專利摘要】本發明實施例提供一種遠講語音識別方法及裝置。獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。實現了高正確率的遠講語音識別。
【專利說明】
遠講語音識別方法及裝置
技術領域
[0001]本發明實施例涉及語音識別技術領域,尤其涉及一種遠講語音識別方法及裝置。
【背景技術】
[0002]近些年來,語音識別技術取得了顯著進步,并且越來越多的從實驗室走向市場,走進人們的生活。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
[0003]語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。與機器進行語音交流,讓機器明白人們的說話目的,這對于生活在機械化時代的我們而言,能夠大幅提升生活質量。
[0004]目前,市場上出現了許多智能的能夠通過語音進行控制的電視。一種方式是在智能手機上安裝APP,然后將指令發送到特定的遙控器,遙控器再將指令轉換成紅外遙控信號,這種方式可以實現對普通電視的遙控。還有一種方式是在遙控器內置一個收音的設備,它可以收錄用戶發出的語音命令,然后將用戶的語音命令發送至電視進行語義解析,然后通過語義解析的結果控制電視機的各種服務。
[0005]然而,對于在智能手機上安裝APP對電視進行遙控的方法,其步驟繁瑣,尤其對于不會操控智能手機的老人和孩子而言,這種方式并沒有帶來明顯的優勢;對于在遙控器內置一個收音設備對電視進行遙控的方法,就生活體驗而言,很多電視用戶都是遙控器隨手放置,對于有兒童的家庭更是如此,小孩子也許惡作劇藏起遙控器導致遙控器,從而導致經常找不到遙控器去了哪里。對于行動不便和健忘的老人而言,通過遙控器控制電視更加顯得不方便。
[0006]若是不使用遙控器,將收音設備內嵌在電視內部采集用戶發出的語音命令,則由于聲波信號在室內遇到墻壁易發生反射造成混響,且周圍環境難免會有噪聲,導致遠距離講話語音識別的正確率低,用戶體驗不佳。
[0007]綜上,一種新的語音識別的方法及裝置亟待提出。
【發明內容】
[0008]本發明實施例提供一種遠講語音識別方法及裝置,用以解決現有技術中遠講語音識別易受環境影響而識別率低缺陷,提高了遠講語音識別的正確率。
[0009]本發明實施例提供一種遠講語音識別方法,包括:
[0010]獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;
[0011]根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0012]檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0013]調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0014]本發明實施例提供一種遠講語音識別裝置,包括:
[0015]信號獲取模塊,用于獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;
[0016]訓練模塊,用于根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0017]映射模塊,用于檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0018]識別模塊,用于調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0019]本發明實施例提供的遠講語音識別方法及裝置,根據預先訓練得到的近講語音模型對用戶的遠講輸入進行識別得到初步的識別結果,再根據初步的識別結果計算得到當前環境下遠講輸入與近講輸入的環境映射關系,改變了現有技術中進行遠講語音識別時,聲波在環境中進行反射以及環境噪聲引起的語音識別正確率低的問題,實現遠講語音的高識別率。
【附圖說明】
[0020]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0021]圖1為本申請實施例一的技術流程圖;
[0022]圖2-1為本申請實施例二的技術流程圖;
[0023]圖2-2為本申請實施例二的另一技術流程圖;
[0024]圖3為本申請實施例三的裝置結構示意圖。
【具體實施方式】
[0025]為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0026]圖1是本申請實施例一的技術流程圖,結合圖1,本申請一種遠講語音識別方法,可由如下步驟實現:
[0027]步驟S110:獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;
[0028]步驟S120:根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0029]步驟S130:檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0030]步驟S140:調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0031]本申請實施例的遠講語音識別方法,其對應的遠講語音識別設備可以內置于不依托于遙控器的電視、車載設備等,用于實現遠距離語音輸入信號的識別。以下部分,將以電視進行舉例,但是應當理解,本申請實施例的技術方案的應用并不僅限于此。
[0032]具體的,在步驟SllO中,用戶直接對著電視進行語音命令的發送,例如:我想看羋月傳。但是,用戶和電視之間存在一定的距離,聲波在傳輸的過程中可能會有一定程度上的衰減;另外,受限于電視所處的環境,例如,用戶家里的客廳,有墻壁以及各種家具對聲波有較強的反射,從而造成到達電視的聲音混響和噪聲比較大。因此,對于用戶的語音指令“我想看羋月傳”,“我想看”三個字在漢語習慣中出現較多,因此即使在混響和噪聲大的情境下語音識別率也比較高,但是“羋月傳”三個字較為生僻,可能存在識別困難。
[0033]因為語音信號是準穩態信號,在處理時常把信號分幀,每幀長度約20ms-30ms,在這一區間內把語音信號看作為穩態信號。只有穩態的信息才能進行信號處理,所以要先分幀。本申請實施例中,可采用語音分幀的函數將語音信號分幀,例enframe等。
[0034]本申請實施例中,所述近講語音模型是預先通過采集一定數量的近講語音信號進行訓練的,所述近講語音信號,即近距離語音輸入信號,其信號失真度小且包含的噪聲數據較小,采用近講語音樣本訓練出的語音模型幾乎不參雜環境因素。然而,若是采集遠講語音輸入的樣本訓練遠講語音模型,將面臨這樣一個問題,即,每個用戶說話的環境不同,對語音信號的干擾是不同的,若是采用同樣一個語音輸入環境采集遠講語音樣本會導致訓練出的遠講語音模型在面臨不同的說話環境時,語音識別率難以提高。因此,本申請實施例中,預先訓練一個不帶噪聲且不帶衰減干擾的語音模型,即近講語音模型,再通過每個用戶在不同說話環境中發出的語音信號來修正所述近講語音模型的模型參數,從而得到一個能夠自適應用戶說話環境的語音模型。這個語音模型包含了用戶說話環境的因素,因此,能極大提高遠講語音識別的正確率。
[0035]具體的,所述近講語音模型的訓練可以采用混合高斯模型法或者隱馬爾科夫模型法。本發明實施例中,近講語音模型的訓練可以采用HMM,GMM-HMM,DNN-HMM等。
[0036]HMM(Hidden Markov Model),即隱馬爾可夫模型。HMM是馬爾可夫鏈的一種,它的狀態不能直接觀察到,但能通過觀測向量序列觀察到,每個觀測向量都是通過某些概率密度分布表現為各種狀態,每一個觀測向量是由一個具有相應概率密度分布的狀態序列產生。所以,隱馬爾可夫模型是一個雙重隨機過程一一具有一定狀態數的隱馬爾可夫鏈和顯示隨機函數集。自20世紀80年代以來,HMM被應用于語音識別,取得重大成功。HMM語音模型λO,A,B)由起始狀態概率O)、狀態轉移概率(A)和觀測序列概率(B)三個參數決定。π揭示了HMM的拓撲結構4描述了語音信號隨時間的變化情況,B給出了觀測序列的統計特性。
[0037]GMM為混合高斯模型,DNN為深度神經網絡模型和DNN-HMM都是基于HMM的變形,由于這三種模型都是非常成熟的現有技術且并非本發明實施例保護重點,此處將不再贅述。
[0038]基于上述已經訓練好的近講語音模型,本申請實施例根據用戶在特定環境下的測試遠講語音輸入,得到一個初識結果。其中,所述測試遠講語音輸入可以是用戶在第一次使用語音識別設備時,由設備向用戶提示輸入的,也可以是用戶發起開機指令時獲取的。獲取用戶的測試遠講語音輸入,其目的在于,從測試遠講語音輸入中,獲取發起語音輸入的用戶所在的環境,并將這一環境因素考慮到遠講語音識別的過程中,提高遠講語音識別的環境自適應性。
[0039]具體的,步驟S120包括:根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0040]本申請實施例根據用戶在特定環境下的遠講語音輸入的初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的環境特征映射矩陣。
[0041 ]最大似然線性回歸法MLLR(Mxium Likelihood Linear Regress1n)的方法是求得一組線性變換,通過這組變換,使自適應數據的似然函數最大化。例如,在HMM系統中,MLLR方法待變換的參數一般是狀態層的GMM的均值;在隨機段模型中待變換的參數是域模型的均值向量。變換過程可以簡單地表示如下:
[0042]u" =Au+b=ff|
[0043]其中,u表示域模型自適應前的維數為D的均值向量,ιΤ為自適應后的均值向量,ξ是u的擴展向量[I,u’] ’,W即為所求的DX (D+1)線性變換矩陣。
[0044]由于最大似然線性回歸法是成熟的現有技術,本步驟中不再贅述。
[0045]具體的,在步驟S130中,根據上一步驟中訓練得到的環境特征映射矩陣,將用戶的遠講語音輸入映射至相應的近似近講輸入。
[0046]具體的,在步驟S140中,根據上一步驟中獲取的近似近講語音輸入,采用近講語音模型進行識別。
[0047]本申請實施例中,在步驟S140之后,進一步還包括可選步驟S150:
[0048]步驟S150:對所述環境映射矩陣進行迭代更新。
[0049]本步驟中,進一步對訓練出的所述環境特征映射矩陣進行迭代訓練,從而得到更加穩定、更加適應用戶語言環境的映射關系,從而進一步保證遠講語音識別的正確性。迭代訓練的具體算法如下所述:
[0050]S151:檢測到用戶的遠講語音輸入時,調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;
[0051]S152:調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;
[0052]S153:根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入之間的環境映射關系,并根據所述映射關系更新所述環境特征映射矩陣。
[0053]每一次檢測到用戶的遠講語音輸入后,都進行一次環境特征映射矩陣更新,直至所述環境特征映射矩陣趨于穩定。
[0054]本實施例中,根據預先訓練得到的近講語音模型對用戶的遠講輸入進行識別得到初步的識別結果,再根據初步的識別結果計算得到當前環境下遠講輸入與近講輸入的環境映射關系,改變了現有技術中進行遠講語音識別時,聲波在環境中進行反射以及環境噪聲引起的語音識別正確率低的問題,實現遠講語音的高識別率。
[0055]圖2-1以及圖2-2是本申請實施例二的技術流程圖,結合圖2-1,本申請實施例一種遠講語音識別方法還有如下可選的實施步驟:
[0056]步驟S210:提取所述用戶的聲學特征,判斷所述用戶所屬的聲學分組;
[0057]步驟S220:調用預先訓練的所述聲學分組的屬性特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0058]步驟S230:調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0059]具體的,在步驟S210中,提取到用戶的聲學特征后,與預先分類好的聲學分組進行匹配,判斷用戶所屬的聲學分組,從而,從而根據不同的聲學分組,調用不同的所述屬性特征映射矩陣,實現更高準確率的語音識別。
[0060]在步驟S220中,獲取上一步驟中用戶所屬的聲學分組,并根據所屬聲學分組的結果調用相應分組中的環境特征映射矩陣。需要說明的是,所述環境特征映射矩陣,是某種聲學分組特有的,是結合用戶說話的語音環境和用戶說話的聲學特征得到的映射關系,進一步提高了預先訓練的所述近講語音模型的環境自適應和用戶特征的自適應性。
[0061]具體,如圖2-2所示,所述特征映射矩陣的訓練方法由如下步驟實現:
[0062]步驟S231:獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;
[0063]步驟S232:根據所述初識結果計算,當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0064]步驟S233:檢測到用戶的遠講語音輸入時,提取用戶聲學特征,根據所述聲學特征將所述用戶劃分至不同聲學分組;
[0065]步驟S234:在每個所述聲學分組中,調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;
[0066]步驟S235:調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;
[0067]步驟S236:根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的映射關系,根據所述映射關系更新所述環境特征映射矩陣得到每個所述聲學分組的所述屬性特征映射矩陣,并對所述屬性特征映射矩陣進行更新。
[0068]具體的,步驟S231和步驟S232如實施例一的步驟3110和步驟3120,此處不再贅述。
[0069]具體的,在步驟S233中,根據所述聲學特征將所述用戶劃分至不同聲學分組,可以通過計算語音特征參數的MFCC(S卩Mel頻率倒譜系數的縮寫),也可以采用提取語音輸入的基頻實現。
[0070]Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應關系。Mel頻率倒譜系數(MFCC)則是利用它們之間的這種關系,計算得到的Hz頻譜特征。MFCC計算總體流程如下首先是信號的預處理,包括預加重(Preemphasis),分幀(Frame Blocking),加窗(Windowing)。假設語音信號的采樣頻率fs = 8KHz.由于語音信號在10_30ms認為是穩定的,則可設置幀長為80?240點。幀移可以設置為幀長的1/2;其次,對每一幀進行FFT(快速傅里葉)變換,求頻譜,進而求得幅度譜;再者,對幅度譜加Mel濾波器組;最后,對所有的濾波器輸出做對數運算(LogarI ithm),再進一步做離散余弦變換DCT可得MFCC。
[0071]在濁音的發音過程中,氣流通過聲門使得聲帶產生張弛振蕩式的振動,產生一股準周期脈沖氣流,這一氣流激勵聲道就產生濁音,它攜帶了語音中的大部分能量,其中聲帶的振動頻率就稱為基頻。
[0072]可以采用基于時域的算法和/或基于空域的算法提取用戶語音輸入的基頻,其中,所述基于時域的算法包括自相關函數算法和平均幅度差函數算法,所述基于空域的算法包括倒普分析法和離散小波變換法。
[0073]自相關函數法是利用了濁音信號的準周期性,通過對比原始信號和它的位移后信號之間的類似性來進行基頻的檢測,其原理是濁音信號的自相關函數在時延等于基音周期整數倍的地方產生一個峰值,而清音信號的自相關函數無明顯的峰值。因此通過檢測語音信號的自相關函數的峰值位置,就可以估計語音的基頻。
[0074]平均幅度差函數法檢測基頻的依據為:語音的濁音具有準周期性,完全周期信號在相距為周期的倍數的幅值點上的幅值是相等的,從而差值為零。假設基音周期為P,則在濁音段,則平均幅度差函數將出現谷底,則兩個谷底之間的距離即為基音周期,其倒數則為基頻。
[0075]倒譜分析是譜分析的一種方法,輸出是傅里葉變換的幅度譜取對數后做傅里葉逆變換的結果。該方法所依據的理論是,一個具有基頻的信號的傅立葉變換的幅度譜有一些等距離分布的峰值,代表信號中的諧波結構,當對幅度譜取對數之后,這些峰值被削弱到一個可用的范圍。幅度譜取對數后得到的結果是在頻域的一個周期信號,而這個頻域信號的周期(是頻率值)可以認為就是原始信號的基頻,所以對這個信號做傅里葉逆變換就可以在原始信號的基音周期處得到一個峰值。
[0076]離散小波變換是一個強大的工具,它允許在連續的尺度上把信號分解為高頻成分和低頻成分,它是時間和頻率的局部變換,能有效地從信號中提取信息。與快速傅里葉變換相比,離散小波變換的主要好處在于,在高頻部分它可以取得好的時間分辨率,在低頻部分可以取得好的頻率分辨率。
[0077]基頻取決于聲帶的大小、厚薄、松弛程度以及聲門上下之間的氣壓差的效應等。當聲帶被拉得越長、越緊、越薄,聲門的形狀就變得越細長,而且這時聲帶在閉合時也未必是完全的閉合,相應的基頻就越高。基頻隨著發音人的性別,年齡及具體情況而定,總體來說,老年男性偏低,女性和兒童偏高。經測試,一般地,男性的基頻范圍大概在80Hz到200Hz之間,女性的基頻范圍大概在200-350HZ之間,而兒童的基頻范圍大概在350-500HZ之間。
[0078]當檢測到用戶的遠講語音輸入時,提取其基頻,并判斷其所述的閾值范圍,即可判斷輸入語音的來源的用戶特征,并根據這一特征將用戶進行分類。當有不同的用戶進行語音輸入時,便可根據其聲學特征得到不同聲學分組以及每個聲學分組對應的所述環境自適應語音模型。
[0079]具體的,在步驟S234中,在每個聲學分組中,針對用戶的遠講語音輸入,調用步驟S232中得到的所述環境特征映射矩陣先得到的一個近似近講語音輸入。
[0080]具體的,在步驟S235中,所述初識結果是摒除用戶所處環境影響的識別結果,但是并沒有消除每個用戶說話特征對語音識別結果的影響。
[0081]具體的,在步驟S236中,將步驟S232中訓練得到的所述環境映射矩陣進行進一步的更新,得到包含用戶聲學屬性的屬性映射矩陣。
[0082]需要說明的是,本步驟中,還需進一步對訓練出的所述屬性特征映射矩陣進行迭代訓練,從而得到更加穩定、更加適應用戶語言環境的用戶屬性映射關系,從而進一步保證特定用戶遠講語音識別的正確性。
[0083]迭代訓練的具體算法同樣采用最大似然線性回歸法,每一次檢測到用戶的遠講語音輸入時,提取所述用戶的聲學特征并根據所述聲學特征將所述用戶劃分至所屬的聲學分組;根據所述遠講語音輸入,調用所述屬性特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的屬性特征映射矩陣,從而實現所述屬性特征映射矩陣的更新。
[0084]本實施例中,根據用戶輸入的遠講語音輸入,獲取其聲學特征,并根據所述聲學特征對用戶輸入的遠講語音進行環境自適應和用戶自適應的訓練,得到了更加貼合用戶發音特征以及語音環境的個性化映射關系,極大提高了遠講語音識別的效率,提升了用戶體驗。
[0085]圖3是本申請實施例三的裝置結構示意圖,結合圖3,本申請實施例一種一種遠講語音識別裝置,包括如下的模塊:
[0086]信號獲取模塊310,用于獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果;
[0087]訓練模塊320,用于根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣;
[0088]映射模塊330,用于檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0089]識別模塊340,用于調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0090]其中,所述訓練模塊320,具體用于:根據所述遠講語音幀與所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與對應的所述近講語音輸入之間的環境特征映射矩陣并對所述環境映射矩陣進行迭代更新。
[0091]其中,所述訓練模塊320,具體還用于:檢測到用戶的遠講語音輸入時調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入之間的環境映射關系,并根據所述映射關系更新所述環境特征映射矩陣。
[0092]其中,所述映射模塊330還用于:提取所述用戶的聲學特征,判斷所述用戶所屬的聲學分組;調用預先訓練的所述聲學分組的屬性特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入;
[0093]所述識別模塊340,還用于調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。
[0094]其中,所述訓練模塊320,還用于:檢測到用戶的遠講語音輸入時,提取用戶聲學特征,根據所述聲學特征將所述用戶劃分至不同聲學分組;
[0095]在每個所述聲學分組中,調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的映射關系,根據所述映射關系更新所述環境特征映射矩陣得到每個所述聲學分組的所述屬性特征映射矩陣,并對所述屬性特征映射矩陣進行更新。
[0096]其中,所述訓練模塊330,具體還用于:檢測到用戶的遠講語音輸入時,提取所述用戶的聲學特征并根據所述聲學特征將所述用戶劃分至所屬的聲學分組;根據所述遠講語音輸入,調用所述屬性特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入;調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果;根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的屬性特征映射矩陣,從而實現所述屬性特征映射矩陣的更新。
[0097]圖3所示裝置可以執行圖1以及圖2所示實施例的方法,實現原理和技術效果參考圖1以及圖2所示實施例,不再贅述。
[0098]應用實例
[0099]在一種可能的應用場景中,本申請實施例的裝置被應用于智能電視。用戶購買電視放在自家客廳。根據預先訓練的近講語音模型,電視內置的語音識別模塊可以準確地識別用戶的近講語音輸入。
[0100]用戶啟動電視,遠距離發布控制口令,語音識別模塊獲取用戶的控制口令,并對其進行分幀處理。根據得到的語音幀,調用預先訓練出來的近講語音識別模型對用戶發布的口令進行識別,得到一個粗糙的識別結果。
[0101]根據這個粗糙的識別結果,采用最大似然線性回歸法重新計算用戶遠講發布的控制口令和近講語音輸入的環境映射關系。通過這一映射關系電視內置的近講語音模型就能夠自適應用戶家客廳環境的語音模型。如此一來,用戶在家可以通過遠距離發布語音指令來控制智能電視,例如,節目搜索,應用或服務的啟動,開關機等。
[0102]在另一種應用場景下,用戶家里有老人、孩子、男性或者女性,通用的環境自適應模型可能并不能夠完全滿足用戶的需求。因此,所述語音識別設備在采集了多次用戶的遠講語音輸入之后,根據用戶的聲學特征,判斷多次采集的語音輸入結果是否具有同一種聲學特征。當判斷結果為兩種以上時,將這兩種語音輸入進行分類,例如兒童和成年人。在兒童這一類中,多次采用兒童的遠講語音輸入語音幀,根據之前訓練得到的環境映射關系,先將兒童的遠講語音輸入映射成環境自適應的近似近講語音輸入,根據最大似然線性回歸法更新通用的環境映射關系,得到兒童類型的特征映射關系;在成人這一類中,多次單獨采用成人的遠講語音輸入語音幀,根據之前訓練得到的環境映射關系,先將成人的遠講語音輸入映射成環境自適應的近似近講語音輸入,根據最大似然線性回歸法更新通用的環境映射關系,得到成人類型的特征映射關系。
[0103]當再一次檢測到用戶有語音輸入時,首先根據用戶的語音特征,判斷用戶是兒童、成年人還是老人。若是判斷為兒童,則調用兒童類型的特征映射關系對兒童的語音輸入進行環境以及用戶屬性的自適應。與此同時,還需要用兒童的語音輸入對兒童類型的特征映射關系不斷的迭代訓練,從而達到一個較穩定的結果。
[0104]以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性的勞動的情況下,即可以理解并實施。
[0105]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件。基于這樣的理解,上述技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在計算機可讀存儲介質中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機裝置(可以是個人計算機,服務器,或者網絡裝置等)執行各個實施例或者實施例的某些部分所述的方法。
[0106]最后應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。
【主權項】
1.一種遠講語音識別方法,其特征在于,包括如下的步驟: 獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果; 根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣; 檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果O2.根據權利要求1所述的方法,其特征在于,根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣,具體包括: 根據所述遠講語音幀與所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與對應的所述近講語音輸入之間的環境特征映射矩陣并對所述環境映射矩陣進行迭代更新。3.根據權利要求2所述的方法,其特征在于,對所述環境映射矩陣進行迭代更新,具體包括: 檢測到用戶的遠講語音輸入時調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果; 根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入之間的環境映射關系,并根據所述映射關系更新所述環境特征映射矩陣。4.根據權利要求1所述的方法,其特征在于,所述方法還包括: 提取所述用戶的聲學特征,判斷所述用戶所屬的聲學分組; 調用預先訓練的所述聲學分組的屬性特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果O5.根據權利要求4所述的方法,其特征在于,所述方法還包括: 檢測到用戶的遠講語音輸入時,提取用戶聲學特征,根據所述聲學特征將所述用戶劃分至不同聲學分組; 在每個所述聲學分組中,調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果; 根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的映射關系,根據所述映射關系更新所述環境特征映射矩陣得到每個所述聲學分組的所述屬性特征映射矩陣,并對所述屬性特征映射矩陣進行更新。6.根據權利要求5所述的方法,其特征在于,對所述屬性特征映射矩陣進行更新,具體包括: 檢測到用戶的遠講語音輸入時,提取所述用戶的聲學特征并根據所述聲學特征將所述用戶劃分至所屬的聲學分組; 根據所述遠講語音輸入,調用所述屬性特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 采用最大似然線性回歸法計算所述遠講語音輸入與對應的近講語音輸入之間的屬性特征映射矩陣,從而實現所述屬性特征映射矩陣的更新。7.一種遠講語音識別裝置,其特征在于,包括如下的模塊: 信號獲取模塊,用于獲取用戶遠講語音輸入的測試遠講語音幀,調用預先訓練的近講語音模型識別所述測試遠講語音幀并得到初識結果; 訓練模塊,用于根據所述初識結果計算當前環境下所述遠講語音輸入與近講語音輸入的環境特征映射矩陣; 映射模塊,用于檢測到用戶的遠講語音輸入時,根據所述環境特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入; 識別模塊,用于調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。8.根據權利要求7所述的裝置,其特征在于,所述訓練模塊,具體用于: 根據所述遠講語音幀與所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與對應的所述近講語音輸入之間的環境特征映射矩陣并對所述環境映射矩陣進行迭代更新。9.根據權利要求8所述的裝置,其特征在于,所述訓練模塊,具體還用于: 檢測到用戶的遠講語音輸入時調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果; 根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入之間的環境映射關系,并根據所述映射關系更新所述環境特征映射矩陣。10.根據權利要求7所述的裝置,其特征在于,所述映射模塊還用于:提取所述用戶的聲學特征,判斷所述用戶所屬的聲學分組; 調用預先訓練的所述聲學分組的屬性特征映射矩陣將所述遠講語音輸入映射至對應的近似近講語音輸入; 所述識別模塊,還用于調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到遠講語音識別結果。11.根據權利要求10所述的裝置,其特征在于,所述訓練模塊,還用于: 檢測到用戶的遠講語音輸入時,提取用戶聲學特征,根據所述聲學特征將所述用戶劃分至不同聲學分組; 在每個所述聲學分組中,調用所述環境特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果; 根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的映射關系,根據所述映射關系更新所述環境特征映射矩陣得到每個所述聲學分組的所述屬性特征映射矩陣,并對所述屬性特征映射矩陣進行更新。12.根據權利要求11所述的裝置,其特征在于,所述訓練模塊,具體還用于: 檢測到用戶的遠講語音輸入時,提取所述用戶的聲學特征并根據所述聲學特征將所述用戶劃分至所屬的聲學分組; 根據所述遠講語音輸入,調用所述屬性特征映射矩陣將所述遠講語音輸入映射至對應的所述近似近講語音輸入; 調用預先訓練的所述近講語音模型識別所述近似近講語音輸入得到初識結果; 根據所述初識結果,采用最大似然線性回歸法計算所述遠講語音輸入與近講語音輸入的的屬性特征映射矩陣,從而實現所述屬性特征映射矩陣的更新。
【文檔編號】G10L15/08GK105845131SQ201610219407
【公開日】2016年8月10日
【申請日】2016年4月11日
【發明人】那興宇
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司