一種語音識別方法及裝置的制造方法
【專利摘要】本發明的實施例提供一種語音識別方法及裝置,涉及計算機技術領域,用以解決現有的語音識別技術對語音進行語音分類時,所導致的語音分類區分度不高的問題。該方法包括:提取待識別語音的至少兩個語音特征;基于多層受限玻爾茲曼機RBM對至少兩個語音特征中的每個語音特征分別進行訓練,得到每個語音特征對應的深度語音特征;將每個語音特征對應的深度語音特征進行特征融合,得到待識別語音的深度語音特征;將待識別語音的深度語音特征輸入分類器進行分類,得到待識別語音的語音類別。本發明應用于語音識別。
【專利說明】
一種語音識別方法及裝置
技術領域
[0001 ]本發明涉及計算機技術領域,尤其涉及一種語音識別方法及裝置。
【背景技術】
[0002]目前,隨著語音識別技術在人機交互領域的不斷發展,在人機交互的過程中,具有像人一樣的情感能力是機器智能的必要基礎。在已有技術中,計算機在進行語音情感識別或語音鄉音識別時,通常是基于直接提取的語音特征參數(例如,短時能量、共振峰以及基音頻率等能夠表征說話人情緒的韻律特征以及音質特征的特征參數)以及淺層結構算法(例如、支持向量機(英文:Support Vector Machine,簡稱:SVM))得到的分類器對語音進行分類的。
[0003]但是,由于直接提取的語音特征參數中本身包含的信息量比較少,且語音特征間的區分度不高,從而導致分類器無法對這些語音特征進行精細化的區分,對于復雜的語音分類問題存在一定制約,無法正確及精細的對語音實現分類。
【發明內容】
[0004]本發明的實施例提供一種語音識別方法及裝置,用以解決現有的語音識別技術對語音進行語音識別時所導致的語音分類區分度不高的問題。
[0005]第一方面,提供一種語音識別方法,包括:
[0006]提取待識別語音的至少兩個語音特征;
[0007]基于多層受限玻爾茲曼機RBM對所述至少兩個語音特征中的每個語音特征分別進行訓練,得到所述每個語音特征對應的深度語音特征;
[0008]將所述每個語音特征對應的深度語音特征進行特征融合,得到所述待識別語音的深度語音特征;
[0009]將所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別。
[0010]第二方面,提供一種語音識別裝置,包括:
[0011 ]提取模塊,用于提取待識別語音的至少兩個語音特征;
[0012]訓練模塊,用于基于多層受限玻爾茲曼機RBM對所述提取模塊提取出的所述至少兩個語音特征中的每個語音特征分別進行訓練,得到所述每個語音特征對應的深度語音特征;
[0013]融合模塊,用于將所述訓練模塊得到的所述每個語音特征對應的深度語音特征進行特征融合,得到所述待識別語音的深度語音特征;
[0014]分類模塊,用于將所述同和模塊得到的所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別。
[0015]本發明的實施例提供的語音識別方法及裝置,基于多層RBM對待識別語音的至少兩個語音特征中的每個語音特征分別進行訓練,得到上述的每個語音特征對應的深度語音特征,然后將每個語音特征對應的深度語音特征進行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進行分類,得到該待識別語音的語音類別。相比于現有技術通過直接提取的語音特征對語音進行分類,本申請通過對待識別語音的多個不同語音特征分別進行多層RBM訓練,由于多層RBM網絡具有多層分線性映射的深層結構,會對待訓練的語音特征實現逐層訓練,每層提取出的深度特征會作為下一層的待訓練特征進行進一步的深度挖掘,從而使得提取出的每個語音特征的深度語音特征保留了其關鍵信息,提高了語音特征的敏感度,使得語音特征間的區分度變大,然后將提取出的不同語音特征的深度語音特征進行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進行分類,從而有效的提高語音識別的準確度,提升了各種語音類別間的區分度。
【附圖說明】
[0016]為了更清楚地說明本發明實施例的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0017]圖1為本發明實施例提供的一種RBM的典型結構不意圖;
[0018]圖2為本發明實施例提供的一種多層RBM的級聯構成的深度神經網絡結構示意圖;
[0019]圖3為本發明實施例提供的一種語音識別方法的流程示意圖;
[0020]圖4為本發明實施例提供的一種基于RBM的語音識別過程的流程示意圖;
[0021 ]圖5為本發明實施例提供的一種語音識別系統框圖;
[0022]圖6為本發明實施例提供的一種語音識別裝置的結構示意圖。
【具體實施方式】
[0023]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0024]本發明實施例提供的語音識別方法的執行主體可以為語音識別裝置,或者用于執行上述語音識別方法的終端設備。具體的,該移動終端可以為智能電視、智能手機、平板電腦、筆記本電腦、超級移動個人計算機(英文:Ultra_mobile Personal Computer,簡稱:UMPC)、上網本、個人數字助理(英文:Personal Digital Assistant,簡稱:PDA)等終端設備。其中,語音識別裝置可以為上述終端設備中的中央處理器(英文:Central ProcessingUnit,簡稱CPU)或者可以為上述終端設備的中的控制單元或者功能模塊。
[0025]深度學習的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。深度學習動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。而深度學習區別于淺層學習,主要表現為:I)強調了模型結構的深度,通常有5層,6層,甚至十幾層的隱層節點;2)明確突出了特征學習的重要性,即通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使得分類和預測更加容易。較人工規則構造特征的方法相比,利用大數據來學習特征,更能夠表達數據的豐富內在信息。
[0026]本發明實施例中的多層受限玻爾茲曼機(英文-Restricted Boltzmann Machine,簡稱:RBM)是深度學習的一個常用模型,也是目前使用較為廣泛的深度學習模型。其中,上述的多層RBM是一個包含多層隱藏變量的概率生成模型,這些網絡被“限制”為一個可視層和一個隱藏層,層間存在連接,但層內的單元間不存在連接,其中隱層單元被訓練去捕捉在可視層表現出來的一個高階相關過程。而多層RBM網絡的連接是通過自頂向下的生成權值來指導確定的。
[0027]具體的,參照圖1所示的RBM的典型結構圖可知,典型RBM模型是兩層結構,一層為可視層,一層為隱藏層,該可見層的m個節點單元(如圖1中的節點a)相互獨立,該隱藏層的η個節點單元(如圖2中的節點b)相互獨立,上述的可見層的m個節點單元與上述的隱藏層的η個節點單元之間的連接權重值為W。
[0028]本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關系,表示可以存在三種關系,例如,六和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符,一般表示前后關聯對象是一種“或”的關系。
[0029]本發明的實施例提供一種語音識別方法,如圖3所示,該方法包括如下步驟:
[0030]101、語音識別裝置提取待識別語音的至少兩個語音特征。
[0031]本實施例語音特征包括用于表征語音情感的語音情感特征和/或用于表征語音鄉音的語音鄉音特征。具體的,本實施例中的語音特征包括短時能量、持續時間、短時過零率、共振峰、基音頻率、線性預測倒譜系數(英文:Linear Predict1n CepstrumCoefficient,,簡稱:LPCC)、Mel 頻率倒譜系數(英文:Mel Frequency CepstrumCoeff icient,,簡稱MFCC)、Mel頻帶能量及其衍生參數中的至少兩個。
[0032]當語音特征為語音情感特征時,對應的,語音特征類別為語音情感類別。示例性的,用戶的語音情感通常情況下可以分為六類:“高興”、“憤怒”、“悲傷”、“驚訝”、“恐懼”、“平靜”,這樣語音識別裝置在識別出待識別語音所反映的用戶情感類型后,該語音識別裝置便可針對用戶不同的情緒進行相應的語音合成應答,電視主題類型設置及電視服務類型推薦。例如,終端設備可以根據用戶當前的語音所反饋的語音情感,為用戶推薦不同的節目,如,在“憤怒”的情況下,溫馨、勵志、文藝等類型的影片比較有利于情緒的放松,當用戶“悲傷”時,觀看喜劇片、娛樂綜藝等幽默搞笑的節目有助于排解情緒;無明顯情緒變化(“平靜”)時,用戶觀看的節目類型一般與日常觀影習慣相似。此外,由于終端的主題界面的設置對用戶的心理有著正面和積極的影響,而根據UI設計的色彩心理學知識,不同色彩會引起不同的情緒和情感的波動,因此,終端設備也可根據用戶當前語音所反饋的語音情感對終端設備的主題進行人性化設置。
[0033]當語音特征為語音鄉音特征時,對應的,語音特征類別為語音鄉音類別。示例性的,我國是個多方言地區的國家,不同區域的人語音特性及說話方式具有一定的差異,除了標準的普通話,還有七種主要的方言一一官話方言、吳方言、客家方言、粵方言、閩方言、贛方言、湘方言,以上幾種方言下還可細分為更多的方言支系,此外,語音特性因人而異,同一個人的語音數據受很多外部因素的影響,如說話人的性別、年齡、語速、教育程度,語音采集設備的質量以及環境噪聲等。因此,本發明實施例中的語音識別裝置在識別出待識別語音所反映的語音鄉音類別后,該語音識別裝置便可針對用戶不同的鄉音類型進行相應的語音合成應答,電視主題類型設置及電視服務類型推薦。
[0034]示例性的,語音識別裝置在提取待識別語音的語音情感特征時,可以將訓練語音樣本中可以表征語音情感的韻律特征和音質特性作為語音情感特征,例如:短時能量、持續時間、短時過零率、共振峰、基音頻率、LPCC、MFCC、Mel頻帶能量及其衍生參數。而語音識別裝置在提取待識別語音的語音鄉音特征時,可以將訓練語音樣本中可以表征地方口音特性的特征參數作為語音鄉音特征,例如:MFCC、能量以及共振峰頻率等。需要說明的是,由于以上各種語音特征參數的提取過程均為現有算法,此處不再就各特征參數的計算過程進行介紹。
[0035]此外,為了方便獲取提取待識別語音的語音特征,本發明實施例在提取待識別語音的語音特征之前,還可以對待識別語音進行預處理,即對待識別語音進行預加重、分幀加窗以及端點檢測處理,其中幀長取16ms,S卩256個采樣點,幀移為128個采樣點,對每一語音幀加上漢明窗,利用短時能量和過零率的雙閾值法,來判斷語音的起始點。
[0036]102、語音識別裝置基于多層RBM對至少兩個語音特征中的每個語音特征分別進行訓練,得到每個語音特征對應的深度語音特征。
[0037]示例性的,語音識別裝置對待識別語音的多個語音特征中的每個語音特征分別進行多層RBM訓練時,可以針對每種語音特征分別構建多層RBM網絡,然后基于構建的多層RBM網絡,得到對應的語音特征的深度語音特征。
[0038]具體的,參照圖3所示的多層RBM網絡的結構圖可知,若本實施例中的多層RBM網絡的層數以3層為例時,語音識別裝置對任一語音特征構建三層RBM網絡進行深度語音特征提取的過程,可以參照下述過程來實現:
[0039]I)構建二層RBM網絡(可以參照圖1);
[0040]若一個二層RBM網絡的可視層包括M個節點,隱藏層包括η個節點,對于一個待訓練的語音特征向量X= (XI ,XI,......,Xm)來說,X向量中的每個分量對應著可視層的一個節點,通過可視層輸入經過一些列語音得到一個向量Y = (yi,yi,......,yn),Y向量中的每個分量對應著隱藏層的一個節點,上述的X向量與Y向量的分量都對應著每個節點單獨偏置量。基于上述內容,我們可以理解,RBM模型就是將一個維度為m的語音特征向量映射到一個維度為η的語音特征向量。
[0041 ] 2)對構建的二層RBM網絡進行訓練;
[0042]具體的,RBM網絡的訓練過程包括:a、初始化該構建的二層RBM網絡的相關參數,其中,該相關參數Θ = {Wij,ai,bj},Wij為可視層的節點單元i和隱藏層的節點單元j之間的權重系數,Wlj是服從均值為0,標準差為I的正態分布,ai為可見層的節點單元的偏置量,h為隱藏層的節點單元的偏置量,ai,bj初始值均為O ;ie 1,2,......,m;j,vei,2,......,n; b、將待識別語音的任一語音特征賦給該二層RBM網絡的可視層進行RBM訓練,得到該第一語音特征對應的深度語音特征。
[0043]3)將訓練好的二層RBM網絡的二層隱藏層作為可視層,即可以認為隱藏層是可視層的另一種表達形式,因此隱藏層可以作為可視層輸入數據的特征,繼續構造二層RBM網絡,重復上述步驟(I) (2),直到完成三層RBM網絡的構建,并將該三層RBM網絡的輸出特征作為該待識別語音的任一語音特征的深度語音特征。
[0044]103、語音識別裝置將每個語音特征對應的深度語音特征進行特征融合,得到待識別語音的深度語音特征。
[0045]示例性的,參照圖4所示基于RBM的語音識別過程的流程示意圖。語音識別裝置在該待識別語音的多個語音特征中的每個語音特征的深度語音特征數據進行融合時所使用的融合方法可以參照下述方法:例如,加權特征融合、基于核空間的投影特征融合、基于相關分析的特征融合等等,這里不做限制。
[0046]具體的,加權特征融合的具體過程包括:語音識別裝置獲取預設的語音特征權重閾值,根據所述語音特征權重閾值與所述語音的每個語音特征對應的深度語音特征,得到該語音的深度語音特征,從而保留了語音的所有語音特征的關鍵信息及特征信息。例如,可以將所有需要融合的語音特征的權重設為I,然后將所有語音特征的深度語音特征進行簡單的串聯累加。
[0047]104、語音識別裝置將待識別語音的深度語音特征輸入分類器進行分類,得到待識別語首的語首類別。
[0048]此外,語音是被裝置在對分類器訓練后,可以對訓練后的分類器進行微調,利用最頂層的輸出標簽,通過反向傳播網絡將錯誤信息自頂向下傳播至每一層深度神經網絡,從而微調整個深度神經網絡網絡,進而對整體的分類器參數實現了微調。
[0049]本發明的實施例提供的語音識別方法,基于多層RBM對待識別語音的至少兩個語音特征中的每個語音特征分別進行訓練,得到上述的每個語音特征對應的深度語音特征,然后將每個語音特征對應的深度語音特征進行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進行分類,得到該待識別語音的語音類別。相比于現有技術通過直接提取的語音特征對語音進行分類,本申請通過對待識別語音的多個不同語音特征分別進行多層RBM訓練,由于多層RBM網絡具有多層分線性映射的深層結構,會對待訓練的語音特征實現逐層訓練,每層提取出的深度特征會作為下一層的待訓練特征進行進一步的深度挖掘,從而使得提取出的每個語音特征的深度語音特征保留了其關鍵信息,提高了語音特征的敏感度,使得語音特征間的區分度變大,然后將提取出的不同語音特征的深度語音特征進行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進行分類,從而有效的提高語音識別的準確度,提升了各種語音類別間的區分度。
[0050]示例性的,如圖5所示的語音識別系統框圖可知,當步驟104中的分類器為訓練后的分類器時,在步驟104之前,該方法還包括:
[0051]104a、語音識別裝置提取所述訓練語音樣本的至少兩個語音特征及語音類別。
[0052]示例性的,本發明實施例中的訓練語音樣本集中包含了所有語音類別對應的訓練語音樣本。
[0053]104b、語音識別裝置基于多層RBM對訓練語音樣本的至少兩個語音特征中的每個語音特征分別進行訓練,得到訓練語音樣本的每個語音特征對應的深度語音特征。
[0054]104c、語音識別裝置將訓練語音樣本的每個語音特征對應的深度語音特征進行特征融合,得到訓練語音樣本的深度語音特征。
[0055]104d、語音識別裝置將訓練語音樣本的深度語音特征作為分類器輸入特征,并將訓練語音樣本的語音類別作為分類器的輸出特征,對分類器進行訓練,得到經過訓練的分類器。
[0056]這樣通過上述的步驟104a_104d,便可得到經過訓練的分類器,由于該分類器的訓練樣本均經過多層RBM網絡進行深度學習訓練,這樣將經過深度學習訓練的訓練語音樣本的深度語音特征作為分類器的輸入特征,使得所得到的分類器中的語音類別與深度語音特征間存在更精細的對應關系,從而能夠對區分度低的語音類別進行精確區分,有效的提高語音識別的準確度,
[0057]需要說明的是,步驟104a_104c中提取訓練語音樣本的語音特征的提取過程、對訓練語音樣本的語音特征進行多層RBM訓練過程以及對多個語音特征的深度語音特征進行特征融合的過程可以參照步驟101-步驟103的描述,這里不再贅述。
[0058]此外,語音識別裝置在經過上述過程識別出語音的情感類別或鄉音類別后,便可將所得的情感識別結果或鄉音識別結果結合視頻推薦系統為用戶推薦多媒體文件。
[0059]以情感類別為例,終端根據用戶的情感狀態對電視主題界面進行調整,從視覺角度對用戶產生積極的正面影響。同時對語音合成進行調整,并推薦相應的節目類型,例如:當用戶情感狀態為“平靜”時,語音合成保持正常的語速和語氣,推薦的節目類型主要根據用戶日常習慣進行推薦;“高興”時,語音合成應答的語速稍快,語氣也較為歡快,此時可以向用戶推薦最新、最熱的影視劇集和歌曲;當情緒為“憤怒”時,語音合成的語速降低,語氣也較為舒緩,可以起到一定的安撫作用,此時會向該用戶推薦溫馨、勵志、文藝等類型的影片以利于情緒的放松;當用戶“悲傷”時,語音合成的語速稍低,語氣低緩,而此時喜劇片、娛樂綜藝等幽默搞笑的節目有助于用戶排解消極的情緒;“驚訝”時采用語速稍快,疑問的語氣進行語音合成,推薦的節目類型以新、熱為主;“恐懼”狀態下,語音播報應較為舒緩,節目應以歡快、輕松為主,排除恐怖驚悚類節目的推送。這樣終端根據用戶在不同情緒下的需求差異,從而為用戶進行個性化主題設置、應答及電視服務推薦。當用戶根據個人的需求愛好使用助手查找用戶所喜愛的電視節目、廣告或影片等,系統會自動記錄下用戶的觀影記錄并進行影視數據分析,如高興時觀看節目,憤怒時觀看記錄等,將分類后的觀影信息反饋到不同的情緒推薦列表,實時更新推薦列表中的熱門節目。
[0060]以鄉音類別為例,終端可以根據用戶的鄉音類別為用戶推薦或使用戶進入至同鄉社交網絡中,從而可以結合用戶所屬的區域進入電視的同鄉社交網絡,即根據用戶的鄉音判斷用戶可能的家鄉信息,即可建立用戶特有的老鄉圈。由于電視具備社交的特征屬性,無論在現實生活還是網絡中,人們習慣對各類電視節目評頭論足,老鄉之間具有一定的文化和觀念認同感。結合用戶的IP信息將處于同一城市且來自同一地區的正在觀看相同節目的用戶聯系起來,用戶可通過該社交網絡利用家鄉話進行實時的交流和討論,并分享各自的觀影感受;基于這一特性,也可對有相同興趣愛好并具有同鄉屬性的用戶的觀影記錄進行分析,為影視推薦提供相關依據。
[0061]本發明的實施例提供一種語音識別裝置,如圖6所示,該裝置包括:提取模塊21、訓練模塊22、融合模塊23和分類模塊24,其中:
[0062]提取模塊21,用于提取待識別語音的至少兩個語音特征。
[0063]訓練模塊22,用于基于多層受限玻爾茲曼機RBM對所述提取模塊21提取出的所述至少兩個語音特征中的每個語音特征分別進行訓練,得到所述每個語音特征對應的深度語首特征。
[0064]融合模塊23,用于將所述訓練模塊22得到的所述每個語音特征對應的深度語音特征進行特征融合,得到所述待識別語音的深度語音特征;
[0065]分類模塊24,用于將所述融合模塊23得到的所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別。
[0066]可選的,提取模塊21,還用于提取訓練語音樣本的至少兩個語音特征及語音類別。
[0067]訓練模塊22,用于基于多層RBM對提取模塊21提取出的訓練語音樣本的至少兩個語音特征中的每個語音特征分別進行訓練,得到訓練語音樣本的每個語音特征對應的深度語音特征。
[0068]融合模塊23,用于將訓練模塊22得到的訓練語音樣本的每個語音特征對應的深度語音特征進行特征融合,得到訓練語音樣本的深度語音特征。
[0069]訓練模塊22,還用于將融合模塊23得到的訓練語音樣本的深度語音特征作為分類器輸入特征,并將訓練語音樣本的語音類別作為分類器的輸出特征,對分類器進行訓練,得到經過訓練的分類器。
[0070]可選的,上述融合模塊23具體用于:獲取預設的語音特征權重閾值,根據語音特征權重閾值與語音的每個語音特征對應的深度語音特征,得到語音的深度語音特征。
[0071 ]示例性的,上述的語音特征包括:短時能量、持續時間、短時過零率、共振峰、基音頻率、LPCC、MFCC、Mel頻帶能量中的至少兩個。
[0072]示例性的,上述的語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉音的語音鄉音特征中的至少一種;當語音特征為語音情感特征時,對應的,語音類別為語音情感類別;當語音特征為語音鄉音特征時,對應的,語音類別為語音鄉音類別。
[0073]本發明的實施例提供的語音識別裝置,基于多層RBM對待識別語音的至少兩個語音特征中的每個語音特征分別進行訓練,得到上述的每個語音特征對應的深度語音特征,然后將每個語音特征對應的深度語音特征進行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進行分類,得到該待識別語音的語音類別。相比于現有技術通過直接提取的語音特征對語音進行分類,本申請通過對待識別語音的多個不同語音特征分別進行多層RBM訓練,由于多層RBM網絡具有多層分線性映射的深層結構,會對待訓練的語音特征實現逐層訓練,每層提取出的深度特征會作為下一層的待訓練特征進行進一步的深度挖掘,從而使得提取出的每個語音特征的深度語音特征保留了其關鍵信息,提高了語音特征的敏感度,使得語音特征間的區分度變大,然后將提取出的不同語音特征的深度語音特征進行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進行分類,從而有效的提高語音識別的準確度,提升了各種語音類別間的區分度。
[0074]本申請所提供的幾個實施例中,應該理解到,所揭露的終端和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
[0075]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0076]另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理包括,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
[0077]上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,簡稱ROM)、隨機存取存儲器(Random Access Memory,簡稱RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0078]最后應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。
【主權項】
1.一種語音識別方法,其特征在于,包括: 提取待識別語音的至少兩個語音特征; 基于多層受限玻爾茲曼機RBM對所述至少兩個語音特征中的每個語音特征分別進行訓練,得到所述每個語音特征對應的深度語音特征; 將所述每個語音特征對應的深度語音特征進行特征融合,得到所述待識別語音的深度語音特征; 將所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別。2.根據權利要求1所述的方法,其特征在于,所述分類器為經過訓練的分類器;所述將所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別之前,所述方法還包括: 提取所述訓練語音樣本的至少兩個語音特征及語音類別; 基于所述多層RBM對所述訓練語音樣本的至少兩個語音特征中的每個語音特征分別進行訓練,得到所述訓練語音樣本的每個語音特征對應的深度語音特征; 將所述訓練語音樣本的每個語音特征對應的深度語音特征進行特征融合,得到所述訓練語音樣本的深度語音特征; 將所述訓練語音樣本的深度語音特征作為所述分類器輸入特征,并將所述訓練語音樣本的語音類別作為所述分類器的輸出特征,對所述分類器進行訓練,得到所述經過訓練的分類器。3.根據權利要求1或2所述的方法,其特征在于,將語音的每個語音特征對應的深度語音特征進行特征融合,得到所述語音的深度語音特征具體包括: 獲取預設的語音特征權重閾值,根據所述語音特征權重閾值與語音的每個語音特征對應的深度語音特征,得到所述語音的深度語音特征。4.根據權利要求1所述的方法,其特征在于,所述語音特征包括:短時能量、持續時間、短時過零率、共振峰、基音頻率、線性預測倒譜系數LPCC、Mel頻率倒譜系數(MFCC)、Mel頻帶能量中的至少兩個。5.根據權利要求1所述的方法,其特征在于,所述語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉音的語音鄉音特征中;當所述語音特征為語音情感特征時,對應的,所述語音類別為語音情感類別;當所述語音特征為語音鄉音特征時,對應的,所述語音類別為語音鄉音類別。6.一種語音識別裝置,其特征在于,包括: 提取模塊,用于提取待識別語音的至少兩個語音特征; 訓練模塊,用于基于多層受限玻爾茲曼機RBM對所述提取模塊提取出的所述至少兩個語音特征中的每個語音特征分別進行訓練,得到所述每個語音特征對應的深度語音特征; 融合模塊,用于將所述訓練模塊得到的所述每個語音特征對應的深度語音特征進行特征融合,得到所述待識別語音的深度語音特征; 分類模塊,用于將所述融合模塊得到的所述待識別語音的深度語音特征輸入分類器進行分類,得到所述待識別語音的語音類別。7.根據權利要求6所述的裝置,其特征在于: 提取模塊,還用于提取所述訓練語音樣本的至少兩個語音特征及語音類別; 訓練模塊,用于基于所述多層RBM對所述提取模塊提取出的所述訓練語音樣本的至少兩個語音特征中的每個語音特征分別進行訓練,得到所述訓練語音樣本的每個語音特征對應的深度語音特征; 融合模塊,用于將所述訓練模塊得到的所述訓練語音樣本的每個語音特征對應的深度語音特征進行特征融合,得到所述訓練語音樣本的深度語音特征; 所述訓練模塊,還用于將所述融合模塊得到的所述訓練語音樣本的深度語音特征作為所述分類器輸入特征,并將所述訓練語音樣本的語音類別作為所述分類器的輸出特征,對所述分類器進行訓練,得到所述經過訓練的分類器。8.根據權利要求6或7所述的裝置,其特征在于,所述融合模塊具體用于: 獲取預設的語音特征權重閾值,根據所述語音特征權重閾值與語音的每個語音特征對應的深度語音特征,得到所述語音的深度語音特征。9.根據權利要求6所述的裝置,其特征在于,所述語音特征包括:短時能量、持續時間、短時過零率、共振峰、基音頻率、線性預測倒譜系數LPCC、Mel頻率倒譜系數(MFCC)、Mel頻帶能量中的至少兩個。10.根據權利要求6所述的裝置,其特征在于,所述語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉音的語音鄉音特征;當所述語音特征為語音情感特征時,對應的,所述語音類別為語音情感類別;當所述語音特征為語音鄉音特征時,對應的,所述語音類別為語音鄉音類別。
【文檔編號】G10L15/06GK105895087SQ201610172175
【公開日】2016年8月24日
【申請日】2016年3月24日
【發明人】高偉杰, 任曉楠, 王峰
【申請人】海信集團有限公司