一種語音識別方法、裝置及語音控制系統的制作方法
【技術領域】
[0001] 本發明屬于語音識別技術領域,具體地說,是涉及一種語音識別方法、語音識別裝 置以及語音控制系統。
【背景技術】
[0002] 語音識別技術是一種重要的人機交互手段,可以應用在智能家電控制、工業現場 控制等多種場合。
[0003] 但現有的語音識別技術識別率較低,嚴重制約了語音識別技術的應用。
【發明內容】
[0004] 本發明提供了一種語音識別方法,解決了現有技術中語音識別率低的問題。
[0005] 為解決上述技術問題,本發明采用下述技術方案予以實現: 一種語音識別方法,包括下述步驟: 分別通過邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型中的任意兩個模型對語音 信號進行識別,獲得兩個識別結果; 比較所述兩個識別結果是否相同; 若否,則通過第三個模型對所述語音信號進行識別,獲得第三個識別結果;并比較第三 個識別結果與前兩個識別結果中的一個是否相同; 若是,則驗證相同的識別結果是否為正確識別結果; 若是,則輸出該識別結果。
[0006] 進一步的,當驗證出相同的識別結果不是正確識別結果時,所述方法還包括: 判斷是否存儲該識別結果對應的語音信號; 若是,則存儲該識別結果對應的語音信號。
[0007] 又進一步的,所述判斷是否存儲相同的識別結果對應的語音信號包括:判斷相同 的識別結果對應的語音信號連續收到次數是否大于等于設定次數。
[0008] 更進一步的,所述存儲該識別結果對應的語音信號包括: 對語音信號的特征參數分別進行邏輯回歸建模、深信度網絡建模、隱馬爾可夫建模,獲 得語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型; 將語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型進行存儲。
[0009] 優選的,采用支持向量機模型驗證所述相同的識別結果是否為正確識別結果。 [0010] 一種語音識別裝置,所述裝置包括: 識別模塊,用于分別通過邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型對語音信號 進行識別,獲得識別結果; 比較模塊,用于比較前兩個識別結果是否相同;以及在前兩個識別結果不同時,比較第 三個識別結果是否與前兩個識別結果中的一個相同; 驗證模塊,用于驗證相同的識別結果是否為正確識別結果; 輸出模塊,用于輸出該識別結果。
[0011] 進一步的,所述裝置還包括: 判斷模塊,用于判斷是否存儲相同的識別結果對應的語音信號; 存儲模塊,用于存儲相同的識別結果對應的語音信號。
[0012] 又進一步的,所述判斷模塊具體用于判斷相同的識別結果對應的語音信號連續收 到次數是否大于等于設定次數; 所述驗證模塊,具體用于采用支持向量機模型驗證相同的識別結果是否為正確識別結 果。
[0013] 再進一步的,所述存儲模塊包括建模單元和存儲單元,其中, 所述建模單元,用于對語音信號的特征參數分別進行邏輯回歸建模、深信度網絡建模、 隱馬爾可夫建模,獲得語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型; 所述存儲單元,用于將語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型進 行存儲。
[0014] 基于上述語音識別裝置的設計,本發明還提出了一種語音控制系統,包括控制終 端、云端服務器、被控終端,所述云端服務器包括所述的語音識別裝置和主控裝置;所述語 音識別裝置包括:識別模塊,用于分別通過邏輯回歸模型、深信度網絡模型、隱馬爾可夫模 型對語音信號進行識別,獲得識別結果;比較模塊,用于比較前兩個識別結果是否相同;以 及在前兩個識別結果不同時,比較第三個識別結果是否與前兩個識別結果中的一個相同; 驗證模塊,用于驗證相同的識別結果是否為正確識別結果;輸出模塊,用于輸出該識別結 果;所述控制終端發送的語音信號傳輸至所述語音識別裝置,所述語音識別裝置對接收的 信號進行處理后輸出識別結果至主控裝置,所述主控裝置根據接收到的識別結果生成控制 信號,并發送至被控終端。
[0015]與現有技術相比,本發明的優點和積極效果是:本發明的語音識別方法和裝置通 過采用邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型相結合的方法對語音信號進行識 另IJ,克服了單獨使用一種模型時識別準確率低的問題,識別準確率可提升至95%以上;采用 支持向量機模型驗證識別結果是否正確,在驗證出識別結果為錯誤識別結果時,可判斷是 否存儲該識別結果對應的語音信號,使裝置具有交互式學習的功能,提高了用戶使用滿意 度。本發明的語音控制系統,實現了對被控終端的遠程控制,減輕了被控終端的負載壓力, 用戶體驗好。
[0016] 結合附圖閱讀本發明的【具體實施方式】后,本發明的其他特點和優點將變得更加清 楚。
【附圖說明】
[0017] 圖1是本發明提出的語音識別方法的一個實施例的流程圖; 圖2是圖1中部分步驟的流程圖; 圖3是本發明提出的語音識別裝置的一個實施例的結構圖; 圖4是圖3中存儲模塊的結構圖; 圖5是本發明提出的語音控制系統的一個實施例的結構圖。
【具體實施方式】
[0018]為了使本發明的目的、技術方案及優點更加清楚明白,以下將結合附圖和實施例, 對本發明作進一步詳細說明。
[0019] 參見圖1所示,本實施例的語音識別方法的具體包括下述步驟: 步驟S10:語音信號輸入。
[0020] 步驟S11 :分別通過邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型中的任意兩 個模型對語音信號進行識別,獲得兩個識別結果。
[0021] 識別過程具體包括下述步驟,參見圖2所示: 步驟S11-1:對語音信號進行預處理。
[0022] 對語音信號進行預處理主要包括依次對語音信號進行采樣、去噪音、端點檢測、預 加重、加窗分幀等操作。
[0023]采樣,就是將模擬信號轉化為語音信號。由于原始語音信號是模擬信號,通過采樣 處理,將模擬的語音信號轉化為數字化的語音信號。
[0024]去噪音,就是去除聲音中的一些無用信息,保證信號的質量與速度。
[0025]端點檢測,就是找到語音信號的首尾兩個端點,一般采用兩級判斷法。
[0026]預加重,主要是為了加重語音信號的高頻部分,降低口唇對語音的影響。通常通過 一階高通數字濾波器來實現,傳遞函數為其中α為預加重系數,取值范 圍為 0.9-1. 0。
[0027]加窗分幀,用于將數字信號有限化。對語音信號進行加窗分幀,將語音信號分成若 干個分析幀。本實施例采用漢明窗函數進行加窗分幀。
[0028] 步驟S11-2 :提取語音信號的特征參數。
[0029]語音信號的特征參數非常多,為了提高識別率,本實施例分別從頻域、時域、對數 譜空間、倒譜空間去修正相應參數。
[0030]步驟S11-3:匹配。
[0031] 將語音信號的特征參數分別與預先存儲的語音信號的邏輯回歸模型、深信度網絡 模型、隱馬爾可夫模型中的任意兩個模型進行匹配,獲得兩個識別結果。
[0032]在本實施例中,將語音信號的特征參數分別與預先存儲的語音信號的邏輯回歸模 型、深信度網絡模型這兩個模型進行匹配,獲得兩個識別結果。
[0033]語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型預先存儲在模板庫 中。在模板庫中,事先存儲有多個語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫 模型。存儲過程為:對語音信號的特征參數分別進行邏輯回歸建模、深信度網絡建模、隱馬 爾可夫建模,獲得語音信號的邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型,并存儲在 模板庫中。
[0034]邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型的建模過程,以及語音信號分別 與邏輯回歸模型、深信度網絡模型、隱馬爾可夫模型的匹配過程為現有技術,具體可參見現 有技術,此處不再贅述。
[0035] 步驟S12 :比較兩個識別結果是否相同。
[0036]若否,說明兩個識別結果不相同,進入步驟S13; 若是,說明兩個識別結果相同,進入步驟S15。
[0037] 步驟S13 :通過第三個模型對語音信號進行識別,獲得第三個識別結果。
[0038] 在本實施例中,前兩個模型采用的是邏輯回歸模型、深信度網絡模型,第三個模型 采用的隱馬爾可夫模型。
[0039] 步驟S14 :比較第三個識別結果與前兩個識別結果中的一個是否相同。
[0040] 也就是說,判斷這三個識別結果中是否有兩個是相同的。
[0041] 若否,說明這三個識別結果各不相同,返回步驟S10。
[0042] 若是,說明第三個識別結果與前兩個識別結果中的一個是相同的,即三個識別結 果中有兩個是相同的,進入步驟s15。
[0043] 步驟S15 :驗證相同的識別結果是否為正確識別結果。
[0044] 在本實施例中,采用支持向量機模型驗證相同的識別結果是否為正確識別結果。
[0045] 由于采用支持向量機驗證識別結果為現有技術,此處不再贅述。
[0046] 若否,說明識別結果是錯誤的,進入步驟S16。
[0047] 若是,說明識別結果是正確的,進入步驟S18。
[0048] 步驟S16 :判斷是否存儲該識別結果對應的語音信號。
[0049] 若否,則不存儲,返回步驟S10 ; 若是,則存儲,進入步驟S17。