本發明涉及語音幫助;語音增強;語音處理等醫療康復器械。具體講,涉及提高肌肉萎縮或神經退行性病人語音可懂度裝置和方法。
背景技術:
目前全世界的老齡化程度越來越嚴重,尤其在工業化國家老齡化更為嚴重,中國因為長時間的計劃生育政策也走上老齡化道路。而老年人因為年齡的增加,導致發音部位的肌肉萎縮,發音不清楚,使人聽不懂。
一些神經退行性疾病,例如帕金森氏癥、老年癡呆癥、多發性硬化癥、肌萎縮性脊髓側索硬化癥(ALS)等也會導致發音不清楚。著名科學家霍金就是ALS患者。而這些疾病跟人口結構變化關系密切,因為導致這些疾病的一大原因是年齡增長。
目前肌肉萎縮或神經退行性語音病人去語音診所進行語音治療(speech therapy)。語音治療周期性長、費用高,并且持久性差。因為肌肉萎縮或神經退行性導致發音可懂度低的病人經過長期治療后,雖然語音可懂度會有所提高,但是過些年后其可懂度又會變差。
到目前為止,申請人尚未發現通過信號處理改善肌肉萎縮或神經退行性病人發音可懂度的文獻,但是查找到了用于其它目的改善語音可懂度的報道。
文獻[1]通過檢測和增強語音共振峰附近頻率信號成分來改善低語可懂度。[2]處理語音基礎頻率和其諧波頻率信號成分,從而來提高由于接受帶寬受限傳輸通道語音信號聲碼器的可懂度。[3]通過根據噪聲和語音信號功率關系控制語音信號增益,來提高系統可懂度。[4]通過增強語音共振峰附近頻率信號成分等措施來加大輔音對比度,以便解決由于語音信號在傳輸或處理過程中帶寬降低所造成的可懂度下降問題。[5]通過使用一個近似逆等響曲線的頻率響應函數濾波,解決由于背景噪聲造成的語音可懂度下降問題。[6]通過共振峰增強來提高由于背景噪聲帶來的對話可懂度降低問題。[7]通過動態頻譜形狀修改增強輔音來提高助聽器、或傳輸之后語音信號的可懂度。[8]通過自適應音頻系統改善通信設備音頻信號的可懂度。[9]也是通過共振峰增強來提高由于背景噪聲帶來的對話可懂度降低問題。該專利申請基于線譜對系數鑒別語音區的存在。
[1]Ian Vince McLoughlin,Hamid Reza Sharifzadeh,Farzaneh Ahmadi,Method and System for Reconstructing Speech from an Input Signal Comprising Whispers,US patent application 2012/0150544
[2]Mark Lewis Grabb,Enhancement of Speech Signals Transmitted over a Vocoder Channel,US patent 6,081,777
[3]Toru Marumoto,Nozomu Saito,Voice Intelligibility Enhancement System and Voice Intelligibility Enhancement Method,US patent 8,249,259
[4]Nico R.Chong-White,Richard Vandervoort Cox,Enhancing Speech Intelligibility using Variable-Rate Time-scale Modification,US patent 7,065,485
[5]Arnold I.Klayman,Voice Intelligibility Enhancement System,US patent 6,993,480
[6]Arnold I.Klayman,Public Address Intelligibility System,US patent 5,459,813
[7]James M.Kates,Speech Intelligibility Enhancement,US patent 4,454,609
[8]楊均等,用于自適應話音可懂度處理的系統,中國專利申請CN 102498482
[9]吳潤學,撲海光,使用共振峰增強對話的方法和裝置,中國專利申請CN 1619646。
技術實現要素:
為克服現有技術的不足,本發明旨在提出一種語言增強算法,通過智能手機編寫軟件以一種App的形式實現該算法。不易懂語言通過智能手機的麥克風輸入,增強之后變得易懂的語音通過智能手機的揚聲器輸出。除了智能手機的App形式外,還可開發改善語音可懂度的專用手提電子設備。為此,本發明采用的技術方案是,由手機及設置在手機上的語音增強模塊構成,不易懂語言通過手機的麥克風輸入,經增強模塊增強之后變得易懂的語音通過智能手機的揚聲器輸出;其中,增強模塊包括:傅里葉變換模塊,用于對語音信號進行傅里葉變換,變換后輸出到自適應濾波器模塊,自適應濾波器模塊利用參考頻譜進行訓練,所述參考頻譜為生病前語音頻譜的模型,或者是對于每個年齡段、性別、地區從健康人的發音進行統計得到語音頻譜模型,訓練完畢后的自適應濾波器對輸入的信號進行增強,最后經傅里葉逆變換輸出增強后的語音。
還包括共振峰檢測模塊:若存儲了病人健康時候的語音,通過該語音由共振峰檢測模塊進行共振峰檢測,通過倒頻譜法或LPC方法得到共振峰頻率,增強病人語音共振峰頻率附近的信號成分,特別是前三個共振峰頻率附近的信號成分。
更進一步地,共振峰檢測模塊中通過多種共振峰檢測方法檢測到多種共振峰的檢測結果,這些不確定的結果,即弱特征,通過模糊邏輯的方法或自適應增強的方法綜合從而形成一種強特征,若存關于病人健康語音共振峰的先驗知識,也可用來提高共振峰的檢測結果。
還包括下采樣模塊,先采用由低通濾波和樣本的取舍兩部分形成的下采樣步驟,進行語音噪聲區分,然后對原信號和下采樣信號分別進行共振峰檢測,并綜合使用原信號和下采樣信號檢測共振峰的結果,以便可靠檢測共振峰。
還包括輔音檢測模塊,利用元音以及語音區和非語音區的區分結果檢測輔音的存在,一旦確定了輔音的存在,即對其增強。
在一個實例中,具體地:
通過每兩個樣本舍去一個的下采樣模塊區分語音區和非語音區;
通過檢測共振峰模塊,采用局部最大點、LPC或兩個以上的共振峰檢測方法,檢測共振峰;
輔音檢測模塊,利用元音以及語音區和非語音區的區分結果檢測輔音;
增強共振峰頻率附近的語音信號成分,特別是增強前三個共振峰頻率附近的語音信號成分;增強輔音;通過模糊邏輯融合增強結果。
本發明的特點及有益效果是:
語音交流無論對日常生活,還是對就醫看病都是至關重要的,因此提高老年人語音可懂度具有重要意義。
通過智能手機語音App或改善語音可懂度專用手提電子設備的處理,肌肉萎縮或神經退行性病人發出難懂的語音變得易懂,可以提高病人的自理能力,也可提高其生活質量。
這種通過信號處理改善肌肉萎縮或神經退行性病人發音可懂度的方法可以代替耗時的語音治療,大大降低醫療費用。
附圖說明:
圖1一種提高肌肉萎縮或神經退行性病人語音可懂度的實現舉例。
圖2下采樣原理圖。
圖3下采樣提高相鄰留取樣本數據(ο和ο)的差值。
圖4采取下采樣方法檢測共振峰。
圖5采取下采樣方法檢測語音與非語音區。
圖6局部最大和最小點。
圖7一種提高肌肉萎縮或神經退行性病人語音可懂度的實現舉例。
圖8示出提高肌肉萎縮或神經退行性病人語音可懂度裝置和方法的流程圖。
肌肉萎縮或神經退行性病人對著智能手機講話,智能手機在對該語音進行分析和處理之后進行增強,增強后的語音通過揚聲器給出。
通過智能手機語音App形式來改善肌肉萎縮或神經退行性病人發音可懂度,如圖7所示。
具體實施方式
(1)存在病人語音記錄的情況
如果肌肉萎縮或神經退行性病人存在患病前的語音記錄,利用病人的語音記錄可以較容易地提高肌肉萎縮或神經退行性病人語音可懂度。語音數據就像其他反映身體健康的數據(例如血壓、血糖、脈搏等)一樣被存儲起來,在必要的時候該語音記錄被當作參考信號,用來修正病人當前時刻的語音。此修正過程屬于信號處理中的逆濾波技術。
原則上,修正病人當前時刻的語音即可以在時域、也可在變換域(例如頻域)進行。在頻域進行語音矯正比較簡單,以下本發明討論在頻域進行語音矯正。
在頻域進行語音矯正,先將語音信號進行快速傅里葉變換(FFT),得到其頻譜。從參考語音信號數據的頻譜中可以得到代表健康語音的特征頻譜。該特征頻譜用來作為參考頻譜來矯正病人當前語音的頻譜。參考頻譜可以是病人生病前語音頻譜的模型。例如利用健康語音的傅里葉變換系數建立一個高斯混合模型(GMM:Gaussian Mixture Models)D(f)。由于語音信號為非穩定信號,需要使用短時間傅里葉變換(Short Time Fourier Transform);或者為了更好的性能,應用眾所周知的小波變換(Wavelet Transform)。
自適應濾波器的目的或任務是:將一個信號或模型(一般不甚理想,有待改進)與一個理想的信號或模型(一般被稱為參考信號或模型)進行比較,并自動調節自適應濾波器的系數,以便改進不甚理想的信號或模型,使之接近參考信號或模型。
高斯混合模型并不是唯一的方案,也可建立其它數學模型。
對矯正后病人當前語音的頻譜進行傅里葉逆變換(IFFT),即可得到矯正的語音,其可懂度會大大提高。圖1示出自適應語音矯正方案。
自適應濾波器的訓練一般無需經常進行。一次訓練好的自適應濾波器系數可以一直使用,直到病人的語音有較大變化。為了達到增強信號的目的,可以人為修改D(f),特別是提高其高頻信號分量的幅度。
上述頻譜矯正方法需要一個參考頻譜D(f),該參考頻譜不一定存在。
除了進行頻譜矯正外,還可以矯正或增強語音共振峰頻率附近的信號成分。由存儲的病人健康語音,例如通過倒頻譜法、LPC法等可以較容易得到共振峰頻率。由于LPC方法符合聲道特性,并且計算不是非常復雜,從而被廣泛應用。人語音前三個共振峰對語音可懂度至關重要,所以可以只增強病人語音前三個共振峰頻率附近的信號成分,這里可以采用諸如放大器等能夠增強語音信號成分的方法。
(2)不存在病人語音記錄的情況
直到目前為止,語音記錄尚不普及,所以必須面對沒有病人語音參考信號的情況。
(2.1)統計模型的方法
不存在病人語音的記錄,也可以得到參考頻譜。對于每個年齡段、性別、地區都可以從健康人的發音進行統計,從而得到所需參考頻譜統計模型頻率。
利用頻譜統計模型,通過逆濾波方法,例如圖1所示方法,矯正病人當前語音。
通過與病人互動、或與長期照顧病人的護理或家庭人員進行互動,還可以繼續優化統計模型,以便更好地矯正病人當前語音。
除了得到每個年齡段、性別、地區健康人的發音頻譜統計模型外,也可以得到其共振峰的先驗分布。
(2.2)元音共振峰檢測的方法
由于共振峰與語音的可懂度直接相關,增強共振峰頻率附近的語音信號成分,特別是增強前三個共振峰頻率附近的語音信號成分,可以有效地提高肌肉萎縮或神經退行性病人語音的可懂度。
但是檢測肌肉萎縮或神經退行性病人語音的共振峰遠比檢測一般語音共振峰困難,因為其元音共振峰與共振峰之間的分隔很不明顯、元音和輔音之間的分隔也很不明顯;另外,肌肉萎縮或神經退行性病人的語音信號弱,容易受噪聲干擾。
檢測肌肉萎縮或神經退行性病人語音共振峰采取的第一個措施是下采樣(downsampling).下采樣包含兩部分:低通濾波和樣本的取舍,如圖2所示。
低通濾波可以降低干擾,而舍棄樣本可以提高信號樣本的梯度值。圖3示出每兩個樣本數據留取一個的原理圖。其中ο和·分別表示取和舍的樣本。由該圖可以看出,相鄰留取樣本數據(ο和ο)的差值大于原來相鄰樣本數據(ο和·)的差值。因此,下采樣可以提高信號的陡度,有助于能量集中。
對原信號和下采樣信號分別進行共振峰檢測,從而提高共振峰檢測的準確性和可靠性。
上述下采樣處理不限于一次,可以多次;樣本數據取舍的比例也不一定限于圖3所示2:1情況。
下采樣處理還可以有助于區分語音區和非語音區。由于下采樣可以降低噪聲干擾,下采樣信號本身就有助于對語音區和非語音區的檢測。對原信號和下采樣信號分別進行語音區和非語音區檢測,并比較分別它們檢測的結果,可更有效地區分語音區和非語音區。很多文獻都介紹了區分語音區和非語音區的方法,例如利用能量、過零檢測等方法。
不僅利用下采樣區分語音區和非語音區,檢測共振峰也可以結合由下采樣和原輸入信號共振峰的檢測結果。
檢測共振峰可以利用語音區和非語音區的區分結果,也可以不利用語音區和非語音區的區分結果。
檢測肌肉萎縮或神經退行性病人語音共振峰采取的第二個措施是采用多于一個檢測共振峰的方法,例如采取兩個共振峰檢測方法,并將它們的檢測結果結合起來。結合的方法是模糊邏輯。
共振峰檢測方法很多,很多文獻都有介紹,例如LPC、倒頻譜方法(cepstrum)、bark-、mel-頻譜方法等等。
可以采用多種共振峰檢測方法進行檢測,每一種共振峰檢測可以檢測到語音的一種弱特征,多種共振峰檢測方法就能夠檢測到多種語音弱特征,這些弱特征可以通過模糊邏輯的方法綜合從而形成一種強特征,但是最好使用自適應增強的方法進行綜合。
語譜圖是語音分析的常用手段,很多文獻都有介紹。由于肌肉萎縮或神經退行性病人語音的共振峰不易檢測,可以直接尋找語譜圖的局部最大點。局部最大點被看作共振峰的候選位置,然后通過其它共振峰檢測方法和先驗知識對共振峰的候選位置進行篩選。
由于單個檢測共振峰的方法不一定能做出準確判斷,將幾個檢測共振峰方法的檢測結果采用模糊邏輯、自適應增強等方法結合起來,就能提高共振峰檢測結果的可靠性。
(2.3)輔音的檢測
輔音沒有元音那樣的共振峰。但是利用元音以及語音區和非語音區的區分結果可以有效檢測輔音的存在。一旦確定了輔音的存在,就可以對其增強,從而提高肌肉萎縮或神經退行性病人語音的可懂度。
(2.4)結合統計模型或參數與共振峰檢測的方法
由每個年齡段、性別、地區得到的健康人發音共振峰的先驗分布可以幫助共振峰的檢測,使得共振峰檢測結果更可靠。
本發明的一個實例步驟如下:
(3.1)通過智能手機語音App形式來改善肌肉萎縮或神經退行性病人發音可懂度。
(3.2)通過增強共振峰頻率附近的語音信號成分,特別是增強前三個共振峰頻率附近的語音信號成分,來提高肌肉萎縮或神經退行性病人語音的可懂度。
(3.3)通過每兩個樣本舍去一個的下采樣技術區分語音區和非語音區,以及檢測共振峰。
(3.4)采用兩個以上的共振峰檢測方法,尋找語譜圖的局部最大點、LPC等共振峰檢測方法是其中之一。
(3.5)利用元音以及語音區和非語音區的區分結果檢測輔音。