一種面向簡易精神狀態量表的個性化信息和音頻數據分析方法及系統的制作方法
【專利摘要】本發明公開了一種面向簡易精神狀態量表的個性化信息和音頻數據分析方法及系統。通過采集被試者的個人信息,讓被試者完成MMSE量表規定題目同時錄制發音音頻,針對病理特性提取語音音頻的聲學特征,并利用高階統計量表征;然后利用特征選擇的方法降低特征的冗余性;將降維后的聲學特征與被試者的個人信息融合得到個性化特征;最后利用獲取數據構建被試者的發音情況與簡易精神量表認知關系的病理模型,并利用交叉驗證的方法進行分析。本發明不需要任何侵入性治療,僅僅需要分析獲取數據與病理模型之間的關系即可預測被試者的身體狀態,節省檢查時間和金錢,減少被試者在檢查過程中經受的痛苦同時避免了醫生主觀性判斷對結果的影響。
【專利說明】
一種面向簡易精神狀態量表的個性化信息和音頻數據分析方法及系統
技術領域
[0001]本發明屬于數字醫療領域,具體涉及一種面向簡易精神狀態量表的個性化信息和音頻數據分析方法及系統。
【背景技術】
[0002]神經系統失調,包括老年癡呆,帕金森,小血管病,腦卒中等類似病癥,多是由大腦,脊髓,腦神經細胞受到損傷而引起機體的變化。人體各器官與主要表現都直接或者間接處于神經系統的調節控制之下,因此神經系統受到損傷,其主要表現為難以正常,清晰有效的發音與行動的不便,認知功能下降等方面。其中語言表達作為人們日常情感交流的有效途徑,受到損傷不但影響患者的身體心理健康,而且極大的影響了人們的工作和生活。隨著社會進步,壓力不斷增大,每年都有成千上百萬的人患有精神系統類的疾病,并且隨著人口逐步趨于老齡化,這些統計數量還將繼續增加。因此發音質量下降作為神經系統失調病癥的早期表現,研究如何通過聲音分析判定神經系統疾病對人們的生活質量具有極其重要的意義。
[0003]目前為止,醫學界分析聲音質量主要根據醫生的專業知識與實際經驗做出主觀判斷;或是通過內窺鏡等喉鏡檢查項目,不但消耗時間,同時增加了病人的經濟負擔,并且給病人造成了極大的痛苦。隨著人機交互技術的發展,人機交互技術逐步涉及到軍事,醫療,教育等多個領域。因此研究計算機專家輔助治療的方法,利用數字信號處理技術提取語音音頻中的有效聲音信號,得到簡單,快速,非侵入性的病理分析檢查系統,可減小醫生的主觀判定對病情的判斷與侵入性儀器檢查給病人帶來的痛苦,目前具有十分重要的意義。
[0004]簡易精神狀態量表是針對神經認知功能的初步篩查量表,在檢查過程中通過回答問題,可得到反應該被試者神經認知功能狀態的連續性得分。在傳統的聲音信號分析中,一般通過分析聲音特征與是否患有疾病的關系進行二值分類訓練,只能得出被試者患病以及未患病兩種結果,而無法預測和判定被試者患有神經系統失調的概率和程度。
【發明內容】
[0005]本發明針對上述問題,提出一種面向簡易精神狀態量表(MMSE)的個性化信息和音頻數據分析方法及系統。該方法借助簡單的麥克風得到被試者的語音輸入,并使用該語音音頻提取對噪聲具有抵抗能力的聲音特征同時融合被試者的個性化信息得到相應的融合特征進行分析訓練,實現了在不同的噪音環境下對被試者音頻數據的分析,將該分析結果與被試者的MMSE評分數據相結合,還可以進一步得到被試者精神狀態檢測得分。
[0006]本發明采用的技術方案如下:
[0007]—種面向簡易精神狀態量表(MMSE)的個性化信息和音頻數據分析方法,具體包括以下步驟:
[0008](I)獲取被試者的個性化信息以及發音音頻數據;
[0009](2)從獲取的發音音頻數據中提取有效的錄音段;
[0010](3)從有效的錄音段中提取音頻特征,并與被試者的個性化信息融合得到個性化融合特征;
[0011](4)將得到的個性化融合特征進行訓練分析,得到被試者音頻數據的分析結果。
[0012]進一步地,所述被試者的個性化信息包括:被試者的年齡,性別,教育程度,既往病史等反應其個人特性的信息。
[0013]進一步地,為了避免被試者由于精神緊張,情緒焦躁等原因對評分結果的影響,使被試者充分盡量保持自然狀態,沒有選擇密閉空間,而是選擇在普通場所完成簡易精神狀態量表設定問題;為了排除文化水平等方面對題目所產生的理解差異,通過專業醫生對被試者進行引導,幫助被試者對所做問題進行理解,按照要求完成設置題目,按照被試者在正常狀態下的完成情況進行評分。
[0014]進一步地,為了保持錄制聲音的普遍性,錄音條件并沒有選擇錄音室等適用于實驗的錄制地點,只是在完成量表的同時完成了音頻錄制,在錄制過程中,為了體現被試者正常的生理狀態,要求被試者在舒適坐姿的情況下,保持錄音器材與嘴唇之間的距離,在自然的語調和音強發音的情況下,即不要刻意提高或是壓低音調。在錄制之前,醫生進行示范發音,并讓被試者進行練習發音,待其在放松的情況下,開始錄音。
[0015]進一步地,步驟(2)包括:對獲取的發音音頻數據進行端點檢測或是人工語音切分,截取最能反映用戶聲音特點的錄音段,并且剔除空的,壞的等影響模型訓練質量的錄音音頻,為了驗證訓練方法在日常錄音條件下的適用情況,對錄音音頻添加不同信噪比的高斯噪聲,得到不同信噪比的錄制音頻。
[0016]進一步地,步驟(3)中,根據神經系統失調的病理特征,從有效的錄音段中提取音頻特征,并用高階統計量進行表征后再與被試者的個性化信息融合。
[0017]進一步地,神經系統失調的病理特征主要表現為發音強度或氣息較弱;發音夾雜著呼吸噪音等方面;發音器官的一些細微變化。因此為進一步試驗此算法流程的通用性,針對上述三個病理方面,提取常用的傳統特征表示上述病理特征。
[0018]進一步地,為降低環境噪音等外部因素對特征描述效果的影響,選擇常用于聲音活動性檢測領域的可抑制噪聲影響的高階統計量描述針對病理提取的聲音特性的表述。
[0019]進一步地,步驟(3)還包括對高階統計量表征的音頻特征進行特征選擇,以降低輸入音頻特征之間的信息冗余。通過選擇具有區分度的重要特征,即類間距離大而類內方差小的特征,降低訓練的復雜性,提高模型的精度;也可用交叉驗證的方法進行特征選擇,提高選擇特征的穩定性。如提取的特征已足夠精簡,此步驟亦可省略。
[0020]進一步地,通常針對病理聲音對疾病進行判斷都僅僅提取能較好表述語音發音本身的特征,而忽略了聲音與發音人之間的關聯性。這里考慮到被試者的個人特質,如文化水平,年齡等因素,對大腦細胞神經控制表述能力與發音器官運動能力的影響,將能反應其身體狀態和文化水平等個性化信息加以提取,與通用的聲音特征相融合得到能更好反應其身體與心理狀態的特征表達。
[0021]進一步地,將融合后的個性化信息表達結果作為最終的特征輸入訓練回歸模型,為保證訓練模型的健壯性,我們隨機選取訓練樣本構造病情擬合模型避免發生過擬合的情況。
[0022]基于音頻及個性化融合特征得到的擬合訓練模型,被試者的認知回歸分析與檢測方法具體如下:
[0023]I)利用交叉驗證的方法。
[0024]2)計算統計量或對結果進行統計分析。
[0025]進一步地,為了驗證模型的穩定性,我們利用交叉驗證的方法對擬合效果進行評價。
[0026]進一步地,可以通過擬合結果與真實值對比等分析方法得到訓練模型的準確性與健壯性。
[0027]—種面向簡易精神狀態量表(MMSE)的個性化信息和音頻數據分析系統,包括:
[0028]數據采集模塊,用于采集被試者的個性化信息,簡易精神狀態量表評分數據以及發音音頻數據;
[0029]數據預處理模塊,用于對被試者的發音音頻數據進行預處理,以提取有效的錄音段;
[0030]病理識別模型構建模塊,用于根據有效的錄音段構建病理識別模型;又包括:
[0031 ]特征提取子模塊,用于從有效的錄音段中提取音頻特征;
[0032]個性化特征融合子模塊,用于將提取的音頻特征與被試者的個性化信息進行融合,構建病理識別模型;
[0033]病理數據回歸分析模塊,用于根據采集的簡易精神狀態量表評分數據以及構建的病理識別模型對病理數據進行回歸分析,得到被試者的精神狀態評分。
[0034]進一步地,所述特征提取子模塊根據神經系統失調的病理特征從有效的錄音段中提取音頻特征并用高階統計量進行表征。
[0035]進一步地,上述病理識別模型構建模塊還包括特征選擇子模塊,用于在與被試者的個性化信息進行融合之前通過降維對高階統計量表征的音頻特征進行選擇。
[0036]與現有技術相比,本發明具有的優點和積極效果如下:
[0037]I)本發明給出了通過訓練聲學特性與簡易精神量表回歸關系模型分析被試者音頻數據的計算機輔助方法。
[0038]基于該方法的系統可檢測被試者是否患有神經失調,避免了患者檢查過程中通過侵入式儀器測量帶來的痛苦,同時省去病人檢查過程和等待結果中所耗費的時間精力。
[0039]2)本發明根據神經失調可能引起的病理特性進行特征提取,并計算特征的高階統計量作為最終的輸入特征。
[0040]針對病理反應提取音頻的有效特征能更好的體現此類病癥的特點,使提取特征更加全面與可靠,通過高階統計量抑制噪聲對特征分析的影響,即使錄制音頻在噪音嘈雜的環境下也能得提取很好的特征。
[0041]3)本發明將提取的音頻特征與被試者的個人信息進行融合,得到個性化融合特征。
[0042]加入其他通道的信息與傳統的特征的高階統計量融合,得到從多維度反映被試者信息的特征,更有利于分析被試者與神經系統失調認知之間的關系。
【附圖說明】
[0043]圖1為本發明場景操作示意圖。
[0044]圖2為本發明計算機輔助流程示意圖。
[0045]圖3為本發明的【具體實施方式】示意圖。
[0046]圖4為本發明交叉驗證特征選擇選擇方法示意圖。
【具體實施方式】
[0047]為使本領域的技術人員更好的理解本發明,下文通過具體實施例,并結合附圖,做詳細的說明,但不構成對本發明的限制。
[0048]本發明可通過如圖1,2了解本發明操作場景和框架,主要包括采集訓練數據,數據預處理,構建病理識別模型以及數據擬合與分析四部分,其中被試者只需采集訓練數據,其他通過計算機輔助即可預測是否患有精神疾病及程度。其算法是在matlab7.10.0的條件下處理和訓練數據實驗,具體如圖3所示如下:
[0049]I)采集訓練數據,這部分的工作是實驗的基礎,為后續的處理與訓練做準備,其具體的工具與參數如下:
[0050](I)被試者信息采集及MMSE量表檢查部分,首先通過詢問將被試者的信息作為備案得到個性化的記錄。此量表在專業醫生的引導下進行,通過醫生與被試者的交流互動,記錄被試者對問題的完成程度根據其專業判斷給出相應得分。當患者對題目理解困難或者產生歧義時,醫生給出合理的說明與示范幫助被試者理解問題。與之前的檢查不同的是,此項檢查支持用戶在電腦上進行,將互動結果得到實時的電子記錄保存,對于檢查過程更加快捷,方便,有效。本發明對電腦設備的要求并不高,滿足正常的觀看,交互,采集使用即可。
[0051](2)聲音采集部分,為了讓被試者不受設備的束縛,使用了森海塞爾的外置麥克風,為保持錄取數據一致,要求被試者采集語音時與麥克風距離為1cm左右,單聲道,采樣率為44110赫茲。現階段的語音分析主要包括連續語音分析以及單元音發音分析,由于連續語音存在構音困難等語言學問題,因此我們選擇連續語音分析。其中元音/ah/的發音與其他元音效果大致相同,因此本發明要求被試者在舒服的情況下,盡可能保持正常的音調和音量發出元音/ah/,要求每位被試者錄制3次。
[0052]2)數據預處理,這部分的工作是整個工作的基礎部分,將采集的音頻數據進行清理,剔除失效數據,同時提取量表的對應分數,為后續步驟做準備。
[0053](I)音頻處理部分,這部分的工作是提取能夠反應被試者發音特性的有效音頻,其主要的步驟如下依次進行:
[0054]1.通過語音檢測或是人工確認的方法去掉壞音頻,空音頻等錄制情況。
[0055]i1.通過端點檢測或是人工截取的方法去掉開始結束的過高過低音。
[0056]ii1.向已有音頻中加入不同信噪比的高斯噪聲得到新的語音音頻,模擬環境噪音對聲音判別的影響
[0057](2)提取個性化信息及量表總分,這部分主要提取主要信息,作為個性化融合的信息與擬合結果的判定標準分別保存。
[0058]3)構建病理識別模型,這部分的工作是整個重點部分,如何有效提取聲學數據進行訓練,得到健壯的分類器對病理聲音進行更好的回歸分析具體研究如下。
[0059](I)特征提取。聲音特征為代表其發音情況的有效部分,因此如何提取有效特征表征被試者的自身發音情況與身體狀態模型的訓練具有重要意義。這里我們根據病理效果提取聲音特征,為了抑制環境等噪聲的影響使用特征的高階統計量作為最終的表達方式。
[0060]a)神經系統失調對病人會產生幾方面影響,根據病理提取特征具體如下:
[0061 ] 1.聲道器官的發音情況。被試者是健康的情況下,其聲道的發音情況應該是周期性的震動,為了反映被試者對發音器官的控制程度,本發明采用jittenshimmer等傳統特征信息測量聲道的周期性,為了更好的表述,今后可以嘗試其他周期性測量方法。
[0062]i1.信噪比,由于聲道的不完全閉合可能對產生大量的病理聲音具有更多的發音噪聲,因此會有更多的發音噪聲,如何在大量噪音中提取和計算有效音頻比例能有效反應被試者的健康情況。
[0063]ii1.發音器官的細微變化,如果受到神經失調等因素的影響,被試者在發音過程中,舌頭,嘴唇等發音器官會有細微的變化,可以選擇me 1- frequency cepstralcoefficients (MFCC)等特征描述此類細微的變化。
[0064]根據上述描述,依據病理特性提取上述幾方面特征表述音頻。近年來,頻域特征,小波變換等特征提取方法顯示了較好的效果,可以作為以后選擇研究的方向。
[0065]b)高階統計量表征特征,
[0066]在信號處理應用中,高階統計量在高斯和非高斯過程和非線性系統應用中都具有較好的效果。處理語音信號時,高階統計量抑制高斯噪聲保持其相位信息,將語音信息從高斯噪聲中分離,因此常提取語音信號觀測特征的高階統計量進行語音的活動性檢測。這里針對病理特性進行特征提取,計算相應的高階統計量作為特征表達從而抑制環境噪聲等因素對提取特征效果的影響。
[0067](2)特征選擇
[0068]雖然特征與分類器之間并不存在確定的線性關系,但是當提取特征維數較高,超出一定的范圍時會降低分類系統的訓練速度與準確性。實際上某些特征沒有或是包含極少的信息,同時特征之間具有一定的重復性,其對分類結果根本沒有影響,因此如何降低特征維數,提高訓練的效率與精度具有十分重要的意義。我們利用交叉驗證的方法進行特征選擇,如圖4所示:
[0069](I)特征子集的選擇與交叉驗證的數據選擇方法相同。以10折交叉驗證為例,每次將M個N維音頻隨機分為10份,輪流將其中90 %作為訓練集,數據量為M*90 %,剩余10 %作為測試集,數據量為M*10%。
[0070](2)通過某種特征選擇的方法對特征子集的N維特征進行降維,得到十個降維后的n(n〈N)維向量。理論上10次數據集的特征選擇結果相同,但是實際并不相同,因此用對結果進行統計。
[0071](3)應用投票機制,首先創建一個空的集合存放最終的特征選擇結果,對于每一維K(K為1...Ν的標量),我們從10*K個特征元素選擇出現頻率最高并且之前沒有選擇的特征放入最終的特征選擇集合。
[0072](3)個性化特征信息融合
[0073]個性化信息融合可提高信息的可探測性和可信度,擴大信息的廣度,使得提出信息能對所述事情進行更好的表達。目前通常只利用聲音特征進行擬合分類訓練,但是單通道信息特征得到的信號特征較為粗糙,很難更好的表達被試者的個人情況。如果通過某種處理方法,同時從多個通道獲得多方位信息,將信息進行綜合,是這些信息互相補充,完整的體現多種信息特性與感知信息對聲音信息的補充從而更加準確的描述環境或是被試者本身的狀態。因此在聲音特征中,我們加入年齡,性別,教育程度等能多方位體現其個人心里和心里狀態的特征信息得到最終的融合信息。
[0074](4)模型訓練
[0075]要想對病情進行準確擬合與預測,就要訓練一個穩定的分類器。這里將獲取個性化融合特征,如我們有M個音頻,每個音頻的個性化融合特征N維,將M個N維特征作為隨機森林,神經網絡等方法的輸入特征進行訓練,得到準確,穩健的回歸分類器,對病理結果進行有效分析。
[0076]4)回歸分析與預測
[0077]通常有傳統的分配方法和交叉驗證的方法進行擬合訓練分析,為確保結果的可靠性,普遍采用交叉驗證的方法,其中10折交叉驗證的方法最為常用,進行分類訓練與回歸分析。為驗證結果的有效性,常用擬合值與真實值誤差mean absolute classificat1nerror (MAE)等統計結果表征結果的有效性。
[0078]通常簡易精神狀態量表在合計總分時,8分和9分均按O分計算。最高分為30分。27-30分為正常狀態,21-26認為患有輕度的神經認知功能疾病,10-20患有中度的神經認知功能疾病,0-9分為重度的神經認知功能疾病。同時劃分是否患有精神疾病與受教育程度有關,因此如果老年人是文盲又小于17分、小學又小于20分、中學以上又小于24分,則為重度的神經認知功能疾病,因此將分析數據與已有標準進行比較,即可得知被試者患病概率與程度。
[0079]將模型預測的分值結果與已有標準進行比較,如預測分值為24分,其中分值在S1-ze 認為患有輕度的神經認知功能疾病,因此判定被試者可能患有輕度神經認知功能問題。
[0080]基于上述方法實現的系統,可以通過回歸訓練找到發聲障礙與神經功能系統的關系,讓被試者在普通場景內通過自然,無負擔的交流,同時根據神經失調的普遍病理特征提取語音音頻相應的語音音頻特征做訓練,與量表分數進行回歸分析,即可對被試者的認知功能是否具有障礙進行初步的分析與篩選。并且在實際應用時,患者只需平穩發音,即可利用已有模型進行分析檢測。
[0081]以上實例通過個性化特征融合對聲音進行模擬分析僅用以說明本發明的技術方案而非對其進行限制,本領域的普通技術人員在而不脫離本發明的精神和范圍時,可以對本發明的技術方案進行修改或者等同替換,本發明的保護范圍應以權利要求所述為準。
【主權項】
1.一種面向簡易精神狀態量表的個性化信息和音頻數據分析方法,具體包括以下步驟: (1)獲取被試者的個性化信息以及發音音頻數據; (2)從獲取的發音音頻數據中提取有效的錄音段; (3)從有效的錄音段中提取音頻特征,并與被試者的個性化信息融合得到個性化融合特征; (4)將得到的個性化融合特征進行訓練分析,得到被試者音頻數據的分析結果。2.如權利要求1所述的面向簡易精神狀態量表的個性化信息和音頻數據分析方法,其特征在于,所述被試者的個性化信息包括:被試者的年齡,性別,教育程度,既往病史。3.如權利要求1所述的面向簡易精神狀態量表的個性化信息和音頻數據分析方法,其特征在于,步驟(2)包括:對獲取的發音音頻數據進行端點檢測或是人工語音切分,并且剔除影響模型訓練質量的錄音音頻,然后對錄音音頻添加不同信噪比的高斯噪聲,得到有效的錄音段。4.如權利要求1所述的面向簡易精神狀態量表的個性化信息和音頻數據分析方法,其特征在于,步驟(3)中,根據神經系統失調的病理特征,從有效的錄音段中提取音頻特征,并用高階統計量進行表征后再與被試者的個性化信息融合。5.如權利要求4所述的面向簡易精神狀態量表的個性化信息和音頻數據分析方法,其特征在于,步驟(3)還包括:對高階統計量表征的音頻特征進行特征選擇。6.如權利要求5所述的面向簡易精神狀態量表的個性化信息和音頻數據分析方法,其特征在于,步驟(3)還包括:通過選擇具有區分度的特征或交叉驗證的方法對高階統計量表征的音頻特征進行特征選擇。7.—種面向簡易精神狀態量表的個性化信息和音頻數據分析系統,包括: 數據采集模塊,用于采集被試者的個性化信息,簡易精神狀態量表評分數據以及發音音頻數據; 數據預處理模塊,用于對被試者的發音音頻數據進行預處理,提取有效的錄音段; 病理識別模型構建模塊,用于根據有效的錄音段構建病理識別模型,又包括: 特征提取子模塊,用于從有效的錄音段中提取音頻特征; 個性化特征融合子模塊,用于將提取的音頻特征與被試者的個性化信息進行融合,構建病理識別模型; 病理數據回歸分析模塊,用于根據采集的簡易精神狀態量表評分數據以及構建的病理識別模型對病理數據進行回歸分析,得到被試者的精神狀態評分。8.如權利要求7所述的面向簡易精神狀態量表的個性化信息和音頻數據分析系統,其特征在于,所述預處理包括:對發音音頻數據進行端點檢測或是人工語音切分,剔除影響模型訓練質量的錄音音頻,以及對錄音音頻添加不同信噪比的高斯噪聲。9.如權利要求7所述的面向簡易精神狀態量表的個性化信息和音頻數據分析系統,其特征在于,所述特征提取子模塊根據神經系統失調的病理特征從有效的錄音段中提取音頻特征并用高階統計量進行表征。10.如權利要求7所述的面向簡易精神狀態量表的個性化信息和音頻數據分析系統,其特征在于,所述病理識別模型構建模塊還包括特征選擇子模塊,用于在與被試者的個性化 信息進行融合之前通過降維對高階統計量表征的音頻特征進行選擇。
【文檔編號】A61B5/00GK106073706SQ201610382274
【公開日】2016年11月9日
【申請日】2016年6月1日 公開號201610382274.0, CN 106073706 A, CN 106073706A, CN 201610382274, CN-A-106073706, CN106073706 A, CN106073706A, CN201610382274, CN201610382274.0
【發明人】李洋, 陳輝, 張鳳軍, 田豐, 王宏安
【申請人】中國科學院軟件研究所