一種聽診器的制造方法
【專利摘要】一種智能電子聽診器,包括聽診頭,聽音管,聽音管的末端鏈接音頻采集系統、放大裝置、音頻信號分類系統、音頻信號識別系統、模板數據庫和語音播報系統。以上系統依次運行,并設有GUI程序控制界面和遷移到智能移動設備上的控制操作界面,所述控制界面上設置跟各程序相對應的控制鍵,當按下控制鍵時在Matlab程序中會運行對應系統程序,從而實現各系統所對應功能。該智聽診器成本低、易于操作、攜帶方便、快速診斷,并且可以應用于手機、平板電腦等智能移動設備,適合于家庭應用。
【專利說明】
一種聽診器
技術領域
[0001] 本發明屬于醫療器械技術領域,尤其涉及一種聽診器。 技術背景
[0002] 心音和呼吸音等人體內臟的音頻信號是人體內臟運動所產生的生理特征,它們蘊 含著相關器官的生理和病理信息。在醫學臨床中對音頻信號的病理分析能夠方便快捷的早 期預測各種疾病。但是傳統聽診方式中,由于我們人耳聽音功能的局限,是難以實現對人體 內臟音頻信號的準確把握。
[0003] 聽診器的音頻信號分析單元在向電子式的發展過程中只是在硬件環節上進行創 新,所需硬件設施復雜,成本很高,同時普通群眾無法負擔和使用。因此需要一種準確性高、 易于操作、攜帶方便、快速診斷、價格便宜并且能夠提供相關病情處理方法的聽診器,既可 以用于臨床診斷也可以被普通群眾用于平時生活的疾病預防。
【發明內容】
[0004] 本發明為了解決現有技術中存在的技術問題,提供了一種準確性高、易于操作、攜 帶方便、快速診斷、成本低的聽診器。
[0005] 本發明提供的一種聽診器包括包括聽診頭,聽音管,聽診頭連接聽音管,聽音管末 端連接芯片電路等,所述芯片電路包括顯示裝置、音頻采集系統、放大裝置、音頻信號分類 系統、音頻信號識別系統、模板數據庫和語音播報系統
[0006] 設有相應GUI控制應用程序,該GUI程序界面上設置跟各程序相對應的控制鍵,以 上系統存儲于計算機架構的硬件裝置中,當按下控制鍵時程序會運行對應模塊程序,從而 實現t吳塊對應功能。
[0007] 本發明是分模塊設計,總體的設計思路為:首先設計一個聲音采集系統,實現對聲 音控制命令的實時采集;其次,要設計一個聲音特征分類模塊,搭建聲音分類框架,實現對 聲音信號的分類;再次,設計聲音識別模塊,識別采集到的聲音控制命令;最后完成控制界 面的設計。
[0008] 音頻采集系統實時采集人體內臟的聲音和回放,經過聽音管傳遞到放大裝置,放 大裝置將聲音有效放大,開始聲音信號的實時采集和聲音錄制,并將采集到的聲音信號保 存到工作區間;然后讀取該聲音信號并將其賦給某一變量,保存該變量生成一個.mat的數 據文件。
[0009] 聲音分類系統的根本是KNN算法。這里,首先要用到采集聲音信號時生成的文件 名后綴為.mat的數據文件,通過加載該文件生成訓練樣本集矩陣;然后通過加載模板數據 庫中后綴為.mat的數據文件生成樣本集矩陣。隨后就是搭建KNN分類框架。
[0010] 利用KNN算法進行聲音分類的步驟為:
[0011] 第一步:將采集到的聲音信號轉化為數據集,然后將其分為訓練集和測試集,并根 據聲音信號的時域特征對訓練集作預處理,構造 KNN分類器;
[0012] 第二步:對測試集進行預處理,并確定其向量表示;
[0013] 第三步:用公式(2-1)計算訓練集向量與測試集向量的歐式距離,即相似度;
[0014]
[0015] 式中,待測樣本特征向量,p j為訓練樣本中j類樣本特征向量,X lk、Xjk為向 量對應的第K維。
[0016] 第四步:以第三步計算的相似度為標準,選出與測試數據向量最相似的K個訓練 數據向量,并用公式(2-2)依次計算每個訓練數據向量所屬類的權重;
[0017] =Σ sim(Pi, Pj)g(pj, dx) (2-2)
[0018] 式中,g(Pj,dx)為類別屬性函數,判別標準為:若 Pj屬于屯類,則g(p j,dx)函數值 為I ;若Pj不屬于d表,則g(p y dx)函數值為0。
[0019] 第五步:比較第四步中計算的每一個權重值,將測試數據分到權重值最大的那個 類別中;
[0020] 第六步:確定分類結果并評價。
[0021] KNN是一種無監督分類方法,算法速度快,精度高,實現簡單。
[0022] KNN算法最基本的東西就是訓練集的確定和聲音特征的選擇以及K值的確定。訓 練集的好壞和特征參數選取的合適與否將直接影響分類算法的性能;而K值的確定則直接 影響到預測結果的好壞。K值過低容易引起預測目標的不確定性,同時K值過高,預測目標 會出現過平滑現象。這樣就顯得一個合適的K值是十分必要的。由于有效參數的數目是和 K值相關,因此可以通過有效參數的數目這個概念來確定一個合適的K值。
[0023] 聲音識別系統的基礎是DTW算法,該系統的設計過程就是算法的實現過程。在實 現DTW算法的過程中,首先要對采集到的聲音控制命令信號進行端點檢測和聲音特征參數 提取,然后根據提取到的MFCC特征參數進行聲音識別。
[0024] 音頻信號識別系統使用動態時間規整(STW)算法,首先要對采集到的音頻控制命 令信號進行端點檢測和聲音特征參數提取,然后根據提取到的MFCC特征參數進行聲音識 另IJ。聲音信號的特點是短時平定,長時時變,它具有瞬時穩態性,因此對聲音信號的處理一 般可以采用短時處理技術,這種處理可以作為聲音識別前的預處理。在對聲音信號進行主 要預處理就是聲音信號端點檢測和聲音特征系數提取。在DTW算法中,端點檢測是在訓練 和建立模板以及識別階段中確定有效聲音信號起點和終點的必不可少的方法;而聲音特征 系數提取則是聲音識別的根本,是建立訓練樣本的主要依據。在這兩者的基礎上,聲音識別 的過程就是一個模板匹配的過程。此過程包含端點檢測、聲音特征參數提取、測試模板和參 考模板的訓練以及測試模板與參考模板的匹配等一系列過程。在這些過程結束之后,就可 以根據DTW算法進行聲音識別,然后將識別結果輸出。
[0025] 聲音信號的端點檢測技術是指用數字聲音處理技術提取一段有效聲音信號,而存 儲和處理的過程也只針對那段有效聲音信號。聲音信號的端點檢測是聲音分析、合成和識 別中必不可少的一個重要環節,其算法的性能在一定程度上也直接影響了整個聲音識別系 統的性能。在端點檢測的過程中主要用到的基本參數有短時平均過零率、短時能量、相關函 數相等。在進行端點檢測時最常用的方法是利用短時能量和短時過零率這兩個參數設置雙 門限對聲音信號進行檢測,這種方法被稱為雙門限端點檢測法。
[0026] 在聲音識別技術領域中,聲音識別中可以用到的聲音特征參數有倒譜系數、短時 能量、信號基頻、共振峰值等聲音特征參數,目前在聲音識別算法中較為常用且實用的是兩 種倒譜系數,這兩種倒譜系數分別為線性預測倒譜系數(LPCC)和Mel倒譜系數(Mel-fre-quency-cepstrum-coefficient,MFCC)。這兩種倒譜系數都是先將聲音信號從時域變換到 倒譜域上,然后在倒譜域上求倒譜系數。但前者是在人的聲學模型的基礎上,利用線性預測 編碼(LPC)來對聲音信號求取倒譜系數;后者是在人的聽覺模型基礎上,對聲音信號進行 檢測,然后以聲音信號通過該模型的輸出為聲音聲學特征,直接對聲音信號進行離散傅里 葉變換(DFT),最后再通過一系列變換求取倒譜系數。在本發明中,主要提取的特征參數為 MFCC,主要是因為經過與LPCC參數的比較,MFCC參數的優點如下:
[0027] 聲音信號的低頻部分包含了大部分的有效聲音信息,而環境噪聲會干擾信號的高 頻部分,致使聲音信號產生失真;但MFCC參數采用的是Mel頻標,這樣就加強了對聲音信號 低頻信息的保護,從而保護了有利于參數提取和聲音識別的低頻聲音信息,因此就避免了 噪聲對聲音信號識別產生的干擾。
[0028] MFCC在各種情況下均可使用,無任何前提假設。
[0029] 在本發明中,動態時間規整(DTW)算法是在進行聲首識別過程中米用的主要算 法。該算法是一種非線性時間規整技術,該技術以距離測度函數和時間規整函數為基礎來 實現對聲音信號的動態規整。該技術的基本思想是首先選定一個以某個聲音特征為基礎的 聲音信號作為參考模板;其次尋求一個距離測度函數,利用該測度函數求取測試模板和參 考模板之間的似然度;再次根據似然度的大小選取一種最佳測度,并找出一些專家知識,以 這兩者為基礎建立識別標準,最后利用識別標準對測試模板進行識別,并將識別結果輸出。 但對于說話人來說,對同一個詞的兩次發音肯定會存在差異,這主要是由于兩次發音的不 同會使聲強的大小產生差異,使聲音信號的頻譜產生偏移,還會使兩次發音時的音節不同, 這樣就會給識別造成不同程度的干擾。而動態時間規整算法會建立一個線性時間軸,然后 在該時間軸上對未知聲音和參考聲音進行統一的非線性的彎曲修正,這樣就能使兩個聲音 信號更好地匹配,從而達到更好的識別效果。
[0030] DTW算法是在聲音信號經過端點檢測和特征參數提取后,對測試聲音和訓練聲音 進行模板匹配。在該算法中,首先要確定一個規整函數iy=W(ix);并且該函數要滿足公式 (2-3):
[0031; (2-3)
[0032] 在公式(2-3)中,在最佳時間規整條件下,Q(W(ix))是測試聲音矢量,P(ix)是參 考聲音矢量,及訓練模板聲音矢量,d(x,y)為X和y的距離度量,因此Dt就是測試矢量和 參考矢量之間的距離。由于DTW需要確定一條最佳匹配路徑,這條最佳路徑就是通過不斷 的計算兩個矢量之間的距離并比較得到的。在進行模板匹配時,要根據距離的比較,確定一 個最佳規整函數。DTW算法的本質理論是局部最佳化處理理論和動態規劃思想,其實質是自 動地尋找出一條最佳匹配路徑,并依據該路徑,對兩個特征矢量之間進行累積失真度計算 并使其值達到最小,從而就會使因聲音信號的時長差異而造成的聲音識別誤差大大減小。
[0033] 按照DTW算法的基本原理和要求,兩個模板的幀長、窗函數和幀移以及特征矢量 必須一致。但為了使聲音識別的效果更好,需要對上面確定的規整函數上進行一些限制。如 果不加任何限制,最佳匹配路徑就會變得毫無意義,這樣就會使此算法的識別效果變得比 較模糊,缺乏可信性。總的來說,要對規整函數加如下限制條件:
[0034] 加邊界限制:當對未知聲音已經進行過精確的端點檢測后,規整函數作用在起始 幀和端點幀之間,這樣就要求規整函數必須滿足式(2-4):
[0035] (2-4)
[0036] 單調性限刺:仕規澄凼雙佛疋爾住匹配路徑時,不能打亂原始聲音信號各部分有 效信號的時間順序,因此必須對規整函數加單調性限制,即滿足公式(2-5):
[0037] ff(ix+l) ^ff(ix) (2-5)
[0038] 持續性限制:對于某些孤立詞,發音單元正是影響聲音識別效果的關鍵所在,那么 為了使聲音識別時信息的損失量達到最小,因此上述規整函數必須滿足公式(2-6):
[0039] ff(ix+l)-ff(ix) ^ 1 (2-6)
[0040] DTW識別算法的原理圖如圖2-3所示,首先要確定一個二維直角坐標系,坐標系的 橫軸表不測試聲音模板的各個幀號(X = 1~X),坐標系的縱軸表不參考聲音模板的各個幀 號(y = 1~Y),按照對規整函數的要求和限制,將縱軸和橫軸上的各個總線和橫線連接起 來,這樣就形成了時間規整函數顯示圖。在該圖中每一個交叉點就表示參考模板和測試模 板的幀的每一次交匯。
[0041] DTW算法實現過程有兩步:一是生成幀匹配距離矩陣,二是在上述矩陣中確定 一條最佳匹配路徑。對于最佳匹配路徑的描述可以如下:從(1,1)點開始搜索,對于按 照圖2-4所示的約束路徑,點(ix, iy)前進的點只可能是(ix-1, iy)、(ix-1, iy-Ι)和 (ix-l,iy-2)。那么(ix,iy)的前續格點一定會選擇這三個距離中的最小距離所對應的那 個點,因此該路徑的累積距離為公式(2-7)所示:
[0042] Dt (ix, iy) = d (P (ix), Q (iy)) +min {Dt (ix-1, iy), Dt (ix-1, iy-1), Dt (ix-1, iy-2)} (2-7)
[0043] 這樣按照圖2-3進行搜索,經過反復遞推,一直到點(X,Y),在此過程中會確立一 條最佳匹配路徑,而且會顯示出與最佳匹配路徑所對應的最佳匹配距離,然后根據最佳匹 配距離找到其所對應的參考模板,此參考模板即為對測試模板的識別結果。
[0044] 對于參考模板和測試模板的訓練本文中采用的是簡單的偶然訓練法。這種方法為 一種多模板訓練方法。在進行聲音識別時,未知聲音的矢量序列要用動態時間規整算法分 別求得與每個參考模板的總失真度,然后根據總失真度的大小,判定未知聲音矢量屬于失 真度最小的那一類。
[0045] 在聲音識別過程中,前面的端點檢測和MFCC聲音特征參數提取以及參考模板和 測試模板的生成等都是聲音識別的準備工作,只有當這些前期工作都很好地完成的時候, 聲音識別才會出現比較好的結果。所以,在進行聲音信號預處理時,要盡可能準確地進行端 點檢測和聲音特征參數提取,找出有效聲音信號的起點和終點,確定合適的MFCC系數;要 盡可能多次訓練樣本,這樣能使訓練模板達到更好的效果,然后就能使匹配的效果更好,從 而使聲音識別的效果更好。
[0046] 本發明還設計了圖形用戶控制界面,在此界面中,主要實現的功能就是通過按鈕 控制實現程序的運行和結束,從而節省關心和了解程序內部如何運行的時間。GUI操作界面 通過按鈕來實現對整個系統的控制。
[0047] 設計此界面的整體思路是:為每一個功能模塊設置一個功能按鈕,,當按下功能按 鈕時,在Matlab程序中會運行對應模塊程序,從而實現模塊對應功能。通過此操作,用戶不 用關心內部程序如何運行就能控制系統包含的功能模塊程序運行,從而完成對整個系統的 控制。
[0048] 在此界面中,當按下聲首實時米集功能按鈕時,系統運行聲首實時米集程序,完成 對聲音控制命令信號的實時采集并通過采集聲音波形顯示功能按鈕顯示聲音信號波形;同 理,當分別按下聲音分類和聲音識別功能按鈕及其結果顯示按鈕時,就會分別實現聲音分 類和識別功能,并將結果通過聲音或者顯示屏顯示出來。
[0049] 以上系統依次運行,上述系統通過顯示在計算機架構的硬件裝置的顯示屏或智能 移動設備的控制界面進行控制,該控制界面上包含有與各程序相對應的控制鍵,當按下該 控制鍵時運行相應的程序模塊。
[0050] 模板數據庫為MYSQL或SQLITE。該模板數據庫除了含有心音和呼吸音的相關數 據,還包括相關疾病的治療方法、注意事項和僅供參考的非處方類藥品的信息,并且可以通 過網絡進行更新。
[0051] 本發明還可以通過3. 5mm插頭或者通過轉接頭轉接的3. 5mm插頭與智能手機、電 腦、平板電腦等智能移動設備相連接,來實現上述功能。
[0052] 所述聽診器可以準確、方便、快捷的完成診斷,同時成本低、使用方便,一般群眾可 以負擔,能夠在家中根據個人需要完成初步診斷,做到提前預防的目的,不需要去醫院排隊 掛號,避免過度醫療,減少不必要的開支。
[0053] 同時,由于不是人工聽診,不需要長年累月的經驗積累,適合各類群體,有效減少 誤診的發生,能夠減少醫患之間的矛盾。
【附圖說明】
[0054] 圖1-1 :系統總體結構設計流程圖
[0055] 圖1-2 :聲音分類框架搭建程序流程圖
[0056] 圖1-3 :DTW算法實現過程程序流程圖
[0057] 圖2-1 :端點檢測計算過程流程圖
[0058] 圖2-2 :MFCC系數計算流程圖
[0059] 圖2-3 :DTW算法實現原理圖
[0060] 圖2-4 :規整函數局部約束路徑
[0061] 圖3-1 :⑶I控制界面設計結構圖
【具體實施方式】
[0062] 下面通過結合附圖對發明做進一步的說明,以下實施例僅是對本發明進行說明 而非對其加以限定。
[0063] 音頻采集系統實時采集人體內臟的聲音和回放,過聽音管傳遞到放大裝置,放大 裝置將聲音有效放大,開始聲音信號的實時采集,再調用wavrecord函數開始聲音錄制,并 將采集到的聲音信號保存到工作區間;然后讀取該聲音信號并將其賦給某一變量,保存該 變量生成一個· mat的數據文件。
[0064] 聲音分類系統的根本是KNN算法。這里,首先要用到采集聲音信號時生成的文件 名后綴為.mat的數據文件,通過加載該文件生成訓練樣本集矩陣;然后通過加載模板數據 庫中后綴為.mat的數據文件生成樣本集矩陣。隨后就是搭建KNN分類框架,分類框架搭建 的程序流程圖如圖1-2所示。
[0065] 聲音識別系統的基礎是DTW算法,該系統的設計過程就是算法的實現過程。在實 現DTW算法的過程中,首先要對采集到的聲音控制命令信號進行端點檢測和聲音特征參數 提取,然后根據提取到的MFCC特征參數進行聲音識別。所以實現整個識別算法實現過程的 流程圖如圖1 -3所不。
[0066] 在此流程圖中,聲音信號端點檢測和MFCC聲音特征參數提取作為聲音信號識別 的預處理,建立訓練樣本和測試樣本是在程序中生成參考模板和測試模板并對這兩個模板 進行訓練,聲音識別的過程就是測試模板與參考模板匹配的過程。在程序中,首先要找到一 個規整函數,利用此函數對參考模板和測試模板在同一時間軸上作非線性規整,然后找出 一條適合于匹配的最佳搜索路徑,通過這條路徑找出最佳匹配路徑,最后找出與測試模板 最佳匹配的參考模板并以此作為識別結果,輸出識別結果。
[0067] 音頻信號識別系統使用動態時間規整(STW)算法,首先要對采集到的音頻控制命 令信號進行端點檢測和聲音特征參數提取,然后根據提取到的MFCC特征參數進行聲音識 另IJ。聲音信號的特點是短時平定,長時時變,它具有瞬時穩態性,因此對聲音信號的處理一 般可以采用短時處理技術,這種處理可以作為聲音識別前的預處理。在對聲音信號進行主 要預處理就是聲音信號端點檢測和聲音特征系數提取。在DTW算法中,端點檢測是在訓練 和建立模板以及識別階段中確定有效聲音信號起點和終點的必不可少的方法;而聲音特征 系數提取則是聲音識別的根本,是建立訓練樣本的主要依據。在這兩者的基礎上,聲音識別 的過程就是一個模板匹配的過程。此過程包含端點檢測、聲音特征參數提取、測試模板和參 考模板的訓練以及測試模板與參考模板的匹配等一系列過程。在這些過程結束之后,就可 以根據DTW算法進行聲音識別,然后將識別結果輸出。
[0068] 聲音信號的端點檢測技術是指用數字聲音處理技術提取一段有效聲音信號,而存 儲和處理的過程也只針對那段有效聲音信號。聲音信號的端點檢測是聲音分析、合成和識 別中必不可少的一個重要環節,其算法的性能在一定程度上也直接影響了整個聲音識別系 統的性能。在端點檢測的過程中主要用到的基本參數有短時平均過零率、短時能量、相關函 數相等。在進行端點檢測時最常用的方法是利用短時能量和短時過零率這兩個參數設置雙 門限對聲音信號進行檢測,這種方法被稱為雙門限端點檢測法。聲音端點檢測的計算過程 框圖如圖2-1所示。
[0069] 在聲音識別技術領域中,聲音識別中可以用到的聲音特征參數有倒譜系數、短時 能量、信號基頻、共振峰值等聲音特征參數,目前在聲音識別算法中較為常用且實用的是兩 種倒譜系數,這兩種倒譜系數分別為線性預測倒譜系數(LPCC)和Mel倒譜系數(Mel-fre-quency-cepstrum-coefficient,MFCC)。這兩種倒譜系數都是先將聲音信號從時域變換到 倒譜域上,然后在倒譜域上求倒譜系數。但前者是在人的聲學模型的基礎上,利用線性預測 編碼(LPC)來對聲音信號求取倒譜系數;后者是在人的聽覺模型基礎上,對聲音信號進行 檢測,然后以聲音信號通過該模型的輸出為聲音聲學特征,直接對聲音信號進行離散傅里 葉變換(DFT),最后再通過一系列變換求取倒譜系數。在本發明中,主要提取的特征參數為 MFCC,主要是因為經過與LPCC參數的比較,MFCC參數的優點如下:
[0070] 聲音信號的低頻部分包含了大部分的有效聲音信息,而環境噪聲會干擾信號的高 頻部分,致使聲音信號產生失真;但MFCC參數采用的是Mel頻標,這樣就加強了對聲音信號 低頻信息的保護,從而保護了有利于參數提取和聲音識別的低頻聲音信息,因此就避免了 噪聲對聲音信號識別產生的干擾。
[0071 ] MFCC在各種情況下均可使用,無任何前提假設。
[0072] 提取MFCC參數計算過程的框圖如圖2-2所示。
[0073] 在本發明中,動態時間規整(DTW)算法是在進行聲首識別過程中米用的主要算 法。該算法是一種非線性時間規整技術,該技術以距離測度函數和時間規整函數為基礎來 實現對聲音信號的動態規整。該技術的基本思想是首先選定一個以某個聲音特征為基礎的 聲音信號作為參考模板;其次尋求一個距離測度函數,利用該測度函數求取測試模板和參 考模板之間的似然度;再次根據似然度的大小選取一種最佳測度,并找出一些專家知識,以 這兩者為基礎建立識別標準,最后利用識別標準對測試模板進行識別,并將識別結果輸出。 但對于說話人來說,對同一個詞的兩次發音肯定會存在差異,這主要是由于兩次發音的不 同會使聲強的大小產生差異,使聲音信號的頻譜產生偏移,還會使兩次發音時的音節不同, 這樣就會給識別造成不同程度的干擾。而動態時間規整算法會建立一個線性時間軸,然后 在該時間軸上對未知聲音和參考聲音進行統一的非線性的彎曲修正,這樣就能使兩個聲音 信號更好地匹配,從而達到更好的識別效果。
[0074] DTW算法是在聲音信號經過端點檢測和特征參數提取后,對測試聲音和訓練聲音 進行模板匹配。在該算法中,首先要確定一個規整函數i y=W(ix);并且該函數要滿足公式 (2-3):
[007 - (2-3)
[0076] 在公式(2_3)中,在最佳時間規整條件下,Dt就是測試矢量和參考矢量之間的距 離。由于DTW需要確定一條最佳匹配路徑,這條最佳路徑就是通過不斷的計算兩個矢量之 間的距離并比較得到的。在進行模板匹配時,要根據距離的比較,確定一個最佳規整函數。 DTW算法的本質理論是局部最佳化處理理論和動態規劃思想,其實質是自動地尋找出一條 最佳匹配路徑,并依據該路徑,對兩個特征矢量之間進行累積失真度計算并使其值達到最 小,從而就會使因聲音信號的時長差異而造成的聲音識別誤差大大減小。
[0077] 按照DTW算法的基本原理和要求,兩個模板的幀長、窗函數和幀移以及特征矢量 必須一致。但為了使聲音識別的效果更好,需要對上面確定的規整函數上進行一些限制。如 果不加任何限制,最佳匹配路徑就會變得毫無意義,這樣就會使此算法的識別效果變得比 較模糊,缺乏可信性。總的來說,要對規整函數加如下限制條件:
[0078] 加邊界限制:當對未知聲音已經進行過精確的端點檢測后,規整函數作用在起始 幀和端點幀之間,這樣就要求規整函數必須滿足式(2-4):
[0079] (2-4)
[0080] 單調性限制:在規整函數確定最佳匹配路徑時,不能打亂原始聲音信號各部分有 效信號的時間順序,因此必須對規整函數加單調性限制,即滿足公式(2-5):
[0081] ff(ix+l) ^ff(ix) (2-5)
[0082] 持續性限制:對于某些孤立詞,發音單元正是影響聲音識別效果的關鍵所在,那么 為了使聲音識別時信息的損失量達到最小,因此上述規整函數必須滿足公式(2-6):
[0083] ff(ix+l)-ff(ix) ^ 1 (2-6)
[0084] DTW識別算法的原理圖如圖2-3所示,首先要確定一個二維直角坐標系,坐標系的 橫軸表不測試聲音模板的各個幀號(X = 1~X),坐標系的縱軸表不參考聲音模板的各個幀 號(y = 1~Y),按照對規整函數的要求和限制,將縱軸和橫軸上的各個總線和橫線連接起 來,這樣就形成了時間規整函數顯示圖。在該圖中每一個交叉點就表示參考模板和測試模 板的幀的每一次交匯。
[0085] DTW算法實現過程有兩步:一是生成幀匹配距離矩陣,二是在上述矩陣中確定 一條最佳匹配路徑。對于最佳匹配路徑的描述可以如下:從(1,1)點開始搜索,對于按 照圖2-4所示的約束路徑,點(ix, iy)前進的點只可能是(ix-1, iy)、(ix-1, iy-Ι)和 (ix-l,iy-2)。那么(ix,iy)的前續格點一定會選擇這三個距離中的最小距離所對應的那 個點,因此該路徑的累積距離為公式(2-7)所示:
[0086] Dt (ix, iy) = d (P (ix), Q (iy)) +min {Dt (ix-1, iy), Dt (ix-1, iy-1), Dt (ix-1, iy-2)} (2-7)
[0087] 這樣按照圖2-3進行搜索,經過反復遞推,一直到點(X,Y),在此過程中會確立一 條最佳匹配路徑,而且會顯示出與最佳匹配路徑所對應的最佳匹配距離,然后根據最佳匹 配距離找到其所對應的參考模板,此參考模板即為對測試模板的識別結果。
[0088] 對于參考模板和測試模板的訓練本文中采用的是簡單的偶然訓練法。這種方法為 一種多模板訓練方法。在這里將采集到的每個孤立詞朗讀多遍,將每一個詞的每一次讀音 形成一個模板,這樣就可以生成多個模板。在進行聲音識別時,未知聲音的矢量序列要用動 態時間規整算法分別求得與每個參考模板的總失真度,然后根據總失真度的大小,判定未 知聲音矢量屬于失真度最小的那一類。
[0089] 在聲音識別過程中,前面的端點檢測和MFCC聲音特征參數提取以及參考模板和 測試模板的生成等都是聲音識別的準備工作,只有當這些前期工作都很好地完成的時候, 聲音識別才會出現比較好的結果。所以這就要求,在進行聲音信號預處理時,要盡可能準確 地進行端點檢測和聲音特征參數提取,找出有效聲音信號的起點和終點,確定合適的MFCC 系數;要盡可能多次訓練樣本,這樣能使訓練模板達到更好的效果,然后就能使匹配的效果 更好,從而使聲音識別的效果更好。
[0090] 本發明還設計了圖形用戶控制界面,在此界面中,主要實現的功能就是通過按鈕 控制實現程序的運行和結束,從而節省關心和了解程序內部如何運行的時間。GUI操作界面 通過按鈕來實現對整個系統的控制,在此界面中,包含的主要功能按鈕結構圖如圖3-1所 不。
[0091] 設計此界面的整體思路是:為每一個功能模塊設置一個功能按鈕,當按下功能按 鈕時,在程序中會運行對應模塊程序,從而實現模塊對應功能。通過此操作,用戶不用關心 內部程序如何運行就能控制系統包含的功能模塊程序運行,從而完成對整個系統的控制。
[0092] 在此界面中,當按下聲首實時米集功能按鈕時,系統運行聲首實時米集程序,完成 對聲音控制命令信號的實時采集并通過采集聲音波形顯示功能按鈕顯示聲音信號波形;同 理,當分別按下聲音分類和聲音識別功能按鈕及其結果顯示按鈕時,就會分別實現聲音分 類和識別功能,并將結果通過聲音或者顯示屏顯示出來。
[0093] 以上系統依次運行,上述系統通過顯示在計算機架構的硬件裝置的顯示屏或智能 移動設備的控制界面進行控制,該控制界面上包含有與各程序相對應的控制鍵,當按下該 控制鍵時運行相應的程序模塊。
[0094] 模板數據庫可以為MYSQL或SQLITE。該模板數據庫除了含有心音和呼吸音的相關 數據,還包括相關疾病的治療方法、注意事項和僅供參考的非處方類藥品的信息,并且可以 通過網絡進行更新。
[0095] 本領域的技術人員在本發明的基礎上能夠想到的變形均落入本發明的保護范圍。
【主權項】
1. 一種聽診器,包括聽診頭,聽音管,其特征在于,聽診頭連接聽音管,聽音管末端連接 芯片電路等,所述芯片電路包括顯示裝置、音頻采集系統、放大裝置、音頻信號分類系統、音 頻信號識別系統、模板數據庫和語音播報系統。2. 根據權利要求1所述的聽診器,其特征在于,所述模板數據庫內還包括診斷結果的 處理方式、注意事項和僅供參考的非處方類藥品信息。3. 根據權利要求1所述的聽診器,其特征在于,音頻采集系統采集音頻信號,經過放大 裝置放大,通過音頻信號分類系統分類,然后由音頻信號識別系統識別后,與模板數據庫匹 配識別,最后由語音播報系統播報比對結果和處理方法。4. 根據權利要求1所述的聽診器,其特征在于,所述顯示裝置為顯示屏,與音頻信號識 別系統同步輸出比對結果和處理方法。5. 根據權利要求1所述的聽診器,其特征在于,音頻信號分類系統采用了 KNN分類方 法。6. 根據權利要求5所述的聽診器,其特征在于,所述KNN算法步驟為: 第一步:將采集到的聲音信號轉化為數據集,然后將其分為訓練集和測試集,并根據聲 音信號的時域特征對訓練集作預處理,構造 KNN分類器; 第二步:對測試集進行預處理,并確定其向量表示; 第三步:用公式(2-1)計算訓練集向量與測試集向量的歐式距離,即相似度;式中,PiS待測樣本特征向量,p j為訓練樣本中j類樣本特征向量,X lk、xjk為向量對應 的第K維; 第四步:以第三步計算的相似度為標準,選出與測試數據向量最相似的K個訓練數據 向量,并用公式(2-2)依次計算每個訓練數據向量所屬類的權重; q(Pi, dx) = Σ8?πι(ρ?,ρ^(ρ?, dx) (2-2)式中,g(p_j, dx)為類別屬性函數,判別標準 為:若Pj屬于d表,則g(p p dx)函數值為1 ;若Pj不屬于d表,則g(p p dx)函數值為0。 第五步:比較第四步中計算的每一個權重值,將測試數據分到權重值最大的那個類別 中; 第六步:確定分類結果并評價。7. 根據權利要求1所述的聽診器,其特征在于,音頻信號識別系統采用動態時間規整 (STW)算法對音頻信號進行端點檢測和語音特征參數提取,根據提取到的MFCC特征參數進 行語音識別。8. 根據權利要求1~7任一所述的聽診器,其特征在于,所述聽診器還具有一個與電腦 或者移動設備連接的插頭。9. 根據權利要求8所述的聽診器,其特征在于,所述插頭為3. 5mm插頭或者通過轉接頭 轉接的3. 5mm插頭。
【文檔編號】A61B7/04GK105943077SQ201510629613
【公開日】2016年9月21日
【申請日】2015年9月29日
【發明人】劉偉鋒
【申請人】劉偉鋒