專利名稱:一種基于智能視頻的異常語音監控系統及方法
技術領域:
本發明涉及安防監控領域,更具體地說,涉及一種基于智能視頻的異常語音監控系統及方法。
背景技術:
隨著社會日新月異的發展,人民的安全意識在不斷增強,對舒適、安全的活動環境期望越來越高,這也使得安防監控面臨著更高難度的挑戰。在公共安全領域,特別是在ATM (Automatic Teller Machine,自動柜員機)室、垂直升降電梯和監獄等一些常容易發生搶劫、性騷擾或者打架等犯罪、暴力事件的區域更需要進行監控。 目前,視頻監控是常用的一種監控方法,但是普通的視頻監控太過依賴人的作用,由于值班人員的時間、精力有限,常會出現疏忽漏報的情況,從而錯失了預警的最佳時機,監控信息只能作為事后證據了。為了彌補這一缺點,一些有實力的安防公司研發了智能視頻監控產品,提高了監控效率,減輕了監控值班人員的負擔,但是這些智能監控產品只對視頻信息進行處理,技術實現比較復雜,容易受陽光、燈光的光線變化影響,攝像頭也無法監控到視角以外的區域,因此,在一些要求較高、環境較復雜的場景下,智能視頻仍具有一定的局限性。語音識別技術發展到現在取得了很大的進步,開始從實驗室走向社會,但是在普通安防監控領域的應用還比較少見。在搶劫、暴力犯罪場景中,常會伴有呼救聲、叫喊等一些比較緊急的聲音,這些異常的語音可以作為安防監控的重要信息加以利用。目前,語音識別技術雖然取得了長足的進步,一些研究者對視頻和語音相結合的安防監控方法進行了探討,取得了一定的成果,但是,由于語音容易受環境噪聲的影響,魯棒性比較差,一般的語音識別技術很難適應各種監控環境,造成智能化不高、實時性不強、誤報率較高等問題。
發明內容
本發明要解決的技術問題在于,針對現有技術的上述智能化不高、實時性不強、誤報率較高的缺陷,提供一種智能化較高、實時性較強、誤報率較低的基于智能視頻的異常語音監控系統及方法。本發明解決其技術問題所采用的技術方案是構造一種基于智能視頻的異常語音監控系統,包括監控區域現場裝置,與所述監控區域現場裝置連接的智能監控分析裝置,以及分別與所述監控區域現場裝置和智能監控分析裝置連接的監控中心計算機;所述監控區域現場裝置包括用于采集監控現場區域圖像的視頻采集模塊,被所述智能監控分析裝置觸發并用于對現場聲音進行監聽的語音接收模塊和被所述監控中心計算機觸發并在啟動時發出報警的防爆警示模塊;所述智能監控分析裝置包括其輸入端分別與所述視頻采集模塊和語音接收模塊連接、其輸出端與所述監控中心計算機連接的中心處理器,與所述中心處理器連接并用于存儲現場活動數據的數據存儲模塊,與所述中心處理器連接并用于根據具體動態情況檢測到現場有人后啟動所述語音接收模塊的視頻處理模塊,以及與所述中心處理器連接并用于進行聲強檢測的聲強檢測模塊。在本發明所述的基于智能視頻的異常語音監控系統中,所述智能監控分析裝置還包括被所述中心處理器觸發并用于進行異常語音檢測的異常語音識別模塊。本發明還涉及一種采用上述基于智能視頻的異常語音監控系統的監控方法,包括如下步驟
B)所述視頻采集模塊采集監控現場區域圖像,所述視頻處理模塊根據具體動態情況判斷監控現場區域是否有人,如有人,執行步驟C);否則,執行步驟E)。C)所述語音接收模塊收集監控現場聲音并進行判斷是否觸發預警,如觸發預警,
將預警信息傳送到所述監控中心計算機,執行步驟D);否則,返回步驟B)。D)所述監控中心計算機收到預警信息后,調出現場監控畫面,并由值班人員判斷是否為異常情況,如是,啟動所述防爆警示模塊;否則,執行步驟E)。E)結束本次監控并返回步驟B)進行下一次監控。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,在所述步驟B)之前還包括步驟
A)建立異常語音模板識別庫。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述異常語音模板識別庫是依次經過語音樣本采集、樣本預處理、MFCC (梅爾倒譜系數,MelFrequency Cepstrum Coefficient,簡寫MFCC)特征提取和支持向量機訓練步驟得到。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述步驟C)進一步包括
Cl)所述語音接收模塊收集監控現場聲音,將聲壓模擬信號經過增益放大、模數轉換為數字信號并將所述數字信號傳送到所述智能監控分析裝置;
C2)用所述中心處理器中的FIR(Finite Impulse Response,有限長單位沖激響應)300Hz 3. 4KHz帶通濾波器對所述數字信號進行濾波,提取人的300Hz 3. 4KHz頻率范圍內的聲音信號;
C3)由P=201og1(l (x)計算聲強值;其中,P為聲強,其單位為分貝,X為輸入聲壓數據; C4)所述中心處理器依據得到的聲強值波形特點,對非語音類聲音進行濾除;
C5)判斷聲強是否大于預設的聲強觸發閾值,如是,截取聲音并執行步驟C6);否則,返回步驟B);
C6)判斷聲強是否大于預設的聲強預警閾值,如是,向監控中心計算機發出聲強預警,并啟動異常語音識別模塊工作;否則,返回步驟B);
C7)提取輸入的可疑語音數據的MFCC特征參數;
CS)判斷所述提取的MFCC特征參數與所述異常語音模板識別庫是否匹配,如匹配,向監控中心計算機發出異常語音預警;否則,返回步驟B)。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述步驟C4)中對非語音類聲音進行濾除為用FIR2. 5KHz ^3KHz帶阻濾波器對車鳴笛聲進行濾除,所述中心處理器通過檢測連續數據長度并將拍掌聲、敲擊聲濾除。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述步驟C5)中的聲強觸發閾值為70分貝。
在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述步驟C6)中的聲強預警閾值為105分貝。在本發明所述的采用基于智能視頻的異常語音監控系統的監控方法中,所述步驟CS)中的判斷是通過支持向量機進行判斷并得到識別結果。實施本發明的基于智能視頻的異常語音監控系統及方法,具有以下有益效果由于利用視頻處理模塊檢測到現場有人之后才啟動語音接收裝置,避免了監控區域在無人狀態下因噪聲影響而發生誤報;由于語音分析包含聲強檢測模塊與異常語音識別模塊,聲強檢測模塊只檢測語音聲強,對汽車鳴笛、拍掌和一些敲擊等各種環境噪聲進行了濾除,減少了外界噪聲的干擾;由于先進行聲強檢測,對監控區域監聽可疑的呼喊聲和尖叫聲進行聲強預警,以防識別錯誤而造成漏報;觸發聲強預警后再進行異常語音檢測,具有聲強預警和異常語音預警雙重預警的功能,信息更豐富,提高報警正確率,最大程度上減少漏報和誤報情況的發生;雙重預警為監控值班人員提供更多有用信息,提高監控效率和預警性能;所以其智能化較高、實時性較強、誤報率較低。
圖I是本發明基于智能視頻的異常語音監控系統及方法實施例中系統的結構示意圖。圖2是所述實施例中智能監控分析裝置的結構示意圖。圖3是所述實施例中方法的流程圖。圖4是所述實施例中監控現場聲音是否觸發預警判斷的流程圖。圖5是所述實施例中異常語音檢測的原理圖框圖。
具體實施例方式為了便于本領域的普通技術人員能夠理解并實施本發明,下面將結合附圖對本發明實施例作進一步說明。在本發明基于智能視頻的異常語音監控系統及方法實施例中,其系統的結構示意圖如圖I所示,在圖I中,該系統包括監控區域現場裝置I、智能監控分析裝置2和監控中心計算機3 ;其中,智能監控分析裝置2與監控區域現場裝置I連接,監控中心計算機3分別與監控區域現場裝置I和智能監控分析裝置2連接。監控區域現場裝置I包括視頻采集模塊11、語音接收模塊12和防爆警示模塊13,其中,視頻采集模塊11用于采集監控現場區域圖像,本實施例中的視頻采集模塊11為攝像頭;語音接收模塊12被智能監控分析裝置2觸發并用于對現場聲音進行監聽,本實施例中的語音接收模塊12采用的是拾音器;防爆警示模塊13被監控中心計算機3觸發并在啟動時發出報警,以威懾犯罪分子、及時制止現場犯罪行為,本實施例中的防爆警示模塊13可采用射燈、報警喇叭或聲光報警設備。監控中心計算機3接收現場發送的視頻、語音信息以及智能監控分析裝置2的分析結果,由值班人員根據具體情況作出相關處理。圖2是上述智能監控分析裝置2的結構示意圖。圖2中,智能監控分析裝置2包括中心處理器21、數據存儲模塊25、視頻處理模塊22、聲強檢測模塊23和異常語音識別模塊24 ;其中,中心處理器21的輸入端分別與視頻采集模塊11和語音接收模塊12連接、其輸、出端與監控中心計算機3連接,數據存儲模塊25與中心處理器21連接并用于存儲現場活動數據,視頻處理模塊22與中心處理器21連接并用于根據監控現場區域具體動態情況檢測到現場有人后啟動上述語音接收模塊12,聲強檢測模塊23與中心處理器21連接并用于進行聲強檢測,異常語音識別模塊24被中心處理器21觸發并用于進行異常語音檢測。硬件采用的是DSP (數字信號處理,Digital Signal Processing,簡稱DSP)嵌入式系統,特點是系統性能好,運行穩定,成本低且易于批量化生產。值得一提的是,監控中心計算機3可訪問、下載或刪除數據存儲模塊25存儲的現場活動數據,方便數據管理。應當注意的是,為了減少系統誤報,該異常語音監控系統利用視頻處理模塊22檢測到現場有人之后才啟動語音接收模塊12。視頻處理模塊22采用連續幀間差分法檢測現場是否有人,具體來講,就是通過分析幀差二值化圖像的連通區域以及檢測目標動態變化時間特征等方式實現,本實施例中,將背景差分法和幀間差分法結合,將動態圖像中連續兩幀差圖像和背景差圖像直接進行與操作,再將結果進行二值化處理得到運動結果,這樣就加大目標信息的權重,使檢測更準確。用幀間差分法檢測監控現場是否有異常物體運動,結合背景差分法則可準確檢測是否有人。 本發明還涉及一種采用上述系統的監控方法,該方法的流程圖如圖3所示,在圖3中,其方法包括如下步驟
步驟SlOl建立異常語音模板識別庫本實施例中,監控工作之前首先要建立異常語音模板識別庫,語音樣本采集包括男聲和女聲,錄音人數多于幾十人比較適宜,每人錄5個詞左右,錄音內容包括人遇到緊急情況發出類似“啊、、“救命啊”、“搶劫啦”、“來人啊”等等這樣的呼救聲、叫喊聲,還包括一些人平常交流的話語,把異常語音和正常說話的語音作為正負樣本用訓練器進行訓練,得到異常語音模板識別庫。異常語音模板識別庫可以自定義錄音得到,靈活性比較強,為了對非特定人語音進行識別,當然錄音的人數越多越好。本實施例中,通過支持向量機進行訓練得到異常語音模板識別庫,關于本步驟中如何具體建立異常語音模板識別庫請參見圖5,稍后也會詳細描述。步驟S102采集監控現場視頻信息本步驟中,視頻采集模塊采集監控區域現場的圖像。步驟S103判斷是否有人?本步驟中,視頻處理模塊22根據監控現場區域具體動態情況檢測現場是否有人?視頻處理模塊22采用連續幀間差分法檢測現場是否有人,具體來講,就是通過分析幀差二值化圖像的連通區域以及檢測目標動態變化時間特征等方式實現,本實施例中,將背景差分法和幀間差分法結合,將動態圖像中連續兩幀差圖像和背景差圖像直接進行與操作,再將結果進行二值化處理得到運動結果,這樣就加大目標信息的權重,使檢測更準確。用幀間差分法檢測監控現場是否有異常物體運動,結合背景差分法則可準確檢測是否有人。如果判斷結果為有人,執行步驟S104;否則,返回步驟S102。步驟S104采集監控現場音頻信息,并判斷是否觸發預警?本步驟中,語音接收模塊收集監控現場聲音,并進行判斷是否觸發預警,如果觸發預警,將預警信息傳送到監控中心計算機;否則,返回步驟S102。關于本步驟中如何具體的判斷是否觸發預警,請參見圖
4,稍后也會加以描述。步驟S105將預警信息傳送到監控中心計算機本步驟中,上述步驟S104判斷為觸發預警,則執行本步驟,即將預警信息傳送到監控中心計算機。
步驟S106調出監控畫面,并判斷是否為異常情況?本步驟中,監控中心計算機收到預警信息后,調出現場監控畫面,供值班人員分析處理并判斷是否為異常情況,如果出現異常情況,執行步驟S107 ;否則,返回步驟S102。步驟S107啟動防爆警示模塊如果上述步驟S106判斷為出現異常情況,則執行本步驟即啟動防爆警示模塊13,發出報警,用于威懾犯罪分子,通知相關安保人員并向警方報警,值得一提的是,執行完本步驟返回步驟S102繼續進行下一次監控工作。對于本實施例而言,上述監控現場聲 音是否觸發預警的判斷步驟具體如圖4所示,其包括
步驟S401將聲壓模擬信號進行增益放大、模數轉換后傳送到智能監控分析裝置本步驟中,語音接收模塊收集監控現場聲音,將聲壓模擬信號經過增益放大、模數轉換為數字信號后,并將該數字信號傳送到智能監控分析裝置中。步驟S402 FIR 300Hz 3. 4KHz帶通濾波,提取300Hz 3. 4KHz聲音本步驟中,用中心處理器中的FIR300HZ 3. 4KHz帶通濾波器對數字信號進行濾波,提取人的300Hz 3. 4KHz頻率范圍內的聲音信號。步驟S403計算聲強值本步驟中,由公式P=201og1Q (x)計算聲強值;其中,P為聲強,其單位為分貝,X為輸入聲壓數據。步驟S404依據聲強值波形特點,對非語音類聲音進行濾除在本步驟中,中心處理器依據得到的聲強值波形特點,對非語音類聲音進行濾除;具體來講,本步驟中,針對不同情況的非語音類聲音采用不同的方法進行濾除,由于車鳴笛聲頻率主要集中在2. 5KHz"3KHz頻段內,再加上人在該頻段內的分量較少,所以本步驟用FIR2. 5KHz^3KHz帶阻濾波器對車鳴笛聲進行濾除,也即阻止2. 5KHz^3KHz頻段內聲音通過;對于拍掌聲、敲擊聲音等一些斷斷續續的聲音,本步驟中不需要濾波器進行濾除,中心處理器直接根據這些聲音的特點將其識別出來,進而進行濾除,具體來講,拍掌聲、敲擊聲音分布在(T4KHz頻率范圍內(抽樣率為8000,即模數轉換時,每秒鐘從模擬信號中提取8000個數據),其中I. 2KHz以下分量較多,此頻段跟人說話的頻段有重疊,這時,用濾波器不能進行濾除,但可根據拍掌聲、敲擊聲音不連續的特點,通過檢測連續數據長度將拍掌聲、敲擊聲音進行濾除,本實施例中,一般檢測到的語音聲強值大于70分貝的連續數據長度為0. 5s,而檢測到的拍掌聲、敲擊聲音的連續數據長度小于0. Is,中心處理器根據這個區別,可將拍掌聲、敲擊聲音進行濾除。本步驟中,對于非語音類聲音與正常語音(人的說話聲)疊加在一起的情況,因為這時非語音類聲音與正常語音的頻率在同一頻段,要具體情況具體分析;如果非語音類聲音的能量很小,這樣不影響結果,可以不考濾,但如果非語音類聲音的能量跟正常語音的差不多,這時只能將其識別為正常語音處理,但不會影響聲強預警。步驟S405判斷聲強是否大于預設的聲強觸發閾值?本步驟中,預設的聲強觸發閾值為70分貝,如果現場聲音聲強大于70分貝,貝U截取聲音并對聲音進行檢測;如果聲強不超過70分貝,則不可能有異常情況出現,這時不需要對聲音進行檢測,直接返回步驟S102。步驟S406截取聲音因為檢測的聲音是連續的,本步驟把有人說話的這一段聲音截取下來。步驟S407判斷聲強是否大于預設的聲強預警閾值?本步驟中,預設的聲強預警閾值為105分貝,如果現場聲音聲強大于105分貝,執行步驟S408 ;否則,返回步驟S102。步驟S408向監控中心計算機發出聲強預警,并啟動異常語音識別模塊工作本步驟中,如果上述步驟S407中的判斷結果為聲強大于預設的聲強預警閾值,則向監控中心計算機發出聲強預警,并啟動異常語音識別模塊工作,本實施例中,聲強預警為橙色預警,即為一般預警。值得一提的是,觸發聲強預警后才檢測異常語音,此方法豐富了預警信息。步驟S409提取輸入語音數據的MFCC特征參數本步驟中,提取輸入的可疑語音數據的MFCC特征參數。步驟S410判斷提取的MFCC特征參數是否與異常語音模板庫匹配?本步驟中,判斷提取的MFCC特征參數與異常語音模板識別庫是否匹配,如果匹配,執行步驟S411 ;否貝U,返回步驟S102。值得一提的是,本步驟中是通過支持向量機進行判斷并得到識別結果,識別時提取輸入語音的MFCC特征,然后與異常語音模板識別庫進行匹配得到輸出結果,該、方法可實現非特定人語音識別。步驟S411向監控中心計算機發出異常語音預警如果上述步驟S410判斷結果為匹配,則執行本步驟向監控中心計算機發出異常語音預警,同時數據存儲模塊儲存相關視頻數據和語音數據;本實施例中的異常語音預警為紅色預警,即為緊急預警。圖5是本實施例中異常語音檢測的原理圖框圖。本實施例中的異常語音模板識別庫是依次經過語音樣本采集、樣本預處理、MFCC特征提取和支持向量機訓練步驟得到。在圖5中,語音樣本采集得到的訓練數據依次經過訓練數據預處理1001、訓練數據特征提取1002和模板訓練1003得到異常語音模板識別庫1004 ;其中,訓練數據預處理1001包括FIR300Hz 3. 4KHz帶通濾波、歸一化、端點檢測、預加重、分幀和加漢明窗,FIR 300Hz 3. 4KHz帶通濾波把300Hz 3. 4KHz頻率范圍的聲音提取出來,將300Hz 3. 4KHz頻率以外的一些背景噪聲進行濾除;因為每次說話時,聲音的大小都是不同的,即使對于同一句話,其聲音的大小都是不同的,所以進行了歸一化處理,有助于后續處理數據的方便;端點檢測就是檢測聲音開始與結束的位置。訓練數據特征提取1002就是提取訓練數據的MFCC特征,MFCC特征提取包括如下步驟
快速傅立葉變換(Fast Fourier Transformation, FFT):將時域信號變換成為信號的功率譜;
三角窗濾波用一組Mel (梅爾)頻標上線性分布的三角窗濾波器(共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似于人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應;
求對數三角窗濾波器組的輸出求取對數,可以得到近似于同態變換的結果;
離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號之間的相關性,將信號映射到低維空間;
譜加權由于倒譜的低階參數易受說話人特性、信道特性等的影響,而高階參數的分辨能力比較低,所以需要進行譜加權,抑制其低階和高階參數;
倒譜均值減(Cepstrum Mean Subtraction, CMS) :CMS可以有效地減小語音輸入信道對特征參數的影響;
差分參數大量實驗表明,在語音特征中加入表征語音動態特性的差分參數,能夠提高系統的識別性能;本實施例中也用到了 MFCC參數的一階差分參數和二階差分參數;短時能量語音的短時能量也是重要的特征參數,本實施例中采用了語音的短時歸一化對數能量及其一階差分、二階差分參數。值得一提的是,由于訓練只需要一維固定長度的數據,而MFCC特征提取出來的是二維矩陣數據,所以將提取的二維特征數據轉成一維數據后再進行后續的模板訓練1003,本實施例中的模板訓 練1003采用支持向量機訓練得到異常語音模板識別庫1004。圖5中,監測數據依次經過檢測數據預處理2001、聲強檢測2002、聲強預警2003和監測數據特征提取2004,由異常語音識別2005判斷提取的監測數據的特征參數是否與異常語音模板識別庫1004匹配;其中,檢測數據預處理2001包括FIR 300Hz 3. 4KHz帶通濾波、聲音截取、長度檢測、歸一化、端點檢測、預加重、分幀和加漢明窗;由于檢測的聲音是連續的,所以使用聲音截取把有人說話的這一段聲音截取下來;值得一提的是,由于檢測數據是實際要檢測的聲音數據,其長度是不定的,所以通過長度檢測去掉過長或過短的聲音,只保留0. 4:3s的聲音長度,而上述訓練數據的長度是通過人工挑選的,所以不用進行長度檢測;聲強檢測用于檢測聲強是否超過預設的聲強觸發閾值,如果超過預設的聲強觸發閾值,則進一步檢測聲強是否超過預設的聲強預警閾值,否則不用進行后續步驟;如果聲強超過預設的聲強預警閾值,則進行聲強預警2003,并啟動異常語音識別模塊工作;監測數據特征提取2004就是提取監測數據的MFCC特征,同樣將提取的二維特征數據轉成一維數據;異常語音識別2005判斷提取的監測數據的MFCC特征參數是否與異常語音模板識別庫1004匹配,如果匹配,則進行異常語音預警2006 ;否則不進行動作。總之,在本實施例中,視頻采集模塊11采集現場圖像,視頻處理模塊22對監控區域是否有人進行檢測,若有人,則啟動語音接收模塊12對現場聲音進行監聽,智能監控分析裝置2將采集的聲音數據進行處理和判斷,如果有異常語音觸發了預警,一方面將相關語音數據存儲,另一方面向監控中心計算機3發出預警信息,調出現場監控畫面,由監控值班人員做出啟動防爆警示模塊13、通知安保人員等相關預警處理。本實施例使用雙重預警即聲強預警和異常語音預警(異常情況預警),聲強預警是環境中聲音強度達到一定程序就會發出預警,異常語音預警是檢測環境中如果出現異常聲音(如救命啊,來人啊等)就會發出預警。在現實當中,如果出現異常聲音,這些聲音的特點都是比較緊急,而且比較大聲,聲強預警能夠檢測到這種情況。雙重預警就是能通過聲強預警檢測到上述特點的前提下,再進行異常情況檢測,這樣就大大降低了誤報率。由于結合智能視頻分析的優勢,利用聲強檢測和語音識別技術,建立了一種立體式的安全監控方法,其具有智能化較高、實時性較強和誤報率較低等優點。該監控系統發揮了視頻監控和異常語音監控的各自優勢,將“視”和“聽”的功能相結合,建立起一個立體式的安防系統。該監控系統以異常語音監控為主,視頻監控為輔,可以作為獨立的系統對安防區域進行監控,也可以和其它智能監控系統結合使用。以上所述實施例僅表達了本發明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干變形和改進,這些都屬于本發明的保護范圍。因此,本發明專利的保護范圍應以所附權利要求為準。
權利要求
1.一種基于智能視頻的異常語音監控系統,其特征在于,包括監控區域現場裝置,與所述監控區域現場裝置連接的智能監控分析裝置,以及分別與所述監控區域現場裝置和智能監控分析裝置連接的監控中心計算機;所述監控區域現場裝置包括用于采集監控現場區域圖像的視頻采集模塊,被所述智能監控分析裝置觸發并用于對現場聲音進行監聽的語音接收模塊和被所述監控中心計算機觸發并在啟動時發出報警的防爆警示模塊;所述智能監控分析裝置包括其輸入端分別與所述視頻采集模塊和語音接收模塊連接、其輸出端與所述監控中心計算機連接的中心處理器,與所述中心處理器連接并用于存儲現場活動數據的數據存儲模塊,與所述中心處理器連接并用于根據具體動態情況檢測到現場有人后啟動所述語音接收模塊的視頻處理模塊,以及與所述中心處理器連接并用于進行聲強檢測的聲強檢測模塊。
2.根據權利要求I所述的基于智能視頻的異常語音監控系統,其特征在于,所述智能監控分析裝置還包括被所述中心處理器觸發并用于進行異常語音檢測的異常語音識別模塊。
3.一種基于智能視頻的異常語音監控系統的監控方法,其特征在于,包括如下步驟 B)所述視頻采集模塊采集監控現場區域圖像,所述視頻處理模塊根據具體動態情況判斷監控現場區域是否有人,如有人,執行步驟C);否則,執行步驟E); C)所述語音接收模塊收集監控現場聲音并進行判斷是否觸發預警,如觸發預警,將預警信息傳送到所述監控中心計算機,執行步驟D);否則,返回步驟B); D)所述監控中心計算機收到預警信息后,調出現場監控畫面,并由值班人員判斷是否為異常情況,如是,啟動所述防爆警示模塊;否則,執行步驟E); E)結束本次監控并返回步驟B)進行下一次監控。
4.根據權利要求3所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,在所述步驟B)之前還包括步驟 A)建立異常語音模板識別庫。
5.根據權利要求4所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,所述異常語音模板識別庫是依次經過語音樣本采集、樣本預處理、MFCC特征提取和支持向量機訓練步驟得到。
6.根據權利要求5所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,所述步驟C)進一步包括 Cl)所述語音接收模塊收集監控現場聲音,將聲壓模擬信號經過增益放大、模數轉換為數字信號并將所述數字信號傳送到所述智能監控分析裝置; C2)用所述中心處理器中的FIR300HZ 3. 4KHz帶通濾波器對所述數字信號進行濾波,提取人的300Hz 3. 4KHz頻率范圍內的聲音信號; C3)由P=201og1(l (x)計算聲強值;其中,P為聲強,其單位為分貝,X為輸入聲壓數據; C4)所述中心處理器依據得到的聲強值波形特點,對非語音類聲音進行濾除; C5)判斷聲強是否大于預設的聲強觸發閾值,如是,截取聲音并執行步驟C6);否則,返回步驟B); C6)判斷聲強是否大于預設的聲強預警閾值,如是,向監控中心計算機發出聲強預警,并啟動異常語音識別模塊工作;否則,返回步驟B);C7)提取輸入的可疑語音數據的MFCC特征參數; CS)判斷所述提取的MFCC特征參數與所述異常語音模板識別庫是否匹配,如匹配,向監控中心計算機發出異常語音預警;否則,返回步驟B)。
7.根據權利要求6所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,所述步驟C4)中對非語音類聲音進行濾除為用FIR2. 5KHz ^3KHz帶阻濾波器對車鳴笛聲進行濾除,所述中心處理器通過檢測連續數據長度直接將拍掌聲、敲擊聲濾除。
8.根據權利要求6所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,所述步驟C5)中的聲強觸發閾值為70分貝。
9.根據權利要求6所述的基于智能視頻的異常語音監控系統的監控方法,其特征在于,所述步驟C6)中的聲強預警閾值為105分貝。
10.根據權利要求6所述的基于智能視頻的異常語音監控系統的監控方法,其特征在 于,所述步驟CS)中的判斷是通過支持向量機進行判斷并得到識別結果。
全文摘要
本發明涉及一種基于智能視頻的異常語音監控系統及方法,其系統包括監控區域現場裝置,與監控區域現場裝置連接的智能監控分析裝置,以及分別與監控區域現場裝置和智能監控分析裝置連接的監控中心計算機;監控區域現場裝置包括視頻采集模塊,被智能監控分析裝置觸發的語音接收模塊和被監控中心計算機觸發的防爆警示模塊;智能監控分析裝置包括分別與視頻采集模塊和語音接收模塊連接、其輸出端與監控中心計算機連接的中心處理器,與中心處理器連接的數據存儲模塊,與中心處理器連接的視頻處理模塊,及與中心處理器連接的聲強檢測模塊。實施本發明的基于智能視頻的異常語音監控系統及方法,具有以下有益效果智能化較高、實時性較強、誤報率較低。
文檔編號G08B25/00GK102737480SQ20121023509
公開日2012年10月17日 申請日期2012年7月9日 優先權日2012年7月9日
發明者曹江中, 高傳江 申請人:廣州市浩云安防科技股份有限公司