基于聲紋識別的錄音文件分離方法及裝置的制造方法
【技術領域】
[0001]本發明涉及錄音技術領域,尤其涉及一種基于聲紋識別的錄音文件分離方法及裝置。
【背景技術】
[0002]目前,使用手機等移動終端進行錄音,所記錄的聲音數據非常多且復雜,例如,對于會議錄音,通常包含多個會議參與人的聲音數據,在回顧會議內容或進行會議記要工作時,需要聽取錄音文件,但由于參與會議的人較多,可能無法聽清錄音內容,給用戶的工作生活帶來不便。
【發明內容】
[0003]有鑒于此,本發明實施例期望提供一種基于聲紋識別的錄音文件分離方法及裝置,以使得用戶可以從錄制文件中聽到清晰的錄音內容,方便用戶的工作生活。
[0004]本發明的實施例一方面提供了一種基于聲紋識別的錄音文件分離裝置,所述裝置包括:聲紋提取模塊、對比模塊和編碼存儲模塊;
[0005]其中,所述聲紋提取模塊,用于提取錄音信號中的聲紋特征數據;
[0006]所述對比模塊,用于將所述聲紋特征數據與預設語音模型進行對比;
[0007]所述編碼存儲模塊,用于根據所述對比模塊的對比結果,對與相同的聲紋特征數據對應的錄音信號單體進行單獨編碼,存儲為單獨的聲音文件。
[0008]可選的,所述聲紋提取模塊具體用于:
[0009]通過小波變換技術,提取所述錄音信號中如下聲紋特征數據:基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現頻率及其軌跡、線性預測倒譜、線譜對、自相關和對數面積比、Mel頻率倒譜系數MFCC、感知線性預測。
[0010]可選的,所述預設語音模型包括以下至少一項:矢量化模型、隨機模型和神經網絡模型。
[0011 ]可選的,所述編碼存儲模塊具體用于:
[0012]將與相同的聲紋特征數據對應的錄音信號單體進行加強放大處理;對經過加強放大處理后的錄音信號單體進行單獨編碼。
[0013]可選的,所述裝置還包括降噪模塊,用于對采集到的音頻信號進行降噪處理,得到所述錄音信號。
[0014]本發明的實施例另一方面提供了一種基于聲紋識別的錄音文件分離方法,所述方法包括:
[0015]提取錄音信號中的聲紋特征數據;
[0016]將所述聲紋特征數據與預設語音模型進行對比;
[0017]根據對比結果,對與相同的聲紋特征數據對應的錄音信號單體進行單獨編碼,存儲為單獨的聲音文件。
[0018]可選的,所述提取錄音信號中的聲紋特征數據,包括:
[0019]通過小波變換技術,提取所述錄音信號中如下聲紋特征數據:基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現頻率及其軌跡、線性預測倒譜、線譜對、自相關和對數面積比、Mel頻率倒譜系數MFCC、感知線性預測。
[0020]可選的,所述預設語音模型包括以下至少一項:矢量化模型、隨機模型和神經網絡模型。
[0021]可選的,所述對與相同的聲紋特征數據對應的錄音信號單體進行單獨編碼,包括:
[0022]將與相同的聲紋特征數據對應的錄音信號單體進行加強放大處理;
[0023]對經過加強放大處理后的錄音信號單體進行單獨編碼。
[0024]可選的,所述提取錄音信號中的聲紋特征數據之前,所述方法還包括:
[0025]對采集到的音頻信號進行降噪處理,得到所述錄音信號。
[0026]本發明實施例所提供的一種基于聲紋識別的錄音文件分離方法及裝置,基于聲紋識別的錄音文件分離裝置提取錄音信號中的聲紋特征數據;將所述聲紋特征數據與預設語音模型進行對比;根據對比結果,對與相同的聲紋特征數據對應的錄音信號單體進行單獨編碼,存儲為單獨的聲音文件。如此,在錄制的聲音數據多且復雜時,通過將不同的聲音分離開并單獨存儲,使得用戶可以聽到清晰的錄音內容,方便用戶的工作生活。
【附圖說明】
[0027]圖1為實現本發明實施例的一種可選的移動終端的硬件結構示意圖;
[0028]圖2為本發明實施例提供的移動終端能夠操作的通信系統結構示意圖;
[0029]圖3為本發明實施例提供的基于聲紋識別的錄音文件分離裝置的結構示意圖;
[0030]圖4為本發明實施例提供的基于聲紋識別的錄音文件分離方法的流程圖。
【具體實施方式】
[0031]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。
[0032]現在將參考附圖1來描述實現本發明各個實施例的移動終端。在后續的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發明的說明,其本身并沒有特定的意義。因此,"模塊"與"部件"可以混合地使用。
[0033]移動終端可以以各種形式來實施。例如,本發明中描述的終端可以包括諸如移動電話、智能電話、筆記本電腦、數字廣播接收器、個人數字助理(PDA)、平板電腦(PAD)、便攜式多媒體播放器(PMP)、導航裝置等等的移動終端以及諸如數字TV、臺式計算機等等的固定終端。下面,假設終端是移動終端。然而,本領域技術人員將理解的是,除了特別用于移動目的的元件之外,根據本發明的實施方式的構造也能夠應用于固定類型的終端。
[0034]圖1為實現本發明各個實施例一種可選的移動終端的硬件結構示意圖。
[0035]移動終端100可以包括無線通信單元110、音頻/視頻(A/V)輸入單元120、用戶輸入單元130、輸出單元150、存儲器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的移動終端,但是應理解的是,并不要求實施所有示出的組件,可以替代地實施更多或更少的組件,將在下面詳細描述移動終端的元件。
[0036]無線通信單元110通常包括一個或多個組件,其允許移動終端100與無線通信系統或網絡之間的無線電通信。例如,無線通信單元可以包括移動通信模塊112、無線互聯網模塊113、短程通信模塊114和位置信息模塊115中的至少一個。
[0037]移動通信模塊112將無線電信號發送到基站(例如,接入點、節點B等等)、外部終端以及服務器中的至少一個和/或從其接收無線電信號。這樣的無線電信號可以包括語音通話信號、視頻通話信號、或者根據文本和/或多媒體消息發送和/或接收的各種類型的數據。
[0038]無線互聯網模塊113支持移動終端的無線互聯網接入。該模塊可以內部或外部地耦接到終端。該模塊所涉及的無線互聯網接入技術可以包括WLAN(無線LAN)(W1-Fi)、Wibro(無線寬帶)、Wimax(全球微波互聯接入)、HSDPA(高速下行鏈路分組接入)等等。
[0039]短程通信模塊114是用于支持短程通信的模塊。短程通信技術的一些示例包括藍牙TM、射頻識別(RFID)、紅外數據協會(IrDA)、超寬帶(UWB)、紫蜂TM等等。
[0040]位置信息模塊115是用于檢查或獲取移動終端的位置信息的模塊。位置信息模塊115的典型示例是GPS(全球定位系統)。根據當前的技術,GPS模塊115計算來自三個或更多衛星的距離信息和準確的時間信息并且對于計算的信息應用三角測量法,從而根據經度、瑋度和高度準確地計算三維當前位置信息。當前,用于計算位置和時間信息的方法使用三顆衛星并且通過使用另外的一顆衛星校正計算出的位置和時間信息的誤差。此外,GPS模塊115能夠通過實時地連續計算當前位置信息來計算速度信息。
[0041]A/V輸入單元120用于接收音頻或視頻信號。A/V輸入單元120可以包括相機121和麥克風122,相機121對在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態圖片或視頻的圖像數據進行處理。處理后的圖像幀可以顯示在顯示單元151上。經相機121處理后的圖像幀可以存儲在存儲器160(或其它存儲介質)中或者經由無線通信單元110進行發送,可以根據移動終端的構造提供兩個或更多相機121。麥克風122可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經由麥克風122接收聲音(音頻數據),并且能夠將這樣的聲音處理為音頻數據。處理后的音頻(語音)數據可以在電話通話模式的情況下轉換為可經由移動通信模塊112發送到移動通信基站的格式輸出。麥克風122可以實施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發送音頻信號的過程中產生的噪聲或者干擾。
[0042]用戶輸入單元130可以根據用戶輸入的命令生成鍵輸入數據以控制移動終端的各種操作。用戶輸入單