降噪裝置及方法
【專利摘要】本發明公開了一種降噪裝置,包括:轉換模塊,用于對音視頻文件進行語音識別,將音視頻文件轉換成文本文件;計算模塊,用于分別計算該文本文件中的相鄰兩個語句之間的相似度;判斷模塊,用于根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否存在噪聲語句;確定模塊,用于在該相鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰兩個語句中的一語句為噪聲語句;降噪模塊,用于將噪聲語句從該音視頻文件中濾除。本發明還公開了一種降噪方法。采用本發明,可更加客觀的識別出音視頻文件中的噪聲語句,而不受周圍環境的影響,可大大提高去除噪聲的準確率。
【專利說明】
降噪裝置及方法
技術領域
[0001] 本發明設及音頻處理技術領域,尤其設及一種降噪裝置及方法。
【背景技術】
[0002] 隨著移動通信技術的發展和人們生活水平的不斷提高,人們往往需要通過錄音裝 置在不同的場合進行錄音,如在采訪場合、開會場合、培訓場合等,將現場聲音錄制下來,生 成音視頻文件。但是,由于錄音的場景復雜多變,錄音的質量和內容由于周圍環境的變化而 受影響;比如,在開會期間錄音,使用者打開錄音裝置進行錄音,一直到會議結束后停止錄 音,但是,運段錄音包含了會議休息期間的錄音,因此,需要對錄音裝置錄制的音視頻文件 進行去噪,W去除掉無關緊要的聲音。
[0003] 現有技術中,通常根據錄音環境對音視頻文件進行去噪,比如會議休息期間,聲音 比較噪雜,開會期間,聲音比較單純,但是運種方式具有如下缺陷:由于太過依賴于周圍的 環境,導致去噪準確率低,如:即使在開會期間,也會出現很噪雜的聲音。
【發明內容】
[0004] 本發明的主要目的在于提出一種降噪裝置及方法,旨在解決現有技術中,根據錄 音環境對錄制的音視頻文件進行去噪,去噪準確率低的技術問題。
[0005] 為實現上述目的,本發明提供一種降噪裝置,所述降噪裝置包括:
[0006] 轉換模塊,用于對音視頻文件進行語音識別,將所述音視頻文件轉換成文本文件;
[0007] 計算模塊,用于分別計算所述文本文件中的相鄰兩個語句之間的相似度;
[000引判斷模塊,用于根據所述相鄰兩個語句之間的相似度判斷所述相鄰兩個語句是否 存在噪聲語句;
[0009] 確定模塊,用于在所述相鄰兩個語句存在噪聲語句時,根據預設策略確定所述相 鄰兩個語句中的一語句為噪聲語句;
[0010] 降噪模塊,用于將噪聲語句從所述音視頻文件中濾除。
[0011] 可選的,所述降噪裝置還包括:分詞模塊,用于對所述文本文件中的各個語句進行 分詞,分別得到各個語句的詞語;
[0012] 所述計算模塊包括:
[0013] 獲取單元,用于根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號;
[0014] 建立單元,用于根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立 向量模型;
[0015] 第一計算單元,用于根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐 幾里德距離;
[0016] 第二計算單元,用于根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語句 之間的相似度。
[0017] 可選的,相鄰兩個語句之間的相似度通過W下公式計算:
[0018] Sim=l/(1+D),其中,Sim表示相鄰兩個語句的相似度,D表示相鄰兩個語句的歐幾 里德距離。
[0019] 可選的,判斷模塊包括:
[0020] 判斷單元,用于判斷所述相鄰兩個語句之間的相似度是否小于預設的相似度闊 值;
[0021] 第一確定單元,用于在所述相鄰兩個語句之間的相似度小于預設的相似度闊值 時,確定所述相鄰兩個語句存在噪聲語句。
[0022] 可選的,所述確定模塊包括:
[0023] 第Ξ計算單元,在所述相鄰兩個語句存在噪聲語句時,計算所述相鄰兩個語句中 的第一語句與所述文本文件中的從第一個語句開始的預設個數的語句的相似度,及計算所 述相鄰兩個語句中的第二語句與所述文本文件中的從第一個語句開始的預設個數的語句 的相似度;
[0024] 第二確定單元,用于根據所述相鄰兩個語句中的第一語句與所述文本文件中的從 第一個語句開始的預設個數的語句的相似度及所述相鄰兩個語句中的第二語句與所述文 本文件中的從第一個語句開始的預設個數的語句的相似度,確定所述相鄰兩個語句中的第 一語句或第二語句為噪聲語句。
[0025] 此外,為實現上述目的,本發明還提出一種降噪方法,所述降噪方法包括:
[0026] 對音視頻文件進行語音識別,將音視頻文件轉換成文本文件;
[0027] 分別計算所述文本文件中的相鄰兩個語句之間的相似度,并根據所述相鄰兩個語 句之間的相似度判斷所述相鄰兩個語句是否存在噪聲語句;
[0028] 在所述相鄰兩個語句存在噪聲語句時,根據預設策略確定所述相鄰兩個語句中的 一語句為噪聲語句,并將所述噪聲語句從所述音視頻文件中濾除。
[0029] 可選的,分別計算所述文本文件中的相鄰兩個語句之間的相似度,并根據所述相 鄰兩個語句之間的相似度判斷所述相鄰兩個語句是否存在噪聲語句的步驟之前,所述降噪 方法包括:對所述文本文件中的各個語句進行分詞,分別得到各個語句的詞語;
[0030] 所述分別計算所述文本文件中的相鄰兩個語句之間的相似度的步驟包括:
[0031] 根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號;
[0032] 根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立向量模型;
[0033] 根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里德距離;
[0034] 根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語句之間的相似度。
[0035] 可選的,相鄰兩個語句之間的相似度通過W下公式計算:
[0036] Sim=l/(1+D),其中,Sim表示相鄰兩個語句的相似度,D表示相鄰兩個語句的歐幾 里德距離。
[0037] 可選的,根據所述相鄰兩個語句之間的相似度判斷所述相鄰兩個語句是否存在噪 聲語句的步驟包括:
[0038] 判斷所述相鄰兩個語句之間的相似度是否小于預設的相似度闊值;
[0039] 在所述相鄰兩個語句之間的相似度小于預設的相似度闊值時,確定所述相鄰兩個 語句存在噪聲語句。
[0040] 可選的,在所述相鄰兩個語句存在噪聲語句時,根據預設策略確定所述相鄰兩個 語句中的一語句為噪聲語句的步驟包括:
[0041] 在所述相鄰兩個語句存在噪聲語句時,計算所述相鄰兩個語句中的第一語句與所 述文本文件中的從第一個語句開始的預設個數的語句的相似度,及計算所述相鄰兩個語句 中的第二語句與所述文本文件中的從第一個語句開始的預設個數的語句的相似度;
[0042] 根據所述相鄰兩個語句中的第一語句與所述文本文件中的從第一個語句開始的 預設個數的語句的相似度及所述相鄰兩個語句中的第二語句與所述文本文件中的從第一 個語句開始的預設個數的語句的相似度,確定所述相鄰兩個語句中的第一語句或第二語句 為噪聲語句。
[0043] 本發明的降噪裝置及方法,對音視頻文件進行語音識別,將音視頻文件轉換成文 本文件;分別計算所述文本文件中的相鄰兩個語句之間的相似度,并根據所述相鄰兩個語 句之間的相似度確定所述相鄰兩個語句是否存在噪聲語句;在所述相鄰兩個語句存在噪聲 語句時,根據預設策略確定所述相鄰兩個語句中的一語句為噪聲語句,并將噪聲語句從所 述音視頻文件中濾除;即先將該音視頻文件轉換成文本文件,根據該文本文件中各語句的 相似度確定噪聲語句,再將噪聲語句從音視頻文件中濾除,可更加客觀的識別出音視頻文 件中的噪聲語句,而不受周圍環境的影響,可大大提高去除噪聲的準確率。
【附圖說明】
[0044] 圖1為實現本發明各個實施例一個可選的移動終端的硬件結構示意圖;
[0045] 圖2為本發明降噪裝置的第一實施例的模塊示意圖;
[0046] 圖3為本發明降噪裝置的第二實施例的模塊示意圖;
[0047] 圖4為本發明降噪裝置的第Ξ實施例的模塊示意圖;
[0048] 圖5為本發明降噪裝置的第四實施例的模塊示意圖;
[0049] 圖6為本發明降噪裝置的第五實施例的模塊示意圖;
[0050] 圖7為本發明降噪裝置中的提示信息的示意圖;
[0051 ]圖8為本發明降噪方法的第一實施例的流程示意圖;
[0052] 圖9為本發明降噪方法的第二實施例的流程示意圖;
[0053] 圖10為本發明降噪方法的第Ξ實施例的流程示意圖;
[0054] 圖11為本發明降噪方法的第四實施例的流程示意圖;
[0055] 圖12為本發明降噪方法的第五實施例的流程示意圖。
[0056] 本發明目的的實現、功能特點及優點將結合實施例,參照附圖做進一步說明。
【具體實施方式】
[0057] 應當理解,此處所描述的具體實施例僅僅用W解釋本發明,并不用于限定本發明。
[0058] 現在將參考附圖描述實現本發明各個實施例的移動終端。在后續的描述中,使用 用于表示元件的諸如"模塊"、"部件"或"單元"的后綴僅為了有利于本發明的說明,其本身 并沒有特定的意義。因此,"模塊"與"部件"可W混合地使用。
[0059] 移動終端可各種形式來實施。例如,本發明中描述的終端可W包括諸如移動 電話、智能電話、筆記本電腦、數字廣播接收器、PM(個人數字助理)、PAD(平板電腦)、PMP (便攜式多媒體播放器)、導航裝置等等的移動終端W及諸如數字TV、臺式計算機等等的固 定終端。下面,假設終端是移動終端。然而,本領域技術人員將理解的是,除了特別用于移動 目的的元件之外,根據本發明的實施方式的構造也能夠應用于固定類型的終端。
[0060] 圖1為實現本發明各個實施例一個可選的移動終端的硬件結構示意。
[0061] 移動終端100可W包括無線通信單元110、A/V(音頻/視頻)輸入單元120、用戶輸入 單元130、感測單元140、輸出單元150、存儲器160、接口單元170、控制器180和電源單元190 等等。圖1示出了具有各種組件的移動終端,但是應理解的是,并不要求實施所有示出的組 件。可W替代地實施更多或更少的組件。將在下面詳細描述移動終端的元件。該控制器180 可控制該A/V(音頻/視頻)輸入單元120進行錄音,生成音視頻文件,并將音視頻文件保存在 存儲器160中。該控制器180對音視頻文件進行語音識別,將音視頻文件轉換成文本文件,并 將文本文件保存在存儲器160中;該控制器180計算文本文件中的相鄰兩個語句之間的相似 度,并根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否存在噪聲語句,在該相 鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰兩個語句中的一語句為噪聲語句, 然后將噪聲語句從該音視頻文件中濾除。
[0062] 無線通信單元110通常包括一個或多個組件,其允許移動終端100與無線通信裝置 或網絡之間的無線電通信。
[0063] A/V輸入單元120用于接收音頻或視頻信號。用戶輸入單元130可W根據用戶輸入 的命令生成鍵輸入數據W控制移動終端的各種操作。用戶輸入單元130允許用戶輸入各種 類型的信息,并且可W包括鍵盤、鍋仔片、觸摸板(例如,檢測由于被接觸而導致的電阻、壓 力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地,當觸摸板W層的形式疊加在顯 示單元151上時,可W形成觸摸屏。
[0064] 感測單元140檢測移動終端100的當前狀態,(例如,移動終端100的打開或關閉狀 態)、移動終端100的位置、用戶對于移動終端100的接觸(即,觸摸輸入)的有無、移動終端 100的取向、移動終端100的加速或將速移動和方向等等,并且生成用于控制移動終端100的 操作的命令或信號。例如,當移動終端100實施為滑動型移動電話時,感測單元140可W感測 該滑動型電話是打開還是關閉。另外,感測單元140能夠檢測電源單元190是否提供電力或 者接口單元170是否與外部裝置禪接。
[0065] 接口單元170用作至少一個外部裝置與移動終端100連接可W通過的接口。例如, 外部裝置可W包括有線或無線頭戴式耳機端口、外部電源(或電池充電器)端口、有線或無 線數據端口、存儲卡端口、用于連接具有識別模塊的裝置的端口、音頻輸入/輸出(I/O)端 口、視頻I/O端口、耳機端口等等。識別模塊可W是存儲用于驗證用戶使用移動終端100的各 種信息并且可W包括用戶識別模塊(UIM)、客戶識別模塊(SIM)、通用客戶識別模塊(USIM) 等等。另外,具有識別模塊的裝置(下面稱為"識別裝置")可W采取智能卡的形式,因此,識 別裝置可W經由端口或其它連接裝置與移動終端100連接。接口單元170可W用于接收來自 外部裝置的輸入(例如,數據信息、電力等等)并且將接收到的輸入傳輸到移動終端100內的 一個或多個元件或者可W用于在移動終端和外部裝置之間傳輸數據。
[0066] 另外,當移動終端100與外部底座連接時,接口單元170可W用作允許通過其將電 力從底座提供到移動終端100的路徑或者可W用作允許從底座輸入的各種命令信號通過其 傳輸到移動終端的路徑。從底座輸入的各種命令信號或電力可W用作用于識別移動終端是 否準確地安裝在底座上的信號。輸出單元150被構造為W視覺、音頻和/或觸覺方式提供輸 出信號(例如,音頻信號、視頻信號、警報信號、振動信號等等)。
[0067] 輸出單元150可W包括顯示單元151等等。
[0068] 顯示單元151可W顯示在移動終端100中處理的信息。例如,當移動終端100處于電 話通話模式時,顯示單元151可W顯示與通話或其它通信(例如,文本消息收發、多媒體文件 下載等等)相關的用戶界面(UI)或圖形用戶界面(GUI)。當移動終端100處于視頻通話模式 或者圖像捕獲模式時,顯示單元151可W顯示捕獲的圖像和/或接收的圖像、示出視頻或圖 像W及相關功能的UI或GUI等等。
[0069] 同時,當顯示單元151和觸摸板W層的形式彼此疊加 W形成觸摸屏時,顯示單元 151可W用作輸入裝置和輸出裝置。顯示單元151可W包括液晶顯示器化CD)、薄膜晶體管 LCD(TFT-LCD)、有機發光二極管(0LED)顯示器、柔性顯示器、Ξ維(3D)顯示器等等中的至少 一種。運些顯示器中的一些可W被構造為透明狀W允許用戶從外部觀看,運可W稱為透明 顯示器,典型的透明顯示器可W例如為T0LED(透明有機發光二極管)顯示器等等。根據特定 想要的實施方式,移動終端100可W包括兩個或更多顯示單元(或其它顯示裝置),例如,移 動終端可W包括外部顯示單元(未示出)和內部顯示單元(未示出)。觸摸屏可用于檢測觸摸 輸入壓力W及觸摸輸入位置和觸摸輸入面積。
[0070] 存儲器160可W存儲由控制器180執行的處理和控制操作的軟件程序等等,或者可 W暫時地存儲己經輸出或將要輸出的數據(例如,電話簿、消息、靜態圖像、視頻等等)。而 且,存儲器160可W存儲關于當觸摸施加到觸摸屏時輸出的各種方式的振動和音頻信號的 數據。
[0071] 存儲器160可W包括至少一種類型的存儲介質,所述存儲介質包括閃存、硬盤、多 媒體卡、卡型存儲器(例如,SD或DX存儲器等等)、隨機訪問存儲器(RAM)、靜態隨機訪問存儲 器(SRAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器化EPROM)、可編程只讀存儲器 (PROM)、磁性存儲器、磁盤、光盤等等。而且,移動終端100可W與通過網絡連接執行存儲器 160的存儲功能的網絡存儲裝置協作。
[0072] 控制器180通常控制移動終端的總體操作。例如,控制器180執行與語音通話、數據 通信、視頻通話等等相關的控制和處理。另外,控制器180可W包括用于再現(或回放)多媒 體數據的多媒體模塊181,多媒體模塊181可W構造在控制器180內,或者可W構造為與控制 器180分離。控制器180可W執行模式識別處理,W將在觸摸屏上執行的手寫輸入或者圖片 繪制輸入識別為字符或圖像。
[0073] 電源單元190在控制器180的控制下接收外部電力或內部電力并且提供操作各元 件和組件所需的適當的電力。
[0074] 運里描述的各種實施方式可使用例如計算機軟件、硬件或其任何組合的計算 機可讀介質來實施。對于硬件實施,運里描述的實施方式可W通過使用特定用途集成電路 (ASIC)、數字信號處理器(DSP)、數字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現場可 編程口陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設計為執行運里描述的功能的 電子單元中的至少一種來實施,在一些情況下,運樣的實施方式可W在控制器180中實施。 對于軟件實施,諸如過程或功能的實施方式可W與允許執行至少一種功能或操作的單獨的 軟件模塊來實施。軟件代碼可W由W任何適當的編程語言編寫的軟件應用程序(或程序)來 實施,軟件代碼可W存儲在存儲器160中并且由控制器180執行。
[0075] 至此,己經按照其功能描述了移動終端。下面,為了簡要起見,將描述諸如折疊型、 直板型、擺動型、滑動型移動終端等等的各種類型的移動終端中的滑動型移動終端作為示 例。因此,本發明能夠應用于任何類型的移動終端,并且不限于滑動型移動終端。
[0076] 如圖1中所示的移動終端100可W被構造為利用經由帖或分組發送數據的諸如有 線和無線通信裝置W及基于衛星的通信裝置來操作。
[0077] 基于上述移動終端硬件結構,提出本發明降噪裝置各個實施例。
[0078] 參照圖2,圖2為本發明降噪裝置的第一實施例的模塊示意圖,該降噪裝置包括:
[0079] 轉換模塊10,用于對音視頻文件進行語音識別,將音視頻文件轉換成文本文件;
[0080] 計算模塊20,用于分別計算該文本文件中的相鄰兩個語句之間的相似度;
[0081] 判斷模塊30,用于根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否存 在噪聲語句;
[0082] 確定模塊40,用于在該相鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰 兩個語句中的一語句為噪聲語句;
[0083] 降噪模塊50,用于將噪聲語句從該音視頻文件中濾除。
[0084] 所述音視頻文件可W是錄音裝置錄制得到的音頻文件,該錄音裝置可W為錄音 筆,或具有錄音功能的移動終端,如智能手機、平板電腦等。
[0085] 在開會期間、培訓期間或其他需要錄音的場合,啟動該錄音裝置進行錄制,在錄制 完成后,生成音視頻文件。
[0086] 該轉換模塊10可通過有線或無線方式獲取該錄音裝置錄制的音視頻文件,如在一 實施例中,通過WiFi方式獲取該錄音裝置錄制的音視頻文件。可選的,該轉換模塊10可在錄 音裝置的錄制過程中,對該錄音裝置錄制的音視頻文件進行語音識別;該轉換模塊10也可 在錄音裝置錄制完成后,對該錄音裝置錄制的音視頻文件進行語音識別。
[0087] 該轉換模塊10對該音視頻文件進行語音識別,得到文本文件;該文本文件包括多 個語句及各個語句在音視頻文件中的位置。具體的,該轉換模塊10采用語音識別技術對該 音視頻文件進行語音識別,如:將該音視頻文件根據預定的帖間隔時間劃分多帖,調用語音 識別技術將分帖處理后的音視頻文件一帖一帖的轉化為文字,得到語句,再將每一語句在 音視頻文件中的位置及對應的文字保存為文本文件中的一段,該文本文件包括該音視頻文 件中的所有語句及各個語句在音視頻文件中的位置。如在一實施例中,對該音視頻文件進 行語音識別后,得到1000個語句,則在該文本文件中有1000段,按照識別順序,每段對應一 個識別出的語句;在該文本文件中,各個語句在音視頻文件中的位置可記錄在該語句的最 前面或最后面,如在一實施例中,將各個語句在音視頻文件中的位置記錄在該語句的最前 面,即在該文本文件的任一段里,最開始寫的是該段語句在音視頻文件中的位置,接著寫的 是該段對應的語句。
[0088] 各個語句在音視頻文件中的位置即為各個語句在音視頻文件中的時間軸位置,如 一個語句在音視頻文件中的位置為:第5秒至第8秒。
[0089] 該轉換模塊10將該音視頻文件轉換成文本文件,可選的,該文本文件的文件名與 該音視頻文件的文件名相同,可方便用戶了解該文本文件對應哪個音視頻文件。
[0090] 該計算模塊20計算該文本文件中的相鄰兩個語句之間的相似度,具體的,將文本 文件中的每個語句轉化成向量模型,根據相鄰兩個語句的向量模型計算運兩個語句的相似 度。相鄰兩個語句的向量模型具有相同的維度,如其中一個語句的向量模型表示為:a = (X11,X21,X31,......,:Xnl),另一個語句的向量模型表示為:b = (X12,X22,X32,......,:Xn2 ),其中, Xni表示向量a的第η個分量,Xn2表示向量b的第η個分量,該向量a和向量b的維度數量都為η。 當該相鄰兩個語句的向量模型的維度不同時,則對維度較少的語句的向量模型進行維度補 充,W使得相鄰兩個語句的向量模型的維度相同;具體的,在對該維度較少的語句的向量模 型進行維度補充時,在該維度較少的語句的向量模型中補充的維度對應的值用0表示,如在 一實施例中,其中一個語句的向量模型表示為:曰二(XII、Χ21、Χ31、 ,Xnl ),另一個語句的向 量模型表示為:b = (xl2、x22、X32、......,),其中,j<n,則對該向量模型b進行修正,修改后 的向量模型為:b' = (X12、X22、X32、......,Xj2,0,0,......,〇),修改后的向量模型b '與向量模型a 具有相同數量的維度。
[0091] 判斷模塊30,用于根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否存 在噪聲語句。相鄰兩個語句之間的相似度越大,該相鄰兩個語句就越可能是非噪聲語句,即 相鄰兩個語句不存在噪聲語句,反之,相鄰兩個語句之間的相似度越低,運相鄰兩個語句就 越可能存在噪聲語句。通常的,在一個開會場景中,在開會期間,各個語句之間的相似度較 高,在中場休息時間,人們閑聊各種事情,各個語句之間的相似度較低。
[0092] 相鄰兩個語句可W分別定義為第一語句和第二語句,其中第一語句為在前的語 句。
[0093] 該確定模塊40在相鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰兩個語 句中的一語句為噪聲語句。
[0094] 可選的,該預設策略為:確定該相鄰兩個語句中的第一個語句為噪聲語句。
[0095] 可選的,該預設策略為:確定該相鄰兩個語句中的第二個語句為噪聲語句。
[0096] 可選的,該預存策略為:計算該相鄰兩個語句中的第一語句與該第一語句的前一 語句的相似度,及計算該相鄰兩個語句中的第二語句與該第二語句的后一語句的相似度, 根據第一語句與該第一語句的前一語句的相似度及第二語句與該第二語句的后一語句的 相似度確定相鄰兩個語句中的一語句為噪聲語句;具體的,在該第一語句與該第一語句的 前一語句的相似度大于第二語句與該第二語句的后一語句的相似度時,確定該相鄰兩個語 句中的第二語句為噪聲語句,反之,在該第一語句與該第一語句的前一語句的相似度小于 或等于第二語句與該第二語句的后一語句的相似度時,確定該相鄰兩個語句中的第一語句 為噪聲語句。在計算該第一語句與該第一語句的前一語句的相似度,及計算該第二語句與 該第二語句的后一語句的相似度時,計算方式與計算模塊20計算相鄰兩個語句的相似度的 計算方式相同,在此不寶述。
[0097] 該降噪模塊50將噪聲語句從音視頻文件中濾除,W降低音視頻文件中的噪聲,可 選的,該降噪模塊50從文本文件中查找到該噪聲語句在音視頻文件中的位置,根據該噪聲 語句在音視頻文件中的位置,將噪聲語句從音視頻文件中濾除,對該音視頻文件進行降噪。 可選的,該降噪模塊50在將噪聲語句從音視頻文件中濾除時,還可W對該噪聲語句在音視 頻文件中的對應位置填充預設的音樂,如,該預設的音樂可W為輕音樂。
[0098] 可選的,該降噪模塊50可在錄音裝置的錄制過程中,將噪聲語句從該音視頻文件 中濾除;該降噪模塊50也可在錄音裝置錄制完成后,將噪聲語句從該音視頻文件中濾除。
[0099] 采用上述實施例,通過對音視頻文件進行語音識別,將音視頻文件轉換成文本文 件;分別計算該文本文件中的相鄰兩個語句之間的相似度,并根據該相鄰兩個語句之間的 相似度判斷該相鄰兩個語句是否存在噪聲語句;在該相鄰兩個語句存在噪聲語句時,根據 預設策略確定該相鄰兩個語句中的一語句為噪聲語句,并將噪聲語句從該音視頻文件中濾 除;即先將該音視頻文件轉換成文本文件,根據該文本文件中各語句的相似度確定噪聲語 句,再將噪聲語句從音視頻文件中濾除,W降低音視頻文件中的噪聲,可更加客觀的識別出 音視頻文件中的噪聲語句,而不受周圍環境的影響,可大大提高去除噪聲的準確率。
[0100] 參照圖3,圖3為本發明降噪裝置的第二實施例的模塊示意圖。
[0101] 基于上述降噪裝置的第一實施例,該第二實施例與第一實施例的區別在于,該降 噪裝置還包括:分詞模塊60,用于對該文本文件中的各個語句進行分詞,分別得到各個語句 的詞語;該計算模塊20包括:
[0102] 獲取單元21,用于根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號;
[0103] 建立單元22,用于根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建 立向量模型;
[0104] 第一計算單元23,用于根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的 歐幾里德距離;
[0105] 第二計算單元24,用于根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語 句之間的相似度。
[0106] 該分詞模塊60可根據預設的分詞詞典對該文本文件中的各個語句進行分詞,得到 各個語句的詞語,如對語句"今天討論的主題是關于項目進度的問題",進行分詞后,得到的 詞語依次為:今天、討論、的、主題、是、關于、項目、進度、的、問題,共10個詞語;對一語句分 詞得到的詞語可W相同,如在上述語句的分詞結果中出現兩次"的"。
[0107] 可選的,該分詞模塊60切分該文本文件中的各個語句并獲得各個語句的所有分詞 方式(如一語句有巧巾分詞方式,另一語句有5種分詞方式),計算每一個語句的所有分詞方 式的語句權值,比較每種分詞方式的語句權值,根據預設的選擇策略從每一個語句的所有 分詞方式中選擇一種分詞方式,并根據選擇的分詞方式對對應的語句進行分詞,得到分詞 結果。如在一實施例中,一語句有5中分詞方式,則分別計算采用運5中分詞方式對該語句進 行分詞時的語句權值,選擇語句權值最大時對應的分詞方式,再根據該選擇的分詞方式對 該語句進行分詞。各個語句的分詞方式可不同。
[0108] 在編號詞典中記錄詞語與編號的對應關系,每個詞語對應一個編號,同一編號只 能對應一個詞語,即同一個編號表示一個詞語。
[0109] 該獲取單元21根據編號詞典,獲取相鄰兩個語句的詞語對應的編號;該建立單元 22根據該相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立向量模型。通常的,一 語句分詞后包括N個詞語,則該語句對應的向量模型就為N維,如一語句包括5個詞語(該5個 詞語中可有部分詞語相同),則該語句對應的向量模型就為五維。如一語句為"你吃飯了 嗎",該語句對應的詞語為"你、吃飯、了、嗎",則該語句對應的向量模型為四維,其中,根據 編號詞典,查找到詞語"你 "對應的編號為110、詞語"吃飯"對應的編號為98、詞語"了'對應 的編號為150、編號"嗎"對應的編號為90,則該語句的向量模型為:c = (110,98,150,90)。
[0110] 可選的,該編號詞典可預先設置,所有音視頻文件都共用該編號詞典,在該編號詞 典中,記錄了各個詞語對應的編號。
[0111] 可選的,該編號詞典根據該音視頻文件生成,具體的,對該音視頻文件中的所有語 句的詞語進行匯總,然后根據用戶輸入的編號對各個詞語進行編號,生成編號詞典。如在一 實施例中,該音視頻文件中的所有語句的詞語有1萬個,運1萬個詞語不重復,用戶按照需要 對運1萬個詞語進行編號,每個詞語的編號不一樣。
[0112] 語句的向量模型中的各個分量的值對應該分量的詞語的編號。如一語句的向量模 型為:C = ( 110,98,150,90 ),即語句的第一個分量值為110,該第一分量的詞語為"你"。
[0113] 該第一計算單元23計算相鄰兩個語句之間的歐幾里德距離,具體的,通過W下公 式計算:
[0114]
其中η為兩個語句的維度,xii表示相鄰兩個語句中的其 中一個語句的向量模型的第i個分量,表示相鄰兩個語句中的另一個語句的向量模型的 第i個分量。
[0115] 該第二計算單元24計算相鄰兩個語句之間的相似度,具體的,相鄰兩個語句之間 的相似度通過W下公式計算:
[0116] Sim=l/(1+D),其中,Sim表示相鄰兩個語句的相似度,D表示相鄰兩個語句的歐幾 里德距離。
[0117] 從上述相似度計算公式可W看出,當相鄰兩個語句之間的歐幾里德距離越小,相 鄰兩個語句之間的相似度就越大;反之,當相鄰兩個語句之間的歐幾里德距離越大,相鄰兩 個語句之間的相似度就越小。
[0118] 通過分詞模塊60對文本文件中的各個語句進行分詞,并通過獲取單元21根據編號 詞典分別獲取相鄰兩個語句的詞語對應的編號,建立單元22為相鄰兩個語句建立向量模 型,再通過第一計算單元根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里 德距離;然后通過第二計算單元根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語 句之間的相似度;可更加準確的計算出文本文件中相鄰兩個語句之間的相似度,進而準確 的確定相鄰兩個語句是否存在噪聲語句,W提高去除噪聲的準確率。
[0119] 參照圖4,圖4為本發明降噪裝置的第Ξ實施例的模塊示意圖。
[0120] 基于上述降噪裝置的第一實施例,該第Ξ實施例與第一實施例的區別在于,該判 斷模塊30包括:
[0121] 判斷單元31,用于判斷該相鄰兩個語句之間的相似度是否小于預設的相似度闊 值;
[0122] 第一確定單元32,用于在該相鄰兩個語句之間的相似度小于預設的相似度闊值 時,確定該相鄰兩個語句存在噪聲語句。
[0123] 該相似度闊值可根據需要預先設置,該判斷單元31判斷相鄰兩個語句之間的相似 度是否小于預設的相似度闊值,W確定該相鄰兩個語句是否存在噪聲語句。
[0124] 在本實施例中該判斷模塊30在根據該相鄰兩個語句之間的相似度判斷該相鄰兩 個語句是否存在噪聲語句時,該判斷模塊30中的判斷單元31將該相鄰兩個語句之間的相似 度與預設的相似度闊值進行比較,該第一確定單元32根據判斷單元31的判斷結果確定相鄰 兩個語句是否存在噪聲語句,可更加客觀的識別出音視頻文件中的是否存在噪聲語句,W 提局去除噪聲的準確率。
[0125] 參照圖5,圖5為本發明降噪裝置的第四實施例的模塊示意圖。
[0126] 基于上述降噪裝置的第一實施例,該第四實施例與第一實施例的區別在于,該確 定模塊40包括:
[0127] 第Ξ計算單元41,在該相鄰兩個語句存在噪聲語句時,計算該相鄰兩個語句中的 第一語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度,及計算該相鄰 兩個語句中的第二語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度;
[0128] 第二確定單元42,用于根據該相鄰兩個語句中的第一語句與該文本文件中的從第 一個語句開始的預設個數的語句的相似度及該相鄰兩個語句中的第二語句與該文本文件 中的從第一個語句開始的預設個數的語句的相似度,確定該相鄰兩個語句中的第一語句或 第二語句為噪聲語句。
[0129] 該預設個數可根據需要設置,通常的,該預設個數為20。
[0130] 該第Ξ計算單元41計算該相鄰兩個語句中的第一語句與該文本文件中的從第一 個語句開始的預設個數的語句的相似度,得到多個相似度,如,當預設個數為20時,則依次 計算該相鄰兩個語句中的第一語句與文本文件中的從第一個語句開始的20個語句的相似 度,得到20個相似度。
[0131] 該第Ξ計算單元41計算該相鄰兩個語句中的第二語句與該文本文件中的從第一 個語句開始的預設個數的語句的相似度,得到多個相似度,如,當預設個數為20時,則依次 計算該相鄰兩個語句中的第二語句與文本文件中的從第一個語句開始的20個語句的相似 度,得到20個相似度。
[0132] 在計算該相鄰兩個語句中的第一語句與該文本文件中的從第一個語句開始的預 設個數的語句的相似度,及計算該相鄰兩個語句中的第二語句與該文本文件中的從第一個 語句開始的預設個數的語句的相似度時,計算方式與計算模塊20計算相鄰兩個語句的相似 度的計算方式相同,在此不寶述。
[0133] 該第二確定單元將該相鄰兩個語句中的第一語句與該文本文件中的從第一個語 句開始的預設個數的語句的相似度求和,得到第一相似度總值;及將該相鄰兩個語句中的 第二語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度求和,得到第二 相似度總值;根據該第一相似度總值及第二相似度總值確定該相鄰兩個語句中的第一語句 或第二語句為噪聲語句,具體的,當該第一相似度總值大于第二相似度總值時,則確定該相 鄰兩個語句中的第二語句為噪聲語句,當該第一相似度總值小于或等于第二相似度總值 時,則確定該相鄰兩個語句中的第一語句為噪聲語句。
[0134] 在本實施例中該確定模塊在相鄰兩個語句存在噪聲語句時,根據該相鄰兩個語句 中的第一語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度及該相鄰 兩個語句中的第二語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度, 確定該相鄰兩個語句中的第一語句或第二語句為噪聲語句;可更加客觀的識別出相鄰兩個 語句中的噪聲語句,W提高去除噪聲的準確率。
[0135] 參照圖6,圖6為本發明降噪裝置的第五實施例的模塊示意圖。
[0136] 基于上述降噪裝置的第一實施例,該第五實施例與第一實施例的區別在于,該確 定模塊40包括:
[0137] 提示單元43,用于在該相鄰兩個語句存在噪聲語句時,向用戶發出提示信息,供用 戶根據該提示信息選擇該相鄰兩個語句中的一個語句為噪聲語句;
[0138] 第Ξ確定單元44,用于接收用戶根據該提示信息輸入的選擇指令,并根據該選擇 指令確定該相鄰兩個語句中的一語句為噪聲語句。
[0139] 該提示單元43向用戶發出提示信息,在該提示信息中包括兩個選項,一個選項為 選擇該相鄰兩個語句中的第一語句,另一個選項為選擇該相鄰兩個語句中的第二語句,在 該提示信息中顯示該相鄰兩個語句的具體內容,如圖7所示,如第一語句為"你吃飯了嗎", 第二語句為"今天討論的主題是關于項目進度的問題"。
[0140] 用戶根據該提示信息選擇該相鄰兩個語句中的一個語句為噪聲語句,如用戶覺得 該相鄰兩個語句中的第一語句可能是噪聲語句,則選擇該第一語句。
[0141] 該第Ξ確定單元44接收用戶根據該提示信息輸入的選擇指令,如選擇指令為選擇 相鄰兩個語句中的第一語句,則將該相鄰兩個語句中的第一語句確定為噪聲語句;如選擇 指令為選擇相鄰兩個語句中的第二語句,則將該相鄰兩個語句中的第二語句確定為噪聲語 句。
[0142] 在本實施例中,該提示單元43在相鄰兩個語句存在噪聲語句時,向用戶發出提示 信息,該第Ξ確定單元44根據用戶基于該提示信息輸入的選擇指令確定相鄰兩個語句中的 一語句為噪聲語句,更加靈活的確定出相鄰兩個語句中的噪聲語句,W提高去除噪聲的準 確率,用戶體驗較好。
[0143] 本發明進一步提供一種降噪方法。
[0144] 參照圖8,圖8為本發明降噪方法的第一實施例的流程示意圖,該降噪方法包括:
[0145] S10、對音視頻文件進行語音識別,將音視頻文件轉換成文本文件。
[0146] 所述音視頻文件可W是錄音裝置錄制得到的音頻文件,該錄音裝置可W為錄音 筆,或具有錄音功能的移動終端,如智能手機、平板電腦等。
[0147] 在開會期間、培訓期間或其他需要錄音的場合,啟動該錄音裝置進行錄制,在錄制 完成后,生成音視頻文件。
[0148] 可通過有線或無線方式獲取該錄音裝置錄制的音視頻文件,如在一實施例中,通 過WiFi方式獲取該錄音裝置錄制的音視頻文件。可選的,可在錄音裝置的錄制過程中,對該 錄音裝置錄制的音視頻文件進行語音識別;也可在錄音裝置錄制完成后,對該錄音裝置錄 制的音視頻文件進行語音識別。
[0149] 在該步驟中,對該音視頻文件進行語音識別,得到文本文件;該文本文件包括多個 語句及各個語句在音視頻文件中的位置。具體的,采用語音識別技術對該音視頻文件進行 語音識別,如:將該音視頻文件根據預定的帖間隔時間劃分多帖,調用語音識別技術將分帖 處理后的音視頻文件一帖一帖的轉化為文字,得到語句,再將每一語句在音視頻文件中的 位置及對應的文字保存為文本文件中的一段,該文本文件包括該音視頻文件中的所有語句 及各個語句在音視頻文件中的位置。如在一實施例中,對該音視頻文件進行語音識別后,得 到1000個語句,則在該文本文件中有1000段,按照識別順序,每段對應一個識別出的語句; 在該文本文件中,各個語句在音視頻文件中的位置可記錄在該語句的最前面或最后面,如 在一實施例中,將各個語句在音視頻文件中的位置記錄在該語句的最前面,即在該文本文 件的任一段里,最開始寫的是該段語句在音視頻文件中的位置,接著寫的是該段對應的語 句。
[0150] 各個語句在音視頻文件中的位置即為各個語句在音視頻文件中的時間軸位置,如 一個語句在音視頻文件中的位置為:第5秒至第8秒。
[0151] 在該步驟中,將該音視頻文件轉換成文本文件,可選的,該文本文件的文件名與該 音視頻文件的文件名相同,可方便用戶了解該文本文件對應哪個音視頻文件。
[0152] S20、分別計算該文本文件中的相鄰兩個語句之間的相似度。
[0153] 計算該文本文件中的相鄰兩個語句之間的相似度,具體的,將文本文件中的每個 語句轉化成向量模型,根據相鄰兩個語句的向量模型計算運兩個語句的相似度。相鄰兩個 語句的向量模型具有相同的維度,如其中一個語句的向量模型表示為:a = (XII,X2i, X31,......,:Xnl),另一個語句的向量模型表示為:b = (X12,X22,X32,......,:Xn2 ),其中,Xnl表示向 量a的第η個分量,Xn2表示向量b的第η個分量,該向量a和向量b的維度數量都為η。當該相鄰 兩個語句的向量模型的維度不同時,則對維度較少的語句的向量模型進行維度補充,W使 得相鄰兩個語句的向量模型的維度相同;具體的,在對該維度較少的語句的向量模型進行 維度補充時,在該維度較少的語句的向量模型中補充的維度對應的值用0表示,如在一實施 例中,其中一個語句的向量模型表示為:a=(Xll、X21、X31、......,Xnl),另一個語句的向量模型 表示為:b = ( X12、X22、X32、......,),其中,j<n,則對該向量模型b進行修正,修改后的向量 模型為:b ' = (X12、X22、X32、......,Xj2,0,0,......,〇 ),修改后的向量模型b '與向量模型曰具有相 同數量的維度。
[0154] S30、根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否存在噪聲語句。
[0155] 相鄰兩個語句之間的相似度越大,該相鄰兩個語句就越可能是非噪聲語句,即相 鄰兩個語句不存在噪聲語句,反之,相鄰兩個語句之間的相似度越低,運相鄰兩個語句就越 可能存在噪聲語句。通常的,在一個開會場景中,在開會期間,各個語句之間的相似度較高, 在中場休息時間,人們閑聊各種事情,各個語句之間的相似度較低。
[0156] 相鄰兩個語句可W分別定義為第一語句和第二語句,其中第一語句為在前的語 句。
[0157] S40、在該相鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰兩個語句中的 一語句為噪聲語句。
[0158] 在該步驟中,在相鄰兩個語句存在噪聲語句時,根據預設策略確定該相鄰兩個語 句中的一語句為噪聲語句。
[0159] 可選的,該預設策略為:確定該相鄰兩個語句中的第一個語句為噪聲語句。
[0160] 可選的,該預設策略為:確定該相鄰兩個語句中的第二個語句為噪聲語句。
[0161] 可選的,該預存策略為:計算該相鄰兩個語句中的第一語句與該第一語句的前一 語句的相似度,及計算該相鄰兩個語句中的第二語句與該第二語句的后一語句的相似度, 根據第一語句與該第一語句的前一語句的相似度及第二語句與該第二語句的后一語句的 相似度確定相鄰兩個語句中的一語句為噪聲語句;具體的,在該第一語句與該第一語句的 前一語句的相似度大于第二語句與該第二語句的后一語句的相似度時,確定該相鄰兩個語 句中的第二語句為噪聲語句,反之,在該第一語句與該第一語句的前一語句的相似度小于 或等于第二語句與該第二語句的后一語句的相似度時,確定該相鄰兩個語句中的第一語句 為噪聲語句。在計算該第一語句與該第一語句的前一語句的相似度,及計算該第二語句與 該第二語句的后一語句的相似度時,計算方式與步驟S30中計算相鄰兩個語句的相似度的 計算方式相同,在此不寶述。
[0162] S50、將噪聲語句從該音視頻文件中濾除。
[0163] 在該步驟中,將噪聲語句從音視頻文件中濾除,W降低音視頻文件中的噪聲,可選 的,從文本文件中查找到該噪聲語句在音視頻文件中的位置,根據該噪聲語句在音視頻文 件中的位置,將噪聲語句從音視頻文件中濾除,對該音視頻文件進行降噪。可選的,在將噪 聲語句從音視頻文件中濾除時,還可W對該噪聲語句在音視頻文件中的對應位置填充預設 的音樂,如,該預設的音樂為輕音樂。
[0164] 可選的,可在錄音裝置的錄制過程中,將噪聲語句從該音視頻文件中濾除;也可在 錄音裝置錄制完成后,將噪聲語句從該音視頻文件中濾除。
[0165] 采用上述實施例,通過對錄音裝置錄制的音視頻文件進行語音識別,將音視頻文 件轉換成文本文件;分別計算該文本文件中的相鄰兩個語句之間的相似度,并根據該相鄰 兩個語句之間的相似度判斷該相鄰兩個語句是否存在噪聲語句;在該相鄰兩個語句存在噪 聲語句時,根據預設策略確定該相鄰兩個語句中的一語句為噪聲語句,并將噪聲語句從該 音視頻文件中濾除;即先將該音視頻文件轉換成文本文件,根據該文本文件中各語句的相 似度確定噪聲語句,再將噪聲語句從音視頻文件中濾除,W降低音視頻文件中的噪聲,可更 加客觀的識別出音視頻文件中的噪聲語句,而不受周圍環境的影響,可大大提高去除噪聲 的準確率。
[0166] 參照圖9,圖9為本發明降噪方法的第二實施例的流程示意圖。
[0167] 基于上述降噪方法的第一實施例,該第二實施例與第一實施例的區別在于,在步 驟S20之前,該降噪方法還包括S60、對該文本文件中的各個語句進行分詞,分別得到各個語 句的詞語;
[0168] 該步驟S20包括:S21根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號; S22、根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立向量模型;S23、根據 相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里德距離;S24、根據相鄰兩個語 句之間的歐幾里德距離,得到相鄰兩個語句之間的相似度。
[0169] 在該步驟S60中,可根據預設的分詞詞典對該文本文件中的各個語句進行分詞,得 到每個語句的詞語,如對語句"今天討論的主題是關于項目進度的問題",進行分詞后,得到 的詞語依次為:今天、討論、的、主題、是、關于、項目、進度、的、問題,共10個詞語;對一語句 分詞得到的詞語可W相同,如在上述語句的分詞結果中出現兩次"的"。
[0170] 可選的,在該步驟S60中,切分該文本文件中的各個語句并獲得各個語句的所有分 詞方式(如一語句有巧巾分詞方式,另一語句有5種分詞方式),計算每一個語句的所有分詞 方式的語句權值,比較每種分詞方式的語句權值,根據預設的選擇策略從每一個語句的所 有分詞方式中選擇一種分詞方式,并根據選擇的分詞方式對對應的語句進行分詞,得到分 詞結果。如在一實施例中,一語句有5中分詞方式,則分別計算采用運5中分詞方式對該語句 進行分詞時的語句權值,選擇語句權值最大時對應的分詞方式,再根據該選擇的分詞方式 對該語句進行分詞。各個語句的分詞方式可不同。
[0171] 在編號詞典中記錄詞語與編號的對應關系,每個詞語對應一個編號,同一編號只 能對應一個詞語,即同一個編號表示一個詞語。
[0172] 在該步驟S21中,根據編號詞典,獲取相鄰兩個語句的詞語對應的編號;在該步驟 S22中,根據該相鄰兩個語句的詞語對應的編號,為相鄰兩個語句建立向量模型。通常的,一 語句分詞后包括N個詞語,則該語句對應的向量模型就為N維,如一語句包括5個詞語(該5個 詞語中可有部分詞語相同),則該語句對應的向量模型就為五維。如一語句為"你吃飯了 嗎",該語句對應的詞語為"你、吃飯、了、嗎",則該語句對應的向量模型為四維,其中,根據 編號詞典,查找到詞語"你 "對應的編號為110、詞語"吃飯"對應的編號為98、詞語"了'對應 的編號為150、編號"嗎"對應的編號為90,則該語句的向量模型為:c = (110,98,150,90)。
[0173] 可選的,該編號詞典可預先設置,所有音視頻文件都共用該編號詞典,在該編號詞 典中,記錄了各個詞語對應的編號。
[0174] 可選的,該編號詞典根據該音視頻文件生成,具體的,對該音視頻文件中的所有語 句的詞語進行匯總,然后根據用戶輸入的編號對各個詞語進行編號,生成編號詞典。如在一 實施例中,該音視頻文件中的所有語句的詞語有1萬個,運1萬個詞語不重復,用戶按照需要 對運1萬個詞語進行編號,每個詞語的編號不一樣。
[0175] 語句的向量模型中的各個分量的值對應該分量的詞語的編號。如一語句的向量模 型為:C = ( 110,98,150,90 ),即語句的第一個分量值為110,該第一分量的詞語為"你"。
[0176] 在該步驟S23中,計算相鄰兩個語句之間的歐幾里德距離,具體的,通過W下公式 計算:
[0177] ,其中η為兩個語句的維度,xii表示相鄰兩個語句中的其 中一個語句的向量模型的第i個分量,表示相鄰兩個語句中的另一個語句的向量模型的 第i個分量。
[0178] 在該步驟S24中,計算相鄰兩個語句之間的相似度,具體的,相鄰兩個語句之間的 相似度通過W下公式計算:
[0179] Sim=l/(1+D),其中,Sim表示相鄰兩個語句的相似度,D表示相鄰兩個語句的歐幾 里德距離。
[0180] 從上述相似度計算公式可W看出,當相鄰兩個語句之間的歐幾里德距離越小,相 鄰兩個語句之間的相似度就越大;反之,當相鄰兩個語句之間的歐幾里德距離越大,相鄰兩 個語句之間的相似度就越小。
[0181] 采用上述實施例,對文本文件中的各個語句進行分詞,根據編號詞典分別獲取相 鄰兩個語句的詞語對應的編號,根據相鄰兩個語句的詞語對應的編號為相鄰兩個語句建立 向量模型,再根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里德距離;然后 根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語句之間的相似度;可更加準確的 計算出文本文件中相鄰兩個語句之間的相似度,進而準確的確定相鄰兩個語句是否存在噪 聲語句,W提高去除噪聲的準確率。
[0182] 參照圖10,圖10為本發明降噪方法的第Ξ實施例的流程示意圖。
[0183] 基于上述降噪方法的第一實施例,該第Ξ實施例與第一實施例的區別在于,該步 驟S30包括:
[0184] S31、判斷該相鄰兩個語句之間的相似度是否小于預設的相似度闊值。
[0185] 該相似度闊值可根據需要預先設置,在該步驟中,判斷相鄰兩個語句之間的相似 度是否小于預設的相似度闊值,W確定該相鄰兩個語句是否存在噪聲語句。
[0186] S32、在該相鄰兩個語句之間的相似度小于預設的相似度闊值時,確定該相鄰兩個 語句存在噪聲語句。
[0187] 采用上述實施例,在根據該相鄰兩個語句之間的相似度判斷該相鄰兩個語句是否 存在噪聲語句時,將該相鄰兩個語句之間的相似度與預設的相似度闊值進行比較,根據比 較結果確定相鄰兩個語句是否存在噪聲語句,可更加客觀的識別出音視頻文件中的是否存 在噪聲語句,W提高去除噪聲的準確率。
[0188] 參照圖11,圖11為本發明降噪方法的第四實施例的流程示意圖。
[0189] 基于上述降噪方法的第一實施例,該第四實施例與第一實施例的區別在于,該步 驟S40包括:
[0190] S41、在該相鄰兩個語句存在噪聲語句時,計算該相鄰兩個語句中的第一語句與該 文本文件中的從第一個語句開始的預設個數的語句的相似度,及計算該相鄰兩個語句中的 第二語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度。
[0191 ]該預設個數可根據需要設置,通常的,該預設個數為20。
[0192] 在該步驟中,計算該相鄰兩個語句中的第一語句與該文本文件中的從第一個語句 開始的預設個數的語句的相似度,得到多個相似度,如,當預設個數為20時,則依次計算該 相鄰兩個語句中的第一語句與文本文件中的從第一個語句開始的20個語句的相似度,得到 20個相似度。
[0193] 在該步驟中,計算該相鄰兩個語句中的第二語句與該文本文件中的從第一個語句 開始的預設個數的語句的相似度,得到多個相似度,如,當預設個數為20時,則依次計算該 相鄰兩個語句中的第二語句與文本文件中的從第一個語句開始的20個語句的相似度,得到 20個相似度。
[0194] 在計算該相鄰兩個語句中的第一語句與該文本文件中的從第一個語句開始的預 設個數的語句的相似度,及計算該相鄰兩個語句中的第二語句與該文本文件中的從第一個 語句開始的預設個數的語句的相似度時,計算方式與步驟S30中計算相鄰兩個語句的相似 度的計算方式相同,在此不寶述。
[01M] S42、根據該相鄰兩個語句中的第一語句與該文本文件中的從第一個語句開始的 預設個數的語句的相似度及該相鄰兩個語句中的第二語句與該文本文件中的從第一個語 句開始的預設個數的語句的相似度,確定該相鄰兩個語句中的第一語句或第二語句為噪聲 語句。
[0196] 將該相鄰兩個語句中的第一語句與該文本文件中的從第一個語句開始的預設個 數的語句的相似度求和,得到第一相似度總值;及將該相鄰兩個語句中的第二語句與該文 本文件中的從第一個語句開始的預設個數的語句的相似度求和,得到第二相似度總值;根 據該第一相似度總值及第二相似度總值確定該相鄰兩個語句中的第一語句或第二語句為 噪聲語句,具體的,當該第一相似度總值大于第二相似度總值時,則確定該相鄰兩個語句中 的第二語句為噪聲語句,當該第一相似度總值小于或等于第二相似度總值時,則確定該相 鄰兩個語句中的第一語句為噪聲語句。
[0197] 采用上述實施例,在相鄰兩個語句存在噪聲語句時,根據該相鄰兩個語句中的第 一語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度及該相鄰兩個語 句中的第二語句與該文本文件中的從第一個語句開始的預設個數的語句的相似度,確定該 相鄰兩個語句中的第一語句或第二語句為噪聲語句;可更加客觀的識別出相鄰兩個語句中 的噪聲語句,W提高去除噪聲的準確率。
[0198] 參照圖12,圖12為本發明降噪方法的第五實施例的流程示意圖。
[0199] 基于上述降噪方法的第一實施例,該第五實施例與第一實施例的區別在于,該步 驟S40包括:
[0200] S43、在該相鄰兩個語句存在噪聲語句時,向用戶發出提示信息,供用戶根據該提 示信息選擇該相鄰兩個語句中的一個語句為噪聲語句。
[0201] 在該步驟中,向用戶發出提示信息,在該提示信息中包括兩個選項,一個選項為選 擇該相鄰兩個語句中的第一語句,另一個選項為選擇該相鄰兩個語句中的第二語句,在該 提示信息中顯示該相鄰兩個語句的具體內容,如圖7所示,如第一語句為"你吃飯了嗎",第 二語句為"今天討論的主題是關于項目進度的問題"。
[0202] 用戶根據該提示信息選擇該相鄰兩個語句中的一個語句為噪聲語句,如用戶覺得 該相鄰兩個語句中的第一語句可能是噪聲語句,則選擇該第一語句。
[0203] S44、接收用戶根據該提示信息輸入的選擇指令,并根據該選擇指令確定該相鄰兩 個語句中的一語句為噪聲語句。
[0204] 在該步驟中,接收用戶根據該提示信息輸入的選擇指令,如選擇指令為選擇相鄰 兩個語句中的第一語句,則將該相鄰兩個語句中的第一語句確定為噪聲語句;如選擇指令 為選擇相鄰兩個語句中的第二語句,則將該相鄰兩個語句中的第二語句確定為噪聲語句。
[0205] 采用上述實施例,在相鄰兩個語句存在噪聲語句時,向用戶發出提示信息,并根據 用戶基于該提示信息輸入的選擇指令確定相鄰兩個語句中的一語句為噪聲語句,更加靈活 的確定出相鄰兩個語句中的噪聲語句,W提高去除噪聲的準確率,用戶體驗較好。
[0206] 通過W上的實施方式的描述,本領域的技術人員可W清楚地了解到上述實施例方 法可借助軟件加必需的通用硬件平臺的方式來實現,當然也可W通過硬件,但很多情況下 前者是更佳的實施方式。基于運樣的理解,本發明的技術方案本質上或者說對現有技術做 出貢獻的部分可軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質 (如R0M/RAM、磁碟、光盤)中,包括若干指令用W使得一臺終端設備(可W是手機,計算機,月良 務器,空調器,或者網絡設備等)執行本發明各個實施例該的方法。
[0207] W上僅為本發明的優選實施例,并非因此限制本發明的專利范圍,凡是利用本發 明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的技 術領域,均同理包括在本發明的專利保護范圍內。
【主權項】
1. 一種降噪裝置,其特征在于,所述降噪裝置包括: 轉換模塊,用于對音視頻文件進行語音識別,將所述音視頻文件轉換成文本文件; 計算模塊,用于分別計算所述文本文件中的相鄰兩個語句之間的相似度; 判斷模塊,用于根據所述相鄰兩個語句之間的相似度判斷所述相鄰兩個語句是否存在 噪聲語句; 確定模塊,用于在所述相鄰兩個語句存在噪聲語句時,根據預設策略確定所述相鄰兩 個語句中的一語句為噪聲語句; 降噪模塊,用于將所述噪聲語句從所述音視頻文件中濾除。2. 如權利要求1所述的降噪裝置,其特征在于,所述降噪裝置還包括:分詞模塊,用于對 所述文本文件中的各個語句進行分詞,分別得到各個語句的詞語; 所述計算模塊包括: 獲取單元,用于根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號; 建立單元,用于根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立向量 豐旲型; 第一計算單元,用于根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里 德距離; 第二計算單元,用于根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語句之間 的相似度。3. 如權利要求2所述的降噪裝置,其特征在于,相鄰兩個語句之間的相似度通過以下公 式計算: Sim=丨/( 1+D),其中,Sim表示相鄰兩個語句的相似度,〇表示相鄰兩個語句的歐幾里德 距離。4. 如權利要求1所述的降噪裝置,其特征在于,判斷模塊包括: 判斷單元,用于判斷所述相鄰兩個語句之間的相似度是否小于預設的相似度閾值; 第一確定單元,用于在所述相鄰兩個語句之間的相似度小于預設的相似度閾值時,確 定所述相鄰兩個語句存在噪聲語句。5. 如權利要求1至4任一項所述的降噪裝置,其特征在于,所述確定模塊包括: 第三計算單元,在所述相鄰兩個語句存在噪聲語句時,計算所述相鄰兩個語句中的第 一語句與所述文本文件中的從第一個語句開始的預設個數的語句的相似度,及計算所述相 鄰兩個語句中的第二語句與所述文本文件中的從第一個語句開始的預設個數的語句的相 似度; 第二確定單元,用于根據所述相鄰兩個語句中的第一語句與所述文本文件中的從第一 個語句開始的預設個數的語句的相似度及所述相鄰兩個語句中的第二語句與所述文本文 件中的從第一個語句開始的預設個數的語句的相似度,確定所述相鄰兩個語句中的第一語 句或第二語句為噪聲語句。6. -種降噪方法,其特征在于,所述降噪方法包括: 對音視頻文件進行語音識別,將所述音視頻文件轉換成文本文件; 分別計算所述文本文件中的相鄰兩個語句之間的相似度,并根據所述相鄰兩個語句之 間的相似度判斷所述相鄰兩個語句是否存在噪聲語句; 在所述相鄰兩個語句存在噪聲語句時,根據預設策略確定所述相鄰兩個語句中的一語 句為噪聲語句,并將所述噪聲語句從所述音視頻文件中濾除。7. 如權利要求6所述的降噪方法,其特征在于,分別計算所述文本文件中的相鄰兩個語 句之間的相似度,并根據所述相鄰兩個語句之間的相似度判斷所述相鄰兩個語句是否存在 噪聲語句的步驟之前,所述降噪方法包括:對所述文本文件中的各個語句進行分詞,分別得 到各個語句的詞語; 所述分別計算所述文本文件中的相鄰兩個語句之間的相似度的步驟包括: 根據編號詞典分別獲取相鄰兩個語句的詞語對應的編號; 根據相鄰兩個語句的詞語對應的編號,分別為相鄰兩個語句建立向量模型; 根據相鄰兩個語句的向量模型,計算相鄰兩個語句之間的歐幾里德距離; 根據相鄰兩個語句之間的歐幾里德距離,得到相鄰兩個語句之間的相似度。8. 如權利要求7所述的降噪方法,其特征在于,相鄰兩個語句之間的相似度通過以下公 式計算: Sim=丨/( 1+D),其中,Sim表示相鄰兩個語句的相似度,〇表示相鄰兩個語句的歐幾里德 距離。9. 如權利要求6所述的降噪方法,其特征在于,根據所述相鄰兩個語句之間的相似度判 斷所述相鄰兩個語句是否存在噪聲語句的步驟包括: 判斷所述相鄰兩個語句之間的相似度是否小于預設的相似度閾值; 在所述相鄰兩個語句之間的相似度小于預設的相似度閾值時,確定所述相鄰兩個語句 存在噪聲語句。10. 如權利要求6至9任一項所述的降噪方法,其特征在于,在所述相鄰兩個語句存在噪 聲語句時,根據預設策略確定所述相鄰兩個語句中的一語句為噪聲語句的步驟包括: 在所述相鄰兩個語句存在噪聲語句時,計算所述相鄰兩個語句中的第一語句與所述文 本文件中的從第一個語句開始的預設個數的語句的相似度,及計算所述相鄰兩個語句中的 第二語句與所述文本文件中的從第一個語句開始的預設個數的語句的相似度; 根據所述相鄰兩個語句中的第一語句與所述文本文件中的從第一個語句開始的預設 個數的語句的相似度及所述相鄰兩個語句中的第二語句與所述文本文件中的從第一個語 句開始的預設個數的語句的相似度,確定所述相鄰兩個語句中的第一語句或第二語句為噪 聲語句。
【文檔編號】G10L21/0272GK106067302SQ201610370200
【公開日】2016年11月2日
【申請日】2016年5月27日 公開號201610370200.5, CN 106067302 A, CN 106067302A, CN 201610370200, CN-A-106067302, CN106067302 A, CN106067302A, CN201610370200, CN201610370200.5
【發明人】王榮洋
【申請人】努比亞技術有限公司