一種基于音頻數據的視頻檢索的裝置及其視頻檢索方法
【專利摘要】本發明公開一種基于音頻數據的視頻檢索的裝置及其視頻檢索方法,裝置包括:視頻數據庫模塊,用于存儲視頻數據;第一音視頻分離模塊,用于分離視頻數據庫模塊中視頻數據的音頻數據;音頻數據庫模塊,用于存儲第一音視頻分離模塊得到的音頻數據;音視頻數據接收模塊,用于接收用戶輸入的音頻或視頻數據;第二音視頻分離模塊,用于在音視頻數據接收模塊接收到視頻數據后,分離接收到的視頻數據中的音頻數據;音頻數據匹配模塊,用于將用戶輸入的音頻數據或第二音視頻分離模塊得到的音頻數據與音頻數據庫模塊中的音頻數據進行匹配,得到一個或多個目標音頻數據;視頻檢索顯示模塊,用于將目標音頻數據對應的目標視頻數據向用戶顯示。
【專利說明】
一種基于音頻數據的視頻檢索的裝置及其視頻檢索方法
技術領域
[0001]本發明涉及多媒體技術領域,具體涉及一種基于音頻數據的視頻檢索的裝置及其視頻檢索方法。
【背景技術】
[0002]大數據時代下,視頻數據增長迅速,種類繁多,數量巨大,如何實時,高效、準確地檢索視頻,是當今信息社會亟待解決的問題之一。人們對視頻檢索的要求不僅僅滿足于通過其元數據(如視頻名、作者等)來獲取相應的視頻內容,而更加希望能夠通過一小段未知來源的視頻智能快速的獲取其所在視頻的完整視頻信息,因此,基于內容的視頻檢索是近些年來的研究熱點。視頻作為一種綜合性數據,包含了多種信息,譬如圖像、文字、聲音等,因此目前基于內容的視頻檢索通常是結合了多種信息模態來對視頻進行檢索,其中圖像檢索往往作為主要檢索方式,而音頻信息常常作為一種輔助信息來對檢索進行優化,而單獨從音頻入手的研究不多。另一方面,基于內容的音頻檢索旨在通過音頻內容本身的一些特征,檢索其完整信息,其中,基于內容的音樂檢索已有很多APP實現。而將“聽歌識曲”這一功能引申到視頻層面的系統目前尚無比較完備的研究。
【發明內容】
[0003]鑒于上述問題,本發明提出了克服上述問題或者至少部分地解決上述問題的一種基于音頻數據的視頻檢索的裝置及其視頻檢索方法。
[0004]為此目的,第一方面,本發明提出一種基于音頻數據的視頻檢索的裝置,包括:
[0005]視頻數據庫模塊,用于存儲視頻數據,以及接收用戶和/或管理員輸入的用于更新視頻數據庫的視頻數據;
[0006]第一音視頻分離模塊,用于分離所述視頻數據庫模塊中存儲的視頻數據中的音頻數據;
[0007]音頻數據庫模塊,用于存儲所述第一音視頻分離模塊分離得到的音頻數據;
[0008]音視頻數據接收模塊,用于接收用戶輸入的音頻數據或視頻數據;
[0009]第二音視頻分離模塊,用于在所述音視頻數據接收模塊接收到視頻數據后,分離所述音視頻數據接收模塊接收到的視頻數據中的音頻數據;
[0010]音頻數據匹配模塊,用于將用戶輸入的音頻數據或第二音視頻分離模塊分離得到的音頻數據與所述音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊中的音頻數據;
[0011 ]視頻檢索顯示模塊,用于將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為所述視頻數據庫模塊中存儲的視頻數據。
[0012]可選的,所述第一音視頻分離模塊,包括:
[0013]分離子模塊,用于分離所述視頻數據庫模塊中存儲的視頻數據中的音頻數據;
[0014]標識子模塊,用于對所述分離子模塊分離得到的音頻數據增加標識,所述標識用于指示音頻數據與視頻數據之間的對應關系;
[0015]相應地,所述音頻數據庫模塊,用于存儲增加標識的音頻數據。
[0016]可選的,所述裝置還包括:
[0017]第一音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音頻數據庫模塊中存儲的音頻數據進行音頻指紋提取;
[0018]指紋數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋;
[0019]索引數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋與音頻數據之間的索引關系;
[0020]第一音頻分類模塊,用于基于所述指紋數據庫模塊存儲的音頻指紋,對所述音頻數據庫模塊存儲的音頻數據進行分類。
[0021]可選的,所述裝置還包括:
[0022]第二音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行首頻指紋提取;
[0023]第二音頻分類模塊,用于基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行分類。
[0024]可選的,所述音頻數據匹配模塊,包括:
[0025]待檢索音頻數據確定子單元,用于基于所述第二音頻分類模塊得到的音頻數據的類別以及所述第一音頻分類模塊得到的所述音頻數據庫模塊存儲的音頻數據的類別,從所述音頻數據庫模塊存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同;
[0026]待檢索音頻數據的音頻指紋確定子單元,用于基于所述索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索音頻數據對應的音頻指紋;
[0027]音頻指紋匹配子單元,用于將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。
[0028]第二方面,本發明還提出一種基于第二方面所述的裝置的視頻檢索方法,包括:
[0029]音視頻數據接收模塊接收用戶輸入的音頻數據或視頻數據;
[0030]在所述音視頻數據接收模塊接收到視頻數據后,第二音視頻分離模塊分離所述音視頻數據接收模塊接收到的視頻數據中的音頻數據;
[0031]音頻數據匹配模塊將用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊中的音頻數據;
[0032]視頻檢索顯示模塊將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為視頻數據庫模塊中存儲的視頻數據;所述音頻數據庫模塊中的音頻數據由第一音視頻分離模塊分離所述視頻數據庫模塊中的視頻數據得到。
[0033]可選的,所述音視頻數據接收模塊接收用戶輸入的音頻數據或視頻數據之后,所述方法還包括:
[0034]第二音頻指紋提取模塊基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行音頻指紋提取;
[0035]第二音頻分類模塊基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行分類。
[0036]可選的,所述音頻數據匹配模塊將用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據,包括:
[0037]所述音頻數據匹配模塊基于所述第二音頻分類模塊得到的音頻數據的類別以及第一音頻分類模塊得到的所述音頻數據庫模塊存儲的音頻數據的類別,從所述音頻數據庫模塊存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同;
[0038]所述音頻數據匹配模塊基于索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索首頻數據對應的首頻指紋;
[0039]所述音頻數據匹配模塊將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。
[0040]相比于現有技術,本發明提出的基于音頻數據的視頻檢索的裝置及其視頻檢索方法,根據用戶感興趣的一小段視頻中的音頻數據檢索出包含相類似音頻內容的全部完整視頻,克服現有的視頻檢索方案沒有只基于視頻中音頻數據來進行檢索的不足。
【附圖說明】
[0041]圖1為本發明第一實施例提供的一種基于音頻數據的視頻檢索的裝置結構圖;
[0042]圖2為本發明第二實施例提供的一種基于音頻數據的視頻檢索的裝置的視頻檢索方法流程圖。
【具體實施方式】
[0043]為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。
[0044]需要說明的是,在本文中,“第一”和“第二”僅僅用來將相同的名稱區分開來,而不是暗示這些名稱之間的關系或者順序。
[0045]如圖1所示,本實施例公開一種基于音頻數據的視頻檢索的裝置,可包括如下模塊:視頻數據庫模塊U、第一音視頻分離模塊12、音頻數據庫模塊13、音視頻數據接收模塊14、第二音視頻分離模塊15、音頻數據匹配模塊16以及視頻檢索顯示模塊17。各模塊具體描述如下:
[0046]視頻數據庫模塊11,用于存儲視頻數據,以及接收用戶和/或管理員輸入的用于更新視頻數據庫的視頻數據。本實施例中,視頻數據庫模塊11中存儲的視頻數據可被更新,用戶或者管理員均可對視頻數據庫模塊11進行更新。在具體應用中,視頻數據庫模塊11可由存儲器硬件例如硬盤等存儲硬件及其相關的數據庫軟件相結合實現。
[0047]第一音視頻分離模塊12,用于分離所述視頻數據庫模塊11中存儲的視頻數據中的音頻數據。本實施例中,第一音視頻分離模塊12將視頻數據庫模塊11中存儲的視頻數據中的音頻數據分離出來,便于基于音頻數據進行視頻檢索。在具體應用中,第一音視頻分離模塊12可由處理器硬件例如單片機、DSP、ARM等處理器硬件實現。
[0048]音頻數據庫模塊13,用于存儲所述第一音視頻分離模塊12分離得到的音頻數據。本實施例中,音頻數據庫模塊13可由存儲器硬件例如硬盤等存儲硬件及其相關的數據庫軟件相結合實現。
[0049]音視頻數據接收模塊14,用于接收用戶輸入的音頻數據或視頻數據。本實施例中,音視頻數據接收模塊14可由麥克風、去噪器、USB接口以及顯示器構成,顯示器提供了用戶操作界面,用戶可以選擇直接播放視頻片段或是將視頻片段拷貝到搭載本視頻檢索裝置的終端上,并可以在操作界面中提供所查詢的數據的輔助信息,包括音頻類型是否唯一、主要音頻類型、是否是第一次進行查詢等。
[0050]第二音視頻分離模塊15,用于在所述音視頻數據接收模塊14接收到視頻數據后,分離所述音視頻數據接收模塊14接收到的視頻數據中的音頻數據。在具體應用中,如果用戶通過麥克風錄入音頻數據,則去噪器對音頻數據去噪后將音頻數據傳輸到音頻數據匹配模塊16,如果用戶通過USB錄入視頻數據,則經過第二音視頻分離模塊15將視頻數據中的音頻數據分離出來并傳輸到音頻數據匹配模塊16。
[0051]音頻數據匹配模塊16,用于將用戶輸入的音頻數據或第二音視頻分離模塊15分離得到的音頻數據與所述音頻數據庫模塊13中存儲的音頻數據進行音頻相似度匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊13中的音頻數據。本實施例中,可將音頻數據庫模塊13中音頻相似度大于預設音頻相似度門限的音頻數據作為目標音頻數據。
[0052]視頻檢索顯示模塊17,用于將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為所述視頻數據庫模塊11中存儲的視頻數據。本實施例中,如果有多個目標視頻數據,視頻檢索顯示模塊17可對多個目標視頻數據進行排序,排序依據為音頻相似度由大到小,并向用戶顯示排序后的各目標視頻數據,當然,為了使檢索結果更有效,可選擇排序靠前的若干個視頻數據進行顯示,例如前3個視頻數據。用戶可對顯示的視頻數據進行選擇。
[0053]可見,本實施例公開的基于音頻數據的視頻檢索的裝置,通過將用戶輸入感興趣的視頻片段對應的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,實現對于完整視頻的檢索,從而滿足用戶對于一段感興趣的視頻片段所在完整視頻的檢索的需求。
[0054]本實施例公開的基于音頻數據的視頻檢索的裝置,根據用戶感興趣的一小段視頻中的音頻數據檢索出包含相類似音頻內容的全部完整視頻,克服現有的視頻檢索方案沒有只基于視頻中音頻數據來進行檢索的不足。
[0055]在一個具體的例子中,所述第一音視頻分離模塊12,包括:
[0056]分離子模塊,用于分離所述視頻數據庫模塊11中存儲的視頻數據中的音頻數據;
[0057]標識子模塊,用于對所述分離子模塊分離得到的音頻數據增加標識,所述標識用于指示音頻數據與視頻數據之間的對應關系;
[0058]相應地,所述音頻數據庫模塊13,用于存儲增加標識的音頻數據。
[0059]在一個具體的例子中,所述裝置還包括圖1未示出的以下模塊:
[0060]第一音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音頻數據庫模塊13中存儲的音頻數據進行音頻指紋提取;
[0061]指紋數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋;
[0062]索引數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋與音頻數據之間的索引關系;
[0063]第一音頻分類模塊,用于基于所述指紋數據庫模塊存儲的音頻指紋,對所述音頻數據庫模塊13存儲的音頻數據進行分類。
[0064]在一個具體的例子中,所述裝置還包括圖1未示出的以下模塊:
[0065]第二音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊14接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據進行音頻指紋提取;
[0066]第二音頻分類模塊,用于基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據進行分類。
[0067]在一個具體的例子中,所述音頻數據匹配模塊16,包括:
[0068]待檢索音頻數據確定子單元,用于基于所述第二音頻分類模塊得到的音頻數據的類別以及所述第一音頻分類模塊得到的所述音頻數據庫模塊13存儲的音頻數據的類別,從所述音頻數據庫模塊13存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同;
[0069]待檢索音頻數據的音頻指紋確定子單元,用于基于所述索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索音頻數據對應的音頻指紋;
[0070]音頻指紋匹配子單元,用于將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。
[0071]如圖2所示,本實施例公開一種基于上述實施例公開基于音頻數據的視頻檢索的裝置的視頻檢索方法,該方法可包括以下步驟201?204:[〇〇72]201、音視頻數據接收模塊14接收用戶輸入的音頻數據或視頻數據;[〇〇73]202、在所述音視頻數據接收模塊14接收到視頻數據后,第二音視頻分離模塊15分離所述音視頻數據接收模塊14接收到的視頻數據中的音頻數據;[〇〇74]203、音頻數據匹配模塊16將用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據與音頻數據庫模塊13中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊13中的音頻數據;[〇〇75]204、視頻檢索顯示模塊17將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為視頻數據庫模塊11中存儲的視頻數據;所述音頻數據庫模塊13中的音頻數據由第一音視頻分離模塊12分離所述視頻數據庫模塊11中的視頻數據得到。
[0076]可見,本實施例公開的基于音頻數據的視頻檢索的裝置的視頻檢索方法,通過將用戶輸入感興趣的視頻片段對應的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,實現對于完整視頻的檢索,從而滿足用戶對于一段感興趣的視頻片段所在完整視頻的檢索的需求。
[0077]本實施例公開的基于音頻數據的視頻檢索的裝置的視頻檢索方法,根據用戶感興趣的一小段視頻中的音頻數據檢索出包含相類似音頻內容的全部完整視頻,克服現有的視頻檢索方案沒有只基于視頻中音頻數據來進行檢索的不足。
[0078]在一個具體的例子中,所述音視頻數據接收模塊14接收用戶輸入的音頻數據或視頻數據之后,所述方法還包括圖2中未示出的如下步驟:
[0079]第二音頻指紋提取模塊基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊14接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據進行首頻指紋提取;
[0080]第二音頻分類模塊基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據進行分類。
[0081]在一個具體的例子中,所述音頻數據匹配模塊16將用戶輸入的音頻數據或所述第二音視頻分離模塊15分離得到的音頻數據與音頻數據庫模塊13中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據,包括:
[0082]所述音頻數據匹配模塊16基于所述第二音頻分類模塊得到的音頻數據的類別以及第一音頻分類模塊得到的所述音頻數據庫模塊13存儲的音頻數據的類別,從所述音頻數據庫模塊13存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同;
[0083]所述音頻數據匹配模塊16基于索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索音頻數據對應的音頻指紋;
[0084]所述音頻數據匹配模塊16將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。[〇〇85]本領域技術人員可以理解,可以把實施例中的各單元組合成一個單元,以及此外可以把它們分成多個子單元。除了這樣的特征和/或過程或者單元中的至少一些是互相排斥之處,可以采用任何組合對本說明書中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。[〇〇86]本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。
[0087]雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可以在不脫離本發明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權利要求所限定的范圍之內。
【主權項】
1.一種基于音頻數據的視頻檢索的裝置,其特征在于,包括: 視頻數據庫模塊,用于存儲視頻數據,以及接收用戶和/或管理員輸入的用于更新視頻數據庫的視頻數據; 第一音視頻分離模塊,用于分離所述視頻數據庫模塊中存儲的視頻數據中的音頻數據; 音頻數據庫模塊,用于存儲所述第一音視頻分離模塊分離得到的音頻數據; 音視頻數據接收模塊,用于接收用戶輸入的音頻數據或視頻數據; 第二音視頻分離模塊,用于在所述音視頻數據接收模塊接收到視頻數據后,分離所述音視頻數據接收模塊接收到的視頻數據中的音頻數據; 音頻數據匹配模塊,用于將用戶輸入的音頻數據或第二音視頻分離模塊分離得到的音頻數據與所述音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊中的音頻數據; 視頻檢索顯示模塊,用于將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為所述視頻數據庫模塊中存儲的視頻數據。2.根據權利要求1所述的裝置,其特征在于, 所述第一音視頻分離模塊,包括: 分離子模塊,用于分離所述視頻數據庫模塊中存儲的視頻數據中的音頻數據; 標識子模塊,用于對所述分離子模塊分離得到的音頻數據增加標識,所述標識用于指示音頻數據與視頻數據之間的對應關系; 相應地,所述音頻數據庫模塊,用于存儲增加標識的音頻數據。3.根據權利要求1所述的裝置,其特征在于,所述裝置還包括: 第一音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音頻數據庫模塊中存儲的音頻數據進行音頻指紋提取; 指紋數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋; 索引數據庫模塊,用于存儲所述第一音頻指紋提取模塊提取到的音頻指紋與音頻數據之間的索引關系; 第一音頻分類模塊,用于基于所述指紋數據庫模塊存儲的音頻指紋,對所述音頻數據庫模塊存儲的音頻數據進行分類。4.根據權利要求3所述的裝置,其特征在于,所述裝置還包括: 第二音頻指紋提取模塊,用于基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行首頻指紋提取; 第二音頻分類模塊,用于基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行分類。5.根據權利要求4所述的裝置,其特征在于,所述音頻數據匹配模塊,包括: 待檢索音頻數據確定子單元,用于基于所述第二音頻分類模塊得到的音頻數據的類別以及所述第一音頻分類模塊得到的所述音頻數據庫模塊存儲的音頻數據的類別,從所述音頻數據庫模塊存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同; 待檢索音頻數據的音頻指紋確定子單元,用于基于所述索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索音頻數據對應的音頻指紋; 音頻指紋匹配子單元,用于將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。6.—種基于權利要求1至5任一項所述的裝置的視頻檢索方法,其特征在于,包括: 音視頻數據接收模塊接收用戶輸入的音頻數據或視頻數據; 在所述音視頻數據接收模塊接收到視頻數據后,第二音視頻分離模塊分離所述音視頻數據接收模塊接收到的視頻數據中的音頻數據; 音頻數據匹配模塊將用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據;所述目標音頻數據為與用戶輸入的音頻數據相匹配的存儲在所述音頻數據庫模塊中的音頻數據; 視頻檢索顯示模塊將所述一個或多個目標音頻數據對應的目標視頻數據向用戶顯示,所述目標視頻數據為視頻數據庫模塊中存儲的視頻數據;所述音頻數據庫模塊中的音頻數據由第一音視頻分離模塊分離所述視頻數據庫模塊中的視頻數據得到。7.根據權利要求6所述的方法,其特征在于,所述音視頻數據接收模塊接收用戶輸入的音頻數據或視頻數據之后,所述方法還包括: 第二音頻指紋提取模塊基于預設的音頻指紋提取規則,對所述音視頻數據接收模塊接收到的用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行音頻指紋提取; 第二音頻分類模塊基于所述第二音頻指紋提取模塊提取到的音頻指紋,對所述用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據進行分類。8.根據權利要求7所述的方法,其特征在于,所述音頻數據匹配模塊將用戶輸入的音頻數據或所述第二音視頻分離模塊分離得到的音頻數據與音頻數據庫模塊中存儲的音頻數據進行匹配,得到一個或多個目標音頻數據,包括: 所述音頻數據匹配模塊基于所述第二音頻分類模塊得到的音頻數據的類別以及第一音頻分類模塊得到的所述音頻數據庫模塊存儲的音頻數據的類別,從所述音頻數據庫模塊存儲的音頻數據中確定各待檢索音頻數據;所述各待檢索音頻數據的類別與所述第二音頻分類模塊得到的音頻數據的類別相同; 所述音頻數據匹配模塊基于索引數據庫模塊存儲的音頻指紋與音頻數據之間的索引關系,確定各待檢索首頻數據對應的首頻指紋; 所述音頻數據匹配模塊將所述第二音頻指紋提取模塊得到的音頻指紋與所述待檢索音頻數據的音頻指紋確定子單元確定的各待檢測音頻對應的音頻指紋進行匹配,得到一個或多個目標音頻數據。
【文檔編號】G06F17/30GK106055570SQ201610339063
【公開日】2016年10月26日
【申請日】2016年5月19日
【發明人】高萬林, 李佳璇, 馮慧, 張莉, 于麗娜, 宋越
【申請人】中國農業大學