音視頻文件檢測管理方法及裝置的制造方法
【技術領域】
[0001]本發明涉及互聯網應用領域,特別是涉及一種音視頻文件檢測管理方法及裝置。
【背景技術】
[0002]互聯網帶來信息的爆炸,與此同時,人們越來越多的參與到互聯網的使用當中。
[0003]隨著互聯網被越來越頻繁的使用,催生了互聯網存儲模式,例如各種云盤存儲應用,視頻網站的流行等等。云盤存儲應用或者視頻網站都會存在大量的數據存儲,尤其是信息量較大且簡單易懂易于被用戶理解的音視頻類數據存儲。相應地,由用戶產生的音視頻文件也越來越多,這些文件被保存在提供相關服務(例如上文提及的云盤存儲應用和/或視頻網站)的服務器上,并與用戶賬戶相關聯。
[0004]音視頻文件的互聯網存儲雖然為用戶其提供大信息量、簡單易懂的數據,但是,相對于簡單的文字文件,音視頻文件因其音視頻的信息復雜性存在難以檢測的問題,進而可能會為用戶以及整個互聯網時代帶來一定的安全隱患。例如,用戶可能將包含木馬/病毒/不當的宣傳資料等的音視頻文件上傳至云盤存儲應用,隨后,將賬號告知其他人,其他人就可以利用賬號查看、下載等方式獲取到包含木馬/病毒/不當的宣傳資料的音視頻文件,進而對互聯網安全造成威脅。或者,用戶可以將上述文件直接發到視頻網站,供他人觀看,均會對互聯網安全造成一定的威脅。
[0005]目前各網站采用人工審核的方式對互聯網存儲的音視頻文件進行檢測。圖1示出了現有技術的人工審核視頻的流程示意圖。由圖1可以看出,注冊用戶上傳視頻之后,網站將其轉入人工審核系統進行安全性判別,在此同時,該視頻可以繼續傳播,由其他用戶獲取。僅僅在人工審核系統判別出其安全性確實有問題時,才對該視頻進行相應處置。
[0006]但是,考慮到互聯網的大數據性,云盤存儲應用或者視頻網站每天都會接收到用戶上傳的大量音視頻資源,完全靠人工審核費時費力,并且會造成大量遺漏。另外,人工審核使得每個網站的審核系統均自成體系,沒有一個統一的標準,標準的不完善也進一步會對互聯網安全造成影響。
【發明內容】
[0007]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的音視頻文件檢測管理方法和相應的裝置。
[0008]基于本發明的一個方面,本發明實施例提供了一種音視頻文件檢測管理方法,包括:
[0009]從存儲有音視頻文件的網站獲取所述音視頻文件對應的音視頻元數據;
[0010]根據預設規則對所述音視頻元數據進行初步篩選,以對所述音視頻文件進行分類;
[0011]依據分類結果對所述音視頻文件中的至少一部分進行深度分析,得到針對被分析音視頻文件的判別結果;
[0012]根據所述判別結果檢測所述被分析音視頻文件是否為特定類型的音視頻文件。
[0013]可選地,所述依據分類結果對所述音視頻文件中的至少一部分進行深度分析,得到針對被分析音視頻文件的判別結果的步驟進一步包括:
[0014]根據所述分類結果獲取所述被分析音視頻文件;
[0015]提取所述被分析音視頻文件的至少一個特征數據;
[0016]對提取的特征數據進行信息識別操作,以判斷所述提取的特征數據中是否包含特定類型的信息;
[0017]依據所述信息識別操作的結果,得到所述判別結果。
[0018]可選地,所述從存儲有音視頻文件的網站獲取所述音視頻文件對應的音視頻元數據的步驟進一步包括:
[0019]通過網站數據上傳接口向各網站發送元數據獲取請求,并通過各網站數據上傳接口接收各網站應答所述元數據獲取請求所上傳的音視頻元數據;
[0020]或者
[0021]通過與各網站對應的網站數據上傳接口接收各網站主動上傳的音視頻元數據。
[0022]可選地,在一定的時間段內,各網站所更新的音視頻資源在其數據庫中所占存儲比達到一定的百分比時主動上傳音視頻元數據;
[0023]或者,
[0024]在一定的時間段內,各網站所更新的音視頻資源的總量達到一定的數值時主動上傳音視頻元數據;
[0025]或者
[0026]每隔固定或不定時間段,各網站主動上傳音視頻元數據。
[0027]可選地,所述網站數據上傳接口的數量為一個或多個,
[0028]當所述網站數據上傳接口為一個時,通過該網站數據上傳接口接收各網站上傳的音視頻元數據;
[0029]當所述各網站數據上傳接口為多個時,根據包括網站數據上傳接口與各網站綁定關系的預配置信息,通過各網站數據上傳接口分別接收與各網站數據上傳接口綁定的各網站上傳的音視頻元數據。
[0030]可選地,所述根據預設規則對所述音視頻元數據進行初步篩選的步驟進一步包括:
[0031]根據預設的黑白名單規則對所述音視頻元數據進行初步篩選對比;
[0032]若所述音視頻元數據與黑名單規則匹配,則篩選其為不可信任數據;
[0033]若所述音視頻元數據與白名單規則匹配,則篩選其為可信任數據;
[0034]若所述音視頻元數據與黑白名單規則均不匹配,則篩選其為需進一步深度分析的未識別數據。
[0035]可選地,設置所述黑白名單規則的參數包括下列至少之一:
[0036]所述音視頻元數據的IP地址;
[0037]所述音視頻元數據的email來源;
[0038]所述音視頻元數據的MD5標識;
[0039]所述音視頻元數據的后綴名;
[0040]所述音視頻元數據的下載地址;
[0041 ] 所述音視頻元數據的文件摘要。
[0042]可選地,所述提取所述被分析音視頻文件的至少一個特征數據的步驟進一步包括:
[0043]對于視頻文件,提取其中的至少一幀畫面和/或至少一個語音片段作為特征數據;和/或
[0044]對于音頻文件,提取其中的至少一個語音片段作為特征數據。
[0045]可選地,所述對于視頻文件,提取其中的至少一幀畫面作為特征數據的步驟進一步包括:
[0046]根據視頻文件的時間軸走向,在至少一個時間點提取對應幀的畫面作為特征數據。
[0047]可選地,根據視頻文件的時間軸走向,在至少一個時間點提取對應幀的畫面的步驟進一步包括下列至少之一:
[0048]在所述時間軸上隨機選擇任意時間點,提取對應幀的畫面;
[0049]集中在所述時間軸的某個時間段內進行提取若干幀的畫面;
[0050]每隔固定時間在對應時間點提取對應幀的畫面以生成規則樣本選集;
[0051]間隔不固定時間在對應時間點提取對應幀的畫面以生成不規則樣本選集。
[0052]可選地,所述對提取的特征數據進行信息識別操作,以判斷所述提取的特征數據中是否包含特定類型的信息的步驟進一步包括:
[0053]對作為特征數據的幀畫面進行信息識別,得到所述幀畫面的表達信息,其中,所述表達信息包括所述幀畫面上的文字信息和/或所述幀畫面的圖形信息;
[0054]對所述表達信息進行識別操作,以判斷出該幀畫面上是否以文字和/或圖形的方式包含特定類型的信息。
[0055]可選地,所述表達信息包括徽標LOGO。
[0056]可選地,所述對于音頻文件和/或視頻文件,提取其中的至少一個語音片段作為特征數據的步驟進一步包括:
[0057]根據音頻文件和/或視頻文件的時間軸走向,提取至少一個時間段的語音片段作為特征數據。
[0058]可選地,所述根據音頻文件和/或視頻文件的時間軸走向,提取至少一個時間段的語音片段的步驟進一步包括:
[0059]在所述時間軸上隨機選擇任意時間段,提取對應的語音片段;
[0060]集中在所述時間軸的某個時間段內進行提取若干語音片段;
[0061]每隔固定時間段提取固定時長的語音片段以生成規則樣本選集,;
[0062]間隔不固定時間段提取固定時長或可變時長的語音片段以生成不規則樣本選集;
[0063]若視頻文件提取了至少一幀畫面作為特征數據時,提取與所述至少一幀畫面對應的語音片段。
[0064]所述對提取的特征數據進行信息識別操作,以判斷所述提取的特征數據中是否包含特定類型的信息的步驟進一步包括:
[0065]對作為特征數據的語音片段進行解析,得到語音片段的語音信息;
[0066]對所述語音信息進行識別操作,以判斷該語音片段中是否包含特定類型的信息。
[0067]可選地,所述對作為特征數據的語音片段進行解析,得到語音片段的語音信息的步驟進一步包括:
[0068]對所述語音片段進行語音與文本間的轉換,得到語音信息;或者
[0069]對所述語音片段進行語音提取識別,得到其中的語音信息。
[0070]可選地,所述依據所述信息識別操作的結果,得到所述判別結果的步驟進一步包括:
[0071]對每個特征數據的識別結果賦予對應權值并設定在判別結果中的比值;
[0072]對當前被分析音視頻文件的各識別結果進行加權處理,得到最終權值;
[0073]比較所述權值與權值閾值,得到所述判別結果。
[0074]可選地,所述依據所述信息識別操作的結果,得到所述判別結果的步驟進一步包括:
[0075]對當前被分析音視頻文件的各特征數據的識別結果分別進行計數;
[0076]比較識別結果為包含特定類型的信息的特征數量和識別結果為不包含特征類型的信息的特征數量,以得到所述判別結果。
[0077]可選地,所述根據所述判別結果檢測所述被分析音視頻文件是否為特定類型的音視頻文件之后,還包括:根據檢測結果更新所述用于對音視頻元數據進行初步篩選的預設規則。
[0078]可選地,所述根據檢測結果更新所述用于對音視頻元數據進行初步篩選的預設規則的步驟進一步包括:
[0079]對檢測結果為包含特定類型的信息的音視頻文件進行解析,得到與所述特定類型相關的關鍵參數;
[0080]將所述關鍵參數更新至所述預設規則中。
[0081]可選地,所述根據所述判別結果檢測所述被分析音視頻文件是否為特定類型的音視頻文件之后,還包括:
[0082]若檢測出所述被分析音視頻文件為所述特定類型的音視頻文件,則將其攔截;
[0083]若檢測出所述被分析音視頻文件并非為所述特定類型的音視頻文件,則將其放行。
[0084]可選地,所述根據所述判別結果檢測所述被分析音視頻文件是否為特定類型的音視頻文件之后,還包括:
[0085]跟蹤上傳識別為所述特定類型的音視頻的用戶在網站上的賬戶信息;
[0086]根據所述賬戶信息查找所述用戶的真實身份信息。
[0087]可選地,所述跟蹤上傳識別為所述特定類型的音視頻的用戶在網站上的賬戶信息之后,還包括:
[0088]對該賬戶信息發送提醒消息;和/或
[0089]鎖定或凍結該網站上的該賬戶。
[0090]可選地,依據分類結果對所述音視頻文件中的至少一部分進行深度分析之后,還包括:
[0091]若根據所述判別結果仍無法檢測所述被分析音視頻文件是否為特定類型的音視頻文件,則將被分析音視頻文件轉入人工審核機制處理。
[0092]基于本發明的另一個方面,本發明實施例還提供了一種音視頻文件檢測管理裝置,包括:
[0093]網站數據上傳接口,用于從存儲有音視頻文件的網站獲取所述音視頻文件對應的音視頻元數據;
[0094]分流器,用于根據預設規則對所述音視頻元數據進行初步篩選,以對所述音視頻文件進行分類;
[0095]數據判別器,用于依據分類結果對所述音視頻文件中的至少一部分進行深度分析,得到針對被分析音視頻文件的判別結果;
[0096]檢測器,用于根據所述判別結果檢測所述被分析音視頻文件是否為所述特定類型的音視頻。
[0097]可選地,所述數據判別器還用于:
[0098]根據所述分類結果獲取所述被分析音視頻文件;
[0099]提取所述被分析音視頻文件的至少一個特征數據;
[0100]對提取的特征數據進行信息識別操作,以判斷所述提取的特征數據中是否包含特定類型的信息;
[0101]依據所述信息識別操作的結果,得到所述判別結果。
[0102]可選地,音視頻文件檢測管理裝置還包括:
[0103]數據輸出器,用于通過各網站數據上傳接口向各網站發送元數據獲取請求;
[0104]所述網站數據上傳接口,還用于在所述數據輸出器輸出所述元數據獲取請求之后,接收各網站應答所述元數據獲取請求所上傳的音視頻元數據;或者,還用于接收各網站主動上傳的音視頻元數據。
[0105]可選地,在一定的時間段內,各網站所更新的音視頻資源在其數據庫中所占存儲比達到一定的百分比時主動上傳音視頻元數據;
[0106]或者,
[0107]在一定的時間段內,各網站所更新的音視頻資源的總量達到一定的數值時主動上傳音視頻元數據;
[0108]或者
[0109]每隔固定或不定時間段,各網站主動上傳音視頻元數據。
[0110]可選地,所述網站數據上傳接口的數量為一個或多個,
[0111]當所述各網站數據上傳接口為一個時,通過該網站數據上傳接口接收各網站上傳的音視頻元數據;
[0112]當所述各網站數據上傳接口為多個時,根據包括網站數據上傳接口與各網站綁定關系的預配置信息,通過各網站數據上傳接口分別接收與各網站數據上傳接口綁定的各網站上傳的音視頻元數據。
[0113]可選地,所述分流器還用于:
[0114]根據預設的黑白名單規則對所述音視頻元數據進行初步篩選