一種場景切換點的檢測方法及裝置制造方法
【專利摘要】本發明提供一種場景切換點的檢測方法及裝置,包括:獲取第一視頻;提取所述第一視頻中音頻數據作為第一音頻數據;根據所述第一音頻數據確定場景的切換位置。通過使用以上方法,可以根據視頻中的具體音頻信息來判斷視頻中場景的切換,避免了現有技術中依賴人工進行標注的復雜工作,提高了視頻處理的工作效率。
【專利說明】一種場景切換點的檢測方法及裝置
【技術領域】
[0001]本發明涉及數字多媒體【技術領域】,特別是一種場景切換點的檢測方法及裝置。
【背景技術】
[0002]隨著數字多媒體技術的快速發展,越來越多的多媒體技術應用到人們的工作和生活中。
[0003]在視頻編輯領域,經常會接觸到“關鍵幀”的概念,我們可以使用相關算法或工具處理得到某一視頻中存在的所有關鍵幀。例如,在某個電視劇中,從5分30秒開始至10分15秒是一個在咖啡廳會談的場景;而在10分16秒至12分30秒時是在汽車中對話的場景。因此,在10分16秒里包含一個關鍵幀,而此處正好是一個場景開始的位置。并且在該時間點后續的對話中,可能會頻繁的切換鏡頭角度,導致相關的算法或工具判斷出很多的關鍵幀,但這些關鍵幀都不是場景正確的結束位置。
[0004]由于在實際中一個場景會有很多個鏡頭切換,因此僅通過關鍵幀數據是無法比較準確的定位一個較完整的場景的開始或結束位置。現有的視頻場景的標注方法是由人工瀏覽影片的方式確定不同場景的開始或結束位置。這對編輯人員的經驗以及工作強度要求較高,且處理效率很低。
[0005]因此,如何提供一種可以對場景切換點進行自動檢測的方法和裝置是本發明需要解決的問題。
【發明內容】
[0006]針對現有技術的缺陷,本發明提供了一種場景切換點的檢測方法及裝置,解決了現有技術中依賴人工操作的問題,同時可以更加精確的判斷出場景切換的位置點。
[0007]一種場景切換點的檢測方法,包括:
獲取第一視頻;
提取所述第一視頻中音頻數據作為第一音頻數據;
根據所述第一音頻數據確定場景的切換位置。
[0008]優選地,所述提取所述第一視頻中音頻數據作為第一音頻數據,具體為:
提取所述第一視頻中的人聲音頻作為所述第一音頻數據。
[0009]優選地,所述提取所述第一視頻中音頻數據作為第一音頻數據,具體為:
提取所述第一視頻中的背景音頻作為所述第一音頻數據。
[0010]優選地,所述根據所述第一音頻數據確定場景的切換位置,具體為:
檢測第一音頻數據中的聲波變化特征;
根據所述聲波變化特征確定場景的切換位置。
[0011]在根據所述第一音頻數據確定場景的切換位置之后,還包括:
獲取預判位置信息;
根據所述預判位置信息修正所述場景的切換位置。
[0012]一種場景切換點的檢測裝置,包括:視頻獲取單元、第一音頻提取單元和切換位置確定單元;
所述視頻獲取單元,用于獲取第一視頻;
所述第一音頻提取單元,用于提取所述第一視頻中音頻數據作為第一音頻數據;
所述切換位置確定單元,用于根據所述第一音頻數據確定場景的切換位置。
[0013]優選地,所述第一音頻提取單元,包括:人聲音頻提取子單元;
所述人聲音頻提取子單元,用于提取所述第一視頻中的人聲音頻作為所述第一音頻數據。
[0014]優選地,所述第一音頻提取單元,包括:背景音頻提取子單元;
所述背景音頻提取子單元,用于提取所述第一視頻中的背景音頻作為所述第一音頻數據。
[0015]優選地,所述切換位置確定單元,包括:聲音檢測子單元和特征判定子單元; 所述聲音檢測子單元,用于檢測第一音頻數據中的聲波變化特征;
所述特征判定子單元,用于根據所述聲波變化特征確定場景的切換位置。
[0016]優選地,還包括:預判信息修正單元;
所述預判信息修正單元,用于獲取預判位置信息,根據所述預判位置信息修正所述場景的切換位置。
[0017]本發明的有益效果是:
在本實施例中,首先獲取第一視頻,之后提取所述第一視頻中音頻數據作為第一音頻數據,最后根據所述第一音頻數據確定場景的切換位置。通過使用以上方法,可以根據視頻中的具體音頻信息來判斷視頻中場景的切換,避免了現有技術中依賴人工進行標注的復雜工作,提高了視頻處理的工作效率。
[0018]
【專利附圖】
【附圖說明】
[0019]圖1是本發明提供的一種場景切換點的檢測方法第一實施例的流程圖;
圖2是本發明提供的一種場景切換點的檢測方法第二實施例的流程圖;
圖3是本發明提供的一種場景切換點的檢測方法第三實施例的流程圖;
圖4是本發明提供的一種場景切換點的檢測裝置第一實施例的原理框圖;
圖5是本發明提供的一種場景切換點的檢測裝置第二實施例的原理框圖;
圖6是本發明提供的一種場景切換點的檢測裝置第三實施例的原理框圖。
[0020]
【具體實施方式】
[0021]為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖對本發明的【具體實施方式】做詳細的說明,使本發明的上述及其它目的、特征和優勢將更加清晰。在全部附圖中相同的附圖標記指示相同的部分。并未刻意按比例繪制附圖,重點在于示出本發明的主旨。
[0022]參見圖1,該圖為本發明提供的一種場景切換點的檢測方法第一實施例的流程圖。
[0023]本實施例中,包括:
SlOl:獲取第一視頻。
[0024]S102:提取所述第一視頻中音頻數據作為第一音頻數據。
[0025]S103:根據所述第一音頻數據確定場景的切換位置。
[0026]在本實施例中,首先獲取到需要進行場景切換點校驗的第一視頻數據。例如某一個電影或電視劇視頻。
[0027]在視頻的每一個場景中,一般都會對應有某一場景的聲音特征。例如,在咖啡廳中會談,背景聲音一般為較為舒緩的音樂聲音,而如果在菜市場中的場景,則背景聲音一般為較為嘈雜的聲音。
[0028]因此,在得到第一視頻后,提取出第一視頻中的音頻數據(如視頻的中音頻波型圖),作為第一音頻數據。
[0029]之后對第一音頻數據進行分析,例如根據第一音頻數據中的波型圖判斷對話或背景音的中斷或起伏,從而判斷出否存在場景上的切換,進而確定視頻中的場景切換位置。
[0030]在本實施例中,首先獲取第一視頻,之后提取所述第一視頻中音頻數據作為第一音頻數據,最后根據所述第一音頻數據確定場景的切換位置。通過使用以上方法,可以根據視頻中的具體音頻信息來判斷視頻中場景的切換,避免了現有技術中依賴人工進行標注的復雜工作,提高了視頻處理的工作效率。
[0031]參見圖2,該圖為本發明提供的一種場景切換點的檢測方法第一實施例的流程圖。
[0032]本實施例中的步驟S201與本發明提供的一種場景切換點的檢測方法第一實施例中的步驟SlOl相同,在此不再重復進行介紹。
[0033]在本實施例中,所述提取所述第一視頻中音頻數據作為第一音頻數據,具體為: S202:提取所述第一視頻中的人聲音頻或背景音頻作為所述第一音頻數據。
[0034]由于在第一視頻的音頻數據中包括有多種聲音,因此可以使用其中不同聲音作為判斷場景切換的條件。其中,優選地可以使用音頻數據中的人聲對話音頻或背景音頻進行。
[0035]如果使用人聲對話音頻作為判斷條件,則需要首先獲取出第一視頻的音頻,之后對其中屬于人聲波段的聲音進行加強,而對其它波段(如背景音等)進行抑制,從而突出人聲音頻。
[0036]如果使用背景音頻作為判斷條件,則在獲取到第一視頻的音頻后,對處于人聲波段的聲音進行抑制或去除,而只保留有非人聲波段的聲音(在一般情況下,該波段聲音大部分為背景聲音)。
[0037]在本實施例中,在得到上述的第一音頻后,還需要使用該音頻確定視頻中場景切換的具體位置。
[0038]具體地,
S203:檢測第一音頻數據中的聲波變化特征。
[0039]S204:根據所述聲波變化特征確定場景的切換位置。
[0040]以人聲音頻作為判斷條件為例:每個人的聲音都有自己的特點,因此在一個對話場景中對話雙方的音頻聲波是相同或相近似的。而此時如果切換到另外的一個場景,對話的雙方很可能發生了變化,則音頻聲波的較之前的聲波特征肯定會發生變化。根據該變化進而確定出視頻中的場景發生了變化。
[0041]而以背景音頻作為判斷條件時,由于在某一個場景中一般都會伴有相同或相近似的聲音。如在咖啡廳會伴有持續優雅的歌曲,而在菜市場中都會一直伴有嘈雜的背景音。因此,如果背景音頻發生了變化,則可以判斷為場景進行了切換,發生變化的位置即場景切換的位置。
[0042]另外,如果只是單純使用人聲音頻或背景音頻進行判斷可能還存在一定的誤判的情況。為了能夠更加準確的判斷出場景的切換變化,還可以同時對第一視頻中的人聲音頻和背景音頻進行判斷,這樣可以大幅提高場景切換位置判斷的準確性。例如,如果只是人聲音頻上的變化而背景音頻沒有變化,則判斷可能是在同一場景上出現了新的談話對象,但劇情的場景沒有變化;而如果在視頻中的某一個時間位置上人聲和背景音都發生了變化,則可以認為場景發生了變化。
[0043]通過使用以上方法,可以結合第一視頻中的音頻內容對場景切換進行準確判斷,從而減少了人工對視頻進行場景切換標注的工作,提高了對視頻處理的工作效率。
[0044]參見圖3,該圖為本發明提供的一種場景切換點的檢測方法第三實施例的流程圖。
[0045]本實施例中的步驟S301-S303與本發明提供的一種場景切換點的檢測方法第一實施例中的步驟S101-S103相同,在此不再重復進行介紹。
[0046]在本實施例中,在根據所述第一音頻數據確定場景的切換位置之后,還包括: S304:獲取預判位置信息;
S305:根據所述預判位置信息修正所述場景的切換位置。
[0047]在本實施例中,為了更加準確的得到場景切換的位置,還可以進一步結合關鍵幀的方式來修正得到的場景切換點位置。
[0048]具體的,在確定場景的切換位置之后,再進一步獲取到已經在第一視頻中標注出的預判位置信息。這些預判位置信息是由人工、算法或其它工具根據視頻圖像判斷出的場景切換時間點信息。
[0049]例如,在第一視頻中標注出在第5分30秒位置、10分15秒位置、12分鐘30秒位置存在多個場景切換。
[0050]此時,可以將通過音頻確認得到的場景切換位置與標注的預判位置信息進行比較。如果兩者時間相同,則認為該位置點即為場景切換位置。如果不相同,則以預判位置信息中的時間點作為第一視頻中的場景切換位置。
[0051]如,根據音頻數據確定在第5分30秒時存在場景切換點,經與預判位置信息相比較,在預判位置信息中也存在第5分30秒的場景切換點,則認為該位置確為場景切換的位置點。若根據音頻數據確定在第5分31秒時存在場景切換點,而在預判位置信息中的切換位置點為第5分30秒,則以第5分30秒為準作為場景的切換位置。
[0052]通過使用以上方法,可以結合預判位置信息來更加準確地修正的場景切換位置,從而為后續的視頻處理工作提供準確的信息。
[0053]另外,結合本發明提供的一種場景切換點的檢測方法,還可以提供一種場景切換點的檢測裝置,具體如下:
參見圖4,該圖為本發明提供的一種場景切換點的檢測裝置第一實施例的原理框圖。
[0054]在本實施例中,包括:視頻獲取單元10、第一音頻提取單元20和切換位置確定單元30 ; 所述視頻獲取單元10,用于獲取第一視頻。
[0055]所述第一音頻提取單元20,用于提取所述第一視頻中音頻數據作為第一音頻數據。
[0056]所述切換位置確定單元30,用于根據所述第一音頻數據確定場景的切換位置。
[0057]在本實施例中,視頻獲取單元10首先獲取到需要進行場景切換點校驗的第一視頻數據。例如某一個電影或電視劇視頻。
[0058]在視頻的每一個場景中,一般都會對應有某一場景的聲音特征。例如,在咖啡廳中會談,背景聲音一般為較為舒緩的音樂聲音,而如果在菜市場中的場景,則背景聲音一般為較為嘈雜的聲音。
[0059]因此,在得到第一視頻后,第一音頻提取單元20提取出第一視頻中的音頻數據(如視頻的中音頻波型圖),作為第一音頻數據。
[0060]之后切換位置確定單元30對第一音頻數據進行分析,例如根據第一音頻數據中的波型圖判斷對話或背景音的中斷或起伏,從而判斷出否存在場景上的切換,進而確定視頻中的場景切換位置。
[0061]在本實施例中,包括:視頻獲取單元、第一音頻提取單元和切換位置確定單元。其中,視頻獲取單元用于獲取第一視頻。第一音頻提取單元用于提取第一視頻中音頻數據作為第一音頻數據。切換位置確定單元用于根據第一音頻數據確定場景的切換位置。通過使用以上裝置,可以根據視頻中的具體音頻信息來判斷視頻中場景的切換,避免了現有技術中依賴人工進行標注的復雜工作,提高了視頻處理的工作效率。
[0062]參見圖5,該圖為本發明提供的一種場景切換點的檢測裝置第二實施例的原理框圖。
[0063]由于在第一視頻的音頻數據中包括有多種聲音,因此可以使用其中不同聲音作為判斷場景切換的條件。其中,優選地可以使用音頻數據中的人聲對話音頻或背景音頻進行。因此,在第一音頻提取單元20中,可以包括:人聲音頻提取子單元201,或者包括:背景音頻提取子單元202。
[0064]所述人聲音頻提取子單元201,用于提取所述第一視頻中的人聲音頻作為所述第一音頻數據。
[0065]所述背景音頻提取子單元202,用于提取所述第一視頻中的背景音頻作為所述第一音頻數據。
[0066]如果由人聲音頻提取子單元201使用人聲對話音頻作為判斷條件,則需要首先獲取出第一視頻的音頻,之后對其中屬于人聲波段的聲音進行加強,而對其它波段(如背景音等)進行抑制,從而突出人聲音頻。
[0067]如果由背景音頻提取子單元202使用背景音頻作為判斷條件,則在獲取到第一視頻的音頻后,對處于人聲波段的聲音進行抑制或去除,而只保留有非人聲波段的聲音(在一般情況下,該波段聲音大部分為背景聲音)。
[0068]在本實施例中,在得到上述的第一音頻后,還需要使用該音頻確定視頻中場景切換的具體位置。
[0069]具體地,在所述切換位置確定單元30中,包括有:聲音檢測子單元301和特征判定子單元302。
[0070]所述聲音檢測子單元301,用于檢測第一音頻數據中的聲波變化特征。
[0071]所述特征判定子單元302,用于根據所述聲波變化特征確定場景的切換位置。
[0072]以人聲音頻作為判斷條件為例:每個人的聲音都有自己的特點,因此在一個對話場景中對話雙方的音頻聲波是相同或相近似的。而此時如果切換到另外的一個場景,對話的雙方很可能發生了變化,則聲音檢測子單元301檢測到音頻聲波的較之前的聲波特征發生變化。根據該變化特征判定子單元302進而確定出視頻中的場景發生了變化。
[0073]而以背景音頻作為判斷條件時,由于在某一個場景中一般都會伴有相同或相近似的聲音。如在咖啡廳會伴有持續優雅的歌曲,而在菜市場中都會一直伴有嘈雜的背景音。因此,如果聲音檢測子單元301檢測到背景音頻發生了變化,則特征判定子單元302可以判斷為場景進行了切換,發生變化的位置即場景切換的位置。
[0074]另外,如果只是單純使用人聲音頻或背景音頻進行判斷可能還存在一定的誤判的情況。為了能夠更加準確的判斷出場景的切換變化,還可以同時使用人聲音頻提取子單元201和背景音頻提取子單元202進行判斷,這樣可以大幅提高場景切換位置判斷的準確性。例如,如果只是人聲音頻上的變化而背景音頻沒有變化,則判斷可能是在同一場景上出現了新的談話對象,但劇情的場景沒有變化;而如果在視頻中的某一個時間位置上人聲和背景音都發生了變化,則可以認為場景發生了變化。
[0075]通過使用以上裝置,可以結合第一視頻中的音頻內容對場景切換進行準確判斷,從而減少了人工對視頻進行場景切換標注的工作,提高了對視頻處理的工作效率。
[0076]參見圖6,該圖為本發明提供的一種場景切換點的檢測裝置第三實施例的原理框圖。
[0077]在本實施例中,還包括:預判信息修正單元40 ;
所述預判信息修正單元40,用于獲取預判位置信息,根據所述預判位置信息修正所述場景的切換位置。。
[0078]在本實施例中,為了更加準確的得到場景切換的位置,還可以進一步結合關鍵幀的方式來修正得到的場景切換點位置。
[0079]具體的,在確定場景的切換位置之后,使用預判信息修正單元40進一步獲取到已經在第一視頻中標注出的預判位置信息。這些預判位置信息是由人工、算法或其它工具根據視頻圖像判斷出的關鍵幀場景切換信息。
[0080]例如,預判位置信息在第一視頻中標注出在第5分30秒位置、10分15秒位置、12分鐘30秒位置存在多個場景切換。
[0081]此時,預判信息修正單元40將通過音頻確認得到的場景切換位置與標注的預判位置信息進行比較。如果兩者時間相同,則認為該位置點即為場景切換位置。如果不相同,則以預判位置信息中的時間點作為第一視頻中的場景切換位置。
[0082]如,根據音頻數據確定在第5分30秒時存在場景切換點,經與預判位置信息相比較,在預判位置信息中也存在第5分30秒的場景切換點,則認為該位置確為場景切換的位置點。若根據音頻數據確定在第5分31秒時存在場景切換點,而在預判位置信息中的切換位置點為第5分30秒,則以第5分30秒為準作為場景的切換位置。
[0083]通過使用以上裝置,可以結合預判位置信息來更加準確地修正的場景切換位置,從而為后續的視頻處理工作提供準確的信息。
[0084]在以上的描述中闡述了很多具體細節以便于充分理解本發明。但是以上描述僅是本發明的較佳實施例而已,本發明能夠以很多不同于在此描述的其它方式來實施,因此本發明不受上面公開的具體實施的限制。同時任何熟悉本領域技術人員在不脫離本發明技術方案范圍情況下,都可利用上述揭示的方法和技術內容對本發明技術方案做出許多可能的變動和修飾,或修改為等同變化的等效實施例。凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬于本發明技術方案保護的范圍內。
【權利要求】
1.一種場景切換點的檢測方法,其特征在于,包括: 獲取第一視頻; 提取所述第一視頻中音頻數據作為第一音頻數據; 根據所述第一音頻數據確定場景的切換位置。
2.根據權利要求1所述的方法,其特征在于,所述提取所述第一視頻中音頻數據作為第一音頻數據,具體為: 提取所述第一視頻中的人聲音頻作為所述第一音頻數據。
3.根據權利要求1所述的方法,其特征在于,所述提取所述第一視頻中音頻數據作為第一音頻數據,具體為: 提取所述第一視頻中的背景音頻作為所述第一音頻數據。
4.根據權利要求2或3所述的方法,其特征在于,所述根據所述第一音頻數據確定場景的切換位置,具體為: 檢測第一音頻數據中的聲波變化特征; 根據所述聲波變化特征確定場景的切換位置。
5.根據權利要求1所述的方法,其特征在于,在根據所述第一音頻數據確定場景的切換位置之后,還包括: 獲取預判位置信息; 根據所述預判位置信息修正所述場景的切換位置。
6.一種場景切換點的檢測裝置,其特征在于,包括:視頻獲取單元、第一音頻提取單元和切換位置確定單元; 所述視頻獲取單元,用于獲取第一視頻; 所述第一音頻提取單元,用于提取所述第一視頻中音頻數據作為第一音頻數據; 所述切換位置確定單元,用于根據所述第一音頻數據確定場景的切換位置。
7.根據權利要求6所述的裝置,其特征在于,所述第一音頻提取單元,包括:人聲音頻提取子單元; 所述人聲音頻提取子單元,用于提取所述第一視頻中的人聲音頻作為所述第一音頻數據。
8.根據權利要求6所述的裝置,其特征在于,所述第一音頻提取單元,包括:背景音頻提取子單元; 所述背景音頻提取子單元,用于提取所述第一視頻中的背景音頻作為所述第一音頻數據。
9.根據權利要求7或8所述的裝置,其特征在于,所述切換位置確定單元,包括:聲音檢測子單元和特征判定子單元; 所述聲音檢測子單元,用于檢測第一音頻數據中的聲波變化特征; 所述特征判定子單元,用于根據所述聲波變化特征確定場景的切換位置。
10.根據權利要求9所述的裝置,其特征在于,還包括:預判信息修正單元; 所述預判信息修正單元,用于獲取預判位置信息,根據所述預判位置信息修正所述場景的切換位置。
【文檔編號】H04N21/233GK104469487SQ201410845412
【公開日】2015年3月25日 申請日期:2014年12月31日 優先權日:2014年12月31日
【發明者】吳凱凱, 盧學裕, 付鵬, 白雪, 吳鑫, 姚鍵, 潘柏宇, 盧述奇 申請人:合一網絡技術(北京)有限公司