專利名稱::數字視頻信號的場景變化檢測器的制作方法
技術領域:
:本發明涉及一種用于檢測數字圖象幀(例如圖象)序列中場景變化的裝置和方法。特別是利用圖象幀中不同塊的亮度相對于前一幀中相應塊的亮度的變化來提供可靠的場景變化指示。近來,用于給用戶家庭提供電視及其它音頻、視頻和/或數據服務的數字視頻傳輸格式越來越流行。這類節目可通過直播衛星鏈路,或通過有線電視網傳輸到用戶家庭。除提供新的和擴大的節目源外,數字視頻可比傳統的模擬電視廣播提供更高的圖象質量。為在可利用的帶寬內傳輸數字視頻信號,需使用數據壓縮技術。特別是,空間壓縮技術利用一幀中相鄰象素或象素塊之間的相關性,而時間技術則利用連續圖象幀中象素或象素塊之間的相關性。此外,運動補償技術可提供更大的時間壓縮。然而,為提供最佳的視頻幀序列的壓縮,需要有檢測該序列中場景變化的能力。場景變化通常可定義為幀的組成部分的任何顯著變化。例如,在電影的視頻序列中,當攝相機的角度改變時,或當在特寫和全景之間進行切換時,會發生場景變化。此外,場景變化常常是通過連續視頻幀之間亮度級的明顯改變表現出來的。例如,當在暗室中打開亮的燈時,會發生場景變化。一旦檢測到場景變化,就可以相應地修改視頻序列的編碼。例如,當檢測到場景變化時,由于新的場景的第一幀和前一場景最后一幀之間時間相關的可能性降低,可暫時中止運動補償。另外,可根據場景變化信息選擇圖象的具體類型(如I,P,或B圖象)。I,P,或B圖象是根據如下面將更詳細討論的MPEG-2標準來定義的。各種現有的場景檢測系統試圖提供可靠的場景變化檢測。例如,一種系統使用在當前幀和前一幀之間相應象素值之差的絕對值的和數,并將此和數與預定的常數閾值比較以確定是否有場景變化。然而,如果在連續幀中發生快速運動,該系統可能不能給出可靠的結果。另外,當存在不同水平的運動(例如中速,快速,高速)時,這種系統也并非始終都是可靠的。另一種系統確定當前幀和前一幀之間相應象素值之差的絕對值。然后確定當前幀和下一幀之間相應象素值之差的絕對值。最后得到上述兩差值的差值和數,并將其與預定的常數閾值比較以確定是否有場景變化。然而,這一系統當場景從沒有運動轉變為快速運動時,可能不能提供可靠的結果。因此,需要提供一種用于數字視頻的場景檢測系統,當存在不同水平的運動時,以及當場景從沒有運動轉變為快速運動時,該系統能夠可靠地檢測場景變化。而且,該系統應與現有的包括運動圖象專家組(MPEG)標準的數字視頻編碼標準兼容,該標準的詳細情況可見這里作為參考資料編入的文件ISO/IECJTC1/SC29/WG11N0702,標題為“信息技術-運動圖象及有關音頻的遺傳編碼,建議H.262,”March25,1994。MPEG系統包括三種類型的視頻圖象;它們分別是幀內編碼圖象(I-圖象),預測編碼圖象(P-圖象)及雙向預測編碼圖象(B-圖象)。而且,幀或場結構視頻序列都是適和的。I-圖象完整地描述單個視頻圖象,而不參考任何其它圖象。為了提高隱錯能力,在I-圖象中可包括運動矢量。由于在底層(baselayer)中P-圖象和B-圖象都是從I-圖象預測的,因此I-圖象中的錯誤有對所顯示的圖象產生更大影響的可能性。P圖象是根據前一I或P圖象預測的。參考是從前面的I或P圖象到將來的P-圖象,稱為前向預測。B-圖象是從最接近的后面的I或P圖象及最接近的后面的I或P圖象預測的。一個好的場景檢測系統還提供速率控制的自動控制和視頻壓縮編碼器的自適應量化處理,該編碼器使用各種標準,包括MPEG-1,MPEG-2,ISO/IECH.261(視頻會議)及ISO/IECH.263。此外,該系統還應與各種彩色電視廣播標準兼容,如在北美使用的國家電視標準委員會(NTSC)標準,在歐洲使用的逐行倒相(PAL)標準,并且該系統還應和幀和場模式的視頻兼容。本發明提供具有上述和其它優點的系統。根據本發明,提供一種檢測視頻圖象序列中前一圖象和當前圖象之間場景變化的方法和裝置。在檢測前一視頻圖象和當前視頻圖象之間場景變化的方法中,確定前一和當前視頻圖象塊對的平均亮度值。塊對的塊最好在以前和當前圖象中分別位于同一相對位置上。之后,用平均亮度值之間的差值來確定增量視覺檢測值。如果增量視覺檢測值超過塊對比閾值水平,則表示有場景變化。塊對比閾值水平可約為在本文中定義的韋伯(Weber)分數常數的十五到二十五倍。特別是,確定當前和前一圖象塊的平均亮度值的最小值,其中,如果這一最小值超過暗場景閾值,則用(a)平均亮度值之間差值的絕對值,和(b)當前和前一圖象塊的平均亮度值的最小值之比來確定增量視覺檢測值。否則,用(a)差值的絕對值,和(b)暗場景閾值之比來確定增量視覺檢測值。暗場景閾值可約為最大灰度級的10%。此外,可確定前一和當前視頻圖象多個塊對的平均亮度值之間的差值。最好用圖象中的每個塊對來確定總的圖象場景變化。用差值來確定每個塊對的增量視覺檢測值,其中,如果增量視覺檢測值超過塊對比閾值水平當前和前一視頻圖象的塊對的閾值比例,則表示有場景變化。這一閾值比例可約為80%到90%。另外,通過確定塊對的塊之間的運動相對量,并根據該運動相對量來調節塊的大小,該方法可自適應地優化。特別是,當運動相對量增加時,增加塊的大小。此外,運動相對量可通過確定水平運動矢量的絕對值和垂直運動矢量的絕對值的和數來獲得,其中,水平和垂直運動矢量分別表示當前圖象塊的視頻圖象相對于前一圖象塊的視頻圖象的水平和垂直運動。然后確定該和數是否超過了運動閾值。運動閾值可根據當前圖象的圖象類型(例如,當前圖象是否是I,P或B圖象)來調節。本發明還提供了相應的裝置。圖1示出根據本發明兩相繼視頻幀的塊之間的比較。圖2是根據本發明的場景變化檢測器的方框圖。本發明提供一種檢測數字視頻幀序列中場景變化的方法和裝置。場景的輝度級由包括該場景的各象素的平均亮度和各象素亮度值的動態范圍決定。此外,人眼對輝度的視覺檢測通常被認為是圖象亮度的自然對數的函數。在場景變化的幀和/或場中,對輝度的視覺檢測隨前一幀或前一相應場而明顯改變。而且,由于人對亮度的對比比對絕對亮度值本身更敏感,因此兩場景之間的增量視覺檢測δC是場景變化的一個好的標志。δC定義為在兩幀和/或場中,具有同一相對位置的區域(例如塊)的平均輝度之差值。特別是,根據韋伯定理,如果一物體的亮度b0與周圍區域的亮度bs之間的差別正好是可察覺的,則可定義下面被稱為韋伯分數的比值在高的背景亮度級,例如大于0.5mL(毫流明)時,韋伯分數基本保持為常數。已發現該常數C的值為0.02,這意味著在0到1的刻度上,對于人可察覺的級之間的對比,至少需要五十個不同的亮度級。令b0=b,則有bs=b+δb,其中δb是最小可察覺的亮度變化。這樣,這顯示是與輝度增量視覺檢測值成比例的。圖1示出根據本發明兩相繼視頻幀的塊之間的比較。當前幀,即幀(i),在100上示出,它包括塊110。前一幀,即幀(i-1),在150上示出,它包括塊160,該塊在幀150中位于與幀100中的塊110同一相對位置上。例如,對于NTSC格式,幀100和150可各包括三十片(slice),每一片有四十四個宏塊。這樣,整個NTSC幀包括1,320個宏塊。而且,宏塊一般包括一個16×16的象素塊,在MPEG-2標準中,該塊例如是由四個8×8的象素塊構成的。從而,一個NTSC幀可能包括在寬度上為44×16=704個象素,在高度上為30×16=480個象素,總數為337,920個象素。此外,本發明與PAL格式是兼容的,該格式包括在36片中的1,584個宏塊,每片有44個模塊,每個宏塊有16×16個象素。塊110和160用坐標組(k,l)表示,其中k是塊的水平索引,l是垂直索引。此外,每個塊110和160的大小可為例如在高度上為16個象素而寬度上為32個象素。在這種情況下,k的范圍從1到704/32=22,l的范圍從1到480/16=30。下面各項定義為h幀高度(象素)w幀寬度(象素)m塊高度(象素)n塊寬度(象素)i幀索引k水平塊索引(k=1,...,h/m)l垂直塊索引(l=1,...,w/n)Xi,k,l,第i個幀,第k個水平塊,第l個垂直塊的象素密度這樣,我們有了由象素組定義的兩個相繼幀和/或兩個頂(top)(或底(bottom))場。特別是,第(i)幀,即幀100由象素組Xi,k,l來定義,第(i-1)幀,即幀150由象素組Xi-1,k,l來定義。為有效地分辨場景變化,將每幀劃分為一組k×l的分開的塊,每塊有m×n個象素。注意塊的大小可設計為根據當前運動信息自適應地改變。特別是運動越快,則塊大小m×n應越大。根據運動量對于每一幀調節塊大小的一種方法是執行下列步驟。首先,對于每個16×16的宏塊,計算索引v[x][y],其中x=1,2,....,[w/16],y=1,2,...,[h/16]。如果全象素前向運動矢量,即vector[x][y][z]滿足下列不等式|vector[x][y]|+|vector[x][y][1]|>T3,則表示兩塊之間有快速運動。vector[x][y]和vector[x][y][1]分別為當前幀塊(例如塊(x,y))相對于前一幀塊的水平和垂直運動矢量。這樣,如果不等式成立,則令索引v[x][y]=1;否則令v[x][y]=0。注意運動矢量vector[x][y][z]是從具有同樣圖象類型的最近的可利用的圖象獲得的。例如,如果當前圖象類型是P-圖象,則運動矢量vector[x][y][z]是以前的預測P-圖象的運動矢量。由于對于每個圖象的場景變化檢測發生在圖象的運動估值之前,因此這是正確的。閾值T3是根據視頻幀序列中出現的不同圖象類型來選擇的。例如,如果比特流中沒有B-圖象,例如序列I,P,P,...則T3=16是合適的選擇。如果出現一個B-圖象,例如序列P,B,P,B,...,則在當前圖象是B-圖象時,T3=16是合適的選擇,在當前圖象是P-圖象時,T3=32是合適的選擇,如此等等。其次,相應地調節塊大小。可使用初始(缺省)的16×16的塊大小。然后,可根據v[x][y]調節塊大小。例如,如果v[x][y]=1,則可增加塊大小,例如增至16×32或32×32。類似地,如果v[x][y]=0,則可減小塊大小,例如減至8×16。但注意塊大小的增加不能使得塊超過宏塊的右和/或底邊界。通常,當運動越快時,塊大小應越大。而且,在某些應用中,最大允許的塊大小可能被限制在32×48個象素。接下來,確定在幀(或頂場)中每塊的平均亮度。對于第(i)幀,塊(k,l),平均亮度為Bi,k,l=1mnΣc1=0m-1Σc2=0n-1Xi,kh+c1,lw+c2]]>k=1,...h/m,l=1,...,w/n。c1和c2為虛設的計數索引。之后,第(i)和第(i-1)幀(或頂場)之間的塊亮度增量δBi,k,l由下式確定δBi,k,l=δBi,k,l-δBi-1,k,l此外,對于第(i)幀,塊(k,l),可定義相對塊增量對比δCi,k,l如下T0是表示場景被認為是暗場景的閾值。通常,可使用T0=25.5,該值是最大灰度級255的10%。對于場景變化,將塊亮度對比的相對變化的有效閾值T1設置為T1=15-25C。現在,考慮索引陣列,對于k=1,...,h/m,l=1,...,w/n,index[k][l]定義為那么,如果一幀中塊的約80%-90%具有比有效閾值大的相對塊增量對比,即其中T2=80%-90%則根據本發明,這表示有場景變化。80%-90%的范圍是根據大范圍的測試確定的,但實際的最佳值可隨具體的場景而改變。注意數學表示式代表將非整數x舍入成下一個最小的整數。圖2是根據本發明的場景變化檢測器的方框圖。檢測器,在200上示出,包括輸入端205和210。在輸入端205,接收來自當前幀的象素數據xi,k,l,并將其提供給塊平均函數215以為第i幀中的每一塊產生平均亮度值Bi,k,l。類似地,在輸入端210,接收來自前一幀的象素數據xi-1,k,l,并將其提供給塊平均函數220以為第(i-1)幀中的每一塊產生平均亮度值Bi-1,k,l。最小化單元擬(MIN)225確定min{Bi,k,l,Bi-1,k,l}并將該項輸出到除法器(divisor)函數230中。同時,減法器235確定δBi,k,l=Bi,k,l-Bi-1,k,l。絕對值函數240確定|δBi,k,l|,并將該項提供給除法器230。除法器230根據是否min{Bi,k,l,Bi-1,k,l)>T0。為第(i)幀,塊(k,l)確定相對塊增量對比δCi,k,l。然后將δCi,k,l提供給閾值函數235,該函數235確定塊(k,l)是否表示有場景變化(例如是否δCi,k,l>T1)。如果是,可相應地設定index[k][l]。累加器240累加每塊的場景變化結果,并對整個幀或其一部分的結果求和。最后,閾值函數25O接收來自累加器240的相加的結果,并用閾值T2確定是否表示整個幀有場景變化。用不同的視頻序列對本發明的場景變化檢測系統進行了大范圍的測試。特別是對在測試模式編輯委員會“TestModel5”,ISO/IECJTC1/SC29/WG11MPEG93/457,April1993中描述的“Football”,“MobileCalendar”,“FlowerGarden”及“Tabletennis”視頻序列以及在關于MPEG-4視頻VM編輯的特設組,“MPEG-4視頻確認模型版本3.0”,ISO/IECJTC1/SC29/WG11N1277,Tampere,Finland,July1996中描述的“Destruct”,“StreetOrgan”,“Silent”及“FunFair”視頻序列進行了分析。本發明場景檢測系統的樣本測試結果示于下面的表1中。閾值選擇為T1=0.3和T2=0.85,塊大小為m=16,n=32。具體的視頻序列在第一欄中給出。所涉及的幀序列示于第二欄中。例如,表示分析了0到50幀的場景變化。第三欄表示是否檢測到場景變化,且如果是,是在哪一幀。例如,第三幀中的場景變化意味著在第二和第三幀之間檢測到場景變化。第四欄,如果可使用,提供有關視頻序列特性的額外信息。表1</tables>此外,對于在上面視頻序列中檢測到場景變化的幀,使用MPEG-2WG-11方案檢查編碼效率。通過確定由達到所給圖象質量的編碼方法產生的比特數來確定編碼效率。特別地,對于一恒定的質量水平,較少的編碼比特表示較高的編碼效率。如果有根據本發明檢測的場景變化的幀被編碼為P-圖象類型,則多于46%的宏塊被編碼為I-圖象。于是,發現本發明的場景檢測系統如所預期的那樣工作,因為它成功地將用預測編碼技術難于有效地編碼的幀定位。由于編碼器的速率控制工具給I-圖象分配更多的比特,這樣的幀可被方便地編碼為I-圖象,從而也改善了圖象質量。通常,在典型的編碼器中,如使用TestModel5標準的MPEG-2編碼器,對于P-圖象或B-圖象的每一宏塊有一個選擇宏塊編碼類型的過程。這一過程將決定是應將宏塊編碼為幀內編碼塊(I-編碼)還是非幀內編碼塊(P-或B-編碼),這要基于哪種編碼類型可提供更好的質量或使用更少的數據比特。對于P-圖象或B-圖象,如果預測是有效的,則圖象中只有小比例的宏塊將為I-編碼(例如少于百分之五)。這是必要的,因為I-編碼塊由于沒有時間壓縮而要使用相對來說大量的數據比特。如果圖象中I-編碼的宏塊比例大于例如百分之三十或四十,圖象質量就會不好。在這種情況下,在場景變化處,如所與預期的一樣,預測編碼對于該圖象是無效的。這樣,當發生場景變化時,通常需要新場景的第一幀不被編碼為P-圖象。雖然結合各個特定的實施例來描述了本發明,但本領域技術人員懂得對其可做多種修改和變化而不脫離如在權利要求中提出的本發明的實質和范圍。例如,在此提出的各閾值水平可根據所分析的具體場景或視頻序列來調節。即,有些類型的視頻序列,如動作電影,其特點可能是有更頻繁和顯著的場景變化活動。而且,特定的照明情況可能與具體的視頻序列有關,例如恐怖電影,其中相對來說低的照明水平可能貫穿于整個序列中。在這種情況下,可相應調節場景變化檢測閾值。此外,可能需要僅對視頻圖象的一部分進行分析以確定場景變化,或者可用不同的閾值分析不同的部分。例如,在具有在圖象底部的相對來說暗的地面及圖象頂部的相對來說亮的天空的風景場景的視頻序列中,對于圖象的底部,可使用更靈敏的場景變化閾值。類似地,在圖象的不同區域可使用不同大小的塊。例如,當向圖象中部的運動比向圖象邊緣的運動更普遍時,可在圖象的中部使用更大的塊。權利要求1.一種檢測前一視頻圖象和當前視頻圖象之間場景變化的方法,包括下列步驟確定所述前一和當前視頻圖象的塊對的平均亮度值;以及用所述平均亮度值之間的差值來確定增量視覺檢測值;其中如果所述增量視覺檢測值超過塊對比閾值水平,則表示有場景變化。2.如權利要求1的方法,其中所述塊對比閾值水平為韋伯分數常數的約十五到二十五倍。3.如權利要求1或2的方法,其中所述塊對的所述塊在所述前一和當前圖象中分別位于同一相對位置。4.如前面權利要求之一的方法,還包括下列步驟確定所述當前和前一圖象塊的所述平均亮度值的最小值,其中如果所述最小值超過暗場景閾值,則用(a)所述差值的絕對值,和(b)所述最小值之比來確定所述增量視覺檢測值;否則,用(a)所述差值的絕對值,和(b)所述暗場景閾值之比來確定所述增量視覺檢測值。5.如權利要求4的方法,其中所述暗場景閾值約為最大灰度級的10%。6.如前面權利要求之一的方法,其中確定所述前一和當前視頻圖象的多個塊對的平均亮度值之間的所述差值;以及用所述差值來確定每個所述塊對的所述增量視覺檢測值;其中如果所述增量視覺檢測值超過塊對比閾值水平所述當前和前一視頻圖象中塊對的閾值比較,則表示有場景變化。7.如權利要求6的方法,其中所述閾值比例為約80%到90%。8.如前面權利要求之一的方法,還包括下列步驟確定所述塊對的所述塊之間的運動的相對量;以及根據所述運動相對量來調節所述塊的大小。9.如權利要求8的方法,其中當所述運動相對量增加時,增加所述塊的大小。10.如權利要求8的方法,其中所述確定運動相對量的步驟還包括下列步驟確定水平運動矢量的絕對值與垂直運動矢量的絕對值的和數;其中所述水平與垂直運動矢量分別表示所述當前圖象塊的視頻圖象相對于所述前一圖象塊的視頻圖象的水平和垂直運動;以及確定所述和數是否超過運動閾值。11.如權利要求10的方法,其中根據所述當前圖象的圖象類型來調節所述運動閾值。12.一種檢測前一視頻圖象和當前視頻圖象之間場景變化的裝置,包括用于確定所述前一和當前視頻圖象塊對的平均亮度值的設備;以及用來用所述平均亮度值之間的差值來確定增量視覺檢測值的設備;其中如果所述增量視覺檢測值超過塊對比閾值水平,則表示有場景變化。13.如權利要求12的裝置,其中所述塊對比閾值水平為韋伯分數常數的約十五到二十五倍。14.如權利要求12或13的裝置,還包括用于確定所述當前和前一圖象塊的所述平均亮度值的最小值的設備,其中如果所述最小值超過暗場景閾值,則用(a)所述差值的絕對值,和(b)所述最小值之比來確定所述增量視覺檢測值;否則,用(a)所述差值的絕對值,和(b)所述暗場景閾值之比來確定所述增量視覺檢測值。15.如權利要求12至14的裝置,還包括用于確定所述前一和當前視頻圖象的多個塊對的平均亮度值之間的所述差值的設備;以及用所述差值來確定每個所述塊對的所述增量視覺檢測值的設備;其中如果所述增量視覺檢測值超過塊對比閾值水平所述當前和前一視頻圖象中塊對的閾值比例,則表示有場景變化。16.如權利要求15的裝置,其中所述閾值比例為約80%到90%。17.如權利要求12至16的裝置,還包括用于確定所述塊對的所述塊之間運動相對量的設備;以及用于根據所述運動相對量來調節所述塊的大小的設備。18.如權利要求17的裝置,還包括用于當所述運動相對量增加時,增加所述塊的大小的設備。19.如權利要求17的裝置,其中于所述確定運動相對量的設備還包括用于確定水平運動矢量的絕對值與垂直運動矢量的絕對值的和數的設備;其中所述水平和垂直運動矢量分別表示所述當前圖象塊的視頻圖象相對于所述前一圖象塊的視頻圖象的水平和垂直運動;以及用于確定所述和數是否超過運動閾值的設備。20.如權利要求19的裝置,還包括用于根據所述當前圖象的圖象類型來調節所述運動閾值的設備。全文摘要檢測圖象序列的前一視頻圖象和當前視頻圖象間場景變化的方法。確定前一和當前視頻圖象塊對的平均亮度值。用平均亮度值的差值確定增量視覺檢測值。若增量視覺檢測值超過塊對比閾值水平表示有場景變化。若當前和前一圖象塊平均亮度值的最小值超過暗場景閾值,則用平均亮度值差值的絕對值和當前和前一圖象塊的平均亮度值的最小值之比確定增量視覺檢測值。否則,用差值的絕對值和暗場景閾值之比確定增量視覺檢測值。文檔編號H04N7/26GK1180276SQ9711891公開日1998年4月29日申請日期1997年9月26日優先權日1996年9月27日發明者陳學敏,劉承德申請人:次級系統有限公司