專利名稱:多模多尺度運動估計的超大規模集成電路體系結構及方法
技術領域:
本發明屬于電子行業技術領域,具體涉及一種超大規模集成電路體系結構,及該集成電路中進行多尺度多模式運動估計的方法。
背景技術:
圖1是一般視頻編碼中以塊為單位的運動估計(Motion Estimation,ME)的功能示意圖。運動估計的方法是,對當前幀圖像中一個被編碼的像素塊,在參考幀圖像中一個指定的窗口中搜索與之相差最小的像素塊,作為最佳匹配。運動估計得到兩個值一個是被編碼的像素塊相對于參考幀中最佳匹配像素塊的偏移,即運動矢量MV(Motion Vector);另一個是被編碼像素塊與最佳匹配像素之間的殘差絕對值之和SAD。這部分計算占了整個編碼過程計算量的很大比重,因此,這部分硬件的執行效率直接關系到整個集成電路芯片是否有效運行。
圖2是ITU-TH.264/MPEG-4AVC標準中運動估計的功能示意圖。在這個標準中,有七種不同尺寸和形狀的像素塊被用于運動估計。
運動估計在整個視頻編碼過程中占有相當重要的地位,也占有了大量的處理器資源,尤其在H.264中引入了從4×4到16×16塊的各種尺度的各種模式的運動估計技術,進一步增加了運動估計的計算量和復雜度,因此使運動估計過程靈活高效地進行是實現H.264實時編碼的一個重要條件。
由于技術改進、市場化進程、和標準化過程三者之間的不同步發展,視頻編碼領域內形成了多種編碼標準共存的局面。因此,在同一個計算平臺上對包括MPEG-1/2/4和H.264在內的多種數字視頻編碼標準的支持是必要的。
發明內容
本發明的一個目的是提供一種超大規模集成電路體系結構,為進行靈活高效的運動估計提供一種硬件結構。
一種超大規模集成電路體系結構,用于多尺度多模式運動估計,其特征在于包括一個當前幀像素塊數據提供器;一個參考幀搜索窗口塊數據提供器;一個多模運動估計器;一個控制器。
其中多模運動估計器由四個內部結構完全一樣的處理單元PE-A(302),PE-B(303),PE-C(304),和PE-D(305)組成。
四個處理單元PE-A(302),PE-B(303),PE-C(304),和PE-D(305)與控制器(301)之間的控制和通道;四個處理單元PE-A(302),PE-B(303),PE-C(304),和PE-D(305)之間的數據通道和控制通道。
本發明的另一個目的是提供一種在該超大規模集成電路體系結構中的計算方法,使運動估計過程得以靈活高效地進行。
該方法包括以下步驟當前幀像素塊數據器和參考幀搜索窗口塊數據器的數據調入多模運動估計器。
多模運動估計器根據控制器的指令靈活地對數據采用不同的工作模式進行運動估計。
多模運動估計器在16個SAD16部件下對不同的工作模式實現高效運動估計。
其中多模運動估計器能夠實現的不同工作模式運動估計方法包括第一種工作模式下,四個PE各自并行地獨立工作,生成針對四個不同的4×4像素塊的運動估計結果MV和SAD。
第二種工作模式下,PE-A和PE-B協同工作,生成針對一個8×4像素塊的MV和SAD;與此同時,PE-C和PE-D協同工作,生成針對另一個8×4像素塊的MV和SAD。
第三種工作模式下,PE-A和PE-C協同工作,生成針對一個4×8像素塊的MV和SAD;與此同時,PE-B和PE-D協同工作,生成針對另一個4×8像素塊的MV和SAD。
第四種工作模式下,四個PE協同工作,生成針對一個8×8像素塊的MV和SAD。
第五、六種工作模式下,四個PE協同工作,并且循環計算兩次,得出針對一個8×16或反向16×8像素塊的MV和SAD。
第七種工作模式下,四個PE協同工作,并且循環計算四次,生成針對一個16×16像素塊的MV和SAD。
其中多模運動估計器在16個SAD16部件下對不同的工作模式實現高效運動估計的方法包括第一種工作模式下,四個PE各自并行地獨立工作,每個PE中的四個SAD16的輸出端連接到一個比較器上。
第二種工作模式下,把PE-A中的四個SAD16的輸出端和PE-B中的四個SAD16的輸出端分別連接到四個加法器上,這四個加法器的輸出再被送到比較器上。同樣地,PE-C中的四個SAD16的輸出端和PE-D中的四個SAD16的輸出端分別連接到四個加法器上,這四個加法器的輸出再被送到比較器上。
第三種工作模式下,多模運動估計器的工作模式與第二種模式類似,但PE搭配不同,由PE-A和PE-C協同工作、PE-B和PE-D協同工作,得到與第二種工作模式反向的MV和SAD。
第四種工作模式下,四個PE協同工作,各自的四個SAD16的輸出端分別連接到四個加法器上,這四個加法器的輸出再被送到比較器上.
第五、六、七種工作模式下,其運動估計的實現需要對多模運動估計器重復使用一次以上,實現方法可以是純軟件的,即完全由圖3中的控制器(301)完成;也可以是純硬件的,即完全由多模運動估計器完成;還可以是一個軟硬件協同工作的過程。由于有控制器中軟件程序的參與,因此實現的方式并非唯一。
本發明針對數字視頻及圖像編碼、轉碼等計算處理過程中的運動估計步驟,提出了一種靈活、高效的計算方法,及其專用超大規模集成電路并行實現結構。使得基于其開發的新一代多模ASIC芯片組可支持包括最新的ITU-TH.264(即MPEG-4第10部分)標準和中國的AVS標準在內的所有MPEG/ITU-TH.26x類標準。適用范圍涵蓋包括數字電視、網絡媒體、信息家電、多媒體移動通訊、激光視盤等在內的多個產業領域。
圖1為一般視頻編碼中以塊為單位的運動估計(Motion Estimation,ME)的功能示意圖;
圖2為ITU-TH.264/MPEG-4 AVC標準中運動估計的功能示意圖;圖3為本發明超大規模集成電路體系結構;圖4為本發明實現的第一種工作模式;圖5為本發明實現的第二種工作模式;圖6為本發明實現的第三種工作模式;圖7為本發明實現的第四種工作模式;圖8為本發明實現的第五、六種工作模式;圖9為本發明實現的第七種工作模式;圖10顯示多模運動估計器ME的組成結構,即數據提供單元和計算單元;圖11顯示對本發明構造原理的不同實現方式;圖12介紹計算單元的基本計算部件SAD16;圖13顯示四個SAD16部件在多模運動估計器中的配置情形;圖14顯示十六個SAD16部件在多模運動估計器中的配置情形;圖15顯示十六個SAD16部件下第一種工作模式(圖4)的運動估計;圖16顯示第一種工作模式(圖4)中任意一個PE處的數據提供情況;圖17顯示十六個SAD16部件下第二種工作模式(圖5)的運動估計;圖18介紹第二種工作模式(圖5)中當前幀中的關聯4×4像素塊和參考幀中的關聯搜索位置;圖19顯示第二種工作模式(圖5)中的數據提供情況;圖20顯示十六個SAD16部件下第三種工作模式(圖6)的運動估計;圖21介紹第三種工作模式(圖6)中當前幀中的關聯4×4像素塊和參考幀中的關聯搜索位置;
圖22顯示第三種工作模式(圖6)中的數據提供情況;圖23顯示十六個SAD16部件下第四種工作模式(圖7)的運動估計;圖24顯示十六個SAD16部件下第四種工作模式(圖7)的運動估計;圖25介紹第四種工作模式(圖7)中當前幀中的關聯4×4像素塊和參考幀中的關聯搜索位置;圖26介紹第五、六、七種工作模式(圖8、9)中當前幀中的關聯4×4像素塊和參考幀中的關聯搜索位置;具體實施方式
下面結合附圖對本發明的實施例作進一步的詳細描述。
圖3是本發明超大規模集成電路體系結構,是一個能對從4×4,4×8,8×4,8×8,8×16,16×8,到16×16等各種幾何形狀和尺寸的像素塊進行運動估計的并行裝置。如果它被重復使用更多的次數,它也能對大于16×16的像素塊進行運動估計。
整個裝置的行為由一個控制器(301)控制。計算的發起和操作模式選擇均由控制器發出的操作指令(308)決定。裝置的核心部件是由四個內部結構完全一樣的處理單元PE-A(302),PE-B(303),PE-C(304),和PE-D(305)組成的多模運動估計器。每個PE能獨立完成一個4×4大小的像素塊的運動估計,其結果是一組運動矢量MV-A,MV-B,MV-C,MV-D,和相應的殘差絕對值和SAD-A,SAD-B,SAD-C,SAD-D。這些運動矢量和殘差絕對值和被送往控制器(301)做進一步處理。四個PE也有數據通路和控制通路互聯(310),使得它們可以協同起來完成比4×4更大的像素塊的運動估計。
整個多模運動估計器由一個當前幀數據CACHE(306)和參考幀搜索窗口數據CACHE(307)提供輸入數據,這些數據被分別引導到四個PE中。
控制器(301)具有一定的處理能力,例如加法,求絕對值,比較大小等。控制器(301)可以用指令序列即程序對多模運動估計器的工作模式和數據準備進行控制。
整個裝置能以7種不同的工作模式進行運動估計。
圖4是本發明實現的第一種工作模式。即四個PE各自并行地獨立工作,生成針對四個不同的4×4像素塊的運動估計結果MV和SAD。這種工作模式支持H.264中的編碼過程。
圖5是本發明實現的第二種工作模式PE-A和PE-B協同工作,生成針對一個8×4像素塊的MV和SAD;與此同時,PE-C和PE-D協同工作,生成針對另一個8×4像素塊的MV和SAD。這種工作模式支持H.264中的編碼過程。
圖6是本發明實現的第三種工作模式PE-A和PE-C協同工作,生成針對一個4×8像素塊的MV和SAD;與此同時,PE-B和PE-D協同工作,生成針對另一個4×8像素塊的MV和SAD。這種工作模式支持H.264中的編碼過程。
圖7是本發明實現的第四種工作模式這四個PE協同工作,生成針對一個8×8像素塊的MV和SAD。這種工作模式支持包括H.264在內的MPEG族標準的編碼過程。
圖8是本發明實現的第五種工作模式這四個PE協同工作,并且循環計算兩次,得出針對一個8×16像素塊的MV和SAD。這種工作模式支持H.264中的編碼過程。
圖8同時也顯示第六種工作模式這四個PE協同工作,并且循環計算兩次,得出針對一個16×8像素塊的MV和SAD。這種工作模式支持H.264中的編碼過程。
圖9是本發明實現的第七種工作模式這四個PE協同工作,并且循環計算四次,生成針對一個16×16像素塊的MV和SAD。這種工作模式支持包括H.264在內的MPEG族標準的編碼過程。
圖10顯示多模運動估計器ME部分主要由兩類單元組成一是計算單元;二是為計算單元提供數據的單元。其中,提供數據的單元被分別分割成PE-A,PE-B,PE-C,和PE-D等四個處理單元,而計算單元有兩種實現方式。圖10A顯示各個處理單元分別獨享一個計算單元的構造;圖10B表示各個處理單元共享一套計算單元的構造。
圖11是顯示對本發明構造原理(見圖3)的不同實現方式。其中圖11(A)和11(B)給出了少于四個4×4的PE的情形。在圖11(A)中,整個多模運動估計器只含有一個能完成4×4像素塊的運動估計的PE,控制器通過多次、串行地調用這個PE的處理功能,來完成任意尺度像素塊的運動估計。在圖11(B)中,有兩個PE可被調用。這時控制器可利用的計算資源增加了一倍。在圖11(C)中給出了多模運動估計器中,4×4的PE個數多于四個的一個例子。在這個具體例子中,有八個可以獨立運行的PE被利用于多模運動估計器中。
圖12介紹計算單元的一個基本計算部件SAD16。在流水處理情形中,它每個時鐘節拍可以產生一個關于16對數的SAD結果。這個基本部件有很多構造方法。本發明適用于所有這些方法。
圖13是顯示四個SAD16部件在多模運動估計器中的配置情形。對于圖10中顯示的兩類多模運動估計器來說,如果每個PE擁有一套SAD16(圖13A),或者這四個PE共享四套SAD16(圖13B),則整個多模運動估計器每一個時鐘節拍便產生關于四個4×4像素塊的SAD結果。對應的四個運動矢量可以從取操作數的地址容易地獲得,有許多方法可以對此實現,本發明不對此做具體描述。
圖14是顯示十六個SAD16部件在多模運動估計器中的配置情形。對于圖10中顯示的兩類多模運動估計器來說,如果每個PE擁有4套SAD16(圖14A),或者這四個PE共享16套SAD16(圖14B),則整個多模運動估計器每一個時鐘節拍便產生關于十六個4×4像素塊的SAD結果。
以下我們給出圖14中的多模運動估計器在七種工作模式(見圖4-9)的每一種情形中的計算工作描述。同時我們要指出,所描述的原理對于圖11中給出的每一種變化的構造都是適用的,不同的只是完成計算工作所用的時間(節拍數)大小而已。
圖15顯示圖14中的多模運動估計器在圖4所示的第一種工作模式中的計算工作(亦即四個PE并行獨立工作,分別對四個4×4像素塊進行運動估計)。在這種模式中,每個PE中的四個SAD16的輸出端被連接到一個比較器上。比較器既可以是兩端口的,一次給出兩個被比較數的最小數判決;也可以是四端口的,一次給出四個被比較數的最小數判決。比較器既可以是多模運動估計器內部的一個計算邏輯部件,也可以是控制器中的一個計算邏輯。同時,比較器還具有一個記憶單元存放以前最小的SAD值,當新的SAD值被送至比較器并完成比較后,新產生的最小SAD值將與以前的最小SAD比較,其中較小的一個SAD將被存放在比較器中。
圖16顯示第一種工作模式(圖4)中任意一個PE處的數據提供情況。第一種工作模式中,每個PE中的數據提供單元分別向計算單元提供運動估計操作所需要的、當前幀中同一個4×4像素塊的數據,以及所分別對應的參考幀中搜索窗口內四個搜索位置上的數據。
在每個PE處,由于每個SAD16部件每個節拍均能產生一個SAD16結果,故按照圖16的數據提供方式,每個節拍每個PE能就當前幀中的一個4×4像素塊產生出在搜索窗口中四個不同位置的SAD值。這些SAD值被送到比較器處以便確定最小SAD及其所在位置。由于一個多模運動估計器中有四個PE,因此,每個節拍該多模運動估計器能就當前幀中的四個4×4像素塊分別產生出在搜索窗口中四個不同位置的SAD值,并同時分別確定出四個對應的最小SAD值。
圖17顯示,圖14中的多模運動估計器在圖5所示的第二種工作模式中的計算工作(亦即PE-A和PE-B兩個PE協同工作,PE-C和PE-D兩個PE協同工作,分別對兩個8×4像素塊進行運動估計的情況)。在這種模式中,PE-A中的四個SAD16的輸出端和PE-B中的四個SAD16的輸出端分別被連接到四個加法器上,這四個加法器的輸出再被送到比較器上。同樣地,PE-C中的四個SAD16的輸出端和PE-D中的四個SAD16的輸出端分別被連接到四個加法器上,這四個加法器的輸出再被送到比較器上。
圖18表示第二種工作模式(圖5)中,關聯4×4像素塊和關聯搜索位置的概念。其中,當一個當前幀中被進行運動估計的4×4像素塊(1801)被確定后,其關聯像素塊是在同一幀中緊鄰其右側的4×4像素塊(1802)。當一個參考幀中的搜索窗口內的搜索位置(1803)被確定后,其關聯搜索位置是在同一幀中緊鄰其右側的下一個位置(1804)。
圖19顯示第二種工作模式(圖5)中的數據提供情況。四個PE中的數據提供單元分別向計算單元提供運動估計操作所需要的、當前幀中兩個8×4像素塊的數據,以及分別對應的參考幀中搜索窗口內四個搜索位置上的數據。
在每個PE處,由于每個SAD16部件每個節拍均能產生一個SAD16結果,故按照圖19的數據提供方式,每個節拍每個PE對(即PE-A和PE-B,PE-C和PE-D)能就當前幀中的一個8×4像素塊產生出在搜索窗口中四個不同位置的SAD值。這些SAD值被送到比較器處以便確定最小SAD及其所在位置。由于一個多模運動估計器中有兩個PE對,因此,每個節拍該多模運動估計器能就當前幀中的兩個8×4像素塊分別產生出在搜索窗口中四個不同位置的SAD值,并同時分別確定出兩個對應的最小SAD值。
圖20至圖22顯示在圖6所示的第三種工作模式中,多模運動估計器中,兩個PE對(PE-A和PE-C,PE-B和PE-D)協同工作,每個節拍就當前幀中的兩個4×8像素塊分別產生出在搜索窗口中四個不同位置的SAD值,并同時分別確定出兩個對應的最小SAD值。對這些圖的描述與第二種工作模式(圖17至圖19)是類似的,所不同的是,PE對的搭配不同(圖20),關聯像素塊和關聯搜索位置的概念不同(圖21)。
圖23至圖25顯示在圖7所示的第四種工作模式中,多模運動估計器中,四個PE協同工作,每個節拍就當前幀中的一個8×8像素塊產生出在搜索窗口中四個不同位置的SAD值,并同時確定出一個最小SAD值。
對于長或寬大于8個像素點的三類像素塊(8×16,16×8,16×16)來說,其運動估計的實現需要對多模運動估計器重復使用一次以上,實現方法可以是純軟件的,即完全由圖3中的控制器(301)完成;也可以是純硬件的,即完全由多模運動估計器完成;還可以是一個軟硬件協同工作的過程。由于有控制器中軟件程序的參與,因此實現的方式不是唯一的,以下給出三種具體實現方法(embodiment)。同時需要聲明,本發明的原理和構造對不同的、采用圖3結構的、軟硬件協同的實現方式皆適用。
圖26顯示圖8、9所示的第五、六、七種工作模式中當前幀中的關聯像素塊和參考幀中的關聯搜索位置。對于8×16像素塊的運動估計(圖8所示的第五種工作模式),可以分為三步實現把當前幀中的一個8×16像素塊的上半部分(8×8像素)作為像素塊,先用第四種工作模式(圖7)把在參考幀中搜索窗口內四個搜索位置上的不同的SAD值計算出來,并保存起來。
把該8×16像素塊的下半部分(8×8像素)作為關聯像素塊,用第四種工作模式(圖7)把參考幀中搜索窗口內四個關聯位置上的SAD計算出來,并保存起來。
把第1步得到的四個搜索位置上的不同的SAD值分別和第2步得到的四個關聯位置上的SAD值相加,得到這四個位置上的關于原8×16像素塊在這四個搜索位置上的SAD值;然后通過比較得出這4個位置上最小的SAD。
類似地,對于16×8像素塊的運動估計(圖8所示的第六種工作模式),可以分為三步實現把當前幀中的一個16×8像素塊的左半部分(8×8像素)作為像素塊,先用模式4把在參考幀中搜索窗口內四個搜索位置上的不同的SAD值計算出來,并保存起來。
把該16×8像素塊的右半部分(8×8像素)作為關聯像素塊,用第四種工作模式(圖7)把參考幀中搜索窗口內四個關聯位置上的SAD計算出來,并保存起來。
把第一步得到的四個搜索位置上的不同的SAD值分別和第二步得到的四個關聯位置上的SAD值相加,得到這四個位置上的關于原16×8像素塊在這四個搜索位置上的SAD值;然后通過比較得出這4個位置上最小的SAD。
對于16×16像素塊的運動估計(圖9所示的第七種工作模式),可以分為五步實現把當前幀中的一個16×16像素塊的左上角部分(8×8像素)作為像素塊,先用第四種工作模式(圖7)把在參考幀中搜索窗口內四個搜索位置上的不同的SAD值計算出來,并保存起來。
把該16×16像素塊的右上角部分(8×8像素)作為關聯像素塊,用第四種工作模式(圖7)把參考幀中搜索窗口內四個關聯位置上的SAD計算出來,并保存起來。
把該16×16像素塊的左下角部分(8×8像素)作為關聯像素塊,用第四種工作模式(圖7)把參考幀中搜索窗口內四個關聯位置上的SAD計算出來,并保存起來。
把該16×16像素塊的右下角部分(8×8像素)作為關聯像素塊,用第四種工作模式(圖7)把參考幀中搜索窗口內四個關聯位置上的SAD計算出來,并保存起來。
把第一步得到的四個搜索位置上的不同的SAD值分別和第二、三、四步得到的四個關聯位置上的SAD值相加,得到這四個位置上的關于原16×16像素塊在這四個搜索位置上的SAD值;然后通過比較得出這4個位置上最小的SAD。
最后需要指出,雖然本發明提出的方法是針對視頻信號編碼過程提出的,但它同樣適用于對視頻信號的其它處理和分析過程,例如運動預測,運動分析,運動跟蹤,等等。
權利要求
1.一種超大規模集成電路體系結構,用于多尺度多模式運動估計,其特征在于包括1)一個能完成4×4,4×8,8×4,8×8,8×16,16×8,16×16等尺度像素塊運動估計的多模運動估計器;2)一個通過向上述多模運動估計器發出指令來決定該多模運動估計器執行何種尺度像素塊運動估計的控制器;3)一個為上述多模運動估計器提供當前幀像素塊數據的數據提供器和一個為上述多模運動估計器提供參考幀搜索窗口數據的數據提供器。
2.根據權利要求1所述的多模多尺度運動估計的超大規模集成電路體系結構,其特征在于多模運動估計器的組織結構為1)多模運動估計器由四個內部結構完全一樣的處理單元PE-A,PE-B,PE-C,和PE-D組成;2)四個處理單元PE-A,PE-B,PE-C,和PE-D均能接受控制器的指令,以決定工作模式;3)四個處理單元PE-A,PE-B,PE-C,和PE-D均從一個共享或獨享的當前幀像素塊數據提供器和一個共享或獨享的參考幀搜索窗口數據提供器獲得輸入數據;4)每個處理單元PE均能獨立完成一個4×4大小的像素塊的運動估計,其結果是一組運動矢量MV-A,MV-B,MV-C,MV-D,和相應的殘差絕對值和SAD-A,SAD-B,SAD-C,SAD-D。這些運動矢量和殘差絕對值和被送往控制器。
3.根據權利要求1和權利要求2所述的多模運動估計器,其特征在于多模運動估計器中每個處理單元PE的內部構造包括一個基本計算部件SAD16。在流水處理情形中,該基本計算部件SAD16每個時鐘節拍可以產生一個關于16對整數的差的絕對值的和(SAD)。
4.用于權利要求1所述的多模多尺度運動估計的超大規模集成電路體系結構中,使運動估計過程得以靈活高效進行的計算方法包括以下步驟1)控制器向多模運動估計器發出指令以決定運動估計的不同工作模式;2)當前幀像素塊數據提供器和參考幀搜索窗口塊數據提供器的數據被調入多模運動估計器;3)多模運動估計器中的四個基本處理單元PE-A,PE-B,PE-C,PE-D根據控制器指令所決定的模式,分別獨立并行地對當前幀像素塊數據提供器和參考幀搜索窗口塊數據提供器的數據進行運動估計;4)多模運動估計器產生的運動矢量和殘差絕對值和被送往控制器。
5.根據權利要求4所述的多模多尺度運動估計的方法,其特征在于多模運動估計器能夠實現不同工作模式的運動估計,包括1)第一種工作模式,四個PE各自并行地獨立工作,生成針對四個不同的4×4像素塊的運動估計結果MV和SAD;2)第二種工作模式,PE-A和PE-B協同工作,生成針對一個8×4像素塊的MV和SAD;與此同時,PE-C和PE-D協同工作,生成針對另一個8×4像素塊的MV和SAD;3)第三種工作模式,PE-A和PE-C協同工作,生成針對一個4×8像素塊的MV和SAD;與此同時,PE-B和PE-D協同工作,生成針對另一個4×8像素塊的MV和SAD;4)第四種工作模式,四個PE協同工作,生成針對一個8×8像素塊的MV和SAD;5)第五種工作模式,四個PE協同工作,并且循環計算兩次,得出針對一個8×16像素塊的MV和SAD;6)第六種工作模式,四個PE協同工作,并且循環計算兩次,得出針對一個16×8像素塊的MV和SAD;7)第七種工作模式,四個PE協同工作,并且循環計算四次,生成針對一個16×16像素塊的MV和SAD。
6.根據權利要求4和權利要求5所述的多模多尺度運動估計的方法,第一種工作模式的實現方法,其特征在于四個PE各自并行地獨立工作,每個PE中的四個SAD16的輸出端連接到一個比較器上,每個節拍該多模運動估計器就當前幀中的四個4×4像素塊分別產生出在搜索窗口中四個不同位置的SAD值,并同時分別確定出四個對應的最小SAD值。
7.根據權利要求4和權利要求5所述的多模多尺度運動估計的方法,當兩個PE或四個PE協同工作時的方法,其特征在于1)在第二種工作模式中,設定當前被編碼的4×4像素塊的右側的4×4像素塊為關聯像素塊;2)在第三種工作模式中,設定當前被編碼的4×4像素塊的下側的4×4像素塊為關聯像素塊;3)在第四種工作模式中,設定當前被編碼的4×4像素塊的右側、下側、和下側的三個4×4像素塊為關聯像素塊;4)在第二種工作模式中,設定搜索窗口中當前位置上的4×4像素塊的右側的4×4像素塊為關聯搜索像素塊;5)在第三種工作模式中,設定搜索窗口中當前位置上的4×4像素塊的下側的4×4像素塊為關聯搜索像素塊;6)在第四種工作模式中,設定搜索窗口中當前位置上的4×4像素塊的右側、下側、和右下側的三個4×4像素塊為關聯搜索像素塊;
8.根據權利要求4、權利要求5、和權利要求7所述的多模多尺度運動估計的方法,當兩個PE或四個PE協同工作時的方法,其特征在于1)在第二種工作模式中,采用附加加法器,將PE-A和PE-B中的SAD16得到的結果作為部分和,相加得到關于一個8×4像素塊的SAD結果;以及采用附加加法器,將PE-C和PE-D中的SAD16得到的結果作為部分和,相加得到關于一個8×4像素塊的SAD結果;2)在第三種工作模式中,采用附加加法器,將PE-A和PE-C中的SAD16得到的結果作為部分和,相加得到關于一個4×8像素塊的SAD結果;以及采用附加加法器,將PE-B和PE-D中的SAD16得到的結果作為部分和,相加得到關于一個4×8像素塊的SAD結果;3)在第四種工作模式中,采用附加加法器,將PE-A、PE-B、PE-C、和PE-D中的SAD16得到的結果作為部分和,相加得到關于一個8×8像素塊的SAD結果。
9.根據權利要求4、5、7和權利要求8所述的多模多尺度運動估計的方法,第五、六、七種工作模式的實現方法,其特征在于1)在第五種工作模式中,設定當前被編碼的8×8像素塊的下側的8×8像素塊為關聯像素塊;2)在第六種工作模式中,設定當前被編碼的8×8像素塊的右側的8×8像素塊為關聯像素塊;3)在第七種工作模式中,設定當前被編碼的8×8像素塊的右側、下側、和右下側的三個8×8像素塊為關聯像素塊;4)在第五種工作模式中,設定搜索窗口中當前位置上的8×8像素塊的下側的8×8像素塊為關聯搜索像素塊;5)在第六種工作模式中,設定搜索窗口中當前位置上的8×8像素塊的右側的8×8像素塊為關聯搜索像素塊;6)在第七種工作模式中,設定搜索窗口中當前位置上的8×8像素塊的右側、下側、和右下側的三個8×8像素塊為關聯搜索像素塊。
10.根據權利要求4、5、7、8和權利要求9所述的多模多尺度運動估計的方法,第五、六、七種工作模式的實現方法,其特征在于1)運動估計的實現是一個軟硬件協同工作,即控制器和多模運動估計器協同完成的過程;2)運動估計的實現需要對多模運動估計器按工作模式4重復使用一次以上;3)運動估計的實現采用分步操作的辦法,即通過權利要求7、8中第四種工作模式即四個PE協同工作的方法和權利要求9中的設定關聯像素塊和關聯搜索位置的計算方法,由多模運動估計器對各8×8像素塊和關聯像素塊求出四個搜索位置上的SAD值并送至控制器,由控制器相加總和,最后比較得出最小的SAD值。
全文摘要
本發明涉及數字視頻信號編碼中多尺度多模式運動估計的超大規模集成電路實現的體系結構及處理過程。本發明所提出的裝置和方法的核心部件為由四個內部結構完全一樣的處理單元PE-A、PE-B、PE-C和PE-D組成的多模運動估計器,和一個控制器。該裝置通過四個PE彼此間的協作運算、控制器對各PE的任務分配、以及對各處理單元中基本計算部件SAD
文檔編號H01L21/82GK1588638SQ200410058030
公開日2005年3月2日 申請日期2004年8月9日 優先權日2004年8月9日
發明者劉華平, 王識霖, 苑澤生 申請人:中芯聯合(北京)微電子有限公司