專利名稱:用于可縮放圖像代碼轉換的方法
技術領域:
本發明通常涉及圖像和視頻編碼,并具體而言涉及代碼轉換包括感興趣區域的圖像。
背景技術:
視頻監視、蜂窩電話機、數碼相機、打印機、掃描儀、傳真機、復印機、醫療成像、衛星成像、因特網、以及復合文檔已經增加了對于圖像和視頻應用的要求。但是,由于受限制的資源,諸如帶寬、存儲器和處理器,高質量圖像常常是不可能的。圖像的質量取決于圖像中像素的數量,以及分配給每個像素的位數。例如,對于每個像素24位的1024×1024像素圖像將是25Mb的高質量彩色圖像,而每像素1位的10×10像素圖像將是100比特的低質量黑白縮略圖。
一種解決方案將圖像中的感興趣區域(ROI)與背景(BG)區別開來。比BG使用更多的位來編碼ROI。通過給ROI分配比BG更多的位,能夠減少用于編碼圖像的比特總數而不減少被編碼圖像中ROI的感覺的分辨率以及質量。較少的比特減少了所需的資源。
一種ROI編碼方法選擇性地按比例增加用于ROI的小波變換系數,參見Atsumi等人的“Loss/lossless region-of-interest imagecoding based on set partitioning in hierarchical trees”,IEEEProcessing of ICIP,1998年10月。還以較高的優先級傳送所述ROI。但是,根據縮放值,ROI會看上去混合到所述BG中。所以,解碼器還需要形狀信息來區分ROI和BG。
JPEG 2000標準定義了用于ROI編碼的最大移位(max-shift)方法,參見ISO/IEC 15444-1,“Information technology-JPEG 2000image coding system-Part 1Core coding system”,2000年第一版。JPEG 2000標準使用色彩變換、量化、小波變換、逐級位-平面編碼、以及熵編碼。經編碼的圖像作為數據包的分層的流而傳送。利用JPEG2000,在編碼期間選擇輸出圖像的大小和質量。最大移位方法通過將ROI縮放到非重疊的各位平面中,從背景中分離出ROI,參見Skodras等人的“The JPEG 2000 still image compression standard”,IEEESignal Processing Magazine,2001年9月。所述縮放值足夠大以保證與ROI相關的最小系數大于所述背景的最大系數。當解碼器接收該縮放值時,解碼器通過它們的幅度來識別ROI系數。最大移位方法使得能夠編碼具有任意的形狀的ROI而不用明確發送ROI的形狀信息到所述解碼器。但是,由于需要用于定義ROI邊界的額外代碼塊,最大移位編碼增加了開銷。
另一種方法基于逐個平面移位比特來適配ROI的相對重要性,參見Wang等人的“Bitplane-by-bitplane shift(BbBShift)-Asuggestion for JPEG 2000 Region of Interest image coding”,IEEESignal Processing Letters,第9卷,NO.5,2002年5月。但是,該BbBShift方法與JPEG 2000標準不兼容。
另一種方法稱作“partial significant bit-planes shift”(PSBShift),參見Liu等人的“A new JPEG 2000 region-of-interestimage coding methodpartial significant bitplanes shift”,IEEE SignalProcessing Letters,第10卷,NO.2,2003年2月。該PSBShift方法致力于保持ROI的高質量。該PSBShift方法也與JPEG 2000標準不兼容。
所有的上述ROI編碼方法使用靜態編碼。也就是,在編碼期間定義所述ROI。當僅僅在解碼期間可獲得ROI信息時這是一個問題。例如,觀眾期望指定ROI。如果通過外部源動態地提供ROI信息,這也是一個問題。例如,外部處理,諸如對象跟蹤,在解碼之前分析圖像,并確定該ROI。
Rosenbaum等人描述了一種動態ROI編碼方法,參見“Flexible,dynamic and compliant region of interest coding in JPEG 2000”,IEEE Processing of ICIP,紐約羅徹斯特,2002年9月。該方法在交互環境中處理動態ROI信息。該方法使用如JPEG 2000標準所定義的區域/層機制,以在每一層中安排區域優先級。該方法動態地插入各層。各ROI數據包保持在同一層中,而其它數據包上移一層。但是,動態層插入要求記錄數據包首部。這需要速率失真重新計算,而這對于實時圖像傳輸應用來說是不希望的特征。而且,該方法與所述JPEG2000標準兼容。
因此,由于現有技術編碼方法的這些問題,希望提供一種新的編碼機制,這種機制避免重新編碼數據包首部以及使ROI編碼變得靈活和動態,并且具有低的計算復雜度。
發明內容
一種方法代碼轉換編碼輸入比特流形式的圖像或視頻。數據包形式的輸入比特流包括質量層,每個質量層包括分辨率等級,每個分辨率等級包括分量,每個分量包括區域(precinct),以及每個區域包括數據包分割位置、首部長度和主體長度。
部分解碼所述輸入比特流以獲得被編碼的輸入比特流的索引結構。規定圖像中感興趣區域的坐標,以及定義逐級參數。
然后根據所述結構、坐標和逐級參數編碼所述部分解碼的輸入比特流以獲得編碼的輸出比特流。
在代碼轉換期間,根據逐級參數選擇性地將輸入比特流中的感興趣區域和背景數據包轉換成輸出比特流。例如,沒有背景數據包包括在輸出比特流中,或者只有感興趣區域和來自低質量層的背景數據包。
圖1是根據本發明用于代碼轉換圖像的系統和方法的方框圖;圖2是根據本發明的分層比特流的結構的方框圖;圖3是根據本發明的包括感興趣區域的圖像的方框圖;圖4是根據本發明要被代碼轉換的分層數據包的方框圖;
圖5是根據本發明的輸入比特流的方框圖;圖6是根據本發明的分辨率等級的方框圖;圖7是對應于圖6所示分辨率等級的比特流的方框圖;圖8是根據本發明要被代碼轉換的圖像的方框圖;以及圖9是根據本發明的輸出比特流的方框圖。
具體實施例方式
圖1所示為根據本發明用于代碼轉換包括感興趣區域(ROI)的圖像的系統和方法。所述ROI是圖像中的矩形區域。系統的輸入是編碼的比特流101,例如JPEG 2000比特流。所述比特流是數據包序列的形式。能夠使用有損或無損技術來壓縮這些圖像。
在編碼比特流101期間,在JPEG 2000標準中應用小波變換將所述圖像分析為四個子帶圖像。該子帶圖像包括描述子帶圖像的不同空間頻率特征的系數。最低頻率的子帶圖像被進一步分解成四個更小的子帶。根據需要,能夠重復這種處理,以達到期望的圖像分辨率。分割每個子帶圖像成非重疊的矩形塊,稱之為“代碼塊”。每個代碼塊被獨立編碼成最終的編碼比特流101。
為了有效地組織比特流,將各代碼塊分組到每個分辨率等級內的“區域”。區域分割使得更容易訪問對應于圖像的特定空間區域的小波系數。每個區域產生比特流中的一個數據包。為了使得能夠SNR逐級改善,在多個層上分布包含在一個數據包中的信息。每一層包含來自所考慮區域的一定量的數據。
為了從比特流中的每一質量層以及每一分辨率等級提取期望的數據包,本發明提供了分析器110,用來部分解碼數據包首部信息,而不對代碼塊執行算術解碼。這允許進行ROI代碼轉換120從而以最小的計算復雜度產生編碼的輸出比特流104。
如圖2所示,分析器110使用標記樹解碼器來獲得所述輸入比特流的分級數據結構200。
部分解碼110比特流101中的數據包來獲得結構200。該分級結構包括質量層(Qlayer)201,每一層包括分辨率等級(Rlevel)202,每一分辨率等級包括分量203,每一分量包括區域204,以及每一區域包括數據包分割位置205、首部長度206、和主體長度207。各索引編號使得能夠直接訪問區域信息205-207。
由于JPEG 2000比特流的復雜體系結構,因此訪問每一區域是高代價的。所以,設計數據結構200,以便能夠通過索引編號隨機地和直接地訪問該數據結構。
如圖1所示,還例如通過用戶或外部源來規定和定義ROI坐標112和逐級參數113。
傳送所述結構200、ROI坐標112、以及逐級參數113到代碼轉換器120。與現有技術不同,在代碼轉換期間而不是在編碼期間規定ROI坐標112。例如,用戶標記ROI,或者通過其他技術諸如對象或模式識別提供坐標。識別者定位所述圖像中的對象或模式,并在該對象周圍擬合ROI以獲得坐標。
ROI坐標可能不匹配區域位置。在這種情況下,代碼轉換120向外舍入所述ROI坐標到最近的區域邊界。即,使矩形的ROI更大以適合所述區域定義的邊界。在代碼轉換之前用戶還能夠定義所述逐級參數,以指示是否能夠刪除背景(BG),或者指示對于BG和ROI有多少需要代碼轉換的質量等級。以下描述逐級參數的使用。
代碼轉換器使用結構信息200和坐標112來識別輸入比特流101中的BG和ROI數據包。根據ROI坐標112和逐級參數113將各數據包重新組織成編碼輸出比特流104的數據包。最終的編碼輸出比特流104完全符合JPEG 2000標準。
圖3所示為包括ROI 302的實例圖像301,以及剩余的背景(BG)303。所述ROI的坐標相對于原點(O)、以及X軸和Y軸來定義。
如圖4所示,圖像301被編碼成比特流101的五個“質量”層411-415的BG數據包401和ROI數據包402。
圖5所示為對于單一分辨率等級和一個分量,比特流101的五個層411-415中的ROI和BG數據包采用所謂“層-分辨率-分量-位置(LRCP)”系列的配置。
圖6所示為具有三個等級601-603的分辨率圖600。一個區域以具體的分辨率等級描述圖像中的一個空間區域。在根據JPEG 2000的分解中,每一方向的區域大小是2的冪。高分辨率等級的圖像區域通過除以2而被傳到下一較低的分辨率等級。對于每一分辨率等級重復這種處理。
圖7所示為采用LRCP系列的相應比特流700。從圖7可以知道所產生的數據包包含有關給定分辨率等級的圖像的具體區域的信息。
為了提取期望的ROI并為BG和ROI規定可縮放的質量,代碼轉換器120使用兩個逐級參數m和n。參數m規定BG 303的期望質量,以及參數n規定ROI 302的期望質量。參數m和n具有以下約束條件對于ROI,0≤m<n≤最高質量,否則,對于背景,0≤m≤最高質量,以及對于無背景,m=0。
在上述最后的約束條件下,整個背景被轉換成空數據包,而僅僅代碼轉換ROI數據包。一個空數據包具有一字節的數據包首部,其第一比特設置為零,無有效載荷。這種情況大大減少了已代碼轉換的輸出比特流的帶寬需求。
對于ROI數據包,代碼轉換器120從輸入比特流中僅僅提取最低質量層1到質量層n的ROI數據包,并在輸出比特流中編碼這些數據包。來自大于n的層的ROI數據包被轉換成編碼的輸出比特流中的空(EPT)數據包。
對于BG數據包,如果m=0,那么將所有的BG數據包轉換成空數據包。如果m>0,那么代碼轉換器120從輸入比特流中提取最低質量層1到質量層m的BG數據包,并在輸出比特流中編碼這些數據包。大于m的層上的BG數據包被全部轉換成輸出比特流中的空數據包。
通過參數m和n的不同組合,可為ROI和BG獲得各種質量逐級結果。用戶能夠利用該特征在視覺要求和通信帶寬容量之間進行調節。
圖8所示為要利用逐級參數m=1和n=4代碼轉換的實例圖像800。圖像800具有空數據包801、ROI數據包802、和BG數據包803。
圖9所示為相應輸出比特流900的數據包。
發明的有益效果本發明使得能夠以任何數量的不同方式從編碼的比特流中恢復具有任何期望空間分辨率和圖像質量的圖像。根據本發明的代碼轉換是自適應和可縮放的。本發明能夠為感興趣區域保留高質量和高分辨率。圖像的剩余部分能夠被降低質量或被完全地刪除以獲得期望的帶寬。當與現有技術的方法相比時,根據本發明的方法具有較低的復雜度和增加的效率。
不像現有技術那樣,本發明并不完全解碼和再編碼數據包。本發明選擇性地刪除數據包或使用空數據包來有效地增加ROI的優先級,這使得能夠進行實時代碼轉換應用。
盡管已經通過優選實施例的一些實例描述了本發明,但是應該明白的是在本發明的精神和范圍內可以作出各種其他的調整和修改。所以,附屬權利要求書的目的是覆蓋本發明真實精神和范圍內的所有這些變型和修改。
權利要求
1.一種用于可縮放圖像代碼轉換的方法,包括部分解碼圖像的編碼的輸入比特流以獲得該編碼的輸入比特流的結構;規定該圖像中感興趣區域的坐標;定義逐級參數;以及根據所述結構、坐標以及逐級參數編碼所述部分解碼的輸入比特流,作為編碼的輸出比特流。
2.根據權利要求1所述的方法,其中所述編碼的輸入比特流和編碼的輸出比特流都是JPEG 2000比特流。
3.根據權利要求1所述的方法,其中所述編碼的輸入比特流包括多個質量層,每個質量層包括多個分辨率等級,每個分辨率等級包括多個分量,每個分量包括多個區域,以及每個區域包括數據包分割位置、首部長度和主體長度。
4.根據權利要求3所述的方法,還包括使用索引編號索引所述區域。
5.根據權利要求4所述的方法,還包括在所述編碼期間使用所述索引編號隨機地訪問所述結構。
6.根據權利要求4所述的方法,還包括在所述編碼期間使用所述索引編號直接訪問所述結構。
7.根據權利要求1所述的方法,還包括在代碼轉換時由用戶定義所述坐標。
8.根據權利要求1所述的方法,還包括在代碼轉換時通過外部源定義所述坐標。
9.根據權利要求8所述的方法,其中所述外部源使用對象識別來確定所述感興趣區域的參數。
10.根據權利要求8所述的方法,其中所述外部源使用模式識別來確定所述感興趣區域的參數。
11.根據權利要求3所述的方法,還包括向外舍入所述參數到所述多個區域的最近邊界。
12.根據權利要求1所述的方法,還包括在代碼轉換時由用戶規定所述逐級參數。
13.根據權利要求3所述的方法,其中逐級參數m規定所述圖像的背景的質量,以及參數n規定所述感興趣區域的質量。
14.根據權利要求13所述的方法,還包括根據以下條件約束所述逐級參數m和n對于所述感興趣區域,0≤m<n≤最高質量,否則對于所述背景,0≤m≤最高質量,以及對于無背景,m=0。
15.根據權利要求14所述的方法,其中所述編碼的輸入比特流包括感興趣區域數據包和背景數據包,并且該方法還包括如果m=0,則將所有背景數據包轉換成所述編碼的輸出比特流中的空數據包,其中一個空數據包具有一字節的數據包首部,其第一比特設置為零,無有效載荷。
16.根據權利要求15所述的方法,還包括對于感興趣區域數據包,僅僅提取最低質量層1到質量層n的感興趣區域數據包,在所述編碼的輸出比特流中編碼所提取的感興趣區域數據包,并將所有其他感興趣區域數據包轉換成所述編碼的輸出比特流中的空數據包;以及對于背景數據包,僅僅提取最低質量層1到質量層m的背景數據包,在所述編碼的輸出比特流中編碼所提取的背景數據包,并將所有其他背景數據包轉換成該編碼的輸出比特流中的空數據包。
17.根據權利要求1所述的方法,其中所述編碼的輸入比特流是包括多個圖像的視頻,為每一圖像執行所述解碼、規定、定義以及編碼步驟。
18.根據權利要求1所述的方法,其中所述編碼的輸入比特流包括多個數據包,僅對這些數據包的首部應用所述解碼。
19.根據權利要求1所述的方法,其中規定所述逐級參數以符合期望的圖像質量和帶寬使用。
全文摘要
一種方法代碼轉換編碼的輸入比特流形式的圖像。所述輸入比特流包括質量層,每一質量層包括分辨率等級,每個分辨率等級包括分量,每個分量包括區域,以及每個區域包括數據包分割位置、首部長度和主體長度。部分解碼所述輸入比特流以獲得編碼的輸入比特流的結構。規定圖像中感興趣區域的坐標,以及定義逐級參數。然后根據所述結構、坐標以及逐級參數來編碼所述部分解碼的輸入比特流以獲得編碼的輸出比特流。
文檔編號H04N7/30GK1784014SQ20051011930
公開日2006年6月7日 申請日期2005年11月3日 優先權日2004年12月2日
發明者孔浩松, 安東尼·韋特羅, 秦淑彥, 桑原直樹 申請人:三菱電機株式會社