專利名稱:在運(yùn)動補(bǔ)償?shù)臅r(shí)間濾波中的自適應(yīng)更新的制作方法
技術(shù)領(lǐng)域:
描述用于可縮放的視頻編碼和解碼的技術(shù)和工具。例如,視頻編碼器和解碼器在基于提升的運(yùn)動補(bǔ)償時(shí)間濾波中執(zhí)行自適應(yīng)更新操作。
背景技術(shù):
數(shù)字視頻消耗大量存儲和傳輸容量。典型的原始數(shù)字視頻序列每秒包括15或30幀。每幀能包括幾萬或幾十萬像素(也稱為象素),其中每個(gè)像素表示圖像的極小單元(tiny element)。在原始形式中,計(jì)算機(jī)通常將像素表示為三個(gè)樣本的集合,總共24比特。例如,像素可以包括定義像素的灰度級分量的八比特亮度樣本(也稱為luma樣本,因此,在此可互換使用術(shù)語“亮度”和“l(fā)uma”),以及定義像素的顏色分量的兩個(gè)八比特色度樣本(也稱為chroma樣本,因此,在此可互換使用術(shù)語“色度”和“chroma”)。因此,典型的原始數(shù)字視頻序列的每秒的比特?cái)?shù),或比特率可以是每秒5百萬比特或更高。
許多計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)缺少資源來處理原始數(shù)字視頻。為此,工程師使用壓縮(也稱為編碼)來降低數(shù)字視頻的比特率。壓縮通過將視頻轉(zhuǎn)換成比特率形式,減少存儲和傳輸視頻的成本。解壓縮(也稱為解碼)由壓縮形式重構(gòu)初始視頻的版本。“編解碼器”是編碼器/解碼器系統(tǒng)。壓縮能是無損的,其中,視頻的質(zhì)量不變壞,但由于視頻數(shù)據(jù)的固有可變量(有時(shí)稱為熵),限制比特率降低?;蛘撸瑝嚎s能是有損的,其中,視頻的質(zhì)量變壞,但可實(shí)現(xiàn)的比特率減少更顯著。通常結(jié)合無損壓縮使用有損壓縮-有損壓縮確定近似信息,以及無損壓縮應(yīng)用于表示近似。
作為視頻壓縮的一般規(guī)則,質(zhì)量直接與比特率有關(guān)改變。對于給定視頻序列,如果以更高質(zhì)量編碼序列,用于序列的比特率將更高,以及如果以較低質(zhì)量編碼序列,用于序列的比特率將更低。各種影響會影響原始視頻序列的比特率和質(zhì)量,包括時(shí)間分辨率(例如每秒7.5,15,30或60視頻幀)、空間分辨率(例如每視頻幀176×144(QCIF),352×288(CIF)或704×576(4CIF)像素),以及采樣分辨率(例如每像素8,16或24比特)。質(zhì)量和比特率可以通過向上或向下移動時(shí)間、空間和/或采樣分辨率來改變。
質(zhì)量和比特率也可以由通過有損壓縮期間,簡化或去除信息引入的失真量而定。當(dāng)重構(gòu)時(shí),這影響例如視頻中的模糊度(blurriness)量、分塊效應(yīng)、粒度等等。表述不同,有損壓縮降低序列的質(zhì)量以便允許編碼器實(shí)現(xiàn)更低比特率。
作為另一通用規(guī)則,在細(xì)節(jié)和運(yùn)動方面,質(zhì)量和比特率由視頻序列的復(fù)雜度而定。對一些固定的質(zhì)量級,復(fù)雜序列通常比簡單序列要求編碼更多的位。其另一方面是,當(dāng)以一些固定比特率編碼時(shí),復(fù)雜序列通常具有比簡單序列更低的質(zhì)量。
在一些情況下,所需的是以單一比特率/質(zhì)量級編碼視頻。例如,如果編碼用于通過單一類型的設(shè)備重放的視頻,或如果編碼用于在電話線上,點(diǎn)對點(diǎn)視頻會議中重放的編碼,期望以單一比特率/質(zhì)量級簡單地編碼視頻。在許多其他情況下,然而,期望以多個(gè)比特率和質(zhì)量級編碼視頻。例如,當(dāng)在Internet上流動視頻時(shí),視頻服務(wù)器通常必須向具有不同性能的設(shè)備提供視頻和/或在具有不同速度和可靠性特性的各種網(wǎng)絡(luò)環(huán)境上遞送視頻。
解決不同網(wǎng)絡(luò)和重放需求的一種方法是以多個(gè)比特率和質(zhì)量級編碼相同視頻序列,其能導(dǎo)致用于多個(gè)獨(dú)立壓縮視頻比特流的存儲和傳輸?shù)托?。作為替代方法,子帶或小波視頻編碼提供在單個(gè)、可縮放壓縮視頻比特流中,以多個(gè)分辨率方法編碼視頻序列。通過子帶或小波編碼,將視頻序列解壓縮成不同時(shí)間和空間子帶。
作為簡單的例子,將視頻序列分成低分辨率時(shí)間子帶(粗略地對應(yīng)于該序列的低幀率版本)和高分辨率時(shí)間子帶(能與低分辨率時(shí)間子帶結(jié)合以重構(gòu)初始幀率序列)。用于各個(gè)視頻幀的信息可以類似地劃分成低分辨率空間子帶和多個(gè)較高分辨率空間子帶。時(shí)間和空間分解可以一起使用??梢灾貜?fù)任一分解類型,例如,以便進(jìn)一步分解低分辨率子帶。通過選擇特定子帶,以便以不同分辨率傳輸或解碼,可以實(shí)現(xiàn)時(shí)間和空間可縮放性。
另外,用于單個(gè)子帶的信息可以表示為具有多個(gè)位分辨率層的位平面。通過傳輸一些,而不是全部用于子帶的位,能有選擇地降低初始編碼信息的保真度(以及比特率)?;蛘?,通過解碼小于用于子帶的所有位,能有選擇地降低保真度(以及處理需求)。
盡管可縮放視頻編碼和解碼技術(shù)便于壓縮比特流的各種空間、時(shí)間和位保真度可縮放性,現(xiàn)有的可縮放視頻編碼和解碼技術(shù)存在幾個(gè)缺點(diǎn)。
現(xiàn)有的可縮放視頻編碼和解碼技術(shù)通常不提供與以低速率的不可縮放技術(shù)競爭的性能。盡管可縮放視頻編碼和解碼技術(shù)的性能在較高比特率和質(zhì)量很好,與不可縮放視頻編碼和解碼技術(shù)相比,在低比特率時(shí),它們使用太多位。
此外,根據(jù)專用不可縮放視頻編碼和解碼技術(shù),設(shè)計(jì)了許多現(xiàn)有的硬件和軟件工具。這些工具的用戶不愿意購買新的可縮放視頻編碼和解碼技術(shù)以及不與現(xiàn)有工具兼容的工具。此外,內(nèi)容提供者不愿意生產(chǎn)不與視頻解碼工具的主流安裝基礎(chǔ)兼容的編碼內(nèi)容。
有時(shí),解碼器以低于初始空間分辨率的空間分辨率重放。如果解碼器設(shè)備僅具有小的屏幕或如果由網(wǎng)絡(luò)丟棄較高空間分辨率信息,這可能會發(fā)生。然而,當(dāng)在編碼期間,時(shí)間分解以初始空間分辨率發(fā)生時(shí),以較低空間分辨率解碼是有問題的?,F(xiàn)有的可縮放視頻解碼技術(shù)不能充分地解決這一解碼情況。
最后,現(xiàn)有的可縮放視頻編碼和解碼技術(shù)未考慮在編碼和解碼期間,某些判決中的失真可感知性。特別地,現(xiàn)有的可縮放視頻編碼技術(shù)在某些類型的時(shí)間分解中,在低分辨率時(shí)間子帶中,引入過量可感知失真。
假定對數(shù)字視頻來說,壓縮和解壓縮最重要,可縮放視頻編碼和解碼是充分開發(fā)的領(lǐng)域不奇怪。不論先前可縮放視頻編碼和解碼技術(shù)的優(yōu)點(diǎn)是什么,然而,它們不具有下述技術(shù)和工具的優(yōu)點(diǎn)。
發(fā)明內(nèi)容
在此描述的技術(shù)和工具提供可縮放視頻編碼和解碼的性能。特別地,視頻編碼器和/或解碼器在編碼和解碼期間,解決某些判決中的失真的感知性。例如,這些判決與運(yùn)動補(bǔ)償時(shí)間濾波中的更新操作有關(guān)。自適應(yīng)更新操作提高由壓縮的視頻比特流重構(gòu)的低幀速率速率視頻的可感知質(zhì)量。同時(shí),對由壓縮視頻比特流重構(gòu)的高幀速率視頻來說,自適應(yīng)更新操作仍然有效。
根據(jù)工具和技術(shù)的第一集合,編碼器,諸如3D子帶視頻編碼器執(zhí)行包括預(yù)測階段和更新階段的運(yùn)動補(bǔ)償時(shí)間濾波。編碼器自適應(yīng)至少部分基于人類視覺的模型(例如最小可覺差模型)的更新信息。例如,編碼器設(shè)置一個(gè)或多個(gè)圖像相關(guān)閾值,其中,圖像相關(guān)閾值對平面區(qū)域來說為低,而對噪聲區(qū)域來說為高。編碼器然后在編碼中使用該自適應(yīng)結(jié)果。
根據(jù)工具和技術(shù)的第二集合,解碼器,諸如3D子帶視頻解碼器執(zhí)行包括預(yù)測階段和更新階段的逆運(yùn)動補(bǔ)償時(shí)間濾波。解碼器自適應(yīng)至少部分基于人類視覺系統(tǒng)的模型的更新信息,然后在解碼中使用該自適應(yīng)的結(jié)果。
根據(jù)工具和技術(shù)的第三集合,編碼器,諸如3D子帶視頻編碼器計(jì)算用于基于至少部分基于感性標(biāo)準(zhǔn)的提升的運(yùn)動補(bǔ)償時(shí)間濾波的一個(gè)或多個(gè)更新閾值。例如,編碼器對將更新的多個(gè)圖像的每一個(gè),計(jì)算每個(gè)圖像的更新閾值。然后,編碼器根據(jù)一個(gè)或多個(gè)更新閾值,確定更新信息閾值。
根據(jù)工具和技術(shù)的第四集合,解碼器,諸如3D子帶視頻解碼器至少部分基于感性標(biāo)準(zhǔn),計(jì)算用于運(yùn)動補(bǔ)償?shù)臅r(shí)間濾波的一個(gè)或多個(gè)更新閾值。然后,解碼器根據(jù)一個(gè)或多個(gè)更新閾值,確定更新信息閾值。
從下述結(jié)合附圖進(jìn)行的詳細(xì)描述,上述技術(shù)和工具的上述和其他目的、特征和優(yōu)點(diǎn)將變得更顯而易見。
圖1是用于可縮放視頻編碼和解碼的通用操作環(huán)境的框圖。
圖2,3,4和5是結(jié)合可以實(shí)現(xiàn)各個(gè)所述實(shí)施例的通用視頻編碼器和/或解碼器的框圖。
圖6是示例說明在運(yùn)動補(bǔ)償時(shí)間濾波(“MCTF”)中,輸入視頻幀、時(shí)間低通幀和時(shí)間高通幀間的關(guān)系的圖。
圖7和8分別是示例說明編碼器中的MCTF和解碼器中的逆MCTF(“IMCTF”)中的框圖。
圖9和10分別是示例說明在編碼器中,具有自適應(yīng)更新級的MCTF和在解碼器中,具有自適應(yīng)更新級的IMCTF的框圖。
圖11、12和13是示例說明用于自適應(yīng)更新操作的技術(shù)的流程圖。
圖14、15、16、17、18和19是示例說明用于將基層編解碼器嵌入3D子帶編碼器中或?qū)⒒鶎咏獯a器嵌入3D子帶解碼器中的不同方案的框圖。
圖20是示例說明當(dāng)基層編解碼器或解碼器提供基準(zhǔn)候選的不同基準(zhǔn)組合的圖。
圖21、22和23是示例說明用于通過3D子帶編解碼器和嵌入基層編解碼器編碼的幀圖形的圖。
圖24是示例說明通過具有嵌入基層編解碼器的3D子帶編解碼器可縮放編碼的技術(shù)的流程圖。
圖25是示例說明用于通過具有嵌入基層解碼器的3D子帶解碼器可縮放解碼的技術(shù)的流程圖。
圖26是示例說明用于解碼在低空間分辨率輸出的SDMCTF編碼的視頻的兩種方案的框圖。
圖27是示例說明在SDIMCTF和IBIMCTF中的運(yùn)動補(bǔ)償預(yù)測的圖。
圖28是示例說明由于運(yùn)動偏移的功率譜泄漏的圖。
圖29是示例說明用于解碼用于在低空間分辨率輸出的SDMCTF編碼的視頻的基線方案的圖。
圖30是示例說明用于解碼用于在低空間分辨率輸出的SDMCTF編碼的視頻的通用方案的框圖。
圖31,32,33和34是示例說明用于解碼用于在低空間分辨率輸出的SDMCTF編碼的視頻的方案的圖。
具體實(shí)施例方式
在三維(“3D”)小波或子帶視頻編碼中,通過多次時(shí)間變換和空間變換,視頻分解成許多時(shí)間-空間子帶。子帶稍微獨(dú)立,在于因?yàn)榭煽s放性,可丟失它們中的一些。例如,為解碼低空間分辨率視頻,丟失空間高通子帶以及解碼器僅通過空間低通子帶中的所接收的數(shù)據(jù),執(zhí)行解碼。
I.示例性操作環(huán)境圖1示例說明可以實(shí)現(xiàn)幾個(gè)所述實(shí)施例的適當(dāng)?shù)挠?jì)算環(huán)境(100)的通用例子。計(jì)算環(huán)境(100)不打算建議對有關(guān)使用和功能性的范圍作任何限制,因?yàn)樵诟鞣N通用或?qū)S糜?jì)算環(huán)境中可以實(shí)現(xiàn)所述技術(shù)和工具。
參考圖1,計(jì)算環(huán)境(100)包括至少一個(gè)處理單元(110)和存儲器(120)。在圖1中,該最基本的配置(130)包括在虛線內(nèi)。處理單元(110)執(zhí)行計(jì)算機(jī)可執(zhí)行指令以及可以是實(shí)時(shí)或虛擬處理器。在多處理系統(tǒng)中,多處理單元執(zhí)行計(jì)算機(jī)可執(zhí)行指令來增加處理能力。存儲器(120)可以是易失性存儲器(例如寄存器、超高速緩存、RAM)、非易失性存儲器(例如ROM、EEPROM、閃存等等),或兩者的一些組合。存儲器(120)存儲實(shí)現(xiàn)使用上述一種或多種技術(shù)的視頻編碼器和/或解碼器的軟件(180)。
計(jì)算環(huán)境可以具有另外的特征。例如,計(jì)算環(huán)境(100)包括存儲器(140)、一個(gè)或多個(gè)輸入設(shè)備(150)、一個(gè)或多個(gè)輸出設(shè)備(160),以及一個(gè)或多個(gè)通信連接(170)?;ミB機(jī)制(未示出),諸如總線、控制器、或網(wǎng)絡(luò)互連計(jì)算環(huán)境(100)的部件。典型地,操作系統(tǒng)軟件(未示出)提供用于在計(jì)算環(huán)境(100)中執(zhí)行的其他軟件的操作環(huán)境,以及協(xié)調(diào)計(jì)算環(huán)境(100)的部件的活動性。
存儲器(140)可以是可移動或不可移動,以及包括磁盤、磁帶或磁帶盒、CD-ROMs、DVDs或能用來存儲信息和能在計(jì)算環(huán)境(100)中存取的任何其他介質(zhì)。存儲器(140)存儲用于軟件(180)的指令。
輸入設(shè)備(150)可以是觸摸輸入設(shè)備,諸如鍵盤、鼠標(biāo)、筆或跟蹤球、語音輸入設(shè)備、掃描設(shè)備或向計(jì)算環(huán)境(100)提供輸入的另一設(shè)備。對音頻或視頻編碼,輸入設(shè)備(150)可以是聲卡、視頻卡、TV調(diào)諧器卡或接收以模擬或數(shù)字形式的音頻或視頻輸入的類似的設(shè)備,或?qū)⒁纛l或視頻樣本讀入計(jì)算環(huán)境(100)的CD-ROM或CD-RW。輸入單元(160)可以是顯示器、打印機(jī)、揚(yáng)聲器、CD記錄器,或從計(jì)算環(huán)境(100)提供輸出的另一設(shè)備。
通信連接(170)允許通過通信介質(zhì),與另一計(jì)算實(shí)體的通信。通信介質(zhì)傳送信息,諸如計(jì)算機(jī)可執(zhí)行指令、音頻或視頻輸入或輸出,或以調(diào)制數(shù)據(jù)信號的其他數(shù)據(jù)。調(diào)制數(shù)據(jù)信號是具有以將信息編碼在信號中的方式,設(shè)置或改變其一個(gè)或多個(gè)特性信號。舉例來說,且不是限制,通信介質(zhì)包括用電、光、RF、紅外、聲或其他載體實(shí)現(xiàn)的有線或無線技術(shù)。
能在計(jì)算機(jī)可讀介質(zhì)的一般上下文中,描述技術(shù)和工具。計(jì)算機(jī)可讀介質(zhì)是能在計(jì)算環(huán)境內(nèi)存取的任何可用介質(zhì)。舉例來說,且不是限制,通過計(jì)算環(huán)境(100),計(jì)算機(jī)可讀介質(zhì)包括存儲器(120)、存儲裝置(140)、通信介質(zhì)和上述的任何組合。
能在計(jì)算機(jī)可執(zhí)行指令的一般上下文中,描述技術(shù)和方法,諸如包括在程序模塊中、在目標(biāo)實(shí)際或虛擬處理器上的計(jì)算環(huán)境中執(zhí)行的那些指令。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、庫、對象、類、部件、數(shù)據(jù)結(jié)構(gòu)等等??梢匀缭诟鱾€(gè)實(shí)施例中所需的程序模塊那樣,組合或分離程序模塊的功能性??梢栽诰植炕蚍植际接?jì)算環(huán)境內(nèi),執(zhí)行用于程序模塊的計(jì)算機(jī)可執(zhí)行指令。
為了說明,詳細(xì)的描述使用術(shù)語,類似“信號”、“確定”和“應(yīng)用”來描述計(jì)算環(huán)境中的計(jì)算機(jī)操作。這些術(shù)語是用于由計(jì)算機(jī)執(zhí)行的操作的高級抽象,以及不應(yīng)當(dāng)與由人執(zhí)行的動作混淆。對應(yīng)于這些術(shù)語的實(shí)際計(jì)算機(jī)操作根據(jù)實(shí)現(xiàn)改變。
II.示例性視頻編碼器和視頻解碼器圖2是通用視頻編碼器系統(tǒng)(200)的框圖,結(jié)合該系統(tǒng),可以實(shí)現(xiàn)各個(gè)所述實(shí)施例。圖4表示在一層空間分解后,具有四層時(shí)間分解的通用編碼器(400)。圖3是通用視頻解碼器系統(tǒng)(300)的框圖,結(jié)合該系統(tǒng),可以實(shí)現(xiàn)各個(gè)所述實(shí)施例。圖5表示具有四層(反)時(shí)間分解和兩層(反)空間分解的組合編碼器/解碼器系統(tǒng)(500)。
在編碼器和解碼器內(nèi)的模塊間所示的關(guān)系表示編碼器和解碼器中的信息的主流動,為簡化起見,未示出其他關(guān)系。特別地,除運(yùn)動信息外,圖2和3不表示用于視頻序列、幀、宏塊、塊等等的編碼器設(shè)定值、模式、表等等的輔助信息。可能在輔助信息的熵編碼后,在輸出比特流中發(fā)送這些輔助信息。
根據(jù)所需的實(shí)現(xiàn)和壓縮類型,能增加、省略在圖中所示的編碼器或解碼器的模塊,分成多個(gè)模塊,與其他模塊組合,和/或替換類似模塊。在另一實(shí)施例中,具有不同編碼器和/或模塊的其他配置的編碼器或解碼器執(zhí)行一個(gè)或多個(gè)所述技術(shù)。例如,盡管圖2表示在編碼器系統(tǒng)(200)中,空間分解(230)在時(shí)間分解(210)下游,編碼器系統(tǒng)(200)可以替代或另外在開始時(shí)間分解(210)前包括一層或多層空間分解。在這種情況下,相應(yīng)的解碼器系統(tǒng)(300)可以包括在逆時(shí)間分解(310)后的一層或多層逆空間分解。
3D子帶視頻編碼實(shí)現(xiàn)可與以中間或高比特率的現(xiàn)有技術(shù)不可縮放視頻編碼(例如,每H.264或VC-1標(biāo)準(zhǔn))相比的性能。然而,與傳統(tǒng)的不可縮放方法相比,花費(fèi)在3D子帶視頻編碼中的編碼運(yùn)動矢量上的比特量相當(dāng)大。因此,3D子帶視頻編碼在低比特率時(shí),通常比不可縮放方法執(zhí)行更槽,其中,花費(fèi)在編碼運(yùn)動矢量上的比特占了較大百分比的總比特率。
A.示例性視頻編碼器3D子帶視頻編碼是通過采用視頻的多級時(shí)間/空間子帶分解的提供多級空間和/或時(shí)間可縮放性的巧妙方法。圖2示例說明一般3D子帶視頻編碼方案(200)。編碼器(200)接收一系列視頻圖像(205)(例如逐行視頻幀、隔行視頻幀或隔行視頻幀場),以及產(chǎn)生壓縮視頻信息(295)作為輸出。視頻編碼器的特定實(shí)施例通常使用通用編碼器(200)的變化或補(bǔ)充版本。
編碼器(200)通過時(shí)間子帶變換(210),分解視頻信號。圖2表示用于單級時(shí)間分解成低分辨率子帶和高分辨率子帶的輸出,但時(shí)間分解可以包括4,5或一些其他級數(shù)的分解。
在圖2中,時(shí)間分解(210)是運(yùn)動補(bǔ)償時(shí)間濾波(“MCTF”),以便編碼器(200)執(zhí)行運(yùn)動估計(jì)(220)以便計(jì)算用于視頻信號的運(yùn)動信息。運(yùn)動估計(jì)(220)的精確策略取決于實(shí)現(xiàn),以及能包括例如子像素細(xì)化、空間檢索模式、考慮實(shí)際或模擬剩余編碼成本的最小化碼率失真函數(shù)、運(yùn)動信息編碼成本、運(yùn)動預(yù)測模式等等后的整數(shù)像素搜索。
在一些實(shí)現(xiàn)中,編碼器(200)在運(yùn)動估計(jì)(220)中,計(jì)算用于運(yùn)動矢量的可變大小塊(從4×4到16×16)的運(yùn)動矢量以及在MCTF中,應(yīng)用這些運(yùn)動矢量。例如,對16×16宏塊,編碼器(200)計(jì)算用于一個(gè)16×16分區(qū)、兩個(gè)16×8分區(qū)、兩個(gè)8×16分區(qū),或四個(gè)8×8分區(qū)的運(yùn)動矢量,其中,每個(gè)8×8可以進(jìn)一步劃分成兩個(gè)8×4分區(qū)、兩個(gè)4×8分區(qū),或四個(gè)4×4分區(qū)。或者,編碼器(200)計(jì)算用于更高空間分辨率視頻(例如CIF)的大塊(例如32×32)的運(yùn)動矢量,以便當(dāng)僅解碼更低空間分辨率視頻(例如QCIF),便于使用運(yùn)動矢量。另外,編碼器(200)計(jì)算用于其他大小塊的運(yùn)動信息。
運(yùn)動估計(jì)(220)和MCTF的運(yùn)動精度由實(shí)現(xiàn)而定。例如,運(yùn)動估計(jì)(220)和MCTF使用四分之一像素運(yùn)動矢量。另外,運(yùn)動估計(jì)(220)和MCTF使用具有一些其他精度的運(yùn)動信息。例如,當(dāng)僅解碼QCIF視頻時(shí),為便于使用四分之一像素運(yùn)動矢量,編碼器(200)計(jì)算用于CIF視頻的半像素運(yùn)動矢量和/或用于4CIF視頻的整數(shù)像素運(yùn)動矢量。
運(yùn)動估計(jì)(220)和MCTF的方向可以向前、向后、雙向或內(nèi)部。在一些實(shí)現(xiàn)中,編碼器(200)將每宏塊的分區(qū)的運(yùn)動估計(jì)(220)和補(bǔ)償方向設(shè)置成向前、向后、雙向或內(nèi)部。另外,編碼器(200)在一些其他級設(shè)置方向和/或不允許一些方向(例如內(nèi)部)。
在一些實(shí)現(xiàn)中,可以填補(bǔ)基準(zhǔn)幀(例如通過簡單重復(fù)填補(bǔ))以允許除基準(zhǔn)幀外的運(yùn)動估計(jì)/補(bǔ)償?;鶞?zhǔn)幀上的子像素內(nèi)插使用雙線性濾波器、雙三次濾波器、Sinc濾波器或一些其他濾波器,生成用于局部運(yùn)動估計(jì)/補(bǔ)償?shù)臉颖局怠T谝恍?shí)現(xiàn)中,編碼器使用重疊塊運(yùn)動補(bǔ)償(“OBMC”)。另外,將運(yùn)動矢量范圍限制到基準(zhǔn)幀邊界內(nèi)和/或不使用OBMC。
下面,使用5/3雙正交小波結(jié)構(gòu),描述MCTF的幾個(gè)例子。另外,編碼器(200)執(zhí)行另一數(shù)字和/或時(shí)間子帶變換類型(210)(例如Haar)和/或運(yùn)動估計(jì)(220)。圖2表示時(shí)間變換全空間分辨率視頻的空間域MCTF。另外,編碼器(200)包括在時(shí)間分解(210)后的一個(gè)或多個(gè)空間子帶變換,以及MCTF是來自初始空間分解的空間子帶上的帶內(nèi)MCTF,在時(shí)間變換(210)后,編碼器(200)應(yīng)用一個(gè)或多個(gè)二維(“2D”)空間子帶變換(230)以便進(jìn)一步分解信號。圖2表示用于2D空間分解的二級的輸出,其中,進(jìn)一步水平和垂直分解具有水平和垂直的低空間分辨率的子帶。例如,2D空間子帶變換是二重離散小波變換(“DWT”)。小波濾波器可以是例如9/7DWT濾波器或5/3DWT濾波器。另外,編碼器(200)執(zhí)行另一數(shù)字(例如3或4)空間子帶變換和/或執(zhí)行另一類型的空間子帶變換(230)。
在時(shí)間變換(210)和空間變換(230)后,信號組織成不同空間-時(shí)間子帶,對應(yīng)于輸入視頻(205)的不同空間-時(shí)間分辨率。編碼器(200)熵編碼(240)子帶。例如,編碼器(200)在一些實(shí)現(xiàn)中,使用具有最佳截?cái)嗟?D嵌入塊編碼(“EBCOT”)。JPEG200使用EBCOT的2D形式,以及在這些實(shí)現(xiàn)中,編碼器(200)基本上將2D EBCOT擴(kuò)展成3D編碼。由時(shí)間和空間變換生成的每個(gè)子帶劃分成獨(dú)立地編碼的3D編碼塊。對每個(gè)編碼塊,編碼器(200)使用位平面編碼和基于上下文的算術(shù)編碼。另外,編碼器(200)使用用于子帶信息的熵編碼的一些其他形式。
編碼器(200)還編碼(250)運(yùn)動信息(例如運(yùn)動矢量、運(yùn)動模式選擇信息)。例如,編碼器(200)使用一些形式的熵編碼,諸如簡單可變長度編碼以便熵編碼運(yùn)動矢量信息、宏塊的分區(qū),以及運(yùn)動估計(jì)/補(bǔ)償?shù)姆较颉\(yùn)動矢量,編碼器(200)編碼運(yùn)動矢量和其預(yù)測值間的差。使用來自先前編碼/解碼的運(yùn)動矢量或使用一些其他運(yùn)動矢量預(yù)測技術(shù),可以計(jì)算運(yùn)動矢量預(yù)測值另外,編碼器(200)使用用于運(yùn)動信息的其他和/或另外的編碼(250)技術(shù)。
通過子帶變換(210,230)的屬性,編碼器(200)固有地支持空間可縮放性和時(shí)間/幀速率可縮放性。此外,通過子帶系數(shù)的位平面編碼,編碼器(200)通常還支持質(zhì)量/信號噪聲比(“SNR”)可縮放性。
這些可縮放性還用于易出錯網(wǎng)絡(luò),諸如Internet或無線網(wǎng)絡(luò)上的視頻傳輸。可以編碼不同子帶,用于通過不同級誤差校正或傳輸錯誤恢復(fù)能力?;蛘?,可以以不同優(yōu)先級傳送不同子帶,其中網(wǎng)絡(luò)支持優(yōu)先傳輸。
各種可縮放性還幫助不同設(shè)備共享相同壓縮視頻流,即使不同設(shè)備具有不同存儲器資源、計(jì)算功能、顯示大小、可存取帶寬等等。用這種方式,簡化了以不同比特率,編碼視頻的任務(wù)(205)。
多級時(shí)間分解的一個(gè)優(yōu)點(diǎn)是在大的范圍中,采用視頻信號內(nèi)的時(shí)間冗余。前幾級時(shí)間子帶變換能采用相近幀中的時(shí)間冗余,以及最后幾級時(shí)間子帶變換能利用更長距離上的幀中的相關(guān)性。
圖4表示具有四層時(shí)間分解和一層空間分解的示例性3D子帶視頻編碼器(400)?;旧希瑘D4表示圖2中時(shí)間子帶變換(210)的一個(gè)可能擴(kuò)展以及還表示用于不同級時(shí)間分解的數(shù)據(jù)流。圖4還介紹用于時(shí)間和空間分解的新符號。
在圖4中,編碼器(400)將四級時(shí)間子帶變換應(yīng)用于具有每秒f幀的幀速率的視頻。時(shí)間子帶變換的每級Ti將輸入到那一級的信號劃分成兩個(gè)時(shí)間子帶-時(shí)間低通子帶和時(shí)間高通子帶。然后,每個(gè)子帶具有那一級的輸入視頻信號的幀速率的一半。在圖4中,術(shù)語t-Li和t-Hi分別表示在第i級時(shí)間變換Ti后,輸出低通子帶和高通子帶。t-Li和t-Hi具有幀速率f/2i。在圖4中,通過時(shí)間子帶變換Ti+1,幾次迭代分解信號t-Li來采用遠(yuǎn)程相關(guān)性和允許能由解碼器解碼更低速率視頻。
為通過簡單數(shù)值示例說明,假定輸入視頻是每秒30幀(“fps”)的CIF視頻。來自第一時(shí)間分解的輸出低通子帶t-L1是15fps視頻,與來自第一時(shí)間分解的輸出高通子帶t-H1一樣。來自第二時(shí)間分解的輸出子帶t-L2和t-H2為7.5fps視頻,以及來自第三時(shí)間分解的輸出子帶t-L3和t-H3為3.75fps視頻。最后,來自第四時(shí)間分解的輸出子帶t-L4和t-H4為1.875fps視頻。在該例子中,空間分辨率是用于所有輸出低通和高通子帶的CIF。
以不同級估計(jì)幀中的運(yùn)動信息,以及沿當(dāng)前級的運(yùn)動軌跡,執(zhí)行每級的時(shí)間變換。由此,每級時(shí)間分解產(chǎn)生隨后編碼的運(yùn)動矢量。在圖4中,存在對應(yīng)于四級時(shí)間變換的四個(gè)運(yùn)動矢量集。
然后,通過將各個(gè)輸入子帶劃分成低通水平、低通垂直(“LL”)、低通水平、高通垂直(“LH”)、低通水平、高通垂直(“LH”)、高通水平、低通垂直(“HL”)和高通水平、高通垂直(“HH”)子帶的單級2D空間子帶變換S1,分解輸出時(shí)間低通子帶t-L4和輸出時(shí)間高通子帶t-H1,t-H2,t-H4和t-H4。另外,編碼器(400)包括時(shí)間分解級前后的空間分解的其他和/或另外級,或編碼器(400)使用不同空間分解圖。
續(xù)用于圖4的數(shù)例,低通子帶t-L4具有CIF空間分辨率。通過單級2D空間子帶變換S1,將時(shí)間子帶t-L4分解成LL子帶、LH子帶、HL子帶和HH子帶。每個(gè)LL、LH、HL和HH子帶的每一個(gè)具有QCIF分辨率。類似地,時(shí)間高通子帶t-H1,t-H2,t-H3和t-H4的每一個(gè)從CIF分辨率開始以及分解成QCIF分辨率LL、LG、HL和HH子帶。
然后,熵編碼和輸出空間分解的子帶。
B.示例性視頻解碼器圖3示例說明通用3D子帶視頻解碼方案(300)。解碼器(300)接收壓縮的視頻信息(395)和將視頻圖像序列(305)(例如逐行視頻幀、隔行視頻幀或隔行視頻幀場)產(chǎn)生為輸出。視頻解碼器的特定實(shí)施例通常使用通用解碼器(300)的變化或互補(bǔ)版本。
解碼器(300)熵解碼(340)用于一些或全部空間-時(shí)間子帶的信息(395)。視頻信息(395)仍然組織成不同空間-時(shí)間子帶,其對應(yīng)于輸入視頻(205)的不同空間-時(shí)間分辨率。用這種方式,解碼器(300)可以在不同空間-時(shí)間分辨率間選擇,忽視壓縮比特流(395)部分,或解碼器(300)可以簡單地解碼(340)解碼器(300)實(shí)際上接收的壓縮比特流(395)的子集。解碼器(300)基本上執(zhí)行在用于解碼器(300)解碼的信息的編碼器(200)中執(zhí)行熵編碼(240)的逆操作。例如,解碼器(300)接收和解碼(340)使用3D EBCOT編碼的信息。另外,解碼器(300)使用用于一些或所有子帶信息的一些其他形式的熵解碼。
當(dāng)解碼器(300)執(zhí)行逆MCTF(“IMCTF”)時(shí),在執(zhí)行在編碼器(200)中執(zhí)行的編碼(250)的逆操作的許多情況下,解碼器(300)解碼(350)運(yùn)動信息(例如運(yùn)動矢量、運(yùn)動模式選擇信息)。例如,解碼器(300)使用一些形式的熵解碼,諸如解碼簡單可變長度編碼。對運(yùn)動矢量,解碼器(300)使用中值預(yù)測或一些其他運(yùn)動矢量預(yù)測技術(shù),計(jì)算運(yùn)動矢量預(yù)測,然后,解碼器(300)將運(yùn)動矢量預(yù)測和運(yùn)動矢量微分結(jié)合。另外,解碼器(300)使用其他和/或另外的解碼(350)技術(shù)。
解碼器(350)應(yīng)用一個(gè)或多個(gè)2D逆空間子帶變換(330)以便空間重構(gòu)視頻。圖3表示用于兩級2D逆空間分解的輸入和輸出。例如,2D逆空間子帶變換是二元逆DWT(“IDWT”)。另外,解碼器(300)執(zhí)行另一數(shù)字或類型的逆空間子帶變換(330)。
解碼器(300)通過逆時(shí)間子帶變換(310),進(jìn)一步重構(gòu)該視頻信號。圖3表示由低分辨率子帶和高分辨率子帶,用于單級時(shí)間重構(gòu)的輸出,但時(shí)間合成可以包括4,5或一些其他的綜合。
在圖3中,逆空間變換(310)使用IMCTF,以及解碼器(300)使用用于視頻信號的解碼(350)的運(yùn)動信息,執(zhí)行運(yùn)動補(bǔ)償。通常,運(yùn)動信息和IMCTF的屬性(例如用于運(yùn)動補(bǔ)償?shù)姆謪^(qū)、運(yùn)動矢量精度、運(yùn)動補(bǔ)償?shù)姆较?、使用基?zhǔn)幀填補(bǔ)、子像素內(nèi)插、使用OBMC)與在相應(yīng)的編碼器(200)中相同以及在壓縮視頻比特流(395)中發(fā)信號。IMCTF的幾個(gè)例子如下所述。另外,解碼器(300)執(zhí)行其他數(shù)字和/或類型的逆時(shí)間子帶變換(310)和/或運(yùn)動補(bǔ)償。圖3表示空間域IMCF,其中使用逆時(shí)間變換,重構(gòu)全空間分辨率視頻。另外,解碼器(300)執(zhí)行帶內(nèi)MCTF。
返回到圖4的編碼器(400),相應(yīng)的解碼器能僅從t-Li重構(gòu)f/2i幀速率視頻。或者,解碼器能從t-Li和t-Hi兩者重構(gòu)f/2i-1幀速率視頻(包括后續(xù)時(shí)間高通子帶信息t-Hi+1等等)。
圖5表示在編碼器中,具有四層時(shí)間分解和兩層空間分解,以及解碼器中相應(yīng)數(shù)目的逆變換的示例性3D子帶視頻編碼器-解碼器(“編解碼器”)系統(tǒng)(500)。基本上,圖5表示圖2和3的編碼器(200)和解碼器(300)的其他可能版本。圖5還介紹用于時(shí)間和空間分解以及它們的逆操作的另一、更簡單的符號。
在圖5中,編碼器將四級時(shí)間子帶變換Ti(即Ti,T2,T3和T4)應(yīng)用于視頻以及將兩級空間子帶變換Si(即S1和S2)應(yīng)用于時(shí)間分解的結(jié)果。然后,編碼器執(zhí)行熵編碼E。解碼器執(zhí)行熵解碼E-1和對熵解碼的結(jié)果執(zhí)行兩級逆空間子帶變換Si-1(即S2-1和S1-1)。然后,解碼器將四級逆時(shí)間子帶變換Ti-1(即T4-1,T3-1,T2-1和T1-1)應(yīng)用于空間重構(gòu)的結(jié)果。
III.運(yùn)動補(bǔ)償時(shí)間濾波為提高編碼效率,在時(shí)間分解中應(yīng)用運(yùn)動對準(zhǔn)的時(shí)間變換(在此另外稱為運(yùn)動補(bǔ)償?shù)臅r(shí)間濾波(“MCTF”)以便有效地去除時(shí)間冗余。MCTF的主要概念是對準(zhǔn)不同幀中的像素同時(shí)應(yīng)用時(shí)間分解。與其他編碼方案相比,運(yùn)動對準(zhǔn)的3D編碼方案能提供可縮放性特性和非受損的,或甚至更好編碼效率。
在各個(gè)MCTF方案中,基于提升的MCTF提供靈活和高效的實(shí)現(xiàn)。圖6示例說明在用于5/3雙正交小波的基于提升的MCTF方案的輸入視頻幀、時(shí)間低通幀和時(shí)間高通幀間的關(guān)系。
圖6表示輸入到MCTF中的四個(gè)初始的、索引視頻幀的像素列。(輸入幀本身可以是例如來自MCTF的先前級的時(shí)間低通子帶)。圖6中基于提升的小波變換包含兩個(gè)基本級運(yùn)動補(bǔ)償預(yù)測(“MCP”)級和運(yùn)動補(bǔ)償更新(“MCU”)級。
在預(yù)測級中,對奇數(shù)幀(例如幀I2i+1),來自一個(gè)或多個(gè)相鄰偶數(shù)(例如I2i和I2i+2)的運(yùn)動補(bǔ)償表示用于奇數(shù)幀的像素的運(yùn)動補(bǔ)償?shù)念A(yù)測。高通幀(例如Hi)基本是奇數(shù)幀和奇數(shù)幀運(yùn)動補(bǔ)償預(yù)測間的差值。
圖7示例說明在編碼器中,具有提升的傳統(tǒng)MCTF,以及圖8示例說明解碼器中相應(yīng)的IMCTF。為了一致性,在圖7和8以及應(yīng)用的其他地方,偶視頻幀是用于運(yùn)動補(bǔ)償預(yù)測的基準(zhǔn)和用于低通幀的形成,以及奇視頻幀是MCP的主體和用于形成高通視頻幀。另外,奇數(shù)和偶數(shù)幀的角色可以切換。
在圖7的MCTF(700)中,偶數(shù)視頻幀用作MCP(710)中的基準(zhǔn)。對特定奇數(shù)視頻幀I2i+1,編碼器由相鄰的偶數(shù)幀I2i和I2i+2的一個(gè)或兩個(gè),計(jì)算運(yùn)動補(bǔ)償預(yù)測。預(yù)測和初始奇數(shù)幀I2i+1間的差值是時(shí)間高通幀Hi。
高通幀Hi用作MCU(720)中的參考。對特定偶數(shù)視頻幀I2i,編碼器由用于相鄰奇數(shù)視頻幀的Hi-1和Hi中的一個(gè)或兩個(gè),計(jì)算運(yùn)動補(bǔ)償?shù)母?。更新和初始偶?shù)幀I2i的組合是時(shí)間低通幀Li。
例如,假定幀I0,I1,…,I2n-1的視頻序列將由圖7的MCTF(700)處理。預(yù)測模塊(710)由連續(xù)偶數(shù)幀I2i和I2i+2,計(jì)算用于奇數(shù)幀I2i+1的預(yù)測P(I2i+1)如下。
P(I2i+1)=12(MC(I2i,MV2i+1->2i)+MC(I2i+2,MV2i+1->2i+2))---(1)]]>其中,MV2i+1->2i是指從幀I2i+1到幀I2i的運(yùn)動矢量,MV2i+1->2i+2具有類似含義,以及MC()是指由相鄰偶數(shù)幀生成至少部分當(dāng)前奇數(shù)幀的預(yù)測的運(yùn)動補(bǔ)償。(方程式(1)是指示例說明用于宏塊的MCP、宏塊分區(qū)或應(yīng)用運(yùn)動矢量的奇數(shù)幀的其他部分,以及對奇數(shù)幀的其他宏塊、宏塊分區(qū)等等,重復(fù)這種MCP)。在一些情況下,當(dāng)計(jì)算運(yùn)動補(bǔ)償預(yù)測(如在Haar變換中)時(shí),編碼器僅考慮相鄰偶數(shù)幀的一個(gè)(不是兩個(gè)),以及方程式(1)中MC貢獻(xiàn)和加權(quán)的相應(yīng)改變,或編碼器使用內(nèi)壓縮,編碼部分或所有奇數(shù)幀。結(jié)合嵌入的基層編解碼器,編碼器可以將除相鄰奇數(shù)幀的幀用作基準(zhǔn)幀,如下所述。
然后,預(yù)測模塊(710)計(jì)算高通幀Hi如下。
Hi=I2i+1-P(I2i+1) (2)在更新步驟(720)中,遵循預(yù)測步驟(710)以完成一級時(shí)間變換,編碼器由相鄰高通幀,計(jì)算用于奇數(shù)幀I2i的更新U(I2i)如下。
U(I2i)=14((MC(Hi-1,MV2i->2i-1)+MC(Hi,MV2i->2i+1))---(3)]]>其中,MC()是指由相鄰高通幀,生成用于偶數(shù)幀的更新的至少一部分的運(yùn)動補(bǔ)償。作為簡單近似,用于MCU的運(yùn)動矢量被導(dǎo)出作為用于MCP的相應(yīng)運(yùn)動矢量的逆。(方程式(3)是指表示用于宏塊、宏塊分區(qū),或應(yīng)用運(yùn)動矢量的其他部分的偶數(shù)幀,以及對其他宏塊、宏塊分區(qū)等等,重復(fù)這種MCU)。在一些情況下,通過方程式(3)中的MC貢獻(xiàn)和加權(quán)的相應(yīng)變化,當(dāng)計(jì)算運(yùn)動補(bǔ)償更新時(shí),編碼器僅考慮高通幀的一個(gè)(不是兩個(gè)),或編碼器不考慮高通幀的任何一個(gè)。
然后,編碼器生成低通幀如下。
Li=I2i+U(I2i) (4)在圖8的IMCTF(800)中,將高通幀Hi用作MCU(820)中的基準(zhǔn)。對特定偶數(shù)視頻幀I2i,解碼器由用于相鄰奇數(shù)視頻幀的高通幀Hi-1和Hi的一個(gè)或兩個(gè),計(jì)算運(yùn)動補(bǔ)償?shù)母隆S糜谂紨?shù)幀I2i的更新和相鄰時(shí)間低通幀Li間的差值是重構(gòu)的偶數(shù)幀I2i。
當(dāng)重構(gòu)時(shí),將偶數(shù)視頻幀用作MCP(810)中的基準(zhǔn)。對特定奇數(shù)視頻幀I2i+1解碼器由相鄰重構(gòu)的偶數(shù)幀I2i和I2i+2的一個(gè)或兩個(gè),計(jì)算運(yùn)動補(bǔ)償預(yù)測。用于奇數(shù)幀I2i+1的預(yù)測和相應(yīng)時(shí)間高通幀Hi的組合是重構(gòu)的奇數(shù)幀I2i+1。
在編碼器中,預(yù)測步驟通常嘗試最小化或降低編碼高通幀(在時(shí)間分解和熵編碼中)連同用于預(yù)測的運(yùn)動矢量所需的比特率。因此,高通幀Hi基本上是來自從相關(guān)的偶數(shù)索引的初始視頻幀的相應(yīng)的奇數(shù)索引的輸入視頻I2i+1的雙向MCP(或向前MCP,或向后MCP,視具體情況而定)的剩余量。然后,用預(yù)測剩余量,更新初始偶數(shù)索引幀I2i作為低通幀。
高通幀的能量由運(yùn)動模型的成功而定,運(yùn)動模型由運(yùn)動的復(fù)雜度、幀間的運(yùn)動均勻性,以及運(yùn)動模型本身而定。如果運(yùn)動預(yù)測準(zhǔn)確,預(yù)測余量通常具有小的量值。即使當(dāng)真正俘獲運(yùn)動時(shí),然而,更新步驟仍然有用,因?yàn)樗鼈兡芙档陀捎谘剡\(yùn)動軌跡的低通濾波的噪聲和混疊。通常,更新步驟便于移除低通幀中的高頻部分,從而提高編碼效率。
如果運(yùn)動預(yù)測不精確(例如由于復(fù)雜度、不可預(yù)測運(yùn)動或運(yùn)動模型本身的缺點(diǎn)),對象特征可以未對準(zhǔn),引起幾個(gè)問題。不精確運(yùn)動預(yù)測會導(dǎo)致多個(gè)邊緣以及增加高通子帶幀中的能量。這不僅損害用于編碼高通子帶本身的壓縮性能,而且在更新步驟期間,還將寄生邊緣和輪廓增加到時(shí)間低通幀上。
一般地說,當(dāng)允許時(shí)間可縮放性時(shí),更新步驟能影響解碼性能。特別地,由于有限信道帶寬和設(shè)備能力,當(dāng)部分或完全丟失一些時(shí)間高通幀時(shí),解碼器的問題是可能的。(通常,通過保留時(shí)間低通子帶同時(shí)丟棄時(shí)間變換域中的高通子帶,實(shí)現(xiàn)IMCF中的時(shí)間可擴(kuò)展性。)當(dāng)運(yùn)動預(yù)測不有效時(shí),高通幀在編碼中的更新步驟期間,對低通幀(即低幀速率視頻)產(chǎn)生偽像。當(dāng)僅由時(shí)間低通幀重構(gòu)視頻時(shí),通過解碼器中的MCU,未去除高通貢獻(xiàn)中的任何一個(gè)?;蛘?,如果粗糙地量化時(shí)間高通幀信息,時(shí)間低通幀的質(zhì)量會受損,因?yàn)樵诮獯a器中的MCU,僅近似地去除來自高通幀的貢獻(xiàn)。從而不能去除低通幀中的重影,即使當(dāng)將更多位分配到低通幀的編碼。
一種可能的解決方案是在編碼器中的基于提升的MCTF中,跳過更新步驟。這能顯著地降低整個(gè)編碼性能,然而,因?yàn)楦虏襟E能降低由于沿運(yùn)動軌跡的低通濾波的噪聲和混疊。因此,更新步驟能通過在時(shí)間高通子帶和時(shí)間低通子帶中擴(kuò)散失真,減少整個(gè)失真。
IV.MCTF和IMCTF中的自適應(yīng)更新階段在一些實(shí)施例中,可縮放視頻編碼器自適應(yīng)地執(zhí)行基于提升的MCTF中的更新步驟和/或可縮放視頻解碼器自適應(yīng)執(zhí)行IMCTF中的更新步驟。通過利用人的視覺系統(tǒng)的屬性,自適應(yīng)更新步驟提高由時(shí)間低通子帶解碼的低幀速率視頻的可感知視覺質(zhì)量。同時(shí),與傳統(tǒng)的更新步驟相比,自適應(yīng)更新步驟維持由時(shí)間低通和時(shí)間高通子帶解碼的更高幀速率的令人滿意的性能。
A.示例性編碼器和解碼器自適應(yīng)更新方案實(shí)現(xiàn)(1)盡可能增加初始更新信息,以及(2)同時(shí),減少由更新步驟引入的視覺偽像的兩種矛盾目標(biāo)。
圖9描述在編碼器中,具有自適應(yīng)更新操作的MCTF框架(900),以及圖10描述在解碼器中,具有自適應(yīng)更新操作的IMCTF框架(1000)。例如,框架(900,1000)包含在編碼器和/或解碼器中,諸如參考圖2-5所述。另一種方式,自適應(yīng)更新操作包含在另一編碼器和/或解碼器中。
參考圖9,MCTF框架(900)包括預(yù)測(910)和更新(920)階段。這些階段基本上參考圖7所述處理。
MCTF框架中(900)使用人的視覺系統(tǒng)(“HVS”)模型(930)來在視覺質(zhì)量方面,估計(jì)來自預(yù)測步驟的信號。例如,編碼器根據(jù)HVS模型(930),估計(jì)偶數(shù)幀中的信息。在一些實(shí)現(xiàn)中,HVS模型(930)使用最小可察覺差(“JND”)度量。在其他實(shí)現(xiàn)中,HVS模型(930)使用其他可感知標(biāo)準(zhǔn)。
HVS模型(930)向根據(jù)閾值信息,估計(jì)和應(yīng)用更新(920)階段的結(jié)果的閾值(940)階段提供閾值信息。例如,HVS模型(930)提供根據(jù)模型估計(jì)的每個(gè)偶數(shù)幀的像素的閾值。在更新操作中閾值和它們的用途的各個(gè)例子描述如下。另外,HVS模型(930)提供不同閾值信息。
閾值(940)階段的結(jié)果是在尤其可感知失真的圖像部分中,限制更新信息,而對其他部分的圖像,不限制更新信息。從而根據(jù)人的感覺,在將更新信息應(yīng)用于偶數(shù)幀前,自適應(yīng)移除或限制更新信息。
參考圖10,IMCTF框架(1000)也包括預(yù)測(1010)和更新(1020)階段。這些階段基本上如參考圖8所述處理。
IMCTF框架(1000)使用HVS模型(1030)來根據(jù)視覺質(zhì)量估計(jì)信號。例如,解碼器根據(jù)HVS模型(1030),估計(jì)低通幀中的信息。在一些實(shí)現(xiàn)中,HVS模型(1030)使用最小可察覺差(“JND”)度量。在其他實(shí)現(xiàn)中,HVS模型(1030)使用其他感知標(biāo)準(zhǔn)。
HVS模型(1030)將閾值信息提供到閾值(1040)階段,其根據(jù)閾值信息,估計(jì)和應(yīng)用更新(1020)階段的結(jié)果。例如,HVS模型(1030)提供根據(jù)模型估計(jì)的、每低通幀的像素的閾值。閾值和它們的用途的各個(gè)例子如下所述。另外,HVS模型(1030)提供不同閾值信息。
比較圖9和10,將編碼器端的HVS模型(930)應(yīng)用于偶數(shù)幀,而將解碼器端的HVS模型(1030)應(yīng)用于低通幀。即使在編碼器端和解碼器端使用相同的HVS模型(930,1030),閾值可以稍微不同。由于對相應(yīng)的偶數(shù)和低通幀,閾值很可能非常類似,以及由于編碼器和解碼器間的偏差對幀是局部的(與隨時(shí)間累積和變得更糟相比),這是可容忍的。
此外,在圖9和10的框架(900,1000)中,在每級MCTF/IMCTF,計(jì)算閾值。同樣地,即使對時(shí)間相應(yīng)幀,在不同MCTF/IMCTF級,閾值可以不同。
因此,在一些實(shí)現(xiàn)中,編碼器端MCTF(900)和解碼器端IMCTF(1000)在HVS模型(930,1030)中應(yīng)用相同的JND度量。沒有與閾值或閾值操作有關(guān)的編碼開銷,因?yàn)樵诰幋a器和解碼器中,獨(dú)立地計(jì)算和應(yīng)用閾值。另外,編碼器信號閾值信息或?qū)獯a器的判決應(yīng)用了與編碼器不同的HVS模型。
B.示例性HVS模型和閾值操作編碼器中的自適應(yīng)更新步驟可以通常表示如下Li=I2i+f(U2i)。函數(shù)f()是將用于偶數(shù)幀I2i的更新U2i的自適應(yīng)函數(shù)。Li是最終所得的低通幀。
自適應(yīng)函數(shù)利用人的視覺模型的結(jié)束和開發(fā)。已經(jīng)實(shí)施廣泛研究來開發(fā)基于人的視覺系統(tǒng)的計(jì)算模型。在各個(gè)模型中,感知標(biāo)準(zhǔn)基于HVS的靈敏度與空間和時(shí)間域中的可變對比級和亮度變化不一致的觀察。
在HVS的許多計(jì)算模型中,JND廣泛用在感覺編碼和圖像水印中。JND使用定義為增加干擾直到對人類來說,它變得恰可辨別為止的亮度邊緣的幅度的函數(shù)的可見度閾值。對于更多信息,見A.N.Netravali和B.Prasada,“AdaptiveQuantization of Picture Singals Using Spatial Masking”,Proc.IEEE.vol.65,pp.536-548(1997年4月)。JND與HVS的紋理掩模屬性密切相關(guān)。根據(jù)該準(zhǔn)則,在平坦或缺少紋理的區(qū)域,噪聲更可見,以及在具有邊緣和紋理的區(qū)域,噪聲不太可見。
JND閾值是圖像相關(guān)的。只要更新信息仍然在JND閾值下,在低通幀中實(shí)現(xiàn)“更新剩余量”透明度。同樣地,JND與在自適應(yīng)更新方案中的HVS模型一樣工作良好。
在自適應(yīng)更新方案的一種實(shí)現(xiàn)中,JND模型定義如下。
JNDx(i,j)=1-11+θσx2(i,j)---(5)]]>其中,σx2(i,j)表示在具有坐標(biāo)(i,j)的像素上集中的窗口中的圖像x的局部方差。JND可以由僅亮度樣本計(jì)算以便降低計(jì)算復(fù)雜度?;蛘?,可以由亮度和色度樣本計(jì)算JND。窗口的大小由實(shí)現(xiàn)而定。一種示例性窗口大小為3×3,以及另一個(gè)是5×5。θ是能為特定圖像選擇的調(diào)諧參數(shù)。這與噪聲可見度函數(shù)值是相同的,假定圖像是非平穩(wěn)Gaussian。調(diào)諧參數(shù)θ在JND定義中,起對比度調(diào)整的作用。為使調(diào)諧參數(shù)θ與圖像相關(guān),可以計(jì)算如下θ=Dσxmax2---(6)]]>其中σxmax2是用于指定圖像的最大局部方差,以及D∈[50,100]是實(shí)驗(yàn)上確定的參數(shù)。根據(jù)該JND定義,由于σx2(i,j)很小,在平坦區(qū)域中,JND值很小,以及反之亦然。
表示編碼器中的自適應(yīng)更新的更精確方法是Li=I2i+f(I2i,U2i) (7)其中f(I2i,U2i)=U2i|U2i|<JNDI2i·SJNDI2i·SU2i≥JNDI2i·S-JNDI2i·SU2i≤-JNDI2i·S---(8)]]>JNDI2i是如上定義的JNDx(i,j)的例子,以及S表示實(shí)現(xiàn)相關(guān)的強(qiáng)度因素,例如12.5。JND函數(shù)與可視掩模相關(guān)的局部幀特性自適應(yīng)。如果局部強(qiáng)度方差大,JND相對大(根據(jù)方程式(5)接近1),表示繁變或細(xì)節(jié)區(qū)域。另一方面,如果局部強(qiáng)度方差小,JND相對小(根據(jù)方程式(5)接近0),表示平坦區(qū)域。由將在編碼器中更新的偶數(shù)指數(shù)幀和解碼器中的偶數(shù)指數(shù)幀(實(shí)際上,其低通圖像近似)來計(jì)算它。因此,由于高通幀,自適應(yīng)更新能有效地避免重影偽像以及提高用于時(shí)間可縮放性的編碼性能。
如上所述,在一些實(shí)現(xiàn)中,編碼器和解碼器使用相同的JND度量和閾值(在方程式(8)中,隨指數(shù)值變化等等),以及沒有編碼和遞送到用于自適應(yīng)更新操作的開銷。盡管編碼器和解碼器在不同圖像上操作(編碼器上的初始幀和解碼器上的重構(gòu)低通版本),經(jīng)驗(yàn)結(jié)果已經(jīng)顯示解碼器上的最終更新掩碼非常接近編碼器。
另外,編碼器和/或解碼器使用JND的另一定義、另一HVS模型和/或其他閾值操作。例如,可以使用其他和/或另外的參數(shù)。
C.示例性自適應(yīng)更新技術(shù)圖11至13示例說明用于自適應(yīng)更新操作的技術(shù)(1100,1200,1300)。編碼器,諸如參考圖9所述,執(zhí)行圖11和12所述的(1100,1200),以及解碼器,諸如參考圖10所述,執(zhí)行如圖11和13所示的技術(shù)(1100,1300)。另外,另一編碼器或解碼器執(zhí)行技術(shù)(1100,1200,1300)。
圖11表示用于自適應(yīng)更新操作的簡化、通用的技術(shù)(1100)。編碼器或解碼器計(jì)算(1120)用于自適應(yīng)更新的閾值。然后,編碼器或解碼器執(zhí)行(1160)自適應(yīng)更新操作。
圖12表示用于編碼器中的自適應(yīng)更新操作的詳細(xì)技術(shù)(1200),包括用于MCP的另外的細(xì)節(jié)。
對將計(jì)算低通幀的當(dāng)前偶數(shù)幀,編碼器計(jì)算(1220)閾值。例如,編碼器計(jì)算用于當(dāng)前偶數(shù)幀的像素的JND,如在前一章節(jié)中所述。另外,編碼器使用一些其他度量計(jì)算(1220)閾值。
對MCP,編碼器由當(dāng)前偶數(shù)幀計(jì)算(1230)一個(gè)或多個(gè)運(yùn)動補(bǔ)償預(yù)測,例如向前和/或向后預(yù)測相鄰奇數(shù)幀。編碼器可以由其他偶數(shù)幀,計(jì)算用于相鄰奇數(shù)幀的一個(gè)或多個(gè)其他運(yùn)動補(bǔ)償預(yù)測(或可以由較早的偶數(shù)幀先前計(jì)算的一個(gè)預(yù)測)。然后,編碼器由運(yùn)動補(bǔ)償預(yù)測和它們的相應(yīng)的相鄰奇數(shù)幀,計(jì)算(1240)一個(gè)或多個(gè)高通幀。
接著,編碼器由一個(gè)或多個(gè)高通幀,計(jì)算(1250)用于當(dāng)前偶數(shù)幀的運(yùn)動補(bǔ)償更新。例如,編碼器相反地應(yīng)用在MCP(1230)期間由當(dāng)前偶數(shù)幀計(jì)算的運(yùn)動信息。另外,編碼器使用不同機(jī)制來計(jì)算(1250)更新。
然后,編碼器對當(dāng)前偶數(shù)幀執(zhí)行(1260)自適應(yīng)更新,導(dǎo)致低通幀。例如,如在先前章節(jié)中,編碼器使用運(yùn)動補(bǔ)償更新和JND閾值,執(zhí)行自適應(yīng)閾值操作。另外,編碼器使用不同閾值機(jī)制,執(zhí)行(1260)自適應(yīng)更新。
編碼器確定(1290)是否繼續(xù)MCTF,以及如果是,繼續(xù)下一偶數(shù)幀。
圖13表示用于解碼器中的自適應(yīng)更新操作的詳細(xì)技術(shù)(1300),包括用于以不同幀速率解碼的單獨(dú)的路徑。
解碼器確定(1310)用于解碼的時(shí)間分辨率。可以根據(jù)由解碼器實(shí)際上接收多少信息(例如在易于出錯信道上的時(shí)間低通信息)確定的,或用一些其他方式確定的用戶級設(shè)定值或一些其他設(shè)定值,確定時(shí)間分辨率。另外,解碼器可以具有僅一個(gè)解碼路徑。例如,一個(gè)解碼器可以包括低幀速率路徑,而另一解碼器包括高幀速率路徑,適合各個(gè)解碼器的資源。
在低幀速率路徑,解碼器由所接收的低通幀信息,(例如將低通幀用作當(dāng)前幀),計(jì)算(1312)當(dāng)前偶數(shù)幀。不執(zhí)行自適應(yīng)更新操作,因?yàn)楹雎曰虿唤邮崭咄ㄐ畔⒑瓦\(yùn)動信息。即使在缺少這些信息的情況下,由于在編碼期間自適應(yīng)更新操作提高了當(dāng)前偶數(shù)幀的質(zhì)量(與傳統(tǒng)的IMCTF相比),因?yàn)樵诰幋a期間限制了將顯著的失真添加到偶數(shù)幀。
在高幀速率路徑中,對當(dāng)前偶數(shù)幀,解碼器由解碼器接收的相應(yīng)的低通幀,計(jì)算(1320)閾值。例如,解碼器計(jì)算用于低通幀的像素的JND,如在前章節(jié)中所述。另外,解碼器使用一些其他度量,計(jì)算(1320)閾值。
解碼器從一個(gè)或多個(gè)高通幀,計(jì)算(1330)用于當(dāng)前偶數(shù)幀的運(yùn)動補(bǔ)償更新。例如,解碼器相反地應(yīng)用由當(dāng)前偶數(shù)幀,在MCP(1230)期間計(jì)算的運(yùn)動信息。另外,解碼器使用不同機(jī)制來計(jì)算(1330)更新。
然后,解碼器對低通幀執(zhí)行(1360)自適應(yīng)更新以便重構(gòu)當(dāng)前偶數(shù)幀。例如,解碼器使用更新和JND閾值,執(zhí)行自適應(yīng)閾值操作,如在前章節(jié)中所述。另外,解碼器使用不同閾值機(jī)制,執(zhí)行(1360)自適應(yīng)更新。
對MCP,解碼器從重構(gòu)的當(dāng)前偶數(shù)幀,計(jì)算(1370)一個(gè)或多個(gè)運(yùn)動補(bǔ)償預(yù)測,例如向前和/或向后預(yù)測相鄰奇數(shù)幀。(已經(jīng)由從早先的偶數(shù)幀先前計(jì)算了用于相鄰奇數(shù)幀的其他運(yùn)動補(bǔ)償預(yù)測)。然后,解碼器從用于奇數(shù)幀和相應(yīng)的高通幀的運(yùn)動補(bǔ)償?shù)念A(yù)測,計(jì)算(1380)重構(gòu)的奇數(shù)幀。
解碼器確定(1390)是否繼續(xù)IMTF,以及如果是,繼續(xù)下一偶數(shù)幀。
圖12和13所示的各個(gè)操作可以拆分、與其他操作組合或記錄。例如,盡管圖12表示并行的某些操作,相反,可以串行地執(zhí)行這些操作。
V.3D子帶視頻編碼和解碼中嵌入的基層編解碼器在一些實(shí)施例中,可縮放視頻編碼器包括嵌入的基層編解碼器以及可縮放視頻解碼器包括嵌入的基層解碼器?;旧?,由嵌入的基層編解碼器產(chǎn)生的比特流用作3D子帶視頻編碼比特流的低比特率基層。在一些可縮放視頻編碼/解碼系統(tǒng)的上下文中,例如,基層以用于系統(tǒng)的最小空間、時(shí)間和SNR分辨率提供視頻,在此之后,增加另外的增強(qiáng)層以便提供用于系統(tǒng)的達(dá)最大空間、時(shí)間和SNR分辨率的可縮放性。(編碼和解碼中的基層的精確作用在不同實(shí)施例中是不同的)。例如,3D子帶視頻編碼器包括嵌入的視頻編解碼器以及3D子帶視頻解碼器包括相應(yīng)的嵌入視頻解碼器。
對許多類型的嵌入編解碼器,這改進(jìn)了以低比特率的編碼性能,其中在傳統(tǒng)的3D子帶編碼中編碼運(yùn)動信息所花的比特消耗了可用比特率的無效部分,以及在比較中,嵌入視頻編解碼器更有效。在一些情況下,嵌入的基層編解碼器提供諸如閉環(huán)時(shí)間預(yù)測、環(huán)內(nèi)濾波和碼率失真優(yōu)化,而沒有與3D子帶編碼有關(guān)聯(lián)的約束的優(yōu)點(diǎn)。同時(shí),保持以中間和較高比特率的3D子帶編碼的優(yōu)點(diǎn)(例如空間和時(shí)間可縮放性)。
將編解碼器嵌入3D子帶視頻編碼中的另一優(yōu)點(diǎn)是它提供與嵌入的編解碼器和相應(yīng)的解碼器兼容。例如,如果嵌入MPEG-1編解碼器,具有MPEG-1解碼能力的任何接收機(jī)能解碼壓縮視頻的粗略版本(即使MPEG-1編解碼器本身不提高編碼性能)。如果嵌入H.264或VC-1編解碼器,除兼容性外,這提高了以低比特率的編碼性能。
在此所述的技術(shù)和工具不限于具有在性能和/或兼容性方面優(yōu)點(diǎn)的系統(tǒng)。除性能和兼容性外,將基層編解碼器嵌入可縮放視頻編碼器和將基層解碼器嵌入可縮放視頻解碼器可以具有其他優(yōu)點(diǎn)。
A.示例性編碼器和解碼器圖14至19分別示例說明用于將基層編碼器或解碼器嵌入編碼器或解碼器中的三個(gè)不同方案。在編碼器中,用于基層的編解碼器嵌入時(shí)間子帶變換中,以及時(shí)間子帶變換后接空間子帶變換。通過解碼器中的相應(yīng)的變化,另外的子帶變換可以放在時(shí)間子帶變換前和/或后。通過解碼器中可能的相應(yīng)變化,基層編解碼器可以位于各種變換中的不同位置中。
通常,嵌入編解碼器的位置設(shè)置用于基層視頻的幀速率和空間分辨率。為了簡化圖14對19所示的三個(gè)方案間的比較,將基層分辨率設(shè)置成幀速率的四分之一以及初始視頻的空間分辨率的一半。因此,如果初始視頻為30fps CIF視頻,例如,基層視頻為7.5fps QCIF視頻。
同樣地,在圖14,16和18的編碼器中,基層編解碼器在兩個(gè)時(shí)間子帶變換后,以及在解碼器15,17和19中,基層解碼器在最后兩個(gè)相反的時(shí)間子帶變換前。在時(shí)間變換中改變基層編解碼器和解碼器的位置是改變基層幀速率的一種方法。例如,盡管圖14,16和18表示嵌入基層模塊以便接受t-L2子帶作為輸入,或者,基層模塊放在t-L1子帶變換或另一子帶變換后。通常,時(shí)間變換中的位置由基層視頻所需的幀速率而定。
在圖14,16和18中,通過按一些任意因素,采樣操作或空間子帶變換操作(與嵌入編解碼器或解碼器相鄰),實(shí)現(xiàn)用于基層的空間分辨率變化。改變采樣/空間子帶變換操作的比率是改變基層空間分辨率的一種方法。
圖14,16和18包括時(shí)間子帶變換模塊T、空間子帶變換模塊S和MV編碼和熵編碼模塊,以及來自模塊的輸入和輸出。圖15,17和19包括逆時(shí)間子帶變換模塊T-1、逆空間子帶變換模塊S-1,以及MV解碼和熵解碼模塊,以及來自模塊的輸入和輸出。通常,這些模塊和它們的輸入/輸出的作用如參考圖2至5所述。
圖14,16和18所述的基層編解碼器可以是產(chǎn)生符合標(biāo)準(zhǔn)的比特流(例如MPEG-1,MPEG-2、MPEG-4、H.261、H.263、H.264/AVC或VC-1),以及圖15,17和19中的相應(yīng)的基層解碼器。或者,基層編解碼器/解碼器能是商業(yè)產(chǎn)品(例如WMV8,WMV9)。一般來說,基層編解碼器/解碼器能是具有所需性能和/或兼容性屬性的任何可用編解碼器/解碼器。
1.第一方案圖14表示根據(jù)第一方案的3D子帶編碼器(1400)。編碼器(1400)包括嵌入的基層編解碼器(1420)和基層編解碼器(1420)周圍的下采樣模塊(1410)和上采樣模塊(1430)。
下采樣模塊(1410)和上采樣模塊(1430)是可任選的。當(dāng)由嵌入編解碼器(1420)編碼的視頻具有比輸入到嵌入編解碼器(1420)的空間子帶更低的空間分辨率時(shí),使用它們。否則,可以省略下采樣模塊(1410)和上采樣模塊(1430)。
圖14中的虛線矩形包含在兩級時(shí)間分解后,與基層編解碼器(1420)有關(guān)的操作。對基層,輸入視頻為每秒f/4幀,以及通過下采樣模塊(1410),降低分辨率。因此,基層視頻提供低幀速率和初始視頻的(可能地)低空間分辨率表示。
下采樣模塊(1410)使用簡單的子采樣、低通濾波器或一些其他濾波機(jī)制,下采樣t-L2時(shí)間子帶。例如,下采樣模塊(1410)按兩個(gè)水平或垂直因素,降低空間分辨率。在一些實(shí)現(xiàn)中,下采樣模塊(1410)應(yīng)用“MPEG”濾波器,如在Bjontegaard et al.“H.263Anchors-Technical Description”或Daubechies9/7DWT濾波器的文獻(xiàn)中所述。一般來說,下采樣模塊(1410)按任何任意比率,改變輸入到嵌入編解碼器(1420)的時(shí)間分辨率,以便實(shí)現(xiàn)所需基層時(shí)間分辨率和/或匹配基層編解碼器(1420)中所允許的輸入空間分辨率。
嵌入編解碼器(1420)使用用于嵌入編解碼器(1420)的通常操作的任何一個(gè),編碼下采樣的t-L2子帶(示為ts-LL子帶)。嵌入的編解碼器(1420)以基層分辨率產(chǎn)生輸出基層比特流(1495),其中,基層比特流(1495)與相應(yīng)的基層解碼器兼容。為了編碼器(1400)中的稍后編碼的目的,嵌入編解碼器(1420)還使用用于嵌入編解碼器(1420)的相應(yīng)的解碼操作,還解碼ts-LL子帶,產(chǎn)生重構(gòu)的子帶ts-LL′。
上采樣模塊(1430)使用一些濾波機(jī)制,從基層編解碼器(1420)上采樣重構(gòu)的輸出子帶ts-LL′,生成時(shí)間子帶t-L2的重構(gòu)版本t-L2′。重構(gòu)的子帶t-L2′具有與t-L2相同的分辨率。例如,上采樣模塊(1430)按2的倍數(shù),水平和垂直增加空間分辨率。在一些實(shí)現(xiàn)中,上采樣模塊(1430)應(yīng)用簡單的6-抽頭濾波器{-1,5,20,20,5,-1}、8-抽頭Sinc濾波器,如在Chen et al.,“ImprovedMC-EZBC with Quarter-pixel Motion Vectors”,或Daubechies 9/7 IDWT濾波器。上采樣濾波器不需要鏡像下采樣濾波器-例如,可以將MPEG濾波器用于下采樣和IDWT濾波器用于上采樣。一般來說,上采樣模塊(1430)按任意比改變從嵌入編解碼器(1420)輸出的空間分辨率,以便將視頻恢復(fù)成在下采樣模塊(1410)前具有的空間分辨率。
從初始時(shí)間子帶t-L2,編碼器(1400)減去重構(gòu)的版本t-L2′。這產(chǎn)生差值或剩余子帶t-L2”。當(dāng)基層編解碼器(1420)有效時(shí)(例如VC-1或H.264/AVC)以及基層比特率適當(dāng)時(shí),基層質(zhì)量會相對好,以便差值子帶不具有更多能量。另一方面,當(dāng)基層編解碼器(1420)低效或基層比特率不適當(dāng)時(shí),基層質(zhì)量會相對差,使得差值子帶具有更多能量。
編解碼器(1400)在差值子帶t-L2”上執(zhí)行另外兩級時(shí)間分解。最后,編碼器(1400)在各個(gè)子帶(例如t-H1,t-H2,t-H3,t-H4和t-L4)上執(zhí)行時(shí)間變換和熵編碼以便生成可擴(kuò)展比特流。
圖15表示根據(jù)第一方案的相應(yīng)的3D子帶解碼器(1500)。解碼器(1500)包括嵌入基層解碼器(1520)和基層解碼器(1520)后的上采樣模塊(1530)。
上采樣模塊(1530)是可任選的。當(dāng)由嵌入解碼器(1520)解碼的視頻具有比輸出到下游逆時(shí)間變換級的時(shí)間子帶t-L2更低的空間分辨率時(shí),使用它。否則,可以省略上采樣模塊(1530)。
圖15中的虛線矩形包含與在兩個(gè)附加的逆時(shí)間分解級前的基層解碼器(1520)有關(guān)的操作。對基層,視頻是每秒f/4幀,以及可以降低空間分辨率。因此,基層提供視頻的低幀速率以及(可能的)低空間分辨率表示。實(shí)際上,能通過基層解碼器(1520)直接解碼具有低幀速率和(可能地)低空間分辨率的視頻并輸出。
或者,解碼器(1500)從解碼器(1500)將用來重構(gòu)視頻的可縮放比特流(例如t-H1,t-H2,t-H3,t-H4和t-L4)的子帶的任何一個(gè)上執(zhí)行熵解碼和逆空間分解。解碼器(1500)執(zhí)行第三和第四級逆時(shí)間分解以便由t-H3,t-H4和t-L4子帶和相關(guān)運(yùn)動信息重構(gòu)差分子帶t-L2”。
嵌入解碼器(1520)接收用于在基層分辨率編碼的視頻的基層比特流(1595)。使用適當(dāng)?shù)慕獯a操作,嵌入解碼器(1520解碼基層比特流(1595)中的壓縮的、下采樣的子帶ts-LL,產(chǎn)生子帶的重構(gòu)的版本ts-LL′。
上采樣模塊(1530)使用一些濾波機(jī)制,上采樣來自基層解碼器(1520)的重構(gòu)的子帶ts-LL′,生成時(shí)間子帶t-L2的重構(gòu)版本t-L2′。重構(gòu)子帶t-L2′具有與t-L2相同的分辨率。例如,上采樣模塊(1530)按2的倍數(shù),水平或垂直增加空間分辨率。一般來說,上采樣模塊(1530)按任意比,改變從嵌入解碼器(1520)輸出的時(shí)間分辨率,以便使視頻恢復(fù)到在任何基層下采樣前具有的空間分辨率。
解碼器(1500)將重構(gòu)的差分子帶t-L2″增加到相應(yīng)的重構(gòu)子帶t-L2′。這產(chǎn)生輸入到逆時(shí)間分解的剩余部分的時(shí)間低通子帶t-L2的重構(gòu)版本。
2.第二方案圖16表示根據(jù)第二方案的3D子帶編碼器(1600)。編碼器(1600)包括嵌入基層編解碼器(1620)和基層編解碼器(1620)周圍的DWT模塊(1610)和IDWT模塊(1630)。
與圖14所示的下采樣模塊(1410)和上采樣模塊(1430)類似,DWT模塊(1610)和IDWT模塊(1630)是可任選的。當(dāng)由嵌入編解碼器(1620)編碼的視頻具有比輸入到嵌入編解碼器(1620)中的時(shí)間子帶t-L2更低的空間分辨率時(shí),使用它們。否則,可以省略DWT模塊(1610)和IDWT模塊(1630)。
圖16中的虛線矩形包含在兩級時(shí)間分解后,與基層編解碼器(1620)有關(guān)的操作。DWT模塊(1610)處理t-L2時(shí)間子帶,生成低通子帶ts-LL。通常,DWT模塊(1610)改變輸入到嵌入編解碼器(1620)的空間分辨率以便實(shí)現(xiàn)所需基層空間分辨率和/或匹配基層編解碼器(1620)所允許的輸入空間分辨率。DWT模塊(1610)還產(chǎn)生發(fā)送到IDWT模塊(1630)的空間高通子帶ts-LH、ts-H和ts-HH。
嵌入編解碼器(1620)使用用于嵌入編解碼器(1620)的通常操作的任何一個(gè),編碼ts-LL子帶。嵌入編解碼器(1620)以基層分辨率產(chǎn)生輸出基層比特流(1695)。嵌入編解碼器(1620)還使用用于嵌入編解碼器(1620)的相應(yīng)的解碼操作,解碼ts-LL子帶,產(chǎn)生重構(gòu)子帶ts-LL′。
從初始ts-LL子帶,編碼器(1600)減去其重構(gòu)的版本ts-LL′。這產(chǎn)生剩余子帶ts-LL″。作為用于圖14的編碼器(1400)的情形,當(dāng)基層編碼器(1620)有效且基層比特率適當(dāng)時(shí),剩余ts-LL″通常不具有太多能量。另一方面,當(dāng)基層編解碼器(1620)低效或基層比特率不適當(dāng)時(shí),剩余ts-LL″可以具有更多能量。
從剩余子帶ts-LL″和空間高通子帶ts-LH、ts-HL和ts-HH,IDWT模塊(1630)生成新的剩余子帶t-L2″。新剩余子帶t-L2″具有與輸入到DWT模塊(1610)的子帶t-L2相同的空間分辨率。
編碼器1600)在剩余子帶t-L2″上執(zhí)行另外兩級時(shí)間分解。最后,編碼器(1600)在各個(gè)子帶(例如t-H1,t-H2,t-H3,t-H4和t-L4)上執(zhí)行空間變換和熵編碼以便生成可縮放比特流。
圖17表示根據(jù)第二方案的相應(yīng)的3D子帶解碼器(1700)。解碼器(1700)包括嵌入基層解碼器(1720)和基層解碼器(1720)周圍的DWT模塊(1710)和IDWT模塊(1730)。
DWT模塊(1710)和IDWT模塊(1730)是可任選的。當(dāng)由嵌入解碼器(1720)解碼的視頻具有比輸出到下游逆時(shí)間變換級的時(shí)間子帶t-L2更低的空間分辨率時(shí),使用它們。否則,可以省略DWT模塊(1710)和IDWT模塊(1730)。
圖17中的虛線矩形包含在兩級另外的逆時(shí)間分解前,與基層解碼器(1720)有關(guān)的操作。基層提供低幀速率和視頻的(可能的)低空間分辨率表示,以及通過基層解碼器(1720)直接解碼這種更低質(zhì)量視頻并輸出。
或者,解碼器(1700)在來自解碼器(1700)將用來重構(gòu)視頻的可縮放比特流(例如t-H1,t-H2,t-H3,t-H4和t-L4)的子帶的任何一個(gè)上執(zhí)行熵解碼和逆空間分解。解碼器(1700)執(zhí)行第三和第四級逆時(shí)間分解以便從t-H3,t-H4和t-L4子帶和相關(guān)運(yùn)動信息重構(gòu)剩余子帶t-L2″。
DWT模塊(1710)處理剩余子帶t-L2″,產(chǎn)生空間低通剩余子帶ts-LL″和空間高通子帶ts-LH″、ts-HL″和ts-HH″的重構(gòu)版本。通常,DWT模擬(1710)改變空間分辨率以便低通剩余子帶ts-LL″在空間分辨率方面,與嵌入解碼器(1720)的輸出匹配。
嵌入解碼器(1720)接收用于以基層分辨率編碼的視頻的基層比特流(1795)。使用適當(dāng)?shù)慕獯a操作,嵌入解碼器(1720)解碼基層比特流(1795)中的壓縮、變換的子帶ts-LL,產(chǎn)生子帶的重構(gòu)版本ts-LL′。
解碼器(1700)將重構(gòu)的剩余子帶ts-LL″增加到從嵌入解碼器(1720)輸出的相應(yīng)的重構(gòu)子帶ts-LL′上。這產(chǎn)生初始ts-LL子帶的重構(gòu)版本。
然后,IDWT模塊(1730)將重構(gòu)的ts-LL子帶與從DWT模塊(1710)輸出的空間高通子帶ts-LH″、ts-HL″和ts-HH″組合。這產(chǎn)生時(shí)間低通子帶t-L2的重構(gòu)版本,其被輸入到逆時(shí)間分解的剩余部分。
3.第三方案在前兩個(gè)編碼方案中,基層編解碼器被嵌入在時(shí)間變換中以及在稍后的時(shí)間變換中,進(jìn)一步分解剩余信號。相反,在第三編碼方案中,稍后的時(shí)間變換應(yīng)用于時(shí)間低通幀(與剩余幀相反)。
圖18表示根據(jù)第三方案的3D子帶編碼器(1800)。編碼器(1800)包括嵌入基層編解碼器(1820)和基層編解碼器(1820)周圍的下采樣模塊(1810)和上采樣模塊(1830)。圖18中的虛線矩形包含在兩級時(shí)間分解后,與基層編解碼器(1820)有關(guān)的操作。關(guān)于圖14所示的編碼器(1400)的相應(yīng)模塊,下采樣模塊(1810)和上采樣模塊(1830)是可任選的。與第二和第三時(shí)間變換間的可縮放視頻類似,基層視頻為每秒f/4幀,以及通過下采樣模塊(1810),降低分辨率。因此,基層視頻再次提供初始視頻的低幀速率和(可能的)低時(shí)間分辨率表示。
下采樣模塊(1810)使用簡單的子采樣、低通濾波器或一些其他過濾機(jī)制,下采樣t-L2時(shí)間子帶。通常,下采樣模塊(1810)按任意比率,改變輸入到嵌入編解碼器(1820)的時(shí)間分辨率以便實(shí)現(xiàn)所需基層空間分辨率和/或匹配基層編解碼器(1820)所允許的輸入空間分辨率。
嵌入編解碼器(1820)使用用于嵌入編解碼器(1820)的通常操作的任何一個(gè),編碼下采樣的t-L2子帶(示為ts-LL子帶)。嵌入編解碼器(1820)產(chǎn)生最低比特率,以基層分辨率輸出基層比特流(1895),其中,基層比特流(1895)與相應(yīng)的基層解碼器匹配。為在編碼器(1800)中稍后編碼,嵌入編解碼器(1820)使用用于嵌入編解碼器(1820)的相應(yīng)的解碼操作,解碼ts-LL子帶,產(chǎn)生重構(gòu)子帶ts-LL′。
上采樣模塊(1830)使用一些過濾機(jī)制,從基層編解碼器(1820)上采樣所重構(gòu)的輸出子帶ts-LL′,生成時(shí)間子帶t-L2的重構(gòu)版本t-L2′。所重構(gòu)的子帶t-L2′具有與t-L2相同的分辨率。通常,上采樣模塊(1830)按任何比率,改變來自嵌入編解碼器(1820)的輸出的空間分辨率以便使視頻恢復(fù)到在下采樣模塊(1810)前所具有的空間分辨率。
編碼器(1800)在初始(預(yù)基層處理)時(shí)間子頻帶t-L2上執(zhí)行第三和第四級時(shí)間變換。對第三和第四時(shí)間變換,編碼器(1800)計(jì)算用于時(shí)間高通子帶t-H3和t-H4的運(yùn)動補(bǔ)償預(yù)測。如所期望的,時(shí)間子帶t-L2提供用于第三級時(shí)間變換中,運(yùn)動補(bǔ)償?shù)暮蜻x基準(zhǔn)幀(例如偶數(shù)幀t-L2),以及時(shí)間子帶t-L3提供用于第四級時(shí)間變換中的運(yùn)動補(bǔ)償?shù)暮蜻x基準(zhǔn)幀(例如偶數(shù)幀t-L3)。根據(jù)第三方案,在上采樣、重構(gòu)的子帶t-L2′中的時(shí)間相應(yīng)圖像充當(dāng)用于運(yùn)動補(bǔ)償?shù)牧硗獾暮蜻x基準(zhǔn)幀。例如,在第三級時(shí)間變換中,t-L2′的交替幀(具有與t-L2的基數(shù)下標(biāo)的幀相同的時(shí)間)可用作用于奇數(shù)下標(biāo)幀t-L2的MCP的基準(zhǔn)。在第四級時(shí)間變換中,t-L2′的每第四幀(具有與相應(yīng)的奇數(shù)下標(biāo)幀t-L3相同的時(shí)間)可用作用于t-L3的時(shí)間相應(yīng)奇數(shù)下標(biāo)幀的MCP的基準(zhǔn)。
圖20表示在嵌入基層編解碼器后,用于時(shí)間變換中的運(yùn)動補(bǔ)償?shù)牟煌鶞?zhǔn)組合情形。候選基準(zhǔn)幀包括來自輸入時(shí)間低通子帶的幀(例如偶數(shù)幀)。候選基準(zhǔn)幀還包括來自基層的上采樣輸出的時(shí)間相應(yīng)的(例如相同時(shí)間)、重構(gòu)幀。例如,在圖20的組合(1)中,高通子帶幀H使用來自先前時(shí)間子帶(對應(yīng)于低通子帶幀L)的偶數(shù)幀的第一運(yùn)動補(bǔ)償預(yù)測和使用來自基層(與高通子帶幀H時(shí)間上共存)的上采樣重構(gòu)的第二運(yùn)動補(bǔ)償預(yù)測。相應(yīng)地,高通子帶幀H僅用來更新用于運(yùn)動補(bǔ)償?shù)呐紨?shù)幀(以便生成相應(yīng)的低通子帶幀L)。如果在預(yù)測步驟中使用來自基層的基準(zhǔn),對它來說,不需要相應(yīng)的更新步驟。
在一些實(shí)現(xiàn)中,編碼器基于逐個(gè)宏塊,選擇和切換用于運(yùn)動補(bǔ)償?shù)幕鶞?zhǔn)幀。另外,編碼器在一些其他基礎(chǔ)上(例如,每當(dāng)前奇數(shù)幀、每運(yùn)動矢量和宏塊劃分),選擇和切換用于運(yùn)動補(bǔ)償?shù)幕鶞?zhǔn)幀。
基準(zhǔn)圖18,在最后一個(gè)時(shí)間分解后,基層輸出t-L2′的幀速率是最終時(shí)間低通子帶t-L4的幀速率的四倍。從最終時(shí)間低通子帶t-L4,編碼器(1800)減去基層輸出t-L2′的時(shí)間相應(yīng)的、上采樣重構(gòu)幀。這生成剩余子帶t-L4′。最終,編碼器(1800)在各個(gè)子帶(例如t-H1,t-H2,t-H3,t-H4和t-L4′)上執(zhí)行空間變換和熵編碼以便生成可縮放比特流。
圖19表示根據(jù)第三方案,相應(yīng)的3D子帶解碼器(1900)。解碼器(1900)包括嵌入基層解碼器(1920)和基層解碼器(1920)后的上采樣模塊(1930)。
關(guān)于圖15所示的解碼器(1500),上采樣模塊(1930)是可任選的。當(dāng)由嵌入解碼器(1920)解碼的視頻具有比由下游逆時(shí)間變換級使用的時(shí)間子帶幀更低的時(shí)間分辨率時(shí)使用它。否則,可以省略上采樣模塊(1930)。
圖19中的虛線矩形包含與在四級逆時(shí)間分解前的基層解碼器(1930)有關(guān)的操作。關(guān)于其他基層解碼器,能通過基層解碼器(1920)直接解碼具有低、基層幀速率和(可能的)低空間分辨率的視頻并輸出。
否則,解碼器(1900)在來自可縮放比特流的子帶的任何一個(gè)(例如t-H1,t-H2,t-H3,t-H4和t-L4′)上執(zhí)行熵解碼和逆空間分解,解碼器(1900)將用來重構(gòu)視頻。
嵌入解碼器(1920)接收用于以基層分辨率編碼的視頻的基層比特流(1995)。使用適當(dāng)?shù)慕獯a操作,嵌入解碼器(1920)解碼基層比特流(1995)中的壓縮、下采樣子帶ts-LL,產(chǎn)生子帶的重構(gòu)版本ts-LL′。上采樣模塊(1930)使用一些過濾機(jī)制,從基層解碼器(1920)上采樣重構(gòu)的子帶ts-LL′,生成時(shí)間子帶t-L2的重構(gòu)版本t-L2′。
解碼器(1900)將剩余的子帶t-L4′增加到上采樣的基層輸出t-L2′的時(shí)間相應(yīng)(例如相同時(shí)間)幀上。這產(chǎn)生時(shí)間低通子帶t-L4的重構(gòu)版本,其被輸入到第四級逆時(shí)間分解。
解碼器(1900)執(zhí)行第三和第四級逆時(shí)間分解以便由重構(gòu)t-H3,t-H4和t-L4子帶及相關(guān)的運(yùn)動信息,重構(gòu)時(shí)間子帶t-L2。對第三和第四逆時(shí)間變換,解碼器(1900)計(jì)算用于時(shí)間高通子帶t-H3和t-H4的運(yùn)動補(bǔ)償預(yù)測。時(shí)間子帶t-H3具有用于第四級時(shí)間變換中的MCP的重構(gòu)的基準(zhǔn)幀(例如,重構(gòu)的偶數(shù)幀t-L3),以及時(shí)間子帶t-L2具有第三級時(shí)間變換中的MCP的重構(gòu)基準(zhǔn)幀(例如重構(gòu)偶數(shù)幀t-L2)。上采樣的、重構(gòu)子帶t-L2′中的時(shí)間相應(yīng)(例如相同時(shí)間)的圖像可以充當(dāng)用于第三和第四級逆時(shí)間變換中的另外的基準(zhǔn)幀。
B.基層信息的示例性另外用途除提供向后兼容性和在用于低比特率視頻的碼率-失真意義上,提高壓縮效率外,來自基層的輸出能具有另外的用途。
1.重新使用來自基層的運(yùn)動矢量在具有基于提升的MCTF的3D子帶編碼中,通過運(yùn)動估計(jì),獲得用于MCP步驟的運(yùn)動矢量。在一些實(shí)現(xiàn)中,運(yùn)動估計(jì)過程與用于符合現(xiàn)有的視頻標(biāo)準(zhǔn),諸如MPEG2、H.264/AVC等等的傳統(tǒng)的運(yùn)動估計(jì)類似。此外,Haar和5/3時(shí)間變換分別與傳統(tǒng)的P-圖像和B-圖像的運(yùn)動補(bǔ)償過程類似。
對與現(xiàn)有的標(biāo)準(zhǔn),諸如MPEG-2、MPEG-4、H.264/AVC等等兼容的基層編解碼器,使用用于圖像內(nèi)(P-圖像或B-圖像)的內(nèi)部壓縮編碼的塊通常具有相關(guān)聯(lián)的運(yùn)動信息。同時(shí),在3D子帶編碼中,處于來自基層編碼器的時(shí)間分解下游級(例如處于圖14、16和18的第三和第四級)的高通子帶能在基層輸出中找出時(shí)間相應(yīng)的圖片。在許多情況下(特別是根據(jù)第三方案),在用于這些高通子帶的運(yùn)動信息和基層中的時(shí)間相應(yīng)的圖片內(nèi)的運(yùn)動信息間,存在高度類似?;谠撓嚓P(guān),為幾個(gè)目的,編碼器和/或解碼器能重新使用來自基層編解碼器的運(yùn)動矢量。
在基層運(yùn)動矢量的另外的用途的一個(gè)例子中,3D子帶編碼器和3D子帶解碼器簡單地使用基層運(yùn)動矢量,作為用于時(shí)間相應(yīng)的高通子帶幀的塊的實(shí)際運(yùn)動矢量。(當(dāng)基層幀和高通子帶幀具有不同空間分辨率時(shí),3D子帶編碼器和3D子帶解碼器能相應(yīng)地伸縮基層運(yùn)動矢量)。特別地,在低比特率,為此目的,3D子帶編碼器和3D子帶解碼器使用基層運(yùn)動矢量。這降低了用于運(yùn)動信息的開銷,當(dāng)然,因?yàn)樽鳛榛鶎颖忍亓鞯囊徊糠?,已?jīng)發(fā)出基層運(yùn)動矢量信號。在許多情況下,在運(yùn)動預(yù)測精度損失方面的懲罰很輕微。
在基層運(yùn)動矢量的另外的用途的另一例子中,3D子帶編碼器和3D子帶解碼器在運(yùn)動矢量預(yù)測中,使用來自基層編解碼器的運(yùn)動矢量。作為傳統(tǒng)的運(yùn)動編碼和解碼的一部分,運(yùn)動矢量預(yù)測提供用于當(dāng)前運(yùn)動矢量的值的預(yù)測。然后,當(dāng)前運(yùn)動矢量可以被表示和被發(fā)信號為相對于預(yù)測運(yùn)動矢量的差值。編碼器和解碼器從相鄰塊的先前重構(gòu)運(yùn)動矢量,選擇或?qū)С鲇糜诋?dāng)前運(yùn)動矢量的預(yù)測運(yùn)動矢量。
在一些實(shí)現(xiàn)中,當(dāng)選擇和導(dǎo)出用于時(shí)間高通子帶的塊的當(dāng)前運(yùn)動矢量的預(yù)測運(yùn)動矢量時(shí),3D子帶編碼器和3D子帶解碼器使用來自時(shí)間相應(yīng)的基層幀的空間相應(yīng)塊的運(yùn)動矢量。例如,3D子帶編碼器和3D子帶解碼器將來自基層的運(yùn)動矢量用作預(yù)測的運(yùn)動矢量?;蛘?,3D子帶編碼器和3D子帶解碼器使用來自基層的運(yùn)動矢量作為選擇預(yù)測運(yùn)動矢量的候選(例如作為候選的中值)。
在基層運(yùn)動矢量的另外的用途的另一例子中,3D子帶編碼器使用基層運(yùn)動矢量來加速運(yùn)動估計(jì)。例如,子帶編碼器在運(yùn)動估計(jì)中,先考慮相應(yīng)的基層運(yùn)動矢量以便更快速地找出適當(dāng)?shù)漠?dāng)前運(yùn)動矢量。
類似地,3D子帶編碼器和3D子帶解碼器能重新使用來自基層的運(yùn)動模式(例如塊劃分、方向)信息。在一些情況下,基層模式信息可以用作用于時(shí)間相應(yīng)的高通子帶幀的塊的實(shí)際模式信息?;蛘?,基層模式信息可以用于預(yù)測模式信息或加速運(yùn)動估計(jì)。
圖21至23表示不同編碼結(jié)構(gòu)(幀類型的模式),在這些結(jié)構(gòu)下,來自基層的運(yùn)動信息特別有用于在基層后的時(shí)間分解中的時(shí)間高通子帶。在圖21中,調(diào)整基層的編碼結(jié)構(gòu)以便適合于用于3D子帶編碼的公共結(jié)構(gòu)。在兩個(gè)I或P圖像間插入三個(gè)B圖像,以及第二B圖像(就像用在H.264/AVC中的所存儲的B圖像)用作用于第一和第三B圖像的基準(zhǔn)。用這種方式,基層中的B-圖像的運(yùn)動矢量能自然地用于3D子帶編碼中的時(shí)間相應(yīng)的高通子帶幀。
為了與用于基層編解碼器的某些現(xiàn)有標(biāo)準(zhǔn)兼容,圖22的框架將傳統(tǒng)的編碼結(jié)構(gòu)用于基層,但調(diào)整用于3D子帶編碼的幀類型的模式。在基層中的兩個(gè)I/P圖像間插入三個(gè)B圖像,但三個(gè)B-圖像僅將I/P圖像用作基準(zhǔn)(無B圖像用作運(yùn)動補(bǔ)償基準(zhǔn))。在3D子帶編碼方案中,模型包括在兩個(gè)低通子帶間生成的三個(gè)高通子帶。
圖23示例說明類屬模式。在基層中,用B-或P-圖像編碼時(shí)間上對應(yīng)于3D子帶編碼中的高通子帶的圖像。而圖21和22中所示的模式適合于5/3時(shí)間分解,圖23中所示的模式能自適應(yīng)用于Haar和5/3時(shí)間分解(分別對應(yīng)于P-圖像和B-圖像關(guān)系)。
2.從基層預(yù)測內(nèi)區(qū)域當(dāng)在視頻序列中存在遮擋或不規(guī)則運(yùn)動時(shí),運(yùn)動估計(jì)僅可找出用于時(shí)間高通子帶中的一些塊的不良匹配塊。當(dāng)使能無內(nèi)編碼模式時(shí),用于這些情形的強(qiáng)迫內(nèi)部預(yù)測會產(chǎn)生編碼性能惡化和對可視質(zhì)量具有不良影響。
在H.264/AVC標(biāo)準(zhǔn)中,內(nèi)部預(yù)測技術(shù)解決MCP失敗的情形。在內(nèi)部預(yù)測中,通過來自相鄰重構(gòu)像素的空間預(yù)測,獲得用于當(dāng)前塊的預(yù)測器。在具有開環(huán)MCTF結(jié)構(gòu)的3D子帶編碼中,然而,這種空間預(yù)測易于引入不匹配和錯誤漂移。
在如上所述的第一和第二嵌入基層編碼方案中,在完成基層編碼和解碼后,在不同信息上執(zhí)行用于3D子帶編碼的進(jìn)一步時(shí)間分解。(在圖14中,例如,差值信息是輸入時(shí)間子帶t-L2和來自基層編解碼器的輸出ts-LL′的上采樣版本t-L2′間的剩余量)。典型地,差值僅具有高頻能量及其空間冗余為低。因此,當(dāng)在基層編解碼器中的內(nèi)部模式中,編碼塊時(shí),3D子帶編碼中的稍后的時(shí)間分解中的內(nèi)部預(yù)測通常表現(xiàn)為不必要。這有助于避免與開環(huán)3D子帶編碼中的內(nèi)部預(yù)測相關(guān)聯(lián)的不匹配問題,同時(shí)提高編碼性能和可視質(zhì)量。
另一方面,在如上所述的第三嵌入基層編碼方案中,在差值信息上不執(zhí)行用于3D子帶編碼的進(jìn)一步時(shí)間分解。然而,在第三方案中,基層編解碼器的輸出可以提供候選基準(zhǔn)圖片,以及候選基準(zhǔn)圖片可以包括使用空間內(nèi)部預(yù)測編碼的塊。相對于來自基層輸出的基準(zhǔn)圖像的內(nèi)部編碼塊,執(zhí)行運(yùn)動補(bǔ)償有助于解決MCTF中的MCP僅找出不良匹配塊的情形。來自基層輸出的基準(zhǔn)圖片也能用作用于稍后的3D子帶編碼中的低通子帶的預(yù)測器。3D子帶編碼器能使用來自基層的內(nèi)部模式信息來由用于稍后的MCP或其他預(yù)測的基層輸出,確定何時(shí)使用基準(zhǔn)圖像。
3.用于進(jìn)一步時(shí)間分解的運(yùn)動估計(jì)在純3D子帶編碼中,以及在根據(jù)如上所述的第三方案,具有嵌入基層編解碼器的3D子帶編碼中,在原始低通子帶上進(jìn)行運(yùn)動估計(jì)以便獲得更高級高通子帶和運(yùn)動信息。這些運(yùn)動估計(jì)有效地包含許多傳統(tǒng)的運(yùn)動估計(jì)參數(shù),諸如“λ參數(shù)”,該參數(shù)相對編碼運(yùn)動信息的成本加權(quán)編碼剩余信息的成本。
對具有根據(jù)如上所述的第一和第二方案的嵌入基層編解碼器的3D子帶編碼,然而,在差值信息上執(zhí)行用于進(jìn)一步時(shí)間分解的運(yùn)動估計(jì)。同樣地,運(yùn)動估計(jì)采用傳統(tǒng)的運(yùn)動估計(jì)參數(shù)來在進(jìn)一步時(shí)間分解中,利用相鄰幀中的時(shí)間冗余。例如,編碼器調(diào)整λ參數(shù)來考慮到時(shí)間分解的不同輸入。
C.用于使用基層編解碼器或解碼器的示例性技術(shù)圖24表示通過嵌入基層編解碼器,用于可縮放編碼的技術(shù)(2400)。圖25表示通過嵌入基層解碼器,用于可縮放解碼的技術(shù)(2500)。3D子帶編碼器,諸如基準(zhǔn)圖14、16或18所述的編碼器執(zhí)行圖24中所示的技術(shù)(2400),以及3D子帶解碼器,諸如基準(zhǔn)圖15、17或19所述的解碼器執(zhí)行圖25中所示的技術(shù)(2500)。另外,另一編碼器或解碼器執(zhí)行技術(shù)(2400,2500)。
基準(zhǔn)圖24,3D子帶編碼器使用子帶編碼,編碼(2410)視頻的一層或多層。這產(chǎn)生基層編解碼器的輸入。例如,3D子帶編碼器執(zhí)行一級或多級MCTF,查找用于時(shí)間高通子帶的運(yùn)動信息以及產(chǎn)生時(shí)間低通子帶以便用作基層編解碼器的基礎(chǔ)幀速率視頻輸入。另外,3D子帶編碼器在該級執(zhí)行其他和/或另外類型的編碼。
3D子帶編碼器用基層編解碼器,編碼(2430)基層視頻。例如,基層編解碼器是H.264/AVC、MPEG-2、VC-1或WMV9并產(chǎn)生相應(yīng)的壓縮視頻比特流和重構(gòu)的輸出視頻。運(yùn)動信息和內(nèi)部模式信息是壓縮的視頻比特流的一部分,或該信息可以以一些其他形式分開提供給3D子帶編碼器。
然后,3D子帶編碼器使用來自基層編解碼器的結(jié)果,編碼(2450)一層或多層視頻。例如,3D子帶編碼器在從基層編碼和解碼的結(jié)果計(jì)算的差值信息上,執(zhí)行一級或多級時(shí)間分解?;蛘?,3D子帶編碼器在來自基層編解碼器的重構(gòu)視頻中,使用基準(zhǔn)圖片,在時(shí)間低通子帶上執(zhí)行一級或多級時(shí)間分解。或者,3D子帶編碼器在時(shí)間分解的編碼或判定中,使用運(yùn)動信息和/或內(nèi)部模式信息。另外,3D子帶編碼器在后續(xù)子帶編碼中,以一些其他方式使用來自基層編碼器的結(jié)果,或跳過后續(xù)編碼(2450)。
編碼器確定(2490)是否繼續(xù)編碼過程,如果是,繼續(xù)下一幀。
基準(zhǔn)圖25,3D子帶解碼器用基層解碼器,解碼(2530)基層視頻。例如,基層解碼器是H.264/AVC、MPEG-2、VC-1或WMV9解碼,以及解析和解碼相應(yīng)的壓縮視頻比特流和產(chǎn)生重構(gòu)的輸出視頻。
3D子帶解碼器確定(2540)用于解碼的分辨率。根據(jù)用戶級設(shè)定值或根據(jù)解碼器實(shí)際上接收多少信息(例如僅基層視頻或一個(gè)或多個(gè)另外的層)確定的,或用一些其他方式確定的一些其他設(shè)定值,可以確定分辨率。另外,3D子帶解碼器僅具有一個(gè)解碼路徑。例如,一個(gè)解碼器可以包括基層路徑,而另一解碼器包括基層+可縮放層路徑,適合于各個(gè)解碼器的資源。
如果沒有要被解碼的較高分辨率視頻(在判決2540外的“否”路徑),3D子帶解碼器在級(2590)繼續(xù)。
否則,3D子帶解碼器使用來自基層解碼的結(jié)果,解碼(2550)用于視頻的一個(gè)或多個(gè)另外的層。例如,3D子帶解碼器在差值信息上執(zhí)行逆時(shí)間分解的一級或多級,然后將重構(gòu)的差值信息增加到基層解碼的結(jié)果上?;蛘撸?D子帶解碼器重構(gòu)使用來自基層解碼器的重構(gòu)視頻中的基準(zhǔn)圖片,執(zhí)行一級或多級逆時(shí)間分解以便重構(gòu)時(shí)間低通子帶。另外,3D子帶解碼器在后續(xù)子帶解碼中,以一些其他方式,使用來自基層解碼器的結(jié)果。
最后,解碼器確定(2590)是否繼續(xù)解碼過程,以及如果是,繼續(xù)下一幀。
可以分開圖24和25中所示的各個(gè)操作,與其他操作結(jié)合并記錄。
VI.解碼SDMCTF編碼視頻中的空間可縮放性通常,根據(jù)何時(shí)在3D子帶視頻編碼中執(zhí)行MCTF,存在兩種類別MCTF。在第一種類中,稱為帶內(nèi)MCTF(“IBMCTF”)中,編碼器首先空間上分解視頻,然后在子帶/小波域中執(zhí)行MCTF。在第二種類中,稱為空間域MCTF(“SDMCTF”),在空間分解前,編碼器在空間域中直接執(zhí)行MCTF。類似地,在解碼期間,在空間域(“SDIMCTF”)或帶內(nèi)(“IBIMCTF”)中可以執(zhí)行IMCTF。
因此,在具有SDMCTF的3D子帶編碼中,通過時(shí)間域中的多次運(yùn)動對準(zhǔn)時(shí)間變換和后續(xù)的空間變換,分解整個(gè)視頻。圖5表示具有四級(逆)時(shí)間變換和兩級(逆)空間變換的整個(gè)編碼和解碼方案,且在解碼中沒有空間可縮放性。在圖5中,解碼過程正好是編碼的逆過程。
通常,在用于特定比特率的質(zhì)量方面,IBMCTF方案的性能不與SDMCTF方案的性能一樣好。為此,許多3D子帶編碼器使用SDMCTF。在一些應(yīng)用中,然而,解碼器產(chǎn)生視頻輸出的低空間分辨率版本。例如,對以CIF分辨率(352×288像素)的初始視頻,對于用一級空間可縮放性解碼,3D子帶解碼器產(chǎn)生解碼視頻的QCIF版本(176×144像素)。這可以是如果解碼器與更小屏幕設(shè)備(例如便攜式視頻電話)相關(guān)聯(lián),或如果解碼器僅接收不可靠連接上的低空間分辨率子帶信息的情形。當(dāng)在空間域中,執(zhí)行視頻上的MCTF操作時(shí),然而,因?yàn)楦鶕?jù)全空間分辨率表示的運(yùn)動信息、基準(zhǔn)圖片等等,這些情況是成問題的。
該節(jié)描述當(dāng)以低空間分辨率解碼用于輸出的SDMCTF編碼的視頻時(shí),提高解碼性能的各種機(jī)制。在一些實(shí)施例中,例如,3D子帶視頻解碼器接收使用以某個(gè)分辨率(例如CIF)的SDMCTF編碼的視頻,但以低分辨率(例如QCIF)解碼視頻以便輸出。3D子帶解碼器使用幾個(gè)不同機(jī)制的任何一個(gè)來提高解碼性能。
A.在解碼SDMCTF視頻中的簡單的空間可縮放性方案圖26示例說明兩個(gè)簡單的方案(2600,2650),用于解碼和輸出來自用于SDMCTF編碼的視頻的壓縮視頻比特流的低空間分辨率視頻。在圖26中,低空間分辨率視頻與全空間分辨率相差一級空間可縮放性。
第一方案(2600)提供直接解決方案。3D子帶解碼器首先恢復(fù)全空間分辨率視頻(示為CIF視頻)。(假定用于第二逆空間變換的空間高通(“SH”)子帶丟失,在第二逆空間變換中,解碼器將SH子帶處理為空(SH=0)。在逆空間分解中,3D子帶解碼器通過濾波器(示為空間變換),下采樣整個(gè)空間分辨率視頻為輸出分辨率(示為QCIF)。解碼器執(zhí)行SDIMCTF,以及當(dāng)在中間步驟中,解碼CIF視頻時(shí),解碼器使用許多解碼資源(例如計(jì)算資源、基準(zhǔn)圖像緩沖器)。
另一方面,在第二方案(2650)中,3D子帶解碼器執(zhí)行IBIMCTF。第二方案(2650)示例說明解碼低分辨率視頻的啟發(fā)式方式。與第一方案(2600)相同,第二方案(2650)包括熵解碼和四級逆時(shí)間變換。第二方案(2650)有效地包括比第一方案(2600)更少的逆空間變換。(對于第二方案(2650)所示的第二逆空間變換和后續(xù)空間變換彼此抵消并可以省略。)在第二方案(2650)中,3D子帶解碼器基本上將空間低通(“SL”)子帶(第一逆空間變換的輸出)處理為整個(gè)初始視頻,以SL子帶分辨率執(zhí)行逆時(shí)間變換。這近似沒有空間可縮放性的解碼過程,以及其具有低計(jì)算復(fù)雜性和低緩沖要求(用于基準(zhǔn)圖片等等)的優(yōu)點(diǎn)。此外,視頻的初始分辨率和空間可縮放性對解碼器來說總體上是透明的。在低比特率,方案(2650)的性能是令人滿意的,但在高比特率不令人滿意。特別地,當(dāng)比特率增加時(shí),它變得難以或不可能重構(gòu)高質(zhì)量低空間分辨率視頻,即使比特率非常高。
圖26所示的兩個(gè)解碼方案(2600,2650)間的差別在于在IMCTF期間,如何執(zhí)行MCP和MCU步驟。圖27示例說明在一級IMCTF中,用于兩個(gè)方案(2600,2650)的MCP。特別地,圖27表示在基準(zhǔn)圖像中,由可用SL子帶信息(不是SH子帶信息),在預(yù)測步驟中,生成SL提升信號。
對SDIMCTF,SL提升信號生成如下
其中,INTPSD表示在用于基準(zhǔn)圖像信息的空間域中,像素上的內(nèi)插,以及MCPSD表示空間域中的MCP。DWT是線性操作,以及DWT(F1+F2)=DWT(F1)+DWT(F2) (10)為使用SL分辨率緩沖器來保存中間結(jié)果,DWT將空間域預(yù)測降低到SL域中的預(yù)測。
對于IBIMCTF,SL提升信號生成如下
其中,INTPSL表示用于基準(zhǔn)圖片信號的SL域中的像素上的內(nèi)插,以及MCPSL表示SL域中的MCP。為簡化起見,相同的內(nèi)插濾波器用于INTPSD和INTPSL。
B.理論分析各種因素導(dǎo)致SDMCTF編碼的視頻的3D子帶解碼中的空間可縮放性的問題。一個(gè)因素是SL域中的內(nèi)插和運(yùn)動補(bǔ)償?shù)托АA硪灰蛩厥荌MCTF的位置(與編碼中的MCTF的位置相比)。另一因素是由運(yùn)動補(bǔ)償引起的子帶上的功率譜泄漏。
除這些因素外,各種編碼/解碼特征能導(dǎo)致編碼器中的SDMCTF和解碼器中的IBIMCTF間的不匹配。兩個(gè)這種特征是運(yùn)動矢量縮放和OBMC。在該章節(jié)中,為簡化起見,假定在IBIMCTF中,運(yùn)動矢量的精度不改變,以及用于運(yùn)動補(bǔ)償?shù)淖酉袼貎?nèi)插足夠好來在IBIMCTF期間,利用運(yùn)動信息。同樣為了簡化起見,禁用OBMC,以及假定MCP操作是僅根據(jù)可用運(yùn)動矢量的簡單的像素提取操作。即使通過這些簡化的假定,在先前的段落中列出的因素會降低IBIMCTF的性能。
1.內(nèi)插即使當(dāng)相同的內(nèi)插濾波器(諸如雙線性濾波器或8-抽頭Sinc濾波器)用于空間域內(nèi)插和SL域內(nèi)插,由于兩個(gè)操作的不同規(guī)模,在一幀中相同位置處的給定部分像素被從不同像素集內(nèi)插。這導(dǎo)致在子像素內(nèi)插的基準(zhǔn)圖片間的不匹配。
由于另一原因,SL域中的內(nèi)插可能不是最佳的。由于小波變換的抽取方面,只有空間LL頻帶不是初始視頻的整個(gè)低通信號的完全表示。即,不考慮高通信號或當(dāng)缺少高通信號時(shí),在相位位置的一半處,丟失低通信號部分。抽取的一個(gè)結(jié)果是空間LL頻帶的偏移變量屬性。由于LL頻帶的不完整性,當(dāng)獲得內(nèi)插低通幀時(shí),在LL頻帶中直接執(zhí)行內(nèi)插(如方程式(12)所示)可能不是最佳的。
以及備選方案是通過轉(zhuǎn)換成超完整小波表示,執(zhí)行半像素內(nèi)插。通過完整-超完整DWT(未示出)或通過逆DWT和超完整DWT(“OCDWT”)(如方程式13中所示),可以產(chǎn)生來自SL子帶的超完整表示。該IDWT加OCDW組合充當(dāng)一級內(nèi)插。在超完整(overcomplete)小波域中,通過傳統(tǒng)的內(nèi)插,執(zhí)行剩余級內(nèi)插,在方程式(13)中,表示為INTPOC-LL。
到傳統(tǒng)的超完整小波表示的轉(zhuǎn)換僅在SL域中提供半像素內(nèi)插。為支持SL域中的四分之一像素運(yùn)動矢量精度或更細(xì)微運(yùn)動,解碼器可以使用連續(xù)脈沖超完整小波變換(“CPOCWT”)。對SL子帶中的四分之一像素位置,解碼器在空間域中執(zhí)行內(nèi)插,如方程式(14)所示。然后,通過DWT,獲得內(nèi)插幀的低通子頻帶。DWT是縮放靈敏的操作。為匹配編碼器中的DWT,解碼器在內(nèi)插幀中的m采樣像素上執(zhí)行OCDWT,其中m×m是OCDWT前的空間域內(nèi)插的因子。在方操作(14)中,DSDWT表示將空間域內(nèi)插幀下采樣成許多子幀,在各個(gè)子幀上執(zhí)行OCDWT,以及向后交錯所獲得的系數(shù)。同樣地,DSDWT是一種OCDWT。
根據(jù)方程式(12)至(14)的每一個(gè),解碼器在m×m基準(zhǔn)圖像上,在SL域中,執(zhí)行運(yùn)動補(bǔ)償預(yù)測。
2.DWT和MCP的位置交換對IBIMCTF,即使用空間域內(nèi)插代替帶內(nèi)內(nèi)插,如在(14)中,用于MCP的基準(zhǔn)圖片仍然是低通幀-MCP出現(xiàn)在小波域中。與編碼器相比,交換DWT和MCP的期望順序(其中,在編碼器中,MCP在DWT前)。然而,由于DWT的偏移變化屬性,DWT和MCP操作是不可交換的DWT(MCPSD(FSD))≠M(fèi)CPSL(DWT(FSD)) (15)和IDWT(MCPSL(FSL))≠M(fèi)CPSD(IDWT(FSL))(16)假定為簡化起見,MCP包含簡單的、基于塊的運(yùn)動偏移操作,方程式(15)能表示如下。假定將當(dāng)前幀劃分成塊B={Bi|i=1,…,m},以及用于這些塊的運(yùn)動矢量為MV={mvi|i=1,…,m}。Frefi是基準(zhǔn)幀F(xiàn)ref的新版本,其中保留僅由塊Bi引用的像素以及將其他像素設(shè)置成零。
Fpred(x)=Σi=1mFrefi(x+mvi)---(17)]]>DWT(MCP(Fref))=DWT(Σi=1mFrefi(x+mvi))]]>=Σi=1mDWT(Frefi(x+mvi))≠Σi=1m(DWTFrefi(x+mvi))---(18)]]>=MCP(Σi=1mDWT(Frefi))=MCP(DWT(Σi=1mFrefi))]]>≠MCP(DWT(Fref))]]>(18)中的第一不等式是由于DWT的偏移變化屬性。(18)中的第二不等式是由于當(dāng)運(yùn)動非常復(fù)雜時(shí),在MCP中的運(yùn)動偏移期間重疊和未覆蓋。
一個(gè)可能的解決方案是在DWT前,將MCP移動到空間域,如方程式(19)所示。在這種情況下,MCP是SDIMCTF的一部分。
3.由于運(yùn)動偏移的功率譜泄漏在3D小波編碼中,通常假定空間-時(shí)間子帶為獨(dú)立。在許多應(yīng)用中,隨意丟失空間-時(shí)間子帶,特別是高通子帶。在具有MCTF的3D子帶編碼中,然而,由于由運(yùn)動偏移引起的功率譜泄漏,相鄰幀的低通子帶和高通子帶具有類似。
當(dāng)根據(jù)運(yùn)動,僅將信號包含在一個(gè)空間子帶的幀偏移時(shí),部分信號將傳送到其他空間子帶。圖28示例說明用于簡單全局運(yùn)動的現(xiàn)象。在圖28的第一行中,將初始幀Org分成兩部分SL信號A和SH信號B。在第二行中,通過簡單圖像域運(yùn)動偏移(“IMS”),在空間域中偏移僅包含SL信號A的幀,以及偏移幀現(xiàn)在包含SH信號。類似地,在圖28的第三行中,在空間域中偏移僅包含SH信號B的幀,以及偏移的幀現(xiàn)在包含一SL信號。當(dāng)運(yùn)動復(fù)雜時(shí),頻譜泄漏問題變得更嚴(yán)重。
因此,通過編碼器中的SDMCTF,但使用SL信息的IMCTF,基準(zhǔn)幀的SL分量預(yù)測幀的SH分量部分。因此,即使解碼器在開始時(shí),僅具有SL子帶信息,在每級IMCTF的中間結(jié)果中,解碼器獲得有意義的SH子帶信息。當(dāng)解碼器使用SL分辨率緩沖器來保持IMCTF間的中間結(jié)果時(shí),然而,這丟失SH子帶信息,在下一IMCTF級中,這些信息或許對MCP是有用的。
此外,基準(zhǔn)幀的SH分量預(yù)測幀的SL分量部分。為編碼SL分量,編碼器可用利用基準(zhǔn)幀中的SH子帶信息。當(dāng)解碼器不能存取這些SH分量時(shí),缺少SH子帶導(dǎo)致一種漂移。(例如,當(dāng)編碼器從全分辨率幀(包括SH信息),執(zhí)行MCP時(shí),但解碼器僅具有SL信息)。結(jié)果是PSNR最高限度-PSNR曲線以相對低比特率水平旋轉(zhuǎn)。
C.用于解碼SDMCTF的改進(jìn)方案的例子-具有空間可縮放性的編碼視頻在一些實(shí)施例中,當(dāng)解碼用于低空間分辨率輸出的SDMCTF編碼的視頻時(shí),3D子帶解碼器使用幾個(gè)技術(shù)的任何一個(gè)來提高解碼性能。這些技術(shù)逐步提高解碼性能,以及大部分不要求改變編碼器和傳送比特流??偟膩碚f,這些技術(shù)以不同級復(fù)雜性,提供具有不同選項(xiàng)的靈活解碼方案。
在一些方案中,解碼器將額外資源分配給解碼。通常,當(dāng)將額外的資源專用于解碼,解碼器重構(gòu)更好的視頻。此外,當(dāng)額外緩沖器資源專用于存儲基準(zhǔn)圖片信息時(shí),解碼器重構(gòu)更好的視頻。
或者,編碼器或解碼器強(qiáng)調(diào)用于解碼SL視頻的SH子帶信息。例如,為將SH子帶信息包含在IMCTF判決中,即使當(dāng)解碼器僅重構(gòu)SL分辨率視頻,比特流抽取器將帶寬分配給SH系數(shù),而不完全丟失它們。
該節(jié)中的各個(gè)圖(即圖29至34)表示一級空間可縮放性。另外,3D子帶解碼器輸出用于多級空間可縮放性的視頻。沿相同行,該節(jié)中的各個(gè)圖表示輸出用于以CIF分辨率,通過用MCTF編碼的初始視頻的QCIF視頻的3D子帶解碼器。在此描述的技術(shù)和工具不限于使用CIF和QCIF分辨率。
對該節(jié)中的許多圖,運(yùn)動矢量具有以初始分辨率的半像素精度和SL分辨率的四分之一像素精度。這影響諸如子像素內(nèi)插的操作。另外,運(yùn)動矢量具有其他精度,以及解碼器相應(yīng)地執(zhí)行或多或少子像素內(nèi)插。此外,盡管該節(jié)中的幾個(gè)圖表示用于內(nèi)插的Sinc濾波器,另外解碼器使用另一類型的濾波器(例如雙直線、雙三次)。
最后,本節(jié)中的各附圖示出了二重DWT和IDWT操作?;蛘撸獯a器適用其它操作用于空間變換和逆空間變換。
1.方案AIBIMCTF(基線)為了與稍后方案比較,圖29示例說明IBIMCTF,而沒有在解碼期間專用的另外的計(jì)算或緩沖器資源。圖29中的方案對應(yīng)于圖26的IBIMCTF解碼器(2650)的一級IMCTF。圖29中所示的操作出現(xiàn)在小波域中。
根據(jù)圖29,3D子帶解碼器使用SL緩沖器(2910)存儲SL子帶信息,用于用作基準(zhǔn)圖片信息。SL子帶信息的有效分辨率是QCIF。
解碼器使用4×4Sinc濾波器,執(zhí)行子像素內(nèi)插(2920)。(用于SL域中的MCP的運(yùn)動矢量精度是四分之一像素精度)。這產(chǎn)生子像素內(nèi)插基準(zhǔn)幀(2930)。內(nèi)插基準(zhǔn)幀的有效分辨率為4CIF(704×576像素)。
解碼器將內(nèi)插的基準(zhǔn)幀(2930)用于基準(zhǔn)圖片信息,在SL域中執(zhí)行MCP(2940)。MCPSL(2940)在SL域中產(chǎn)生預(yù)測(2950)。同樣地,預(yù)測(2950)的有效分辨率為QCIF。
2.方案B最佳IBIMCTF在第二類型的方案中,3D子帶解碼器通過將內(nèi)插操作和/或MCP操作移動到空間域中,提高IMCTF。解碼器仍然將SL分辨率緩沖器用于基準(zhǔn)圖像信息。圖30表示用于第二類型方案的通用框架,其中將逆時(shí)間變換表示為最佳逆時(shí)間變換OTi-1。圖31,32和33表示根據(jù)第二類型的不同變化的一級IMCTF的例子。
a.方案B1根據(jù)如圖31所示的方案(方案B1),3D子帶解碼器使用SL緩沖器(3110)來存儲SL子帶信息,用作基準(zhǔn)圖片信息。解碼器使用緩沖的SL子帶信息,執(zhí)行IDWT操作(3120)。在IDWT操作(3120)中,將SH子帶視為空(SH=0)。從而IDWT操作(3120)從SL子帶信息產(chǎn)生基準(zhǔn)幀(3130)。當(dāng)SL子帶的有效分辨率是QCIF時(shí),基準(zhǔn)幀(3130)的有效分辨率為CIF。
然后,解碼器在基準(zhǔn)幀(3130)上執(zhí)行OCDWT(3140)操作,產(chǎn)生超完整表示(3150)。另外,解碼器執(zhí)行完整-超完整DWT,而不是IDWT(3120)和OCDWT(3140)。任一方法,超完整表示(3150)包括適合于半像素MCP的相移值。
在準(zhǔn)備四分之一像素MCP中,然后,解碼器使用2×2Sinc濾波器,執(zhí)行子像素內(nèi)插(3160)。這產(chǎn)生子像素內(nèi)插基準(zhǔn)(3170)。內(nèi)插基準(zhǔn)幀(3170)的有效分辨率是4CIF。
解碼器將內(nèi)插的基準(zhǔn)幀(3170)用于基準(zhǔn)圖像信息,在SL域中執(zhí)行MCP(3180)。MCPSL(3180)在SL域中產(chǎn)生預(yù)測(3190)。同樣地,預(yù)測(3190)的有效分辨率為QCIF。
b.方案B2根據(jù)圖32中所示的方案(方案B2),3D子帶解碼器使用SL緩沖器(3210)來存儲SL子帶信息,用作基準(zhǔn)圖片信息。解碼器使用緩沖的SL子帶信息,執(zhí)行IDWT操作(3220)。在IDWT操作(3220)中,將SH子帶視為空(SH=0)。IDWT操作(3220)從而從SL子帶信息產(chǎn)生基準(zhǔn)幀(3230)。當(dāng)SL子帶的有效分辨率為QCIF時(shí),基準(zhǔn)幀(3230)的有效分辨率為CIF。
解碼器使用2×2Sinc濾波器,執(zhí)行子像素內(nèi)插(3240)。通過按2的倍數(shù),水平和垂直增加的分辨率,這產(chǎn)生子像素內(nèi)插基準(zhǔn)幀(3250)。內(nèi)插基準(zhǔn)幀(3250)的有效分辨率為4CIF。
然后,解碼器對內(nèi)插基準(zhǔn)幀(3250)執(zhí)行DSDWT(3260)操作。這產(chǎn)生基準(zhǔn)幀信息的超完整表示(3270)。超完整表示(3270)包括適合于四分之一像素MCP的相移值。
解碼器將內(nèi)插基準(zhǔn)幀(3270)用于基準(zhǔn)圖片信息,在SL域中執(zhí)行MCP(3280)。MCPSL(3280)在SL域中產(chǎn)生預(yù)測(3290)。同樣地,預(yù)測(3290)的有效分辨率為QCIF。
c.方案B3根據(jù)圖33所示的方案(方案B3),3D子帶解碼器使用SL緩沖器(3310)來存儲SL子帶信息,用作基準(zhǔn)圖片信息。解碼器使用緩沖的SL子帶信息,執(zhí)行IDWT操作(3320)。在IDWT操作(3320)中,將SH子帶視為空(SH=0)。從而IDWT操作(3330)由SL子帶信息產(chǎn)生基準(zhǔn)幀(3330)。當(dāng)SL子帶的有效分辨率為QCIF,基準(zhǔn)幀(3330)的有效分辨率為CIF。
解碼器使用2×2Sinc濾波器,執(zhí)行子像素內(nèi)插(3340)。通過按2的倍數(shù)水平和垂直增加的分辨率,這產(chǎn)生子像素內(nèi)插基準(zhǔn)幀(3350)。內(nèi)插基準(zhǔn)幀(3350)的有效分辨率為4CIF。
使用用于基準(zhǔn)圖片信息的內(nèi)插基準(zhǔn)幀(3350),解碼器在空間域中執(zhí)行MCP(3360)。MCPSD(3360)(具有半像素精度的運(yùn)動矢量)在空間域中產(chǎn)生預(yù)測(3370)。在這種情況下,預(yù)測(3370)的有效分辨率為CIF。
解碼器在預(yù)測(3370)上執(zhí)行DWT操作(3380),產(chǎn)生預(yù)測(3370)的低空間分辨率版本(3390)。低空間分辨率預(yù)測(3390)的有效分辨率為QCIF。
3.方案CSDIMCTF圖34示例說明具有在譯碼期間專用的另外的計(jì)算和緩沖資源的SDIMCTF。圖34中的方案對應(yīng)于圖26的SDIMCTF解碼器(2600)的一級IMCTF。圖34所示的操作出現(xiàn)在空間域中。與方案B3相比,方案C中的基準(zhǔn)圖片緩沖器為SD緩沖器,以及每級IMCTF,解碼器不執(zhí)行IDWT和DWT操作。用這種方式,保留中間結(jié)果中的SH信息,用在稍后的SDIMCTF中。
根據(jù)方案C,3D子帶解碼器使用SD緩沖器(3410)來存儲空間域信息,用作基準(zhǔn)圖片信息。對第一逆時(shí)間變換,最終逆時(shí)間變換從SL子帶信息產(chǎn)生SD緩沖器(3410)中的信息。對稍后的逆時(shí)間變換,從稍前逆時(shí)間變換,保留SD緩沖器(3410)中的信息,以及SD緩沖器(3410)中的信息可以包括由于功率譜泄漏生成的SH信息。SD緩沖器(3410)中的信息的有效分辨率為CIF。
解碼器使用2×2Sinc濾波器,執(zhí)行子像素內(nèi)插(3420)。通過按2的倍數(shù)水平和垂直增加的分辨率,這產(chǎn)生子像素內(nèi)插基準(zhǔn)幀(3430)。內(nèi)插基準(zhǔn)幀(3430)的有效分辨率為4CIF。
解碼器將內(nèi)插基準(zhǔn)幀(3430)用于基準(zhǔn)圖片信息,在空間域中執(zhí)行MCP(3440)。MCPSD(3440)(通過半像素精度運(yùn)動矢量)在空間域中產(chǎn)生預(yù)測(3450)。在這種情況下,預(yù)測(3450)的有效分辨率為CIF。
4.方案D具有SH系數(shù)的SDIMCTF為處理SH漂移問題,將帶寬分配到比特流抽取器中的SH系數(shù)。這與當(dāng)對SL分辨率視頻輸出解碼時(shí),簡單地丟去SH子帶信息的傳統(tǒng)的空間可縮放性不同。
為確定用于SH系數(shù)的最佳速率,測量用于降低低空間分辨率視頻的失真的SH系數(shù)貢獻(xiàn)。(相反,通過傳統(tǒng)的空間可縮放實(shí)踐,測量用于降低整個(gè)、初始空間分辨率視頻的失真的SH系數(shù)貢獻(xiàn))。換句話說,即使僅當(dāng)輸出低空間分辨率視頻時(shí),考慮用于SH子帶的增益因子,以便說明在降低SL視頻中的失真中,SH子帶的用處(例如提高運(yùn)動補(bǔ)償預(yù)測精度)。用這種方式,SH子帶信息很可能向前推進(jìn)到解碼SL視頻中。
在方案D中,當(dāng)解碼SL視頻時(shí),使用用于SH子帶的當(dāng)前增益因子,就象解碼器正抽取初始分辨率視頻一樣。允許SL和SH子帶的系數(shù)包括在最后比特流中。另外,對用于初始空間分辨率解碼和SL解碼的SH子帶,計(jì)算不同增益因子。
在方案D中,當(dāng)解碼SL視頻時(shí),3D子帶解碼器使用圖34中所示的解碼框架,用于一級IMCTF?;鶞?zhǔn)圖片緩沖器(3410)為SD緩沖器。對第一逆時(shí)間變換,SD緩沖器包括使用SL子帶信息和(至少一些)SH子帶信息重構(gòu)的基準(zhǔn)圖片信息,即使最終輸出視頻將有效地僅具有SL分辨率。也保留中間結(jié)果中的SH信息,用在稍后的SDIMCTF中。
解碼器使用2×2Sinc濾波器,執(zhí)行子像素內(nèi)插(3420)。通過按2的倍數(shù)水平和垂直增加的分辨率,產(chǎn)生子像素內(nèi)插基準(zhǔn)幀(3430)。解碼器將內(nèi)插基準(zhǔn)幀(3430)用于基準(zhǔn)圖片信息,在空間域中執(zhí)行MCP(3440)。MCPSD(3440)(具有半像素精度運(yùn)動矢量)在空間域中產(chǎn)生預(yù)測(3450)。
5.比較下表比較方案A、B1、B2、B3、C和D的特性。
另外,當(dāng)解碼用于低空間分辨率輸出的SDMCTF編碼的視頻時(shí),解碼器使用空間域內(nèi)插、時(shí)間域運(yùn)動補(bǔ)償、空間域基準(zhǔn)圖片緩沖器的一些其他組合和/或使用SH信息來提高解碼性能。
VI.連續(xù)相位超完整子帶傳送IBMCTF和IBIMCTF的一個(gè)問題是如何降低小波變換的偏移方差運(yùn)動估計(jì)和補(bǔ)償?shù)挠绊懸粓D像域中的偏移/運(yùn)動不直接映射到變換域。一些技術(shù)將整數(shù)像素運(yùn)動映射到變換域(見例如Y.A.Andreopoulos et al.,“A New Method forComplete-to-Overcomplete Discrete Wavelet Transforms”,Proc.IEEEConf.Digital Signal Proc.(2002)和X.Li,L.Kerofsky,S.Lei“All-phase MotionCompensated Prediction for High Performance Video Coding”,Proc.ICIP.vol.3,pp.538-541(2001))。該節(jié)描述用于將部分像素運(yùn)動映射到變換域中的相位變化的技術(shù)。通過這樣做,能更高精度地執(zhí)行運(yùn)動估計(jì)和補(bǔ)償,共能顯著地影響編碼性能。
該節(jié)通過一級、一維小波變換的例子,示例說明連續(xù)相位超完整子帶變換(“CPOST”)。p-像素CPOST的分解過程具有四個(gè)順序級(1)p-像素內(nèi)插,(2)連續(xù)偏移,(3)下采樣,以及(4)小波變換。
假定用于(p=1,1/2,1/4,1/8,...)]]>的連續(xù)p像素相位超完整變換。當(dāng)p=1時(shí),CPOST是整數(shù)像素相位超完整情形。其他p值提供子像素相位超完整情形。假定輸入信號是離散時(shí)間域序列{x(n)},n=0,1,2,3,....。編碼器或解碼器首先執(zhí)行{x(n)}的p-像素內(nèi)插,然后連續(xù)偏移p-像素內(nèi)插序列 次以及下采樣偏移的序列。這產(chǎn)生{x(n)}的連續(xù)相位偏移序列集,如由{xpi(n)},i=0,1,...,2p-1]]>所述。最后,編碼器或解碼器在{xpi(n)}上執(zhí)行小波分解變換。
對p=_的情形,連續(xù)相位偏移序列如下。{y(n)}是由{x(n))的1/2像素內(nèi)插點(diǎn)組成的序列。
...x(n)y(n)x(n+1)y(n+1)x(n+2)y(n+2)x(n+3)y(n+3)...
0-phase ...x(n) x(n+1) x(n+2)...
_-phase ...y(n) y(n+1) y(n+2)...
1-phase ...x(n+1) x(n+2) x(n+3)...
通過分別沿水平和垂直方向執(zhí)行兩個(gè)順序的1D CPOSTs,能實(shí)現(xiàn)2D CPOST。
在小波域中,使用預(yù)測濾波器集Fpi(z)i=0,1,...,2p-1,]]>能獲得連續(xù)p-像素相位偏移序列。這些濾波器等效于連續(xù)地偏移子像素內(nèi)插序列和下采樣這些偏移的序列。p-像素CPOST的分解過程能作為濾光器的應(yīng)用提供給{x(n)},后跟用低通濾波器GL(z)處理結(jié)果以及通過高通濾波器GH(z)單獨(dú)地用于小波分解變換,然后下采樣。對于(i=0,1,2,...,2p-1)]]>的lpi(n)和hpi(n)分別是CPOST的低通和高通系數(shù)。在z域中,X(z)和Xpi(z)分別是{x(n)}和{xpi(n)}的z變換,Lpi(z)和Hpi(z)分別是lpi(b)和hpi(n)的z變換。
Xpi(z)=Fpi(z)X(z)i=0,1,2,...,2p-1---(20)]]>Lpi(z)=1/2[GL(z1/2)Xpi(z1/2)+GL(-z1/2)Xpi(-z1/2)]]]>Hpi(z)=1/2[GH(z1/2)Xpi(z1/2)+GH(-z1/2)Xpi(-z1/2)]---(21)]]>i=0,1,2,3,...,2p-1]]>p-像素CPOST的分解過程對應(yīng)于矩陣表達(dá)式Lp0(z)Hp0(z)=12GL(z1/2)GL(-Z1/2)GH(z1/2)GH(-z1/2)X(z1/2)X(-z1/2)---(22)]]>Lpi(z)Hpi(z)=12GL(z1/2)GL(-z1/2)GH(z1/2)GH(-z1/2)Xpi(z1/2)Xpi(-z1/2)---(23)]]>i=1,2,3,...,2p-1]]>表達(dá)式(22)提供初始序列的小波分解變換,而沒有偏移。表達(dá)式(23)提供連續(xù)子相位偏移序列的小波分解變換。表達(dá)式(23)和(24)組成CPOST。關(guān)于Lpi(z),Hpi(z)和Lp0(z),Hp0(z)間的關(guān)系。從(20)至(23)Lpi(z)Hpi(z)=12GL(z1/2)GL(-z1/2)GH(z1/2)GH(-z1/2)Fpi(z1/2)00Fpi(-z1/2)X(z1/2)X(-z1/2)---(24)]]>從(220和(24)Lpi(z)Hpi(z)=G(z)Fpi(z1/2)00Fpi(-z1/2)G-1(z)L0(z)H0(z)---(25)]]>其中G(z)=GL(z1/2)GL(-z1/2)GH(z1/2)GH(-z1/2)]]>以及其中,G-1(z)是G(z)的逆矩陣。
根據(jù)(25),從初始序列(即0相位偏移序列)的小波變換,能獲得變換矩陣Tpi(z)和逆變換矩陣ITpi(z)以便獲得子像素移相序列的小波變換。
Tpi(z)=G(z)Fpi(z1/2)00Fpi(-z1/2)G-1(z)---(26)]]>
ITpi(z)=[Tpi(z)]-1=G-1(z)Fpi(z1/2)00Fpi(-z1/2)-1G(z)---(27)]]>從(26),如果存在表達(dá)式(28),在超完整小波變換后的子像素內(nèi)插的結(jié)果等于在離散時(shí)間域中,子像素內(nèi)插后的超完整小波變換的結(jié)果。否則,在超完整小波變換后的子像素內(nèi)插的結(jié)果不等于在離散時(shí)間域中,子像素內(nèi)插后的超完整小波變換的結(jié)果。
Fpi(z1/2)00Fpi(-z1/2)G-1(z)=G-1(z)Fpi(z1/2)00Fpi(-z1/2)---(28)]]>通常,表達(dá)式(28)不存在,這建議不交換用于帶內(nèi)視頻編碼的子像素內(nèi)插和超完整小波變換的順序。根據(jù)(25),然而,能由其濾波變換系數(shù)導(dǎo)出初始序列的CPOST系數(shù)。
CPOST方法不僅實(shí)現(xiàn)整數(shù)像素相位超完整小波變換,而且實(shí)現(xiàn)子像素相位超完整小波變換。用于具有5-3小波變換的p=_和6-抽頭內(nèi)插濾波器的連續(xù)相位超完整變換矩陣系數(shù)如下。用于變換矩陣T_1(z),T_2(z)和T_3(z)的每個(gè)元素的系數(shù)如下T_1(0,0)=
T_1(0,1)=
T_1(1,0)=
T_1(1,1)=[-0.0098 0.1582 0.3633-0.5352 0.0215 0.0020]T_2(0,0)=[-0.0625 0.5625 0.5625-0.0625]T_2(0,1)=
T_2(1,0)=[-0.25 0.5-0.25]T_2(1,1)=
T_3(0,0)=[-0.0020-0.0215 0.2227 0.8867-0.0957 0.0098]T_3(0,1)=
T_3(1,0)=[-0.0078-0.1406 0.3438-0.2344 0.0391]T_3(1,1)=
鑒于可以應(yīng)用所公開的發(fā)明的原理的許多可能的實(shí)施例,應(yīng)意識到所示的實(shí)施例僅是本發(fā)明的優(yōu)選例子,不應(yīng)當(dāng)視為限制本發(fā)明的原理。相反,本發(fā)明的原理由下述權(quán)利要求定義。因此,要求所有落在這些權(quán)利要求的范圍和精神內(nèi)均視為本發(fā)明。
權(quán)利要求
1.一種運(yùn)動補(bǔ)償時(shí)間濾波或逆運(yùn)動補(bǔ)償時(shí)間濾波的方法,包括預(yù)測階段和更新階段,所述方法包括自適應(yīng)更新信息,其中,所述自適應(yīng)至少部分地基于人類視覺系統(tǒng)的模型;以及將所述自適應(yīng)的結(jié)果應(yīng)用在編碼或解碼中。
2.如權(quán)利要求1所述的方法,其特征在于,所述模型是最小可察覺差模型。
3.如權(quán)利要求1所述的方法,其特征在于,編碼器和解碼器將相同的度量用于所述自適應(yīng)。
4.如權(quán)利要求1所述的方法,其特征在于,所述自適應(yīng)包括設(shè)置一個(gè)或多個(gè)圖像相關(guān)閾值。
5.如權(quán)利要求4所述的方法,其特征在于,所述一個(gè)或多個(gè)圖像相關(guān)閾值根據(jù)空間鄰域中的采樣值的方差改變。
6.如權(quán)利要求4所述的方法,其特征在于,所述一個(gè)或多個(gè)圖像相關(guān)閾值對平坦區(qū)域較低,而對噪聲區(qū)較高。
7.如權(quán)利要求4所述的方法,其特征在于,所述一個(gè)或多個(gè)圖像相關(guān)閾值根據(jù)對比度調(diào)整調(diào)諧參數(shù)改變,以及其中,通過強(qiáng)度參數(shù),進(jìn)一步修改所述一個(gè)或多個(gè)圖像相關(guān)閾值。
8.如權(quán)利要求1所述的方法,其特征在于,所述自適應(yīng)包括通過低于適用閾值的絕對值的更新信息的那些部分;以及將更新信息的其他部分限制到如由更新信息的其他部分的符號修改的適用閾值。
9.如權(quán)利要求1所述的方法,其特征在于,還包括,在編碼期間在預(yù)測階段,對一個(gè)或多個(gè)第一圖像的每一個(gè),參考一個(gè)或多個(gè)第二圖像,計(jì)算用于所述第一圖像的運(yùn)動補(bǔ)償預(yù)測;以及計(jì)算將高通圖像,作為所述第一圖像和所述運(yùn)動補(bǔ)償預(yù)測間的差值;以及在所述一個(gè)或多個(gè)高通圖像上執(zhí)行運(yùn)動補(bǔ)償,其中,所述一個(gè)或多個(gè)運(yùn)動補(bǔ)償高通圖像有助于更新信息,其中,所述自適應(yīng)包括將所述更新信息與所述一個(gè)或多個(gè)第二圖像的一個(gè)組合以形成低通圖像,以及其中,所述應(yīng)用包括后續(xù)的空間分解和/或熵編碼。
10.如權(quán)利要求1所述的方法,其特征在于,還包括在解碼期間,在一個(gè)或多個(gè)高通圖像上執(zhí)行運(yùn)動補(bǔ)償,其中,所述一個(gè)或多個(gè)運(yùn)動補(bǔ)償高通圖像有助于更新信息,其中,所述自適應(yīng)包括將所述更新信息與低通圖像組合,以及其中,所述應(yīng)用包括后續(xù)的運(yùn)動補(bǔ)償預(yù)測和/或顯示。
11.一種計(jì)算機(jī)可讀介質(zhì),存儲計(jì)算機(jī)可執(zhí)行指令,用于使用其編程的計(jì)算機(jī)系統(tǒng)執(zhí)行一種方法,包括至少部分地基于一個(gè)或多個(gè)感知準(zhǔn)則,計(jì)算用于基于提升的運(yùn)動補(bǔ)償時(shí)間過濾或逆運(yùn)動補(bǔ)償時(shí)間過濾的一個(gè)或多個(gè)更新閾值;以及根據(jù)所述一個(gè)或多個(gè)更新閾值,確定更新信息閾值。
12.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,對要被更新的多個(gè)圖像的每一個(gè),計(jì)算每個(gè)圖像的一個(gè)或多個(gè)更新閾值。
13.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述一個(gè)或多個(gè)更新閾值根據(jù)空間鄰域中的采樣值的方差改變。
14.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述一個(gè)或多個(gè)更新閾值對平坦區(qū)域較低,而對噪聲區(qū)較高。
15.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述一個(gè)或多個(gè)更新閾值根據(jù)對比度調(diào)整調(diào)諧參數(shù)改變。
16.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述一個(gè)或多個(gè)更新閾值根據(jù)強(qiáng)度參數(shù)改變。
17.如權(quán)利要求18所述的方法,其特征在于,所述閾值確定包括通過低于所述一個(gè)或多個(gè)更新閾值的適用更新閾值的更新信息的那些部分;以及將更新信息的其他部分限制到如由更新信息的其他部分的符號修改的適用更新閾值。
18.一種視頻編碼器,包括如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì)。
19.一種視頻解碼器,包括如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì)。
20.一種工具,包括用于存儲視頻圖像信息的多個(gè)緩沖器中的一個(gè),以及用于根據(jù)基于感知準(zhǔn)則和緩沖的視頻圖像信息計(jì)算的更新閾值,在運(yùn)動補(bǔ)償時(shí)間濾波或逆運(yùn)動補(bǔ)償時(shí)間濾波期間,自適應(yīng)地執(zhí)行更新操作的裝置。
全文摘要
描述用于可縮放視頻編碼和解碼的技術(shù)和工具。例如,視頻編碼器和解碼器分別在基于提升的運(yùn)動補(bǔ)償時(shí)間濾波和逆運(yùn)動補(bǔ)償?shù)臅r(shí)間濾波中,執(zhí)行自適應(yīng)更新操作。在預(yù)測階段,編碼器計(jì)算用于奇數(shù)圖像的運(yùn)動補(bǔ)償預(yù)測和將高通圖像計(jì)算為奇數(shù)圖像和預(yù)測間的差值。對更新階段,編碼器在高通圖像上執(zhí)行運(yùn)動補(bǔ)償(以及可能另一高通圖像)以便計(jì)算運(yùn)動補(bǔ)償更新?;诟兄獪?zhǔn)則,編碼器將更新和偶數(shù)圖像自適應(yīng)組合以形成低通圖像。對更新階段,解碼器在一個(gè)或多個(gè)高通圖像上執(zhí)行運(yùn)動補(bǔ)償以便計(jì)算運(yùn)動補(bǔ)償更新。基于感知準(zhǔn)則,編碼器將更新和低通圖像組合以重構(gòu)偶數(shù)幀。
文檔編號H04N7/26GK1735208SQ20051008471
公開日2006年2月15日 申請日期2005年7月12日 優(yōu)先權(quán)日2004年7月12日
發(fā)明者F·吳, J·徐, L·宋 申請人:微軟公司