專利名稱:視頻幀處理方法,視頻流播放方法及視頻幀記錄裝置的制作方法
技術領域:
本發明有關于視頻幀的處理,更具體來說,有關于處理具有圖像配準(imageregistration)信息的視頻巾貞的方法及相關裝置。
背景技術:
·全景視頻(panoramic video)是由描述周圍場景(surrounding scene)的一系列全景視頻幀組成的視頻。因此,當全景視頻在顯示裝置上播放時,觀看者能夠對周圍場景有360度視角(360-degree view)。對于一般用戶而言,倉Il建全景視頻內容并不容易。目前已經開發出用于產生全景視頻的多種不同系統。舉例來說,創建全景視頻的傳統方法可以分為四類,包括專業光學設備、同步攝像機(synchronized cameras)、全景視頻紋理(texture)以及前景和背景分割(foreground and background segmentation)。然而,每種傳統方法在實際實施時都存在某些缺點。專業光學設備的方法會限制所捕獲場景的視頻分辨率(video resolution)。同步攝像機的方法需要許多個攝像機,從而不適用于正常使用條件。全景視頻紋理方法的圖割算法(graph cut algorithm)需要巨大的計算量,并且在復雜移動對象場景中會產生偽像(artifact)。前景和背景分割的方法需要極好的對象分割及追蹤,而即便使用立體攝像機(stereo camera),極好的對象分割及追蹤在目前仍然是一個公開的難題。除了專業光學設備的方法,其他方法均需要縫合(stitch)多個視頻段。另外,縫合是生成重影(ghosting)或偽像的主要原因。目前尚無用于分析及縫合大范圍不同場景而不產生重影的理想算法。此外,所有傳統全景觀看(viewing)系統要求裁剪和扭曲(cropping and warping)視頻巾貞以顯示正確的透視視圖(perspectiveview)。為顯示每一視頻幀,扭曲算法需要高計算量,并且及其耗費時間,尤其在低成本手持(hand-held)設備中,上述現象尤甚。因此,需要一種創新的設計,其能夠簡單并有效的創建和顯示全景視頻。
發明內容有鑒于此,本發明特提供一種視頻幀處理方法,視頻流播放方法及視頻幀記錄裝置。本發明實施例提供了一種處理多個視頻幀的方法,包含獲取多個視頻幀的圖像配準信息,其中圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統;以及使用圖像配準信息,在多個視頻幀中搜尋對應于選定場景的多個目標視頻幀。本發明實施例又提供了一種視頻流播放方法,包含接收選定場景的播放請求;搜尋用于多個目標視頻幀的視頻流,其中多個目標視頻幀對應于選定場景的圖像配準信息,圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統;以及依據在視頻流中找到的多個目標視頻幀執行播放操作。本發明實施例另提供了一種用于記錄多個視頻幀的裝置,包含視頻處理電路及信息采集電路。視頻處理電路依據多個視頻幀產生視頻流;信息采集電路獲取多個視頻幀的圖像配準信息,以及將圖像配準信息記錄入視頻流中,其中圖像配準信息用于將多個不同視頻巾貞轉換為同一坐標系統。以上所述的視頻幀處理方法,視頻流播放方法及視頻幀記錄裝置能夠保證輸出視頻質量,并且具有較低的計算復雜度。
圖1是依據本發明一個范例性實施例的記錄裝置的示意圖。圖2是依據本發明另一范例性實施例的記錄裝置的示意圖。圖3是圖1所示的記錄裝置的替代設計。圖4是圖2所示的記錄裝置的替代設計。圖5為將被記錄裝置處理的視頻幀的范例性排布的示意圖。圖6為將被記錄裝置處理的視頻幀的另一范例性排布的示意圖。
`
圖7是依據范例性實施例的記錄多個視頻幀的方法流程圖。圖8是依據本發明的范例性實施例的播放裝置的示意圖。圖9是基于播放請求的范例性視頻幀選擇的示意圖。圖10是基于播放請求的另一范例性視頻幀選擇的示意圖。圖11是基于播放請求的又一范例性視頻幀選擇的示意圖。圖12是范例性觀看幀尺寸歸一化操作的示意圖。圖13是范例性幀對齊處理的示意圖。圖14是依據一范例性實施例的視頻流播放方法的流程圖。圖15是依據本發明的另一范例性實施例的播放裝置的示意圖。圖16是依據另一范例性實施例的視頻流播放方法的流程圖。圖17是顯示于電子設備的顯示屏上的動態壁紙的示意圖。圖18是由于桌面滾動命令顯示于顯示屏上的另一動態壁紙的示意圖。
具體實施方式在說明書及權利要求書當中使用了某些詞匯來指稱特定的組件。所屬領域中的技術人員應可理解,制造商可能會用不同的名詞來稱呼同樣的組件。本說明書及權利要求書并不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的基準。在通篇說明書及權利要求書當中所提及的「包含」是開放式的用語,故應解釋成「包含但不限定于」。另外,「耦接」一詞在此包含任何直接及間接的電氣連接手段。因此,若文中描述第一裝置耦接于第二裝置,則代表第一裝置可直接電氣連接于第二裝置,或透過其它裝置或連接手段間接地電氣連接至第二裝置。本發明的主要設想是通過圖像配準信息索引視頻流的每一視頻幀,通過利用圖像配準信息搜尋對應于選定場景的多個目標視頻幀,以及依據找到的目標視頻幀執行播放操作。以這種方式,選定視角(viewing angle)的連續視頻巾貞的重疊區域被顯示出來。此夕卜,視頻巾貞的圖像配準結果用于交互式導航(interactive navigation)和視頻穩定技術(video stabilization),而非用于縫合。裁剪操作就像是在做視頻穩定,以便同一視角中的視頻序列在沒有全局運動信息的情況下能夠被穩定的顯示。本發明的全景視頻系統能夠依據用戶的視角選擇視頻幀,并且在不發生圖像扭曲的情況下依據圖像配準結果裁剪視頻幀。由于不需要進行圖像縫合及扭曲操作,本發明的全景顯示方法保證輸出視頻質量,本發明的全景顯示方法不會產生傳統全景顯示方法中存在的重影及圖像失真。同時,每一視頻幀的輸出分辨率高,并接近于原始(original)捕獲的分辨率。不同于僅支持不包含復雜移動對象的有限場景的傳統縫合算法,本發明的全景視頻系統能夠支持范圍廣泛的各種場景。此外,與傳統方法相比,由于不需要使用專業硬件或者多個攝像機,本發明的方案具有較低的系統要求。從而,普通用戶使用本發明的全景視頻系統可以更加容易的創建及瀏覽(navigate)全景視頻。此外,由于不采用高計算復雜度(computational complexity)的圖割算法,具有低計算復雜度的視頻配準預處理(registration pre-processing)也相對簡單。本發明的全景視頻系統通過僅選擇及裁剪視頻幀,而不對其進行復雜的扭曲操作具有低計算復雜度。因此,本發明的全景視頻系統也適用于低成本手持設備。盡管不產生真實的寬視場(wide-field)全景視頻巾貞,用戶仍然能夠擁有與全景顯示設備/系統交互的相同用戶體驗。本發明的全景視頻系統可包含視頻記錄階段及視頻觀看階段。本發明技術特征更進一步的細節詳述如下。圖1是依據本發明一個范例性實施例的記錄裝置的示意圖。范例性記錄裝置100包含但不限于視頻處理電路102及信息采集電路104。此外,視頻處理電路102耦接于圖像捕獲裝置101,圖像捕獲裝置101包含單個鏡頭(lens)112及多個傳感器113。舉例來說,傳感器113可以包含方向傳感器、多軸加速度計(multiple-axis accelerometer)、溫度傳感器、磁傳感器、光傳感器以及接近傳感器(proximity sensor)。應當注意的是,此處圖像捕獲裝置101中的傳感器的數量及類型僅用作說明之用,并非為本發明的限制。本領域技術人員應當了解,其他類型及數量的傳感器亦可以置于圖像捕獲裝置101中,此處不再贅述。圖像捕獲裝置101可置于手持設備中,例如數碼相機或手機中,并且使用單個鏡頭112捕獲視頻幀F1,在本實施例及本發明的其他實施例中,視頻幀Fl可包含多個幀。舉例來說,用戶可以在希望的方向(例如,水平地從左到右)移動/搖攝(pan)圖像捕獲裝置101或者在希望的方向(例如,順時針或者逆時針)旋轉圖像捕獲裝置101來循序地捕獲視頻幀匕。舉例來說,圖像捕獲裝置101可以被旋轉來捕獲其周圍場景的視頻幀,或者繞目標對象旋轉以捕獲該目標對象周圍的視圖。視頻處理電路102依據視頻巾貞F1廣生視頻流VS。在一種實施方式中,視頻處理電路102可以是將視頻幀F1編碼為視頻流VS的視頻編碼器,其中視頻流VS包含編碼視頻幀F/。在另一實施方式中,視頻處理電路102可以循序輸出所接收的原圖像數據作為包含視頻幀F1的視頻流VS。換句話說,視頻幀F1沒有經過壓縮/編碼。信息采集電路104是預處理電路,用于獲取視頻幀F1的圖像配準信息INF1,并且將圖像配準信息INF1記錄進視頻流VS。在本實施例中,圖像配準信息INF1可用于將不同視頻幀轉換為同一坐標系統。信息采集電路104可采用一個或多個下述范例的信息采集設計來獲取視頻幀匕的期望的圖像配準信息INF115如圖1所示,在用視頻編碼器實現視頻處理電路102的情況下,視頻流VS將包含編碼視頻幀F/及相應于視頻幀匕的圖像配準信息INF10在視頻處理電路102不對視頻幀F1應用壓縮/編碼操作的情況下,視頻流VS將包含原圖像數據(亦即,視頻幀F1)以及相應圖像配準信息INF115關于信息采集設計的第一范例,信息采集電路104可給視頻幀F1的每一視頻幀分配場景編號,以由此獲取圖像配準信息INF115舉例來說,但并非本發明的限制,同一視角下捕獲的視頻幀(例如,包含物理環境中的相同對象的已記錄視頻幀)可被分配相同的場景編號。換句話說,每一視頻幀的圖像配準信息將記錄該視頻幀的場景編號。應當注意全景視頻中的每一可選場景具有唯一場景編號。關于信息采集設計的第二范例,信息采集電路104可給視頻幀F1的每一視頻幀分配坐標,以由此獲取期望的視頻幀F1的圖像配準信息INF115換句話說,每一視頻幀的圖像配準信息將記錄視頻幀的坐標。舉例來說,分配給視頻幀F1中的初始捕獲場景的起始視頻幀的坐標位于原點。從而,對于對應于偏離初始捕獲場景的捕獲場景的接下來的視頻幀,接下來的視頻幀的圖像配準信息將記錄不同于原點坐標的坐標。此外,基于實際設計考慮/要求,分配給各視頻幀的坐標可定義一維坐標系統、二維坐標系統、三維坐標系統或者更高維坐標系統中的位置。舉例來說,但并非本發明的限制,通過在兩個視頻幀之間使用下述具有最小強度誤差平方和(sum of squared intensity error)的成本函數(cost function),由信息采集電路104執行的視頻配準預處理操作可將視頻幀對齊(align)到2D空間:E= Σ [I/ (X,,y,)-10(x, y)]2(I)其中IQ(x,y)和I1' (x’,y’ )對應于視頻幀I。及I/之間的重疊像素對,其中視頻幀I/是視頻幀I1的變形。視頻幀對齊處理是為了從一組不同變形中找出具有最小誤差的變形。對于全局圖像配準,變形可以從分層匹配(hierarchical matching)的二維平移而來。故本發明的全景視頻系統可簡單使用二維平移來對齊視頻幀。應當注意,上述描述僅用作說明之用,并非為本發明的限制。使用另一方法來分配坐標值作為每一視頻幀的圖像配準信息也是可行的。關于信息采集設計的第三范例,信息采集電路104可對視頻幀F1的每一鄰近視頻幀應用全局運動估計,并相應產生對應全局運動信息,從而獲取圖像配準信息INF115換句話說,每一視頻幀的圖像配準信息將記錄該視頻幀的全局運動信息。關于信息采集設計的第四范例,信息采集電路104可獲取由傳感器113中的至少一個傳感器提供的傳感器信息,從而獲取圖像配準信息INF1,其中傳感器位于產生視頻幀F1的圖像捕獲裝置101上。換句話說,,每一視頻幀的圖像配準信息將記錄該視頻幀的傳感器信息。因此,當圖像捕獲裝置101捕獲視頻幀時,由傳感器113提供的傳感器信息將指示圖像捕獲裝置101的狀態,其中傳感器信息包含一個或多個傳感器值。將傳感器信息作為圖像配準信息可降低計算復雜度。此外,在視頻幀的大部分區域被快速移動對象阻塞(occluded)的狀況下,傳感器信息很有幫助。關于信息采集設計的第五范例,信息采集電路104可獲取視頻幀F1中每一幀的平移信息(translate infomation)、旋轉信息以及尺度 信息中的至少一個,從而獲取圖像配準信息INF115從而,每一視頻幀的圖像配準信息將指示與視頻幀的產生相關的圖像處理狀態。
關于信息采集設計的第六范例,信息采集電路104可獲取視頻幀F1中的每一幀的攝像機捕獲狀況信息,從而獲取圖像配準信息INF115舉例來說,當視頻幀被圖像捕獲裝置101捕獲時,每一視頻幀的攝像機捕獲狀況信息將記錄聚焦信息、白平衡信息以及曝光信息中的至少一個。本發明的記錄裝置也可用于處理由具有多個鏡頭的圖像捕獲裝置產生的視頻幀。圖2是依據本發明另一范例性實施例的記錄裝置的示意圖。如圖所示,圖像捕獲裝置201包含多個鏡頭212_1-212_N,用于分別產生視頻幀F1-Fp關于由每一鏡頭所捕獲的視頻幀的處理,記錄裝置200中的視頻處理電路202及信息采集電路204的操作與視頻處理電路102及信息采集電路104的操作相同。從而,圖像配準信息INF1被記錄,用于由鏡頭212_1產生的視頻幀F1 ;圖像配準信息INF2被記錄,用于由鏡頭212_2產生的視頻幀F2 ;…圖像配準信息INFn被記錄,用于由鏡頭212_N產生的視頻幀Fn。因此,在用視頻編碼器實現視頻處理電路202的情況下,視頻流VS將包含編碼視頻幀F/-F/及相應于視頻幀F1-Fn的圖像配準信息INF1-1NFnij然而,在視頻處理電路202不對視頻幀F1-Fn應用壓縮/編碼操作的情況下,視頻流VS將包含原圖像數據(亦即,視頻幀F1-Fn)以及相應圖像配準信息INF「INFn。如上所述,期望的圖像配準信息可通過參考傳感器信息來獲取。然而,其并非為本發明的限制。圖3是圖1所示的記錄裝置的替代設計,圖3中的圖像捕獲裝置1301、記錄裝置1300、信息采集電路1304的操作可分別參考圖1中的圖像捕獲裝置101、記錄裝置100、信息采集電路104的操作,此處不再贅述。如圖3所示,圖像捕獲裝置1301中沒有任何傳感器113。然而,通過采用前述的第一、第二、第三、第五以及第六范例性信息采集設計中的一種,信息采集電路1304仍可獲取期望的圖像配準信息INF115圖4是圖2所示的記錄裝置的替代設計,圖4中的圖像捕獲裝置1401、記錄裝置1400、信息采集電路1404的操作可分別參考圖2中的圖像捕獲裝置201、記錄裝置200、信息采集電路204的操作,此處不再贅述。如圖4所示,圖像捕獲裝置1401中沒有任何傳感器113。然而,通過采用前述的第一、第二、第三、第五以及第六范例性信息采集設計中的一種,信息采集電路1404仍可獲取期望的圖像配準信息INF1-1NFnq關于圖1/圖2/圖3 /圖4中所示的記錄裝置100/200/1300/1400,由記錄裝置100/200/1300/1400所接收的視頻幀F^F1-Fn直接由圖像捕獲裝置101/201/1301/1401產生。然而,其僅用作說明之用,并非為本發明的限制。亦即,本發明對將由記錄裝置100/200/1300/1400處理的視頻幀的來源并不加以限制。以輸入至記錄裝置100/1300的視頻幀F1為例,視頻幀F1可擷取自用戶手動編輯的視頻剪輯(video clip)。在一替代設計中,視頻幀F1可擷取自由不同視角捕獲的多個視頻剪輯中。請參考圖5,圖5為將被記錄裝置100/1300處理的視頻幀F1的范例性排布的示意圖。如圖5所示,視頻幀F1至少包含第一角度的視頻幀Fm-F1,,(圖5中簡稱為第一幀(Θ P)、第二角度的視頻幀Fy-Fw (圖5中簡稱為第二幀(θ2))以及第三角度的視頻幀F3,1-F3,K (圖5中簡稱為第三幀(Θ 3))。圖像捕獲裝置101/1301被適當移動/旋轉,以便所有第一角度的幀F1j1-FijN由鏡頭112在同一視角Θ:(例如,Θ 1=0° )產生,所有第二角度的幀Fu-F2^由鏡頭112在同一視角θ2 (例如,θ2=5° )產生,所有第三角度的幀F3,1-F3,K由鏡頭112在同一視角θ3 (例如,θ3=10° )產生。視頻幀Fu-F1^Fu-F2W及F^-F3, κ級聯形成待由記錄裝置100/1300處理的視頻幀匕。
另一替代設計中,較低分辨率視頻幀F1 (例如640*480視頻幀)可擷取自高分辨率視頻幀(例如1920*1080視頻幀)。請參考圖6,圖6為將被記錄裝置100/1300處理的視頻幀F1的另一范例性排布的示意圖。如圖6所示,參考視頻幀Fkef的圖像分辨率高于視頻幀F1的每一幀的圖像分辨率,其中視頻幀F1包含F1,1、Flj2, F1j3等。由裁剪參考視頻幀Fkef得到的視頻幀F1,!包含圖像區域ApA2及A3 ;由裁剪參考視頻幀Fkef得到的視頻幀Fli2包含圖像區域A2、A3及A4 ;由裁剪參考視頻幀Fkef得到的視頻幀Fli3包含圖像區域A3、A4及A5。換句話說,下一視頻幀相對當前視頻幀右移D1/D2像素,其中Dl及D2可為正整數,Dl可等于或者不同于D2。參考視頻幀Fkef中的視頻幀Flil-Fli3的位置(亦即,坐標)可被記錄為相應圖像配準信息。關于分別顯示于圖2及圖4中的記錄裝置200及1400,信息采集電路204及1404記錄由各個鏡頭212_1-212_N分別產生的視頻幀F1-Fn的圖像配準信息INF1_INFn。考慮圖像捕獲裝置201/1401僅有2個鏡頭,用于產生一個左眼視頻幀(例如,F1)以及一個右眼視頻幀(例如,F2)的特例。由于播放操作可能僅使用一個圖像配準信息來選擇一對左眼視頻幀及右眼視頻幀,信息采集電路204/1404可被配置為僅使用視頻幀F1及F2之一的圖像配準信息(例如,INF1ANF2)作為加入到視頻流的已記錄的圖像配準信息,或使用視頻幀F1及F2的圖像配準信息INF1及INF2的平均值作為加入到視頻流的已記錄圖像配準信息。圖7是依據范例性實施例的記錄多個視頻幀的方法流程圖。若結果實質上相同,上述步驟并不要求完全依照圖7所示的順序執行。上述方法由記錄裝置100/200/1300/1400執行,并可簡要概述如下。步驟300:開始。步驟302:接收視頻巾貞。舉例來說,視頻巾貞可直接產生自向希望的方向移動/旋轉的圖像捕獲裝置,或者可獲取自其它可行裝置。步驟304:依據視頻幀產生視頻流。舉例來說,將視頻幀編碼為視頻流或將視頻幀直接作為視頻流輸出。步驟306:獲取視頻幀的圖像配準信息,其中圖像配準信息用于將不同視頻幀轉換為同一坐標系統。步驟308:將圖像配準信息記錄入視頻流。步驟310:結束。
本領域技術人員在讀完上述說明記錄裝置100/200/1300/1400的段落后,能夠輕易地理解圖7中每一步驟的細節,為簡潔起見,此處不再詳述。圖像配準信息作為包含于視頻流中的視頻幀的索引值(index value),用于指示哪些視頻幀應被歸類(group)為待由下一過程(例如,播放)處理的一個視頻剪輯。每一視頻剪輯具有特定的圖像配準信息,處理多個視頻幀時可以一個視頻剪輯作為一個單元。從而,用戶可觀看與通過用戶交互(user interaction)決定的選定視角相關的一個視頻剪輯(亦即,全景視頻內的選定場景的視頻內容)。請參考圖8,其為依據本發明的范例性實施例的播放裝置的示意圖。范例的播放裝置400包含,但不限于,接收電路402,搜尋電路404以及視頻處理電路406。接收電路402用于接收選定場景S的播放請求REQ_P,也用于接收視頻流VS1。在一范例性實施例中,視頻流VSl由上述圖像配準信息INF1及編碼視頻幀F1’組成,或者由上述圖像配準信息INF1及原視頻幀F1組成。可選的,視頻流VSl可由上述圖像配準信息INF1-1NFn及編碼視頻幀F/ -F/組成,或者由上述圖像配準信息INF1-1NFn及原視頻幀F1-F1^i成。因此,搜尋電路404自接收電路402獲取多個視頻幀及相應圖像配準信息INF115由于圖像配準信息INF1由記錄裝置100/200/1300/1400加入到視頻流VSl中,當接收視頻流VSl時,播放裝置400獲取圖像配準信息INF115然而,上述說明并非本發明的限制。在另ー范例性實施例中,視頻流VSl僅由上述編碼視頻幀/原視頻幀組成,其中編碼視頻幀/原視頻幀及相應圖像配準信息被分別傳送。搜尋電路404耦接于接收電路402,用于搜尋對應于選定場景S的圖像配準信息的目標視頻幀Ft的視頻流VSl (例如,編碼視頻幀F/或原視頻幀F1),其中選定場景S由播放請求REQ_P指示。視頻處理電路406耦接于搜尋電路404及顯示裝置401 (例如,手機或數碼相機的顯示屏),用于依據目標視頻幀Ft執行播放操作。舉例來說,當目標視頻幀Ft為編碼視頻幀吋,播放裝置將解碼目標視頻幀Ft以產生對應解碼視頻幀,并依據解碼視頻幀產生視頻輸出信號Svideq至顯示裝置401。以此種方式,擷取自目標視頻幀Ft的視頻信息傳送至顯示裝置401用于播放。應當注意,視頻處理電路406并不解碼用于全景視頻播放的所有編碼視頻幀F/,僅有由選定場景S的圖像配準信息所索引(indexed)的目標視頻幀Ft被選定并解碼,從而降低了計算復雜度。可選的,當目標視頻幀Ft為原視頻幀時,播放操作將直接參考目標視頻幀ら產生視頻輸出信號Svi■至顯示裝置401。以此種方式,擷取自目標視頻幀Ft的視頻信息傳送至顯示裝置401用于播放。類似的,視頻處理電路406并不處理用于全景視頻播放的所有原視頻幀F1,僅有由選定場景S的圖像配準信息所索引的目標視頻幀Ft被選定并處理,從而降低了計算復雜度。請參考圖9,其為基于播放請求的范例性視頻幀選擇的示意圖。假設用戶從左至右地水平移動/搖攝圖像捕獲裝置101/201/1301/1401,隨后從右至左地水平移動/搖攝圖像捕獲裝置101/201/1301/1401,則多個視頻幀F1-F18經由ー個鏡頭被順序捕獲。假設播放請求REQ_P指示用戶期望觀看選定場景S (例如,圖像捕獲裝置101/201/131/1401的選定視角的視頻內容)。如圖9所示,視頻幀F4-F6及F13-F15包含選定場景S的信息,亦即,視頻幀F4-F6及F13-F15對應于選定場景S的視角。基于視頻幀F1-F18的每ー個的圖像配準信息,由于視頻幀F4-F6及F13-F15的各圖像配準信息對應于選定場景S,視頻幀F4-F6及F13-F15將被選擇。 隨后,視頻處理電路406參考選定視頻幀F4-F6及F13-F15控制顯示裝置401顯示選定場景S的視頻內容(亦即,圖9對應陰影區所指示的視頻片段(video segments))。由于視頻幀F4-F6及F13-F15記錄于不同的時間,重復順序從視頻幀F4-F6及F13-F15中選出的視頻片段的播放操作可能導致不連續的無限視頻(infinite video)。為減少當依據重復播放方案相同視角的無限視頻被顯示時用戶感受到的間斷,可在選取自視頻幀F15的視頻片段及選取自視頻幀F4的視頻片段之間的過渡中引入交叉淡化效果(cross-fadeeffect)。此外,調整從視頻幀F4-F6及F13-F15中選出的視頻片段的重復順序亦可能減少用戶感受到的間斷。舉例來說,可采用反向播放方案,這樣,按正常次序順序選取自視頻幀F4-F6及F13-F15的視頻片段被顯示,隨后按反向次序順序選取自視頻幀F15-F13及F6-F4的視頻片段被顯示。用戶可瀏覽全景視頻內的任意場景。舉例來說,當播放請求REQ_P指示用戶期望觀看另ー選定場景S-1時,依據視頻幀F8-F11的圖像配準信息,包含選定場景S-1的信息的視頻幀F8-F11被選定,亦即,視頻幀F8-F11對應于選定場景S-1的視角。隨后,視頻處理電路406參考選定視頻幀F8-F11來控制顯示裝置401顯示選定場景S-1的視頻內容(亦即,圖9對應陰影區所指示的視頻片段)。在圖9所示的范例中,場景選擇及播放操作應用于包含視頻幀F1-F18的全景視頻,其中視頻幀F1-F18是由從左至右地水平移動/搖攝圖像捕獲裝置101/201/1301/1401,隨后從右至左地水平移動/搖攝圖像捕獲裝置101/201/1301/1401順序得到的。然而,如圖10所示,本發明的場景選擇及播放操作也可以應用在僅包含視頻幀Fl-FlO的全景視頻上,其中視頻幀Fl-FlO是在ー個方向(例如,從左至右)水平移動/搖攝圖像捕獲裝置101/201/1301/1401順序得到的。如圖10所示,視頻幀F4-F6包含選定場景S的信息,基于視頻幀Fl-FlO的每ー個的圖像配準信息,由于視頻幀F4-F6的各圖像配準信息對應于選定場景S,視頻幀F4-F6將被選擇。視頻幀F8-F10包含選定場景S-1的信息,由于視頻幀F8-F10的各圖像配準信息對應于選定場景S-1,視頻幀F8-F10將被選擇。為簡潔起見,此處不再詳述。此外,如圖11所示,本發明的場景選擇及播放操作也可以應用在另ー僅包含視頻幀F9-F18的全景視頻上,其中視頻幀F9-F18是在ー個方向(例如,從右至左)水平移動/搖攝圖像捕獲裝置101/201/1301/1401順序得到的。如圖11所示,視頻幀F13-F15包含選定場景S的信息,基于視頻幀F9-F18的每ー個的圖像配準信息,由于視頻幀F13-F15的各圖像配準信息對應于選定場景S,視頻幀F13-F15將被選擇。視頻幀F9-F11包含選定場景S-1的信息,由于視頻幀F9-F11的各圖像配準信息對應于選定場景S-1,視頻幀F9-F11將被選擇。為簡潔起見,此處不再詳述。除了控制無限視頻的播放外,視頻處理電路406亦可對由搜尋電路404選定的目標視頻幀Ft執行ー個或多個圖像處理操作。舉例來說,視頻處理電路406依據相關圖像配準信息INFt對擷取自目標視頻幀Ft的解碼視頻幀/原視頻幀執行對齊操作,并對應產生對齊視頻幀。從而,依據對齊視頻幀,播放操作產生視頻輸出信號Svideq至顯示裝置401。舉例來說,但并非本發明的限制,對齊操作包含視頻捕獲狀況歸ー化、觀看幀尺寸歸ー化(viewing frame size norma丄ization)及/或中貝對丹處理。當目標視頻幀Ft的圖像配準信息INFt包含攝像機捕獲狀況信息,例如聚焦信息、白平衡信息及/或曝光信息吋,依據目標視頻幀Ft的攝像機捕獲狀況信息,視頻處理電路406對目標視頻幀Ft的解碼視頻幀/原視頻幀執行視頻捕獲狀況歸ー化操作。以此種方式,對目標視頻幀Ft的解碼視頻幀/原視頻幀執行聚焦歸ー化、曝光歸ー化及/或白平衡歸ー化以移除/最小化攝像機捕獲狀況差異。當目標視頻幀Ft的圖像配準信息INFt包含平移信息、旋轉信息及/或尺度信息時,依據目標視頻幀Ft的平移信息、旋轉信息及尺度信息中的至少ー個,視頻處理電路406對目標視頻幀Ft的解碼視頻幀/原視頻幀執行觀看幀尺寸歸ー化操作。舉例來說,觀看幀尺寸歸ー化操作可裁剪目標視頻幀Ft的至少ー個解碼視頻幀/原視頻幀,以產生裁剪的視頻幀,其中裁剪前的視頻幀具有第一分辨率,而裁剪的視頻幀具有低于第一分辨率的第二分辨率。圖12為觀看幀尺寸歸ー化操作的范例示意圖。如圖12所示,如果有必要,裁剪的視頻幀可以被放大。由視頻處理電路406執行的巾貞對齊處理可通過特征點匹配(feature pointmatching)及/或圖像扭曲來對齊巾貞。可選的,當全局運動信息記錄于圖像配準信息INFt中吋,由視頻處理電路406執行的幀對齊處理可參考全局運動信息來對齊幀。請參考圖13,其為范例性幀對齊處理的示意圖。以圖9中的視頻幀F4及F5為例,由于圖像捕獲裝置101/201/1301/1401的移動,視頻幀F4及F5有位于不同位置的共同對象(例如,房屋)。幀對齊處理執行后,視頻幀F4中的共同對象與視頻幀F5中的同一共同對象對齊。應當注意,關于視頻幀F4及F5的每ー個,在此僅有對應于選定場景視角的裁剪視頻片段將被顯示在顯示屏上。圖14為依據一范例性實施例的視頻流播放方法的流程圖。若結果實質上相同,上述步驟并不要求完全依照圖14所示的順序執行。上述方法應用于播放裝置400,并可簡要概述如下。步驟800:開始。步驟802:檢查選定場景的播放請求是否接收到。若是,轉至步驟804 ;否則,執行步驟802以持續監測播放請求的接收。步驟804:搜尋用于目標視頻幀(例如,編碼視頻幀或原視頻幀)的視頻流,其中目標視頻幀對應于選定場景的圖像配準信息,圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統。步驟806:對擷取自目標視頻流的解碼視頻幀/原視頻幀執行對齊操作,并相應產生多個對齊視頻幀。舉例來說,對齊操作可包含視頻捕獲狀況歸ー化、觀看幀尺寸歸ー化及/或幀對齊處理。步驟808:依據選定場景的對齊視頻幀執行播放操作。步驟810:檢查用于另ー選定場景的播放請求是否接收到。若是,轉至步驟804 ;否貝U,執行步驟808以持續執行對選定場景的播放操作。本領域技術人員在讀完上述說明播放裝置400的段落后,能夠輕易地理解圖14中每ー步驟的細節,例如,當目標視頻幀為編碼視頻幀時,則對該編碼視頻幀解碼后再對解碼視頻幀執行對齊操作。為簡潔起見,此處不再詳述。除了對齊操作外,視頻處理電路406亦可對擷取自目標視頻幀Ft的解碼視頻幀/原視頻幀執行其他圖像處理操作。請參考圖15,其為依據本發明的另ー范例性實施例的播放裝置的示意圖。接收電路902的操作幾乎與接收電路402的操作相同,視頻處理電路906的操作幾乎與視頻處理電路406的操作相同。播放裝置400與播放裝置900的主要不同在于接收電路902更接收圖形數據(graphic data)D_IN,以及視頻處理電路906更依據圖形數據D_IN處理擷取自目標視頻幀Ft的解碼視頻幀/原視頻幀。舉例來說,但并非本發明的限制,圖形數據0_爪是用戶界面(user interface)數據,視頻處理電路906利用擷取自目標視頻幀Ft的解碼視頻幀/原視頻幀(例如,對齊視頻幀)覆蓋圖形數據D_IN,以產生混合視頻幀,以及依據混合視頻幀執行選定場景的播放操作。在本實施例中,視頻處理電路906經由視頻輸出信號Svmro將混合視頻幀傳送至顯示裝置401,以使選定場景的視頻內容及圖形數據D_IN可顯示于顯示裝置401上。圖16為依據另ー范例性實施例的視頻流播放方法的流程圖。若結果實質上相同,上述步驟并不要求完全依照圖16所示的順序執行。上述方法應用于播放裝置900,并可簡要概述如下。步驟1000:開始。
步驟1002:檢查選定場景的播放請求是否接收到。若是,轉至步驟1004 ;否則,執行步驟1002以持續監測播放請求的接收。步驟1004:搜尋用于目標視頻幀(例如,編碼視頻幀或原視頻幀)的視頻流,其中目標視頻幀對應于選定場景的圖像配準信息,圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統。步驟1006:對擷取自目標視頻幀的解碼視頻幀/原視頻幀執行對齊操作,并相應產生多個對齊的視頻幀。舉例來說,對齊操作可包含視頻捕獲狀況歸ー化、觀看幀尺寸歸ー化及/或幀對齊處理。步驟1008:利用對齊視頻幀覆蓋圖形數據,以產生混合視頻幀。步驟1010:依據選定場景的混合視頻幀執行播放操作。步驟1012:檢查用于另ー選定場景的播放請求是否接收到。若是,轉至步驟1004 ;否則,執行步驟1010以持續執行對選定場景的播放操作。本領域技術人員在讀完上述說明播放裝置900的段落后,能夠輕易地理解圖16中每ー步驟的細節,例如,當目標視頻幀為編碼視頻幀時,則對該編碼視頻幀解碼后再對解碼視頻幀執行對齊操作。為簡潔起見,此處不再詳述。在圖15所示的實施例中,重疊操作由播放裝置900執行。在另一可選設計中,重疊操作可由顯示裝置401執行。舉例來說,圖8所示的播放裝置400產生擷取自目標視頻幀Ft的解碼視頻幀/原視頻幀(例如,對齊視頻幀),并通過視頻輸出信號Svmro傳至顯示裝置401。隨后,顯示裝置401利用接收到的視頻幀覆蓋圖形數據0_爪,以產生混合視頻幀,井隨后通過顯示混合視頻幀執行選定場景的播放操作。為更好理解上述響應用戶互動而執行的場景選擇及播放操作,下文將描述ー實施范例。假設圖像配準信息包含 每ー視頻幀的ニ維坐標。因此,基于每ー視頻幀的2維坐標,用戶可改變視角以瀏覽全景ニ維空間的所有視頻幀。當在某一瀏覽視角停下時,用戶將觀看裁剪之后連續的對齊視頻幀。特別是,當用戶選擇一個新的水平視角來瀏覽時,系統將找到在X軸上有最小距離的視頻幀:Dist=MinlP-Xi(2)其中P是來自于用戶輸入的累積移動像素,Xi是i巾貞的X坐標,Dist是所有視頻幀中距離P的最小距離。具有Dist值的視頻幀被選定播放。當用戶在某ー視角停下時,為對齊輸出幀與連續視頻幀,需要在顯示前裁剪幀。特別是,對齊是基于來自于記錄階段的每一視頻幀的(x,y)坐標。因此,僅有連續視頻幀的重疊區域可被顯示。故視頻幀需要根據其相應坐標值進行裁剪。在Y軸,裁剪是基于全局空間內的相對坐標(relative coordinate)進行的。在X軸,裁剪區域是基于當前顯示幀FB及連續視頻幀的第一幀FA之間的相對坐標值:Cropx=In itx+FBx_FAx(3)其中Cropx是FB在X軸的裁剪像素,FAx是FA的X坐標,FBx是FB的X坐標,Initx是FA在X軸的裁剪像素。Initx可由下列方程定義:Initx=O,若 C=O,(4)Initx=Fff-Off,若 C=I(5)其中Fw是輸入視頻幀的寬度,Ow是輸出裁剪寬度,C是攝像機搖攝/移動方向。攝像機搖攝/移動方向被定義為整個視頻的最后ー幀及第一幀之間的X坐標差。因此,當攝像機向右搖攝/移動時,上述C值等于I ;當攝像機向左搖攝/移動時,上述C值等于O。給定視角的連續視頻幀的定義為幀是連續的,并且滿足下列條件:FBx-FAx<Fff-0ff(6)亦即,FA的連續幀是與FA的裁剪區域重疊的幀。連續視頻幀的數量也可以由Ow控制。換句話說,可減少輸出視場(field-of view)以對應增加連續視頻巾貞的時間。舉例來說,Ow的值為0.8xFff^0.9xFw,該值也取決于用于保持輸出高寬比(aspect ratio)的Y軸的裁剪像素。與需要依據用戶交互解碼寬場視頻幀及裁剪和扭曲選定區域的傳統系統相反,本發明的全景視頻系統不需要大寬場緩沖器做視頻解碼,而是使用具有原始捕獲尺寸的幀緩沖器做視頻解碼(如果視頻觀看階段執行視頻解碼的話)。此外,本發明的全景視頻系統也并不需要耗時的圖像扭曲操作。原始輸入視頻通常在被捕獲時就已經被很好的校準過,而沒有任何失真。因此,本發明的全景視頻系統的全景圖像保證不存在任何傳統的縫合視頻全景中經常存在的重影及圖像失真。如上所述,圖像處理操作,包括對齊操作、裁剪操作、歸ー化操作等,由播放裝置400/900中的視頻處理電路406/906執行。可選的,上述圖像處理操作可由記錄裝置100/200/1300/1400的視頻處理電路102/202執行,而不是由播放裝置400/900中的視頻處理電路406/906執行,這樣視頻處理電路406/906不執行任何上述圖像處理操作(例如,對齊操作、裁剪操作及/或歸ー化操作),而僅依據視頻幀(例如,解碼視頻幀或原視頻幀)簡單產生視頻輸出信號Svideq至顯示裝置401。此外,圖8所示的播放裝置40`0可用于控制電子設備(例如,手機)中用戶界面的桌面。請結合圖18參考圖17。圖17是顯示于電子設備1100的顯示屏(例如,觸摸屏)1102上的動態壁紙的示意圖。圖18是由于桌面滾動命令(desktop scrolling command)顯示于顯示屏1102上的另ー動態壁紙的示意圖。如圖17所示,桌面使用通過顯示視頻片段產生的無限視頻作為動態壁紙1104,其中視頻片段對應于圖9所示的選定場景S-1的視角,一些圖標1101重疊于動態壁紙1104上。當用戶輸入桌面滾動命令1106時,舉例來說,通過在顯示屏1102上移動他/她的手指,另ー選定場景S的播放請求REQ_P響應于桌面滾動命令1106生成。依據對應于另ー選定場景S找到的目標視頻幀執行播放操作,顯示動態壁紙1204。從而,如圖18所示,桌面現在使用通過顯示視頻片段產生的無限視頻作為動態壁紙1204,其中視頻片段對應于圖9所示的選定場景S的視角。以上所述僅為本發明的較佳實施例,本領域相關的技術人員依據本發明的精神所做的等效變化與修改,都應當涵蓋在權利要求書內。
權利要求
1.一種處理多個視頻幀的方法,其特征在于,包含: 獲取多個視頻幀的圖像配準信息,其中所述圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統;以及 使用所述圖像配準信息,在所述多個視頻幀中搜尋對應于選定場景的多個目標視頻幀。
2.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,更包含: 接收具有所述多個視頻幀以及所述圖像配準信息的視頻流; 其中獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 從接收的所述視頻流獲取所述多個視頻幀的所述圖像配準信息。
3.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取分配給至少一視頻幀的場景編號。
4.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取分配給至少一視頻幀的坐標。
5.根據權利要求4所述的處理 多個視頻幀的方法,其特征在于,分配給所述多個視頻中貞中的起始視頻巾貞的坐標位于原點。
6.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取全局運動信息。
7.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取至少一傳感器的傳感器信息,其中所述傳感器位于產生所述多個視頻幀的圖像捕獲裝置上。
8.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取至少一視頻幀的平移信息、旋轉信息以及尺度信息中的至少一個。
9.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,獲取所述多個視頻幀的所述圖像配準信息的步驟包含: 獲取至少一視頻幀的攝像機捕獲狀況信息。
10.根據權利要求9所述的處理多個視頻幀的方法,其特征在于,所述攝像機捕獲狀況信息包含聚焦信息、白平衡信息以及曝光信息中的至少一個。
11.根據權利要求1所述的處理多個視頻幀的方法,其特征在于,所述多個視頻幀組成多個視頻剪輯,每一視頻剪輯具有特定的圖像配準信息,以及處理所述多個視頻幀時以一個視頻剪輯作為一個單元。
12.一種視頻流播放方法,其特征在于,包含: 接收選定場景的播放請求; 搜尋用于多個目標視頻幀的視頻流,其特征在于,所述多個目標視頻幀對應于所述選定場景的圖像配準信息,所述圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統;以及 依據在所述視頻流中找到的所述多個目標視頻幀執行播放操作。
13.根據權利要求12所述的視頻流播放方法,其特征在于,依據在所述視頻流中找到的所述多個目標視頻幀執行所述播放操作的步驟包含: 對擷取自所述多個目標視頻流的多個視頻幀執行對齊操作,并相應產生多個對齊的視頻幀。
14.根據權利要求13所述的視頻流播放方法,其特征在于,依據在所述視頻流中找到的所述多個目標視頻幀執行所述播放操作的步驟包含: 依據所述多個對齊的視頻幀執行所述播放操作。
15.根據權利要求13所述的視頻流播放方法,其特征在于,對擷取自所述多個目標視頻流的所述多個視頻幀執行所述對齊操作,并相應產生所述多個對齊的視頻幀的步驟包含: 依據所述多個目標視頻幀的攝像機捕獲狀況信息,對所述多個視頻幀執行視頻捕獲狀況歸一化操作。
16.根據權利要求15所述的視頻流播放方法,其特征在于,所述攝像機捕獲狀況信息包含聚焦信息、白平衡信息以及曝光 信息中的至少一個。
17.根據權利要求13所述的視頻流播放方法,其特征在于,對擷取自所述多個目標視頻流的所述多個視頻幀執行所述對齊操作,并相應產生所述多個對齊的視頻幀的步驟包含: 依據所述多個目標視頻幀的平移信息、旋轉信息以及尺度信息中的至少一個對所述多個視頻幀執行觀看幀尺寸歸一化操作。
18.根據權利要求17所述的視頻流播放方法,其特征在于,依據所述多個目標視頻幀的所述平移信息、所述旋轉信息以及所述尺度信息中的至少一個對所述多個視頻幀執行所述觀看幀尺寸歸一化操作的步驟包含: 裁剪擷取自所述多個目標視頻幀其中之一的視頻幀以產生裁剪的視頻幀,其中所述視頻幀具有第一分辨率,而所述裁剪的視頻幀具有低于所述第一分辨率的第二分辨率。
19.根據權利要求12所述的視頻流播放方法,其特征在于,所述播放請求響應于桌面滾動命令而產生,并且依據在所述視頻流中找到的所述多個目標視頻幀執行所述播放操作的步驟包含: 依據所述多個目標視頻巾貞顯示動態壁紙。
20.根據權利要求12所述的視頻流播放方法,其特征在于,依據在所述視頻流中找到的所述多個目標視頻幀執行所述播放操作的步驟包含: 通過利用擷取自所述多個目標視頻幀的多個視頻幀覆蓋圖形數據產生多個混合視頻幀; 依據所述多個混合視頻幀執行所述播放操作。
21.根據權利要求20所述的視頻流播放方法,其特征在于,所述圖形數據是用戶界面數據。
22.根據權利要求12所述的視頻流播放方法,其特征在于,所述視頻流傳輸多個視頻幀,所述多個視頻幀形成多個視頻剪輯,每一視頻剪輯具有特定的圖像配準信息,以及播放所述視頻流時以一個視頻剪輯作為一個單元。
23.一種用于記錄多個視頻幀的裝置,其特征在于,包含: 視頻處理電路,依據所述多個視頻幀產生視頻流;以及 信息采集電路,獲取所述多個視頻幀的圖像配準信息,以及將所述圖像配準信息記錄入所述視頻流中,其中所述圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統。
24.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路給至少一視頻幀分配場景編號以獲取所述圖像配準信息。
25.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路給至少一視頻幀分配 坐標以獲取所述圖像配準信息。
26.根據權利要求25所述的記錄多個視頻幀的裝置,其特征在于,分配給所述多個視頻中貞中的起始視頻巾貞的坐標位于原點。
27.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路對多個鄰近視頻幀應用全局運動估計,并相應產生全局運動信息以獲取所述圖像配準信肩、O
28.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路獲取由至少一傳感器提供的傳感器信息以獲取所述圖像配準信息,其中所述傳感器位于產生所述多個視頻幀的圖像捕獲裝置上。
29.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路獲取至少一視頻幀的平移信息、旋轉信息以及尺度信息中的至少一個以獲取所述圖像配準信息。
30.根據權利要求23所述的記錄多個視頻幀的裝置,其特征在于,所述信息采集電路獲取至少一視頻幀的攝像機捕獲狀況信息以獲取所述圖像配準信息。
31.根據權利要求30所述的記錄多個視頻幀的裝置,其特征在于,所述攝像機捕獲狀況信息包含聚焦信息、白平衡信息以及曝光信息中的至少一個。
全文摘要
本發明提供一種視頻幀處理方法,視頻流播放方法及視頻幀記錄裝置。記錄多個視頻幀的裝置包含視頻處理電路及信息采集電路,視頻處理電路依據多個視頻幀產生視頻流;信息采集電路獲取多個視頻幀的圖像配準信息,以及將圖像配準信息記錄入視頻流中,其中圖像配準信息用于將多個不同視頻幀轉換為同一坐標系統。以上所述的視頻幀處理方法,視頻流播放方法及視頻幀記錄裝置能夠保證輸出視頻質量,并且具有較低的計算復雜度。
文檔編號H04N5/91GK103096008SQ20121037477
公開日2013年5月8日 申請日期2012年9月29日 優先權日2011年10月6日
發明者朱啟誠, 陳鼎勻, 何鎮在 申請人:聯發科技股份有限公司