一種多路實時視頻拼接處理系統的制作方法
【專利摘要】一種多路實時視頻拼接處理系統屬于實時視頻圖像處理領域,其特征在于在離線階段求取當前場景下的多路視頻圖像之間的模型變換參數、顏色亮度伽馬校正系數、最佳縫合線以及對應的加權融合矩陣,使得最終融合的全景視頻圖像在重疊區域平滑過渡;在實時階段,直接利用離線階段求解出來的伽馬校正系數對圖像的亮度值進行調整,在服務器中利用CUDA對多路實時視頻流進行多線程并行投影變換計算和加權融合,生成實時全景視頻圖像。本發明的優點是在實時階段直接利用離線階段求得的相應參數,以及通過CUDA并行編程的實現,使得計算速度提高了至少5倍,而且相鄰兩兩圖像間的縫合線過渡帶比傳統方法更加平滑。
【專利說明】一種多路實時視頻拼接處理系統
【技術領域】
[0001]本發明涉及圖像處理領域,具體涉及一種多路實時視頻拼接處理系統。
【背景技術】
[0002]隨著電子計算機技術的進步,計算機圖像處理近年來得到飛躍的發展,已經成功的應用于幾乎所有與成像有關的領域,并正發揮著相當重要的作用。人類傳遞的信息有70%是視覺信息,圖像信息是傳遞信息的重要媒體和手段。單個攝像機所呈現的畫面范圍有限,不能較好的體現出全景動態范圍。因此,為了更好地展現場景信息,在保證畫面質量和實時性的前提下,提高視頻的視野范圍,是極其必要的。視頻拼接技術具有廣闊的應用前景,在城市交通、視頻監控、智能車輛等計算機視覺領域都有著廣泛的應用。
[0003]視頻拼接的本質仍然是圖像的拼接。圖像拼接的目的是形成一個視野更廣的全景圖像,即要求全景圖像在拼接縫處顏色和結構上都能自然的過渡。視頻拼接主要有兩大挑戰,一是視頻圖像的質量要求,這就需要有較好的圖像拼接算法;其二是需要保證視頻的實時性,這就需要并行計算架構,來提高算法的運行效率。針對第一個挑戰,圖像拼接主要由圖像配準和圖像融合兩大部分組成,圖像配準主要包括基于變換域的配準和基于特征的配準兩大類,圖像融合主要從顏色亮度和結構兩方面來消除圖像之間的差異,使得過度更為自然。對于第二個實時性的挑戰,可以由FPGA嵌入式編程、英特爾公司的IPP、英偉達的CUDA并行計算架構等技術來解決。
[0004]從圖像采集角度,圖像配準應用可以大致可以分為三類。I)多相機在不同視角對同一場景進行圖像采集,對同一場景不同視角下的圖像進行配準,得到更大的場景圖像。2)不同時間獲取同一場景的圖像,利用配準找出場景的變化。3)利用不同傳的感器獲得同一場景的圖像,例如同一場景的紅外圖像和自然光圖像,目的是將不同數據源進行綜合,得到更多的場景信息。根據本發明研究的實際問題,我們主要關注于第一類情況,即利用多路攝像機在不同視角下,對同一場景進行視頻采集、拼接。
[0005]圖像配準方法主要有基于變換域和基于特征的兩大類。基于變換域的方法主要有Kuglin在1975年提出的相位相關法,該方法利用了傅里葉變換的平移性質對圖像進行配準,但該方法只適合于存在純平移關系的兩幅圖像之間的像素級別配準,后人Sarvaiya等在其基礎之上進行改進,通過對數極坐標變換,使得旋轉和縮放轉化為平移,從而使基本相位相關法擴展到具有平移、旋轉和縮放關系的圖像配準。由于傅里葉變換的基本性質,決定了該模型只適合于存在純平移的配準,在仿射和透視變換模型中,該方法就不能成功配準圖像。而實際過程中還很難做到相機位置以及其成像平面的絕對平行,一般成像平面都有一定的夾角,故需要采取新的辦法。基于特征的匹配方法主要有Harris、SIFT和SURF等。Harris主要是通過微分算子計算窗口在各方向上的灰度變化,具有亮度不變性和旋轉不變性,但對尺度變化比較敏感;SIFT特征算子具有尺度、旋轉、光照不變性,同時對遮擋也具有較好的魯棒性,準確率高但它的計算量較大;SURF算法是在SIFT思想的基礎上,利用了盒子濾波和圖像積分簡化了計算復雜度,同時將特征描述子維度從SIFT的128維減少到64維,這都在一定程度上加快了算法的執行速度。
[0006]圖像融合主要從顏色亮度和結構上兩方面消除圖像間的拼接縫。消除顏色亮度差異有Reinhard提出的顏色匹配模型,即利用顏色空間變換分離顏色和亮度通道,利用兩幅圖像間在不同通道的均值和標準差,進行尺度變換和平移變換,使得兩幅圖像具有相似的像素分布,從而使得圖像相似;也有考慮像素的全局信息,利用重疊區域的直方圖進行匹配,計算出一個顏色變換矩陣M,從而對另外一個圖像進行校正,使兩副圖像相似;或者在全局顏色變換基礎上,利用高斯混合模型GMM對圖像區域進行軟分割,不同的區域對應不同的顏色變換,使得效果得到顯著的提升,但是由于復雜的分割模型,使得算法在速度方面不適用于實時的視頻拼接處理中。
[0007]在顏色處理完畢后,仍然可能會有一定的結構上過度差異問題。Szeliski提出了用羽化(feathering)的方法,根據距離對權重進行平均,雖然能夠降低對比度但是也存在一定的問題,尤其是在配準階段存在誤匹配的話,即投影矩陣有誤差,則羽化融合將會造成圖像的模糊,即模糊效應和“鬼影”的問題仍然存在。對于圖像拼接來說,在由于運動的物體出現的重影模糊,那么可以通過中值濾波來消除,但是在實時視頻拼接中,這樣的方法就不適用了,因為會導致視頻中我們關心的一些運動的物體將被濾波器過濾掉。多頻帶融合法的主要思想是利用Laplacian金字塔分別構造圖像的高頻部分和低頻部分,不同部分采用不同的融合策略。低頻部分采用加權求和,起到模糊的效果;高頻部分則利用最大權值的信息,保留邊緣等變化的信息,最后將兩部分組合起來,得到的融合效果令人滿意。但是對于實時的視頻流融合來說,這個算法的處理速度尚不能滿足實時性要求。
[0008]為了加速程序的運行速度,英偉達公司于2006年11月推出的一種基于并行編程模型和指令集架構的通用計算架構——CUDA。它可以讓GPU與CPU協同工作,把一部分復雜的計算任務交給GPU進行并行處理。圖像處理的本質是大規模矩陣運算,特別適合并行處理,GPU在并行數據運算上具有強大的計算能力,具有很高的并發度,當執行具有高密度運算的多數據元素時,內存訪問的延遲可以被忽略。在現有的視頻實時拼接專利中,如張春雨的“一種基于多路攝像機的視頻實時拼接方法”中,存在3個問題,一是對多路視頻的同步沒有詳細的介紹;二是只是簡單的通過投影映射進行配準,并沒有對重疊處做過多的處理,導致視頻融合質量不高;第三沒有運用新型的并發編程架構,故實時性有一定的限制,有待于進一步提高。正是由于硬件的不斷發展,高性能、新型的CUDA并行計算架構的出現,使本發明的實時視頻拼接成為可能。
[0009]關于圖像拼接原理和方法的相關研究已有較多年的歷史,也有不少論文發表,如卞春曉的“一種圖像拼接處理系統”,雖然在拼接質量上能達到比較好的效果,但是運用在視頻拼接上,其實時性就遠遠達不到要求。現在還沒有通用的拼接效果較好的且能夠達到實時處理要求的視頻拼接系統。
【發明內容】
[0010]有鑒于此,本發明提供了一種多路實時視頻拼接處理系統,以解決現有視頻拼接技術在保證拼接效果的條件下,不能達到視頻拼接實時性要求的問題。
[0011]一種多路實時視頻拼接處理系統,其特征在于,是一個帶有支持CUDA的NVIDIA顯卡的服務器,設有:視頻采集單元(U1)、視頻流同步單元(U2)、視頻初始化邏輯控制單元(U3 )、視頻初始化配準單元(U4 )、視頻初始化融合單元(U5 )、實時視頻拼接單元(U6 ),其中:
[0012]視頻采集單元(U1),是三路具有相同鏡頭、焦距的同款攝像機依次從左到右水平排開且固定位置,使采集的多路視頻圖像在水平方向有30%的重合度,并將原始數據從YUV格式轉換為圖像處理所需的RGB格式,向所述視頻流同步單元(U2)傳入三路視頻圖像:Ii(x, y)、I2(x, y)和 I3(x,y),其中 O < y < H-1,0 ≤ χ ≤ W-1, H 為高度、W 為寬度,x、y、H、W均為非負整數;
[0013]視頻流同步單元(U2),設有:大小為5幀連續圖像的三個緩沖區隊列,依次緩存所述的三路視頻圖像流I1 (χ,y)、I2 (χ,y)和I3 (x,y),采用先進先出FIFO的隊列置換方式,利用操作系統生產者-消費者機制對所述三路實時視頻流進行同步互斥控制,確保視頻流全景圖像的正確拼接;
[0014]視頻初始化邏輯控制單元(U3),判斷從所述視頻流同步單元(U2)傳入的三路同步視頻圖像的實時性:
[0015]若當前為離線階段,則將三路圖像送到視頻初始化配準單元(U4),
[0016]若當前為實時階段,則將三路圖像送到實時視頻拼接單元(U6);
[0017]視頻初始化配準單元(U4),利用SURF算子對當前的三路同步視頻圖像提取特征點,找到圖像之間特征點的對應關系,再利用RANSAC算法求解圖像間的空間變換模型,設有:特征點提取子單元(U41)、特征點匹配子單元(U43)和模型變換子單元(U44),其中:
[0018]特征點提取子單元(U41)以及特征點描述子單元(U42),利用Herbert Bay在“SURF:Speeded Up Robust Features”中提出的SURF算子進行特征點提取和描述,其中:
[0019]特征點提取子單元(U41),對所述的三幅同步視頻圖像I1 (χ, y)、I2 (x, y)和I3(x, Y)利用SURF算法提取特征點:用不同尺寸的盒子濾波模板近似高斯二階微分,構造尺度空間,并利用積分圖像加速所述盒子濾波模板的卷積操作,在所述尺度空間進行非極大值抑制,得到特征點的位置(x,y)和尺度信息s ;
[0020]特征點描述子單元(U42),首先在以特征點為中心,以6s為半徑的區域內,分別計算出X方向和y方向的Haar小波響應,其中Haar小波模板的大小為4s ;將一個60度的扇形作為滑動窗口,對窗口內的Haar響應值利用高斯權重w=2.5s進行累加;以36度為步長,旋轉一圈,當Haar響應累加值最大時,對應的方向即為所求特征點的主方向;
[0021 ] 以特征點為中心,沿著特征點的主方向,在20sX20s大小區域內,劃分4X4個子區域,在每一個子區域中,計算5X 5=25次Haar響應值,生成4維的SURF特征描述符V= ( Σ dx, Σ |dx I, Σ dy, Σ I dy |),其中dx和dy分別為每個像素點經過Haar小波后得到在χ方向和y方向的響應值;Σ dx和Σ dy分別為對子區域內所有像素點在χ方向上和y方向上,以特征點為中心進行高斯加權(σ =3.3s)的累加響應值,最終得到16X4=64維的SURF特征點描述符;
[0022]特征點匹配子單元(U43),對相鄰兩幅圖像[I1Uy), I2(x,y)]中檢測到的特征點集合P1和特征點集合P2進行匹配,步驟如下:
[0023]a.先建立帶優先級的KD樹索引,
[0024]b.從特征點集合P1中任意選取一點W,在特征點集合P2中找出其的最近鄰點W和次近鄰",其中i e {1,2,...,NJ、j e {1,2,..., N2I,N1和N2分別為特征點集合P1和P2中特口勺個數,
[0025]c.計算pi到所述最近鄰距點p1、Pil到所述次鄰距點Pj^i的距離的比值
【權利要求】
1.一種多路實時視頻拼接處理系統,其特征在于,是一個帶有支持CUDA的NVIDIA顯卡的服務器,設有:視頻采集單元(U1)、視頻流同步單元(U2)、視頻初始化邏輯控制單元(U3)、視頻初始化配準單元(U4)、視頻初始化融合單元(U5)、實時視頻拼接單元(U6),其中: 視頻采集單元(U1),是三路具有相同鏡頭、焦距的同款攝像機依次從左到右水平排開且固定位置,使采集的多路視頻圖像在水平方向有30%的重合度,并將原始數據從YUV格式轉換為圖像處理所需的RGB格式,向所述視頻流同步單元(U2)傳入三路視頻圖像:Ii(x, y)、I2(x, y)和 I3(x,y),其中 O ≤ y ≤ H-1,0 ≤ x ≤ W-1, H 為高度、W 為寬度,x、y、H、W均為非負整數; 視頻流同步單元(U2),設有:大小為5幀連續圖像的三個緩沖區隊列,依次緩存所述的三路視頻圖像流I1U, y)、I2(X,y)和I3(X,y),采用先進先出FIFO的隊列置換方式,利用操作系統生產者-消費者機制對所述三路實時視頻流進行同步互斥控制,確保視頻流全景圖像的正確拼接; 視頻初始化邏輯控制單元(U3),判斷從所述視頻流同步單元(U2)傳入的三路同步視頻圖像的實時性: 若當前為離線階段,則將三路圖像送到視頻初始化配準單元(U4), 若當前為實時階段,則將三路圖像送到實時視頻拼接單元(U6); 視頻初始化配準單元(U4),利用SURF算子對當前的三路同步視頻圖像提取特征點,找到圖像之間特征點的對應關系,再利用RANSAC算法求解圖像間的空間變換模型,設有:特征點提取子單元(U41)、特征點匹配子單元(U43)和模型變換子單元(U44),其中: 特征點提取子單元(U41)以及特征點描述子單元(U42),利用Herbert Bay在“SURF:Speeded Up Robust Features”中提出的SURF算子進行特征點提取和描述,其中:特征點提取子單元(U41),對所述的三幅同步視頻圖像Ijx’y)、I2 (x, y)和I3(x,y)利用SURF算法提取特征點:用不同尺寸的盒子濾波模板近似高斯二階微分,構造尺度空間,并利用積分圖像加速所述盒子濾波模板的卷積操作,在所述尺度空間進行非極大值抑制,得到特征點的位置U,y)和尺度信息s ; 特征點描述子單元(U42),首先在以特征點為中心,以6s為半徑的區域內,分別計算出X方向和y方向的Haar小波響應,其中Haar小波模板的大小為4s ;將一個60度的扇形作為滑動窗口,對窗口內的Haar響應值利用高斯權重進行累加;以36度為步長,旋轉一圈,當Haar響應累加值最大時,對應的方向即為所求特征點的主方向; 以特征點為中心,沿著特征點的主方向,在20sX20s大小區域內,劃分4X4個子區域,在每一個子區域中,計算5*5=25次Haar響應值,生成4維的SURF特征描述符V= ( Σ dx, Σ dx|, Σ dy, Σ I dy |),其中dx和dy分別為每個像素點經過Haar小波后得到在X方向和y方向的響應值;Σ dx和Σ dy分別為對子區域內所有像素點在X方向上和I方向上,以特征點為中心進行高斯加權的累加響應值,最終得到16X4=64維的SURF特征點描述符; 特征點匹配子單元(U43),對相鄰兩幅圖像[I1(IyhI2O^y)]中檢測到的特征點集合P1和特征點集合P2進行匹配,步驟如下: a.先建立帶優先級的KD樹索引,b.從特征點集合P1中任意選取一點N,在特征點集合P2中找出其的最近鄰點片和次近鄰W P 其中i e {1,2,...,NJ、j e {1,2,..., Nj7N1和N2分別為特征點集合P1和P2中特征點的個數, C.計算Pii到所述最近鄰距點A、K到所述次鄰距點Pi+1的距離的比值 cii s( Pi P ')
【文檔編號】G06T7/00GK103856727SQ201410111457
【公開日】2014年6月11日 申請日期:2014年3月24日 優先權日:2014年3月24日
【發明者】劉李緯, 張銀錢, 肖創柏 申請人:北京工業大學