專利名稱:多攝像頭視頻目標提取的視頻圖像通信系統及實現方法
技術領域:
本發明屬于基于信息內容的視頻圖象通信技術領域,特別涉及視頻目標提取,基于信息內容的視頻圖象編碼方法。
基于視頻目標的視頻圖象通信,是國際標準化組織ISO/IEC MPEG-4中的一個主要部分。在該標準中,視頻目標由二值圖象序列所限定,而該二值圖象序列如何獲得并不為國際標準所涉及,即視頻目標的提取是開放的。視頻目標提取是圖象分析和理解研究領域至今未解決的問題,它和圖象攝取、表達和處理技術有關,也和人的視覺特性及不同人對不同目標的興趣有關。在圖象通信通信系統中,現有的視頻目標提取方法有如下幾類(1)基于紋理的視頻目標提取方法,采用紋理的不連續性分割圖象。代表文獻為M.Kunt,A.Ikonomopoulos,and M.Kocher,″Second generation image coding techniques″(第二代圖象編碼技術),Proceedings of the IEEE(電氣工程師學會學報),Vol.73(4)(第73卷第4期),pp.549-575(頁),1985。(2)基于運動的視頻目標提取方法,采用運動模型匹配分割視頻目標。代表文獻為HansGeorge Musmann,Michael Hotter and Jorn Ostermann,″Object-oriented analysis-synthesis coding for moving images″(基于目標的活動圖象分析—合成編碼),ImageCommunication(圖象通信)Vol.1,pp.117-138(第一卷117-138頁),1989。(3)基于顏色的視頻部標提取方法,采用顏色的不連續性分割視頻目標。代表文獻Li H B,Forchheimer R,″Location of Face Using Color Cue″(基于顏色的人臉定位),PictureCoding Symposium,P.2.4(圖象編碼會議,第2部分第4篇),1993。(4)多特征視頻目標提取方法,文獻較多,例如用運動特征和邊緣特征分割視頻目標,Reinders,M.van Beek,P.,Sankur,B.,and van der Lubbe,J.″Facial featurelocalisation and adaptation of a generic face model for model-based coding″,(模型基編碼中的人臉特征定位以及與一般人臉模型的匹配)Signal ProcessingImageComm.,Vol.7,No.1,pp.57-74(信號處理學報,圖象通信分刊,第7卷第1期,57-74頁),1995;用運動特征和顏色特征分割人臉目標,T.Xie,Y.He,and C.Weng,″A layeredvideo coding scheme for very low bit rate videophone″(甚低數碼率可視電話的分層視頻編碼方法),Picture Coding Symposium,pp.343-347(圖象編碼會議,第343-347頁),Berlin(柏林),1997。
基于上述方法的視頻通信系統均采用單攝像頭獲取視頻圖象,稱為單攝像頭基于信息內容的視頻通信系統。單攝像頭視頻通信系統利用運動、紋理、顏色等特征和某些先驗知識提取視頻對象,然后以視頻對象為單元進行編碼發送至通信信道。接收端收到信號后,對碼字進行譯碼重建視頻目標,通過視頻顯示器顯示視頻目標。其通信系統的結構如
圖1所示。圖1中單攝像頭基于信息內容的視頻通信系統在發射端由兩個單元組成。第一個單元是“基于單視的視頻對象提取單元”,第二個單元是“視頻對象編碼單元”。在接收端也由兩個單元組成。第一個單元是“視頻對象解碼單元”,第二個是“視頻對象顯示單元”。
另一類視頻通信系統為多視視頻通信系統(Multi-view video communicationsystem),以下簡稱為多視系統。現有多視系統包括“多視—多視類型”和“多視—單視類型”多視—多視,包括自動監控系統,多機位現場直播系統、和攝像機陣列系統,其結構如圖2所示,主要包括在發射端有兩個以上(1,。。。,n)“單視信號編碼單元”,每一個單視信號編碼單元連接一個攝像頭。n個單視碼流輸入“多路視頻碼流復接單元”進行信號混合,然后發送至通信信道。在接收端,復合碼流在“多路視頻碼流分接”分離成n個獨立的碼流,n個“單視信號解碼單元”將n個視頻碼流還原成n個視頻圖象,分別由n個視頻顯示器顯示。這類系統的特點是多視之間并無必然聯系,僅僅是在系統級將多個單視通信系統合并起來構成一個具有一定功能的整體。其中多機位現場直播系統特點是關于同一場景的多路視頻,對于具體圖象獲取參數沒有特別規定;而攝像機陣列系統的特點是不但針對同一場景,而且對攝像機之間的相互位置關系和單機的攝像參數都有比較嚴格的規定。具體應用包括立體視頻通信等。
多視—單視,包括基于視選取系統和場景重建系統。其中基于視選取系統結構如圖3所示,其主要包括位置判決模塊、多個圖象獲取模塊、一個多路選擇器、一個單路視頻編碼模塊以及一個單路視頻解碼模塊。其一般的工作流程是首先由位置判決模塊判定觀察者當前所處的位置,并將位置信息傳回至多路選擇器控制部件;多路選擇器根據傳回的位置信息進行視的適當選取(或通過簡單插值進行中間視的圖象生成),并將結果圖象送視頻編碼器模塊;視頻編碼器對輸入圖象進行編碼,碼流通過信道傳輸到解碼端;解碼器對碼流進行解碼,產生解碼圖象,并送達最終用戶。
場景重建系統結構如圖4所示,其主要包括多個圖象獲取模塊、一個場景重建模塊、一個虛擬場景投影模塊、一個位置判決模塊、以及相應的編碼解碼模塊。一般的工作流程為首先多路視頻輸入模塊將獲取的多路視頻送場景重建模塊;繼而由場景重建模塊根據輸入的多視信息重建出虛擬的2D或3D場景;由位置判決模塊判斷觀察者在虛擬場景中的位置,并將位置信息送虛擬場景投影模塊;由虛擬場景投影模塊根據觀察者在虛擬場景中的位置和生成的虛擬場景進行虛擬視的生成,并將生成的虛擬視送視頻編碼器;編碼器進行編碼,碼流通過信道傳輸到解碼器;解碼器完成碼流解碼,產生解碼圖象并送達最終用戶。此類系統并不對圖象的內容進行分析。與圖3所示的系統不同點是,投影圖并不是簡單選取多幅圖中的一個,而是要用相應的圖來拼成。
上述方法及系統存在以下不足之處單攝像頭視頻通信系統在視頻圖象攝取的過程中丟去了物理目標的三維信息,將投影后的二維圖象作為視頻圖象分析和編碼的源,其結果有很大的不確定性。因為視頻目標的分割的目的是劃分視頻圖象中的前景和背景,僅從二維信息來劃分是這種不確定性的主要原因。而由于多視數碼流之間的信息匹配運算量很大,多視圖像深度匹配算法尚未發展至通信系統的應用中。能否運用在基于信息內容的通信的關鍵問題在于提取深度信息的實時運算上。
本發明的目的是為克服已有技術的不足之處,提出一種多攝像頭視頻目標提取的視頻圖象通信系統,采用多攝像頭輸入視頻圖象,從而可以獲得物理目標的三維空間信息,即深度信息對前景和背景的分割將提供重要的依據;同時提出的實現方法解決了從多視頻流中實時提取物理目標的深度信息算法的關鍵技術,使得深度信息提取能夠快速執行。
本發明提出一種多攝像頭視頻目標提取的視頻圖象通信系統,包括由視頻對象提取單元和視頻對象編碼單元組成的發射端,由視頻對象解碼單元和視頻對象顯示單元組成的接收端,所說的發射端與接收端通過通信信道相連;其特征在于,所說的視頻對象提取單元為與多個攝像頭相連同時對多個視頻流進行匹配運算,對視頻目標信息分割的基于多視和多種特征結合的視頻對象提取單元。
本發明的上述系統為雙向的通信系統,在每個通信端同時有發射單元和接收單元,并且同時工作。
本發明提出一種實現上述系統的方法,包括以下步驟(1)在發射端,由多個攝像頭輸入視頻圖象,其中一個視頻流為目標圖象,其余視頻流為輔助圖象;(2)在輔助圖象的幫助下,對目標圖象進行所說深度信息的分析和提取,及進行基于深度信息的多特征視頻目標提取綜合判斷,再進行基于匹配結果的3D物體分割,從而提取出視頻目標,其結果表示為視頻目標的二值圖象序列;(3)視頻對象編碼單元根據視頻目標的二值圖象序列,對源目標圖象進行基于視頻對象的編碼,從而形成基于視頻對象的碼流,發送至通信信道;(4)在接收端,視頻對象解碼單元將基于視頻對象的碼流還原成基于視頻對象的圖象;(5)視頻對象顯示單元對各個視頻對象進行獨立的顯示。本發明方法中的相關定義如下目標圖像是待分割的視頻中的某一幀。參考圖像是參考視頻中的相應幀。目標線段是某一個核面與目標圖像的交線,如果兩光學系統的光心連線與行掃描方向水平,則為某一掃描行的一部分(或全部)。參考線段參考圖像與同一個核面的交線。實際上由于前文所述的理由,參考圖像與目標圖像中的像素匹配問題在特定的假設之下可以轉化為參考線段與目標線段上點的匹配問題。線段匹配我們將線段A與線段B匹配定義為,目標線段A與參考線段B的起點與終點一致。子線段將線段分割為不重疊的子區間,每一子區間為一個子線段。匹配程度由匹配度量函數函數取值大小決定。線段的直方圖函數在線段上的象素點進行亮度統計,得到的取某個亮度的象素點的個數與相應亮度的對應關系。直方圖操作實際上是將圖像中的具有某個亮度的象素點變成具有另一個或另幾個亮度的象素點的圖像變換過程。子線段是目標線段或參考線段上點的一個連續子集。
本發明對多攝像頭獲取的多個視頻流之間深度信息的快速分析和提取方法,采用多重迭代,逐層細化的算法,每一層包括以下步驟(1)分別輸入目標線段和參考線段;(2)對所說的目標線段和參考線段分別進行直方圖調整;(3)對調整后的線段確立特征門限;(4)用上述門限對線段進行粗分割得到子線段,然后根據直方圖對子線段提取特征;(5)將目標子線段和參考子線段進行特征匹配;(6)對匹配結果進行是否要再分割的判斷;(7)如果不滿足條件則進入下一層,重復步驟(1)至步驟(7);最后各層匹配結果統一輸入分割模塊,從而完成規定精度的分割與匹配。
上述的直方圖調整對來自兩個視場的目標線段和參考線段分別進行,具體方法為(1)統計整條目標線段的最高亮度值Max與最低亮度值Min。(2)如果Max與Min的差值小于某一個域值Th1,則將此線段上的所有點的亮度置為其亮度均值,否則對線段上每一點作如下亮度變換g(x)=f(x)-MinMax-Min×VMax]]>其中f(x)為變換目標值,g(x)為變換結果,Vmax是系統的亮度的變化范圍。
上述確立特征門限方法具體步驟如下直方圖調整之后,將整條線段根據域值分成不同的區域,從而為線段的匹配尋找各個子線段的對應關系(1)設定一個域值Th2為一個略小于50%的數值;(2)如果Th2<30%,則對直方圖調整過的線段進行直方圖均衡化;(3)找到亮度值DU使亮度大于DU的像素點數在兩條線段中所占的總比例剛剛大于Th2;(4)找到亮度值DD使亮度小于DD的像素點數在兩條線段中所占的總比例剛剛大于Th2;(5)統計亮度DU與DD之間的像素,尋找其數目的局部谷值;(6)如果沒有出現局部谷值,則減小Th2,重復(2)-(5);(7)如果出現多個谷值,則增大Th2,重復(2)-(5);(8)以谷值作為域值的門限。
上述子線段特征提取方法可采用如下具體步驟(1)用上述門限對目標線段和參考線段進行分割;(2)將相連的同種屬性的點連綴成段;(3)提取各子線段的特征值為,子線段中最大值Mmax,子線段中的最小值Mmin,子線段的長度Mlength,子線段像素的亮度平均值Maverage。上述子特征線段匹配的方法可采用如下具體步驟(1)假設目標線段被分割為m條不重疊的子線段,記為C[1]…C[m];而參考線段則被分割為n條互不重疊的子線段,記為R[1]…R[m]。其特征值為對應子線段的象素點平均值;(2)設每條子線段相應的權重分別為KC[i]、KR[j],分別等于對應子線段的長度;(3)取m×n的空間的一部分(i…i+4,j…j+4);(4)確定其匹配度對一一對應的子線段匹配對假定目標線段的子線段C[i]在參考線段中與子線段R[j]對應,則該子線段對應所產生的匹配度為FV[i,j]=KC[i]+KR[j]2×(C[i]-R[j])]]>對一對多匹配子線段假定目標線段的子線段C[i+1]與C[i]在參考線段中與子線段R[j]對應,則這部分的匹配度為FV[i,j]+FV[i+1,j]=KC[i]+KC[i+1]+KR[j]2×(C[i]×KC[i]+C[i+1]×KC[i+1]KC[i]+KC[i+1]+R[j])]]>對無匹配子線段C[i]或R[j],分別規定其匹配度為FV[i,0]=KC[i]×OcPFV
=KR[j]×OcP其中OcP為遮擋懲罰因子(5)對每一條候選匹配路徑,分別計算其各個子段上的FV[,],則整條匹配路徑的最終匹配度量因子SFV為路徑上所有FV[,]之和;(6)計算最小匹配度量因子的候選路徑。
上述匹配子線段的繼續分割判斷的方法可采用如下具體步驟(1)鑒于整個算法的目的是進行3D物體分割,對于整個線段已經被歸入物體或背景范圍的子線段,不必進行進一步的匹配;(2)亮度無起伏的子線段,即Mmax-Mmin<某一域值Th3的那些子線段;(3)長度過短的子線段,即Mlength<某一域值Th4的那些子線段;(4)對應的全部子線段符合上述3條的子線段;(5)將匹配的子線段通過插值使長度相等,再求整個線段SAD值,該值小于某一域值Th5的那些子線段對;(6)對無匹配段的處理,對于無匹配的子線段,認為是遮擋區,不進行進一步的匹配。
本發明在深度信息的基礎上,采用多特征對視頻目標進行提取的方法,包括以下步驟(1)用顏色信息對深度信息分析的結果進行補充判決;(2)用運動信息對深度信息補充判決;(3)也可以采用其他信息的進一步擴展;(4)采用劃分—合并方法對視頻目標進行分割。
上述用顏色信息對深度信息分析的結果進行補充判決方法可采用如下具體步驟(1)采用方向性臨域最小差值圖的門限劃分對目標圖象進行基于顏色的空間子區域劃分;(2)采用區域漫水算法對顏色的空間子區域合并;(3)與深度信息的結合,根據顏色子區域的最大似然平均深度進行子區域深度域值分割。
上述運動信息對深度信息補充判決方法可采用如下具體步驟(1)以不同的運動模式作為子區域區域劃分的判據;(2)以不同子區域相同的運動模式作為合并的依據;(3)根據運動矢量作物體分割的幀間繼承。
上述基于其他信息的進一步擴展的方法可包括采用邊緣信息,更高級處理信息等。
上述采用劃分—合并方法對視頻目標進行分割的方法可包括首先進行劃分,其具體步驟如下(1)定義一個劃分判決函數Fseg(A|I)其中I為待分割目標圖象,A為其上一個連通的子區域;(2)當劃分判決函數在子區域A的取值大于某個設定的劃分門限,即Fseg(A|I)>Thseg時,將子區域A進一步劃分為m個子區域;(3)劃分的依據是某個度量函數在A上之和取極小值,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>其中D(.)為所采用的子區域劃分度量函數;然后進行合并的具體步驟如下(1)定義一個合并判決函數Fmerge(A1,A2,…,An|I)其中Ai(i=1,2,…,n)是I中任意n個連通子區域;(2)當合并判決函數小于某個設定的域值時,將這n個子區域合并為一個子區域A;上述劃分方法和合并方法交替迭代進行。
將上述劃分—合并方法用于多種信息特征的視頻目標分割的方法可采用如下具體步驟(1)采用N個特征(F1,F2,…,FN)T,首先將它們分成不互斥的兩組Useg=(Fi1,Fi2,…,FiK)TUmerge=(Fi1,Fi2,…,FiK)T(2)其中Useg為將用于劃分的特征集而Umerge為將用于合并的特征集;(3)分別根據Useg和Umerge設計Fseg(A|I)和Fmerge(A1,A2,…,An|I),以及劃分度量函數D(.);(4)將獲得的Fseg(A|I)、Fmerge(A1,A2,…,An|I)和D(.)代入上述劃分—合并方法算式中,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>Fmerge(A1,A2,…,An|I)就得到一個多種特征結合的劃分合并算法;(5)以子區域最大似然深度作為合并判決的多種特征相結合的劃分合并算法。上述最大似然深度判決方法可采用如下具體步驟(1)定義使后驗概率P(d(z)=x|z∈A,I,Dd(I))最大的x為子區域A的最大似然深度。其中d(z)為z象素的深度,A為待判決子區域,I為待分割目標圖象,Dd(I)為視差場;(2)將子區域最大似然深度簡化為二值判據Fdis=P(d(z)<Thd|z∈A,I,Dd(I))即子區域中點深度小于某特定門限的比例;(3)將深度信息納入劃分—合并算法的步驟之中;上述基于匹配結果的3D物體分割的方法可采用如下步驟(1)根據子線段的匹配結果,將匹配起點與匹配終點視差都超過某一域值Th6的子線段分割為物體;(2)將匹配起點與匹配終點視差都不超過某一域值Th6的子線段分割為背景;(3)對于其他區域進行繼續分割匹配迭代;(4)直到整個分割結果能夠滿足精度要求為止。
本發明的特點及效果本發明提出的多攝像頭視頻目標提取的視頻圖象通信系統,由多攝像頭作為圖象輸入從而構成的基于視頻信息內容編碼和視頻圖象通信系統概念和系統實現。視頻對象提取單元將對多個視頻流進行匹配運算,從而根據深度,顏色,運動等多種和物理視頻目標有關的信息對視頻目標信息分割。視頻對象編碼單元對分割后的視頻目標進行編碼,然后發送至傳輸信道。在接收端,視頻解碼單元對碼流解碼,分出視頻單元,最后視頻顯示器對不同的視頻目標獨立顯示。
由于本發明采用對多攝像頭獲取的多個視頻流之間深度信息提取的快速算法,使得深度信息提取能夠快速執行,從而使多攝像頭視頻目標提取的視頻圖象通信系統可以實現。
由于本發明的基于深度信息的多特征視頻目標提取算法,使得目標提取得到更好的效果,為基于視頻信息內容的通信提供了更好的目標源。采用多種特征進行視頻目標的分割具有高的效率和準確性。
附圖的簡單說明圖1為已有的單攝像頭基于信息內容的視頻通信系統結構框圖。圖2為已有的多視—多視視頻通信系統結構框圖。圖3為已有的基于視選取的多視—單視視頻通信系統結構框圖。圖4為已有的場景重建的多視—單視視頻通信系統結構框圖。圖5為本發明的多攝像頭視頻目標提取的視頻圖象通信系統結構框圖。圖6為本發明的平行光軸條件與搜索1維化示意圖。圖7為本發明的共軸平面上的幾何投影示意圖。圖8為本發明的深度信息提取的快速方法流程框圖。圖9為本發明的分割子段的最優匹配示意圖。圖10為本發明的最小匹配度量因子的候選路徑示意圖。圖11為本發明的深度信息快速提取實驗模擬結果。其中圖11(a)是ball letter左幀視頻輸入圖(500×500);圖11(b)是ball letter右幀視頻輸入圖(500×500);圖11(c)是ball_letter左幀分割結果;圖11(d)是man序列左幀視頻輸入圖象(384×384);圖11(e)是man序列右幀視頻輸入圖象(384×384);圖11(f)是man序列分割結果。
結合各附圖對本發明的工作原理及實施例詳細說明如下本發明的多攝像頭視頻目標提取的視頻圖象通信系統結構如圖5所示,包括由基于多視和多種特征結合的視頻對象提取單元和視頻對象編碼單元組成的發射端,由視頻對象解碼單元和視頻對象顯示單元組成的接收端,發射端與接收端通過通信信道相連;視頻對象提取單元與多個攝像頭相連同時對目標圖象和多個輔助圖象構成的視頻流之間的深度信息進行匹配運算,對視頻目標信息分割,其結果表示為視頻目標的二值圖象序列;視頻對象編碼單元根據視頻目標的二值圖象序列,對源目標圖象進行基于視頻對象的編碼,從而形成基于視頻對象的碼流,發送至通信信道;在接收端,視頻對象解碼單元將基于視頻對象的碼流還原成基于視頻對象的圖象;視頻對象顯示單元對視頻對象進行獨立的顯示。
本發明的對多攝像頭獲取的多個視頻流之間深度信息的快速提取方法原理分析以兩個攝像頭為例,設兩個攝像頭的幾何位置滿足平行光軸條件,從而使二個視頻圖象之間的匹配問題簡化為一維搜索匹配問題,如圖6所示假設立體投影系統滿足平行光軸條件(epipolar condition),即投影系統O1與O2的光軸相互平行(不妨假設為Z方向),的則某一空間點P在兩視場中的投影必然處于P以及兩個視場各自的投影中心所確定的平面上,此平面為核面(epipolar plane),P1于P2都處于核面PO1O2上。空間處于某核面X上的點在兩個投影系統中的投影也必然處于核面與對應的投影平面的交線上,也就是說如果F1為X與O1系統的象平面S1的交線,而F2為X與O2系統的象平面S2的交線,則F1上任意點的空間對應點在O2系統中的投影必然落在F2上,反之亦然。因此在搜索空間對應點的過程中,可以簡化為兩條直線上對應點的匹配問題,這樣顯然大大降低了問題的復雜度。如果O1O2與行掃描線平行,則在每一個核面都會與行掃描線平行,因此兩個視場當中所獲取的最終圖像的每一條掃描線上的數據必然來自同一個核面,即,可以將在兩個視場中搜索匹配點對的問題簡化為在對應掃描行上搜索匹配點對的問題。
空間點在立體投影系統中的位置與空間深度的關系,如圖7所示假設兩個攝像頭的像平面與透鏡中點的距離均為l(在大多數情況下不失一般性地認為l近似等于透鏡焦距f),且兩個攝像機的透鏡光心間距為2d。
根據空間物點P在兩個象平面上投影P1與P2的相對位置py1與py2,可以求出P點的空間坐標。P點在直線O1P1上,所以xp、yp滿足yp=py1l×xp-d]]>同時P也在直線O2P2上,所以xp、yp又滿足yp=py2l×xp+d]]>聯立以上兩個方程解得{yp=d×(py1+py2)py1-py2xp=2dlpy1-py2]]>因此,空間物點的深度xp只與其在兩個象平面上投影的相對位置之差py1-py2有關,而與py1、py2的具體數值無關,只需要求出該物點在立體圖像對中的視差即可。
本發明對多攝像頭獲取的多個視頻流之間深度信息的快速分析和提取方法,可采用多重迭代,逐層細化的算法,如圖8所示,每一層包括以下步驟(1)分別輸入目標線段和參考線段;(2)對所說的目標線段和參考線段分別進行直方圖調整;(3)對調整后的線段確立特征門限;(4)用上述門限對線段進行粗分割得到子線段,然后根據直方圖對子線段提取特征;(5)將目標子線段和參考子線段進行特征匹配;(6)對匹配結果進行是否要再分割的判斷;(7)如果不滿足條件則進入下一層,重復步驟(1)至步驟(7);最后各層匹配結果統一輸入分割模塊,從而完成規定精度的分割與匹配。
上述的直方圖調整方法是對來自兩個視場的目標線段和參考線段分別進行,具體可包括以下步驟(1)統計整條目標線段的最高亮度值Max與最低亮度值Min。(2)如果Max與Min的差值小于某一個域值Th1,則將此線段上的所有點的亮度置為其亮度均值,否則對線段上每一點作如下亮度變換g(x)=f(x)-MinMax-Min×VMax]]>其中f(x)為變換目標值,g(x)為變換結果,Vmax是系統的亮度的變化范圍。
上述確立特征門限方法可采用如下具體步驟直方圖調整之后,將整條線段根據域值分成不同的區域,從而為線段的匹配尋找各個子線段的對應關系(1)設定一個域值Th2為一個略小于50%的數值;(2)如果Th2<30%,則對直方圖調整過的線段進行直方圖均衡化;(3)找到亮度值DU使亮度大于DU的像素點數在兩條線段中所占的總比例剛剛大于Th2;(4)找到亮度值DD使亮度小于DD的像素點數在兩條線段中所占的總比例剛剛大于Th2;(5)統計亮度DU與DD之間的像素,尋找其數目的局部谷值;(6)如果沒有出現局部谷值,則減小Th2,重復(2)-(5);(7)如果出現多個谷值,則增大Th2,重復(2)-(5);(8)以谷值作為域值的門限。
上述子線段特征提取方法可采用如下具體步驟(1)用上述門限對目標線段和參考線段進行分割;(2)將相連的同種屬性的點連綴成段;(3)提取各子線段的特征值為,子線段中最大值Mmax,子線段中的最小值Mmin,子線段的長度Mlength,子線段像素的亮度平均值Maverage。
上述子特征線段匹配的原理如下以子線段的均值作為對應點的權重,可以得到目標子線段和參考子線段之間的匹配對應關系。一個子線段有以下幾種對應,即一一對應、一對多、無對應。如果一對多情況出現,則作子線段合并,使其轉化為一一對應。子線段的匹配可以用一個m×n的空間中搜索使得匹配度量因子FV最小的最優路徑的問題,如圖9所示如何將匹配的準確性量化為匹配度量因子FV是此算法的難點。整條線段的匹配是每個子線段的匹配的和效果,因此每一條備選匹配路徑的總的匹配度量因子FV是該匹配路徑上各個子線段匹配度量因子的和。每條子線段的匹配度量因子應該具有如下性質(1)與子線段的長度基本成正比關系(2)對應子線段越近似,該值越小上述子特征線段匹配的方法可采用如下具體步驟(1)假設目標線段被分割為m條不重疊的子線段,記為C[1]…C[m];而參考線段則被分割為n條互不重疊的子線段,記為R[1]…R[m]。其特征值為對應子線段的象素點平均值;(2)設每條子線段相應的權重分別為KC[i]、KR[j],分別等于對應子線段的長度;(3)取m×n的空間的一部分(i…i+4,j…j+4);(4)確定其匹配度對一一對應的子線段匹配對假定目標線段的子線段C[i]在參考線段中與子線段R[j]對應,則該子線段對應所產生的匹配度為FV[i,j]=KC[i]+KR[j]2×(C[i]-R[j])]]>對一對多匹配子線段假定目標線段的子線段C[i+1]與C[i]在參考線段中與子線段R[j]對應,則這部分的匹配度為FV[i,j]+FV[i+1,j]=KC[i]+KC[i+1]+KR[j]2×(C[i]×KC[i]+C[i+1]×KC[i+1]KC[i]+KC[i+1]+R[j])]]>對無匹配子線段C[i]或R[j],分別規定其匹配度為FV[i,0]=KC[i]×OcPFV
=KR[j]×OcP其中OcP為遮擋懲罰因子(1)對每一條候選匹配路徑,分別計算其各個子段上的FV[,],則整條匹配路徑的最終匹配度量因子SFV為路徑上所有FV[,]之和;(2)計算最小匹配度量因子的候選路徑。
上述最小匹配度量因子的候選路徑方法具體步驟如下,如圖10所示按照j從1到n逐行順序,并且在每一行中間按照i從1到m的順序逐點計算從(0,0)到當前點的所有匹配路徑中最小的FV。規定對當前點只存在三個搜索方向,在圖中點(i,j)為當前點,對于當前點,本次匹配路徑只可能從1、2、3三種方向進入。在計算到(i,j)的所有匹配路徑中最小的總匹配度量因子SFV的時候,1、2、3(粗虛線)分別為三條候選路徑;同時注意到由于在過程中允許一對多的匹配,所以必須根據以前的匹配結果,增加一些幾條候選路徑。例如對于沿方向3進入(i,j)的路徑,如果在(i,j-1)點的判決中選定的最優匹配路徑是1(粗實線),則綜合考慮,該路徑為(i-1,j-2)-(i,j),所以4(細虛線)也應該為一條候選路徑;同樣對于沿方向1進入(i,j)的路徑,如果在(i-1,j)點的判決中選定的最優匹配路徑是1(粗實線),則綜合考慮,該路徑為(i-2,j-1)-(i,j),所以5(細虛線)也應該為一條候選路徑。因此總的候選路徑數目不會超過6條。規定如果某一個方向與其所對應的出發點的最優路徑進入方向一致的話則不增加候選搜索路徑。與對每條候選匹配路徑,前進到(i,j)的總的匹配度量因子等于該次匹配的出發點的總的匹配度量因子加上該匹配子線段所對應的匹配度量因子。例如對于候選路徑3,其進(i,j)的匹配度量因子為SFV(i,j)=SFV(i,j-1)+FV(i,j-1)從所有進入(i,j)的候選路徑中選出SFV最小者作為進入(i,j)的最優路徑。然后繼續對下一點進行。直到(m,n)為止。此時只需從(m,n)延每一個點進入方向逐點倒退回去,直到(0,0)就可以找到整條最優匹配路徑。按照前文提到的方法對最優匹配路徑的每一個子段進行分析,就可以得出子線段之間的對應關系。最后一步是將對應同一子線段的多條線段加以合并,這樣就得到,本次匹配的最終結果。
上述匹配子線段的繼續分割判斷的方法可采用如下具體步驟(1)鑒于整個算法的目的是進行3D物體分割,對于整個線段已經被歸入物體或背景范圍的子線段,不必進行進一步的匹配;(2)亮度無起伏的子線段,即Mmax-Mmin<某一域值Th3的那些子線段;(3)長度過短的子線段,即Mlength<某一域值Th4的那些子線段;(4)對應的全部子線段符合上述3條的子線段;(5)將匹配的子線段通過插值使長度相等,再求整個線段SAD值,該值小于某一域值Th5的那些子線段對;(6)對無匹配段的處理,對于無匹配的子線段,認為是遮擋區,不進行進一步的匹配。
本發明在深度信息的基礎上,采用多特征對視頻目標進行提取的方法,包括以下步驟(1)用顏色信息對深度信息分析的結果進行補充判決;(2)用運動信息對深度信息補充判決;(3)也可以采用其他信息的進一步擴展;(4)采用劃分—合并方法對視頻目標進行分割。
上述用顏色信息對深度信息分析的結果進行補充判決方法可采用如下具體步驟(1)采用方向性臨域最小差值圖的門限劃分對目標圖象進行基于顏色的空間子區域劃分;(2)采用區域漫水算法對顏色的空間子區域合并;(3)與深度信息的結合,根據顏色子區域的最大似然平均深度進行子區域深度域值分割。
上述運動信息對深度信息補充判決方法可采用如下具體步驟(1)以不同的運動模式作為子區域區域劃分的判據;(2)以不同子區域相同的運動模式作為合并的依據;(3)根據運動矢量作物體分割的幀間繼承。
上述基于其他信息的進一步擴展的方法包括采用邊緣信息,更高級處理信息等。
上述采用劃分—合并方法對視頻目標進行分割的方法可采用如下具體步驟首先進行劃分,其具體步驟可包括(1)定義一個劃分判決函數Fseg(A|I)其中I為待分割目標圖象,A為其上一個連通的子區域;(2)當劃分判決函數在子區域A的取值大于某個設定的劃分門限,即Fseg(A|I)>Thseg時,將子區域A進一步劃分為m個子區域;(3)劃分的依據是某個度量函數在A上之和取極小值,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>其中D(.)為所采用的子區域劃分度量函數。
然后進行合并,其具體步驟可包括(1)定義一個合并判決函數Fmerge(A1,A2,…,An|I)其中Ai(i=1,2,…,n)是I中任意n個連通子區域;(2)當合并判決函數小于某個設定的域值時,將這n個子區域合并為一個子區域A;上述劃分方法和合并方法將交替迭代進行。
本發明將上述劃分—合并方法用于多種信息特征的視頻目標分割可采用如下具體步驟(1)采用N個特征(F1,F2,…,FN)T,首先將它們分成不互斥的兩組Useg=(Fi1,Fi2,…,FiK)TUmerge=(Fi1,Fi2,…,FiK)T(2)其中Useg為將用于劃分的特征集而Umerge為將用于合并的特征集;(3)分別根據Useg和Umerge設計Fseg(A|I)和Fmerge(A1,A2,…,An|I),以及劃分度量函數D(.);(4)將獲得的Fseg(A|I)、Fmerge(A1,A2,…,An|I)和D(.)代入上述劃分—合并方法算式中,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>Fmerge(A1,A2,…,An|I)就得到一個多種特征結合的劃分合并算法;(5)以子區域最大似然深度作為合并判決的多種特征相結合的劃分合并算法上述最大似然深度判決方法可采用如下具體步驟(1)定義使后驗概率P(d(z)=x|z∈A,I,Dd(I))最大的x為子區域A的最大似然深度。其中d(z)為z象素的深度,A為待判決子區域,I為待分割目標圖象,Dd(I)為視差場。(2)將子區域最大似然深度簡化為二值判據Fdis=P(d(z)<Thd|z∈A,I,Dd(I))即子區域中點深度小于某特定門限的比例。(3)將深度信息納入劃分—合并算法的步驟之中。
上述基于匹配結果的3D物體分割的方法可包括如下步驟(1)根據子線段的匹配結果,將匹配起點與匹配終點視差都超過某一域值Th6的子線段分割為物體;(2)將匹配起點與匹配終點視差都不超過某一域值Th6的子線段分割為背景;(3)對于其他區域進行繼續分割匹配迭代;(4)直到整個分割結果能夠滿足精度要求為止。本發明的深度信息快速提取實驗模擬結果如圖11所示其中ball letter序列實驗結果,圖11(a)是ball letter左幀視頻輸入圖(500×500),圖11(b)是ball letter右幀視頻輸入圖(500×500),圖(c)是ball_letter左幀分割結果迭代層數1運算時間31ms。運算采用PII-400PC機,C語言。
man序列實驗結果,圖11(d)是man序列左幀視頻輸入圖象(384×384),圖11(e)是man序列右幀視頻輸入圖象(384×384),圖11(f)是man序列分割結果迭代次數3運算時間50幀8.74s。運算采用PII-400PC機,C語言。
本發明多攝像頭視頻目標提取的視頻圖象通信系統的實施例說明如下實施例之一采用P-II 400 PC機,配以兩個以上USB CMOS OV6620攝像頭,采用多USB插卡將視頻信號輸入至PC機,在符合共軸條件下,采用本發明對多攝像頭獲取的多個視頻流之間深度信息的快速提取方法和本發明對基于深度信息的多特征視頻目標提取的快速算法對多視視頻流進行分析。利用深度將場景分為不同前景和背景,得到不同視頻目標二值時間序列。從而可以采用基于視頻目標的編碼方法(如MPEG-4)對視頻目標編碼。網絡傳輸可以采用基于IP協議的硬件插卡實施例之二采用PC機插卡的硬件加速輔助方案,將多視頻流輸入以及對多攝像頭獲取的多個視頻流之間深度信息的快速提取方法和本發明對基于深度信息的多特征視頻目標提取的運算由硬件插卡完成,和PC機并行完成基于多特征的視頻對象提取。其余計算同實施方案1)。插卡主要有多視頻流輸入單元和視頻可編程運算單元組成。比如可以采用可編程芯片Trimedia作為硬件核心器件。實施方案之三完全脫離計算機的硬件實施方案。硬件系統由多視頻流輸入單元,視頻可編程運算單元,和網絡傳輸接口單元組成。比如可以采用可編程芯片Trimedia作為硬件核心器件。
權利要求
1.一種多攝像頭視頻目標提取的視頻圖象通信系統,包括由視頻對象提取單元和視頻對象編碼單元組成的發射端,由視頻對象解碼單元和視頻對象顯示單元組成的接收端,所說的發射端與接收端通過通信信道相連;其特征在于,所說的視頻對象提取單元為與多個攝像頭相連同時對多個視頻流進行匹配運算,對視頻目標信息分割的基于多視和多種特征結合的視頻對象提取單元。
2.一種實現如權利要求1所述系統的方法,包括以下步驟(1)在發射端,由多個攝像頭輸入視頻圖象,其中一個視頻流為目標圖象,其余視頻流為輔助圖象;(2)在輔助圖象的幫助下,對目標圖象進行所說深度信息的分析和提取,及進行基于深度信息的多特征視頻目標提取綜合判斷,再進行基于匹配結果的3D物體分割,從而提取出視頻目標,其結果表示為視頻目標的二值圖象序列;(3)視頻對象編碼單元根據視頻目標的二值圖象序列,對源目標圖象進行基于視頻對象的編碼,從而形成基于視頻對象的碼流,發送至通信信道;(4)在接收端,視頻對象解碼單元將基于視頻對象的碼流還原成基于視頻對象的圖象;(5)視頻對象顯示單元對各個視頻對象進行獨立的顯示。
3.如權利要求2所述的實現方法,其特征在于,所說的多攝像頭獲取的多個視頻流之間深度信息的快速分析和提取方法,采用多重迭代,逐層細化的算法,每一層包括以下步驟(1)分別輸入目標線段和參考線段;(2)對所說的目標線段和參考線段分別進行直方圖調整;(3)對調整后的線段確立特征門限;(4)用上述門限對線段進行粗分割得到子線段,然后根據直方圖對子線段提取特征;(5)將目標子線段和參考子線段進行特征匹配;(6)對匹配結果進行是否要再分割的判斷;(7)如果不滿足條件則進入下一層,重復步驟(1)至步驟(7);最后各層匹配結果統一輸入分割模塊,從而完成規定精度的分割與匹配。
4.如權利要求3所述的實現方法,其特征在于,所述的直方圖調整按兩個視場的目標線段和參考線段分別進行,具體包括以下步驟(1)統計整條目標線段的最高亮度值Max與最低亮度值Min;(2)如果Max與Min的差值小于某一個域值Th1,則將此線段上的所有點的亮度置為其亮度均值,否則對線段上每一點作如下亮度變換g(x)=f(x)-MinMax-Min×VMax]]>其中f(x)為變換目標值,g(x)為變換結果,Vmax是系統的亮度的變化范圍。
5.如權利要求3所述的實現方法,其特征在于,所說的確立特征門限方法具體步驟如下(1)設定一個域值Th2為一個略小于50%的數值;(2)如果Th2<30%,則對直方圖調整過的線段進行直方圖均衡化;(3)找到亮度值DU使亮度大于DU的像素點數在兩條線段中所占的總比例剛剛大于Th2;(4)找到亮度值DD使亮度小于DD的像素點數在兩條線段中所占的總比例剛剛大于Th2;(5)統計亮度DU與DD之間的像素,尋找其數目的局部谷值;(6)如果沒有出現局部谷值,則減小Th2,重復(2)-(5);(7)如果出現多個谷值,則增大Th2,重復(2)-(5);(8)以谷值作為域值的門限。
6.如權利要求3所述的實現方法,其特征在于,所上述子線段特征提取具體步驟如下(1)用上述門限對目標線段和參考線段進行分割;(2)將相連的同種屬性的點連綴成段;(3)提取各子線段的特征值為,子線段中最大值Mmax,子線段中的最小值Mmin,子線段的長度Mlength,子線段像素的亮度平均值Maverage。
7.如權利要求3所述的實現方法,其特征在于,所述的子特征線段匹配的具體步驟如下(1)假設目標線段被分割為m條不重疊的子線段,記為C[1]…C[m];而參考線段則被分割為n條互不重疊的子線段,記為R[1]…R[m]。其特征值為對應子線段的象素點平均值;(2)設每條子線段相應的權重分別為KC[i]、KR[j],分別等于對應子線段的長度;(3)取m×n的空間的一部分(i…i+4,j…j+4);(4)確定其匹配度(5)對一一對應的子線段匹配對假定目標線段的子線段C[i]在參考線段中與子線段R[j]對應,則該子線段對應所產生的匹配度為FV[i,j]=KC[i]+KR[j]2×(C[i]-R[j])]]>對一對多匹配子線段假定目標線段的子線段C[i+1]與C[i]在參考線段中與子線段R[j]對應,則這部分的匹配度為FV[i,j]+FV[i+1,j]=KC[i]+KC[i+1]+KR[j]2×(C[i]×KC[i]+C[i+1]×KC[i+1]KC[i]+KC[i+1]+R[j])]]>對無匹配子線段C[i]或R[j],分別規定其匹配度為FV[i,0]=KC[i]×OcPFV
=KR[j]×OcP其中OcP為遮擋懲罰因子(6)對每一條候選匹配路徑,分別計算其各個子段上的FV[,],則整條匹配路徑的最終匹配度量因子SFV為路徑上所有FV[,]之和;(7)計算最小匹配度量因子的候選路徑。
8.如權利要求3所述的實現方法,其特征在于,所述的匹配子線段的繼續分割判斷的方法具體步驟如下(1)鑒于整個算法的目的是進行3D物體分割,對于整個線段已經被歸入物體或背景范圍的子線段,不必進行進一步的匹配;(2)亮度無起伏的子線段,即Mmax-Mmin<某一域值Th3的那些子線段;(3)長度過短的子線段,即Mlength<某一域值Th4的那些子線段;(4)對應的全部子線段符合上述3條的子線段;(5)將匹配的子線段通過插值使長度相等,再求整個線段SAD值,該值小于某一域值Th5的那些子線段對(6)對無匹配段的處理,對于無匹配的子線段,認為是遮擋區,不進行進一步的匹配。
9.如權利要求2所述的實現方法,其特征在于,所述的多特征對視頻目標進行提取的方法,包括以下步驟(1)用顏色信息對深度信息分析的結果進行補充判決;(2)用運動信息對深度信息補充判決;(3)也可以采用其他信息的進一步擴展;(4)采用劃分—合并方法對視頻目標進行分割。(5)上述用顏色信息對深度信息分析的結果進行補充判決方法具體步驟如下(6)采用方向性臨域最小差值圖的門限劃分對目標圖象進行基于顏色的空間子區域劃分;(7)采用區域漫水算法對顏色的空間子區域合并;(8)與深度信息的結合,根據顏色子區域的最大似然平均深度進行子區域深度域值分割。
10.如權利要求9所述的實現方法,其特征在于,所上述運動信息對深度信息補充判決方法具體步驟如下(1)以不同的運動模式作為子區域區域劃分的判據;(2)以不同子區域相同的運動模式作為合并的依據;(3)根據運動矢量作物體分割的幀間繼承。
11.如權利要求9所述的實現方法,其特征在于,所上述采用劃分—合并方法對視頻目標進行分割的方法具體步驟如下首先進行劃分,具體包括(1)定義一個劃分判決函數(2)Fseg(A|I)(3)其中I為待分割目標圖象,A為其上一個連通的子區域;(4)當劃分判決函數在子區域A的取值大于某個設定的劃分門限,即Fseg(A|I)>Thseg時,將子區域A進一步劃分為m個子區域;(5)劃分的依據是某個度量函數在A上之和取極小值,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>其中D(.)為所采用的子區域劃分度量函數。然后進行合并,具體包括(1)定義一個合并判決函數Fmerge(A1,A2,…,An|I)其中Ai(i=1,2,…,n)是I中任意n個連通子區域;(2)當合并判決函數小于某個設定的域值時,將這n個子區域合并為一個子區域A;上述劃分方法和合并方法將交替迭代進行
12.如權利要求9或11所述的實現方法,其特征在于,所述的劃分—合并方法用于多種信息特征的視頻目標分割的具體步驟如下(1)采用N個特征(F1,F2,…,FN)T,首先將它們分成不互斥的兩組Useg=(Fi1,Fi2,…,FiK)T(2)Umerge=(Fi1,Fi2,…,FiK)T(3)其中Useg為將用于劃分的特征集而Umerge為將用于合并的特征集;(4)分別根據Useg和Umerge設計Fseg(A|I)和Fmerge(A1,A2,…,An|I),以及劃分度量函數D(.);(5)將獲得的Fseg(A|I)、Fmerge(A1,A2,…,An|I)和D(.)代入上述劃分—合并方法算式中,即(m,A1....Am)=Para(min(Σi=1mD(Ai)))]]>Fmerge(A1,A2,…,An|I)就得到一個多種特征結合的劃分合并算法;(6)以子區域最大似然深度作為合并判決的多種特征相結合的劃分—合并算法。
13.如權利要求12所述的實現方法,其特征在于,所述最大似然深度判決方法具體步驟如下(1)定義使后驗概率P(d(z)=x|z∈A,I,Dd(I))最大的x為子區域A的最大似然深度。其中d(z)為z象素的深度,A為待判決子區域,I為待分割目標圖象,Dd(I)為視差場;(2)將子區域最大似然深度簡化為二值判據Fdis=P(d(z)<Thd|z∈A,I,Dd(I))即子區域中點深度小于某特定門限的比例。(3)將深度信息納入劃分—合并算法的步驟之中。
14.如權利要求2所述的實現方法,其特征在于,所述的基于匹配結果的3D物體分割的方法步驟如下(4)根據子線段的匹配結果,將匹配起點與匹配終點視差都超過某一域值Th6的子線段分割為物體;(5)將匹配起點與匹配終點視差都不超過某一域值Th6的子線段分割為背景;(6)對于其他區域進行繼續分割匹配迭代;(7)直到整個分割結果能夠滿足精度要求為止。
全文摘要
本發明屬于基于信息內容的視頻圖象通信技術領域,系統包括由與多個攝像頭相連的基于多視和多種特征結合的視頻對象提取單元和視頻對象編碼單元組成的發射端,由視頻對象解碼單元和視頻對象顯示單元組成的接收端,所說的發射端與接收端通過通信信道相連;本發明可以獲得物理目標的三維空間信息,解決了從多視頻流中實時提取物理目標的深度信息算法的關鍵技術,使得視頻目標提取能夠快速執行。
文檔編號H04N13/02GK1275871SQ0012144
公開日2000年12月6日 申請日期2000年7月21日 優先權日2000年7月21日
發明者何蕓, 張越成 申請人:清華大學