一種基于Kinect和網絡攝像機的動態人像合成方法
【技術領域】
[0001] 本發明涉及互動視訊領域,尤其涉及一種基于Kinect和網絡攝像機的動態人像 合成方法。
【背景技術】
[0002] 人與人的互動是建立人際關系的重要過程,除了傳統的電話通訊外,網絡傳輸的 快速發展以及智能型行動裝置的普及,使人們的互動不再只能面對面進行,也能進行遠距 互動。近年來行動裝置也能藉由社群網站(如:Facebook、Google+、無名小站)進行圖片或 文字等多媒體的交流,讓互動多過程更多元豐富,已成為了現今年青年族群的主要交流方 式,可是這也間接導致人們的互動被局限在小小的裝置接口上,讓"低頭族"這一詞應運而 生。在交互式多媒體中,視訊也是一種常見的交流方式,利用網絡攝影機,讓相異各地的人 們,能看見對方的人物畫面,實時的與對方互動。而目前網絡攝影機也成為智能型行動裝置 的基本配備,讓視訊不再被固定地點所限制。
[0003] 在互動技術當中,視訊通訊是一種常見的交流方式,利用網絡攝影機(Web Camera),讓異地的人們,能看見對方的人物畫面,實時與對方互動,產生對方就在面前的感 覺。利用人像結合視訊的合成,能讓使用者不單純只是言語上的交流,也能透過視訊畫面來 進行肢體上的交流,讓互動表達的方式更為豐富多元。交互式視訊(Interactive Video)自 2005年以來,網絡帶寬的擴大,因特網的用戶逐漸增多,使用視頻交流的人們也跟著上升。 交互式視訊的種類可分為自定義型,探索型和對話型的在線交互式視訊。自定義型交互式 視訊是指用戶能對視訊進行調整和編輯,用一些像是按鈕等互動組件,做出用戶所喜好的 視訊。探索型交互式訊是允許使用者透過一個空間從多個角度來看一個物體,像是一些在 網絡上的美術展覽,能藉由多個角度和進行旋轉,仔細的欣賞藝術品。對話型交互式視訊也 就是現今常用的遠程實時視訊通訊,利用網絡攝影機等設備來進行一對一或一對多的視訊 對話。應用像是使用交互式視訊游戲來對老人下肢肌肉的康復訓練,只要在家中就能透過 視訊傳達醫生的指令來執行復健運動。這些互動多是用戶與虛擬對象的互動,若能進行本 文方法的應用,讓多用戶異地進行實體互動,達成網絡社群與參與者間的視訊融合式互動, 給予視訊互動更加真實的交流。
[0004] 互動的方式除了前述的交互式多媒體外,也能進行像是體育競賽的肢體互動,而 在現代的設備中,我們可以利用體感裝置,在室內中做到仿真肢體互動的功能。體感技術 (Somatosensory Technology)就是人們在體感設備的偵測范圍內,可以直接用四肢動作來 進行控制,無需使用復雜的操作。體感技術根據體感的模式和原則的不同,可分為三大類, 分別為慣性傳感、光傳感和組合傳感。而慣性傳感的設備像是重力傳感器、陀螺儀、磁傳傳 感器等,利用加速度、角速度和磁力根據現場空間來獲得變動的物理參數。光傳感是利用雷 射進行發送和接收,對于雷射接收的強弱和角度來獲得人體圖像以及深度的數據。組合傳 感則是將前兩類的三軸陀螺儀和紅外線傳感器進行結合,可以更準確的偵測像是人體手腕 的旋轉運動。
[0005] Kinect體感裝置,是由Microsoft所開發,起初是為了 XB0X360交互式游戲所開發 的產品,而后推出了 for Windows的版本給予商業上的應用。Kinect運用了光傳感技術,并 且支持人像辨識和語音識別等功能,視訊鏡頭方面是由彩色攝影機、紅外線發射器和紅外 線接收器所組成,紅外線發射器將雷射平均投射到測量空間中,再透過紅外線接收器收每 個點的位置,進一步由內部運算形成深度的影像,最后藉由前景的人像深度運算出人體的 20個骨架位置并追蹤。由于Kinect為設計給體感運動所使用,所以在偵測人體時,運算是 以速度為優先,精確度較差。對于3D景深偵測,由于Kinect價格相較于其他3D偵測設備 低廉,并且擁有追蹤人體骨架和擷取前景人像的功能,可以作為仿真肢體互動的主要設備, 但Kinect不能精確的把動態人像進行完整切割,故需要在這方面做出改進。
【發明內容】
[0006] 本發明的目的在于提供一種基于Kinect和網絡攝像機的動態人像合成方法,以 解決Kinect不能完整切割動態人像的問題,讓用戶能在相異的兩方進行肢體互動,并且能 分享彼此的空間環境,利用動態人像切割的處理,降低人像和視訊融合所產生的違和感。
[0007] 為了實現上述的目的,采用如下的技術方案。一種基于Kinect和網絡攝像機的動 態人像合成方法,采用Kinect體感設備對包含有人像的影像進行拍攝并產生深度信息,所 述方法包括以下步驟: Sl影像分析 用trimap方法將深度信息分為前景、背景和不確定區域,所述前景為已知人像,所述 背景為已知人像以外的場景,所述不確定區域為有可能是前景或是背景的未歸類區域,深 度信息中無法偵測或是內部校正后產生的誤差區域也可以歸類為不確定區域; S2頭部追蹤 對已知人像的頭部骨架進行追蹤; S3人像切割 對已知人像進行處理和切割,得到切割人像; S4視訊合成 將切割人像與網絡攝像機拍攝的影像進行合成。
[0008] 影像切割(Image Segmentation)是對場景中的顏色或紋理等特征進行演算和分 類,將每個對象應用戶需求區分開來,而分類的方法有好幾種。本發明所需要用到的人像通 常位于一個場景的前景之中,而要進行前景影像的切割是個復雜的問題,解決這個問題的 方法有針對低景深影像進行前景的切割、利用三角測量的方式偵測影像中人型肢體來進行 切割等。對于視訊影像的切割,需要有能夠快速進行運算的方式,本發明使用動態人像切割 簡化的方法,對Kinect的深度影像運用trimap的概念進一步的分析,并且運用骨架追蹤來 修復頭部,進一步的進行人像切割。trimap的概念是將一個場景分類為前景、背景和不確定 的區域,只要能分析不確定的區域,便能將前景和背景影像完整的分開來,其中前景就是本 發明中的人像。上述方案中,所述步驟S3包括以下步驟: S31校正 使用SDK提供的MapDepthFrameToColorFrame方法進行左右視差的深度校正,讓深度 位置符合色彩位置; S32擴張 對已知人像深度進行影像擴張,將深度間的空隙填滿; S33修復 利用頭部追蹤將在頭部偵測范圍內的不確定人像納入到已知人像中進行頭部的修復, 得到修復人像; S34邊緣透明化 對修復人像的左、右、上的邊緣進行邊緣偵測,再將偵測到的邊緣進行透明化; S35切割 對邊緣透明化的人像的邊緣進行切割,得到切割人像。
[0009] 由于深度信息是由紅外線3D深度傳感器來進行偵測,紅外線容易被一些有光澤 的折射物和黑色的事物所干擾,導致深度信息的不完全,如果直接對深度進行人像切割,會 讓人像切割不完全,尤其頭部的毀損最為嚴重。而人臉是辨認一個人的主要信息,必須保持 其完整度,故需要對人像進行頭部修復。上述方案中,所述步驟S33中的頭部偵測范圍如公 式⑴⑵所示:
【主權項】
1. 一種基于Kinect和網絡攝像機的動態人像合成方法,采用Kinect體感設備對包含 有人像的影像進行拍攝并產生深度信息,其特征在于,所述方法包括W下步驟: S1影像分析 用trimap方法將深度信息分為前景、背景和不確定區域,所述前景為已知人像,所述 背景為已知人像W外的場景,所述不確定區域為有可能是前景或是背景的未歸類區域; S2頭部追蹤 對已知人像的頭部骨架進行追蹤; S3人像切割 對已知人像進行處理和切割,得到切割人像; S4視訊合成 將切割人像與網絡攝像機拍攝的影像進行合成。
2. 根據權利要求1所述的方法,其特征在于,所述步驟S3包括W下步驟: S31校正 使用SDK提供的MapD巧th化ameToColor化ame方法進行左右視差的深度校正,讓深度 位置符合色彩位置; S32擴張 對已知人像深度進行影像擴張,將深度間的空隙填滿; S33修復 利用頭部追蹤將在頭部偵測范圍內的不確定人像納入到已知人像中進行頭部的修復, 得到修復人像; S34邊緣透明化 對修復人像的左、右、上的邊緣進行邊緣偵測,再將偵測到的邊緣進行透明化; S35切割 對邊緣透明化的人像的邊緣進行切割,得到切割人像。
3. 根據權利要求2所述的方法,其特征在于,所述步驟S33中的頭部偵測范圍如公式 (1) (2)所示:
在公式(1)中,Distanceskeiet?為骨架距離,代表頭部骨架點化adm到頸部骨架點Neck。
的最短距離,公為目前像素距離,是由頭部骨架點Head。到目前運算像素點 Pixel;的最短距離,m、n、i為各自的像素位置,T則為偵測頭部區域的口檻值,為骨架距離 的0.6倍,在公式(2)中,化suretesi?代表不確定區域,筑化代表已知人像像素,當 目前像素距離小于T時,并且目前像素位于不確定區域中,將其納入到已知人像中。
4.根據權利要求2所述的方法,其特征在于,所述步驟S34的邊緣偵測為先設定具有方 向性遞減的透明度矩陣,如公式(3)所示:
其中A1地aisft、A1地a"sht、A1地at°P分別存有向左、向右、向上遞減的透明度矩陣,數值 為十六進制,當值為ff為完全不透明,值為00時為完全透明, 將透明度矩陣分別套用在對應方向的邊緣上,邊緣偵測的方法如公式(4) (5) (6)所 示:
其中化thert心。n為非人像的其它區域, 公式(4)是針對左方的邊緣偵測,當運算經過連續5個W上的非人像像素后,目前的像
素位于修復人像之中,則目前的像素視為左側的邊緣,W目前的像素透明度戶妖為 中也,使用A1地aisft來進行邊緣透明化, 公式(5)是針對右方的邊緣偵測,要不斷地重新記錄像素在修復人像區域之中的最新 位置,當運算經過連續5個W上的非人像像素后,原先紀錄位于修復人像的像素位置則視 為右側邊緣,使用A1地a"sht進行邊緣透明化, 公式(6)是針對上方的邊緣偵測,其中width為彩色影像的數據寬度,當像素位于修復 人像之中,而往上連續5個W上為非人像像素,則將目前像素視為上方邊緣,使用Alphatw 進行邊緣透明化。
【專利摘要】本發明涉及互動視訊領域,尤其涉及一種基于Kinect和網絡攝像機的動態人像合成方法,采用Kinect體感設備對包含有人像的影像進行拍攝并產生深度信息,所述方法包括以下步驟:S1影像分析;S2頭部追蹤;S3人像切割;S4視訊合成。與現有技術相比,本發明排除了動態影像進行影像切割所需的龐大運算時間,使用動態人像切割的方法,能讓人像完整的表達,尤其是在頭部的區域最為顯著,切割好的人像經由邊緣透明處理后,讓人像能更佳的融合進視訊當中。
【IPC分類】G06T3-00
【公開號】CN104599231
【申請號】CN201510023482
【發明人】莊禮鴻, 吳明霓, 鄒豐懋
【申請人】汕頭大學
【公開日】2015年5月6日
【申請日】2015年1月16日