專利名稱:用于遠程會議的多視頻相機處理的制作方法
技術領域:
本公開一般涉及視頻會議系統。
背景技術:
當今的視頻會議系統已提高了質量以提供遠程的會議參與者在場的感覺。因此, 它們通常被稱為“遙現系統(tel印resence system)”。一個示例是思科系統公司的CISCO CTS3000遙現系統。在被設置用于這樣的視頻會議系統的視頻會議室中,座位是固定的。相機具有固定的焦點、變焦和角度,以在相匹配的視頻顯示器上以實物大小的“特寫”再現每個成員。客戶具有他們想要用于遙現會議的其它會議室。在這些房間中,座位可能對于每個會議顯著不同。一些現有的遙現系統使用實際云臺(pan-tilt-zoom,PTZ)和/或電子PTZ(EPTZ) 相機。無論是實際云臺還是電子的,相機都必須由人來手動操控以獲得良好的視圖。當這對于一個相機較麻煩時,在多相機情形中就變得難以應付了。因此,希望使用自動地找出每個參與者的良好特寫人視圖的多個相機。
圖IA示出了根據本發明實施例的將三個相機用于視頻會議的會議室的第一示例布置的俯視圖。圖IB示出了根據本發明實施例的將兩個相機用于視頻會議的會議室的第二示例布置的俯視圖。圖IC示出了根據本發明實施例的將三個相機121、123和125用于視頻會議的第三示例的俯視圖。圖2示出了例如可應用于圖IA所示的參與者的布置的本發明一個實施例的簡化功能框圖。圖3示出了例如可應用于圖IB和圖IC所示的參與者的布置的本發明一個實施例的簡化功能框圖。圖4示出了根據本發明實施例的用于操作處理系統的方法實施例的流程圖。圖5示出了根據本發明實施例的用于操作處理系統的另一方法實施例的流程圖。圖6示出了根據用于視頻遠程會議的典型會議室中的廣角相機視圖的示例的照片的素描圖。圖7示出了根據本發明實施例的根據來自顯示屏一側上的相機的示例廣角相機視圖的照片的素描圖。
圖8示出了根據本發明實施例的根據來自與圖7所示的相對的顯示屏一側上的相機的示例廣角相機視圖的照片的素描圖。圖9示出了根據本發明實施例的在圖6和圖7所示的示例中根據將被發送給遠程端點的人視圖的照片的素描圖。圖10示出了包括遠程會議終端的遠程會議系統的簡化框圖,該遠程會議終端包括本發明的實施例并被耦合到還與至少一個端點相耦合的網絡。
具體實施例方式概述用在標準會議室中的傳統遠程會議系統通常示出廣角群組人視圖。這里描述了具有適應于房間中多個人的座位的視頻相機的遠程會議系統。一個或多個廣角相機捕獲例如桌子周圍的參與者的廣角相機視圖。在一個實施例中,每個臉部通過音頻和視頻信息的組合被定位。人的鏡頭被構成或被選擇,就好像存在每個都產生人視圖的一組“虛擬”特寫相機一樣。由虛擬相機生成的人視圖然后被用在遠程會議中,例如使用多個顯示屏的遠程會議中。該系統不要求固定的座位布置,因為其自動地分析場景以及虛擬電子云臺相機捕獲正確的“頭部和肩部”人視圖的位置。該系統的實施例可以產生一個或多個視頻輸出流,每個視頻輸出流包含一個或多個人而不要求固定的座位布置。一些實施例的特征是該系統可以被動態地部署。即,不需要將其永久地安裝在特定位置中,而是可被移動到任何方便的房間。因此,本發明的實施例包括可以將電子云臺功能和多種視圖能力添加到簡單遙現系統中的裝置和方法。特定實施例包括一種裝置,該裝置包括多個視頻相機,每個視頻相機被配置為捕獲會議中的至少一些參與者的各個相機視圖。這些相機視圖一起包括每個參與者的至少一個視圖。該裝置還包括多個麥克風以及音頻處理模塊,該音頻處理模塊被耦合到多個麥克風并被配置為生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息。該裝置還包括構圖(composition)元件,被耦合到視頻相機并被配置為生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域。該裝置還具有視頻指導器(director)元件,被耦合到構圖模塊和音頻處理模塊,并被配置為根據方向信息選擇候選人視圖中將被發送給一個或多個遠程端點的至少一個人視圖。在該裝置的一個版本中,相機被設置為各自生成候選人視圖。構圖元件被配置為根據方向信息選擇將被發送給一個或多個遠程端點的至少一個相機視圖。此版本中的該裝置還包括視頻選擇器元件,被耦合到視頻指導器和視頻相機,并被配置為根據視頻指導器的選擇來切換到相機視圖中用于壓縮和發送到一個或多個遠程端點的至少一個相機視圖。該裝置的其它版本還包括臉部檢測元件,被耦合到相機并且被配置為確定每個相機視圖中每個參與者臉部的位置并且將所確定的(一個或多個)位置輸出給構圖元件。這些版本中的不必是人視圖。構圖模塊經由臉部檢測元件被耦合到相機,并且還被配置為根據所確定的臉部位置來生成一個或多個候選人視圖并且向視頻指導器輸出候選視圖信息, 每個候選人視圖是包含至少一個參與者的頭部和肩部視圖的區域。在這些版本中,視頻指導器還被配置為根據視頻指導器的選擇來輸出所選視圖信息,并且該裝置還包括電子云
6臺元件,被耦合到視頻指導器和視頻相機,并被配置為根據所選視圖信息來生成與候選視圖中用于壓縮和發送給一個或多個遠程端點的至少一個候選視圖相對應的視頻。每個參與者出現在僅一個人視圖中,或者每個參與者可能出現在多于一個人視圖中,在此情況中,構圖元件包括被配置為構成人視圖的第一構圖元件以及被配置為從所構成人視圖中選擇候選人視圖的第二構圖元件,以使得每個參與者出現在僅一個候選人視圖中。特定實施例包括用于操作處理系統的方法。該方法包括接受會議中的至少一些參與者的多個相機視圖。每個相機視圖來自對應的視頻相機,這些相機視圖一起包括每個參與者的至少一個視圖。該方法包括接受來自多個麥克風的音頻,并且處理來自多個麥克風的音頻以生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息。該方法還包括生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域。 該方法還包括根據方向信息選擇候選人視圖中將被發送給一個或多個遠程端點的至少一個人視圖。在一個版本中,所接受的相機視圖各自是候選人視圖,并且該方法還包括響應于所作的選擇,切換到所接受的相機視圖中用于壓縮和發送到一個或多個遠程端點的至少一個相機視圖。其它版本包括檢測相機視圖中的任何臉部并且確定每個相機視圖中每個所檢測臉部的位置。在這些版本中,相機視圖不必是人視圖,并且一個或多個候選人視圖的生成是根據所確定的臉部位置來進行的,以使得每個候選人視圖是包含至少一個參與者的頭部和肩部視圖的區域,該生成確定了候選視圖信息。此外,根據方向信息作出選擇包括根據所作的選擇來提供所選視圖信息。這些版本包括根據所選視圖信息來生成與候選視圖中用于壓縮和發送給一個或多個遠程端點的至少一個候選視圖相對應的視頻。在一種情況中,每個參與者出現在僅一個人視圖中。在其它情況中,每個參與者可能出現在多于一個人視圖中,并且用于這些版本的方法還包括構成可能的人視圖,并且從所構成的可能人視圖中選擇候選人視圖,以使得每個參與者出現在僅一個候選人視圖中。特定實施例包括用于操作處理系統的方法。該方法包括對于來自房間中的對應視頻相機的多個相機視圖,檢測相機視圖中的任何臉部;確定該房間中參與者的位置;確定哪個臉部或哪些臉部在多于一個相機視圖中;對于一個或多個相鄰臉部的每個子群組, 構成人視圖;為每個單獨參與者選擇各自的人視圖;將每個人視圖映射到所確定的語言方向,這樣的每個所確定語言方向被與人視圖之一相關聯;以及選擇用于發送給遠程端點的一個或多個人視圖,以使得被選擇用于發送的人視圖的視頻能被形成。在某個這樣的方法中,當語音方向改變時,該方法包括根據聲音方向在人視圖之間進行切換。特定實施例包括一種在其上編碼有可執行指令的計算機可讀介質,當可執行指令被處理系統的至少一個處理器運行時,使得執行方法。該方法包括對于來自房間中的對應視頻相機的多個相機視圖,檢測相機視圖中的任何臉部;確定該房間中參與者的位置;確定哪個臉部或哪些臉部在多于一個相機視圖中;對于一個或多個相鄰臉部的每個子群組, 構成人視圖;為每個單獨參與者選擇各自的人視圖;將每個人視圖映射到所確定的語言方向,這樣的每個所確定語言方向被與人視圖之一相關聯;以及選擇用于發送給遠程端點的一個或多個人視圖,以使得被選擇用于發送的人視圖的視頻能被形成。特定實施例可以提供這些方面、特征或優點中的所有、一些,或者不提供。特定實施例可以提供一個或多個其它方面、特征或優點,本領域技術人員可以從這里的附圖、描述和權利要求容易地清楚其中的一個或多個。實施例本發明的實施例使用兩個或更多個廣角相機,例如,高清晰視頻相機。一些實施例和電子云臺適用于具有臉部檢測的相機視圖中的一種或多種,以確定一個或多個特寫視圖,參與者中的一個或多個(例如,兩個或三個)中的每個的特寫視圖。圖IA示出了根據本發明第一實施例的其中三臺相機121、123和125被用于視頻會議的會議室的第一示例布置的俯視圖。至少一個顯示屏127位于會議室的一端處,在該會議室中放置有桌子111。圖IB示出了根據本發明實施例的其中兩臺相機121、123被用于視頻會議的會議室的第二示例布置的俯視圖,而圖IC示出了三臺視頻相機121、123和125 被使用的第三示例的俯視圖。顯示器通常在橫向上示出并排的實物大小的垂直放置的一個或兩個人,以使得他們眼睛的圖像與房間中的人在相同高度上。該桌子是典型的會議室桌子,其可以是細長形桌子,例如,如圖IA所示的矩形桌子或者如圖IB和圖IC所示的橢圓形桌子。圖IA中的參與者101、102、103、104、105、106和107以及圖IB和圖IC的每個中的參與者101、102、103、104、105、106、107、108和109圍著桌子。多個相機被用在交叉射擊 (cross-fire)布置中以提供廣角相機視圖,在一些布置中,例如,在圖IB和圖IC的布置中, 這些廣角相機視圖相重疊以使得每個參與者在至少一個視圖中。在圖IA中,每個參與者恰好位于一個相機視圖中,而在圖IB或圖IC的布置中,可能有位于多于一個視圖中的至少一個參與者。此外,相機被調整角度以使得每個參與者的臉部在至少一個廣角視圖中。因此, 例如,如果有位于桌子相對側的參與者,則通過調整相機的角度,每個這樣的參與者的臉部都在至少一個視圖中。使用尤其是配置有高清晰視頻相機的房間的現代視頻會議系統通常被稱為遙現系統,因為它們在至少一個顯示屏上為桌子周圍的參與者提供遠程參與者的實物大小圖像,就好像遠程參與者在場一樣。顯示器通常在橫向上示出并排的實物大小的垂直放置的一個或兩個人,以使得他們眼睛的圖像與房間中的人在相同高度上。一種機制是設置以放射狀方式位于房間中的各處并被固定的或者相隔一定距離并且彼此平行地定向并且與 (一個或多個)顯示器垂直的多個相機的視頻會議室,使得當參與者坐在會議桌周圍時,適合于顯示在遠程屏幕上的每個參與者的頭部和肩部的人視圖被獲得以產生一個或多個參與者出現在遠程位置處的印象。本發明實施例的一個特征是提供與按照被布置來捕獲廣角視圖的角度設置在 (一個或多個)顯示屏附近的多個相機的便宜布置(如圖1A-1C的示例布置所示)相同的效果。在一個示例中,相機在顯示器附近,其中兩個相機接近顯示器的兩側,并且如果有第三個相機(或僅一個相機),則使其直接位于相對于顯示器的中心。這些相機近似地位于參與者眼睛的水平面上,并且在一個示例中,可以離顯示器的任一側18英寸。圖2示出了例如可應用于圖IA所示的參與者的布置的本發明一個實施例的簡化功能框圖。多個相機203被布置為使得每個相機視圖示出并排的實物大小的兩個或最多三個人,其中多個相機203例如是高清晰視頻相機,其每個提供至少600行的視頻的分辨率,例如,每秒60幀的的1920X1080。在一個實施例中,每個相機具有固定的廣角視圖。針對坐在桌子111旁邊的參與者來布置景深(depth of field),以使得對于每個參與者,至少有一個相機具有對準焦點的參與者的臉部視圖。在第一版本中,逐個相機地調節分幅(framing)以使得每一幅適合于參與者的頭部和肩部的人視圖,該人視圖適合于顯示在遠程屏幕上以產生一個或多個參與者出現在遠程位置處的印象。每個相機視圖具有一個、兩個或者可能的三個參與者。在這樣的實施例中,每個參與者出現在一個且僅一個相機視圖中。相機被布置為使得出現在相機的人視圖中的兩個或三個參與者不會明顯地彼此遮擋。特定參與者通過這樣的相機位置來捕獲,該相機位置離該參與者最遠,也是最靠近該參與者的“正面”人視圖的位置。在第一版本中, 逐個相機地調節分幅以使得相機視圖具有已經被分幅成適合于人視圖的一個、兩個或者可能的三個參與者。在第二版本中,不必逐個相機地調節分幅以使得相機視圖是人視圖。可能需要一些額外的構圖。相機再次被布置為使得出現在相機視圖的(一個或多個)人視圖中的兩個或三個參與者不會明顯地彼此遮擋。這些人視圖使得每個人出現在僅一個人視圖中。特定參與者通過這樣的相機位置來捕獲,該相機位置離該參與者最遠,也是最靠近該參與者的 “正面,,人視圖的位置。由于在此第二版本中,分幅可能不一定是適合于顯示在遠程屏幕上以產生一個或多個參與者出現在遠程位置處的印象的、參與者的頭部和肩部的人視圖,因此電子構圖被執行來實現這樣的功能。在這兩個版本中,定向麥克風子系統包括例如被布置為麥克風陣列的兩個或更多個麥克風113,以及音頻處理模塊209,該音頻處理模塊209被耦合到麥克風并且被配置為生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息。在一個示例實施例中,方向信息為聲音的角度的形式。因此,麥克風被用來清晰地捕獲每個參與者的音頻,并且音頻處理被用來確定參與者正在人視圖中的哪個人視圖中講話。在麥克風與人之間的這樣的布置中,不必存在對應關系,如每個參與者曾被提供單獨的麥克風那樣的布置。本發明的一個方面可應用于這些布置,并且包括用于在在麥克風與相機視圖之間不存在一對一的對應關系的情況中確定哪個相機視圖示出了當前講話者的方法。在針對人視圖預先設置了分幅并且每個參與者出現在一個且僅一個相機視圖中的第一布置中,每個相機的朝向、分幅和縮放,例如,每個人相對于該相機的位置,被布置為使得對于該相機參與者眼睛的水平面和人視圖在頭部和肩部視圖中示出了兩個或最多三個人,該頭部和肩部視圖在典型遠程會議室顯示屏中將被縮放為實物大小。在這樣的布置中,構圖模塊223生成關于哪個方向與哪個相機視圖(在此情況中為人視圖)相關聯的信肩、ο視頻指導器元件225被耦合到構圖模塊223和音頻處理模塊,并被配置為根據方向信息來選擇將被發送給一個或多個遠程端點的候選人視圖中的至少一個。該視頻指導器向視頻選擇器元件227輸出信息,以根據視頻指導器的選擇來選擇相機視圖中用于與經處理版本的音頻數據一起被壓縮并被發送給一個或多個遠程端點的至少一個相機視圖。所選擇的(一個或多個)相機視圖對應于所選擇的(一個或多個)候選人視圖,并且變成被發送給遠程會議中的遠程端點的(一個或多個)活動人視圖。在包括電子構圖的第二布置中,S卩,當每個相機視圖不必被直接分幅成人視圖時,臉部檢測元件221接受相機視圖并且定位每個相機視圖中的臉部。構圖模塊223被耦合到臉部檢測元件221并被配置為生成候選人視圖,其中,一個人在僅一個候選人視圖中,并且通常每個相機一個,每個人視圖是包含至少一個參與者,通常為兩個或三個參與者的頭部和肩部視圖的區域。在一個實施例中,構圖模塊被布置為使得每個人視圖提供如下這樣的大小和布局的圖像,該大小和布局的圖像使得當被遠程地顯示在遠程顯示屏上時,每個參與者被顯示為實物大小并且面對著該遠程顯示屏所在的遠程位置中的所期望觀眾。構圖元件利用與幅邊界位置以及頭部的位置和大小有關的信息來構成候選的人視圖,并且例如以相對于對應相機視圖幅的人視圖大小和位置的形式輸出候選視圖信息。這些是可能的候選人視圖。視頻指導器元件225被耦合到構圖模塊223以及音頻處理模塊,并且被配置為根據方向信息來選擇將被發送給一個或多個遠程端點的候選人視圖中的至少一個。當一參與者講話時,方向信息的任何改變將使得視頻指導器將其選擇切換為包括包含有正在講話的該參與者的人視圖。一種方法使用房間中的參與者的位置的二維頭上映射(overhead mapping)來作出選擇。視頻指導器元件225例如以相對于對應相機視圖的所選(一個或多個)人視圖大小和位置的形式來輸出所選擇的候選視圖信息,以使得電子的實時的電子云臺(EPTZ)元件227可以根據視頻指導器元件的選擇來從(一個或多個)對應相機視圖形成(一個或多個)高清晰視頻幀。實時的電子云臺元件227被配置為例如利用視頻速率插值來形成用于每個所選人視圖的高清晰視頻幀,該每個所選人視圖將成為被發送給遠程會議中的遠程端點的(一個或多個)活動人視圖。視頻編解碼器和音頻編解碼器子系統231被配置為接受音頻和所選擇的一個或多個活動的人視頻視圖,并且在某個實施例中,接受任何其它視圖,并且壓縮視頻和音頻以發送給視頻遠程會議中的其它端點。本發明不限于編解碼器的任何特定體系結構。在一個實施例中,編解碼器子系統 231以每秒60幀的高清晰形式來對視頻編碼。第二組實施例可應用于這樣的情況,其中,每個相機視圖是廣角視圖,其不必被限制為人視圖或者不必被限制為使得每個參與者可以出現在一個且僅一個相機視圖中。圖IB 和圖IC所示的布置具有可能在多于一個相機視圖中具有同一參與者的重疊相機視圖。電子云臺(EPTZ)通過實時地處理視頻信號來創建人視圖,其中,每個人視圖顯示一個或多個參與者,通常為兩個或三個參與者,例如適合于發送給遠程端點的不多于三個參與者。臉部檢測被用來檢測每個相機視圖中的參與者。在這些布置中,再次地,多個麥克風被使用,以便清晰地捕獲每個參與者的音頻并且能夠確定哪個參與者正在講話。在一個實施例中,多個麥克風被布置為麥克風陣列113,與音頻處理模塊一起被配置來將特定人視圖與感測到的聲音相關聯,以使得當特定參與者講話時,包括該參與者的最好視圖的所構建人視圖成為被發送給遠程會議中的其它端點的至少一個人視圖中的被選人視圖。圖3示出了例如可應用于圖IB和圖IC所示的參與者的布置的本發明一個實施例的簡化功能框圖。多個相機303,例如高清晰視頻相機,被布置為使得每個相機視圖重疊在一起,這些相機視圖示出了所有參與者。這些相機視圖是廣角的,并且一個或多個參與者能夠并且可能出現在多于一個相機視圖中。視圖選擇/構圖元件305包括臉部檢測元件321,用于定位每個相機視圖內的人臉;第一構圖元件323(“構圖1”),其被耦合到臉部檢測元件321并被配置為接受相機視圖的位置和臉部大小,并且從相機視圖中構成一個、兩個或三個臉部的人視圖。構圖模塊323 被布置為使得每個人視圖提供如下這樣的大小和布局的圖像,該大小和布局的圖像使得當被遠程地顯示在遠程顯示屏上時,每個參與者被顯示為實物大小并且面對著該遠程顯示屏所在的遠程位置中的所期望觀眾。在一個實施例中,構圖元件323的輸出包括人視圖信息, 例如,該人視圖信息具有相對于(一個或多個)對應相機視圖的分幅的(一個或多個)人視圖的大小和位置的形式。視圖選擇/構圖元件305還包括作為人視圖選擇元件325的第二構圖元件 325( “構圖2”),被配置為接受來自構圖元件323的人視圖信息,例如,相對于(一個或多個)對應相機視圖的分幅的(一個或多個)人視圖大小和位置,并且為每個參與者選擇人視圖以形成候選人視圖。人視圖選擇元件325的輸出具有針對每個候選人視圖的候選人視圖信息的形式,例如,相對于(一個或多個)對應相機視圖的分幅的(一個或多個)候選人視圖大小和位置的形式。因此,第一和第二構圖元件325和327 —起形成了被配置為生成候選人視圖的構圖元件。定向麥克風子系統包括例如被布置為麥克風陣列的兩個或更多個麥克風113, 以及被耦合到麥克風并被配置為生成音頻數據以及指示在麥克風處接收的聲音的方向的方向信息的音頻處理模塊209。在一個示例實施例中,方向信息為聲音的角度的形式。因此, 麥克風被用來清晰地捕獲每個參與者的音頻,并且音頻處理被用來確定參與者正在人視圖中的哪個人視圖中講話。本領域已知了利用多個麥克風來確定聲音的方向的許多方法,并且本發明不限于任何特定方法。本發明的一個方面可應用于這樣的布置,并且包括這樣的映射方法,例如在人視圖選擇元件325中,所選人視圖中的哪個人視圖將映射用于哪個聲音方向。視頻指導器元件327被耦合到第二構圖元件(人視圖選擇元件)325以及音頻處理模塊,并被配置為根據方向信息來選擇將被發送的候選人視圖中的至少一個,該選擇具有用于電子云臺(EPTZ)元件329中的實時視頻構圖的和用于與經處理版本的音頻數據一起被壓縮并被發送給一個或多個遠程端點的信息的形式。當一參與者講話時,方向信息的任何改變將使得視頻指導器327將其選擇切換為包括包含有正在講話的該參與者的人視圖。一種方法將房間中的參與者位置的二維頭上映射用于進行選擇。視頻指導器的輸出具有用于將被發送的一個或多個人視圖,通常為一個人視圖的人視圖信息的形式,例如,為相對于(一個或多個)對應相機視圖的分幅的(一個或多個)人視圖大小和位置。電子云臺(EPTZ)元件3 被耦合到視圖選擇/構圖模塊305(具體地,視頻指導器327)并被耦合到視頻相機303的視頻輸出,并且根據人視圖信息以視頻速率來形成人視圖的視頻幀。這形成了針對(一個或多個)活動視頻視圖的(一個或多個)視頻信號。視頻編解碼器和音頻編解碼器子系統231被配置為接受音頻以及(一個或多個) 活動視頻視圖的(一個或多個)視頻信號,并且在某個實施例中,接受任何其它視圖,并且壓縮視頻和音頻以發送給視頻遠程會議中的其它端點。本發明不限于編解碼器的任何特定體系結構。在一個實施例中,編解碼器子系統231以每秒60幀的高清晰形式來對視頻編碼。
注意,一些現有的遙現系統還使用臉部檢測機制。在這樣的系統中,如果臉部被檢測到,則確定了相機的視圖內的所檢測臉部的大小和位置的臉部檢測系統被用來操控該相機。較老的系統可能使用單獨的廣角相機和特寫云臺(PTZ)相機。一些系統可能利用電子云臺來對此進行模擬,該電子云臺被用來跟蹤講話者的位置并將云臺視圖指向該人。這樣的跟蹤方法至少在如下差別方面與本發明的方法不同在本發明的實施例中,就“遙現”體驗來說,人視圖被約束并在遠程會議會話的持續時間期間保持固定。即,每當特定參與者出現時,該參與者都位于同一地點,以模擬所使用的固定相機。因此,在本發明的實施例中,聲音的方向并不操控實際的或虛擬的相機,而是在由構圖模塊獲得并由人視圖選擇模塊選擇的數個固定的虛擬(ΕΡ 7)相機視圖之間進行選擇,以使得每個人出現在一個且僅一個所選擇的所構成人視圖中。臉部檢測不直接操控 PTZ,其僅在圖片的中心處產生臉部的簡單特寫。每個臉部最終是由音頻和視頻信息的組合來定位的。該系統能夠產生包含多個人的多個視頻輸出流,然而其不要求固定的座位布置。高清晰視頻相機至少具有每秒60幀的1280X620,并且在一些實施例中,具有每秒60幀的1920X1080。相機被布置來提供固定的廣角視圖,以使得即使在圖像的僅一部分被選擇時也維持合理的圖像質量。在一個實施例中,相機具有相對大的景深以使得其相機視圖中的所有參與者保持被聚焦。相機被放置得稍微高于眼睛水平面。因此,本發明的系統自動地構成人視圖并且在它們之間進行選擇,以產生多相機遙現系統中的實物大小的特寫體驗。該處理允許相對少量的相機-即使只有一個相機,也表現得好像有多得多的虛擬相機存在一樣。圖4示出了用于操作處理系統的一個方法實施例的流程圖。該方法包括在401中接受會議的至少一些參與者的多個相機視圖。每個相機視圖來自對應的視頻相機,其中這些相機視圖一起包括每個參與者的至少一個視圖。該方法還包括在403中接受來自多個麥克風的音頻,并且在405中處理來自多個麥克風的音頻以生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息。該方法包括在407中生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域。在一個版本中,所接受的相機視圖的每個是候選人視圖。 即,相機被預先分幅以提供人視圖。407在這樣的情況中不是重要步驟。在其它版本中,相機視圖不必被預先設置為人視圖,在此情況中,該方法還包括在 407中檢測相機視圖中的任何臉部并且確定每個相機視圖中每個所檢測臉部的位置。在 407中生成一個或多個候選人視圖是根據所確定的臉部位置進行的,以使得每個候選人視圖是包含至少一個參與者的頭部和肩部視圖的區域,該生成確定了候選視圖信息。該方法包括在409中根據方向信息選擇將被發送給一個或多個遠程端點的候選人視圖中的至少一個。在相機視圖不必均是人視圖的情況中,根據方向信息作出該選擇包括根據所作的選擇來提供所選視圖信息。該方法還包括在411中響應于所作的選擇來切換所接受相機視圖中用于壓縮和發送給一個或多個遠程端點的至少一個相機視圖。在相機視圖不必均是人視圖的情況中, 該方法包括根據所選視圖信息生成與候選視圖中被選擇用于壓縮和發送給一個或多個遠程端點的至少一個候選視圖相對應的視頻。該生成使用EPTZ。
該方法還包括在步驟413中對切換到的視頻以及音頻數據進行壓縮,并且將經壓縮數據發送給一個或多個端點。在相機視圖不必均是人視圖的一個版本中,每個參與者出現在僅一個人視圖中。 在另一版本中,每個參與者可以出現在多于一個人視圖中。在這樣的情況中,407還包括構成可能的人視圖,并且從所構成的可能人視圖中選擇候選人視圖,以使得每個參與者出現在僅一個候選人視圖中。圖5示出了示出了用于操作處理系統的另一方法實施例的流程圖。該方法包括在臉部檢測步驟501中,對于來自房間中的對應視頻相機的每個相機視圖,檢測相機視圖中的任何臉部。該方法還包括在步驟503中確定房間中的參與者的位置,例如,創建房間中的臉部的位置的地圖來定位每個參與者。該方法還包括在步驟505中確定哪一個臉部或哪些臉部位于多于一個相機視圖中以用于構圖。即,檢測在多于一個相機視圖中的每個參與者的圖像。該方法包括在步驟 507中基于臉部大小和/或離相機的距離確定例如針對每個臉部的縮放因子,再次地以用于構圖。在步驟509中,該方法還包括對于一個或多個相鄰臉部的每個子群組,例如對于每對臉部,或者三個臉部的子群組,構成人視圖。在一個實施例中,對于每個人視圖中兩個參與者的情況,用于該人視圖的縮放是用于兩個個體臉部的縮放因子的平均值。該人視圖的構圖包括該人視圖內部的臉的子群組,例如,不接觸周界帶。在步驟511中,該方法包括通過選擇所構成人視圖的子集以使得每個臉部出現在該子集的所構成人視圖中的僅一個人視圖中并且使得該子集包括每個參與者的臉部,從而為每個分部的參與者選擇各自的人視圖。這些候選視圖可被認為是“虛擬相機”視圖,就好像每對參與者具有其自己的固定“虛擬”相機一樣。步驟513包括將每個人視圖映射到一個或多個語音方向,通過在音頻處理元件 209中執行的音頻處理確定的每個語言方向被耦合到兩個或更多個麥克風,并且這確定了語言來自哪個方向,以使得每個所確定語音方向被與人視圖的子集中的人視圖之一相關聯。步驟515包括選擇一個或多個人視圖用于發送給遠程端點,包括當聲音改變時, 例如當語音方向改變時,根據聲音方向在人視圖之間切換。步驟517包括為選擇用于發送的人視圖形成視頻。在一個實施例中,視頻輸出由候選視圖-虛擬相機視圖之間的可能的疊像漸變(cross fade)或切割(cut)組成。在一個實施例中,這樣的虛擬相機視圖-活動人視圖的多個流被形成用于同時發送并在端點處的多個顯示屏上觀看。在一個實施例中,該方法包括在示出了會議的大多數或所有本地參與者的全景 (group shot)與示出了僅一個或兩個參與者的人視圖之間自動切換。步驟519包括對在515中選擇并在步驟517中形成用于發送給遠程會議的端點的一個或多個人視圖以及音頻進行編碼或發送。在一個實施例中,圖5的方法的步驟503至513的人視圖構圖在遠程會議會話開始時發生。現在更詳細地描述該方法的一個實施例。該方法利用相機視圖并構造人視圖,每個人視圖是相機視圖之一內的感興趣的矩形區域。人視圖實質上是參與者的子集,例如參與者中的兩個的特寫。視圖構造在會話開始時發生。臉部檢測步驟501包括臉部檢測方法對于每個視圖報告作為相機視圖內的每個臉部的X,y坐標的位置以及臉部的尺寸大小。如本領域技術人員將清楚的,許多臉部檢測方法是已知的。本發明不依賴于所使用的任何特定類型的臉部檢測方法。臉部檢測的一個實施例包括眼睛檢測,并且包括根據臉上的眼睛之間的距離來確定臉部大小尺寸。另一方法包括將將橢圓形狀,例如半個橢圓擬合到在相機視圖中檢測到的邊緣,以檢測該臉部。具體地,一種方法如在2008年1月觀日提交的、發明人為Tian等人、題為REAL-TIME FACE DETECTION的共同轉讓美國專利申請No. 12/021,198中所描述的。另一方法如在2008年 2 月 14 日提交的、申請人為 Tian 等人、題為 REAL-TIME FACE DETECTION USING TEMPORAL DIFFERENCES.的共同轉讓美國專利申請No. 12/031,590中所描述的。因此,在一些實施例中,臉部檢測包括如下中的至少一種臉部檢測和/或將將橢圓形狀擬合到在與臉部相對應的相機視圖中檢測到的邊緣。在僅眼睛檢測被使用的情況中,臉部大小的尺寸是通過臉部中檢測到的眼睛之間的距離來確定的。在僅橢圓形狀擬合被使用的情況中,臉部的尺寸是根據橢圓形狀被擬合到臉部邊緣的性質來確定的。參與者映射步驟503包括在給定每個相機視圖的相機的已知位置和角度的情況下,利用每個臉部的(X,y)位置和多個視圖來創建房間中的臉部的位置的地圖。該方法包括利用已知為先驗的相機的縮放因子來將所確定臉部大小轉換為深度,即,離相機的距離。 因此,每個臉部離已知相機位置的近似距離被確定。由于兩個或更多個相機被使用,因此臉部被匹配并且三角測量被用來確定他們在房間中的物理位置。該方法因此定位房間中每個參與者的臉部。該方法包括唯一臉部視圖選擇。步驟505包括標識冗余視圖,包括確定哪個臉部或哪些臉部出現在多于一個相機視圖中但共同位于該地圖上。一個實施例包括驗證,其包括近似圖像比較。對于唯一臉部視圖選擇,該方法包括從任何參與者的冗余相機視圖中選擇每個參與者的一個優選相機視圖。對于特定參與者,如果僅存在該參與者的一個相機視圖,則最好的相機視圖是該僅有的一個相機視圖,或者如果存在多于一個相機視圖,則最好的相機視圖是與輪廓視圖相對的臉部更超前面的視圖或者正面視圖。來自臉部檢測階段的信息被用于此。例如,對于將橢圓或半橢圓擬合到每個臉部的方法,對針對同一參與者的兩個半橢圓寬度進行比較。在另一實施例中,503的位置地圖被使用并且正對著參與者臉部的相機的相機視圖被選擇。所希望的構圖預先被確定。例如,一個實施例選擇包含并排的兩個參與者的 16 9畫面,其中兩個臉部以某些位置為中心,例如,眼睛最接近預先定義的位置并且臉部具有預先選擇的大小。確定候選人視圖的構圖要素包括步驟507和509。在某個相機視圖中相鄰的兩個 (或更多個)臉部是用于人視圖的候選。針對該群組選擇/確定比例因子(放大或縮放), 其優化所有的臉部大小。臉部被分幅在預定的所希望構圖的矩形內。因此,候選人視圖是針對相機視圖中的每對(或更多)參與者構成的。一種方法包括評估候選群組視圖。一種方法包括根據預定的所希望構圖基于臉部離最優臉部位置的距離來計算優劣評分(merit score) 0所希望構圖的矩形被移動以優化該視圖,相當于執行電子搖鏡頭。步驟511包括選擇每個參與者的所構成人視圖,以使得所選構成人視圖包括所有參與者僅一次并且具有最高的總分。在操作期間,群組視圖的集合保持固定。視圖不會主動地搖鏡頭或傾斜或縮放以跟隨移動。然而,如果場景更徹底地改變,則該視圖選擇方法重新計算一組新的視圖。在一個實施例中,對該組人視圖的計算,即,步驟501-513包括在人視圖之一中的臉部數目改變時重新進行計算。現在呈現操作的示例。現在呈現一些要素的更多細節。圖6-9示出了從實際照片產生的素描圖。圖6示出了在用于視頻遠程會議的典型會議室中來自近似位于房間的顯示屏中心處的相機的廣角相機視圖的示例。這是通過傳統現有技術視頻遠程會議系統時通常所看到的。該相機視圖還對應于在類似于圖IC的布置中來自相機125的相機視圖可能的樣子。圖7示出了來自顯示屏一側上的相機的廣角相機視圖,并且對應于在類似于圖IB 和圖IC的布置中來自相機121的相機視圖可能的樣子。圖7還示出了所構成的兩個人視圖的位置,每個人視圖有兩個參與者。圖7的左邊最靠近相機的參與者遮擋了他后面的參與者。圖8示出了來自顯示屏另一側上的相機的廣角相機視圖,并且對應于在類似于圖 IB和圖IC的布置中來自相機123的相機視圖可能的樣子。圖8還示出了所構成的兩個人視圖的位置,每個人視圖有兩個參與者。注意,一些參與者出現在多于一個人視圖中。此外,在圖7的相機視圖中被隱藏的參與者現在在圖8傾斜地出現了正臉。針對每個參與者,例如,針對每個麥克風方向或角度的后續人視圖是根據哪個更接近正面視圖來選擇的。圖9示出了對于離圖7的相機視圖的相機最遠的兩個參與者,即, 圖6所示的最右邊的兩個參與者的每個,將被發送給遠程端點的視頻人視圖。結果是一組虛擬特寫相機。這些虛擬相機然后被用在多屏幕遠程會議中。有效的 “實物大小”圖像非常類似于由現有的“遙現”遠程會議系統提供的圖像,現有的“遙現”遠程會議系統例如是由與本發明的受讓人有關的思科系統制造的CISCO CTS3000遙現系統。 然而,使用本發明的實施例不要求固定的座位布置,因為其自動地分析場景以及虛擬相機捕獲正確的“頭部和肩部”人視圖的位置。因此,這里描述的是適應于房間中多個參與者的座位位置的遠程會議相機系統。 一個或多個,通常為兩個或更多個廣角相機捕獲例如桌子周圍的人的全景,并且使用所捕獲的視頻以及音頻信息,并且自動地構成“虛擬相機”的人視圖,并且在它們之間進行選擇以生成具有較少相機且相機位于房間一側的多相機“遙現”系統中的實物大小特寫體驗。本發明的實施例因此提供了來自先前未被特別地設計用于遙現的會議室的當前遙現系統,例如,特寫實物大小圖像的益處。不是使用固定相機和固定座位位置,本發明的實施例使用位于屏幕近前方的兩個或更多個相機,并且這可以是便攜式的,以生成適應于座位布置的多個虛擬相機的位置。因此,諸如這里描述的系統可以動態地來部署;不需要永久地將該系統安裝在特定位置,而是可以移動到任何方便的房間。在一些實施例中選擇人視圖的處理相對簡單,而在另一實施例中,例如在EPTZ元件和構圖元件中執行處理以校正可能因相機303位于與所模擬的“虛擬相機”位置不同的位置處所導致的失真中的至少一些。即,電子云臺元件聯合構圖元件還被配置來構造正面視圖,并且校正由于相機303未攝取參與者的正面視圖而產生的失真中的至少一些。一個實施例采用透視校正(perspective correction)。這樣的實施例使用在遠距離點處會聚的直線的透視模型并且假設每個臉部是平面的。利用所擬合的每個臉部的距離,例如,眼睛之間的距離,或者所擬合半橢圓的寬度,以及相機的已知位置,來向相機施加幾何變換以校正失真。校正因廣角相機鏡頭引起的任何鏡頭失真的更復雜方法也是可以的。例如參見 Steve Mann禾口Rosalind Picard的“Virtual bellows !constructing high quality still from Video,"Proceedings,First IEEE International Conference on Image Processing ICIP-94, Volume 1,13-16 Nov. 1994, Page (s) :363-367, Austin Texas, November 1994。包括失真校正的本發明的這些方法不限于執行失真校正的任何特定方法,并且還知道許多這樣的方法。例如,參見 H.-Y. ^PSing,Bing Kang 的“A review of image-based rendering techniques,,in SPIE Proceedings Vol. 5067 (3) , pp. 2-13, Proceedings of the Conference on Visual communications and image processing 2000, Perth, AUSTRALIA, 20-23June 2000中對一些這樣的方法的調查。自寫該論文起已開發了更多方法。這里描述的方法和裝置可以用許多不同方式來實現。圖10示出了耦合到網絡1007的遠程會議終端1001的遠程會議系統的簡化框圖, 至少一個端點1009也耦合到網絡1007以使得可以在終端1001與至少一個端點1009之間進行視頻遠程會議。終端1001包括本發明的實施例,例如,圖3的實施例。終端1001包括多個視頻相機303以及多個麥克風113。不同版本實現圖2所示的裝置,在該情況中的相機是相機203。還包括一組的一個或多個顯示屏921。處理系統1003包括至少一個可編程處理器1011和存儲子系統1013。存儲子系統至少包括存儲器,并被編碼有被示為程序1015的軟件。程序1015的不同版本在被至少一個處理器1011執行時使得處理系統1003執行本說明書中描述的方法實施例。該處理系統包括編碼器/解碼器子系統1017,在一個實施例中,編碼器/解碼器子系統1017包括用于視頻編碼/解碼的多個處理器以及存儲器,該存儲器包括使得處理器執行方法的程序代碼,該方法使得該編碼器/解碼器子系統編碼高清晰視頻和/或解碼高清晰視頻。該處理系統還包括通信子系統1019,該通信子系統1019與至少一個可編程處理器1011 —起掌管終端的操作的通信方面,并且該通信子系統1019包括到網絡1007的接口。當然,本領域技術人員將明白,處理系統1003僅是以簡化方式被示出的,而未示出許多內部工作,以便不模糊本發明的創造性方面。因此,在一個實施例中,計算機可讀存儲介質被編碼有指令,當指令由例如遠程會議終端的虛擬相機人視圖構圖裝置中的處理系統的一個或多個處理器運行時,使得執行這里描述的任何方法。除非特別指明,如從下面的討論將清楚的,將理解,在整個說明書中,使用諸如“處理”、“運算”、“計算”、“確定”等術語的討論涉及將表示為諸如電量之類的物理量的數據操縱和/或變換為類似地表示為物理量的其它數據的計算機或計算系統或類似電子計算設備的動作和/或處理。以類似方法,術語“處理器”或“機器”可以指用于處理例如來自寄存器和/或存儲器的電子數據以將該電子數據變換為例如可被存儲在寄存器和/或存儲器中的電子數據的任何設備或設備的任何部分。“計算機”或“計算機器”或“計算平臺”可以包括一個或多個處理器。注意,當描述包括數個要素,例如數個步驟的方法時,除非特別指明,否則不暗示這樣的要素(例如,步驟)的順序。在一個實施例中,這里描述的方法可由一個或多個處理器執行,其接受編碼在一個或多個計算機可讀有形介質上的計算機可讀(也稱為機器可讀)邏輯,在計算機可讀有形介質中編碼有指令集,當該指令集被處理器中的一個或多個運行時執行這里描述的方法中的至少一個。能夠執行用于指定將要采取的動作的指令集(順序的或以其它方式)的任何處理器被包括。因此,一個示例是包括一個或多個處理器的典型處理系統。每個處理器可以包括CPU、圖形處理單元和可編程DSP單元中的一個或多個。處理系統還可以包括存儲器子系統,包括主RAM和/或靜態RAM和/或ROM。總線子系統可被包括用于在組件之間進行通信。處理系統還可以是分布式處理系統,其中處理器通過網絡被耦合起來。如果處理系統需要顯示器,則諸如液晶顯示器(LCD)或陰極射線管(CRT)顯示器之類的顯示器可以被包括。如果需要手動數據輸入,則處理系統還包括輸入設備,例如,諸如鍵盤之類的字母數字輸入單元、諸如鼠標之類的點選可正式版等等中的一個或多個。如這里使用的術語存儲器,如果可從上下文清楚并且除非以其它方式明確指定,否則還包括諸如盤驅動單元之類的存儲系統。在一些配置中處理系統可以包括聲音輸出設備和網絡接口設備。存儲器子系統因此包括承載邏輯(例如,軟件)的計算機可讀介質,該邏輯包括指令集以使得當指令集被一個或多個處理器運行時使得執行這里描述的方法中的一個或多個。軟件可以駐留在硬盤中,或者在由計算機系統運行時,也可以完全地或至少部分地駐留在RAM和/或處理器內。因此,存儲器和處理器還構成其上編碼有例如指令形式的邏輯的計算機可讀介質。此外,計算機可讀介質可以形成或者被包括在計算機程序產品中。在替代實施例中,一個或多個處理器作為獨立的設備操作或者可被連接,例如,聯網到其他(一個或多個)處理器,在聯網部署中,一個或多個處理器可以在服務器-客戶端網絡環境中以服務器或客戶端機器的能力來操作,或者作為端對端或分布式網絡環境中的對等機器來操作。一個或多個處理器可以形成個人計算機(PC)、蜂窩電話、web裝置、網絡路由器、交換機或橋接器,或者能夠運行用于指定將由機器采取的動作的指令集(順序的或以其它方式)的任何機器。注意,盡管某個或一些示圖僅示出了單個處理器以及承載包括指令的邏輯的單個存儲器,然而本領域技術人員將明白,上述組件中的許多組件也被包括,但是未明確示出或描述以不模糊創造性方面。例如,盡管僅單個機器被圖示出,然而術語“機器”還被認為包括單獨地或聯合地運行一個(或多個)指令集以執行這里討論的任一個或多個方法中的機器的任何集合。因此,這里描述的每個方法的一個實施例是其中編碼有一個指令集(例如,計算機程序)的介質的形式,該指令集用于在一個或多個處理器上運行,例如,在作為編碼系統一部分的一個或多個處理器上運行。因此,如本領域技術人員將理解的,本發明的實施例可被實施為方法、諸如專用裝置之類的裝置、諸如數據處理系統之類的裝置,或者介質,例如計算機程序產品。計算機可讀介質承載包括一個指令集的邏輯,當其在一個或多個處理器上運行時使得包括這一個或多個處理器的裝置實現方法。因此,本發明的各方面可以采取方法的形式、全為硬件的實施例、全為軟件的實施例或者組合了軟件和硬件方面的實施例的形式。此外,本發明可以采取介質的形式(例如,計算機可讀存儲介質上的計算機程序產品),在該介質中包含有計算機可讀程序代碼。盡管在示例實施例中介質被示為單個介質,然而術語“介質”應當被認為包括存儲一個或多個指令集的單個介質或多個介質(例如,集中式或分布式數據庫和/或相關聯的緩存和服務器)。術語“介質”還將被認為包括能夠存儲、編碼供一個或多個處理器運行并且使得實現本發明的方法中的任何一個或多個的指令集的任何介質。介質可以采取許多形式,包括有形存儲介質。非易失性介質例如包括光盤、磁盤和磁光盤。易失性介質包括動態存儲器,如主存。例如,術語“介質”因此將被認為包括但不限于固態存儲器、包含在光合磁介質中的計算機產品。將明白,這里討論的方法的步驟在一個實施例中由用于運行存儲在存儲裝置中的指令的處理(即,計算機)系統的適當處理器(或多個處理器)來執行。還將明白,本發明不限于任何特定的實施方式或編程技術并且本發明可以利用用于實現這里描述的功能的任何適當技術來實現。本發明不限于任何特定的編程語言或操作系統。在本說明書中對“一個實施例”或“實施例”的引用是指結合該實施例描述的特定特征、結構或特性被包括在本發明的至少一個實施例中。因此,在本說明書各個地方出現的短語“在一個實施例中”或“在實施例中”不一定都指同一實施例,但是可以指同一實施例。 此外,如本領域技術人員將從本公開清楚的,在一個或多個實施例中,特定特征、結構或特性可以以任何合適的方式被組合。類似地,應當理解,在本發明的示例實施例的上面的描述中,為了精簡本公開并輔助理解各個創造性方面中的一個或多個方面,本發明的各個特征在單個實施例、附圖或其組合中有時被成組在一起。然而,這種公開方法不被解釋為反映了這樣的發明所要求保護的發明需要比在每個權利要求中明確記載的特征更多的特征。而是,如下面的權利要求所反映的,創造性方面在于比前面公開的單個實施例的所有特征更少。因此,具體實施方式
后面的權利要求在此明確地被包括進本具體實施方式
中,其中每個權利要求作為本發明的單獨實施例依靠其自身。此外,雖然這里描述的一些實施例包括一些特征而不包括其它實施例中所包括的其它特征,然而人本領域技術人員將明白的,意圖使不同實施例的特征的組合落在本發明的范圍內。例如,在下面的權利要求中,要求保護的實施例中的任何實施例可被用在任何組
A由
口 T ο此外,實施例中的一些在這里被描述為可由計算機系統的處理器或者由執行功能的其它裝置實現的方法或者方法的要素的組合。因此,具有用于實現這樣的方法或方法的要素的必要指令的處理器形成了用于實現該方法或方法的要素的裝置。此外,這里描述的裝置實施例的元件是用于執行由該元件執行的功能以便實現本發明的裝置的示例。在這里提供的描述中,闡述了多個具體細節。然而,將明白,本發明的實施例可以在不用這些具體細節的情況下來實施。在其它實例中,公知的方法、結構和技術未被詳細示出,以不模糊對此描述的理解。如這里使用的,除非以其它方式指定,用于描述共同對象的序數形容詞“第一”、 “第二”、“第三”等僅僅指示相似對象的不同實例被提及,并且不旨在隱含如此描述的對象必須具有時間地、空間地、排名中的或者任何其它方式的給定順序。這里引用的所有公報、專利和專利申請通過引用被結合于此,除非這樣的結合不被相關專利規則和/或狀態允許。在本說明書中對現有技術的任何討論絕不應當被認為是對這樣的現有技術是廣泛知道的、公知的或形成了本領域一般知識的一部分的承認。在下面的權利要求和這里的描述中,術語包含、由...組成或者其包含中的任一種是開放式術語,其意味著至少包括跟隨著的要素/特征,但不排除其它的。因此,當術語包含被用在權利要求中時,不應被解釋為局限于此后列出的裝置或元件或步驟。例如,表述 “包含A和B的設備”的范圍不應被限制為僅由元件A和B構成的設備。如這里使用的術語包括或其包括或它包括中的任一種也是開放式術語,其也意味著至少包括跟隨著該術語的要素/特征,但不排除其它的。因此,包括與包含同義并且意思是包含。類似地,將注意,術語相耦合當被用在權利要求中時,不應被解釋為局限于僅直接連接。術語“相耦合”和“相連接”與其派生詞一起可以被使用。應當明白,這些術語不打算被當做彼此同義的。因此,表述“設備A耦合到設備B”的范圍不應被限制為設備A的輸出直接連接到設備B的輸入的設備或系統。其意味著存在A的輸出與B的輸入之間的路徑, 該路徑可以是包括其它設備或裝置的路徑。“相耦合”可以指兩個或更多個元件是直接物理接觸或電氣接觸,或者兩個或更多個元件不是彼此直接接觸但仍然共同操作或彼此交互。因此,盡管已描述了被認為是本發明的優選實施例的內容,然而本領域技術人員將認識到,可以在不脫離本發明的精神的情況下對其作出其它的和進一步的修改,并且當落入本發明的范圍之內時打算要求保護所有這樣的改變和修改。例如,上面給出的任何公式僅僅是可被使用的過程的表示。可從框圖中刪除或添加功能,并且可以在功能塊間互換操作。對于在本發明的范圍內描述的方法,可以添加或刪除步驟。
權利要求
1.一種裝置,包括多個視頻相機,每個視頻相機被配置為捕獲會議中的至少一些參與者的各個相機視圖,這些相機視圖一起包括每個參與者的至少一個視圖;多個麥克風;音頻處理模塊,被耦合到所述多個麥克風并被配置為生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息;構圖元件,被耦合到所述視頻相機并被配置為生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域;以及視頻指導器元件,被耦合到所述構圖模塊和所述音頻處理模塊,并被配置為根據所述方向信息選擇所述候選人視圖中將被發送給一個或多個遠程端點的至少一個候選人視圖。
2.如權利要求1所述的裝置,其中,相機被設置為每個相機生成一候選人視圖,其中,所述構圖元件被配置為根據所述方向信息選擇將被發送給所述一個或多個遠程端點的至少一個相機視圖,并且其中,所述裝置還包括視頻選擇器元件,被耦合到所述視頻指導器和所述視頻相機,并被配置為根據所述視頻指導器的選擇來切換到所述相機視圖中用于壓縮和發送到一個或多個遠程端點的至少一個相機視圖。
3.如權利要求1所述的裝置,還包括臉部檢測元件,被耦合到相機并且被配置為確定每個相機視圖中每個參與者臉部的位置并且將所確定的一個或多個位置輸出給所述構圖元件,其中,所述相機視圖不一定是人視圖,其中,所述構圖模塊經由所述臉部檢測元件被耦合到相機,并且還被配置為根據所確定的臉部位置來生成一個或多個候選人視圖并且向所述視頻指導器輸出候選視圖信息,每個候選人視圖是包含至少一個參與者的頭部和肩部視圖的區域,其中,所述視頻指導器還被配置為根據所述視頻指導器的選擇來輸出所選視圖信息,并且其中,所述裝置還包括電子云臺元件,被耦合到所述視頻指導器和所述視頻相機,并被配置為根據所選視圖信息來生成與所述候選視圖中用于壓縮和發送給一個或多個遠程端點的至少一個候選視圖相對應的視頻。
4.如權利要求3所述的裝置,其中,每個參與者出現在僅一個人視圖中。
5.如權利要求3所述的裝置,其中,每個參與者可能出現在多于一個人視圖中,并且其中,所述構圖元件包括被配置為構成人視圖的第一構圖元件以及被配置為從所構成的人視圖中選擇候選人視圖的第二構圖元件,以使得每個參與者出現在僅一個候選人視圖中。
6.如權利要求3所述的裝置,其中,所述電子云臺元件聯合所述構圖元件還被配置來構造正面人視圖,包括校正由于與每個人視圖相對應的相機視圖未包括該人視圖中的一個或多個參與者的一個或多個正面視圖而導致的失真中的至少一些。
7.如權利要求3所述的裝置,其中,所述構圖元件還被配置來執行透視校正。
8.一種用于操作處理系統的方法,該方法包括接受會議中的至少一些參與者的多個相機視圖,每個相機視圖來自對應的視頻相機, 這些相機視圖一起包括每個參與者的至少一個視圖;接受來自多個麥克風的音頻;處理來自所述多個麥克風的音頻以生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息;生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域;以及根據所述方向信息選擇所述候選人視圖中將被發送給一個或多個遠程端點的至少一個候選人視圖。
9.如權利要求8所述的方法,其中,所接受的相機視圖各自是候選人視圖,該方法還包括響應于所作的選擇,切換到所接受的相機視圖中用于壓縮和發送到一個或多個遠程端點的至少一個相機視圖。
10.如權利要求8所述的方法,檢測相機視圖中的任何臉部并且確定每個相機視圖中每個所檢測臉部的位置,其中,所述相機視圖不一定是人視圖,其中,所述一個或多個候選人視圖的生成是根據所確定的臉部位置來進行的,以使得每個候選人視圖是包含至少一個參與者的頭部和肩部視圖的區域,該生成確定了候選視圖信息,并且其中,根據所述方向信息作出選擇包括根據所作的選擇來提供所選視圖信息,并且其中,該方法還包括根據所選視圖信息來生成與所述候選視圖中用于壓縮和發送給一個或多個遠程端點的至少一個候選視圖相對應的視頻。
11.如權利要求10所述的方法,其中,每個參與者出現在僅一個人視圖中。
12.如權利要求10所述的方法,其中,每個參與者可能出現在多于一個人視圖中,該方法還包括構成可能的人視圖,并且從所構成的可能人視圖中選擇候選人視圖,以使得每個參與者出現在僅一個候選人視圖中。
13.如權利要求10所述的方法,其中,根據所選視圖信息的生成包括校正由于與每個人視圖相對應的相機視圖未包括該人視圖中的一個或多個參與者的一個或多個正面視圖而導致的失真中的至少一些。
14.如權利要求10所述的方法,根據所選視圖信息的生成包括透視校正。
15.一種用于操作處理系統的方法,包括對于來自房間中的對應視頻相機的多個相機視圖,檢測相機視圖中的任何臉部;確定該房間中參與者的位置;確定哪個臉部或哪些臉部在多于一個相機視圖中;對于一個或多個相鄰臉部的每個子群組,構成一人視圖; 為每個參與者選擇各自的人視圖;將每個人視圖映射到一個或多個所確定的語音方向,這樣的每個所確定的語音方向被與人視圖之一相關聯;以及選擇用于發送給遠程端點的一個或多個人視圖,以使得被選擇用于發送的人視圖的視頻能被形成。
16.如權利要求15所述的方法,還包括當語音方向改變時,根據聲音方向在人視圖之間進行切換。
17.如權利要求15所述的方法,其中,臉部檢測包括確定相機視圖內每個臉部的位置以及該臉部的大小的尺寸。
18.如權利要求17所述的方法,其中,臉部檢測包括如下中的至少一者眼睛檢測和 /或將橢圓形狀擬合到在與臉部相對應的相機視圖中檢測到的邊緣,并且其中,在僅眼睛檢測被使用的情況中,臉部的大小的尺寸是由檢測到的該臉部中的眼睛之間的距離來確定的,并且其中,在僅橢圓形狀擬合被使用的情況中,該臉部的尺寸是從橢圓形狀被擬合到臉部的邊緣的性質來確定的。
19.如權利要求17所述的方法,每個相機位置預先被確定,并且其中,該方法包括確定每個臉部離預先確定的相機位置的近似距離。
20.一種在其上編碼有可執行指令的計算機可讀介質,當所述可執行指令被處理系統的至少一個處理器運行時,使得執行方法,該方法包括對于來自房間中的對應視頻相機的多個相機視圖,檢測相機視圖中的任何臉部;確定該房間中參與者的位置;確定哪個臉部或哪些臉部在多于一個相機視圖中;對于一個或多個相鄰臉部的每個子群組,構成一人視圖;為每個參與者選擇各自的人視圖;將每個人視圖映射到一個或多個所確定的語音方向,這樣的每個所確定的語音方向被與人視圖之一相關聯;以及選擇用于發送給遠程端點的一個或多個人視圖,以使得被選擇用于發送的人視圖的視頻能被形成。
全文摘要
一種方法、裝置和存儲介質,該存儲介質具有執行方法的可執行代碼,該方法包括接受遠程會議中的至少一些參與者的相機視圖,每個視圖來自對應的視頻相機,這些相機視圖一起包括每個參與者的至少一個視圖。該方法包括接受來自多個麥克風的音頻,并且處理來自所述多個麥克風的音頻以生成音頻數據和指示在麥克風處接收的聲音的方向的方向信息。該方法還包括生成一個或多個候選人視圖,每個人視圖是包含至少一個參與者的頭部和肩部視圖的區域。該方法還包括根據所述方向信息選擇所述候選人視圖中將被發送給一個或多個遠程端點的至少一個人視圖。
文檔編號H04N7/15GK102282847SQ200980155006
公開日2011年12月14日 申請日期2009年11月11日 優先權日2008年11月20日
發明者J·威廉·穆澈利, 約瑟夫·T·福瑞爾 申請人:思科技術公司