調節視頻會議系統中的空間一致性的制作方法
【技術領域】
[0001] 本發明的實施例一般涉及音頻內容處理,更特別地,涉及用于調節特別是在視頻 會議系統中的空間一致性的方法和系統。
【背景技術】
[0002] 當實施視頻會議時,視覺信號與聽覺信號一起被生成且從一方傳輸至另一方,使 得當一個或多個與會者正在發言時,在另一方產生的聲音應當被同步化且同時播放。主要 存在音頻和視頻之間的兩種類型的差異;時間上的差異和空間一致性上的差異。音頻和 視頻流之間的時間上的差異導致同步問題,諸如從發言的與會者傳出的語音不與其嘴型同 步。空間一致性是用于描述正在被播放的聲場如何與正在顯示的視覺場景相匹配的術語, 或者,其可W被定義為聽覺場景和視覺場景之間校準的程度。本發明的目的在于調節視頻 會議系統中的空間一致性,使得聽覺場景與視覺場景彼此匹配,從而為多方的與會者提供 身臨其境的視頻會議體驗。
[0003] 如果音頻信號是在大多數現存的視頻會議系統中廣泛采用的單聲道格式,則用戶 不需要關注空間一致性問題。空間一致性僅當音頻信號W至少兩個聲道(及立體聲)存在 時才會發生。現今,聲音可W被多于兩個麥克風所采集,送將W諸如5. 1或7. 1環繞格式之 類的多聲道格式進行傳輸,并被終端用戶的多個換能器表現及播放。在通常的會議環境中, 多個與會者圍繞用于采集其語音的設備,并且每個與會者可W被視為單個音頻對象,其在 發言時產生一系列音頻信號。
[0004] 如在本文中使用的,術語"音頻對象"指的是在聲場中存在限定時間期間的個體音 頻元素。音頻對象可W是動態或靜態的。例如,與會者可W圍繞音頻采集設備行走,且相應 的音頻對象的位置也相應地改變。
[0005] 對于視頻會議和各種其它涉及空間一致性問題的應用而言,不一致的聽覺-視覺 表現導致不自然的感受,送可能導致會議體驗降低。一般而言,小于5°的差異可W被視為 可接受的,因為送樣的角度差異對于大多數人而言并不明顯。如果角度差異多于20°,大多 數人都會顯著地覺得不舒服。
[0006] 有鑒于此,本領域有需要引入調節聽覺場景W與視覺場景校準的方案,或者是調 節視覺場景W與聽覺場景校準的方案。
【發明內容】
[0007] 為了解決前述和其它潛在的問題,本發明提出了用于調節視頻會議系統中的空間 一致性的方法和系統。
[0008] 在一個方面,本發明的實施例提供了用于調節視頻會議中的空間一致性的方法。 該方法包括:將由視頻端點設備采集的視覺場景展開為至少一個直線場景,該視頻端點設 備被配置成W全向方式采集視覺場景;檢測至少一個直線場景與聽覺場景之間的空間一致 性,該聽覺場景由相對于視頻端點設備定位的音頻端點設備所采集,該空間一致性為聽覺 場景與至少一個直線場景之間校準的程度;并且響應于所檢測的空間一致性低于預定的闊 值而調節空間一致性。關于該方面的實施例進一步包括相應的計算機程序產品。
[0009] 在另一個方面,本發明的實施例提供了用于調節視頻會議中的空間一致性的系 統。該系統包括:被配置成W全向方式采集視覺場景的視頻端點設備;被配置成采集聽覺 場景的音頻端點設備,該音頻端點設備相對于視頻端點設備被定位;被配置成將所采集的 視覺場景展開為至少一個直線場景的展開單元;被配置成檢測至少一個直線場景與所采集 的聽覺場景之間的空間一致性的空間一致性檢測單元,空間一致性為聽覺場景與視覺場景 之間校準的程度;W及被配置成響應于所檢測的空間一致性低于該闊值而調節空間一致性 的空間一致性調節單元。
[0010] 通過W下的描述,將要理解的是,根據本發明的各個實施例,空間一致性可W響應 于聽覺場景與從全向視覺場景獲得的直線場景之間的任何差異而被調節。相對于視覺場景 所調節的聽覺場景或者相對于聽覺場景所調節的視覺場景被多個換能器(包括揚聲器、耳 機等)W及至少一個顯示器自然地呈現。本發明實現了WH維音頻呈現的視頻會議。本發 明的各個實施例所實現的其它優點將通過W下描述而變得顯而易見。
【附圖說明】
[0011] 通過參照附圖的W下詳細描述,本發明的上述和其它目的、特征和優點將變得更 容易理解。在附圖中,本發明的數個實施例講義示例W及非限制性的方式進行說明,其中:
[0012] 圖1圖示了根據本發明的示例實施例的音頻端點設備的示意圖;
[0013] 圖2圖示了用于圖1中所示的音頻端點設備的示例坐標系;
[0014] 圖3圖示了根據本發明的示例實施例的由視頻端點設備所采集的全向視覺場景;
[0015] 圖4圖示了根據本發明的示例實施例的用于調節視頻會議中的空間一致性的方 法的流程圖;
[0016] 圖5圖示了根據本發明的示例實施例的從所采集的全向視覺場景展開的單個直 線場景;
[0017] 圖6圖示了根據本發明的示例實施例的從所采集的全向視覺場景展開的兩個直 線場景;
[0018] 圖7圖示了根據本發明的示例實施例的用于檢測空間一致性的方法的流程圖;
[0019] 圖8圖示了根據本發明的示例實施例的用于調節視頻會議中的空間一致性的系 統的框圖;W及
[0020] 圖9圖示了適于實施本發明的實施例的示例計算機系統的框圖。
[0021] 在全部附圖中,相同或相應的附圖標記指代相同或相應的部分。
【具體實施方式】
[0022] 現在將參照附圖中所示的各種示例實施例對本發明的原理進行說明。應當理解, 送些實施例的描述僅僅是使本領域技術人員能夠更好地理解并進一步實施本發明,而不意 在W任何方式限制本發明的范圍。
[0023] 本發明設計涉及包含在視頻會議系統中的技術。為了使得視頻會議中的音頻信號 WH維呈現,必須有兩方加入會議,確立有效的會話。雙方可W被命名為呼叫方和被呼叫 方。在一個實施例中,呼叫方包括至少一個音頻端點設備和至少一個視頻端點設備。音頻 端點設備被適配為采集聽覺場景,而視頻端點設備被適配為采集視覺場景。所采集的聽覺 場景和所采集的視覺場景可W被傳輸至被呼叫方,使得所采集的聽覺場景在被呼叫方被多 個換能器播放并且所采集的聽覺場景被至少一個屏幕顯示。送樣的換能器可W具有許多形 式。例如,它們可W被構建作為置于主屏幕下方的聲音條、具有許多分布在被叫方空間中的 揚聲器的多聲道揚聲器系統、在被呼叫方的與會者的對應的個人電腦(諸如筆記本電腦) 上的立體聲揚聲器、或者佩戴在與會者頭上的耳機或頭戴式耳機。顯示屏可W是懸掛在墻 上的大型顯示器或者多個在與會者的個人設備上的小型顯示器。
[0024] 在被呼叫方,可W包括用于采集聽覺場景的音頻端點設備W及用于采集視覺場景 的視頻端點設備,所采集的聽覺場景和視覺場景各自將在呼叫方被播放及觀看。然而,在該 特定實施例中,應當注意的是在被呼叫方的端點設備是可選的,并且一旦在呼叫方提供至 少一個音頻端點設備與至少一個視頻端點設備,視頻會議或會話就可W被建立。在其它實 施例中,例如,在呼叫方并不提供任何端點設備,但是在被呼叫方提供至少一個音頻端點設 備與至少一個視頻端點設備。而且,呼叫方和被呼叫方可W互換,送取決于誰發起了該視頻 會議。
[002引圖1圖示了根據本發明的示例實施例的音頻端點設備100的示意圖;一般而言,音 頻端點設備100包含至少兩個麥克風,每個麥克風用于采集或收集向著它的聲壓。在一個 實施例中,如圖1所示,在單個音頻端點設備100中設置了面對H個不同的方向的H個必形 麥克風101、102、103。根據該特定實施例的每個音頻端點設備100具有前方向,其被用來促 進所采集的音頻數據的轉換。在如圖1所示的該特定實施例中,由箭頭所示的前方向相對 于該H個麥克風被固定。可W設置指向第一方向的右側麥克風101、指向第二方向的背側 麥克風102、W及指向第H方向的左側麥克風103。在該特定實施例中,第一方向相對于前 方向被順時針旋轉大約60度而得到,第二方向相對于前方向被順時針旋轉大約180度而得 至Ij,第H方向相對于前方向被逆時針旋轉大約60度而得到。
[0026] 應當注意的是,盡管在一個音頻端點設備中可能存在多于H個麥克風,H個麥克 風在多數情況下已經可W被用來在空間中采集到身臨其境的聽覺場景。在如圖1所圖示的 麥克風的配置中,前方向被預設定并相對于麥克風被固定,W便于將從H個麥克風所采集 的音頻信號轉換為"WXY" B格式。針對如圖1所圖示的在音頻端點設備100中使用S個麥 克風101U02和103的示例,音頻端點設備100可W通過左側麥克風103、右側麥克風101 W及背側麥克風102生成LRS信號,其中L表示由左側麥克風103采集及生成的音頻信號, R表示由右側麥克風101采集及生成的音頻信號,W及S表示由背側麥克風102采集及生成 的