專利名稱:基于公共場景的會議系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于會議橋的方法以及會議橋,具體地,用于電視電話會議。
背景技術(shù):
在傳統(tǒng)的面對面會議中,參與者通常處于桌旁,并能夠?qū)⑺麄兊念^轉(zhuǎn)向說話的參與者,以看到說話的參與者并最大化到達(dá)相應(yīng)耳朵的話音的相關(guān)性,這將最大化信噪比。當(dāng)多于一個人同時講話時,收聽的人能夠基于聲音的空間分布將來自不同聲源的話音區(qū)分開,并可以將聽力集中于特定的人。該能力通常稱作“雞尾酒會效應(yīng)”。然而,在傳統(tǒng)的電視電話會議系統(tǒng)中,單聲道麥克風(fēng)在每個不同的參與房間中捕獲話音,并通過擴(kuò)音器或頭戴受話器將話音信號添加和返回至參與房間。因此,在虛擬會議中,當(dāng)多個參與者同時講話時,收聽者可能難以識別出說話的參與者并區(qū)分出各個說話的參與者,這是由于所有參與者相對于收聽的參與者似乎具有相同的空間位置,即,擴(kuò)音器的位置。將視頻添加至電視電話會議使參與者能夠看到誰在講話,但仍繼續(xù)存在當(dāng)多個參與者同時講話時區(qū)分各個說話的參與者的問題。然而,使用三維(3D)位置音頻將解決該問題,并使參與者能夠像在現(xiàn)實世界中一樣感知到聲音,即,“聽出”聲源的方向和與聲源的距離。當(dāng)在電視電話會議中使用3D位置音頻時,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源來再現(xiàn)虛擬房間,其中,每個參與者位于不同的虛擬位置。圖1示意了包括會議橋1的示例傳統(tǒng)3D位置音頻系統(tǒng),會議橋1具有混合器2和多個用戶信道3,電視電話會議的參與者能夠利用不同類型的用戶終端^、4b3c與會議橋 1相連接。會議橋?qū)⒏鶕?jù)用戶終端的能力及其連接來對音頻信號進(jìn)行混合,并且,可以在會議橋中集中地或在用戶終端中本地地創(chuàng)建虛擬房間。此外,除了音頻以外,會議橋還可以傳送包括位置信息和源標(biāo)識在內(nèi)的控制數(shù)據(jù)。在本地呈現(xiàn)中,會議橋的主要任務(wù)是決定哪些參與者的話音信號應(yīng)當(dāng)重定向至哪些本地呈現(xiàn)用戶終端,g卩,所有參與者或僅少數(shù)活動說話的參與者的編碼的話音信號,并且,在每個參與者的用戶終端中將執(zhí)行對虛擬房間的控制以及3D位置音頻呈現(xiàn)。如果在會議橋中不需要代碼轉(zhuǎn)換,即,如果所有用戶終端均支持其他用戶終端的編解碼格式,則會議橋的功能計算成本不高,這是由于會議橋僅必須重定向輸入比特流,而不必須執(zhí)行3D位置音頻環(huán)境的任何編碼或音頻呈現(xiàn)。然而,在傳統(tǒng)的集中呈現(xiàn)中,會議橋?qū)⒒旧咸幚砣魏蝺?nèi)容,包括音頻處理(例如,輸入信號的噪聲抑制和聲級調(diào)整)、3D位置音頻環(huán)境的呈現(xiàn)、以及所創(chuàng)建的3D位置音頻環(huán)境信號的編碼。參與者的用戶終端將僅對每個相應(yīng)的編碼的信號進(jìn)行解碼,并可能展示示出所模擬的虛擬房間的GUI (圖形用戶界面)。對于每個參與的用戶終端,會議橋?qū)?chuàng)建虛擬3D位置音頻環(huán)境,這需要對從所有參與者輸入的話音信號進(jìn)行3D音頻呈現(xiàn)。由于唯一的3D位置音頻環(huán)境信號是針對每個作為收聽參與者的參與者而創(chuàng)建的,因此要編碼的輸出信號的數(shù)目將與參與者的數(shù)目相對應(yīng)。
參與者在虛擬房間(即,3D音頻環(huán)境20)中的傳統(tǒng)定位是等間隔地圍繞圓桌,如圖2所示,在圖2中,虛線反映了從分別由U2至U8指示的參與者至由Ul指示的收聽參與者的話音方向。會議橋?qū)?zhí)行話音信號的3D位置音頻呈現(xiàn),以對說話的參與者相對于收聽的參與者的相對位置進(jìn)行模擬。傳統(tǒng)地,作為說話參與者的特定參與者相對于收聽參與者的相對位置對于所有參與者來說是不同的,但是,絕對位置是相同的,這與非虛擬會議中類似。
專利申請PCT/SE2007/050344描述了用于將不同參與者定位在虛擬房間中以改進(jìn)虛擬會議體驗的增強方法。該方法包括在針對收聽參與者而創(chuàng)建的3D位置音頻環(huán)境中,將參與者置于相對于收聽參與者的弧形上,以及自適應(yīng)地改變位置以實現(xiàn)對稱或在空間上分離活動講話者。將與每個參與者相對應(yīng)的虛擬聲源定位在弧形上是有利的,這是由于與所有其他參與者的距離將是相等的,左和右的最大角度將變小,聲音將更合意。圖6a 示意了包括7個參與者的圓桌3D位置音頻環(huán)境60,其中收聽位置13用于收聽的參與者,圖 6b示出了變形為弧形環(huán)境61的該圓桌環(huán)境60?,F(xiàn)有方案的問題在于集中呈現(xiàn)在計算上成本較高,這是由于會議橋不僅必須處理來自每個參與者的輸入信號(例如,執(zhí)行解碼、噪聲抑制和聲級調(diào)整),還必須針對每個作為收聽參與者的參與者創(chuàng)建個體虛擬3D位置音頻環(huán)境。此外,為了對虛擬房間進(jìn)行模擬 (涉及利用3D音頻呈現(xiàn)對參與者進(jìn)行空間定位),可能必須根據(jù)用戶終端的類型,將話音信號重采樣至不同的采樣率。重采樣和3D音頻呈現(xiàn)都是高成本的任務(wù),并且,由于針對每個作為收聽者的參與者創(chuàng)建唯一的個體3D位置音頻環(huán)境,并且每個參與者包括在針對所有其他參與者的3D位置音頻環(huán)境中,因此這些成本將隨著參與者數(shù)目的增多而快速增長。當(dāng)已經(jīng)呈現(xiàn)對3D位置音頻環(huán)境進(jìn)行模擬的音頻信號時,在將信號發(fā)送至參與者的用戶終端之前,必須對該信號進(jìn)行編碼。通常,所呈現(xiàn)的3D位置音頻環(huán)境由立體聲信號表示,這意味著需要立體聲編解碼器來進(jìn)行編碼。立體聲信號的編碼是在計算復(fù)雜度成本較高的任務(wù),并且,由于針對每個作為收聽者的參與者呈現(xiàn)唯一的個體3D位置音頻環(huán)境, 因此根據(jù)參與者的數(shù)目,復(fù)雜度可能非常高。此外,由于所需編碼器的數(shù)目與所呈現(xiàn)的個體 3D位置音頻環(huán)境的數(shù)目相對應(yīng),因此計算復(fù)雜度將隨著參與者數(shù)目的增多而快速增長。
發(fā)明內(nèi)容
本發(fā)明的目的是解決上述問題,該目的以及其他目的是通過根據(jù)獨立權(quán)利要求所述的方法和裝置以及根據(jù)從屬權(quán)利要求所述的實施例來實現(xiàn)的。本發(fā)明的基本概念涉及在每個所創(chuàng)建的3D位置音頻環(huán)境中,將與每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。這將降低呈現(xiàn)和編碼的計算復(fù)雜度,并使得能夠以較低計算成本支持較大數(shù)目的參與者。本發(fā)明的第一方面提供了一種用于會議橋的方法,所述會議橋用于管理包括兩個或更多個參與者在內(nèi)的音頻場景。所述方法針對每個作為收聽參與者的參與者,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源并排除所述收聽參與者的話音,連續(xù)創(chuàng)建3D位置音頻環(huán)境信號;以及將每個所創(chuàng)建的3D位置音頻環(huán)境信號連續(xù)分發(fā)至對應(yīng)的收聽參與者。 在每個所創(chuàng)建的3D位置音頻環(huán)境中,會議橋?qū)⑴c每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。
可以通過對來自每個參與者的輸入信號進(jìn)行語音檢測來連續(xù)檢測說話參與者,并且,會議橋可以呈現(xiàn)針對每個說話參與者的個體3D位置音頻環(huán)境信號以及針對所有不說話參與者的公共3D位置音頻環(huán)境信號。可以放置3D位置音頻環(huán)境信號的虛擬聲源以形成弧形,并且可以通過檢測活動水平,從所檢測到的說話參與者中選擇預(yù)定最大數(shù)目的說話參與者??梢詢H將來自所選擇的說話參與者的話音呈現(xiàn)為3D位置虛擬聲源,以及,如果需要重采樣至不同采樣率,則可以僅對來自所選擇的說話參與者的話音進(jìn)行重采樣??梢苑謩e對所呈現(xiàn)的個體3D位置音頻環(huán)境信號中的每一個進(jìn)行編碼,并可以針對每個編解碼器,僅對所述針對不說話參與者的公共3D位置音頻環(huán)境信號進(jìn)行一次編碼, 所產(chǎn)生的比特流被分發(fā)至對應(yīng)的不說話參與者??梢源_定參與者的數(shù)目,并且如果所述數(shù)目未超過可用編碼器的數(shù)目,則可以針對每個參與者呈現(xiàn)個體3D位置音頻環(huán)境信號。此外,可以將3D位置音頻環(huán)境中的虛擬空間位置調(diào)整為相對于收聽參與者對稱??梢愿鶕?jù)參與者是說話參與者、是不說話參與者、還是新參與者,來設(shè)置編碼器的初始狀態(tài)。本發(fā)明的第二方面提供了一種用于管理包括兩個或更多個參與者在內(nèi)的音頻場景的會議橋,所述會議橋包括混合器和多個用戶信道。所述會議橋被配置為針對每個作為收聽參與者的參與者,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源并排除所述收聽參與者的話音,連續(xù)創(chuàng)建3D位置音頻環(huán)境信號;以及將每個3D位置音頻環(huán)境信號連續(xù)分發(fā)至對應(yīng)的收聽參與者。所述混合器被配置為在每個3D位置音頻環(huán)境信號中,將與每個說話參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。所述混合器還可以包括語音檢測器,與每個用戶信道相連接,用于檢測說話參與者;混合控制單元;多個個體混合單元,用于呈現(xiàn)針對每個說話參與者的個體3D位置音頻環(huán)境信號;以及公共混合單元,用于呈現(xiàn)針對所有不說話參與者的公共3D位置音頻環(huán)境信號。
現(xiàn)在將參照附圖來更詳細(xì)地描述本發(fā)明,附圖中-圖1示出了與不同類型的用戶終端相連接的會議橋;-圖2示出了傳統(tǒng)的3D位置音頻環(huán)境;-圖3a示出了會議橋,圖北示出了用戶信道;-圖4示出了會議橋的傳統(tǒng)混合器;-圖5示出了根據(jù)本發(fā)明實施例的示例混合器;-圖6a示意性地示出了針對收聽參與者而創(chuàng)建的圓桌3D位置音頻環(huán)境;-圖6b示出了變形為弧形環(huán)境的圖6a的3D位置音頻環(huán)境;-圖7a示出了針對作為收聽參與者的Ul而創(chuàng)建的音頻環(huán)境,圖7b示出了針對作為收聽參與者的U2而創(chuàng)建的音頻環(huán)境;-圖&i、8b、8C和8d示出了示例3D音頻環(huán)境,其中,僅U1、U3和U6是說話參與者;-圖9a是示出了本發(fā)明基本概念的流程-圖9b是示出了本發(fā)明另一實施例的流程圖;-圖9c是示出了另一示例實施例的流程圖;-圖IOa和IOb示出了根據(jù)本發(fā)明實施例的用戶信道;-圖11示出了僅具有少數(shù)參與者的3D位置音頻環(huán)境;-圖12示出了變形為弧形環(huán)境的圖11的環(huán)境;-圖13a和1 示出了3D位置音頻環(huán)境的對稱調(diào)整。
具體實施例方式在以下描述中闡述了具體細(xì)節(jié)(例如,特定的架構(gòu)和步驟序列),以提供對本發(fā)明的透徹理解。然而,對于本領(lǐng)域技術(shù)人員來說顯而易見,在可能與這些具體細(xì)節(jié)不同的其他實施例中也可以實施本發(fā)明。此外,顯而易見,可以使用與編程的微處理器或通用計算機(jī)相結(jié)合工作的軟件,和 /或使用專用集成電路,來實現(xiàn)所描述的功能。在以方法的形式描述本發(fā)明的情況下,本發(fā)明還可以體現(xiàn)在計算機(jī)程序產(chǎn)品以及包括計算機(jī)處理器和存儲器在內(nèi)的系統(tǒng)中,其中,該存儲器是利用可執(zhí)行所描述的功能的一個或多個程序來編碼的。本發(fā)明的基本概念是在每個所創(chuàng)建的3D位置音頻環(huán)境中,將與每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。該概念還包括創(chuàng)建僅針對每個說話參與者的個體3d位置音頻環(huán)境信號以及針對所有不說話參與者的公共3D位置音頻環(huán)境,其中,在所創(chuàng)建的3D位置音頻環(huán)境中僅包括說話參與者。上述圖1示出了與不同類型的用戶終端^、4b、k相連接的傳統(tǒng)會議橋1。會議橋 (還在圖3a中示出)被劃分為兩種不同類型的組件,S卩用戶信道3,處理針對每個個體用戶終端^、4b、k的特定處理;以及混合器2,呈現(xiàn)虛擬音頻環(huán)境。用戶信道3執(zhí)行傳輸處理(通常為RTP/RTCP)、解碼/編碼以及各種類型的音頻處理,示例用戶信道還在圖北中示
出ο圖北中示出的示例音頻處理塊包括回聲控制塊,用于在用戶終端自身不能消除回聲的情況下,消去可能出現(xiàn)在用戶終端處的回聲。如果輸入信號是有噪聲的,則NS模塊或噪聲抑制模塊是有用的,但是通常,將直接在用戶終端中處理噪聲抑制。ALC模塊或自動電平控制模塊確保了所有話音信號具有實質(zhì)上相等的話音電平。圖4示出了會議橋的示例傳統(tǒng)混合器2,混合器的輸出連接至用戶信道的輸入,所述用戶信道的輸出連接至混合器的輸入。如果需要,可以在重采樣單元7a、7b和7N中,將從用戶信道至混合器的輸入信號3a、3b、3N重采樣至其他參與者的用戶終端的采樣率,重采樣后的信號用于對針對每個參與者的3D位置音頻環(huán)境進(jìn)行3D音頻呈現(xiàn)。與不同參與者相對應(yīng)的虛擬聲源在3D位置音頻環(huán)境中的位置由3D音頻場景管理器9來控制,可選地,例如,3D音頻場景管理器9可以由每個用戶終端來控制。該傳統(tǒng)混合器是缺點在于所有參與者在所有其他參與者的3D位置音頻環(huán)境中都進(jìn)行3D音頻呈現(xiàn),即使這些參與者靜默也如此。通常,僅一個或少數(shù)幾個參與者在會議中同時講話,使用可用資源對來自不說話參與者的話音信號執(zhí)行定位、重采樣和編碼不是高效的。因此,傳統(tǒng)混合器的復(fù)雜度不必要地高。此外,在傳統(tǒng)混合器中,3D位置音頻呈現(xiàn)的復(fù)雜度將隨著參與者的數(shù)目而指數(shù)升高,這是由于必須針對每個新參與者呈現(xiàn)附加的個體3D位置音頻環(huán)境,并且必須將新虛擬聲源添加至所有其他3D位置音頻環(huán)境。為了降低復(fù)雜度,可以在每個虛擬音頻環(huán)境中限制同時進(jìn)行3D音頻呈現(xiàn)的參與者的數(shù)目。如上所述,通常,僅一個或少數(shù)幾個參與者同時講話,并且,對這些活動說話參與者進(jìn)行3D音頻呈現(xiàn)就足夠了。然而,必須檢測話音活動以確定哪些參與者正在講話,例如, 這是由語音活動檢測器(VAD)來執(zhí)行的。圖5示出了根據(jù)本發(fā)明的示例混合器,該混合器包括VAD 10a、10b、10N,與不同參與者相對應(yīng)的虛擬聲源在3D位置音頻環(huán)境中的位置由3D音頻場景管理器9來控制。圖5 中的輸入信號3a、3b、3N中的每一個被饋入VAD,每個VAD向混合控制單元11報告是否檢測到話音。混合控制單元進(jìn)而將通知針對每個參與者的混合單元8a、8b、8N和3D音頻呈現(xiàn)單元12a、12b、12N,并且,僅將來自說話參與者的信號進(jìn)行3D音頻呈現(xiàn)并將其包括在3D位置音頻環(huán)境信號中。此外,對于來自混合中將不包括的參與者的信號來說,重采樣不是必要的,并且,重采樣單元7a、7b、7N也可以由混合控制單元11來控制。此外,在將每個所創(chuàng)建的3D位置音頻環(huán)境信號發(fā)送至收聽參與者之前,必須對3D 位置音頻環(huán)境信號進(jìn)行編碼,該編碼需要很多資源。為了減少編碼器的數(shù)目,根據(jù)本發(fā)明的方案涉及在每個所創(chuàng)建的3D位置音頻環(huán)境中,3D音頻場景管理器9將每個參與者置于相對于收聽參與者的相同位置,從而在所有所創(chuàng)建的音頻環(huán)境中創(chuàng)建公共虛擬場景。此外,創(chuàng)建更少的3D位置音頻環(huán)境信號,S卩,針對不說話參與者的一個公共3D位置音頻環(huán)境信號和針對每個活動說話參與者的一個個體3D位置音頻環(huán)境信號(由于必須排除他們自己的話音)。這將導(dǎo)致編碼減少,這是由于必須編碼的信號的數(shù)目與所創(chuàng)建的3D位置音頻環(huán)境信號的數(shù)目相對應(yīng)。圖9a中的流程圖示出了根據(jù)本發(fā)明第一實施例的方法。在步驟90,會議橋針對每個作為收聽參與者的參與者創(chuàng)建3D位置音頻環(huán)境信號,在所有所創(chuàng)建的3D位置音頻環(huán)境中,將與每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。在步驟91, 會議橋?qū)⒚總€所創(chuàng)建的3D位置音頻環(huán)境信號分發(fā)至對應(yīng)的收聽參與者,并且在步驟92,確定會議是否仍在進(jìn)行。如果否,則停止該過程,而如果是,則再次從步驟90繼續(xù)該過程。圖5中的會議混合器中的混合單元8a、8b、8N包括用于作為收聽參與者的不說話參與者的一個公共混合單元以及用于作為收聽參與者的每個說話參與者的適當(dāng)數(shù)目的混合單元。公共混合單元適于將所有說話參與者的話音信號包括在所創(chuàng)建的3D位置音頻環(huán)境中,而用于說話參與者的混合單元適于包括除該收聽參與者的話音信號以外的所有說話參與者的話音信號。接下來,圖9b中的流程圖示出了根據(jù)本發(fā)明另一實施例的方法,其中,與圖9a中的步驟90相對應(yīng)的、針對每個作為收聽參與者的參與者創(chuàng)建3D位置音頻環(huán)境還包括步驟 95,檢測說話參與者;步驟96,僅針對每個說話參與者來呈現(xiàn)個體3D位置音頻環(huán)境信號;以及步驟97,針對作為收聽參與者的所有不說話參與者呈現(xiàn)公共3D音頻環(huán)境信號。此外,根據(jù)本發(fā)明另一實施例,選擇預(yù)定最大數(shù)目的參與者以進(jìn)行3D音頻呈現(xiàn), 從而限制所需的3D音頻呈現(xiàn)單元和重采樣單元的數(shù)目并降低存儲消耗,該選擇可以基于對說話參與者的活動水平的檢測。當(dāng)不說話參與者變?yōu)榛顒拥?即,不說話的人開始講話) 時,該參與者可以接管已變?yōu)椴换顒?即,已停止講話)的另一參與者先前使用的3D音頻呈現(xiàn)單元和重采樣單元。
圖6a示出了參與者在3D位置音頻環(huán)境60中的虛擬位置,圖6b示出了變形為弧形的圖6a的位置,這是所有參與者都將感知到的場景,只是他們將聽不到自己。圖7a示出了作為收聽參與者的參與者Ul感知到的場景。Ul的原始位置由點線來指示,這是由于在針對作為收聽參與者的Ul而創(chuàng)建的3D位置音頻環(huán)境信號中將排除來自參與者Ul的話音信號。作為收聽參與者的參與者U2將感知到根據(jù)圖7b的場景,其中,排除了來自參與者U2的話音信號。根據(jù)本發(fā)明,每個作為收聽參與者的參與者將從公共收聽位置感知場景,其中在所有所創(chuàng)建的3D位置音頻環(huán)境中,所有其他參與者處于相對于收聽參與者的相同空間位置,這在圖8a-8d中示出并在以下描述。如果僅少數(shù)參與者正在說話,或者如果將所選擇的說話參與者的預(yù)定最大數(shù)目設(shè)置為較少數(shù)目,則將對來自僅少數(shù)參與者的話音信號進(jìn)行3D 音頻呈現(xiàn)并將其包括在每個所創(chuàng)建的3D位置音頻環(huán)境信號中。相應(yīng)地,將7個參與者中的僅3個包括在圖8a-8d所示的3D位置音頻環(huán)境中,其他4個參與者由點線來指示。圖示出了在僅有參與者Ul、U3和U6正在說話或被選擇為說話參與者的情況下,針對不說話參與者而創(chuàng)建的公共3D位置音頻環(huán)境80。僅對來自參與者U1、U3和U6的話音信號進(jìn)行3D音頻呈現(xiàn),靜默的或未選擇的參與者U2、U4、U5和U7在圖中由點線來指示。圖8b示出了針對作為收聽參與者13的說話參與者Ul而創(chuàng)建的個體3D位置音頻環(huán)境81,其中,排除了來自Ul的話音信號。靜默的或未選擇的參與者U2、U4、TO和U7以及收聽參與者Ul在圖中由點線來指示,這是由于僅對來自U3和U6的話音信號進(jìn)行3D音頻呈現(xiàn)。圖8c示出了針對作為收聽參與者13的說話參與者U3而創(chuàng)建的個體3D位置音頻環(huán)境82,其中,排除了來自U3的話音信號。靜默的或未選擇的參與者U2、U4、TO和U7以及收聽參與者U3在圖中由點線來指示,這是由于僅對來自Ul和U6的話音信號進(jìn)行3D音頻呈現(xiàn)。最后,圖8d示出了針對作為收聽參與者13的說話參與者U6而創(chuàng)建的個體3D位置音頻環(huán)境83,其中,排除了來自U6的話音信號。靜默的或未選擇的參與者U2、U4、U5和 U7以及收聽參與者TO在圖中由點線來指示,這是由于僅對來自Ul和U3的話音信號進(jìn)行 3D音頻呈現(xiàn)。因此,如果所有參與者使用相同的編解碼器和采樣率,則與傳統(tǒng)方案(其中,針對 UU U2、U3、U4、U5、U6和U7中的每一個,創(chuàng)建個體3D位置音頻環(huán)境)中的7個不同的3D 位置音頻環(huán)境信號相比,僅必須對4個不同的3D位置音頻環(huán)境信號進(jìn)行編碼,即,根據(jù)圖 8a-8d中的每一個,對一個信號進(jìn)行編碼。此外,由于在如圖8a、8b、8c和8d所示的所有4 個3D位置音頻環(huán)境中,每個參與者位于相對于收聽參與者的相同位置,因此僅必須針對每個說話參與者對虛擬聲源進(jìn)行一次3D音頻呈現(xiàn),并且可以在所有所創(chuàng)建的3D位置音頻環(huán)境信號中使用所產(chǎn)生的信號。從而,將大幅度降低3D音頻呈現(xiàn)的計算成本,并且,如果參與者數(shù)目更多,則降低得甚至更多。如果參與者的數(shù)目增加,則更多參與者將接收與針對不說話參與者而創(chuàng)建的公共3D位置音頻環(huán)境相對應(yīng)的比特流。對于具有使用不同編解碼器和/或不同采樣率的用戶終端的參與者來說,根據(jù)本發(fā)明的方案可能不那么有利,這是由于必須以相應(yīng)采樣頻率來執(zhí)行對3D位置音頻環(huán)境的呈現(xiàn),然后通過相應(yīng)編碼器類型來對其進(jìn)行編碼。然而,通常至少一些參與者將使用相同的編解碼器和采樣頻率。當(dāng)新參與者呼叫進(jìn)入會議時,將執(zhí)行與編解碼器和采樣頻率有關(guān)的協(xié)商,優(yōu)選地,會議橋?qū)⒋_保使用盡可能少的編解碼器。當(dāng)必須以多個不同采樣率來呈現(xiàn)相同3D位置音頻環(huán)境(S卩,參與者需要具有不同采樣頻率的音頻)時,此時可以通過以最高采樣頻率對針對不說話參與者的公共3D位置音頻環(huán)境執(zhí)行呈現(xiàn),并在編碼前將所產(chǎn)生的信號下采樣至所有其他采樣頻率,來降低3D音頻呈現(xiàn)的成本。相應(yīng)地,必須對圖5所示的會議混合器中的相應(yīng)混合單元8a、8b、8N的輸出進(jìn)行編碼并將其定向至正確的參與者。針對作為收聽參與者的每個說話參與者的個體輸出信號將被定向至對應(yīng)的用戶信道,但是根據(jù)本發(fā)明另一實施例,針對不說話參與者的公共輸出信號僅被定向至第一不說話參與者的用戶信道,并且,當(dāng)已經(jīng)對聲音信號進(jìn)行編碼時,編碼的比特流將被定向至所有其他不說話參與者的用戶信道,而不經(jīng)過任何其他處理。圖IOa示出了針對不說話參與者的第一用戶信道23,根據(jù)上述實施例,用戶信道對該信號進(jìn)行編碼并將編碼的比特流重定向至其他不說話參與者。圖IOb示出了其他不說話參與者的第二用戶信道M。該第二用戶信道不包括任何編碼器,該用戶信道從執(zhí)行編碼的第一不說話參與者接收編碼的比特流。然而,如果第一不說話參與者變?yōu)榛顒踊蛘唠x開會議,則該第二用戶信道可能必須執(zhí)行編碼并將編碼的比特流分發(fā)至其他不說話參與者的用戶信道。因此,用戶信道必須能夠在圖IOa和IOb中分別示出的兩種情況之間進(jìn)行切換, 這可以由具有可被啟用或禁用的編碼器的所有用戶信道來實現(xiàn),或由提供可在需要時并入用戶信道中的多個編碼器的會議橋來實現(xiàn)。會議橋提供要并入用戶信道中的多個編碼器的第二備選項是優(yōu)選的,這是由于不必在每個用戶信道中分配用于不同編碼器狀態(tài)的存儲器。此外,如果用戶信道變?yōu)閼?yīng)當(dāng)對不活動比特流執(zhí)行編碼的用戶信道,則先前執(zhí)行編碼的用戶信道所使用的編碼器將是可用的,并可以并入新用戶信道中。由于編碼器狀態(tài)是正確的(即,編碼器對不活動信號的最后幀進(jìn)行了編碼),因此執(zhí)行不活動編碼的用戶信道的改變將平滑進(jìn)行。然而,如果不說話參與者使用多于一種類型的編解碼器和/或采樣頻率,則多個用戶信道(即,對于每個編解碼器和采樣頻率有一個用戶信道)將對表示公共3D位置音頻環(huán)境信號的信號執(zhí)行編碼。當(dāng)參與者從不活動狀態(tài)切換至活動狀態(tài)(即,變?yōu)檎f話參與者)時,參與者將接收其自己的個體3D位置音頻環(huán)境信號,并必須對其進(jìn)行編碼。新的說話參與者要使用的編碼器由從活動狀態(tài)轉(zhuǎn)移至不活動狀態(tài)(即,變?yōu)椴徽f話參與者)的參與者釋放。來自先前說話參與者的編碼器狀態(tài)并不適于新的說話參與者,這是由于先前說話參與者的先前幀可能與新的說話參與者解碼和播放的先前幀不同。編碼和解碼通常依賴于先前幀,非常常見的是,對不同參數(shù)的改變的改變而不是絕對值進(jìn)行編碼。因此,為了實現(xiàn)針對新的說話參與者的平滑轉(zhuǎn)移,編碼器必須得到拷貝至其自己的狀態(tài)的、公共3D位置音頻環(huán)境的編碼器的先前幀的狀態(tài)。當(dāng)參與者從活動狀態(tài)轉(zhuǎn)移至不活動狀態(tài)(即,變?yōu)椴徽f話參與者)時,參與者將失去其自己的編碼器,并代之以接收公共3D位置音頻環(huán)境的比特流。如果公共3D位置音頻環(huán)境和個體3D位置音頻環(huán)境的音頻流在切換之前是相同的,則不會造成任何問題,并且轉(zhuǎn)移將平滑進(jìn)行。由于混合器已經(jīng)確定參與者是靜默的,因此兩個音頻流之間的僅有區(qū)別通常應(yīng)當(dāng)是背景噪聲。然而,如果兩個音頻流不同,則比特流的切換可以造成可聽偽像,這是由于解碼器的狀態(tài)不適于新比特流。根據(jù)本發(fā)明另一實施例的方案是在切換之前,首先將公共的不活動音頻流的一個或多個幀饋送至新的靜默參與者的編碼器,這是由于這將允許解碼器調(diào)整至不活動比特流。此后,可以釋放編碼器,并可以將不活動比特流發(fā)送至新的靜默參與者的用戶終端,從而實現(xiàn)平滑轉(zhuǎn)移。缺點在于編碼器被占用并且無法被新的說話參與者使用,這意味著新的說話參與者必須接收公共比特流,直到釋放編碼器為止。該問題可以利用新的說話參與者可在轉(zhuǎn)移時段期間使用的一個或多個額外編碼器來解決。當(dāng)新參與者加入會議時,用戶終端的解碼器處于復(fù)位狀態(tài),并僅適于由具有復(fù)位狀態(tài)的編碼器創(chuàng)建的比特流。如果新加入的參與者被確定為是不說話的,則用戶終端的解碼器將接收針對不說話參與者而創(chuàng)建的公共比特流。由于解碼器處于復(fù)位狀態(tài),因此如果編解碼器依賴于取決于先前幀的編碼,則解碼的聲音信號將與針對不說話參與者的公共聲音信號不相同。然而,通常,解碼的信號將開始于零幅度,并針對每個幀提高幅度,信號屬性最終將變?yōu)榕c針對不說話參與者的公共聲音信號的屬性更加類似(即,信號是“漸強的”)。如果新加入的參與者被確定為活動說話參與者,則編碼器將專用于新參與者的用戶信道。在這種情況下,應(yīng)當(dāng)復(fù)位編碼器的狀態(tài),并且,由于解碼器也具有復(fù)位狀態(tài),因此編碼的比特流將適于解碼器。本發(fā)明的以下概念將降低計算復(fù)雜度在所有所創(chuàng)建的3D位置音頻環(huán)境中,將每個說話參與者置于相對于收聽參與者的相同空間位置。然而,當(dāng)僅有少數(shù)參與者連接至?xí)h(如圖11所示)時,這可能不那么有利。在根據(jù)圖11的音頻環(huán)境110中,3個參與者U1、 U2和U3位于桌周圍,參與者U2和U3將具有從收聽位置13看來不對稱的場景,其中一個講話者位于正前方,另一個位于側(cè)面45度。圖12示出了位于弧形中的虛擬聲源,并且如圖 13a所示,對于U2和U3,場景仍是不對稱的。如果附加參與者加入會議,則不對稱性將減小,但是在僅有3個參與者的情況下, 參與者U2和U3感知到的場景將是不對稱的。然而,如果會議橋允許同時使用三個或更多個編碼器,則可以針對每個作為收聽參與者的參與者來創(chuàng)建個體3D位置音頻環(huán)境。從而, 可以針對每個參與者,對所創(chuàng)建的3D位置音頻環(huán)境進(jìn)行修改(即,對稱調(diào)整),以實現(xiàn)針對所有作為收聽參與者的參與者的對稱場景。因此,根據(jù)本發(fā)明另一實施例,在參與者的數(shù)目未超過可用編碼器的數(shù)目的情況下,針對每個作為收聽參與者的參與者創(chuàng)建個體3D位置音頻環(huán)境,并且,將所創(chuàng)建的3D位置音頻環(huán)境中的虛擬空間位置調(diào)整為相對于收聽參與者對稱。這是在圖13a和13b中示出的,圖13a和圖1 示出了作為收聽參與者的參與者U2在對稱調(diào)整之前和之后感知到的場景。該實施例還在圖9c的流程圖中示出,該流程圖包括根據(jù)圖9b的步驟,其中,附加步驟 94確定參與者的數(shù)目是否超過可用編碼器的數(shù)目。如果是,則執(zhí)行根據(jù)圖9b的步驟95、96 和97。然而,如果否,則在步驟98,針對每個參與者創(chuàng)建個體3D音頻環(huán)境,并在步驟99,對參與者相對于收聽者的位置進(jìn)行對稱調(diào)整。當(dāng)附加參與者加入會議,使得參與者的數(shù)目再次超過可用編碼器的數(shù)目時,此時針對所有不說話參與者重新創(chuàng)建公共3D音頻環(huán)境。如果所創(chuàng)建的個體3D音頻環(huán)境的數(shù)目等于可用編碼器的數(shù)目,則當(dāng)新參與者加入會議時,參與者之一將被突然切換至公共3D位置音頻環(huán)境,這是由于需要編碼器來對公共3D位置音頻環(huán)境信號進(jìn)行編碼。此外,如果已經(jīng)對個體3D位置音頻環(huán)境進(jìn)行對稱調(diào)整,則該參與者可能經(jīng)歷虛擬聲源的突然移動。因此,根據(jù)本發(fā)明另一實施例,在新參與者加入會議的情況下,額外的編碼器可用于對公共3D 位置音頻環(huán)境信號進(jìn)行編碼。根據(jù)另一實施例,當(dāng)會議橋開始創(chuàng)建所述公共3D位置音頻環(huán)境時,將虛擬聲源在個體3D位置音頻環(huán)境中的位置調(diào)整為與虛擬聲源在公共3D位置音頻環(huán)境中的位置相對應(yīng),這是由于新加入的參與者可以被選擇為說話參與者,并且具有個體 3D環(huán)境的參與者之一可以被選擇為不說話。如果在切換之前完成該調(diào)整,則參與者將經(jīng)歷虛擬聲源的位置的更平滑的改變。通過創(chuàng)建所有靜默參與者都將聽到的公共3D位置音頻環(huán)境,并創(chuàng)建僅針對活動說話參與者的個體3D位置音頻環(huán)境,對3D環(huán)境進(jìn)行創(chuàng)建和編碼的成本將恒定較低,而不論會議中的參與者數(shù)目如何。此外,通過在所有3D位置音頻環(huán)境中將參與者置于相對于收聽參與者的相同位置,僅必須對每個說話參與者進(jìn)行一次3D音頻呈現(xiàn),并且可以在多個3D位置音頻環(huán)境中使用所產(chǎn)生的信號,從而降低計算復(fù)雜度。通過不對靜默的或未選擇的參與者的話音信號進(jìn)行重采樣和3D音頻呈現(xiàn),進(jìn)一步降低了復(fù)雜度。當(dāng)僅有少數(shù)參與者連接至?xí)h時,針對所有參與者創(chuàng)建個體3D位置音頻環(huán)境將實現(xiàn)對場景的對稱調(diào)整,并且,與不對稱場景相比,收聽參與者將感知到更合意的音頻場景。此外,根據(jù)參與者的狀態(tài)以不同方式設(shè)置初始編碼器狀態(tài)將產(chǎn)生平滑的比特流切換,而不會產(chǎn)生任何可聽偽像。盡管參照具體示例實施例描述了本發(fā)明,但該描述總體上僅意在示出本發(fā)明的概念,而不應(yīng)被視為限制本發(fā)明的范圍。
權(quán)利要求
1.一種用于會議橋的方法,所述會議橋用于管理包括兩個或更多個參與者在內(nèi)的音頻場景,所述方法包括以下步驟-針對每個作為收聽參與者的參與者,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源并排除所述收聽參與者的話音,連續(xù)創(chuàng)建(90) 3D位置音頻環(huán)境信號;-將每個所創(chuàng)建的3D位置音頻環(huán)境信號連續(xù)分發(fā)(91)至對應(yīng)的收聽參與者;所述方法的特征在于,在每個所創(chuàng)建的3D位置音頻環(huán)境中,所述會議橋?qū)⑴c每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。
2.根據(jù)權(quán)利要求1所述的用于會議橋的方法,其中,通過對來自每個參與者的輸入信號進(jìn)行語音檢測,連續(xù)檢測(%)說話參與者。
3.根據(jù)權(quán)利要求2所述的用于會議橋的方法,所述方法的特征在于,所述會議橋呈現(xiàn) (95)針對每個說話參與者的個體3D位置音頻環(huán)境信號,并呈現(xiàn)(97)針對所有不說話參與者的公共3D位置音頻環(huán)境信號。
4.根據(jù)前述任一權(quán)利要求所述的用于會議橋的方法,其中,3D位置音頻環(huán)境信號的虛擬聲源被放置為形成弧形。
5.根據(jù)權(quán)利要求3至4中任一項所述的用于會議橋的方法,其中,通過檢測活動水平, 從所檢測到的說話參與者中選擇預(yù)定最大數(shù)目的說話參與者。
6.根據(jù)權(quán)利要求5所述的用于會議橋的方法,其中,僅將來自所選擇的說話參與者的話音呈現(xiàn)為3D位置虛擬聲源。
7.根據(jù)權(quán)利要求5或6所述的用于會議橋的方法,其中,如果需要重采樣至不同采樣率,則僅對來自所選擇的說話參與者的話音進(jìn)行重采樣。
8.根據(jù)權(quán)利要求2至7中任一項所述的用于會議橋的方法,其中,分別對所呈現(xiàn)的個體 3D位置音頻環(huán)境信號中的每一個進(jìn)行編碼。
9.根據(jù)權(quán)利要求2至8中任一項所述的用于會議橋的方法,其中,針對每個編解碼器, 僅對所述針對不說話參與者的公共3D位置音頻環(huán)境信號進(jìn)行一次編碼,所產(chǎn)生的比特流被分發(fā)至對應(yīng)的不說話參與者。
10.根據(jù)前述任一權(quán)利要求所述的用于會議橋的方法,其特征在于還包括以下步驟 確定(94)參與者的數(shù)目;以及如果參與者的數(shù)目未超過可用編碼器的數(shù)目,則呈現(xiàn)(98)針對每個參與者的個體3D位置音頻環(huán)境信號。
11.根據(jù)權(quán)利要求10所述的用于會議橋的方法,其中,將3D位置音頻環(huán)境中的虛擬空間位置調(diào)整為相對于收聽參與者對稱。
12.根據(jù)前述任一權(quán)利要求所述的用于會議橋的方法,其中,根據(jù)參與者是說話參與者、是不說話參與者、還是新參與者,設(shè)置編碼器的初始狀態(tài)。
13.一種用于管理包括兩個或更多個參與者在內(nèi)的音頻場景的會議橋,所述會議橋包括混合器(5 和多個用戶信道(3a、!3b、3N),所述會議橋被配置為-針對每個作為收聽參與者的參與者,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源并排除所述收聽參與者的話音,連續(xù)創(chuàng)建3D位置音頻環(huán)境信號;-將每個3D位置音頻環(huán)境信號連續(xù)分發(fā)至對應(yīng)的收聽參與者;所述會議橋的特征在于,所述混合器(5 被配置為在每個3D位置音頻環(huán)境信號中, 將與每個說話參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。
14.根據(jù)權(quán)利要求13所述的會議橋,其中,所述混合器(5 包括語音檢測器(10a、 10b、ΙΟΝ),與每個用戶信道(3a、!3b、3N)相連接,用于檢測說話參與者。
15.根據(jù)權(quán)利要求13或14所述的會議橋,其中,所述混合器(5 包括混合控制單元 (11);多個個體混合單元(8b、8N),用于呈現(xiàn)針對每個說話參與者的個體3D位置音頻環(huán)境信號;以及公共混合單元(8a),用于呈現(xiàn)針對所有不說話參與者的公共3D位置音頻環(huán)境信號。
16.根據(jù)權(quán)利要求13至15中任一項所述的會議橋,還包括用于檢測說話參與者的活動水平并基于所述活動水平來選擇預(yù)定最大數(shù)目的說話參與者的裝置。
17.根據(jù)權(quán)利要求16所述的會議橋,其中,所述混合器(5 被配置為僅將所選擇的說話參與者的話音呈現(xiàn)為3D位置虛擬聲源。
18.根據(jù)權(quán)利要求16或17所述的會議橋,其中,所述混合器(5 包括重采樣裝置(7a、 7b、7N),如果需要重采樣,則所述重采樣裝置(7a、7b、7N)基于所述語音檢測器(10a、10b、 ΙΟΝ),僅對所選擇的說話參與者的話音進(jìn)行重采樣。
19.根據(jù)權(quán)利要求13至18中任一項所述的會議橋,其中,每個用戶信道被配置為對每個所呈現(xiàn)的個體3D位置音頻環(huán)境信號進(jìn)行編碼。
20.根據(jù)權(quán)利要求13至19中任一項所述的會議橋,其中,所述會議橋被配置為針對每個編解碼器,僅對所述針對不說話參與者的公共3D位置音頻環(huán)境信號進(jìn)行一次編碼,以及將所產(chǎn)生的比特流分發(fā)至不說話參與者。
21.根據(jù)權(quán)利要求13至20中任一項所述的會議橋,其中,所述會議橋還被配置為如果參與者的數(shù)目未超過可用編碼器的數(shù)目,則呈現(xiàn)針對每個參與者的個體3D位置音頻環(huán)境信號。
22.根據(jù)權(quán)利要求21所述的會議橋,還包括用于相對于收聽參與者對3D位置音頻環(huán)境信號中參與者的虛擬空間位置進(jìn)行對稱調(diào)整的裝置。
23.根據(jù)權(quán)利要求13至22中任一項所述的會議橋,還包括用于根據(jù)參與者是說話參與者、是不說話參與者、還是新參與者來設(shè)置編碼器的初始狀態(tài)的裝置。
全文摘要
本發(fā)明提供了一種用于管理包括兩個或更多個參與者在內(nèi)的音頻場景的會議橋(1),所述會議橋包括混合器(2)和多個用戶信道(3a、3b、3N)。所述會議橋被配置為針對每個作為收聽參與者的參與者,通過將每個參與者的話音呈現(xiàn)為3D位置虛擬聲源并排除所述收聽參與者的話音,連續(xù)創(chuàng)建3D位置音頻環(huán)境信號;以及將每個所創(chuàng)建的3D位置音頻環(huán)境信號分發(fā)至對應(yīng)的收聽參與者。此外,所述會議橋被配置為在每個所創(chuàng)建的3D位置音頻環(huán)境中,將與每個參與者相對應(yīng)的虛擬聲源置于相對于收聽參與者的相同空間位置。
文檔編號H04M3/56GK102177734SQ200880131486
公開日2011年9月7日 申請日期2008年10月9日 優(yōu)先權(quán)日2008年10月9日
發(fā)明者安德爾斯·埃里克松, 帕特里克·桑格倫, 湯米·???申請人:艾利森電話股份有限公司