專利名稱:用于電話會議的空間化設置的制作方法
技術領域:
本發明涉及電話會議系統,并且更具體地,涉及設置電話會議 中的空間化效果。
背景技術:
各種音頻和視頻會議服務已經被使用了很長時間,尤其在電路 交換通信網絡中。電話會議系統可以被劃分成分布式和集中式系統, 后者在提供電話會議服務中已變得更為有利,當考慮服務提供商和 終端的實施時。圖1示出用于實施集中式音頻會議服務的現有技術設計。電話會i義系統包括會議橋CB和與其通信的若干個終端UE。每個終端UE 通過麥克風接收終端用戶的語音并且利用本質上已知的語音編碼器 來對語音信號進行編碼。編碼的語音被傳輸到會議橋CB,其解碼來 自接收到的信號的語音信號。會議橋CB使用現有技術的處理方法、 在音頻處理單元APU中將從不同終端接收到的語音信號進行合并, 此后,包括若千語音信號的合并信號被本質上已知的語音編解碼器 編碼并且發送回終端UE,終端UE將從接收到的信號解碼合并的語 音信號。由揚聲器或耳機從合并的語音信號生成可聽的音頻信號。 為了避免有害的回聲現象,由終端發送到會議橋的音頻信號通常從 將要發送到終端的合并的音頻信號去除。在會議橋中生成的合并信號通常作為單聲道(單頻道)音頻信 號或作為雙聲道(立體聲)音頻信號。在會議橋中,空間效果,稱 為空間化,可以在雙聲道音頻信號中人工地創建。在這種情況下, 處理音頻信號以給收聽者這樣的印象,即,電話會議的參與者處于 會議室的不同位置。在這種情況下,將在不同音頻聲道上再生的音頻信號彼此不同。當使用單聲道音頻信號時,所有語音信號(即, 合并的信號)被再生,作為相同音頻通道上的混合。如果被合適地實施,則空間化提高了電話會議參與者的語音清 晰度,因為收聽者能夠感覺每個參與者的語音來自于不同的方向。 相應地,在電話會議系統中,空間化是期望的特征。在例如WO99/53673, US 6,125,115和US 5,991,385中描述了包括空間化的現有 技術的電話會議系統。然而,這些現有技術具有明顯的缺陷。為了創建空間化效果, 接收終端需要關于在每個時刻哪個參與者正在進行發言的信息。在 多數情況下,電話會議橋能夠定義該信息,但必須將其包括在將要 發送到每個參與終端的電話會議橋的輸出信號中。沒有標準化的方 式將該額外的信息包括在將要發送的信號中。此外,包括該額外的 信息將導致增加在數據傳輸中所使用的帶寬,這是進 一 步的缺陷。一種用于創建空間化效果的可選現有已知方法是提供會議橋內 的空間化單元。在空間化單元中,所有的輸入聲道^皮空間化并且空 間化的信號被發送到每個參與終端。這接著又增加了會議橋的復雜 度。包括空間化信息的信號也需要更大的帶寬。另外,在某些情況下,電話會議橋甚至不能夠定義在每個時刻 哪個參與者正在發言。例如,可以使用電話會議橋作為單頻道會議網絡和支持3D (立體聲/n-聲音)會議網絡之間的網關。在這樣的情 形下,網關電話會議橋從單頻道會議網絡的電話會議橋4妄收包括單 頻道會議網絡的參與者的所有語音信號的合并信號。另外,定義在 每個時刻哪個參與者正在發言的額外信息應該包括在合并的信號 中,從而使得網關電話會議橋能夠將發言者彼此區分,以便進一步 的空間化處理。發明內容現在發明了 一種改進的方法和實施該方法的技術i殳備,由此可以 在接收時執行發言者標識,而不需要任何額外的信息被包括在接收到的合并信號中。本發明的各種方面包括方法、系統、電子設備和 計算機程序,其特征在獨立權利要求中陳述。在從屬權利要求中公 開了本發明的各種實施方式。根據第 一 方面,根據本發明的方法基于觀察到在編碼的語音數據 中的語音參數通常包括足夠的信息,以在涉及典型電話會議情況中 的若千發言者之間做出區別。相應地,本發明的第一方面包括一種用于區分多個參與者的電話會議中的發言者的方法,該方法包括 接收電話會議的語音幀,所述語音幀包括編碼的語音參數;檢查接 收到的語音幀的至少一個語音參數;以及將語音幀分類成屬于參與 者之一,分類是根據在檢查的至少一個語音參數中的差異來實施的。根據一個實施方式,該方法另外包括通過基于參與者的語音幀 分類將參與者放置在音頻信號的聲學空間的不同位置,向將要再生 的音頻信號創建空間化效果。根據一個實施方式,該方法另外包括根據在檢查的至少一個語 音參數中的差異來確定每個參與者的控制字;將控制字附加到語音 幀,每個語音幀的控制字是在特定語音幀中發言的參與者所特有的。根據 一 個實施方式,該方法另外包括根據附加到語音幀的控制字 來創建空間化效果。根據一個實施方式,該方法另外包括根據在檢查的僅一個語音 參數中的線性差異來確定每個參與者的控制字;以及根據控制字來 控制將要再生的音頻信號的音頻通道的空間位置。根據一個實施方式,該方法另外包括根據多個檢查的語音參數 中的差異來聚結語音幀;根據聚結的語音幀的語音參數中的差異來 確定每個參與者的控制字;以及根據控制字來控制將要再生的音頻 信號的音頻通道的空間位置。根據一個實施方式,檢查的語音參數包括下面的至少一個話音 的基音(pitch);編碼語音幀的話音/非話音分類;或編碼的語音幀 的任何LPC參數。根據本發明的設置提供顯著的優勢。主要優勢在于在電話會議的情況下,不需要來自網絡的發言者標識信息,而是標識可僅在接收 單元內實施。另外,在接收機內不需要單獨的話音分析算法,由于 編碼的語音幀參數用于標識,這導致低的計算復雜度。另外的優勢 在于甚至通過使用若千,可能僅一個或兩個合適選擇的語音參數, 可在終端中獲得明顯的空間化效果。根據本發明的第二方面,提供一種用于區分具有多個參與者的電話會議中的發言者的系統,該系統包括用于接收電話會議的語音 幀的裝置,所述語音幀包括編碼的語音參數;音頻編解碼器,用于 檢查接收到的語音幀的至少一個參數;以及用于將語音幀分類成屬 于參與者之一的裝置,該分類基于在檢查的至少一個語音參數中的差異。這樣的系統可以應用在電話會議的處理《連中的各種位置。這提供 了顯著的優勢,定位發言者標識處理的某種自由度提供在會議網絡 的不同階段中將單頻道會議系統連接到3D會議系統的靈活性。在本 發明的另外方面示出了這些可選的位置。根據第三方面,提供一種終端設備,用于對具有多個參與者的電 話會議的音頻信號進行三維空間化,該設備包括用于接收電話會 議的語音幀的裝置,所述語音幀包括編碼的語音參數;音頻編解碼 器,用于檢查接收到的語音幀的至少一個參數;用于將語音幀分類 成屬于參與者之一的裝置,該分類基于在檢查的至少一個語音參數 中的差異;以及空間化裝置,用于通過將參與者放置在音頻信號的 聲學空間中的不同位置,向將要再生的音頻信號創建空間化效果。根據第四方面,提供一種計算機程序產品,其存儲在計算機可讀 介質上并且可在數據處理設備中執行,用于對具有多個參與者的電 話會議的音頻信號進行三維空間化,該計算機程序產品包括用于 接收電話會議的語音幀的計算機程序代碼段,所述語音幀包括編碼 的語音參數;計算機程序代碼段,用于檢查接收到的語音幀的至少 一個參數;以及計算機程序代碼段,用于將語音幀分類成屬于參與 者之一,所述分類基于在檢查的至少一個語音參數中的差異;以及計算機程序代碼段,用于通過將參與者放置在音頻信號的聲學空間 中的不同位置,向將要再生的音頻信號創建空間化效果。根據第五方面,提供一種用于電話會議系統的會議橋,所述橋包括用于接收具有多個參與者的電話會議的語音幀的裝置,所述語音幀包括編碼的語音參數;音頻編解碼器,用于檢查接收到的語音幀的至少一個參數;以及用于將語音幀分類成屬于參與者之一的裝置,所述分類基于在檢查的至少一個語音參數中的差異;以及用于 基于參與者的語音幀分類將信息包括在音頻信號中以便音頻信號的進一 步空間化處理的裝置。根據第六方面,提供一種計算機程序產品,存儲在計算機可讀介 質上并且可以在數據處理設備中執行,以便區分具有多個參與者的 電話會議中的發言者,計算機程序產品包括用于接收電話會議的 語音幀的計算機程序代碼段,所述語音幀包括編碼的語音參數;計 算機程序代碼段,用于檢查接收到的語音幀的至少一個參數;計算 機程序代碼段,用于將語音幀分類成屬于參與者之一,所述分類基 于在檢查的至少 一個語音參數中的差異;以及計算機程序代碼段, 用于基于參與者的語音幀分類將信息包括在音頻信號中,以便音頻 信號的進 一 步空間化處理。根據第七方面,提供一種終端設備,其操作為將多個從終端連接 到會議橋的主終端,所述終端設備包括用于接收具有多個參與者 的電話會議的語音幀的裝置,所述語音幀包括編碼的語音參數;音 頻編解碼器,用于檢查接收到的語音幀的至少一個參數;以及用于 將語音幀分類成屬于參與者之一的裝置,所述分類基于在檢查的至 少一個語音參數中的差異;以及用于基于參與者的語音幀分類將信 息包括在音頻信號中以便音頻信號的進 一 步空間化處理的裝置。
在下文中,將參考附圖來更為詳細地描述本發明的各種實施方 式和方面,其中圖1表示根據現有技術的集中式電話會議系統;圖2表示寬帶AMR語音編解碼器的通用功能結構;圖3表示在簡化的塊流程圖中的根據本發明的一個實施方式的發言者標識系統;圖4表示實施在根據本發明的一個實施方式的終端或會議橋中的發言者標識系統;圖5表示實施在根據本發明的另一實施方式的會議橋中的發言者標識系統;圖6表示實施在根據本發明的另一實施方式的分布式電話會議 系統的會議橋中的發言者標識系統;圖7a表示電話會議情形,其中一組終端經由主終端連接到會議橋;圖7b表示實施在根據本發明的一個實施方式的圖7a的主終端中 的發言者標識系統;圖7c表示實施在根據本發明的另一實施方式的圖7a的主終端中 的發言者標識系統;圖8表示根據本發明的一個實施方式的空間化方法的流程圖;圖9表示在簡化的塊流程圖中的根據本發明的 一 個實施方式的 終端設備;以及圖10表示在簡化的塊流程圖中的根據本發明的 一個實施方式的 會議橋。
具體實施方式
本發明不限于任何特定的電信系統,其可以使用在任何電信系 統中,其中語音編解碼器分析語音的特性并且將編碼語音的參數包 括在將要發送到接收者的音頻信號中。因此,本發明可以使用不同 的音頻和語音編解碼器,例如本質上乂人GSM/UMTS系統已知的 EFR/FR/HR語音編解碼器((增強型)全/半速率編解碼器)和窄帶 AMR或寬帶AMR語音編解碼器(自適應多速率編解碼器),以及使用在MPEG1、 MPEG2和MPEG4音頻編碼中的編解碼器,例如 AAC編解碼器(高級音頻編碼),其適用于編碼/解碼不同的音頻格 式。因此術語音頻編解碼器表示傳統意義上的音頻編解碼器和使用 在不同系統中的語音編解碼器以及具有可伸縮比特率的編解碼器, 例如根據MPEG4的CELP+AAC。因此,技術人員將理解到電信系 統的屬性根本不會限制本發明的實施,本發明可以應用于任何電路 交換或分組交換電信網絡中,例如GSM網絡、GPRS網絡、UMTS 網絡以及經由因特網使用的電話會議設置中。在下文中,將使用寬帶AMR ( AMR-WB)編解碼器作為例子來 描述實施方式。寬帶語音編解碼器AMR-WB 乂人先前開發用于GSM 系統的窄帶語音編解碼器AMR-NB進一步發展而來。寬帶和窄帶 AMR編解碼器都被設置成將錯誤消除的等級適配于無線信道和業務 條件,從而它們總是試圖選擇最佳的信道和編解碼器模式(語音和 信道比特率),從而提供最佳的可能語音質量。AMR語音編解碼器包括多速率語音編碼器,源控制速率圖,其 包括話音活動檢測(VAD)和背景噪聲生成系統(DTX,非連續傳 輸)以及阻止將傳輸路徑錯誤發送到接收方的錯誤消除機制。多速 率語音編解碼器是集成的語音編解碼器,其窄帶版本AMR-NB包括 具有比特速率為12.2、 10.2、 7.95、 7.4、 6.7、 5.9、 5.15和4.75kbit/s 的八個語音編解碼器。寬帶語音編解碼器接著包括比特速率為 23.85、 23.05、 19.85、 18.25、 15.85、 14.25、 12.65、 8.85和6雖bit/s 的九個語音編解碼器。AMR語音編解碼器的語音編碼的操作基于ACELP(代數碼本激 勵線性預測)方法。寬帶編解碼器AMR-WB在16kHz的頻率處對語 音進行采樣,此后預處理的語音信號被下采樣到編解碼器的操作頻 率12.8kHz。這實現解碼語音信號的6.4kHz帶寬,但操作在最高比 特率23.85kbit/s的編解碼器模式也包括語音信號后處理功能,通過 該功能可以確定對于語音信號來說,更高頻率范圍(6.4到7kHz) 內的有色隨機噪聲分量將使用的帶寬增加到7kHz。語音編碼器的輸出比特流因此包括是典型ACELP編碼器參數的編碼語音參數。這些包括-在ISP (導抗頻譜對(Immitance Spectral Pair ))域中量化的 LPC (線性預測編碼)參數,描述頻鐠內容并且定義濾波器的短期常 數;-LTP (長期預測)參數,描述語音的周期性結構; -ACELP激勵,描述線性預測器后的冗余信號; -信號增益-擴展高頻帶的增益參數(僅用于最高比特率的編解碼器中)圖2的框圖描述寬帶語音編解碼器AMR-WB的通用功能結構, 其中語音編解碼器的輸入語音首先施加到話音活動檢測塊(VAD) 200。在該塊中,通過VAD算法對輸入信號執行操作,其中包括語 音分量的幀與僅包括噪聲的幀相分離。在包括語音分量的幀上執行 初步VAD參數化,而僅包括噪聲的語音幀將被引導旁路語音編碼器 到非連續傳輸(DTX)塊202,該塊202以低比特率(1.75kbit/s)對 包括噪聲的幀進行編碼。作為初步VAD參數化的結果,通常可以確 定語音幀的基音和能量。包括語音分量的語音幀被施加到語音編碼 器204,該語音編碼器包括本質上已知的功能性,用于計算LPC參 數(塊206 ) 、 LTP參數(塊208 )和描述信號增益的參數(塊210 )。語音編解碼器將編碼的語音參數饋入到信道編碼器,其中執行 連續的操作,例如比特重組、針對一些比特計算CRC (循環冗余校 驗)值、巻積編碼和鑿孔。這些信道編碼語音參數經由發送器發送 到接收終端的編解碼器,其中解碼器解碼信道編碼并且解碼語音參 數,從而形成將要在接收機中再生的音頻信號?,F在讓我們假設圖2的寬帶AMR-WB語音編解碼器使用在圖1 的電話會議橋中,即,音頻處理單元APU合并和處理從不同終端接 收到的語音信號,并且包括若干語音信號的合并的信號由寬帶 AMR-WB語音編解碼器來編碼并且發送回終端或另一會議橋。本發明的實施方式基于觀察到編碼語音數據中的語音參數通常包括對涉及典型電話會議情況中的若千發言者之間做出區分的足夠 信息。因此,接收單元(例如終端或網關電話會議橋)的語音編解 碼器被設置成檢查一組語音參數,即, 一個或多個參數,并且根據 檢查的語音參數中的差異來將發言者彼此分開。接著將根據檢查的 語音參數的特性值來從后續的語音幀標識出發言者,在此之后,被 標識的發言者的信息可以被進一步用于對將要再生的音頻信號創建 空間化效果。通過參考圖3的框圖來進一步示出實施方式,其示出通用層面上的發言者標識塊的實施。圖3僅示出關于編碼的語音幀的處理的功能性。對技術人員,顯而易見的是在編碼的語音幀被插入到語音 編解碼器前,已知的各種操作將被實施于接收到的信號。這些操作 至少在某種程度上是系統相關的并且通常包括例如接收幀的去交織 和巻積解碼,然而對于實施方式的實施是不相關的。接收單元(例如終端或網關電話會議橋)接收包括各種語音參數的編碼語音幀300。從至少一些接收到的語音幀,由提取塊302 復制一個或多個預定的語音參數。事實上,不必檢查每個語音幀, 如果例如檢查每第二個或每第三個語音幀,則可以獲得可靠的解決 方案。語音參數進一步被饋入到識別塊304,其中根據語音參數中的 差異來彼此區分發言者并且接著每個幀將被分類到屬于發言者之 一。識別塊304進一步計算控制字,該控制字標識發言者并且將進 一步被用于針對特定的語音幀來創建空間化效果。因此,發言者標 識塊306的基本實施包括提取塊302和識別塊304。這樣的發言者標 識塊可以應用于各種音頻會議架構和電話會議的處理鏈的各種位置 中。根據一個實施方式,發言者標識塊可以被實施在接收終端中, 由此不需要來自網絡的發言者標識信息以便創建將要再生的音頻信 號的空間化效果。圖4示出更為詳細的終端中的實施。終端接收來 自會議橋的編碼語音幀400。提取塊402復制來自接收語音幀的預定 語音參數,接著將語音參數輸入到識別塊404中。識別塊404 4全查語音參數中的差異,相應地將發言者彼此區分,并且將每個幀標識為屬于發言者之一。接著識別塊404確定每個識別發言者的控制字, 該控制字被進一步用于創建用于語音幀的空間化效果。同時,由終 端接收到的編碼語音幀400被插入到標準語音解碼器408,例如, AMR-WB語音編解碼器以用于解碼處理。語音解碼器408的輸出包 括解碼語音幀,其被插入到空間化處理模塊410以便創建空間化效 果。在空間化處理模塊410中,每個語音幀被標記有由發言者標識 塊406所計算的相應控制字。根據標記有語音幀的控制字來處理語 音的每個部分,使得從由收聽者所感覺的聲學空間中的不同位置聽 到每個發言者。這給出來自不同方位的每個對手發言的感知。回放 裝置412可包括立體聲再生裝置,例如,耳機或立體聲揚聲器,或 任意其他的多通道音頻系統,例如5.1系統。通常已知空間化可以被執行為例如HRTF (頭部相關傳輸功能) 濾波,其為收聽者的左和右耳產生雙耳聲的信號。人造房間效果(例 如,早期反射聲或后期混響)可以被添加到空間化信號以提高源外 在化和逼真度。也可僅通過修改信號間的時間差(耳間的時間差) 或幅度差(耳間的幅度差)來執行空間化。人類聽覺系統甚至將小 幅度的差轉換成空間差。當使用耳機時,從濾波器到達的信號可以 被再生用于左耳和右耳,這給收聽者留下空間差的印象。當使用揚 聲器時,收聽者用兩個耳朵聽到兩個通道并且可能需要串音消除。 因此,可以執行串音消除作為回》文處理的一部分。類似于AMR-WB編解碼器,大多數編解碼器在編碼處理中使用 線性預測編碼(LPC)。它們也估計話音的基音,以及聲音是話音還 是非話音?;艉蚅PC參數對于每個發言者來說稍微有些特性,并 且因此對于識別發言者來說是顯著可變的。自然地,根據使用在語 音編碼中的參數,不同的語音編解碼器需要特定的實施。根據 一 個實施方式,通過僅使用例如在語音幀的標識中的基音 的一個語音參數可以實現發言者標識塊306的很簡單實現。因此, 提取塊302復制來自接收到的語音幀的選擇參數(例如,基音)并且將該參數插入到識別塊304。識別塊304線性地將參數映射進控制 字,并且線性創建的控制字可以被用于創建空間化效果。例如,如 果發言者標識塊被實施在根據圖4的終端中,則空間化處理模塊410 直接使用控制字以便控制立體聲輸出的左/右展平(panning)。該實 施方式的復雜度很低并且實驗表明甚至僅通過使用一個合適選擇的 語音參數可以獲得不同的空間化效果。自然地,可以實現更為明顯的空間化效果,如果在標識中使用 編碼語音幀的若干或所有語音參數。因此根據另一實施方式,提取 塊302復制來自接收到的語音幀的多個預定參數并且將該參數插入 到識別塊304。識別塊304根據檢查的語音參數的特性值來執行語音 幀的聚結并且標識每個語音幀屬于哪個聚結(即,發言者)。接著 識別塊304計算表征每個發言者(即,語音幀的聚結)的控制字。 同樣地,例如,在發言者標識塊的終端實施中,在空間化處理模塊 410中,每個語音幀標記有相應的控制字。接著每個發言者被放置到 聲學空間中的不同位置。當相比較于上述的實施方式時,實施的復 雜度在某種程度上增加,但每個語音幀的發言者標識的可靠性相應 地更高。根據另一實施方式,如果除了基音值,對話音/非話音語音幀的 劃分被應用到語音幀的分類中,則可實現相應簡單實施但增強的空 間化效果。這里,例如可以根據相同幀的話音/非話音信息來處理語 音幀的基音信息,使得僅當語音幀的聲音是清晰的話音時,進一步 處理基音信息。如果語音幀的聲音是非話音的,則基音信息被用作 此類的發言者標識中。由于對于每個發言者,話音/非話音聲音的使 用通常是特有的,所以其提供促進區分發言者彼此的額外信息。然而,技術人員將理解到標識的準確性對于此類應用不是非常 重要的。標識同樣不影響語音項目的再生,而僅影響相關的空間化 效果。因此,某個語音項目的發言者的故障標識導致將發言者放置 到聲學空間的錯誤位置,這可能造成某種混亂,但消息仍被正確地再生。根據一個實施方式,由發言者標識塊所提供的發言者標識信息 可以被進一步使用在接收終端中,使得發言者標識(例如,"發言 者1")同時隨相應發言者的語音幀的回放而顯示在終端的顯示屏上。 當前發言者的視覺信息加深空間化效果的感知。的。主要優勢在于在電話會議的情況中,不需要來自網絡的發言者 標識信息,而標識可以單獨在接收終端中實施。另外,在^妻收機中 不需要單獨的話音分析算法,因為編碼的語音幀參數用于標識,這導致低的計算復雜度。另外的優勢在于甚至通過使用若干、可能僅 一個或兩個合適選4奪的語音參數,可在終端中實現不同的空間化效果。然而,上述的發言者標識塊可應用于不同電話會議架構的各種 位置。因此,本發明的另外方面公開一種包括根據本發明的發言者 標識塊的電話會議橋。此類的電話會議橋通常通過將傳統的單聲道會議網絡連接到3D會議網絡而操作為網關。這里使用的術語"3D 會議網絡,,表示一種解決方案,其中終端能夠接收來自會議橋的立 體聲/多通道編碼語音流或 一些額外的信息可以并行于單聲道語音聲 道而纟皮發送到終端,從而創建空間化效果。圖4中示出的實施也可以-故應用在電話會議橋中,自然地也不 需要回放裝置412。因此,在電話會議橋實施的一個實施方式中,電 話會議橋接收來自單聲道電話會議網絡的合并信號,所述合并信號 包括來自多個電話會議參與者的編碼語音幀400。發言者標識塊406 如上述的終端實施中所述的操作提取塊402將來自每個接收到的 語音幀的預定語音參數輸入到識別塊404,識別塊404根據語音參數 中的差異來將每個幀分類到屬于發言者之一,在此之后,控制字被 定義于每個識別的發言者。合并信號的編碼語音幀400被插入到電 話會議橋的語音解碼器408中以便解碼處理。解碼的語音幀被插入 到空間化音頻處理模塊410,其中每個語音幀標記有由發言者標識塊 406所計算的相應控制字。因此,在電話會議橋中才丸行來自單聲道電話會議網絡的合并信號的3D處理,由此根據檢測到的發言者的身份 來控制空間位置,并且處理的立體聲信號首先被編碼并且接著被發 送到能夠進行3D再生的那些參與者。相應地,在該實施方式中,回 ;故裝置412被實施在接收終端中。相應地,來自3D會i義網絡的終端 的信號被在會議橋中混響以形成合并的單聲道信號,接著將該信號 發送到僅能夠接收單聲道音頻信號的電話會議參與者。圖5示出電話會議橋實施的另一實施方式。在該實施方式中,識別發言者并且定義每個發言者的控制字;同時,在電話會議橋的 語音解碼器508中解碼合并信號的編碼語音幀500。在本實施方式 中,替代于將空間化效果直接創建到會議橋的輸出信號中,僅將ID 標簽附加到將要發送到終端的單聲道混響信號。相應地,處理模塊 510將額外的控制流附加到并行于首先將要編碼的語音流并且接著 發送到終端。處理模塊510可以是上述的空間化音頻處理模塊,其 被設置成將控制字附加到解碼的語音幀作為額外的信息,或處理模 塊50可以專用于該特定處理。自然地,在該實施方式中,終端負 責在回放階段創建空間化效果,由此根據來自會議橋、并行于語音 流接收到的額外控制流的ID標簽來處理語音部分。有各種可選方案將ID標簽包括在將要發送到終端的單聲道混響 信號中。例如,ID標簽可以被嵌入進語音信號中??蛇x地,可以應 用語音信號的冗余,使得可以使用比特挪用(bit-stealing)技術,即, 語音幀的比特流中的 一 些冗余比特用于指示ID標簽。另 一 種選擇是 應用用于將混響信號傳送到終端的傳輸協議。用于電話會議的典型 傳輸協議是RTP (實時傳輸協議),其中RTP的未用控制字段可用 于將活躍的發言者的ID信息發送到接收器。自然地,例如RTCP(實 時傳輸控制協議)的單獨控制流可連同專用于信號發送ID標簽的傳 輸協議使用。圖6示出用于分布式電話會議架構的電話會議橋實施的另外實 施方式。同樣地,發言者被識別并且控制字被定義用于如上所述的發言者標識塊606中的每個發言者。然而,對于分布式電話會議系 統,會議橋創建單獨的輸出信號,它們的每個代表電話會議的一個 參與者的語音。因此,如果發言者標識塊606檢測到參與者A正在 單聲道混響信號的特定語音幀600中發言,則解多路復用器610控 制語音幀與參與者A的流關聯,并且在該特定幀的持續期間,靜音 幀或柔化噪音幀被生成用于參與者的剩余流。接著,如果發言者標 識塊606纟全測到例如參與者B正在下一個進入的語音幀中發言,則 語音幀關聯在參與者B的流中,并且靜音幀被生成用于流的剩余。 所有的這些(分開的)N個語音信號接著被發送到終端,終端包括 用于將它們空間化到回放階段的不同位置處的裝置。注意到在該實施方式中,由語音解碼器608所執行的代碼轉換 可優選地^皮旁路,因為編碼的語音幀600可以被直接地轉發到不同 的流。當然,可以解碼語音幀并且接著引導得到的PCM (脈沖編碼 調制)信號到不同的流,接著在將這些流傳輸到終端之前對其進行 編碼。圖7a示出電話會議情況中的另一實施方式,其中參與電話會議 的一組從終端(ST1-ST3)經由主終端(MT)連接到會議橋(CB)。 例如,多個電話會議參與者可以聚集在房間內,其中一個參與者的 終端操作為主終端,其連接到會議橋,并且其他的終端經由例如藍 牙連接或WLAN連接連接到主終端??蓱糜谠撾娫挄h情形中的 實施方式是上述的實施方式的變形。根據圖7b中所示出的一個實施方式,主終端從會議橋接收合并 的信號700,并且主終端的發言者標識塊706識別發言者并且定義每 個發言者的控制字。同時地,在主終端的語音解碼器708中解碼合 并信號的編碼語音幀700。在該實施方式中,ID標簽被附加到將要 發送到從終端的單聲道混響信號。相應地,處理模塊710將并行于 語音流來附加額外的控制流以共同地發送到乂人終端。接著從終端在 回放階段創建空間化效果,由此根據附加的ID標簽來處理語音部分。根據圖7c中示出的另一實施方式,主終端根據分布式電話會議架構的原理來針對從終端進行操作。因此,主終端創建代表電話會 議的參與者的語音的單獨輸出信號。分開的語音信號被發送到從終端,其在回放階段創建空間化效果。同樣地,編碼的語音幀700可 以被直接轉發到不同的流,不需要由語音解碼器708執行任何的代 碼轉換。事實上發言者標識塊可應用于電話會議的處理鏈的各種位置所 提供的優勢是顯著的。主要優勢在于定位發言者標識處理的某些自 由度提供在會議網絡的不同階段中將單聲道會議系統連接到3D會 議系統的靈活性。另外,在實施方式中,其中發言者標識塊被實施 在會議橋中,發言者標識塊處理的簡單實施的需要不是太重要。因 此,如果發言者標識塊被實施在會議橋(服務器)中,則可以使用 需要更高的處理功率和存儲消耗的高性能ID檢測處理。圖8表示根據本發明的 一 個實施方式的空間化方法的流程圖。 在步驟800中,在接收單元中接收包括電話會議的編碼語音參數的 編碼語音幀。接收單元包括預定的設置以在發言者標識中使用某些 語音參數。相應地,編碼的語音幀的所述預定語音參數被輸入到標 識處理(802 )。選擇的語音參數中的差異是驅動因子,根據該驅動 因子,每個幀被分類成屬于發言者之一 (804)。接著以控制字來標 識每個發言者(806 ),這可以簡單的是發言者號或,如果應用更為 復雜的計算,例如相對于收聽者的聲音源位置的坐標參數(笛卡爾 坐標'.x, y, z或球坐標方位角、仰角和距離)或展平或增益參數 以控制音頻通道的空間位置。此后,同時利用標準語音解碼器解碼 的語音幀被利用在標識處理中計算的相應控制字來標記(808 )。可 選地,如果如上所解釋的使用分布式架構,則解碼優選地被旁路并 且根據它們的相應控制字來進一 步處理編碼的語音幀。上述的步驟涉及發言者標識并且通常在接收單元內執行(即, 會議橋、終端、主終端)。下面的步驟也包括在處理鏈中以創建空 間化效果,但根據使用的電話會議架構和實施以及在所述架構中的 發言者標識塊的位置,根據標記有相應語音幀的控制字來為每個語音幀創建空間化效果的步驟(810)可以實施在處理鏈的各種位置, 如上所述解釋。因此以虛線示出最后的步驟。最后,總是經由音頻再生裝置來在接收終端中實施回放(812),使得從由收聽者感知的聲學空間的不同位置聽到每個發言者。上述的空間化系統和方法可以^皮實施在能夠參與電話會議并且包括合適的語音解碼器和音頻再生裝置的任意終端中。圖9表示可 以應用本發明的終端(即,電子設備(ED))通用框圖。電子設備 例如可以是無線移動臺或PDA (個人數字助理)設備、有線電話或 計算機。電子設備(ED)包括中央處理單元(CPU)、存儲器(MEM) 和I/0系統(I/O)。所有需要的信息存儲在設備的存儲器(MEM) 中。存儲器(MEM)包括只讀存儲器部分,其例如可以是ROM存 儲器,以及寫存儲器部分,其例如可以由RAM (隨機存取存儲器) 和/或閃存存儲器形成。經由I/O系統(I/O),設備與例如其他設備、 網絡和用戶通信。更具體地,I/O系統包括設置成根據使用的電信協 議來發送和接收電話會議數據的收發器Tx/Rx。隨同收發器Tx/Rx, 有至少一個語音編解碼器(CODEC),其包括語音編碼器和語音解 碼器的功能。如上所述,根據本發明的發言者標識塊優選地結合編 解碼器實施。用戶接口 (UI)(其是I/0系統(I/O)的一部分)包 括與用戶通信所需的接口,例如顯示器、按鍵和音頻再生裝置,類 似于揚聲器和/或麥克風。從設備的不同組件接收到的信息被發送到 中央處理單元(CPU),其包括一個或多個處理器并且以期望的方 式來處理接收到的信息。會議橋CB可以是已知的基于PC的服務器計算機。相應地,如 圖10中所示,會議橋包括用于接收從若干個終端和/或另 一會議網絡 到達的音頻信號的輸入(11, ..., IN),并且通常包括多個解碼器 (Dl, ..., DN)以用于解碼輸入的信號。輸入的音頻信號一皮施加到 音頻處理單元APU,其中以期望的方式來合并音頻信號,其可以包 括信號混頻、空間化、濾波或其他期望的處理方法,作為該處理的結果,生成單聲道或立體聲(或多通道)合并輸出音頻信號。根據 本發明的發言者標識塊實施為APU的一部分。會議橋進一步包括存儲器MEM和包括至少一個處理器的一個或多個中央處理單元CPU, 由此通過應用公共存儲器組件和會議橋的處理單元來實施音頻處理 單元APU的功能,或可將音頻處理單元APU實施為專用單元。另 外,會議橋包括一個或多個語音編碼器(EN)以用于對橋的輸出信 號進行編碼。根據實施方式的步驟很大程度地可以利用在圖9的終端或圖10 的會議橋的中央處理單元中執行的程序指令來實施。因此,用于實 施上述方法的所述裝置通常實施為計算機軟件代碼。計算機軟件可 以被存儲到任意存儲器裝置,例如PC的硬盤或CD-ROM磁盤,從 這可將其加載到終端的存儲器。計算機軟件可以通過網絡加載,例如使用TCP/IP協議棧。也可以使用硬件解決方案或硬件和軟件解決 方案的組合以實施本發明的裝置。顯然的是本發明不只限于上述的實施方式,而是可以在所附權利 要求書的范圍內修改。
權利要求
1.一種用于區分多個參與者的電話會議中的發言者的方法,該方法包括接收所述電話會議的語音幀,所述語音幀包括編碼的語音參數;檢查接收到的語音幀的至少一個語音參數;以及將語音幀分類成屬于參與者之一,所述分類根據在檢查的至少一個語音參數中的差異來實施。
2. 根據權利要求1所述的方法,該方法進一步包括 通過基于參與者的語音幀分類將所述參與者放置在所述音頻信號的聲學空間的不同位置,對將要再生的音頻信號創建空間化效果。
3. 根據權利要求1所述的方法,該方法進一步包括 根據在檢查的至少一個語音參數中的差異來確定每個參與者的控制字;以及將控制字附加到語音幀,每個語音幀的所述控制字是在特定語音 幀中發言的參與者所特有的。
4. 根據權利要求3所述的方法,該方法進一步包括 根據附加到語音幀的控制字來創建空間化效果。
5. 根據權利要求4所述的方法,該方法進一步包括 根據在檢查的僅一個語音參數中的差異來確定每個參與者的所述控制字;以及根據所述控制字來控制將要再生的音頻信號的音頻通道的空間 位置。
6. 才艮據權利要求4所述的方法,該方法進一步包括 根據多個檢查的語音<參數中的差異來聚結所述語音幀; 根據聚結的語音幀的語音參數中的差異來確定每個參與者的所述控制字;以及根據所述控制字來控制將要再生的音頻信號的音頻通道的空間位置。
7. 根據任意前述權利要求所述的方法,其中檢查的語音參數包 括下面的至少一個-話音的基音; -語音幀的話音分類; -語音幀的任意LPC參數。
8. —種用于區分具有多個參與者的電話會議中的發言者的系 統,該系統包4舌用于接收所述電話會議的語音幀的接收單元,所述語音幀包括編 碼的語音參數;提取單元,用于檢查接收到的語音幀的至少一個參數;以及 識別單元,用于將語音幀分類成屬于參與者之一,所述分類基于 在檢查的至少一個語音參數中的差異。
9. 根據權利要求8所述的系統,進一步包括空間化單元,用于通過將所述參與者放置在所述音頻信號的聲學 空間的不同位置,對將要再生的音頻信號創建空間化效果。
10. 根據權利要求8所述的系統,進一步包括 用于根據在檢查的至少一個語音參數中的差異來確定每個參與者的控制字的裝置;以及用于將控制字附加到語音幀的裝置,每個語音幀的控制字是在特 定語音幀中發言的參與者所特有的。
11. 根據權利要求9所述的系統,其中空間化單元被設置成根據附加到語音幀的控制字來創建所述空 間化效果。
12. 根據權利要求11所述的系統,其中用于確定每個參與者的控制字的裝置被設置成根據所述語音參 數中的線性差異來檢查僅一個語音參數并且定義控制字;并且其中 所述系統進一步包括用于根據所述控制字來控制將要再生的音頻信號的音頻通道的空間位置的裝置。
13. 根據權利要求11所述的系統,進一步包括 用于根據多個檢查的語音參數的差異來聚結所述語音幀的裝置; 用于根據聚結的語音幀的語音參數中的差異來確定每個參與者的控制字的裝置;以及用于根據所述控制字來控制將要再生的所述音頻信號的音頻通 道的空間位置的裝置。
14. 根據權利要求8到13的任意一項所述的系統,其中檢查的 語音參數包括下面的至少一個-話音的基音;-語音幀的話音分類;-語音幀的任意LPC參數。
15. —種設備,包括接收單元,用于接收具有多個參與者的電話會議的語音幀,所述 語音幀包括編碼的語音參數;提取單元,用于檢查接收到的語音幀的至少 一 個參數;識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基 于在檢查的至少一個語音參數中的差異;以及空間化單元,用于通過將所述參與者放置在所述音頻信號的聲學 空間的不同位置,對將要再生的所述音頻信號創建空間化效果。
16. 根據權利要求15所述的設備,進一步包括 立體聲或多通道音頻再生裝置。
17. 根據權利要求15所述的設備,進一步包括顯示器,用于顯示所述參與者的發言者標識,并存的語音幀被分 類成屬于該參與者。
18. —種計算機程序產品,其存儲在計算機可讀介質上并且可在 數據處理設備中執行,用于對具有多個參與者的電話會議的音頻信 號進行三維空間化,該計算機程序產品包括用于接收所述電話會議的語音幀的計算機程序代碼段,所述語音幀包括編碼的語音參數;計算機程序代碼段,用于檢查接收到的語音幀的至少 一個語音參數;計算機程序代碼段,用于將所述語音幀分類成屬于參與者之一, 所述分類是基于在檢查的至少一個語音參數中的差異;以及計算機程序代碼段,用于通過將所述參與者放置在音頻信號的聲 學空間的不同位置,對將要再生的音頻信號創建空間化效果。
19. 根據權利要求18所述的計算機程序產品,進一步包括計算機程序代碼段,用于根據在檢查的至少 一 個語音參數中的差 異來確定每個參與者的控制字;以及計算機程序代碼段,用于將控制字附加到語音幀,每個語音幀的 控制字是在特定語音幀中發言的參與者所特有的。
20. 根據權利要求18所述的計算機程序產品,其中用于創建空間化效果的計算機程序代碼段進 一 步包括用于基于 附加到語音幀的控制字來創建空間化效果的計算機程序代碼段。
21. —種用于電話會議系統的會議橋,所述橋包括 接收單元,用于接收具有多個參與者的電話會議的語音幀,所述語音幀包括編碼的語音參數;提取單元,用于檢查接收到的語音幀的至少一個參數; 識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基于在檢查的至少一個語音參數中的差異;以及音頻處理單元,用于將基于參與者的語音幀分類的信息包括在音頻信號中以便音頻信號的進一步空間化處理。
22. 根據權利要求21所述的會議橋,其中所述音頻處理單元被設置成根據檢查的至少 一個語音參數中的 差異來確定每個參與者的控制字。
23. 根據權利要求22所述的會議橋,進一步包括 空間化單元,用于通過根據控制字將參與者放置在音頻信號的聲學空間的不同位置,對將要發送到參與者的音頻信號創建空間化效果,以及編碼器,用于在傳送之前編碼所述空間化的音頻信號。
24. 根據權利要求22所述的會議橋,進一步包括用于將所述控制字附加到將要被發送的音頻信號中作為額外的 控制信息的裝置,以便在接收終端中的音頻信號的進一步空間化處 理。
25. 根據權利要求24所述的會議橋,其中根據下面方法的一個 將所述額外的控制信息附加到音頻信號中-將所述控制字嵌入進所述音頻信號;-挪用所述音頻信號的語音幀的特定比特以指示所述控制字; -將所述控制字插入到用于傳送所述音頻信號的傳輸協議的未用 控制字段中;或者-連同所述音頻信號,在單獨的控制信號中發送所述控制字。
26. 根據權利要求22-25的任意一項所述的會議橋,進一步包括 用于創建單獨的音頻信號的裝置,每個信號代表參與者的語音; 用于將由所述語音幀的控制字所指示的活躍發言的參與者的語音幀引導到所述參與者的單獨的音頻信號的裝置;用于在所述語音幀的持續期間,針對其他參與者的單獨的音頻信 號生成靜音幀的裝置;以及用于將所述單獨的音頻信號發送到所述參與者的每個的裝置。
27. —種計算機程序產品,存儲在計算機可讀介質上并且可以在 數據處理設備中執行,以便區分具有多個參與者的電話會議中的發 言者,所述計算機程序產品包括用于接收電話會議的語音幀的計算機程序代碼段,所述語音幀包 括編碼的語音參數;計算機程序代碼段,用于檢查接收到的語音幀的至少 一個參數;計算機程序代碼段,用于將語音幀分類成屬于參與者之一,所述 分類是基于在檢查的至少一個語音參數中的差異;以及計算機程序代碼段,用于基于參與者的語音幀分類將信息包括在音頻信號中,以便音頻信號的進一步空間化處理。
28. —種終端設備,其操作為將多個從終端連接到會議橋的主終端,所述終端設備包括接收單元,用于接收具有多個參與者的電話會議的語音幀,所述 語音幀包括編碼的語音參數;音頻編解碼器,用于檢查接收到的語音幀的至少 一 個參數;識別單元,用于將語音幀分類成屬于參與者之一,所述分類是基 于在檢查的至少一個語音參數中的差異;以及音頻處理單元,用于基于參與者的語音幀分類將信息包括在音頻 信號中以便音頻信號的進一步空間化處理。
29. 根據權利要求28所述的終端設備,其中 所述音頻處理單元被設置成根據在4全查的至少一個語音參數中的差異來確定每個參與者的控制字。
30. 根據權利要求28或29所述的終端設備,進一步包括用于將所述控制字附加到將要被發送的音頻信號中作為額外的 控制信,包-以便在從終端中的音頻信號的進 一 步空間化處理的裝置。
31. 根據權利要求28-30的任意一項所述的終端設備,進一步包括用于創建單獨的音頻信號的裝置,每個信號代表參與者的語音; 用于將由所述語音幀的控制字所指示的活躍發言的參與者的語音幀引導到所述參與者的單獨的音頻信號的裝置;用于在所述語音幀的持續期間,針對其他參與者的單獨的音頻信 號生成靜音幀的裝置;以及用于將所述單獨的音頻信號發送到每個從終端的裝置。
32. 根據權利要求28-31的任意一項所述的終端設備,進一步包括低功率RF裝置,用于建立到所述從終端的連接。
全文摘要
一種用于區分多個參與者的電話會議中的發言者的方法,在該方法中,在接收單元中接收電話會議的語音幀,所述語音幀包括編碼的語音參數。在接收單元的音頻編解碼器中檢查接收到的語音幀的至少一個參數,并且將語音幀分類成屬于參與者之一,所述分類是根據在檢查的至少一個語音參數中的差異來實施的。這些功能可以被實施在發言者標識塊中,其可以應用于電話會議處理鏈的各種位置。最后,通過將參與者放置在音頻信號的聲學空間的不同位置、根據告知的差別來在再生音頻信號的終端中創建空間化效果。
文檔編號H04M3/56GK101218813SQ200680025249
公開日2008年7月9日 申請日期2006年7月5日 優先權日2005年7月11日
發明者J·維羅萊南, P·雅爾斯克 申請人:諾基亞公司