專利名稱:用于支持誰正在講(wis)信號的應用的系統和方法
技術領域:
本發明涉及模擬和數字通信領域,以及更具體地,涉及用于使用關于在通信會議中誰正在講的數據的系統和方法。本發明增強了參加者實時識別在實況或者記錄會議中的商業使用。
背景技術:
電話通信領域已經經歷并且繼續經歷與通信應用的改進的質量和有用性相關的許多發展和改進,包括軟件和硬件產品。
一個這種發展是開發來支持多方通信會議的會議橋的出現,所述多方通信會議包括利用從各種網絡位置和從潛在不同的網段連接到網絡的各種設備的參加者。在本領域中,知道會議橋,其利用多個輸入/輸出通道,通過混合一個或者多個參加者輸入,并且輸出信號發送回每個參加者,其中輸出信號可以包括參加者的集體輸入信號,將會議參加者橋接在一起。按照這種方式,所有連接的各方在會話期間可以聽到所有其他連接方。可以結合純數據分組網絡,或者結合使用硬和軟交換的結合的模擬承載來實施會議橋接。例如,一方可以使用因特網協議(IP)電話、或者使用計算設備中的IP電話應用來接入橋,同時另一個是使用蜂窩電話,同時另一個使用普通老式電話服務(POTS)電話來接入會議會話。
現有網絡通信網關服務已經發展到允許無縫通信,前提是連接的設備支持雙向音頻通信。另外,參加者可以利用多個設備來參加,例如桌面計算機和電話。電話和計算機提供用于利用數據協作等的音頻和圖形來工作的多鏈路能力。在許多情況下,使用計算機電話集成(CTI)電話接入點,例如專用交換分機(PBX)系統或者專用接入交換分機(PABX)系統,來實施電話會議。不管那些參加者從模擬承載網絡還是從數字承載網絡進行接入,可以使用數字信號處理(DSP)來組合用于輸出到參加者的數據。
圖1示出了在典型會議橋中使用的簡單輸入信號體系結構100和信號處理。體系結構100包括來自多個輸入101(1-n)的多個信號,在圖1中也表示為n個號信號中的信號S1、S2和Sn。根據橋可利用的通道數目,可以有多個獨立輸入信號進入會議橋。雖然通常在一個會議中的參加者不能聽到另一個會議中的參加者,一個會議橋可以支持并行工作的多個同時會議會話。
在實踐中,使用DSP設備102或者實時計算引擎來數字化、標準化每個模擬輸入信號101(1-n),并且將其結合或者求和在一起,作為離散時間信號。產生的輸出信號是混合信號103,該混合信號包括來自所有參加者的所有輸入。然后,經由轉換為在電話網絡上發送的模擬或數字信號,或者在一些情況下,作為在數據分組網絡(DPN)上發送的數字分組流,信號103傳送到會話中的各個參加者。在一些情況下,到會議橋的輸入流可以是數字流。準確狀態和轉換處理(模擬到數字或者數字到模擬)取決于會議參加者所使用的終端設備和承載網絡。
圖2描述了在典型會議橋中使用的簡單輸入信號體系結構200和信號處理,其中沒有將所有的會議輸入相加在一起,而是僅僅一些最強的輸入信號相加在一起。在這種情況下,DSP設備202具有用于僅僅保持在會話期間在任何給定的時間M個最強輸入或者通道的濾波器。結合這幾個最強的通道輸入(M結合),并且然后將其輸出到所有參加者。該流水線化的方法遵循以下可能性,即在會話期間在任何給定的時間僅僅一個或者少數幾個講話者積極地交談。過濾掉背景噪聲和較弱的輸入信號,以便增加會話輸出流的整體音頻質量。
在當前現有系統中電話會議實踐中存在的一個挑戰是向所有參加者提供在活躍會議會話期間在任何時間點當前誰正在講的可靠和時間上實時的指示。在實踐中,在橋的輸入側上,可以進行可識別會議通道與可識別會議用戶的關聯。但是,一旦多個用戶正在講話,很難從混合的信號結果流中精確地分辨出與在會話期間在任何時間說了什么或者誰說的相關的那些不同身份。
另外,另一個挑戰涉及在檢查會議會話記錄,例如會話的轉錄文本,或者會話的真實歸檔音頻記錄時,誰說了什么以及何時說的。本發明人意識到,可靠的并且時間敏感的確定在多方會議會話期間在任何特定時間,不管是實況還是記錄的,誰正在說什么或者“誰正在講”(WIS),都是取決于復雜算法功能的復雜處理。類似地,預確定技術,例如到會議用戶的通道分配,不是總提供最可靠的信息,或者提供傳播該信息到那些可能要求該信息或者被授權得到該信息的用戶的方式。
本發明人意識到,確定在會議中WIS不僅是實時數據聚集和服務的功能,而且對于可能使用WIS,例如在已經進行和歸檔了會話之后,的其他應用,也是必要的。為了雇員訓練的目的,或者為了法律研究的目的等等,可能需要歸檔會話的第三方分析。而且,會話的每個參加者不會平等地被授權“知道”所講的特定信息或者誰確切地講了該信息。現有會議系統沒有充分利用所有“誰正在講”信息,其中作為正在進行或者已經發生的會議會話的結果,可使該信息可利用。
因此,本領域明確地需要一種用于增加“誰正在講”和相關呈現信息的商業利用的系統和方法,其中所述信息產生于通過會議參加者之間的網絡進行的活躍多方會議。諸如此類的系統將解決本領域中的上述問題,并且將增加會議生產率,以及改善和流水線化各種會議后商業實施。
發明內容
根據本發明的實施例,提供一種用于實現將與參加者的活動有關的導出的誰正在講指示可控制地應用到實況多方通信會議或者其記錄輸出的系統。該系統包括第一節點,駐留有一個會議橋接交換機、軟件或者其結合,其具有多個會議輸入通道;第二節點,具有對所述會議橋接交換機、軟件或者其結合的至少一個輸出信號端口的數據訪問;以及整體上分布到所述第一或者第二節點或者部分地分布到所述第一和第二節點的軟件應用,該應用用來將誰正在講指示應用到輸出通信、數據文件或者數據流,所述輸出通信、數據文件或者數據流轉發到所述會議參加者、非參加者的第三方、以及一個或者多個存儲設備中的一個、選擇的部分、或者結合。
在一個實施例中,第一節點是專用會議橋接設備,以及第二節點是桌面計算機或者數據服務器中的一個。在另一個實施例中,第一節點是PBX交換機,以及第二節點是桌面計算機。在一個實施例中,系統駐留在數字網絡中。在一個實施例中,所述誰正在講指示包括,除了識別信息之外,呈現信息或者其定位符,所述呈現信息與所述識別信息相關。在該實施例的一個變形中,系統還包括豐富誰正在講信息或者其定位符,所述豐富誰正在講信息整體上或者部分地在一個或者多個會議會話持續時間上從識別的參加者的記錄活動中導出。
在一個實施例中,輸出通信是包含會議內容的文本的即時消息。在一個實施例中,數據文件是會議輸出的文本轉錄。在一個實施例中,數據流是簡易信息聚合(RSS)饋送。在另一個實施例中,數據流是音頻流或音頻/視頻流。
根據本發明的另一方面,提供一種音頻內容轉錄和注釋系統,用于呈現來自多方會議會話的實況或者記錄語音的注釋文本轉錄,以及用于利用誰正在講數據注釋轉錄的文本文件,其中通過具有多個會議輸入通道的會議橋接交換機、軟件或者其結合來實現所述多方會議會話。該系統包括輸入端口,用于接收所述音頻內容;時間同步模塊,用于記錄與會議會話運行時間相關的通道活動信號的變化的時間偏移;通道到講話者關聯模塊;以及文本注釋引擎。在一個優選實施例中,與在信號變化之間存在的時間周期范圍內找到的內容的音頻單詞、短語或者段相關,根據隨著時間的信號變化指示來注釋所述轉錄的文本文件。
在一個實施例中,所述誰正在講指示包括,除了識別信息之外,呈現信息或者其定位符,所述呈現信息與所述識別信息相關。在該實施例的增強變型中,系統還包括豐富誰正在講信息或者其定位符,所述豐富誰正在講信息整體上或者部分地在一個或者多個會議會話持續時間上從識別的參加者的記錄活動中導出。
在本發明的另一方面,提供一種用于轉錄和注釋來自多方會議會話的實況或者記錄語音的方法,通過具有多個會議輸入通道的會議橋接交換機、軟件或者其結合來實現所述多方會議會話,注釋指示誰正在講該方法包括步驟(a)接收用于文本轉錄的語音文件;(b)訪問時間上與所述語音文件相關聯的通道活動信號;(c)在文本轉錄期間將字段或者占位符插入到文檔中,根據在文檔中的發生時間來插入字段或者占位符;(d)對于每個字段或者占位符檢索通道到講話者關聯數據,以及(e)將注釋插入到合適的字段。
在該方法的一個方面中,在步驟(e),注釋還包括關于講話者的呈現信息,或者其定位符,所述呈現信息包括但不局限于聯系信息。根據該方面的增強,在步驟(e),注釋還包括關于講話者的豐富誰正在講信息,或者其定位符,所述豐富誰正在講信息包括但不局限于與在一個或者多個會議的持續時間上的講話者活動相關的統計量。
在本發明的另一個實施例中,提供一種用于在會議檔案中檢索與多方會議的記錄內容有關的信息的系統,利用講話者識別和其他信息或者其定位符來時間上注釋記錄。該系統包括第一節點,駐留有一個搜索引擎和界面;第二節點,能夠通過網絡訪問所述第一節點;以及至少一個存儲庫,包含鏈接或者沒有鏈接到合適多媒體音頻文件或音頻/視頻文件的轉錄文本文件形式的會議記錄;其特征在于,所搜索的信息可以包括使用內容關鍵詞或者短語作為輸入的講話者識別、使用講話者識別參數和內容關鍵詞或者短語的結合作為輸入的講話者所講的重復內容的實例、以及包括使用講話者識別作為輸入的統計量的豐富呈現信息。
在一個實施例中,作為通過到與一個或者多個交互結果相關的附加信息的附加交互鏈接進一步優化的所述結果的列表,返回搜索的信息。在一個實施例中,結果的列表包括識別的講話者鏈接,以及對于每個結果鏈接到的附加信息包括所有或者一些與講話者相關的從他或者她的過去會議活動編譯的聯系信息、資格信息、和統計信息。在一個實施例中,結果鏈接到轉錄文本的真實會議段或者真實多媒體文件。
圖1是描述根據現有技術的會議橋的典型輸入/輸出信號處理的方框圖;圖2是描述根據現有技術的典型信號處理的方框圖,其中僅僅混合和呈現最強的信號作為輸出;圖3是根據本發明實施例的通信網絡的體系結構圖,其中支持多方會議和誰正在講數據的使用;圖4是描述根據本發明實施例的圖3的WIS使用管理器的一個功能的方框圖;圖5是描述根據本發明實施例的由圖4的WIS使用管理器實現的信息搜索處理的方框圖;圖6是描述根據本發明實施例的由圖3的WIS使用管理器實現的語音到文本轉錄服務的方框圖;圖7是描述根據本發明的一方面的用于注釋會議多媒體材料或者轉錄的步驟的處理流程圖;以及圖8是描述根據本發明實施例的用于針對WIS相關信息準備和提交會議檔案的信息搜索的步驟的處理流程圖具體實施方式
本發明提供一種系統和軟件應用,其支持誰正在講信息和從通過網絡實施的多方會議會話活動產生的豐富或者系統增強的呈現信息的實時識別和多使用傳播。下面將詳細說明本發明的系統和方法。
圖3是根據本發明實施例的通信網絡300的體系結構示意圖,其中支持多方會議和誰正在講數據的使用。通信網絡300是通信子網絡的聚合,其中所述通信子網絡橋接在一起,用于實現通過這些網絡來到一起的多方之間的無縫基于語音通信。例如,在這個例子中,示出了廣域網(WAN)301,開且廣域網301表示任何公司的、專用的或者公共的數據分組網絡(DPN)。WAN301可以表示眾所周知的因特網網絡。網絡301可以是無線或者有線的城域網(MAN)段,而沒有偏離本發明的精神和范圍。發明人選擇因特網作為WAN301的一個優選例子,原因是它的高度公共接入特性以及它的許多標準化的通信協議。
在這個例子中示出了局域網(LAN)302,并且LAN302表示任何公司的、專用的、或公共LAN,在用于討論目的的該例子中,其支持傳輸控制協議/因特網協議(TCP/IP)。LAN302可以是有線或者無線接入的,并且可以是與機構或者商業場所連接的校園網或者一些其他網絡。LAN302也可以是專用家庭網絡或其他類型的安全網絡。LAN302具有通過因特網協議路由器(IPR)(在此描述為IPR311)以及因特網服務提供商(ISP)(在此描述為ISP305)到WAN301的通信接入。因此,連接到LAN302的節點可以經由IPR331、網絡接入線332、ISP305和連接到WAN301內的網絡骨干310的網絡電纜312,來訪問WAN301內的任何服務或者節點。被描述為連接到用于通信的LAN骨干327的節點包括IP電話329和LAN計算機328。在優選實施例中,骨干310表示作為整體構成WAN301的所有線、設備和接入點。在WWW的實施例中,不存在實施本發明的地理限制。
在這個例子中描述了公共交換電話網絡(PSTN)303,以及PSTN303可經由本地電話交換(LSW)交換機320和因特網服務提供商(ISP)306來訪問WAN301。ISP306經由網絡接入電纜313連接到WAN301內的骨干310。可以以多種不同的方式實現從PSTN303到WAN301的接入,包括但不局限于電話調制解調器、SS7貝爾核心網關(沒有示出)、電纜調制解調器、數字用戶線(DSL)等等。
在這個例子中描述了無線網絡304,并且無線網絡304表示用于電話或者數據通信的任何無線模擬和/或數字承載網絡。網絡304可以是蜂窩電話網絡、無線局域網、或者基于衛星的網絡。網絡304具有經由無線因特網服務提供商(WISP)設備314并且分別經由網絡電纜315以及電話電纜316到網絡301和PSTN網絡303的通信接入。可以假定可以提供合適的網絡橋接設備來支持相互連接的多方之間的標準通信,所述多方從任何所描述的網絡來通信。數據和電話通信領域的人員將意識到,在這個例子中的不同網絡的描述意味著顯示可以使用語音和多媒體應用和合適的橋接設備和網絡服務,在隱含的網絡邊界上實施本發明,而沒有偏離本發明的精神和范圍。
在WAN301的域中描述了會議橋(C-橋)硬件/軟件設備307。橋307可以由可通過WAN301訪問以及到那些從任何其他描述的網絡訪問的人的服務所提供。在這個例子中,對橋307的訪問通過骨干310。因此,橋307具有網絡地址,并且對于那些使用電話撥入橋的,該網絡地址也可以與電話號碼相關聯。橋307適于使用軟交換方法提供多方會議會話,由此對于將使用橋參加會議的那些人,可得到最大數目的會議通道。
橋307可以由企業因為如上所述的通信服務提供。管理工作站(ADMIN)311被描述為連接到骨干310,并且可以假定為一個用于建立、管理、和或許主持針對橋307安排的或者由橋307所輔助的多方多媒體會議的管理站。站311可以假定為提供所有必要的工具和接口,用以實現用于以管理的方式和從維持的觀點來管理橋307所要求的任務。
在WAN301的域內描述了大容量數據庫309,并且該庫309具有到骨干310的連接,用以訪問。庫309適于容納多方會議檔案。這種檔案可以包括在橋307處所提供的會話的文本轉錄和/或會議的多媒體記錄,包括在會議期間呈現的音頻和任何相關聯的多媒體呈現、視頻或顯示。會議服務主機最小可以包括橋307、站311和庫309來實施本發明。但是本領域技術人員將意識到,其他的設備也可以存在于該系統體系結構中,而沒有偏離本發明的精神和范圍,例如數據服務器、自動語音服務員(硬件或者軟件)、網絡橋接設備等等。
在本發明的一個實施例中,主機通過橋307支持所述的多方會議,由此對于使用多種設備和端協議從任何描述的網絡301-304連接到橋的用戶可利用服務。例如,在網絡304內,支持網絡的便攜式計算機317和支持無線網絡的電話318被描述為用戶可以用來從網絡304內的接入點連接到會議橋307的設備。電話318可以是支持模擬和數字通信的蜂窩電話。在一些實施例中,電話318也可以是衛星電話,或者在其他實施例中,可以是第三代(3G)智能電話。例如,電話318可以以數字模式連接到WISP314,并且隨后使用因特網協議上語音(VoIP)通過網絡線315路由到橋307。類似地,在模擬模式下,電話318可以通過貝爾核心網關連接到橋307,該網關適于將模擬信號轉換成數據分組以及相反,用于無縫語音通信。
如果便攜式計算機317配置有IP電話應用,則它可以建立到橋307的語音連接。在一個實施例中,用戶可以采用電話318實現與橋307的語音通信,同時使用便攜式計算機317顯示是會議一部分的多媒體呈現。類似地,對于例如3G智能電話的同一設備,存在多種組合,其中所述設備適于支持通過該設備所支持的不同通道的同時語音和多媒體數據傳輸。
在PTSN303內的用戶被描述為用戶駐地設備(CPE)。在這個例子中,描述了CPE電話321和CPE電話322,并且它們表示標準的面向連接的交換電話(COST)或者普通老式電話服務(POTS)電話。電話321和322連接到LSW320,其使用例如貝爾核心信令的合適信號會話在線319上將它們的呼叫路由到橋307。從CPE321和CPE322看來,到橋307的連接至少從LSW320到相應電話是專用COST連接。在PSTN303的域中,也描述了桌面計算機CPE324和相關聯的電話323,作為能夠與在WAN301的域內的橋307形成通信連接的通信設備。電話323可以是COST電話或者IP電話。LSW320表示適于路由通信的本地交換機。CPE324和電話323可以通過LSW320、ISP306、網絡接入線313以及骨干310連接到WAN301,并且隨后連接到橋307。本領域技術人員應當理解,包括連接的數字和模擬部分的確切路徑可以包括其他路由器、交換機等,在此沒有描述。本發明人示出了連接網絡體系結構的簡單離子,僅用于說明目的,存在其他的可能。
基于WAN的計算機站311具有作為軟件應用提供的并且在其中可執行的“誰正在講”使用管理器(WIS U-MGR)333a。WIS U-MGR333a適于使管理員能夠建立會議會話,以及使得可以多種可變使用與會議會話期間誰正在講相關的信息。可以隨著會話進行實時地,和用于可以由第三方服務或者會議會話的管理主持人執行的后續會話任務目的,使用WIS U-MGR333a。
C-橋307具有在其內提供并且可執行的WIS軟件(SW)應用308a。在這個實施例中,WIS SW308a適于作為到WIS U-MGR333a的客戶端應用,并且在一個會議會話的運行時間期間或者在并行工作的多個會議會話期間,可以引起處理和傳播WIS信息的執行,或者引起與處理和傳播WIS信息相關的直接特定任務。SW應用333a和308a一起支持WIS信今的智能商業使用,其從活躍會議會話導出,通過算法數字信號處理,以及基于時間的識別信息與WIS信號的關聯。
版本WIS U-MGR333b被描述為安裝在LAN節點328上,并且可從LAN節點328執行。類似地,版本WIS SW308b被描述為安裝在IPR331上,并且可從IPR331執行。大容量庫330被描述為連接到LAN骨干327,用于數據存儲和訪問。U-MGR333b、WIS SW308b和庫330表示在WAN301的域內描述的元件333a、308a和309的副本或相同的實例。因此,在連接到IP WAN的LAN上可以實現本發明的方法,其中可以以與在會議橋307中相同的方式在IPR331中橋接會議參加者。在實際實踐中,在一個實施例中,IPR331可以適于作為路由器和會議橋。存在多種可能的實現方式。
還請注意,在一個實施例,版本WIS U-MGR333c和版本WIS SW308c可以提供在PSTN303的域內,例如WIS SW308c安裝在LSW320中,以及U-MGR333c安裝在CPE計算機324上。在這種情況下,LSW將是從企業CTI增強并且控制的。也可以增強例如專用交換分機(PBX)企業交換機來提供WIS數據。因此,本發明也可以在PSTN303的域內實施,其中由也適于作為會議橋的LSW320實現會議,或者由企業內包括的PBX實現會議。而且,在一個網絡中的WISU-MGR的實例可以與安裝在物理上位于其他網絡中的交換機、路由器或者其他會議設備中的WIS SW的實例交互。存在包括遠程管理情景的多種可能。
在優選實施例中,使用版本U-MGR333(a、b或c)的主機可以控制使用WIS信息用于運行時間應用和會話之后應用的各個方面。一個實施例包括在運行時間期間傳播WIS信息作為呈現信息(PI)輸出,呈現信息輸出可以與會議會話視頻和音頻輸出在時間上同步(時間加戳)。在這種情況下,在會議主機設備(橋、路由器或交換機)處預先確定和預先格式化呈現信息,并且使該呈現信息在CPE處自動與輸入會議流相結合。
術語“呈現信息(PI)”松散地與縮寫WIS相關聯,因為嵌入在或者與會議輸出流相關聯的實時提供的誰正在講指示指示了在任何給定時間講話者的呈現。WIS數據默認地可以僅僅包括講話者姓名、講話者的頭銜、以及講話者的組織,如果可利用的話。講話者的豐富誰正在講數據(RWIS)還可以包括例如電話號碼和分機和/或電子郵件地址的一個或者多個聯系參數。附加的信息還可以包括網站地址或者其他輔助或非直接聯系信息。
當然,在可以成功地利用WIS數據之前,必須在較強的通道信號(指示一個或者多個活躍講話者)和這些講話者的識別之間進行關聯。可以以若干方式實現講話者的識別。例如,可以向呼入(例如參加所安排的會議)的每個人自動分配可利用的會議通道或座位。可以通過使用自動號碼識別(ANI)來完成特定講話者與分配通道的關聯和識別,以便通過講話者正呼叫的發起號碼來識別講話者。在另一個例子中,將加入會議的唯一密碼或者訪問碼提供給邀請加入會話的每個參加者,并且可以將座位(通道)與每個訪問碼相關聯。在另一種情況中,可以使用目的地號碼識別服務(DNIS)的版本來將參加者與特定通道相關聯。在另一個實施例中,實況操作員或者交互語音響應(IVR)服務可以將通道或者座位分配給注冊所計劃的會議的每個參加者,并且在分配時,可以記錄參加者識別,并將其與分配的座位相關聯。
一旦為每個參加者設置了識別和通道或者座位的關聯,則由于在會議期間那些講話者識別的通道變得活躍,因此可以使用這些信號的時間簽名來關聯到說了什么或者會議內容。根據若干實施例,可以使用WIS U-管理器333(a-c)來將WIS數據傳播回所有會議參加者或者會議參加者的選擇部分。例如每當有講話者變化時,可以將實時即時消息(IM)或者短消息服務(SMS)消息發送給參加者列表。在一個實施例中,這種消息可以僅僅指示當前講話者,并且音頻提供內容,其中講話者變化指示與接收的講話音頻內容接近實時。在另一個例子中,CPE界面或接收的IM或SMS消息可以包括與誰正在講的指示一起的說了什么的轉錄。如果是音頻或視頻/音頻會話,該實施例要求會話的接近實時的轉錄。在另一個實施例中,與WIS指示一起的轉錄被格式化為由任何參加者訂閱的簡易信息聚合(RSS)饋送。在此請注意,可以稍微延遲或者接近實時地顯示與嵌入的“誰講了什么”指示一起的會話的轉錄音頻的接收。再現可以采用類似于文本聊天的運行轉錄的形式。
在一個實施例中,可以使用回放模塊和與會話回放同步播放的通道活躍信號的運行時間記錄,在運行時間之后進行轉錄及其WIS注釋。在這種情況下,WIS U-MGR333(a-c)可以包括WIS SW308(a-c)的版本,其可以在已經進行并且記錄會話之后在任何時間采用,以便轉錄會話,并且確定在會話期間誰正在講。可以獨立地存儲該數據,或者該數據可以結合為注釋的轉錄,或者它可以被嵌入到多媒體文件本身中,在這些文件的將來回放期間作為參考。
在一個實施例中,可以允許會議參加者設置對于以文本指示、音頻指示或者視覺指示接收WIS指示的偏愛。對于視覺指示,可以使得表示M個通道或者會議座位的圖標改變形狀、顏色、形式、或者從不活躍到活躍狀態的其他視覺指示,以指示誰正在講。當然,顯示的圖標可以以某種方式攜帶講話者的識別,如與圖標相關聯的姓名。只要第一個人講話,會話可以以僅僅一個顯示和識別的圖標開始。隨著更多的講話者發言,占據顯示器的圖標的數目可以增加,例如當兩個講話者正來回相互交談時,但僅僅由在任何給定時間當前講話者的圖標實施的圖標變體或視覺指示反映活躍的即時講話者。
在會議在例如LSW320的LSW中實現的實施例中,例如,從在企業內駐留的CTI-PBX到交換機可能要求合適的CTI網絡數據鏈路,以便到達使用支持網絡的設備或外設,以例如在面向COST的電話會議期間接收WIS指示的會議參加者。PBX也可能經由CTI鏈路或者經由可選的信今方法提供WIS信息。
大容量庫309和330適于會議檔案的存儲和訪問,會議檔案可以是上述的真實多媒體記錄或者轉錄的文本版本。可以記錄、轉錄和存儲會議,用于以后訪問。使用WIS指示和語音到文本呈現的接近運行時間轉錄,可以注釋會議會話的轉錄,以對于會話期間轉錄的每句話,或者更細的粒度,轉錄的每個單詞包括WIS指示。在優選實施例中,可以根據WIS或者“誰正在講”輸入以及包括內容、時間戳等等的其他參數,針對特定聲音比特或者文本部分在這種記錄中搜索。在此請注意,在會議檔案的搜索中,可以提交WIS數據,以返回包括特定講話者講了什么的所有或者一部分的結果。同樣,內容本身可以被用作輸入,以返回包括WIS數據的結果。而且,可以使用輸入的結合,來返回相關結果。
一旦預先配置了WIS SW實例308(a-c),則它們可以自動地在后臺中運行,以確定WIS數據,并且根據計劃將該數據傳播到參加者。在另一個實施例中,參加者可訪問豐富呈現信息,其中上述參加者被授權在會話期間接收WIS數據或者在發生會話之后發送給他們的會話后封裝中接收WIS數據。在這種情況下,WIS SW308(a-c)可以實現來監控會話WIS結果,以便計算特定統計量,所述特定統計量可以利用呈現信息來編譯,以為可能感興趣或者被授權接收信息的用戶提供豐富呈現信息。在此特別注意,可以使用WIS SW(308)實現與本發明系統相關的特定功能或者任務,或者使用WIS U-MGR(333)實現與本發明系統相關的特定功能或者任務,或者通過在應用之間策略性地共享這些任務或功能來實現與本發明系統相關的特定功能或者任務。在本說明書的后面提供了使用WIS數據的方法的更詳細說明。
圖4是描述根據本發明實施例的包括組件交互的WIS體系結構400的方框圖。體系結構400包括如上參考圖3所述的會議橋307、WIS SW308a、WIS U-MGR(333)和大容量庫309。在這個例子中,可以假設,通過向客戶端提供服務的主機企業來執行會議橋、WIS增強和會議歸檔。但是,這不應當被解釋為限制,本發明的系統可以在用于內部開會和會議的公司環境、包括教育的公共環境、或者ad hoc環境中實施,其中在ad hoc環境中,可以由這樣的用戶網絡使用本發明的系統,這些用戶不具體綁定到任何公司、組織等等,而是通過一些公共社會利益組織在一起。
在這個例子中,當每個參加者連接到會議橋307時,會議橋307接受來自每個參加者的會議輸入(C-輸入)和附加信息數據。在會議如所安排的那樣實際開始之前,每個參加者具有一些識別參數和通道分配。如果某人后來加入會議,則在該人在會議中變得活躍之前,記錄對于該人的識別和通道或座位分配。在一個實施例中,在會議安排來開始之前或者用戶加入運行的會議會話的任何時間,會議橋307中的WIS-SW308a適于單獨地在輸入側收集對于每個用戶的任何信息數據和通道或座位分配。在這個實施例中,WIS SW308a然后可以在數據鏈路408上發送該信息給通道講話者表(CST)406,其適于維持當前用戶/講話者/通道分配。CST數據406可以包括,但肯定不局限于姓、名和通道或座位分配。信息可以以成對元組存儲,用于以后訪問。該實施例假設注冊來加入的每個用戶應當在會話的持續期間維持他或她的通道分配。如果一個用戶提前離開,不應當重新分配他或她的通道或座位,特別是當后來在會話檔案上執行歷史數據搜索時。但是,如果WIS SW308a負責通道或座位分配,則它可以周期性地檢查來看一個人是否已經退出會話,并且然后可以通過刪除對于該用戶的以前成對元組來更新CTS數據406。然后當新的用戶加入時,可以重新分配通道或座位,而不影響將來的任務。在一個實施例中,CST表406也可以包含或者參考例如聯系信息的附加數據和可以與講話者關聯的其他數據。可以通過提供關于講話者的更多信息或者豐富誰正在講(RWIS)數據,使用該附加數據來增強簡易WIS數據。
在這個實施例中,將會議會話的實況輸出409饋送到WIS U-MGR(333)。該輸出沒有包含任何附加數據或者用戶識別。實況輸出包含哪個分配的通道當前是活躍的時間指示(該通道的被分配者當前正在講話的指示)。在這種情況下,WIS U-MGR(333)獲得活躍通道的信號,并且在CST數據406中查詢,并且獲得講話者通道識別以及根據該信號時間跨度對該信息進行時間加戳。也就是說,如果特定通道當前在輸出中是活躍的,則識別分配該通道的正確講話者,并且創建時間加戳的記錄,將講話者識別與該特定通道相關聯。當由另一個通道代替該通道時,對該通道再次執行查詢,等等。例如可以采樣輸出的頻率支持每100msec的查詢和記錄。于是可以利用對于任何會議情景足夠的粒度來表示WIS指示中的任何變化。WIS指示從一個講話者可以變化到另一個講話者的示例性頻率是每秒幾次到10次或者更多。
在講話者相關的語音識別的情況下,將講話者相關的訓練數據提供給系統,并且因此系統知道該數據,以及該數據可以用來幫助語音到文本的轉錄。在這種情況下,WIS U-MGR將利用時間相關的誰正在講信息來根據時間來合適地選擇講話者相關的訓練數據。
WIS U-MGR(333)可以向離散時間記錄添加所參考的講話者的RWIS信息或者利用該RWIS信息標記離散時間記錄,使得終端用戶可以通過與交互鏈路進行交互而來取回該數據。可以將來自WISU-MGR(333)的輸出分離為記錄到庫309中的輸出流412,和根據所計劃的傳遞格式通過網絡401傳遞到所有參加者或參加者的選擇部分的輸出流411,其中所述格式根據使用來接收輸出流的CPE設備而可以發生某些變化。
在確定“誰正在講”所要求的最小識別之上,術語誰正在講數據松散地與關于講話者的任何數據相關聯。在所安排的會議進行之前,系統可以已經知道一些RWIS數據。一些RWIS數據可以由WIS U-MGR(333)在會議會話的跨度上進行處理時導出。系統以前可以知道的RWIS數據可以包括講話者或者贊助講話者的組織可獲得的任何信息。除了姓和名之外,RWIS數據還包括講話者的頭銜、電子郵件地址、電話號碼和分機、IM處理器、萬維網地址、公司名稱、政治身份、專業聲明、參考列表、所著的出版物列表等等。可以作為元數據標簽或者作為交互超鏈接嵌入這種RWIS數據,使得通過鼠標在上越過或點擊,與講話者的視覺指示(作為對會話的文本記錄的注釋、或者作為嵌入的視覺圖形、或者作為圖標變化)交互的一個人可以在相同或者在一些其他界面或者應用載體中獲得附加信息。
為了進一步闡述,CPE-1(402)被描述為一個接收輸出流411的CPE設備。CPE-1(402)可以是桌面圖形用戶交互顯示(GUID),占據桌面計算機或者便攜式計算機的屏幕。在這個例子中,描述了會議顯示界面410,并且其包含圖標A到H,它們表示在會議會話期間分配給講話者的通道。當前圖標G被加粗,指示通道G是活躍的,并且講話者是史密斯先生,他是與會議主題相關聯的公司的IP律師。彈出消息416包含交互RWIS數據選項,例如發送文本消息、電子郵件、到萬維網站點的導航、以及史密斯先生是當前講話者。圖標D表示最后的活躍通道以及使用交互彈出消息415的講話者。最后講話者是瓊斯先生,他是公司RAD的CEO。參加者可以點擊來發送文本消息給瓊斯先生,或者發送電子郵件、或者也許導航到RAD網站。彈出消息415指示瓊斯先生是史密斯先生講話之前的最后一個講話者。
在另一個實施例中,描述了即時消息界面413,其運行在CPE-2設備(403)上。設備403可以是支持即時消息傳輸的任何類型的設備,包括PDA、蜂窩電話或者具有能夠顯示文本以及在一些情況下顯示圖形的任何支持網絡的計算實體。IM界面413描述了會議輸出的運行轉錄,包括注釋到轉錄內容的WIS指示。在這種情況下,史密斯先生被指示為最后講話者以及他講話的日期和時間,隨后是他說了什么的轉錄。瓊斯先生被識別為當前講話者,并具有可視的日期和時間,隨后是他正在講話內容的正在進行中的轉錄。IM界面413包括交互標記414、標記為取回RWIS數據或者用于取回RWIS數據的選項、或者關于史密斯先生和/或瓊斯先生的選項。通過將鼠標放在其上來選擇或者強調一個或者兩個講話者指示符,以及然后選擇標記414可以實現與該講話者相關聯的豐富信息的取回。在一個實施例中,選擇鏈接可以產生一個哪些RWIS數據可以獲得的列表。然后,通過選擇合適的提供,可以包括通信鏈接的RWIS可以被供應和格式化,用于設備403的能力和配置的服務。
在一個實施例中,CPE-3(404)被描述為具有到骨干401的接入,并且因此具有到會議檔案309的接入。CPE-3(404)具有提供給它的客戶端軟件應用405,該軟件應用405適于支持操作用戶從庫309的內容中搜索根據輸入WIS數據,除了,分開或者組合以下數據參數,例如日期、時間、會話ID、講話者ID和通道ID,可返回的任何數據和內容。實際的RWIS數據可以包括可能已經知道的關于主題講話者的數據,或者可能通過會議參加者或者來自第三方實體的請求而傳遞到系統的數據。使用圖4的例子,與作為IP律師的史密斯先生相關的RWIS數據可以包括教育背景或者其他簡歷信息。
對于史密斯先生的RWIS數據可以包括訴訟成功的記錄和客戶列表。在一個實施例中,可以使用本發明的系統提供優化的誰正在講(OWIS)數據。為了該說明書的目的,OWIS數據是在一個或者多個會議會話期間通過WIS處理導出的數據,其本質是統計的或者歷史的,并且與會議參加或者會議參加期間講話者的活動或者系統觀察有關,并且在會議之前不可獲得。例如瓊斯先生可以具有對于可能在一個或者多個會議會話期間所討論的特定政治或道德位置或者觀點的辯護的會議歷史。這種OWIS數據可以是會議檔案的檢索的主題。例如,辯護團可能想找到作為律師的動態講話者,他可獲得對實況事件的講話。通過輸入所討論的題目和參加者的頭銜以及支持或者反對的一些相關關鍵字,該團可以執行對檔案的搜索,其中所返回的結果包括作為律師的會議講話者,他說了支持或反對所討論的問題,史密斯先生是所返回的那些結果中的一個。存在許多商業過程,它們可受益于使用WIS信息、RWIS信息和OWIS信息作為搜索主題或者作為變量來從檔案中搜索相關信息的能力。
在另一個例子中,OWIS信息可以包括在會議期間講話者集體演講所識別的部分,該部分比同一講話者的其他部分或者其他講話者的演講部分更有激情。在這方面,信號的分貝監控可以指示這種激情或者感情,可以使用閾值表或者表達引擎來確定生氣、恐懼、歡呼或者僅僅激情的演講。不能對會議音頻進行訪問但具有運行文本界面的會議參加者可以被支持來通過將所有大寫字母形式的這些部分(OWIS)包括在出現在界面的特定文本上來確定來自講話者的感情。可以將通常使用在聊天界面中來表達參加者不同感情的感情圖標嵌入到會議轉錄(實時的或者記錄的)特定段或部分,以便識別在段、句子或者單個單詞中的感情。
在本發明的一個實施例中,WIS U-MGR(333)可以使用數據處理來增強信號處理,以實現與特定其他參加者相關的講話者輸出的修改、調節或者改變,以便防止在回放期間被傳播,或者使得它在實況會議期間對于所有會議參加者或者選擇的部分會議參加者部分地或者完全地不可識別。例如,使用WIS數據,調節器可以使得會議中史密斯先生和瓊斯先生之間的會談對于參加者A-C、E、F和H是難以理解或者沉默的。例如,會議可以是許可會議,包括對與R&D職務有關的瓊斯先生的實踐的盡職調查,以及史密斯先生可以是瓊斯先生的IP律師,選擇來在任何可能的協議中代表公司利益。
在上面的實施例中,說了什么和誰正在說與聽到了或者沒有聽到關于史密斯先生和瓊斯先生之間的會談同樣重要。為了支持調節器參考其他通道接近實時地改變瓊斯先生和史密斯先生之間的活動,所要求的所有是以下指示史密斯先生在會議期間的唯一角色是向瓊斯先生提供建議。因此,無論什么時候史密斯先生的通道變得活躍,在史密斯先生的通道活躍的時間段發送之前,除了瓊斯先生之外,到其他參加者的信號輸出立即失真。隨后,當在史密斯先生講話(指示對瓊斯先生的響應)之后的預定時問段內,瓊斯先生的通道變得活躍時,在發送該通道處于活躍狀態的持續時間到除史密斯先生之外的其他參加者之前,信號輸出失真。因此,在從橋到所有參加者的輸出期間,通常改變、失真或者干擾輸出信號,除了信號被路由返回到被授權收聽該內容的人。
在所描述的通道的輸出中可以有一些稍微的延遲,以確保安全措施。在一個實施例中,可以預編程該能力,以參考監控和實現自動運行,其通過WIS U-MGR(333)或者通過WIS SW(308)實現。另外,將編程實況會話期間試圖進行的任何轉錄,使得不發生在史密斯先生和瓊斯先生之間的來回會談。但是,其他會議參加者可以通過他們的界面視覺上意識到在會話期間總是正在發生私人交談,即使其不能在實況交互期間傳播這些會談的內容。上述實施例在以下情景中也是實用的,即兩個或者多個會議參加者是競爭的法官,并且參加者正相互競爭。可以期望的是,法官之間的交談僅僅被其他法官聽到,參加者不會聽到。存在許多可能和變型的應用。
在一個實施例中,增強信號處理可以包括用于將更清楚的輸出發送回會議參加者的質量控制措施。在會議期間,參考單個講話者或者選擇的講話者,可以控制增益、均衡和噪聲消隱。因為信號活動與分配給會議參加者或者與會議參加者相關聯的通道有關,所以沒有講話但是具有噪聲輸入信號的參加者可以自動地被從總的輸出中剔除。
關于會議后記錄或者音頻軌道,增強數字信號處理可以使用WIS數據來支持對記錄或者一批記錄中的段進行快速“清除”或者“音頻增強”。在一個例子中,目標可以是從記錄消除特定講話者的音頻輸出。使用能夠對WIS嵌入標簽或者參考進行索引的數字信號處理引擎,可以利用值系統。例如,根據WIS數據,對利用多個活躍的通道記錄的給定音頻文件或者軌道進行分段。在簡單例子中,考慮一個記錄具有四個不同的講話者(通道),開且記錄的可測量音頻段或部分可以被識別為表征這些講話者中的一個。假設目標是四個講話者中的第二講話者需要從整個記錄中移走。
可以預編程DSP引擎,以在識別為第二講話者輸出的記錄的任何段或者音頻部分中,將名義上為“1”的音量設置到值“0”。對于專用于第二講話者的部分,所完成的記錄對于第三方是聽不到的。類似地,對于特定講話者,可以提高或者降低音量水平。例如,將普通值“1”乘2將會使講話者的音量加倍,并且減半值“1”可以減半音量水平。由于能夠參考WIS標簽,DSP引擎可以快速地運行記錄,并且對演播室操作者關心的部分進行一系列預編程的改變。改變可以包括但不局限于執行噪聲減少、音頻失真、以及控制低音水平、高音水平、增益、回音和其他音頻屬性。也可以使用其他方案,而沒有偏離本發明的精神和范圍。
圖5是描述根據本發明實施例的由WIS U管理器(333)實現的信息搜索體系結構500的方框圖。在本實施例中,通常通過會議橋508、第三方服務或者主機節點507、和CPE用戶501來支持體系結構500。在這個例子中,CPE 501是能夠接入流行網絡的桌面計算機。CPE 501具有在計算機圖形監控器上顯示的搜索引擎界面502。CPE501可以通過正常環境在線連接到可以是服務器的第三方節點507。在這個例子中,節點507適于在多數情況下與發送到會議參加者輸出同時地來處理和記錄來自會議橋的會議輸出。
節點507接收會議信號,通過時間與信號共同相關聯的WIS數據和RWIS數據(每個識別的講話者的),如果可獲得的話。WISU-MGR(333)利用統計處理器/服務器511,針對可以導出的任何OWIS數據處理輸入信號和數據。處理的一部分包括注釋記錄以反映嵌入到記錄的檔案中或者與記錄的檔案相結合的WIS數據。該信息可以保存在庫509中。另外,CST可以存儲在庫510中用于參考。與任何活躍的講話者相關的任何OWIS數據可以存儲在庫506中用于參考,庫506適于存儲與識別的會議講話者共同相關的RWIS和OWIS檔案。OWIS數據可以包括描述例如各個所識別的講話者的參加輸入相對于特定會議或者一系列存檔的會議期間活躍的所有其他識別的講話者的比率的數據。百分率可以分解給每個會議,并且也可以對于這些講話者在多個會議(如果存在表征這些講話者的歸檔的幾個或者多于一個會議的話)上進行平均。
存在不同的可以歸檔記錄和注釋的會議信息用于搜索的方法。例如,音頻會議的完全會議轉錄可以與識別所包括的文本的作者(講話者)的注釋和包括在這些注釋中用于鏈接到講話者的標簽一起存儲。這種注釋可以包括講話者的姓名、頭銜、會議日期、以及在會議日期講話者說出注釋文本的時間(持續時間)。該WIS信息可由所有、一個或者其部分的結合來搜索。這樣,輸入會議日期和特定時間范圍,在該日期的該特定時間范圍內講話的講話者可識別,這樣,講了什么的轉錄可識別,并且另外可以用于返回表示搜索的轉錄的多媒體段。輔助呈現(例如Power PointsTM或者其他呈現)也可以通過時間與會議的記錄共同相關,使得與講話者的轉錄相關的呈現部分可以成為返回的搜索結果的一部分。
可以由節點507向CPE 501服務的界面具有一個或者多個檢索詞數據輸入字段。在這種情況中,具有兩個輸入字段,一個字段503用于輸入RPI類型標準,以及字段504用于輸入描述性關鍵詞和短語。可以提供用于限制和改進檔案搜索的附加字段,而沒有脫離本發明的精神和范圍。例如,用戶操作界面502可以通過輸入會議識別號、會議召開的日期和時間,或者簡單地會議名稱來將搜索限制到特定會議檔案。通過列出會議名稱或者識別號,或者通過指定日期和時間范圍以包括落入指定的范圍內的所有會議檔案,可以在單個搜索中包括多個會議檔案。用戶可以搜索所有會議檔案。
使用WIS標準和關鍵詞的例子,用戶可以在輸入字段504中輸入“講話者”以及在字段503中輸入“高于50%活躍”以在所有會議檔案中搜索講話者姓名。返回結果列表505,包括到在所有會議檔案上平均的參加高于50%閾值的所有講話者的鏈接。對于講話者的結果還可以包括聯系信息、所參加的會議列表、到由該講話者為每個會議所作的轉錄文本的鏈接、以及到表征該講話者的會議檔案的音頻和/或視頻剪輯。
在另一個實施例中,使用演播應用以可在安裝在CPE501上的多媒體軟件播放器上看到的方式來準備實際會議多媒體呈現所要求的剪輯。在優選實施例中,通過短語和關鍵詞可搜索來自會議的實際文本,其中WIS信息(講話者識別)也可用作搜索標準。例如投資適應審計師可以搜索會議檔案或檔案系列來確定特定交易人是否推銷特定的股票或者簡單提及特定股票的可獲得性。例如,可以使用關鍵詞或者股票名稱“國家的”和交易人的姓名來返回包括詞“國家的”所有文本,其中WIS注釋識別特定交易人作為文本結果的作者。沒有返回包括名稱“國家的”但不與識別該交易人作為作者的WIS數據相關聯的轉錄文本。
在一個實施例中,WIS U-MGR(333)就輸入標準搜索轉錄的會議數據,并且訪問注釋到文本選擇的通道信號信息,以確定哪個會議通道負責對于考慮的每個結果所找到的文本。然后,作為結果的優化,軟件參考CST510,以確定在搜索標準中參考的講話者的通道講話者關聯,以及消除沒有與合適通道指示相關聯的所有那些結果,并且僅僅返回指示所參考的講話者的通道的結果。在另一個實施例中,所有的信息被包括為附著到由注釋所記錄的每個可識別轉錄的元數據,并且作為注釋的轉錄存儲。關于所參考的講話者可獲得PI也可以在結果以及到實際多媒體段的鏈接中可獲得,用于檢索和回放。存在許多可能。
圖6是描述根據本發明實施例的由圖3的WIS使用管理器實現的語音到文本轉錄系統600的方框圖。系統600可以是可在合適的計算硬件上執行的WIS U-MGR(333)的一部分,所述計算硬件接入到會議輸出,并且接入到例如大容量庫的存儲介質,所述存儲介質適于存儲注釋的會議輸出轉錄。系統600具有輸入/輸出(I/O)數據端口601,適于實現會議多媒體記錄的訪問和取回。軟件回放模塊602被提供作為系統600的一部分,并且適于播放用于會議后轉錄的下載的會議文件。
在這個實施例中,將WIS信號和會議音頻/視頻轉移到提供在系統600內的時間同步模塊604。時間同步模塊604記錄通道或者座位指示中的每個變化的時間偏移,并且創建可以同步到會議音頻/視頻回放的記錄。將音頻/視頻發送到在系統600內提供的語音到文本轉錄模塊603,并且該模塊603利用語音識別技術(VRT)和合適的語義數據庫(沒有示出)增強。同步模塊604提供對于通道活躍性中的每個變化的時間偏移數據。時間偏移數據參考記錄會議的開始(會議開始時間)來指示活躍通道的識別。通道A可以在時間(t)0處活躍,通道B可以在時間點60秒處接管,通道A可以在t90秒處再次接管,等等。在此特別強調,當講話者重疊或者多個講話者在同一時間講話時,多個通道可以同時活躍。在這種情況下,在t為2:30秒時通道AB可以同時活躍,其中變化可能意味著兩個通道中的一個退出,而另一個保留。因此,在t為3:00,通道A可能消失,指示與基于時間的轉錄對應的時間變化。在此請注意,多個講話者實際上可以同時談話,因此轉錄通過基于時間的指示反映重疊的語音。
系統600包括通道到講話者關聯模塊605。模塊605適于將講話者指示與在WIS信號中指示的每個通道或者座位參考相關聯,完成用于提交給文本注釋引擎608的WIS數據部分。轉錄模塊603輸出轉錄的文件,包括作為文本文件607的時間偏移數據。文件607臨時存在適于此目的的存儲器(MEM)中。時間偏移數據可以提供作為嵌入的標記符或者占位符,或者作為參考用于插入注釋的合適插入點的文件索引的部分。文本注釋引擎608依序地訪問轉錄的文本,并且在每個文件的合適的點處用合適的講話者(WIS)指示注釋這些文件。然后卸載注釋的文件,以存儲為會議記錄的完整的和可搜索的文本轉錄。除了利用WIS信息注釋轉錄的文件之外,注釋引擎608還可以將元數據或者鏈接附著到關于每個講話者所知道的RWIS數據上,以及可以返回該數據,以及返回簡單WIS指示,在對文件執行搜索操作期間。OWIS數據也包括在附著的元數據中。
在一個實施例中,可以預編程系統600,以在“運行時間”模式下在實況會議會話期間操作。在這個實施例中,由于輸入流是會議橋的實況輸出信號,因此不要求回放軟件62。同樣在該實施例中,可以將注釋的文本文件轉發給所有會議參加者或者會議參加者的選擇部分,其中相對于橋音頻/視頻輸出具有一些傳輸延遲。如果一個或者多個參加者聽不到,或者操作更適合接收文本文件的設備時,則這是特別有用的。在一個實施例中,當在線時,通過在插入的注釋上點擊或者滑過鼠標,以要求與講話者有關的額外RPI數據或者以與講話者聯系和通信,可以交互接收的文本文件。在本實施例的一些變化中,與注釋相關的一些或者所有數據可以嵌入到文檔中但是看不到,直到用戶與注釋進行交互,這可以使得相關聯的數據作為彈出消息在用戶顯示屏幕上彈出,或者在一些其他的視覺屏幕、數據框或者文檔空間,例如工具條上彈出。存在許多可以實現的可能性,而沒有偏移本發明的精神和范圍。
對于本領域技術人員顯而易見的是,本發明的系統可以提供為駐留在單個節點上的軟件實現,或者提供為多個軟件的協同部分,每個部分駐留在同一節點或者分布到獨立但連接的節點,而沒有偏移本發明的精神和范圍。某些組件(例如MEM 606、端口601和609)對于駐留軟件的節點是通用的,軟件在執行各種任務的過程中使用這些組件。
圖7是描述根據本發明一方面的用于注釋會議多媒體材料或者轉錄的步驟的處理流程圖700。類似于圖6的系統600,該注釋系統訪問會議記錄。在一個實施例中,該系統可以引入實況會議流。在另一個實施例中,該系統和軟件或者其功能部分可以駐留在會議橋中,會議橋可以被修改來實施本發明。只要可以訪問會議輸出,無論實況或者記錄,可以執行內容的轉錄和注釋。
在步驟703,訪問通道或者“WIS”信號,優選地與內容信號同步。WIS信號可以只包含活躍通道的指示,或者如果例如與講話者相關的算法用來識別講話者以及這些講話者已經預先提交了可以識別他們的語音采樣,則它可以包括WIS數據。在這種情況下,通道或者座位預分配可能對于導出WIS數據是不必要的。這個例子假設會議參加者被預先分配有座位或者通道,座位或通道可識別為混合信號中的信號。
在步驟702,系統開始轉錄會議多媒體音頻內容。在步驟704,使用WIS通道信號指示,系統根據離散時間信令,將可識別的活躍通道與轉錄的文本的內容相關聯。例如,以t5分鐘到音頻內容,轉錄為文本的口頭單詞將對應于在那時發現活躍的至少一個通道,指示哪個座位或者通道創造轉錄的內容。系統記錄該活動中的時間變化,指示何時一個講話者停止并且另一個開始。通過標記方法或者插入注釋字段或者占位符來完成關聯,這將在后來在注釋期間封裝。關聯可以是實際的或者虛擬的,而沒有偏離本發明的精神和范圍。
在步驟704,轉錄內容并準備注釋。在該步驟中,注釋引擎,或者在一個實施例中,實況注釋操作員使用數據表執行一系列數據查找,其中該數據表類似于參考圖4描述的CST406,以便將合適的講話者與注釋字段或者占位符指示的通道信號識別相關聯。在優選實施例中,該處理可以完全自動完成。在一個實施例中,注釋字段僅包含與確定由講話者所作的轉錄文本相關聯的講話者識別。這足以完成注釋處理,由此提供WIS信息是與口頭的并且在這種情況下轉錄的內容相關聯。
可選擇地,在步驟706,注釋引擎可以進一步提供呈現信息元數據,其鏈接到多于簡單識別的關于所識別的講話者的信息。該元數據可以占據與合適的講話者識別數據相同的注釋字段或者占位符。按照這種方式,在字段上移動鼠標可以使得例如聯系信息、公司信息等等的附加信息(RWIS數據)以一些可視的形式出現給利用轉錄文檔進行工作的用戶。步驟705和706可以是預注釋步驟,針對文檔或者文檔系列中的每個獨立的注釋字段而執行。
在步驟707,注釋引擎注釋或者插入合適的講話者信息并且可選地元數據到在轉錄文本中找到的每個找到的字段或者占位符。在一個實施例中,結合步驟707來實施另一個注釋步驟708,由此標記呈現信息的每個元數據組,或者將呈現信息的每個元數據組鏈接到附加信息(OWIS數據),其可以與文本轉錄分別存儲,但是通過與各個注釋交互來訪問。OWIS可以包括例如由系統所收集的在包括單個會議的持續時間的時間上或系列會議上(其中識別了講話者)的會議講話者的會議參加統計。OWIS數據的一個例子可以是對于如其他會議參加者所判斷的講話者的貢獻內容問題的同意或者確認,特定講話者享有90%的平均同意率。另一個統計可以是在一個會議期間或者在若干會議時間段上,特定講話者在其講話時間的60%上是與其他會議參加者對抗。存在許多可能。訪問OWIS數據,例如在一個實施例中可以使用的、對于在會議中作了內容的任何講話者所描述的那些OWIS數據,以幫助訓練講話者,用于將來的交互。而且,OWIS數據可以包括如在會議會話期間可能已經觀察和記錄的行為。使用這種語音變化分析、音量監控等等,可以實時地察覺特定感情,例如生氣、恐懼、歡呼等等。然后可以在轉錄記錄中呈現所編譯的數據作為視覺指示符,例如用于由生氣咆哮所覆蓋的文本部分的所有大寫字母。也可以使感情圖標用于在特定段中嵌入WIS數據,其中在這些段中隱含或者檢測到感情。將任何講話者的感情狀態并入記錄的一個好處是可以在會議檔案的搜索期間很快分離承載感情的段。
例如在之后分析以從記錄的音頻或者轉錄的文本文件中分離會議中所發生的最有爭議的交流中,上述能力可能是有用的,其中最有爭議的交流可能等于提案或者提議的解決方案組,或者可能已經是會議主題的政策改變中最有爭議的方面。類似地,對于沒有實時訪問會議的音頻部分的那些人,該能力可能是有用的。按照這種方式,他們仍然可以通過他們的文本界面體驗到感情方面。
在步驟709,為此,所完成和注釋的記錄可以存儲在庫中,該庫適于該目的,并且可以為其他方所訪問來對于商業使用,例如通過增強搜索方法快速地確定誰講了什么以及在什么時間,說了多少實例等等。
對于本領域技術人員顯而易見的,根據注釋處理的預先編程或指令準備期間選擇什么選項以及可能期望什么最終結果,這個例子中的步驟的確切順序和內容可以略作變化而沒有偏離本發明的精神和范圍。基本上,基本的要求是系統確定誰講了多媒體會議信號(記錄或實況)的音頻部分的總的轉錄內容的哪部分,并且插入或者關聯其指示到轉錄文本中的那些確切部分。
在另一個實施例中,處理700可以包括用于改變、變異或者簡單地如果安全、隱私,或者其他指示應當從記錄除去該部分,或者雖然記錄但被提供為在轉錄中不可辨認的考慮的原因,不呈現音頻內容的特定部分的轉錄的一個或多個步驟。類似地,或者通過傳輸中的服務質量操縱或者通過信號改變,在轉錄之前,在記錄處理中或在實況流上執行該處理。
圖8是描述根據本發明實施例的用于對于WIS相關信息準備和提交會議檔案信息搜索的步驟的處理流程圖800。在步驟801,用戶調用搜索引擎界面,其適于使用關鍵詞、短語、時間數據、WIS數據和呈現信息的任何一個或者結合來搜索會議檔案。該界面可以是由第三方服務提供的界面,該第三方服務也提供會議服務。用戶可以導航到例如萬維網站點以便訪問界面。
在步驟802,用戶可以輸入識別搜索哪個會議檔案的輸入,或者簡單地從公開的會議檔案列表中進行選擇以將它們包括在信息搜索中。在該步驟中,會議檔案意味著表示一個庫或者其一部分或者分區,其中存儲一個或者多個會議記錄。術語檔案表示多于一個的保持會議記錄的數據庫分區、部分或者庫。例如可以在一個扇區中存儲研究和開發會議,而在另一個扇區中存儲銷售和客戶服務會議。而且,實際的多媒體記錄可以與同一內容的文本注釋分開存儲并且鏈接到所述文本注釋。
在步驟803,用戶可以指定會議事件參數,例如會議名稱、會議日期、以及時間窗口。例如,用戶可以搜索可能多次存在于會議記錄的信息,或者其中信息的實例跨越多個會議。這樣,通過選擇檔案并且然后指定日期,可將在該檔案中存儲的該日期的所有會議記錄都包括在搜索中。在一個實施例中,可以使用一個搜索操作在可獲得的所有會議記錄中搜索信息。
在步驟805,在已經定義了搜索區域之后,用戶可以輸入短語或者一個或者多個關鍵詞,以啟動定義區域內的搜索。在一個實施例中,用戶可以通過將范圍限定到特定講話者所作的內容來進一步細化搜索區域。在步驟806,用戶可以命令返回參數,例如“以可由AdobeTM排版軟件接受的形式返回”。在另一個實施例中,用戶可以提交一個命令,以按需播放音頻剪輯,剪輯通過鏈接關聯到轉錄文本部分。在步驟807,用戶可以將查詢提交給實現搜索的第三方節點。根據信息搜索的目標,返回的結果可以變化。信息搜索目標可以是多方面的。例如,結果可以指示誰和講話者在一個或者多個會議記錄中說了多少個“全國出售”的實例。另一個搜索結果可以指示在特定短語中說“命令和系統”的講話者,該特定短語可以包含在特定研究和開發會議記錄中。通過指定講話者作為輸入,搜索操作可以返回在定義為搜索的區域內講話者所說的所有內容。
信息搜索技術領域人員將意識到,存在多種方法來組合查詢輸入,以便具有特定的信息作為結果數據返回。本領域技術人員也將意識到,根據特定輸入,結果可以是寬的范圍或者變窄。在一個實施例中,返回用戶的結果包括到與該返回結果相關聯地存儲的其他信息的鏈接。例如,如果由多個講話者在若干會議記錄上說出例如“我推薦α股票”的特定短語,則使用該短語作為輸入用來搜索將返回使用該短語或者其變型的所有講話者,并且每個結果可以提供關于所識別的講話者的進一步信息,例如聯系信息、簡歷數據、從業時間、或者任何其他預先關聯的信息。而且,可以對每個會議講話者編譯統計數據,并且將其附加到WIS數據,使得進一步信息包括統計數據或者至少一個導航鏈接或者標簽以實現對它的即時訪問。
本領域技術人員將意識到,除了增強的信息搜索能力和語音到文本轉錄能力之外,存在可以從本發明的實施中實現的其他增強和服務。例如,當講話者不是都講同一種語言時,可以增強語音到文本轉錄,以包括與語言相關的翻譯,來實現多方會議輸出識別。在該實施例中,M個講話者的會議輸入可以是這些講話者的本國語言。除了CST(例如上述CST406)之外,或者與CST相集成,可以提供講話者-語言(STL)表,以不僅識別誰正在講話,而且識別那些講話者的本國語言,使得可以實時地或者在轉錄中翻譯會議輸出,以便從接收者的觀點,所有其他講話者看起來都在講他或者她的語言,無論接收的會議輸出是翻譯的合成語音、或在即時消息界面接收的翻譯文本、或者經由RSS饋送等等。
數據存儲領域人員將意識到,存在多種方法,其可以被開發或者支持存儲WIS數據,隨后檢索數據以及利用音頻/視頻或者轉錄的會議內容有效地參考它。在一個這種應用中,WIS信號與會議記錄的音頻視頻信號分別存儲作為離散的時間信號,兩個同步關聯的獨立文件。
在另一個實施例中,WIS數據可以嵌入在會議音頻/視頻文件中作為一系列塊(chunk)標簽值。可以以對于每個講話者變化的可變長度來表示塊。每個塊利用合適的WIS數據來標記。在另一個實施例中,可以在音頻波形中使用強取比特信令來包括WIS數據。在這種情況下,文件的數據部分的最低位很少反映合適的WIS數據,因為WIS數據的變化速率比音頻信號慢的多。
考慮24比特WIS信號和使用以8KHz速率采樣的8比特字保存音頻部分,則例如,每隔32幀一次的音頻信號實際修改將合適地表示整個WIS信號,并且不會在音頻上影響回放質量。而且,用于播放音頻的回放軟件不需要修改。可以提供獨立的解碼器來從嵌入音頻中提取WIS信號。在這種方法中也可以這樣處理視頻,使得通過操作以出現在例如多個視覺軟件窗口的幀,可以聽到音頻,可以在一個窗口顯示當前講話者的圖片,以及任何圖形呈現的視覺部分可以顯示在回放軟件的其他窗口。
可以在使用多個并且不同的設備的多個不同通信體系結構中來實施本發明的方法、系統和設備,而沒有偏離本發明的精神和范圍。類似地,可以使用上述組件的一些、上述組件的組合或者所有上述組件來提供本發明,而沒有偏離本發明的精神和范圍。可以想到對于WIS確定和應用的很多商業使用,在此已經描述了它們中的許多,從單個控制點實現所選擇部分或者其全部。根據上述許多實際的并且描述的實施例,在審查時,應當提供給本發明最寬的范圍。本發明在范圍上應當僅僅由所附權利要求來限定。
權利要求
1.一種用于實現將與參加者的活動有關的導出的誰正在講指示可控制地應用到實況多方通信會議或者其記錄輸出的系統,包括第一節點,駐留有一個會議橋接交換機、軟件或者其結合,其具有多個會議輸入通道;第二節點,具有對所述會議橋接交換機、軟件或者其結合的至少一個輸出信號端口的數據訪問;以及整體上分布到所述第一或者第二節點或者部分地分布到所述第一和第二節點的軟件應用,該應用用來將誰正在講指示應用到輸出通信、數據文件或者數據流,所述輸出通信、數據文件或者數據流轉發到所述會議參加者、非參加者的第三方、以及一個或者多個存儲設備中的一個、選擇的部分、或者結合。
2.根據權利要求1的系統,其中所述誰正在講指示包括,除了識別信息之外,呈現信息或者其定位符,所述呈現信息與所述識別信息相關。
3.一種音頻內容轉錄和注釋系統,用于呈現來自多方會議會話的實況或者記錄語音的注釋文本轉錄,以及用于利用誰正在講數據注釋轉錄的文本文件,其中通過具有多個會議輸入通道的會議橋接交換機、軟件或者其結合來實現所述多方會議會話,包括輸入端口,用于接收所述音頻內容;時間同步模塊,用于記錄與會議會話運行時間相關的通道活動信號的變化的時間偏移;通道到講話者關聯模塊;以及文本注釋引擎;其特征在于,與在信號變化之間存在的時間周期范圍內找到的內容的音頻單詞、短語或者段相關,根據隨著時間的信號變化指示來注釋所述轉錄的文本文件。
4.根據權利要求3的系統,其中所述誰正在講指示包括,除了識別信息之外,呈現信息或者其定位符,所述呈現信息與所述識別信息相關。
5.根據權利要求4的系統,還包括豐富呈現信息或者其定位符,所述豐富呈現信息整體上或者部分地在一個或者多個會議會話持續時間上從識別的參加者的記錄活動中導出。
6.一種用于轉錄和注釋來自多方會議會話的實況或者記錄語音的方法,通過具有多個會議輸入通道的會議橋接交換機、軟件或者其結合來實現所述多方會議會話,注釋指示誰正在講,包括步驟(a)接收用于文本轉錄的語音文件;(b)訪問時間上與所述語音文件相關聯的通道活動信號;(c)在文本轉錄期間將字段或者占位符插入到文檔中,根據在文檔中的發生時間來插入字段或者占位符;(d)對于每個字段或者占位符檢索通道到講話者關聯數據,以及(e)將注釋插入到合適的字段。
7.根據權利要求6的方法,其中在步驟(e),注釋還包括關于講話者的呈現信息,或者其定位符,所述呈現信息包括但不局限于聯系信息。
8.根據權利要求7的方法,其中在步驟(e),注釋還包括關于講話者的豐富呈現信息,或者其定位符,所述豐富呈現信息包括但不局限于與在一個或者多個會議持續時間上的講話者活動相關的統計量。
9.一種用于在會議檔案中檢索與多方會議的記錄內容有關的信息的系統,利用講話者識別和其他信息或者其定位符來時間上注釋記錄,包括第一節點,駐留有一個搜索引擎和界面;第二節點,能夠通過網絡訪問所述第一節點;以及至少一個存儲庫,包含鏈接或者沒有鏈接到合適多媒體音頻文件或音頻/視頻文件的轉錄文本文件形式的會議記錄;其特征在于,所搜索的信息可以包括使用內容關鍵詞或者短語作為輸入的講話者識別、使用講話者識別參數和內容關鍵詞或者短語的結合作為輸入的講話者所講的重復內容的實例、以及包括使用講話者識別作為輸入的統計量的豐富呈現信息。
10.根據權利要求9的系統,其中,作為通過到與一個或者多個交互結果相關的附加信息的附加交互鏈接進一步優化的所述結果的列表,返回搜索的信息。
全文摘要
公開了一種用于實現將與參加者的活動有關的導出的誰正在講指示可控制地應用到實況多方通信會議或者記錄輸出的系統。該系統包括第一節點,駐留有一個會議橋接交換機、軟件或者其結合,其具有多個會議輸入通道;第二節點,具有對所述會議橋接交換機、軟件或者其結合的至少一個輸出信號端口的數據訪問;以及整體上分布到所述第一或者第二節點或者部分地分布到所述第一和第二節點的軟件應用。該應用用來將誰正在講指示應用到輸出通信、數據文件或者數據流,所述輸出通信、數據文件或者數據流轉發到所述會議參加者、非參加者的第三方、以及一個或者多個存儲設備中的一個、選擇的部分、或者結合。
文檔編號H04M3/42GK1983949SQ20061016701
公開日2007年6月20日 申請日期2006年12月12日 優先權日2005年12月13日
發明者邁克爾·S·溫格羅維茲, 西德哈撒·格普塔 申請人:阿爾卡特公司