專利名稱:用于語音應用分布式系統中提高語音識別性能的方法和裝置的制作方法
技術領域:
本發明屬于軟件應用開發領域,尤其適用于語音應用分布式系統中提高語音識別性能的方法和裝置。
相關文獻的交叉引用本發明是美國專利申請的部分的續篇,代理卷號為No.P8100,題為“Method and Apparatus for Development and Deployment of aVoice Software Application for Distribution to one or moreApplication Consumers”,于2002年6月14日提出申請,其中包括的全部內容在此公開作為參考。2002年6月14日提出申請的母案(parent case)以2001年7月3日提出申請的序列號為60/302,736的臨時申請為優先權,并收入該臨時申請的所有公開內容。因此本發明以本段中上述兩個申請為優先權。
背景技術:
語音應用是在通信(一般為電話)環境中進行開發、配置和維護的最具有挑戰性的應用。開發和配置一個可實施的應用所需的專門技術包括計算機電話合成(CTI)硬件和軟件、語音識別軟件、文本語音轉換軟件以及語音應用邏輯。
由于近來語音擴展標記語言(VHML)的出現,開發語音方案所需的專門技術在一定程度上得到了簡化。VXML這種語言使得軟件開發人員可以只將注意力集中在語音應用的應用邏輯上,而不需在電話器件下進行配置。一般來說,開發出的語音應用在VXML解釋器上運行,該解釋器置于相關的傳送語音方案的電話系統中并在其上執行。
如圖1A所示(現有技術),適用VXML電話系統的典型結構包含了一個語音應用服務器(110)和適用VXML電話服務器(130)。對VXML可行IVR方案進行開發和配置的典型步驟在下面使用圖1A中的單元進行簡單描述。
首先,創建一個新的應用數據庫(113)或對現有的數據庫進行修改以能夠支持VXML環境。程序邏輯112設計成工作流程格式,適用于處理IVR系統中的路由操作。執行應用邏輯所產生的VXML頁面由一個基于特定的發生序列的VXML提交引擎(renderingengine)(111)進行提交。
第二步,創建一個面向服務器130的對象,它包含相應的VXML頁面,通過網絡(120)送往服務器130,該網絡可以是Internet、企業內部網或以太網。VXML頁面集成到提交引擎111中,可以依照服務器110中設置的工作流程進行顯示。
第三步,設置VXML電話服務器130,使其能夠從服務器110中的提交引擎111中正確接收特定的VXML頁面。服務器110還提供了一個觸發機制,這樣每出現一個觸發事件,服務器110就產生一個合適的外部調用。
服務器130內設置有VXML解釋器(131),語音識別文本語音轉換引擎(132),以及電話硬件/軟件設備(133),并都包含服務器功能。現有技術中,VXML解釋器131和電話硬件/軟件設備130一起封裝成現有的IVR可行技術。然而可論證的是整個系統的最重要的部分是應用服務器110。應用邏輯(112)一般用編程語言如Java編寫,封裝成一種Java Bean的企業文檔。所需的顯示邏輯由提交引擎111處理,并使用JSP或PERL編寫。
增強的語音應用系統對發明人是已知的,以題為“Method andApparatus for Development and Deployment of a Voice SoftwareApplication for Distribution to one or more Application Consumers”的美國專利申請的公開內容為優先權。該系統使用一個語音應用服務器,它與一個數據網絡相連接,用于存儲并服務于該語音應用。語音應用服務器具有一個和網絡通信服務器相連的數據接口,而網絡通信服務器連接到通信網絡上,如眾所周知的PSTN網。通信服務器將創建的語音應用路由至各自預定的接收器。
計算機工作站是系統的一部分,與數據網絡相連并且可訪問語音應用服務器。客戶軟件安裝在計算機工作站上,目的是讓用戶能夠創建應用程序并管理程序狀態。該系統中,用戶使用安裝在計算機工作站上的客戶軟件,以通過目標建模和鏈接來創建語音應用程序。一旦生成語音應用,就存儲在應用服務器中進行配置。用戶可以控制并處理配置過程和配置應用程序的狀態,包括按照預定的接收器進行預定配置和重復配置的狀態。
一個實施例中的系統使用具有一個或多個接收端的通信網絡中基于Web的數據作為源數據,進行語音應用的開發和配置。增強型系統含有一個語音應用服務器,能夠通過軟件和網絡連接訪問該處的網絡服務器和Web站點,并從站點中獲取數據。運行語音應用軟件的計算機工作站至少能夠控制對語音應用服務器的訪問,同樣也能控制對網絡服務器和Web站點的訪問。計算機工作站的操作者創建并提供了模板,用于語音應用服務器使用數據語音轉換的提交過程中。從這方面看,從基于Web的數據源中可以獲得大量的Web數據并轉換成語音,作為語音應用中的會話進行傳送。
另一個實施例中,上述系統中的方法能夠在執行會話創建之前對基于Web的數據進行組織、編輯以及區分優先級。該方法包括按照數據原有結構從基于Web的數據源中收集數據;生成一個表示了邏輯結構和從基于Web數據源收集到的數據類型的對象樹;對生成的對象樹進行處理,得到一個期望的層次結構和內容;用VXML語言生成語音應用模板,并根據處理后的對象樹對模板添加內容;生成一個能夠根據模板限定對基于Web的數據源進行訪問的語音應用。該方法使語音應用的配置和執行狀態更有效率,同時簡化了語音應用的開發過程。
上述系統中還提供了安全控制。該協議保證了網絡服務器、數據、通過用戶端的電話網絡以及通過數據源末端的XML網關可訪問的語音入口系統之間的事務安全。安全控制包括在網絡服務器和語音入口系統之間通過XML網關建立的私人連接、虛擬私用網絡、或安全套接字(socket)層其中的一種。在入口和服務器或多個服務器之間執行的事務可以享受與數據網絡的安全節點之間相同的安全度。一個實施例中,安全控制還進一步包括了在語音入口的輸出端和終端用戶的電話處分配的一個語音翻譯系統,其中語音會話被翻譯成一種非用戶語言的模糊語音,然后在用戶的電話端再反譯為用戶的語言。
在這種使用模板進行語音應用會話事務的系統中,語音應用規則和語音識別數據被作為適當的內容判讀和響應協議的參考,這樣作為響應會話通過語音入口提供給用戶端的合成語音不僅內容正確,而且表現形式也有希望達到無誤碼。因此數據庫可用詞匯表的單詞進行優化,使得語音的范圍很廣,包含了與許多不同商業情景相應的許多不同的詞匯表。
發明人對于不同用途的實施例提供了不同的詞匯表管理格式,系統的語音識別和語音提交功能都可在執行速度以及準確合成會話方面進一步得到優化。
目前明確需要的是一種增強型的語音管理系統和方法,能夠把語音識別限制在僅與Web數據收集相關的詞匯表和規則選項中。應用邏輯和/或數據庫的資源適配器之間會相互影響,對于每一個相互影響的步驟動態地調整管理目錄,這種管理系統能夠使系統的語音識別部分相互協調,從而提高了語音識別性能。
發明內容
本發明的優選實施例中提供了一個詞匯表管理系統,在用戶通過語音入口訪問一個數據源的過程中使用語音應用,對與文本語音轉換及語音文本轉換的表示過程相關的語音識別處理進行限制,包括一個與語音應用服務器和電話服務器相連接的詞匯表管理服務器,一個在管理服務器上運行的詞匯表管理軟件實例,為語音識別軟件設置詞匯表并進行管理。該系統的特征在于訪問詞匯表管理服務器的管理員使用該軟件生成唯一的詞匯集,該詞匯集是所選定的與目標數據源相關的特定的詞匯表部分,而詞匯集根據管理員的指令具有不同的內容。
在一個優選實施例中,語音入口是一個用在電話環境中的交互性的語音響應單元。同樣在一個優選實施例中,數據源位于Internet網絡中,并通過電話網絡訪問。還是在一個優選實施例中,語音應用服務器為文本語音轉換識別過程提供VXML格式的數據。
對訪問用戶的語音應用,有唯一的詞匯集和、唯一的規則。而且,唯一的詞匯集可與特定的訪問用戶專用的唯一詞匯子集相關聯。這些唯一的詞匯子集可以與唯一的規則子集相關聯。在一些情況下,詞匯集既包括從數據源中尋找到的單詞,也包括管理員引入的單詞。
本發明的另一方面是提供了一個詞匯表管理服務器,在用戶通過語音入口訪問一個數據源的過程中使用語音應用,對與文本語音轉換和語音文本轉換的表示過程相關的語音識別處理進行限制,包括一個詞匯表管理軟件用來創建并管理詞匯集,以及一個用戶接口用來處理軟件應用。服務器的特征在于服務器被配置用來在語音應用的語音識別應用中發送特定的詞匯集和規則集,并且系統配置以在語音識別功能中以較少的處理要求來創建會話。
優選實施例中,語音入口是在電話環境中工作的一個交互性的語音響應單元。同樣在優選實施例中,數據源位于Internet網絡中,并通過電話網絡訪問。在一些優選情況下,語音應用服務器為文本語音轉換識別過程提供VXML格式的數據。
對訪問用戶的語音應用,詞匯集彼此都是唯一的,且與唯一的規則集相關聯。另外,唯一的詞匯集可與特定的訪問用戶專用的唯一詞匯子集相關聯。這些唯一的詞匯子集可以與唯一的規則子集相關聯。在一些情況下,詞匯集既包括從數據源中尋找到的單詞,也包括管理員引入的單詞。同樣在一些情況下,語音通過受話器提供給用戶。
本發明的另一個方面是提供了一種方法,用于在適用VXML語音應用和系統開發中對語音識別的處理需求進行限制,包括以下步驟(a)提供一個詞匯表管理軟件實例,用于創建、編輯、以及組織語音識別過程所需的詞匯集;(b)使用該軟件創建詞匯集,詞匯集包括與語音應用中創建會話所使用的數據源相關的一部分可用詞匯;(c)當語音應用的語音識別部分被觸發時,對語音應用進行設置以使用已創建的詞匯集;以及(d)配置語音應用并執行。
優選實施例的步驟(a)中,詞匯表管理軟件可以訪問語音應用系統的數據庫資源適配器的應用邏輯。同樣在優選實施例的步驟(a)中,詞匯集對于數據源是特定的。在其他實施例的步驟(a)中,詞匯集對于與數據源相關的客戶行為是特定的。詞匯集可與一個或多個詞匯子集相關聯。步驟(b)中通過一個安裝了客戶語音應用軟件的相連接的工作站上管理員的輸入對該軟件進行操作。同樣在步驟(b)中,詞匯集中的單詞也包含管理員引入的單詞。
一些情況中,步驟(c)的設置包括了與詞匯集相關的訪問適用規則。其他一些情況下,步驟(c)的設置進一步包括了對在詞匯集范圍內組織的詞匯子集以及在規則集范圍內組織的規則子集的訪問,其中子元素對于各個客戶是特定的。步驟(d)中語音應用可以存儲在語音應用服務器中用于執行。其他情況中執行過程包括由訪問用戶觸發產生的語音分配,或由于呼出呼叫向用戶提供會話。
圖1A中的框圖闡釋了依據現有技術的一個VXML可行IVR的開發和配置環境的基本結構。
圖1B中的框圖闡釋了圖1A中使用了本發明后增強了的基本結構。
圖2是本發明的一個實施例的程序流程圖,闡釋了為VXML語音應用生成一個語音應用框架(shell)或容器(container)的步驟。
圖3中的框圖闡釋了本發明的一個實施例的一個簡單的語音應用容器。
圖4中的框圖闡釋了本發明的一個實施例的一個會話對象模型。
圖5是本發明的一個實施例的程序流程圖,闡釋了VXML可行語音應用中生成語音會話的步驟。
圖6中的框圖闡釋了本發明的一個實施例中和用戶建立連接之后的會話轉移流程。
圖7是本發明的一個實施例的開發器框架的平面圖,含有開發器的登錄界面。
圖8是開發器框架的平面圖,含有圖7的開發器平臺界面的主頁的界面。
圖9是開發器框架的平面圖,通過圖8中前一個界面中的部分803中的“地址”選項得到的地址簿911的界面。
圖10是開發器框架的平面圖,顯示了一個創建新語音應用的界面1001。
圖11是開發器框架的平面圖,闡釋了圖10中的界面向下滾動后顯示了更多的選項。
圖12是本發明的一個實施例中會話設置窗口中的會話設置頁面的界面。
圖13是圖12的會話設計面板的界面1300,闡釋了隨后的連接中會話狀態的過程。
圖14是優選實施例中由圖13的例子激活的詞典設置窗口的界面。
圖15是本發明的一個實施例的開發器框架的平面圖,闡釋了一個對生成后的模塊進行管理的界面。
圖16中的框圖闡釋了本發明的一個實施例中圖6增強了Web數據獲取的會話轉移流程。
圖17是本發明的一個實施例中對圖1B中的語音應用分布式環境增加了用于自動Web數據獲取以及數據提交的單元。
圖18中的框圖闡釋了獲取到的一個Web站點邏輯層次,并且并作為目標模塊生成。
圖19中的框圖闡釋了對圖18中的模塊進行處理并簡化用來更經濟地進行數據提交。
圖20中的程序流程圖闡釋了降低Web站點邏輯樹復雜性的中間步驟。
圖21中的框圖闡釋了本發明的一個實施例中語音入口和Web站點服務器之間的安全連接。
圖22中的框圖闡釋了本發明的一個實施例中帶有詞匯表管理服務器和軟件的增強了的圖1B中的結構。
具體實施例方式
根據本發明的優選實施例,發明人在這里以一種可以實現的方式,描述了一種以面向對象的方式進行開發并可實時配置動態或靜態語音應用的新穎系統,在所支持的通信環境內允許IVR向內或向外傳輸以及其他的交互語音方案。
圖1A中的框圖闡釋了依據現有技術的一個VXML可行IVR的開發和配置環境的基本結構。如背景部分所述,該例子的現有技術的結構對于發明人來說是已知的并且是可用的。對進行開發和配置語音應用的所示環境,此種情況是電話環境,需要本領域中很高的技術水平。該現有技術的例子中在說明書中的背景部分已經介紹過的單元在此不再重新引入。
在簡化了的情景中,語音應用服務器110使用了數據庫/資源適配器113用于訪問數據庫或其他資源庫獲得數據內容。包括了VXML腳本、商業規則、以及下層電話邏輯的應用邏輯112必須在單個應用由提交引擎111提交之前仔細開發,認真測試。一旦語音應用完成并且服務器110可以提供服務,語音應用可通過數據網絡120對電話服務器130進行配置,其中使用了解釋器131和文本語音轉換引擎132把語音應用以電話軟件和硬件133可使用或可執行的格式進行表達和傳送。應用程序可通過主流的網絡134送往接收設備,此處的設備135圖示為電話,這種情況中的網絡一般由電話交換機(未示出)將與公共交換電話網(PSTN)相連的電話服務器和消費者(設備135)連接起來。
本發明涉及的實施例比現有技術的例子技術上的提高主要集中在應用服務器110的性能上,包括關于開發和配置規則以及關于響應能力和雙向交互會話的選項的總體提高。使用了認為是現有技術的結構描述,發明人在此處還描述了圖1A的現有技術的例子中未示出的其他單元,但在圖1B的例子中以一種新穎的方式進行描述。
圖1B中的框圖闡釋了圖1A使用了本發明增強后的基本結構。圖1A中的現有技術的例子中的單元在圖1B中保留了原來的附圖標記,沒有重新引入。為了參考的目的,開發語音應用的一個實體(一個人)在說明書的下面部分中指制作者或開發者。
根據本發明的一個實施例,語音應用的開發者或制作者最好在遠程計算機工作站上操作,這里標注為工作站140。工作站140基本上是與網絡相連的計算機工作站。工作站140可被置于同樣包括了應用服務器110的物理域中。另一個實施例中,工作站140和應用服務器110可安裝在同一個機器內。另外一個實施例中,開發者可在他或她的辦公室或任何可聯網的位置,包括任何無線位置,對工作站140進行操作。
工作站140安裝了客戶軟件工具(CL)141,使開發者能夠通過用服務器110,130和接收設備135所表示的主流系統創建語音應用并進行配置。CL 141是一個與該例子中的Web瀏覽程序類似的或與其結合而成的Web接口應用程序,然而也可采用其它網絡方案。CL 141包含了根據本發明的實施例,開發者所需的能夠提高性能的軟件工具。工作站140與一個語音入口143連接,語音入口置于數據網絡上(Internet,以太網,企業內部網等等。)和/或電話網絡134內。本例中入口143在兩個網絡中都做了邏輯上的標注。語音入口143用于使開發者或語音應用的消費者能夠調入選定的語音應用,并在其上執行功能性操作(如訪問、監控、修改)。
根據本發明的實施例,應用服務器110內有一個語音應用開發服務器142和現有單元111-113相結合的實例,以提供動態的語音應用開發和配置。
可通過與工作站140相連的網絡連接以及通過電話網絡134連接到語音應用消費者的網橋來訪問入口143。一個例子中,入口143作為應用服務器110的一部分。語音入口143除了作為消費者的訪問點,主要是作為開發者的接口服務器。語音入口143通過一個適用于CL 141的服務器實例的SW實例144來起動。在電話實施例中,入口143可以是一個交互語音響應(IVR)單元。
在一個優選實施例中,語音應用的制作者或開發者通過入口143和使用遠程的工作站140作為“Web接口”的數據網絡120來訪問應用服務器110,并首先創建通訊錄。另一個實施例中,工作站140通過一個網絡接口直接訪問應用服務器110。連接就類似于需生成語音應用的消費者。收到請求后,CL 141根據需要顯示出所有所請求的交互界面,并進行設計、修改、例證并執行從應用服務器110發來的、由服務器130傳送的、已完成了的語音應用。
本發明中的軟件可將語音應用模型化成一系列具有商業和電話規則(或其他通信傳送/訪問系統)參數的會話目標,而不需要開發者去執行復雜的編碼操作。提供了會話模板用來對會話狀態進行建模。會話模板能生成實際的語音會話,指定會話的語音應用消費者(接收方),捕獲來自語音應用消費者(接收方)的響應,并根據消費者響應的系統解釋去執行任何后續動作。會話是可以再次使用的單元,可連接到新的會話或現有(預存)的會話上。語音應用就是根據語音應用開發人員設定的一系列商業規則而相互連接的一組會話。一旦語音應用完成,就由服務器110進行配置,并最終通過電話服務器130送到已授權的用戶群(設備135)。
在一個優選實施例中,語音應用是VXML格式,并在適用VXML的電話服務器130上運行。該過程通過VXML提交引擎111實現。引擎111直接與服務器130互動,對待判別的語音應用進行定位,恢復它的語音應用邏輯,使用VXML動態創建表示程序,并送往服務器130用于處理和傳輸。一旦解釋器131對VXML格式的表示程序解釋完畢,就以一個交互會話(此處情況是IVR會話)的形式送往設備135或由設備135獲得。來自設備135的任何響應沿著同樣路徑返回到應用服務器110,被引擎111解釋。這樣,服務器110就通過適配器113從數據庫取回了語音應用的概況,并確定需本地執行的下一個交易規則。基于這個判斷結果,執行與該規則相對應的操作。然后下一個(如果需要的話)VXML表示程序被送到提交引擎111,依次動態產生下一個VXML頁面,在服務器130中進行釋義、處理及配置。用于這種在適用VXML電話服務器(130)和語音應用服務器(110)之間的雙向互動以VXML會話的自動邏輯序列形式持續進行,直到語音應用最終到達終止狀態。
語音應用(一個或多個會話組)可通過內部調用或外部調用的形式送往消費者(目標聽眾)。對于內部調用語音應用的情況,語音應用消費者呼叫進入語音入口143,訪問服務器130提供的內部語音應用。語音入口可直接映射為電話號碼或作為電話總機號碼的一個分機。在一個優選實施例中,語音入口還可作為社區論壇,在這里語音應用的制作者可以把他們的語音應用分成組,從而方便獲取以及執行操作如語音應用鏈接、報告、以及文本語音轉換記錄等操作動作。
外部調用語音應用有兩種子類型。分別是請求型(on-demand)外部調用和預定型(scheduled)外部調用。對于請求式外部調用,語音應用開發人員發出一個和應用相關的外部調用命令,服務器110就立即產生一個外部調用呼叫。外部調用呼叫是面向目標聽眾的,而服務器130一收到呼叫就會發出語音應用。對于預定外部調用,當到達開發者指定的日期和時間時,調度服務器(在服務器110內,未示出)就會發送出語音應用。優選實施例中,請求式和預定式外部調用的配置功能都支持單點傳輸、多點傳輸,以及廣播幾種傳輸方案。
如上所述,應用服務器110生成的語音應用包含了一個或多個會話。每個會話的內容可是靜態或動態的。靜態內容源自語音應用開發者。生成語音應用的同時,開發者也創建了靜態內容。動態內容則來自一個第三方的數據源。
在一個優選實施例中,開發工具包含一個交互會話設計面板(稍后將詳細描述),在這里開發者對會話描述或響應域輸入一個擴展標記語言(XML)格式的參考鏈接。當會話響應執行完并被應用服務器110解釋后,參考鏈接調用資源適配器113中的資源應用程序接口(API)。API實時工作,取回所需的數據,并把返回的數據集成到現有的會話內。由此隨即產生的VXML頁面上就嵌入了動態數據。
本發明的一個目標是高度動態、實時的IVR系統,且能夠根據應用程序開發者的指定數據源的要求來自動的自我調整。本發明的另一個目標是不需要任何VXML或其他編程技術的背景知識就可對語音應用進行快速開發和配置。本發明更進一步的目標是減少一般的語音應用的開發周期,并且大幅降低開發成本。
圖2是本發明的一個實施例的程序流程圖,闡釋了對VXML語音應用生成一個語音應用框架或容器的步驟。開發者使用的客戶程序認為是小客戶量,類似于參照圖1b描述的工作站140上的CL 141,生成語音應用框架或容器。步驟201處,開發者通過登錄界面登錄到系統中。開發者在步驟202創建一個應用消費者的通訊錄。一般來說步驟202之前會顯示一個問候或歡迎頁面。應用消費者一般是聽眾,可以訪問一個或多個實體并通過語音應用進行互動。首先創建了通訊錄,這樣如果稍后需要呼叫路由邏輯時,在創建語音應用的過程中,所有預期的連接都是可用的。通訊錄在多于一個聯系人時可由制作者分別輸入,或從一些組織/規劃軟件中引入通信表,如MicrosoftOutlookTM或PDATMorganizer。
本發明的一個實施例中,通訊錄可被放在一個外部設備中,并通過合理配置的預設好的連接器(未示出)來訪問,目的是訪問并獲取列表。例如,這種方法可用在使用了現有的大型客戶數據庫時的情況中。即從原始數據庫中提取出所需的數據并提供給程序,而不是生成一個數據庫的拷貝。
步驟203處,生成了一個語音應用頭。語音應用頭僅僅是應用程序的標題字段。該字段包括應用程序的名稱和應用程序的描述。步驟204處,開發者把語音應用分配成內部調用狀態或外部調用狀態。外部調用應用程序通過一個外部調用呼叫進行傳輸,而消費者訪問的是內部調用語音應用程序。
在內部調用應用程序的情況下,在步驟205處系統為內部通信設置了一個缺省地址。開發者在步驟206時從配置過的列表中選擇一個會話。該例假定這些會話已經創建。步驟207時,開發者執行該會話,然后自動進行配置。
步驟204中指定為外部調用形式時,開發者需在步驟208時選擇一個啟動類型。該啟動類型是請求型或預定型。如果步驟208中開發者選擇了預定型,那么在步驟209處,開發者就輸入用于啟動的全部的合適的時間和日期參數,也包括重復啟動同一應用程序的參數。如步驟208中選擇了請求型啟動方式,那么在步驟210處,開發者從在步驟202處建立的通訊錄中選擇一個或多個聯系人。此處應注意到預定型啟動方式中開發者在步驟209之后同樣要執行步驟210。會話在步驟207處創建。該步驟中創建了其中有預望的互動的語音應用中可能的會話響應列表,并存儲以供使用。
一般情況下,開發者生成語音應用后,將它和后端數據源或者可選地與任何第三方資源進行集成,然后對語音應用進行配置。然后消費者開始使用語音應用,可選地,系統對語音應用收集到的消費者的反饋信息進行分析,如果合理的話可進行進一步的互動。本例中的步驟屬于從已有的“建筑材料(building blocks)”中產生和啟動語音應用。
圖3中的框圖闡釋了根據本發明的一個實施例的一個簡單的語音應用容器300。程序容器300是一個邏輯容器或“語音應用對象”300。容器300又可稱為框架(shell),在邏輯上描述成上述圖2的過程的可能結果。此處容器300包含了一個或多個會話狀態,標注成會話301a-n,本例中是會話1-4。會話301a-n是對象,因此容器300是會話對象301a-n系列的邏輯組。
本例中表示的會話對象301a-n根據標注為規則1-4的業務規則進行互連。規則1-4由開發者設定,是規則對象。此處需要注意的是組成容器對象300可能有更多或更少的會話對象301a-n及互連業務規則對象1-4,這沒有偏離本發明的主旨和范圍。發明人對每個實體描述了4個,并認為已經足夠用于解釋本發明。
除了所述的對象,語音應用框架300包括許多設置選項。本例中,基本設置選項列成表格作為參照,圖中列出了3個設置選項,編號是305a-c。從上至下讀取該表,第一個選項是啟動類型(305a)規定了語音應用300進入通信系統的初始入口點。如上面圖2中的步驟204所述,啟動類型305a可選為內部調用或外部調用。另一個實施例中,啟動類型可由第三方規定或者設定成除內部、外部調用以外的其他模式。
外部調用啟動方式設計成語音應用連接到一個或多個地址(消費者)。地址可以是單個聯系人或聯系人組,通過通信錄或分配表來表示,如上面圖2中所述(步驟202)。這種情況下當啟動了外部調用語音應用時,就被送往語音應用外部調用通信表(未示出)指定的地址。所有指定的地址都接收到外部調用語音應用的一份拷貝,并有同等的機會與語音應用會話及如果在特殊的應用程序中使用了相應的后端數據源進行互動。
啟動類型305a設定為內部調用語音應用時,系統向程序發出指令,假定一種就緒等待狀態。當設定的語音應用消費者主動發出請求訪問語音應用程序時就啟動該應用程序。一般的調用中央IVR系統可假定這種類型的內部調用應用。
如果語音應用啟動類型設置305a設成外部調用時,啟動時間設置(305b)選項才有效。啟動時間設置用來對一個新穎的時序引擎進行設置,如圖1B所述,引擎假定為應用服務器功能的一部分。時序引擎控制何時向指定地址傳輸語音應用的時間參數。時間設置可以反映請求型,預定型,以及任何第三方設定的模式。
請求型可以讓開發者完全控制語音應用的啟動時間。請求型同樣允許任何第三方發出一個觸發來啟動語音應用。此處需注意的是被第三方控制時,語音應用能作用于不止一個通信系統或網絡。
屬性設置305c基本規定了語音應用程序一般情況下的行為。設置305e可能的狀態選項是公共的、持續、或共享。公共狀態設置表明語音應用在語音入口域內,任何用戶都可獲取,這樣所有具有最小權限的用戶都能使用該應用程序。屬性設置305c的持續狀態即確保不管有多少用戶想訪問該應用程序,只有一份語音應用拷貝是永遠有效的。這種情況的一個例子是任務分配語音應用。例如,在任務分配的情況下,用戶只有在一定數量的時隙內能訪問該應用程序。如果任務是一組聯系中的一個請求,如客戶支持技術人員要建立一個預定的聊天會話(chat session),那么無論何時選擇一個時隙后,其他的技術人員就只能選擇剩下的時隙。因此如果只有一份語音應用拷貝在一組技術人員內循環使用,程序根據先到先服務規則來捕獲技術人員的響應。
屬性設置305a設成共享狀態時,消費者可以“看見”會話中其他技術人員的響應,不管語音應用是否持續。一旦語音應用框架生成后,制作者就可根據圖2中步驟207的描述生成語音應用的第一個會話。此處需要注意的是使用了一個遠程且最好是臺式客戶機對框架300模型化,稍后將在說明書中詳細描述。
圖4中的框圖闡釋了本發明的一個實施例的一個會話目標模塊400。會話對象模塊400與上面圖3中描述的會話對象301a-n類似。對象400把會話和它的全部屬性模型化。會話對象400中的屬性對象,標注為對象屬性(410),包含了會話類型以及包括適用于該會話的行為狀態和業務規則在內的屬性。
例如,每個會話都有一個“發往(route-to)”屬性,例中標注為Route To屬性(411)。屬性411映射到并識別出會話源。同樣的,每個會話都有一個“發自(route-from)”屬性,例中標注為Route From屬性(412)。屬性412映射到并識別出會話的接收方聯系人或會話用戶。
每個會話都要被歸入一種會話類型,本例中的屬性標注為Dialog Type,編號為413。會話類型413可能包括但也并不局限于以下幾種會話類型。
1.廣播型會話(Radio Dialog)廣播型會話允許語音應用的用戶在聽到會話描述后,從選項列表中的可用選項中交互式地選擇其中之一。
2.公告板型會話(Bulletin Dialog)公告板型會話允許語音應用的用戶通過類似公告板論壇進行互動,這樣多個用戶可以以異步方式共享語音信息。
3.聲明型會話(Statement Dialog)聲明型會話向語音應用用戶發出一個聲明,而不期望得到用戶的任何響應。
4.開放入口會話(Open Entry Dialog)開放入口會話允許語音應用的用戶在聽到會話描述后能夠記錄一段預定長度的信息。
5.第三方會話(Third Party Dialog)第三方會話是一種模塊容器結構,允許開發者根據自己的屬性和行為方式生成定制的會話類型。例如Nuance’s SpeechObiectTM。
每種會話類型有一種或幾種相關的業務規則,決定在下一步對感知的狀態做出響應。有一個規則將應用程序用戶的響應和程序開發者定義的操作數進行比較,使用的運算符如小于,大于,等于,或不等于。在本發明的一個實施例中該規則的參數如下如果用戶響應等于預設值,那么執行下列之一A.沒有動作并終止會話狀態。
B.實時(live bridge)轉移到指定的聯系人。或,C.把另一個會話送往另一個聯系人。
外部調用語音應用的情況中,與感知的狀態相關的可能是異常處理業務規則。在本發明的一個優選實施例中,異常處理規則歸納成三種不同的事件1.需接收語音應用程序的指定程序用戶拒絕用語音應用程序進行互動的請求。
2.啟動語音應用程序時,程序消費者處于連接忙狀態,如電話占線信號。以及,3.程序用戶的連接由無人設備應答或被重定向到無人設備,例如電話答錄機。
對于以上每一種情況,根據感應到的狀態可能做出下列三種后續動作的任何一種1.沒有動作并終止會話狀態。
2.重新撥叫該號碼。
3.把另一個會話送往另一個聯系人。
圖5是根據本發明的一個實施例的程序流程圖,闡釋了VXML可行語音應用中創建語音會話的步驟。所有會話都可在隨后的會話子程序中重復使用。也就是如前所述,用于每個會話和聯系人雙方的一組業務規則。只有規則允許后,會話才有效,并能夠從一個會話狀態轉到另一個狀態。
步驟501處,開發者生成一個會話描述字段進行會話描述。會話描述還包括下面將進一步討論的XML標記符。步驟502處,根據會話的指定類型輸入會話類型的參數。可用參數的實例可參照上面圖4中的描述。
步驟503處,開發者為會話類型設定可應用的業務規則,及根據規則設定隨后的程序。一個實施例中步驟503處的規則配置決定了在步驟505處基于應用的規則決定隨后的程序。例如,開發者可以在步驟505中設定如步驟506處所示的實時轉移;步驟507處轉移到生成下一個會話;或者開發者可設定如步驟508處的終止會話。
如果開發者沒有從步驟505轉到配置子程序506,507,或508,而是從步驟503繼續進行到步驟504,其中系統指定會話是內部調用還是外部調用,那么流程必須根據會話是內部調用還是外部調用,從步驟504轉到步驟508或509。如果步驟504時會話是內部調用,那么會話在步驟508處完成。如果在步驟504處會話指定為外部調用,那么在步驟509處配置呼叫異常業務規則。
在步驟510處,開發者要為系統處理或異常情況設定至少一個后續動作。如果步驟510處不需要指定后續動作,那么流程轉到步驟508結束會話。如果步驟510處設定了一個或多個動作,那么就在步驟511執行一個或多個動作,如圖示中步驟511的行為是系統重新呼叫。
在一個優選實施例中,一旦生成語音應用后,可通過電話進行訪問和配置。訪問的方式當然取決于步驟504中設定的方式。例如,如果程序是內部調用型,語音應用消費者進入一個語音入口來訪問應用程序。如上所述,語音入口是一個語音界面,用于使用上面圖1B中描述的語音應用服務器的一定數量的功能。語音入口可以是面向連接的交換電話線路(COST)的端口或數據網絡電話線路(DNT)的端口。如在步驟504處設定為外部調用,通過一個由語音應用服務器發給消費者的呼叫,語音應用消費者接收語音應用。在一個優選實施例中,外部調用呼叫可以基于COST或基于DNT,這依賴于所提供的通信環境。
圖6中的框圖闡釋了本發明的一個實施例中在與用戶初始連接之后的會話轉移流程。本例中標示的一些單元在上面圖1B中已經引入,因此保留了它們的原有附圖標記。本例中,應用消費者標注為應用消費者600,與電話服務器130中的會話601主動地進行互動。如前所述,服務器130也標注為適用VXML的電話服務器。
應用服務器110同樣在互動序列中是有效的,并且能向消費者600提供動態內容。當應用消費者600開始連接語音應用時,這里表示為電話服務器130中的會話601,語音應用服務器110對狀態進行監控。實際情況中,每個處理后送往服務器130、用于送往消費者或由消費者600訪問的會話,是配置并執行后的特定語音應用的很小的單元。因此會話601在邏輯上可表示多于一個的會話。
本例中,假定表示多于一個的會話,會話601在互動過程中負責獲取消費者600的響應。標注為發送和響應的箭頭表示了所述的互動。當消費者600對會話內容作出響應時,響應沿著同一路徑送回到VXML提交引擎111,引擎對響應做出解釋,并把解釋后的版本送往所提供的會話控制器604。控制器604是圖1B中所述的服務器110內的應用邏輯112的一部分。會話控制器604是一個模塊,能夠根據預先設定的規則和響應參數執行表查詢、數據獲取以及數據記錄功能。
會話控制器604接收到會話響應后,把和待處理的會話(601)相應的響應存儲到所提供的數據源602中用來進行數據挖掘(mining)操作以及工作流程監控。然后控制器604向所提供的規則器603請求查詢業務規則或與已存的響應相對應的規則。一旦對該響應定位出正確的業務規則,會話控制器就開始解釋。如果所訪問的業務規則需要參照第三方的數據源(未示出),控制器604需從該數據源中取得必需的數據。控制器604返回的任何數據都被集成到會話內容中并通過VXML提交給引擎111,以生成下一個會話601的會話頁面。該過程一直重復,直到會話601終止為止。
一個實施例中,接收到消費者600的響應之后,由控制器604所訪問的業務規則實現會話轉移狀態,而不是返回到當前程序消費者。這種情況下控制器604引起了應用服務器110的一個外部調用呼叫,向指定的目標應用程序消費者傳輸下一個會話或“生成的會話”。同時,如圖5中步驟508所述,根據業務規則中預設的特定邏輯,當前消費者結束了他/她的會話狀態。
對于本領域技術人員來說很明顯的是,根據規則器603提供的規則使得控制器604能訪問數據源602,從而會話可以包含動態內容。大多數實施例中,一般有兩種類型的動態內容。優選實施例中的兩種類型的結構都是XML格式,并被直接嵌入下一個生成的會話頁面中。兩種類型的動態內容的第一種歸為非循環類。非循環內容相對參照了標注在資源適配器注冊表中的非循環資源,資源適配器類似于圖1B中所述的語音應用服務器110的適配器113。
上述情況中,會話控制器604對會話進行解釋,首先掃描所有資源標注。如果發現匹配資源,就查詢資源適配器注冊表,然后調用相應資源的API以獲取下一個會話內容中所需的數據。一旦第三方數據源返回了原始數據,把原始數據通過相應的資源過濾器做進一步的處理。當過濾器處理過程完成后,會話資源標注或標記被過濾后的數據替換,并被透明地集成到新會話中。
動態內容的第二種類型是循環型。循環內容通常返回不止一個名稱和數值對。一個例子是消費者股票總量程序的股票清單。例如,會話能使消費者600模仿一個特定的股票,并得到隨后返回的報價,這是通過另一個會話狀態使用了循環的動態內容獲得了所需結果。循環內容相對參照了標注在語音應用服務器110內的資源適配器注冊表內的循環資源。會話控制器604對會話進行解釋,對資源進行操作的方式和非循環操作相同。然而,它不是簡單地把過濾后的數據返回到會話內容中去,它是在數據列表中循環,并把列表中的每一項設定為語法型的關鍵詞。這樣做后,消費者600可以模仿第一個會話中列表項的其中一種(單獨股票),捕獲響應,進行處理,并返回到下一個會話狀態。下面的股票報價的例子闡釋了從消費者600的觀點來看可能的會話/響應的狀態。
語音應用程序“早上好Leo,你需要哪一種股票報價?”應用程序消費者“Oracle”語音應用程序“Oracle是17美元。”語音應用程序“早上好Leo,你需要哪一種股票報價?”這個特定的例子包括兩個會話。
第一個會話以語句“早上好Leo,你需要哪一種股票報價?”開始。這個語句之后是等待狀態,等待聽到關鍵詞如Oracle,Sun,Microsoft等。該語句包含了兩個動態非循環資源標注。第一個是當天的時間早上好,下午好,或晚上好。第二個動態內容是應用程序消費者的名字。這種情況下,應用程序消費者的名字在語音應用服務器內部,因此該資源標注的類型是SYSTEM。在實際的會話描述字段中,看起來如下所示<resource type=’ADAPTER’name=’time greeting’/>resourcetype=’SYSTEM’name=’target_contact’/>,what stock quote doyou want?因為會話希望用戶從他/她的現有清單中說出一種股票,會話類型是廣播型會話,并且廣播型會話的期望的響應屬性是<resource type=’ADAPTER’name=’stock_list’>
<param>
<resource type=’SYSTEM’name=’target_contact_id’/>
</param>
</resource>
這段XML資源標注是告訴會話控制器604去尋找標注為stock_list的資源,并調用相應的參數為target_contact_id的API。一旦數據獲取完成后,股票的列表作為語法部分集成到會話中。并且無論何時用戶按照股票識別作出響應,而識別對照待判別的語法(清單中的證券)進行匹配,并把語法返回值指派給會話響應,會話響應可以把它送往下一個會話作為DIALOG類型的資源。
開發者可使用<resource type=’DIALOG’name=’dialog_name’/>,在任何隨后的會話中參看任何會話返回值。該規則使得開發者能夠在任何后續會話中顯示出程序消費者之前選擇過的選項。
上述的第二個會話顯示了從第一個會話中選擇的股票報價,然后返回到第一個會話流程。因為該會話中沒有其他的分支邏輯,本例中的會話類型是語句會話。會話的后續動作只是流程簡單的返回到第一個會話。這種情況下,會話語句是<resource type=’DIALOG’name=’select stock dialog’/>
<resource type=’ADAPTER’name=’get_stock_quote’>
<param>
<resource type=’DIALOG’name=’select stock dialog’/>
</param>
</resource>
除了提到的ADAPTER,DIALOG和SYSTEM類型,會話也可包括其他的資源類型如SOUND和SCRIPT。通過在會話描述中插入一個聲音片斷,SOUND可使會話描述擬人化。例如,在股票報價之后播放一段聲音,開發者就在ADAPTER資源標記后插入<resource type=’SOUND’name=’beep’/>。
使用<resource type=’RESOURCE’name=’confirm’/>,開發者可在會話描述中加上一個定制的VXML腳本,這樣在優選實施例中,任何VXML都可透明的集成入會話內容中,且具有最大的靈活性和擴展性。
對于本領域技術人員來說很明顯的是,這里引用的例子中使用了VXML和XML作為標記語言和標記,此處需要注意的是其他適合的標記語言也可被適當地使用或和提到的規則進行集成也沒有偏離本發明的主旨和范圍。對于本領域技術人員同樣明顯的是,如果本發明的初始描述中語音應用服務器和電話服務器的接口使用了普通的HTTP請求和響應,需要注意的是本發明可在能夠通過任何分配網絡對明確的請求和響應進行處理的任何系統上實現。
圖7-15闡釋了類似于圖1B中工作站140的CL 141的開發平臺界面的不同瀏覽器的圖框。下列界面框和圖框內容的描述首先假定了存在一臺類似于工作站140的臺式主機,其中HTTP請求/響應格式的業務是可實現的,例如在Internet網絡上進行開發的情況。但是下列描述不應局限于本發明中的方法和裝置,不同協議、網絡、接口設計以及操作范圍都可改變。
圖7是本發明的一個實施例的開發框架的平面圖,含有開發登錄界面700。本發明的一個實施例中,圖框700以一種網絡瀏覽器容器的形式。商業的網絡瀏覽器都是眾所周知的,任何合適的網絡瀏覽器都能支持該平臺。圖框700也包括了大多數網絡瀏覽器圖框中的傳統的選項,包括后退、前進、進行、文件、編輯、視圖等等。本例中有一個導航的工具欄。界面710是登錄頁面。實施例中,開發者可能有一個開發帳號。另一個情況是不止一個開發者共享一個帳號。這有許多種可能性。
界面710中有一個區域用來輸入登錄ID和登錄個人識別碼(PIN)。一旦登錄參數輸入完畢,開發者單擊名稱為登錄的按鈕提交該數據。界面710可適用于在臺式計算機上或其他許多設備上顯示,這些設備能夠以特定的、并可在其上顯示的格式進行網絡連接。
圖8是開發器框架的平面圖800,含有圖7的開發平臺界面的主頁的界面。圖框800包含了一組界面,包括歡迎部分801,產品識別部分802以及導航部分803,這三個部分合在一起構成了整個屏幕或顯示區域。發明人給語音應用開發者的平臺設計的商業名稱是Fonelet。導航部分803在“主頁”以及隨后的軟件工具的圖框中都有顯示。
導航部分803從上至下包括了多個有用的鏈接。開始鏈接到主頁,然后鏈接到地址簿。創建一個新的Fonelet(語音應用)的鏈接命名為新創建(Create New)。還提供了鏈接到“我的(My)”Fonelet和鏈接到“選項(Options)”。如圖所示,標準幫助鏈接在登錄退出的鏈接旁邊。803中所示的最后一個鏈接是一個額外的“選項菜單”。803部分通過使用本例中的顯示類型的常用的下拉欄向下滾動,還可看到另外的鏈接。
圖9是開發框架的平面圖900,通過圖8中前一個界面中的部分803中的“地址”選項得到的地址簿911的界面。界面911作為一個選項,可列出各個聯系人以及列出通訊錄。通訊錄是語音應用消費者的列表,而各個聯系人就如本例中代表一個消費者。但在其他實施例中,各個聯系人也可能意味著不止一個實體。導航屏803顯示在界面911的左邊。本例中,聯系人依序列出了名,姓,電話號碼和電子郵件地址。包括或未包括其他的聯系人參數都未偏離本發明的主旨和范圍。例如可列出一個聯系人的Web站點,也可能是接收語音應用的接口。列出的聯系人的左邊是選擇框用于選擇和設定。交互人選項以按鈕的形式顯示,并使得開發者可以添加或刪除聯系人。
圖10是開發器框架的平面圖1000,顯示了創建一個新的語音應用的界面1001。界面1001對創建一個由發明人命名為Fonelet的新的語音應用初始化。界面1001中有一個命名區域1002用于輸入應用的名稱。描述區域1003用于輸入應用描述。還顯示了屬性部分1004,其使得開發者通過單擊合適的方框,從列出的可用的選項中選擇公共、持續、以及共享。
會話流程設置部分包括一個會話類型區域1005和隨后的選擇聯系人或聯系人組的區域1006。所需信息正確輸入到恰當的區域之后,開發者單擊標為創建的選項1007開始創建會話。
圖11是開發器框架的平面圖1100,闡釋了圖10中的界面1001向下滾動后顯示了更多的選項。顯示了一個呼叫進度表設置部分1101,并提供了請求型或預定型的作用選項。如前所述,選擇請求型使得程序按照開發者的意愿配置,而選擇預定型,則根據時間/日期參數對預定的配置進行初始設置。接下來的一組登錄區域1103用來設定預定型啟動的一星期中的一天和一月中的一天。接下來的登錄區域1104用來設定預定型啟動的小時和分鐘。此處需要注意的是這些選項可使同一應用程序重復啟動。一旦開發者不再指定語音應用框架,他或她可單擊標為創建的創建會話按鈕,以打開一個用于會話創建的瀏覽窗口。
圖12是本發明的一個實施例中會話配置窗口1200中的會話設置頁面的界面。本窗口中開發者設定語音應用或Fonelet將鏈接的第一個會話。會話識別部分1201用于確認并描述即將創建的會話。一個文本輸入區域用于輸入會話名稱,另一個文本輸入區域用于輸入會話描述。在會話描述區域中插入了一個XML資源標記(未示出)。例如,可以是登記在應用服務器中的資源適配器內的資源標注的機器碼,資源適配器類似于圖1B中所述的應用服務器110的適配器113。
界面1200中有一部分是1202,使得開發者對期望的響應進行設置。這種情況下會話類型是廣播型會話。1202部分為多個選擇性的會話提供業務規則邏輯控制。1202部分包含一個是否響應的選項。此處需要注意的是除了簡單的是否響應,還有更多不同期望的響應。
1202部分中相鄰的部分是根據會話實際響應的結果,設置將發生的后續動作。例如,可對每個是和否的期望響應都選擇沒有動作。一種后續動作的情況中,對每個期望響應選擇連接。在圖示的連接選擇旁是選擇區域,用于選擇一種后續動作,包括數據獲取。
發送選項是使得發送選擇后的包括任何嵌入數據的后續動作。后續動作可以是設置響應的任何一種類型,如發送一個新的廣播型會話,發送機器修復請求等等。發往選項和相應的選擇項是用來確定后續動作的接收端以及能夠自動向接收端發送動作。例如,如果第一個會話是請求向多個內部維修技術人員提供機器修復服務,那么如果第一個聯系人拒絕接受該任務時或在該配置時刻不可用,后續動作就可把相同的會話發送給下一個可用的聯系人。
上述情況中,可以沿著列表向下從一個聯系人向另一個聯系人傳送該會話,直到其中一個聯系人可用,并通過接受該任務與會話進行互動。這種情況下的后繼行為可以是向接收任務的聯系人發送一個新的會話,詳細描述哪個機器需要修復及包括問題的診斷數據的參數,以及修復應在何時進行。本例中,提供了一個顯示細節的選項目的是為了讓開發者進行檢查。同樣還提供了創建新的或額外的響應的選項以及從系統中刪除現有響應的選項。此處需要注意的是一旦會話和會話響應被創建后,在整個語音應用以及語音應用的任何規定的情況中都是可重復使用的。
界面1201中還有一個部分1203用于處理“發往”(Route-To)的連接異常。該部分使得開發者在程序進行配置時對可能遇到的連接狀態設定下面該做的事。例如,對于呼叫拒絕,線路忙,或連接到語音信箱,圖示中有沒有動作及重新撥叫的選項。在此需要注意的是可能會有比本例中更多的異常情況和后續動作類型,這并沒有偏離本發明的主旨和范圍。
對于每種類型的異常情況提供了一個發送選項,可從相鄰的下拉菜單中選擇重新發送同一會話或其他會話。例如如果第一個會話是請求修復服務,而所有的初始連接都為忙,會話可以在每個忙音后從第一個聯系人向下移到另一個聯系人,那么從列表的頂部再重新撥號,這樣依次送給所有聯系人,直到其中一個可用。如果前一個聯系人拒絕了會話,或占線,或者因不可用而重新連接到語音信箱上,這種情況中的John Doe代表下一個接收方。僅當語音應用設成外部調用時,1203部分才可用。一旦第一個會話由開發者創建完成并有效,如果需要的話,單擊標為“詳細”的可用按鈕的其中之一可以創建第二個會話。同時還提供了交互按鈕用于保存會話、保存并關閉、以及撤銷更改。
圖13是圖12的會話設計面板1200的界面1300,闡釋了隨后的連接中會話狀態的過程。例中圖12中設定的會話狀態現在在部分1301中從發自選項列出的聯系人發送到發往選項列出的聯系人,1301類似于圖12中的1201。本例中,包括的聯系人有John Doe和Jan Doe。這樣因為會話被重復使用,會話名稱和描述都是相同的。開發者不需要重新輸入任何會話內容。但是因為每個會話與接收方的關系都是唯一的,開發者必須設置相應的業務規則。
本例中的部分1302和1303類似于圖12中的部分1202和1203。這樣如果John拒絕了機器修復的請求,那么系統建立一個轉移到Jan Doe的橋接。如發往選項的連接異常區域1303中所示的異常情況,所有情況都被引導到重新撥號路徑。除了在響應區域1302內插入關鍵詞如“是”或“否”,開發者可單擊一個本例中未示出的詞典按鈕來創建一個定制的詞典。詞典中所有生成的詞匯表都可以在之后開發者創建的任何語音應用中重復使用。
圖14是優選實施例中由圖13的例子激活的詞典設置窗口1400的界面。詞典窗口1400中的部分1401包含了一個詞匯表單詞標注的區域以及相應列出該單詞的同義詞的區域。本例中,單詞no可能引起的響應有no,nope,以及句子“I can not make it”。這樣語音識別控制可以以一種人性化的方式進行訓練,從而適應含義相同的不同響應。
詞匯表部分1402用于列出語音應用的所有創建的詞匯表單詞以及從單詞列表中選擇其一的選擇機制(本例中的選擇欄)。部分1402中也有生成新單詞和同義詞對的選項。窗口1400內還有控制面板部分1403,用于控制從詞典中選擇;更新詞典;從詞典中刪除;以及退出詞典。
圖15是本發明的一個實施例的開發器框架的平面圖1500,闡釋了一個對生成后的模塊進行處理的界面1502。
關掉所有會話窗口后,圖框1500顯示用于模塊管理選項的界面或頁面1502。菜單部分803再次可見。在圖框803中單擊選項“我的”或“我的Fonelet”,就出現界面1502。界面1502列出所有已創建并可用的語音應用。列表中,每個語音應用鄰近都有一個方框,可被選擇用于改變該特定程序的狀態。界面1502中標為狀態的一列,與已創建的程序列表相鄰。
狀態欄列出了每個語音應用的可變狀態。可用的狀態選項包括但并不局限于列出的狀態,停止的,激活的以及內部調用。狀態欄旁邊是標為直接訪問ID的一列,使得開發者能夠直接通過PSTN網絡中的語音接口或一個實施例中的DNT語音接口獲取語音應用。PSTN實施例中,直接訪問ID的功能可服務于總機號碼的分機。另一個標為動作的一列在直接訪問ID旁邊,功能是使得開發者根據語音應用的狀態選擇并應用一個特定的動作。
例如,假定開發者剛剛完成程序識別列表頂部的名為區域支持中心(FSC)的語音應用。現在,FSC列出的狀態是停止的。開發者現在可激活相應的動作下拉菜單并選擇激活來根據請求啟動了程序FSC。在預定型啟動情況中,根據定義在語音應用框架中的設置,自動激活語音應用。
一旦激活命令被執行,請求式的需求開始排隊等待通過系統外部應用服務器進行分配。例如,John Doe接到了語音應用服務器(110)的一個呼叫,詢問John是否想接受該呼叫。如果John回答“是”,就開始執行語音應用。實際的呼叫流程如下系統“你好John,你接收到一個來自Jim Doe的fonelet,你愿意接受該呼叫嗎?”John“是的。”系統“機器號008發生故障,你可以去修復它嗎?”John“不行。”系統“謝謝使用fonelet。再見!”系統終止和John的連接,把呼叫流程記錄到數據源中,并產生一個對Jane Doe的新呼叫。
系統“你好Jane,你接收到一個來自Jim Doe的fonelet,你愿意接受該呼叫嗎?”Jane“是的。”系統“機器號008發生故障,你可以去修復它嗎?”Jane“我不會修復它。”系統“請等待,fonelet正把你轉向Jeff Doe。”系統在Jane Doe和Jeff Doe之間建立連接。當會話結束后,終止和Jeff的連接并把呼叫流程記錄在數據源中。
語音應用的缺省正文內容是由安裝在電話服務器或DNT服務器上的文本語音轉換引擎生成的。但是語音應用制作者可通過PSTN或DNT服務器進入語音入口,并通過語音應用中任何現有的提示記錄他/她的語音。
對于本領域技術人員來說很明顯的是,本發明的方法和裝置可用于CTI電話技術環境,開發者通過與數據網絡相連的計算機工作站上運行的客戶程序進入該環境進行應用程序開發,該數據網絡也和生成應用程序的服務器及電話技術單元具有連通性。本發明的方法和裝置也可用于基于DNT的系統中,其中電話服務器和應用服務器都連接到數據網絡如著名的Internet網絡。對于所有通信環境的混合,包括任何合適的適用VXML或其他可行的標記語言的多層系統,程序都能產生同樣的效果。
對于本領域技術人員同樣很明顯的是,對包括單個會話和響應的語音應用建模使得任何開發者通過重復使用模塊格式中的已有目標,能夠迅速的創建大量的語音應用,因而使得從一個現有的對象存儲就能得到很大范圍的有用程序。
自動收集Web數據本發明的一個實施例中,能夠自動收集一個或多個Web站點的數據,被VXML引擎提交用來產生語音響應,并且用戶通過基于PSTN的入口可以得到該響應。下面馬上描述這種增強效果。
圖16中的框圖闡釋了本發明的一個實施例中圖6增強了Web數據獲取的會話轉移流程。本實施例中會話控制器604增強了從HTML,WML,或其他數據源中獲取和收集數據,例如本例中的數據位于Web站點上。本實施例的一種方案是銀行機構允許他們的所有顧客通過一個語音入口進入他們的站點。
本實施例中,會話控制器604通過網絡訪問線1601可進入所示的Web站點1600,這里1601表示了兩個方向的通信線。第一根標為存儲/獲取/輸入的傳輸線通過控制器604進入站點1600。第二根(返回)線標為數據返回/源域。圖示中的獨立的通信線意思是指與雙向Internet或其他網絡訪問線類似。如前所述圖6中的內部數據源(602)在此僅因為說明性的目的被圖16的Web站點1600替代。需要注意的是服務器110內部的和外部的多個數據源對于會話控制器604可同時進入。
Web站點1600提供了至少一個電子信息頁面(網頁),根據用于創建和維護網頁的標記語言的現有規則編排格式。站點1600也可能安裝了許多信息頁面,其中一些是內部聯系的并通過隨后的導航行為可進入的。本實施例中的控制器604使用了獲取規則引擎603的規則,增強了按照用戶的語音輸入進行網站導航的功能。會話控制器604提供了一個數據模板(未示出)用于促進站點1600的邏輯數據收集。會話控制器604分析了Web站點源代碼和數據域作為返回數據,并使用該信息生成提交引擎111所需的VXML頁面。
這里需注意的是站點使用的用于一般Internet獲取的所有安全和訪問機制可推廣到用戶,這樣用戶通過提供一個包含安全獲取信息的語音提交(響應)才被允許訪問該站點。這使得消費者通過一個與網絡相連的計算機進入一般的網站,以及通過語音入口開始語音業務,能夠使用相同的安全密碼和/或個人識別碼(PIN)。
圖17是本發明的一個實施例中對圖1B中的語音應用分配環境增加了用于自動網絡數據獲取以及數據提交的器件。本例中,運行客戶軟件140的工作站140能夠直接訪問網絡服務器1701上的目標Web站點1600。訪問通過一根Internet訪問線1704實現。
這里需要注意的是本實施例中可能會有很多的服務器1701和許多具有一或多個頁面的網站,這并沒有偏離本發明的主旨和范圍。本例中有一個數據庫存儲器1702,圖示中和服務器1701相連用于數據存儲。數據存儲器1702可能是光存儲器、磁存儲器、硬盤、或其他適合存儲在線獲取的數據的格式。一個實施例中,數據存儲器1702是一個相關數據庫管理系統(RDBMS),其中單次訪問可涉及一個或多個同樣存儲數據用于獲取的相連接的子服務器。
客戶程序141的設置、工作站140、服務器1702、Web站點1600以及通過網絡1704相連的數據庫1702使得對類似于站點1600的網站進行數據挑選和收集。程序141可讀取并接收每個HTML腳本或其他標記語言的腳本的存在的所有缺省響應。這些缺省響應嵌入程序邏輯112和VXML提交引擎111中。一旦網頁內容挑選后和被客戶程序141使用生成提交,那么VXML提交引擎111通過一個單獨的訪問網絡1703,結合程序邏輯112和數據庫/資源適配器113成功地訪問網站。例如,如果用戶(未示出)通過接收設備135(電話)經語音入口143進入Web站點1600,那么他或她可能被語音提示需要密碼才能訪問該站點。隨后,站點上的獲取的數據的提交語音通過電話135返回給他或她。
一般地說,語音入口的開發過程和上面圖9-15中所述相同。使用客戶程序141可執行一些額外的腳本或會話輸入。比起要求程序開發者從零開始收集所有的區域,或重新應用前面輸入過的選項,這種情況下可根據從站點1600收集到的信息生成使用如前面圖9到15中討論的業務邏輯的區域。為了這個目的,客戶軟件141上添加了一個軟件適配器(未示出),并允許客戶軟件和Web站點1600進行通信,并從包括區域和標注等的源代碼中和數據參數及數據變量中收集信息。
這里需要注意的是數據獲取、接收和語音提交的過程本質上和上面圖2-5的過程相同,除了網站連接需要在選擇其他任何選項之前先進行設置。
一個實施例中,服務器110和服務器1701之間的連接規定使得通信機之間如安全套接字層(SSL)、防火墻等等安全環境能應用在對消費者創建的語音方案中。類似的,該安全性和允許銀行服務的呼入線需防止可能的竊聽等沒有什么差別。
對于本領域技術人員來說很明顯的是,本發明的方法和裝置可用于和Internet、以太網或其他任何合適的網絡相連接。標記語言包括HTML,SHTML,WML,VHTML,XML等等。一個實施例中,用戶的密碼信息被保留在站點中,可自動訪問該網站。這有很多可能的情況。
區分用于語音提交的網絡數據的優先級根據本發明的一個方面,提供了一個方法用于對從網站收集到的并要填入語音應用的模板的網絡數據進行選擇和優先順序的排列。
圖18中的框圖闡釋了一個簡單的網站1801的層次結構樹以及站點1801的數據收集后的版本。界面1801示出了從用戶接口可能看到的一個簡單的網站結構樹。可選的圖標代表了表示的數據元素,這里用實線1802a到1802n表示在任何示范網站中可以有任意數量的圖標。本說明書中為了說明起見,圖標1802a-1802n表示可選的圖標,標識,超鏈接等等。每個目標1802a-1802n的類別這里用文本標注1803a-1803n表示。例如,可選圖標1802a是連接到站點的“主頁”,其意思由相鄰的類別1803a顯示。接下來的圖標(1802b)由登錄類別表示為站點的登錄頁面。一些情況下,圖標和類別或標注可能是相同的(顯然并不是不一致的)。
本例中,層次結構有一個登錄障礙,用戶必須成功找到選項才能使用這些選項的功能。提供的選項包括賬戶、狀態、歷史、查詢、交易和報價按照層次結構排列。例如一個消費者必須首先進入賬戶才能使用狀態(賬戶/狀態)或歷史(賬戶/狀態/歷史)選項。這種標準結構對于用來創建用于會話導航的語音應用模板的模板填充既不方便也不經濟。一個原因是語音應用的創建希望能使用該網站的全部數據,很可能包括一些圖形、表格及類似的數據,如果數據描述只是被簡單的翻譯并通過電話以語音會話返回到正在訪問的用戶,這些數據很可能不被用戶所理解。另一個原因是網站結構1801的一般層次可能并不是以請求/響應格式進行的提交語音會話所希望的層次。一般的來說,一些數據可能是有用的,一些則沒有用,而會話所要求的數據對用戶和管理員(服務提供商)來說都是重要的。
界面1810表示了界面1801已經被徹底數據收集之后相同的結構,其中站點的源代碼中所有的圖標和元素都被獲取用于可能的模板填充。在此需要注意的是,模板根據管理員設置的限定使得語音應用的目的是獲取最新數據并進行提交。網站1810被預備用于模板填充。圖標標注從1812a到1812n,且類別標注從1813a到1813n。
對象1810用于模仿網站的一般結構,包括圖形,圖表,會話框,文本鏈接,數據域,以及其他任何提供了的特征,使用HTML或站點的其他語言運行。為了減少可能會涉及大量潛在數目的用戶來通過一個語音入口來接收會話的因素,為了用戶的便利和網絡負載穩定都需要更加流水線化。因此,就需要一個中間步驟用來對象建模元素和樹層次的重組,這樣就可根據所需的選擇和層次填充語音應用模板,因此促進產生一個更經濟、結構和執行都更優化的語音應用。
本發明的對象建模工具可是上面圖1B中所述的客戶程序141的一部分。創建組織了層次和所需內容的對象可存在于上面圖6中所述的應用服務器110中或語音應用服務器110能訪問的本地數據庫中。
圖19中的框圖闡釋了圖18中的網站結構1801以及創建了一個網站對象進行編輯用于模板創建。其中界面1801和圖18中的界面1801的內容和描述都類似,因此參照圖18中的結構1801中的元素描述,在此不再重新引入任何元素或描述。
界面1910表示了一個數據收集后的網站,啟動時是結構1801,但為了以一種優化的方式生成語音應用模板,根據元素優先級進行了重組。可以看出本例中,執行了重要的編輯來改變被數據收集的網站的原有內容和結構。圖標1912a到1912n表示了數據收集后保留的圖標。1913a至1913n表明了這些目標的類別。首先,注意到對結構1801中的標為主頁和登錄的圖標進行了優化處理。在收集后的界面1910中這兩項被合成一個特定的標為登錄的圖標從而實現了優化,并給定附圖標記1913a。這種情況下賬戶狀態和歷史被簡化為余額這一最重要也是最經常被請求的信息。同樣這種情況下的任何圖表,圖形及其他畫面如果翻譯成會話后不能被理解,就簡單的從語音應用模板中排除。模板填充之前用于組織的中間步驟可插入到收集網站數據和生成語音應用頭文件之間。
成功登錄之后,用戶輸入PIN/用戶名/密碼組合的語音,被允許通過語音入口進入語音應用,本例中下一個優先考慮的事是使得用戶能夠快速確定他或她的賬戶余額或多個賬戶的余額。附圖標記1912b和1912c表示了假定的2個賬戶的2個余額值。使用更多或更少的優先圖標沒有偏離本發明的范圍。這種情況下,通過優化過程得到的第一個“語音應用”是使用電話把賬戶余額返回給參加了的用戶。此處其他現有的和提供了的選項包括查詢、交易和報價用附圖標記1913c至1913f表示,被移入一個較高的但級別相同的結構或構成,意味著給它們提供了相同的重要性。這三個選項是相關的,因為包含了股票特征信息的用戶請求或響應可用于對任何行為初始化。
圖20中的程序流程圖闡釋了增加了中間步驟后運行本發明的情況。步驟2000處,管理員運行上面圖17中所述的客戶程序141,對網站收集源數據和數據結構。步驟2001處,管理員創建一個可編輯的對象,表示目標網站的現有結構層次。對象樹帶有圖標和相應的屬性,完成后是可執行的。一個實施例中,為管理員提供了許多網站共享的許多標準圖標和屬性,這樣簡單的拖拉操作就可生成該對象樹。如果開發者必須從零開始來生成一個特定的目標,可使用源標記語言根據表示目標元素的對象結構單元來構造該對象。然后保存新的目標,可用于存儲和再利用。
一個實施例中,提交源描述作為發給建模器的指令能自動創建對象樹。這種情況下,結果對象被送往管理員作為結果和“準備編輯”,其中步驟2000和2001對管理員如果不是完全透明也是大部分透明的。另一個實施例中,管理員使用工作站的鼠標簡單的拖放圖標就可進行建模。
步驟2002處,管理員對一些對象進行編輯,使得它們更充分適合VXML語音提交的限定。在同一步驟中他或她也可能從樹中刪除一些對象。還是在該步驟中管理員能進一步根據翻譯的優先權移動對象或進行分組。如果網站有登錄要求,它當然是有最高的優先權或是產生的語音應用的第一個可執行的會話。復雜的登錄會被簡化。而且一個或多個對象可被合并地提交到同一會話中。這里有許多的可能性。
在另一個實施例中,對象樹可被實現為一個層或者也可能擴展為包含多個層。管理員同樣要把不是從網站獲得的原始數據(提交給會話)插入。新內容可放在對象樹的任意位置,隨后就得到其在產生的語音應用的會話中的優先級的位置。一旦語音應用完成后,程序的初始化和執行引起對站點處任何新數據的獲取和接收。使用了一個標準的導航模板來訪問站點,且僅根據對象樹中定義的數據類型進行數據接收。這樣就不會從同一網站多次重復獲取不需要的數據了。
步驟2003中,生成上述的語音應用模板。步驟2004處,管理員開始對語音應用的執行參數化,包括所有CTI連接參數的設置。步驟2005處,管理員可以創建會話。
對于本領域技術人員來說很明顯的是,用于語音提交的網絡收集內容進行預組織是一個極其有用的步驟,能夠降低復雜性,減少網絡和處理器負載,并只向通過相連的語音入口系統的外部調用撥叫進入或連接的用戶提供適當的和有用的提交語音。
增強的安全性圖21中的框圖闡釋了本發明的一個實施例中在語音入口和站點服務器之間的安全連接。
本例中所示的連接圖顯示了用戶(未示出)進入語音入口2106,其中入口2106通過網絡獲取基于網絡的數據,這里表示是在Internet 2108中,更詳細地說是一個網絡服務器2109和一個與其相連的數據庫2110。
語音入口2106包括一個語音應用服務器(VAS)2103并通過數據連接線2105和一個XML網關2104相連。本實施例中,從服務器2109上獲取其上的數據并通過傳輸線2107送往XML網關2104。然后應用服務器2103生成語音應用,把程序分配給通過電話與PSTN2101連接的用戶。對于電話技術網絡中已知的電話交換機,服務控制點,路由器和CTI裝置假定已在PSTN 2101中提供。類似的,假定Internet 2108中存在路由服務器和其他Internet中已知的節點。發明人認為圖示的設備已足夠用來解釋本發明。
一般來說,PSTN 2101中的任一個用戶發出的進入語音入口2103的語音假定為未被保護的,不管它是內部調用還是外部調用呼叫。也就是說任何有電話線路竊聽能力的人都能在用戶電話和語音應用服務器進行語音業務時進行監聽。一般來說,現有的傳統語音交易技術如公共安全的IVR入口和PIN識別已足夠獲取帳戶信息。但是有著同樣信息的其他任何人也都能進入用戶的自動帳戶線路并發現余額信息等等。
可使用網絡認證服務對服務器2109進行保護,其中用戶(在線)要從服務器2109獲取任何數據必須要發送接受證明和在線鑒別驗證的簽名。這些條件作為選項提供在用戶的瀏覽器程序中。
把安全性延伸到XML網關2104的一種方法是使用一個完全保密的數據網絡。花費較少一些可選擇如本例所示的VPN網絡。另外一種方法是通過SSL措施如HTTPS。這些方法的任一種都能用于把服務器2109的安全性控制擴展到語音入口2106。本實施例中,網關2104可根據現行的安全措施進行操作。例如,如果用戶在線到達服務器2109,更改他或她的密碼信息及簽署了一個網絡鑒別驗證,語音入口中必須記錄下相同的更改信息。
那么唯一的安全疏漏是在PSTN和入口2106之間。通過監聽線路2102能夠獲得發給任意用戶的語音信息和用戶返回的響應信息。在一定程度上一個可行的保密方案是在語音入口處和用戶的電話端使用一個語音翻譯機制。這樣,離開入口的語音可被翻譯成一種模糊的語言或甚至是代碼。在用戶端,設備(未示出)再翻譯成現在的語言,通過電話揚聲器系統會產生一個延遲。
本領域技術人員會認識到使用現有安全技術,VPN,SSL等等一個額外的優點在于安全系統已經被檢驗過而且一直在改進。本領域技術人員同樣能認識到使用許多不同技術也沒有偏離本發明的主旨和范圍。例如可以使用外部供應的網絡。也可使用多站點網絡系統增加冗余。同樣也可應用外部供應的語音服務或多服務/定位的語音服務。
用于識別的詞匯表管理根據本發明的又一個方面,發明人提供了一個詞匯表管理系統和方法,能夠增強語音識別軟件的優化。下面將描述公開使用的方法和裝置。
圖22中的框圖闡釋了本發明的一個實施例中,帶有詞匯表管理服務器2200和軟件2201的增強了的圖1B中的結構。
本實施例中的系統結構和上面圖1B中討論的結構大致相同。因此,兩個例子圖1B和圖22中的單元不再被重新引入,除非根據本發明進行了修正。
詞匯表管理服務器2200適合和詞匯表管理軟件(VMS)2201一起用來調整語音識別模板的選項使得所需詞匯表恰好可使即時語音應用充分可行。
服務器2200假定有與其相連或內部安裝的數據存儲設備,用于數據存儲和組織。參照圖17中所述的關于網絡收集數據和使用網絡收集的數據作為語音會話的源數據,本實施例中基于網絡的元件表示出了Internet訪問線路,一個和工作站140相連向其提供網絡途徑,另一個連著語音應用服務器110使其通過數據庫/資源適配器113進入網絡。這樣,假定對任何用于自動獲取,解釋和翻譯成語音會話的基于網絡的目標數據,都有通向數據的網絡途徑。
運行客戶程序141的工作站140能通過語音應用服務器2202訪問服務器2200,或者更確切的說是通過經由數據連接線2203的數據庫/資源適配器113進行訪問。這樣,管理員可使用特定的在線或離線(內部)數據源進行詞匯表選項的安裝及處理。
VMS軟件2201適用于對獲取的特定目標數據和與目標數據相關的允許的功能提供指定的單獨和分離的詞匯集。一個實施例中,對同一目標數據源提供了詞匯表的額外的子集,這樣可對通過PSTN134和入口143進行業務而獲取數據的特定的客戶進行進一步的修正。對創建的詞匯集能夠生成特定的規則集并和特定的詞匯集相連提供給程序邏輯112。
適用VXML的電話服務器130這里提供了一個文本語音轉換和語音文本轉換引擎2205作為一個改進后的引擎而替換了圖1B中所述的引擎132。一個實施例中可通過單獨的器件分別實現這兩個功能。發明人描述了一個雙工功能的單個引擎,僅僅作說明的目的。引擎2205通過數據連接線2202可訪問詞匯表管理服務器2200。
語音應用服務器110的程序邏輯112通過數據連接線2204能到達服務器2200,數據庫資源適配器113通過數據連接線2203也可到達服務器2200。一個實施例中,單根數據連接線就足夠實現語音應用服務器110和服務器2200中剛才提及的組件間的通信。
本發明的實際應用中,假定有一個基于網絡的數據源,語音識別能以一種和前述實施例不同的方法進行操作。例如,假定一個客戶通過電話135進入PSTN 134中的語音入口143,進入他或她的包含了賬戶余額提交和股票交易選項的個人投資網頁。服務器2200中對目標網站有一個由VMS 2201管理的特定的詞匯表。可能對該客戶還存在詞匯表的子集并在父詞匯集下進行組織。
電話服務器130識別到進入的用戶,并觸發一個現有的語音應用。語音應用服務器2202代表用戶經數據庫資源適配器113和Internet訪問線和網站連接。按照語音應用模板的限定,數據庫資源適配器在用戶連接到第一個或起始會話之后提供用戶登錄和密碼信息,然后獲得帳戶數據及該用戶有權得到的其他任何最新數據。提交給用戶的語音應用的第一個會話響應可能只包括用戶帳戶的對應的股票值和與這些特定符號相關的現存貨幣余額。當對用戶有更多的可用信息時,一些可用信息對用戶可能是不相關或無用的。因此,在每個會話提交前,VMS 2201為每個特定的會話功能提供合適的詞匯集和規則集,一些情況下也提供給進入系統的用戶。因此,語音識別軟件不需要尋找一個很大的詞匯表來解釋提交后的VXML頁面。這種情況下,VXML頁面自身在送往電話服務器130之前就已受限于詞匯表的管理功能。
另一個實施例中,在提交了標準VXML頁面后,服務器130內開始語音識別之前發生VMS 2201的介入。這種情況下,引擎2205查詢服務器2200以獲得合適的詞匯表的限定。本例中沒有被VXML識別的數據被簡單地丟棄了。VMS 2201可以在會話過程中的許多不同的位置上用來使語音識別功能流水線化。例如,進一步描述上面的第一個會話響應,可能會提示用戶啟動任何所需的交易行為。如果用戶選擇進行某些交易,引擎2205的語音文本轉換部分可能向VMS2201查閱一個對該用戶修正后的有限制的交易詞匯表。這樣的詞匯表可對不同的客戶進行擴展,也就是例如貴賓(VIP)可以允許有更多的選項。客戶提交的和提供的詞匯表不匹配以及/或者和規則不一致的語音會被忽略。
除了為語音識別提供個人化和簡化的詞匯表功能,管理員可以使用VMS創建新的詞匯表以及/或創建多個能被識別為同一個詞匯表單詞的同義詞。例如,管理員可把股票、股份和證券設定為描述票證的同義詞。賣出、賣空、和清倉都可被理解成賣出票證的同義詞。這里也有許多不同的可能性。一般來說,VMS 2201作為一種管理工具能被應用在一個通信方向(服務器至用戶),用來限制VXML頁面上的數據提交,或限制VXML頁面的語音識別以及丟棄未識別的部分。VMS 2201還可應用于相反方向(用戶至服務商)的會話步驟中,根據服務保證和限定來修正用戶或用戶組所允許的語音識別功能。
一個實施例中,VMS 2201僅對VXML數據流起作用,它可在應用服務器110或電話服務器130內作用。可以想到的是對進入一個數據源的同一用戶的相同語音應用的不同的會話(初始和響應會話)可使用VMS 2201的不同詞匯集進行限定。因此管理能力的最佳水平體現在行為/響應上。通過在業務中每個可行的步驟對語音識別過程進行限制,能保留下更多的處理能力和帶寬以備其他用途。
對于本領域技術人員很明顯的是,本發明的方法和裝置能被應用于內部數據源和外部數據源,其中一些外部數據源是類似于網站數據以及其他類型的數字數據網上可用的數據的基于網絡的數據源。
本發明的方法和裝置考慮到許多可能的實施例和用途,在審查中應給予最充分的理解。本發明的主旨和范圍不局限于下列的權利要求。
權利要求
1.一種對于在用戶經語音入口訪問數據源的過程中使用語音應用時與文本語音轉換和語音文本轉換的提交相關的語音識別處理進行限制的詞匯表管理系統,包括一個詞匯表管理服務器,與語音應用服務器和電話服務器相連接;以及運行在管理服務器上的詞匯表管理軟件的實例,用于語音識別軟件的詞匯表的建立和管理;其特征在于,管理員訪問詞匯表管理服務器,使用該軟件創建唯一的詞匯集,該詞匯集是和目標數據源相關的詞匯表中選定的特定部分,詞匯集根據管理員的指令而具有不同的內容。
2.如權利要求1中所述的系統,其中語音入口是一個在電話環境中工作的交互式語音響應單元。
3.如權利要求1中所述的系統,其中數據源位于Internet網絡上,并通過電話技術網絡來訪問。
4.如權利要求1中所述的系統,其中語音應用服務器提交VXML格式的數據,以進行文本語音轉換識別。
5.如權利要求1中所述的系統,其中用于對訪問用戶進行語音表示的唯一的詞匯集和唯一的規則集相關聯。
6.如權利要求1中所述的系統,其中唯一的詞匯集與對于特定的訪問用戶專用的詞匯子集相關聯。
7.如權利要求6中所述的系統,其中唯一的詞匯子集和唯一的規則子集相關聯。
8.如權利要求1中所述的系統,其中詞匯集既包括數據源中發現的單詞,也包括管理員引入的單詞。
9.一種對于在用戶經語音入口訪問數據源的過程中使用語音應用時與文本語音轉換和語音文本轉換的提交相關的語音識別處理進行限制的詞匯表管理服務器,包括一個詞匯表管理軟件應用程序,用于創建并管理詞匯集;以及一個用戶接口,用于操作軟件應用程序;其特征在于,服務器被配置用來發送特定的詞匯集和規則集,以用于語音應用程序的語音識別中,還具有配置系統,能以語音識別功能的較低的處理要求來創建會話。
10.如權利要求9中所述的詞匯表管理服務器,其中語音入口是一個在電話環境中工作的交互式語音響應單元。
11.如權利要求9中所述的詞匯表管理服務器,其中數據源位于Internet網絡上,并通過電話技術網絡來訪問。
12.如權利要求9中所述的詞匯表管理服務器,其中語音應用服務器提交VXML格式的數據,以進行文本語音轉換識別。
13.如權利要求9中所述的詞匯表管理服務器,其中用于對訪問用戶進行語音表示的唯一的詞匯集和唯一的規則集相關聯。
14.如權利要求13中所述的詞匯表管理服務器,其中唯一的詞匯集與對于特定的訪問用戶專用的詞匯子集相關聯。
15.如權利要求14中所述的詞匯表管理服務器,其中唯一的詞匯子集和唯一的規則子集相關聯。
16.如權利要求9中所述的詞匯表管理服務器,其中詞匯集既包括數據源中發現的單詞,也包括管理員引入的單詞。
17.如權利要求9中所述的詞匯表管理服務器,其中語音通過受話器提供給用戶。
18.一種用于限制VXML格式的語音應用及開發系統中的語音識別處理要求的方法,包括的步驟有(a)提供一個詞匯表管理軟件實例,用于創建、編輯、并組織語音識別過程所需的詞匯集;(b)使用該軟件創建詞匯集,詞匯集包括和語音應用中創建會話所要用到的數據源相關的一部分可用詞匯;(c)當語音應用的語音識別部分被觸發時,對語音應用進行設置以使用已創建的詞匯集;并且(d)配置語音應用并執行。
19.如權利要求18中所述的方法,其中步驟(a)中詞匯表管理軟件訪問語音應用系統的數據資源適配器的應用邏輯。
20.如權利要求18中所述的方法,其中步驟(a)中詞匯集對于數據源是特定的。
21.如權利要求18中所述的方法,其中步驟(a)中詞匯集對于和數據源相關的客戶行為是特定的。
22.如權利要求18中所述的方法,其中步驟(a)中詞匯集與一個或多個詞匯子集相關聯。
23.如權利要求18中所述的方法,其中步驟(b)中通過一個安裝了客戶語音應用軟件的相連接的工作站上管理員的輸入進行該軟件的操作。
24.如權利要求18中所述的方法,其中步驟(b)中詞匯集中的單詞也包括由管理員引入的單詞。
25.如權利要求18中所述的方法,其中步驟(c)中的設置過程包括了與詞匯集相關的訪問適用規則。
26.如權利要求18中所述的方法,其中步驟(c)中的設置過程進一步包括對在詞匯集范圍內組織的詞匯子集以及在規則集范圍內組織的規則子集的訪問,其中子元素對于單個客戶是特定的。
27.如權利要求18中所述的方法,其中步驟(d)中語音應用存儲在語音應用服務器中用于執行。
28.如權利要求27中所述的方法,其中執行過程包括由訪問用戶觸發產生的語音分配,或由于外部調用呼叫向用戶提供會話。
全文摘要
一種對于在用戶經語音入口訪問數據源的過程中使用語音應用時與文本語音轉換和語音文本轉換的提交相關的語音識別處理進行限制的詞匯表管理系統,包括一個詞匯表管理服務器,與語音應用服務器和電話服務器相連接;以及運行在管理服務器上的詞匯表管理軟件的實例,用于語音識別軟件的詞匯表的建立和管理。該系統的特征在于,管理員訪問詞匯表管理服務器,使用該軟件創建唯一的詞匯集,該詞匯集是和目標數據源相關的詞匯表中選定的特定部分,詞匯集根據管理員的指令而具有不同的內容。
文檔編號G10L15/00GK1522432SQ02813298
公開日2004年8月18日 申請日期2002年7月2日 優先權日2001年7月3日
發明者邁克爾·S·阮, 利奧·肖, 肖, 邁克爾 S 阮 申請人:弗尼萊特技術公司