專利名稱:向被聲音啟動的數據處理系統發送聲音樣本的方法和裝置的制作方法
技術領域:
本發明涉及改進與語音識別系統的通信,更具體地說,是涉及向一個數據處理系統的一個依賴于說話者的語音識別系統傳送聲音樣本的方法和裝置,但不限于此。
口語在人與人的通信以及人-機通信和機-人通信當中起到重要作用。例如,現代語音郵件系統、幫助系統、以及電視會議系統都把人的語音包括進去了。再有,隨著技術繼續更新,人的語音將在機/人通信中發揮更大的作用。特別是可以預見,一個無線ATM機(自動取款機)(或任何類型的無線機,如油泵、旅行信息亭、銷售端點)將包含一個語音識別系統,從而用戶只需向ATM機說話。本發明試圖使用戶容易而有效地與這類機器進行口頭通信,而無需向這種機器插入卡片或任何其它類型的裝置。
傳統的語音識別裝置“聽取”并理解人的語音。然而,為了具有可以接受的聲音識別精度,傳統的語音識別系統利用了所存儲的用戶聲音樣本。用戶朗誦30個左右精心構造的句子,這些句子能抓住足夠的聲音特征,從而產生出聲音樣本。語音特征含有用戶語音的韻律學特征,包括節奏、音調、變音和速度。傳統的語音分析器處理語音樣本,分離出每個雙音(diphone)段的音頻樣本并確定特征韻律曲線。語音分析器使用眾所周知的數字信號處理技術例如隱式馬爾可夫模型,以產生出雙音段和韻律曲線。所以,利用存儲的語音樣本,傳統的語音識別系統有大約90%的準確率。然而,若每次用戶想與一無線機器進行口頭通信時都需要重復那30個句子,這將是很不利的。
根據所給出的背景信息,對于大量用戶而言,將會特別希望能夠高效率地、有效地通過語音與無線交互相器進行遠程通信,這對于他們是特別有利的。然而,這必須開發出一種技術或裝置,使得在用戶能以高準確率與機器進行口頭通信之前,把分析過的用戶聲音樣本傳送給該機器。
本發明的第一方面的發明提供了一種方法,用于改善與至少一個遠程聲音啟動數據處理系統的聲音通信。該處理系統中具有一個語音識別系統。該方法包括以下步驟(a)把用戶的聲音特征存貯在一個無線傳輸裝置的存儲器中;(b)響應聲音啟動命令,用聲音啟動該無線傳輸裝置和遠程語音識別系統;以及(c)響應對無線傳輸裝置和語音識別系統的啟動,將聲音特征從存儲器傳送給語音識別系統,從而使用戶能與被聲音啟動的處理系統直接進行口頭通信。
本發明第二方面的發明提供了一種聲音傳輸系統,該系統使與設在遠程數據處理系統中的遠程語音識別系統進行聲音通信成為可能,該聲音傳輸系統包括無線傳輸裝置,其中有存儲器用于存貯用戶的聲音特征;該無線傳輸裝置和語音識別系統適應于響應由無線傳輸裝置收到的聲音啟動命令,從而被啟動;以及該無線傳輸裝置適應于響應啟動語音識別系統和無線傳輸裝置,以從存儲器向語音識別系統傳送聲音特征,從而使用戶能直接與語音識別系統進行口頭通信。
在本發明的一個最佳實施例中,一種裝置和由計算機實現的方法把被分析的聲音樣本從用戶攜帶的無線傳輸裝置傳送給遠程數據處理系統,該系統具有語音識別系統以讀取聲音樣本。該方法包括的第一步驟是把一組用戶聲音特征存儲到無線傳輸裝置的一個存儲器(例如一個RAM(隨機存取存儲器)芯片)中。第二步驟包括響應聲音命令用聲音啟動傳輸裝置和遠程語音識別系統。在傳輸裝置和語音識別系統已被啟動之后,其第三步驟包括自動地從存儲器到語音識別系統遠程傳送聲音特征,從而使得用戶能直接與被啟動的數據處理系統進行口頭通信。
本發明提供一種改進的聲音傳輸系統,它響應預先定義的聲音命令,自動地把用戶的聲音特征傳輸給一個無線數據處理系統。
本發明還提供一種裝置(例如傳輸裝置),用于存儲用戶的聲音特征和把聲音特征傳送給數據處理系統,還提供一種裝置用于啟動數據處理系統去等待和接收這個聲音特征。
現在將參考附圖以實例更詳細地描述本發明。
圖1顯示實現本發明的代表性硬件環境的方框圖。
圖2顯示了根據本發明的改進的聲音傳輸系統的方框圖。
圖3顯示了一個用戶攜帶無線傳輸裝置與遠程數據處理系統通信的情況。
圖4顯示了從無線傳輸裝置向遠程數據處理系統傳送聲音特征的流程圖。
本發明的最佳實施例包括把含有用戶聲音特征的聲音樣本遠程自動傳送給語音識別系統的方法和裝置。
該最佳實施例是在膝上計算機或工作站(如圖1所示)中實現的。工作站100包括中央處理單元(CPU)10(例如IBMTM的PowerPCTM601或IntelTM486微處理器)用于處理緩存15,隨機存取存儲器(RAM)14,只讀存儲器16,以及非易失RAM(NVRAM)32。由I/O適配器18控制的一個或多個磁盤20提供了長期存儲能力。多種其他存儲介質也可以利用,包括磁帶、CD-ROM、以及WORM驅動器。也可以提供可拆卸存儲介質,以存儲數據或計算機處理指令。
來自采用任何適當操作系統(如Sun SolarisTM,MicrosoftWindows NTTM,IBMOS/2TM,或Apple MACOSTM)的桌上型計算機的指令和數據通過RAM14控制CPU10。然而,本行業的熟練人員不難認識到,其他硬件平臺和操作系統也可以用來實現本發明。
用戶通過由用戶接口適配器22控制的I/O裝置(即用戶控制器)與工作站100進行通信。顯示器38向用戶顯示信息,而鍵盤24、指點裝置26、傳輸裝置30及揚聲器28則讓用戶去指揮計算機系統。也可以利用其他類型的用戶控制器,如游戲棒、觸摸屏、或虛擬現實頭戴送受話器(headset)(圖中未畫出)。通信適配器34控制該計算機系統和由網絡適配器40連到網絡上的其他處理單元之間的通信。顯示適配器36控制該計算機系統和顯示器38之間的通信。
圖2顯示出根據該最佳實施例的一個完整的聲音傳輸系統200的方框圖。傳輸系統200包括聲音特征提取器210、傳輸裝置220以及語音識別系統230。聲音特征提取器210裝在任何適當的工作站(如圖1所示工作站100)中,包括模數轉換(A/D)子系統204、語音分析器206以及語音壓縮電路207。
圖4顯示出從無線傳輸裝置向遠程數據處理系統傳送聲音特征的流程圖。參考圖2和圖4,在本實施例中,用戶把包含說話者足夠的聲音特征的聲音樣本(例如大約30個句子)通告給話筒202(步驟410)。聲音特征包括聲音的韻律,例如節奏、音調、變音和速度。這類句子對于語言合成技術專家而言是公知的。例如,一個句子可以是“The quickfox jumped over the lazy brown dog”(敏捷的狐貍躍過了褐色的懶狗)”。A/D子系統204(和222)對聲音樣本取樣和數字化,該子系統可包括任何適當的模擬-數字系統,如IBM的MACPA(即多媒體音頻接收和回放適配器),Creative Labs的聲霸(Sound Blaster)聲卡或單片機解決方案(步驟412)。
接下來,任何適當的傳統的語音分析器206對被數字化的聲音樣本進行處理,以把每個雙音段的音頻樣本隔離開并確定韻律曲線(步驟414)。語音分析器206使用眾所周知的數字信號處理技術,例如隱式馬爾可夫模型,以產生雙音段和韻律曲線。美國專利4,961,229號和3,816,722號描述了合適的語音分析器。
語音編碼電路207利用傳統的數字編碼技術壓縮雙音段和韻律曲線,從而降低對傳輸帶寬和存儲的要求(步驟416)。語音編碼電路207把得到的被壓縮韻律曲線和雙音段存儲在傳輸裝置220的RAM226(例如存儲器)中。本專業專家會認識到,可以用任何適當類型的存儲器裝置代替RAM226,例如流水線短時脈沖存儲器(Pipeline burstmemory),快閃存儲器,或縮小尺寸的DASD。傳輸裝置220還包括由聲音啟動的用于接收聲音啟動命令的話筒221、A/D子系統222、語音識別電路224、電源(未畫出),處理器228以及傳輸單元229。
圖3顯示出一用戶攜帶無線傳輸裝置220與一遠程數據處理系統310通信的情況。參考圖2、3、4,在該最佳實施例中,用戶攜帶傳輸裝置220與攜帶一枚胸針類似。另一種方法是用戶能把傳輸裝置220帶在他/她的嘴上。當用戶希望與遠程數據處理系統(例如自動取款機(ATM))310中的語言識別系統230通信時,用戶(他攜帶著傳輸裝置220)靠近遠程數據處理系統310并把一個聲音啟動命令(例如“COMPUTER(計算機)”;“LOGON COMPUTER(登錄計算機)”)朗讀到傳輸裝置220的聲音啟動話筒221中。(步驟418)。說明這一點是重要的,即“無線”的含義是數據處理系統310與傳輸裝置220之間是無線的。由聲音啟動的話筒221檢測聲音啟動命令,而A/D子系統222則對那個聲音啟動命令進行采樣和數字化。A/D子系統221把被數字化的聲音啟動命令發送給語音識別電路224。
語音識別電路224(及234)包括任何適當的聲音識別電路,如IBM的Voice type DictationTM(聲控)產品或Dragon voice Recognitionsystem(龍牌聲音識別系統)中的聲音識別電路。如果語音識別系統224識別出了這個聲音啟動命令,它便向處理器228發送一個指示這一命令的信號。處理器228響應這一信號,向傳輸單元229發送一個信號,以把該聲音啟動命令傳送給語音識別系統230的接收單元232(步驟420)。傳輸單元229可以是任何適當類型的無線傳輸單元(例如激光、紅外光發射二極管);然而,在該最佳實施例中,傳輸單元229是一個射頻(RF)發射機。處理器228向RAM226發送一個短的暫停(time out)信號,以讓語音識別系統230被喚醒(步驟422)。
語音識別系統230包括接收單元232,語音解壓電路233以及語音識別電路234。系統230可放在任何適當的工作站(例如工作站100)中。接收單元232把收到的聲音啟動命令發送給語音解壓電路233,在那里它被解壓。語音解壓電路233把聲音啟動命令發送給聲音識別電路234。如果語音識別電路234識別出這個聲音啟動命令,它便被啟動并等待接收來自傳輸裝置220的韻律曲線和雙音段。于是,單一的聲音啟動命令啟動了傳輸裝置220和語音識別系統230。所以,在經過程時暫停之后,處理器228指示RAM226通過傳輸單元229和接收單元232把韻律曲線和雙音段發送給語音識別電路234(步驟424和426)。語音識別是電路234使用那些韻律曲線和雙音段來識別用戶的聲音。現在用戶可以直接對語音識別系統230講話了。
因此,該最佳實施例把用戶的聲音特征傳送給一個無線遠程機器,這只需要用戶朗讀一個聲音啟動命令而無需做任何其他事情。不需插入卡片。所以,用戶能同時啟動不止一個無線遠程數據處理系統,而靠插入卡片是不可能實現這一點的。
盡管已經參考具體實施例顯示和描述了本發明,但本行業的熟練人員會理解,在本發明的范圍內可以在形式和細節上做出前述的和其他的改變。
權利要求
1.一種改善與至少一個帶有語音識別系統的遠程聲音啟動數據處理系統進行聲音通信的方法,包括以下步驟(a)把用戶的聲音特征存貯在一個無線傳輸裝置的存儲器中;(b)響應聲音啟動命令,用聲音啟動該無線傳輸裝置和遠程語音識別系統;以及(c)響應對無線傳輸裝置和語音識別系統的啟動,將聲音特征從存儲器傳送給語音識別系統,從而使用戶能與被聲音啟動的處理系統直接進行口頭通信。
2.根據權利要求1的方法,其中步驟(a)包括下列步驟獲取用戶的聲音樣本;對獲取的聲音樣本進行數字化,從而構成被數字化的聲音;利用語音分析器從數字化聲音中提取聲音特征;以及把聲音特征存貯在存儲器中。
3.根據權利要求1或權利要求2的方法,其中步驟(b)包括下列步驟由無線傳輸裝置接收來自用戶的聲音啟動命令以喚醒傳輸裝置;以及把該聲音啟動命令從無線傳輸裝置傳送給語音識別系統以喚醒該語音識別系統。
4.根據權利要求3的方法,其中步驟(b)還包括如下步驟從無線傳輸裝置向存儲器發一個信號,以允許在傳輸聲音特征之前使語音識別系統被喚醒。
5.根據權利要求4的方法,其中步驟(c)包括以下步驟從處理器向存儲器發送一個信號以把聲音特征傳送給語音識別系統。
6.一種聲音傳輸系統,用于使能與放在遠程數據處理系統中的遠程語音識別系統進行聲音通信,該聲音傳輸系統包括無線傳輸裝置,其中有存儲器用于存貯用戶的聲音特征;該無線傳輸裝置和語音識別系統適應于響應由無線傳輸裝置收到的聲音啟動命令,從而被啟動;以及該無線傳輸裝置適應于響應啟動語音識別系統和無線傳輸裝置,以從存儲器向語音識別系統傳送聲音特征,從而使用戶能直接與語音識別系統進行口頭通信。
7.根據權利要求6的系統,還包括聲音特征提取器,用于從用戶的聲音樣本中產生聲音特征。
8.根據權利要求6或權利要求7的系統,這里無線傳輸裝置的組成包括用于接收聲音啟動命令的話筒,用于識別該聲音命令的語音識別電路,以及用于把收到的聲音啟動命令傳送給語音識別系統的傳輸單元。
9.根據權利要求8的系統,其中的傳輸單元由一個射頻(RF)發射機構成。
10.根據權利要求8或權利要求9的系統,其中的無線傳輸裝置還包括一個處理器,用于控制存儲器和傳輸單元。
全文摘要
本發明為一種把被分析的聲音樣本從用戶攜帶的無線傳輸裝置傳送給帶有語音識別系統的遠程聲音啟動的數據處理系統的裝置和方法。該方法包括的第一步驟是把用戶的聲音特征存貯到無線傳輸裝置的存儲器(例如RAM芯片)中。第二步驟包括用聲音啟動傳輸裝置和語音識別系統。在傳輸裝置和語音識別系統被啟動之后,其第三步驟包括把聲音特征從存儲器傳送給語音識別系統,從而使用戶能與被聲音啟動的處理系統直接進行口頭通信。
文檔編號G07C9/00GK1189900SQ96195188
公開日1998年8月5日 申請日期1996年6月27日 優先權日1995年6月30日
發明者喬伊·李·克里那, 斯考特·哈蘭·伊森斯, 里奇·李·珀斯通, 喬恩·哈拉爾德·韋那 申請人:國際商業機器公司