專利名稱:交互式語言訓練設備的制作方法
技術領域:
本發明的領域本發明涉及在教育系統中特別有用的口語識別系統,尤其是涉及用來教授語言的提供基于音素的口語識別的計算機系統。
本發明的背景用于教授語言的計算機系統是眾知的。美國專利No.5,487,671說明了一種用于教授語言的計算機系統,該系統特別地給出了用戶的語言和基準語言之間關系的一種指示,本發明的發明人是該專利發明人之一。
可以從The Learning Company(“學習公司”)購得商品名為“Learn toSpeak English(學習說英語)”的一種產品,該產品基本上具有上述專利的特性。
從以下各公司可購得這方面的其他一些產品HyperGlot、Berlitz、Syracuse Language Systems Mindscape Global Language和Rosetta StoneLanguage Library。
基于音素的口語識別計算機系統也是眾知的,并能購買到。這種系統的例子有“IBM Voice Type,Simply Speaking for students,home users a ndsmall businesses(IBM語音型,學生、家庭用戶和小公司的簡單口語)”,由IBM(國際商用機器公司)推出;“IBM Voice Type for professional and business use(IBM語音型,專業和商務應用)”,由IBM推出;
“Talk To Me(對我說話)”,由美國麻省Newton市的Dragon Systems推出;“ASR-1500”,由比利時Leper市的Lernout&Hauspie SpeechProducts N.V.推出。
本發明概述本發明試圖提供一種進一步改進的用于教授語言的計算機系統,它能夠向用戶指明用戶發音錯誤的類型。
于是,根據本發明的一個優選實施例提供了一種用于交互式語言訓練的設備,該設備包括一個觸發發生器,用于誘導用戶作出期望的語聲應答;一個期望語聲應答基準庫,其中含有許多基準期望應答,這許多基準期望應答包含多個具有可接受的發音的第一類基準期望應答,并且對每一個具有可接受發音的第一類基準期望應答都含有多個各自有不同的發音錯誤的第二類基準期望應答。
一個語聲應答記分器,它指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及一個用戶反饋界面,它向用戶指明用戶給出的期望語聲應答中的發音錯誤。
用戶反饋界面最好還向用戶給出關于如何克服發音錯誤的教導。
根據本發明的一個優選實施例,用戶反饋界面在緊接著每個期望語聲應答之后立即向用戶指明相應的發音錯誤。
反饋界面最好聲響地和可視地指明發音錯誤。
根據本發明的一個優選實施例,有一個語聲樣本發生器,它的工作使得期望發聲應答是語聲樣本的復現。
或者,語聲樣本發生器的工作使期望語聲應答不是語聲樣本的復現。
另一種選擇是,語聲樣本發生器的工作使期望語聲應答是可以從多于一個的可能的期望語聲應答中選擇的一個語聲樣本。
觸發發生器最好含有一個語聲樣本發生器,用來向用戶再生語聲樣本。
另一種選擇是,觸發發生器含有一個可視觸發發生器,或者增添一個可視觸發發生器,用來向用戶提供可視的觸發輸出。
期望語聲應答庫最好包括一個期望語聲應答基準庫。
根據本發明的一個優選實施例,期望語聲應答基準庫包括許多樣板,并且這個庫與說話人無關。
根據本發明的一個優選實施例還提供了一種用于交互式語言訓練的方法,該方法包括誘導用戶給出期望語聲應答提供一個包含許多基準期望應答的期望語聲應答基準庫,這許多基準期望應答包含具有可接受的發音的多個第一類基準期望應答,并且對每一個具有可接受發音的第一類基準期望應答都有多個各自有不同的發音錯誤的第二基準期望應答;指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及向用戶指明在用戶給出的期望語聲應答中的發音錯誤。
還是根據本發明的一個優選實施例,該方法還包括向用戶給出如何克服發音錯誤的教導。
還是根據本發明的一個優選實施例,該方法還包括緊接著每個期望語聲應答之后立即向用戶指明相應的發音錯誤。
還是根據本發明的一個優選實施例,該方法包括向上述用戶聲響地和可視地指明上述發音錯誤。
還是根據本發明的一個優選實施例,該方法還包括期望語聲應答是上述語聲樣本的復現。
或者,該方法還包括期望語聲應答不是上述語聲樣本的復現。
還是根據本發明的一個優選實施例,期望語聲應答是可以從多于一個的可能的期望語聲應答中選擇的一個語聲樣本。
還是根據本發明的又一個優選實施例,誘導語聲應答的步驟包括向用戶再生語聲樣本。
還是根據本發明的一個優選實施例,誘導步驟包括向用戶提供可視的觸發輸出。
根據本發明的一個優選實施例,還提供了一種口語識別設備,該設備包括至少一個含有至少是第一種語言和第二種語言的一些口語元素的數據庫;一個用來接收待識別口語的接收器;以及一個用來把口語的特征與至少是第一種語言和第二種語言的一些口語元素的特征的組合進行比較的比較器。應該指出,在某些情況下口語元素特征的組合可以是單個口語元素的特征。口語元素的特征可以是口語元素信號。
根據本發明的一個優選實施例,還提供了一種語言教學系統,該系統包括一個用來誘導用戶給出期望語聲應答的觸發發生器;一個口語識別器,它用來接收用戶說出的期望語聲應答,它含有至少一個含有至少是第一種語言和第二種語言的一些口語元素的數據庫;一個用來接收待識別口語的接收器;一個用來把上述口語的特征與上述至少是第一種語言和第二種語言的一些口語元素的特征的組合進行比較的比較器;以及一個用戶反饋界面,用來向用戶指明在用戶給出的期望語聲應答中的錯誤。應該指出,在某些情況中口語元素的特征的組合特征可以是單個口語元素的特征。口語元素的特征可以是口語元素信號。
還是根據本發明的一個優選實施例,口語元素包含音素、雙音素和音素間過渡中的至少一種。
還是根據本發明的一個優選實施例,語言教學系統還含有一個樣板發生器,它的工作將產生短語樣板。
還是根據本發明的一個優選實施例,該語言教學系統還含有一個特征提取器,它的工作將提取接收器所接收到的口語的特征。
根據本發明的一個優選實施例,還提供了一種口語識別方法,該方法包括提供至少一個含有至少是第一種語言和第二種語言的一些口語元素的數據庫;接收待識別的口語;以及把口語的特征與至少是第一種語言和第二種語言的一些口語元素的特征的組合進行比較。應該指出,在某些情況中口語元素的特征的組合可以是單個口語元素的特征。口語元素的特征可以是口語元素信號。
還是根據本發明的一個優選實施例,口語是用戶用第一種語言說出的,而該用戶的母語是第二種語言,并且其中至少一個數據庫同時含有第一種和第二種這兩種語言的口語元素。
還是根據本發明的一個優選實施例,至少第一種和第二種語言是不同民族的語言。
仍是根據本發明的一個優選實施例,至少第一種和第二種語言是同一民族的語言中的不同方言。
附圖的簡單說明通過下面結合附圖所作的詳細說明,將可更充分際了解和認識本發明,在附圖中
圖1是根據本發明的一個優選例構筑和操作的一種交互式語言教學系統的概要圖形說明;圖2是在語言教學過程中圖1系統的操作的概要功能性方框圖;圖3是在根據本發明的一個實施例進行語聲基準庫生成的過程中圖1系統的操作的功能性方框圖;圖4是在根據本發明的另一個實施例進行語聲基準庫生成的過程中圖1系統的操作的概要功能性方框圖;圖5A和5B組成了說明在根據圖2的概要功能性方框圖進行語言教學的過程中系統的操作的概要流程圖;圖6A、6B和6C組成了說明在根據圖3的概要功能性方框圖進行用于語言教學的語聲基準庫的生成過程中系統的一種操作方法的概要流程圖;圖7是說明在根據圖4的概要功能性方框圖進行用于語言教學的語聲基準庫的生成過程中系統的操作的概要流程圖8是圖4中所用類型的語音樣板數據庫的生成的簡化圖示說明;圖9是一個標記語言(labeled speech)波形的簡化圖示說明;圖10是根據本發明的一個優選實施例的多語言語音數據庫的生成的圖示說明;圖11是利用音素的口語識別的圖示說明;以及圖12是利用各種語言的音素的口語識別的圖示說明。
優選實施例的詳細說明現在參見圖1和圖2,前者是根據本發明的一個優選實施例構作和操作的一種交互式語言教學系統的概要圖形說明,后者是在語言教學過程中圖1系統的操作的概要功能性方框圖。
應該指出,圖1的系統與美國專利No.5,487,671中說明的ComputerizedSystem for Teaching Speech(用于口語教學的計算機系統)有許多相似之處,該專利所公開的內容在此引作參考。
如下面將要詳細說明的,本發明的系統與美國專利No.5,487,671的系統的差別在于,本系統操作中帶有一些各自有不同發音錯誤的基準期望應答,并且本系統含有一個語聲應答記分器,它指明了用戶給出的期望語聲應答和帶有發音錯誤的基準期望應答之間的關系。
圖1和2的系統具有根據本發明的一個優選實施例的口語識別功能。
圖1和2的系統最好以一臺普通的個人計算機10為基礎,該計算機例如是一臺IBM PC或兼容機,其中采用了33MHz或更高主頻的Intel80486CPU(中央處理單元)、至少8MB的存儲器、并且用6.0版本或以上的DOS操作系統。個人計算機10最好配備有一個輔助聲響模塊12。例如,一種合適的聲響模塊12是由Digispeech,Inc公司制造并由美國加州Mountain View市的DSP SOLUTIONS Inc.公司在美國發行銷售的Digispeech Plus聲響適配器(DS311)。最好有一個頭盔14與聲響模塊12相連。
通常,對個人計算機10和聲響模塊12配置有適當的軟件,以便提供下述各種功能一個用來誘導用戶給出期望語聲應答的觸發發生器,該觸發發生器最好包括一個語聲樣本發生器,以向用戶再生語聲樣本,或者也可增加或更換成一個可視觸發發生器,以向用戶提供可視的觸發輸出;一個含有許多基準期望應答的期望語聲應答基準庫,這許多基準期望應答包含多個具有可接受的發音的第一類基準期望應答,并且對每一個具有可接受發音的第一類基準期望應答都有多個各自有不同的發音錯誤的第二類應答。多個第二類基準期望應答可以包含由各種語言的音素所構成的應答,并且一般可以應用于口語識別;一個語聲應答記分器,它指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應答中可能存在的發音錯誤。
用戶返饋界面最好通過聲響模塊12和頭盔14來提供聲響反饋。此外,從圖1和2可以看出,最好還提供一個顯示器16,以便用可視的方式向用戶指明發音錯誤,如圖1中所示。
根據本發明的一個優選實施例,使用了總共6個不同的數據庫。為了方便于和易于理解本發明,下面按這6個數據庫在本發明中生成和使用的次序,對它們作一簡短的說明A.中間語聲樣本數據庫--該數據庫由記錄許多本民族民眾的說話來生成,這些民眾有不同出生地、不同年令和不同性別的分布。這許多本發族民眾可以包括說各種不同語言的人。每個說話人要發出多個預定短語的聲音。對于其中每一個預定短語,每個說話人要正確地發音該短語,還要重復幾次不正確的發音,每次發音帶有多種預定發音錯誤中的一種預定錯誤。該數據庫最好對每個說話人和每個上述短語發音有多次的記錄,以增強統計的基礎。
B.期望語聲應答基準數據庫--這是一個含有一些樣板而不是含有口語記錄的數據庫。
可以提供各種類型的樣板。一種在基于單詞的口語識別中有用的類型的樣板可以用后述方法從數據庫A中導出。另一種在基于音素的口語識別中有用的類型的樣板包括一些口語元素的特征的各種組合,這些口語元素的總體代表一個短語。
在基于單詞的口語識別中有用的樣板可以從中間語聲樣本數據庫A導出,其方法是從每個發音短語中提取一些口語參數,并把它們統計地結合起來,以代表上述許多本民族民眾的發音。
這樣,每一個樣板便代表了一群本民族民眾發音的統計結合。
有可能只生成單個樣板來涵括在中間語聲樣本數據庫A中記錄了他們的發音的所有本民族民眾,或者,如果單個樣板不能精確地代表全部本民族民眾,則也可以用多個樣板。例如可以用一個樣板代表男性,另一個樣板代表女性。各個樣板也可以增添或代之以含有另一種語言的一些音素。
根據本發明的一個優選實施例,期望語聲應答基準數據庫B構成了前述的期望語聲應答基準庫。這是一種與說話人無關的數據庫。
可以提供各種類型的樣板。一種類型的樣板在基于單詞的口語識別中有用,可以用上述方法從數據庫A導出。另一種類型的樣板在基于音素的口語識別中有用,包括一些口語元素的特征的各種組合,這些口語元素的總體代表一個短語。
C.語音數據庫--這是一種可購買到的關于某一種給定語言的一些音素的口語參數的數據庫。這數據庫例如可以從AT&T(美國電話電報公司)、美國科羅拉多州Boulder市的Speech Systems Incorporated公司、以及比利時Leper市的Lernout&Hauspie Speech Products N.V.公司購到。可以配置多個語音數據庫,其中每一個分別含有一種不同語言的音素口語參數,這些語音數據庫的總體在這里仍叫做語音數據庫。
D.用戶應答數據庫--這是用戶應答記錄的一個集合。
E.期望語聲樣本數據庫--這是對每一個正確地發出了多個短語中每個短語的聲音的單個訓練說話人的記錄的集合。
F.基準語聲樣本數據庫--這是對每一個幾次不正確地發出了多個短語中每個短語的聲音的單個訓練說話人的記錄的集合,其中每次不正確發音各帶有多種預定發音錯誤中的一種不同的錯誤。
現在參見圖2,這是一個在語言教學過程中圖1系統的操作的概要功能性方框圖。
為了誘導用戶給出期望語聲應答,通過聲響模塊14(圖1)向用戶再生存儲在期望語聲樣本數據庫E中的語聲樣本。通常作為頭盔14的一部分的一個話筒20被用來記錄用戶的語聲應答,該應答被存儲在用戶應答數據庫D中。典型地,語聲樣本是說出的短語。這些短語可以含有一個或多個單詞。為了誘導用戶給出期望語聲應答,也可以增添或者代之以提供一個可視觸發發生器,向用戶提供可視的觸發輸出。
從用戶的語聲應答中提取出所說短語的一些參數,把這些參數與基準短語參數相比較,以測量用戶語聲應答中的所說短語參數和存儲在期望語聲應答基準數據庫B中的相應的正確或不正確的短語的基準短語參數之間的匹配的相似性。
應該指出,基準短語參數并不必定包括單詞和單詞的組合。基準短語參數也可以包括口語元素特征的各種組合,在執行基于音素的口語識別時尤其是這樣。
相似性測量的結果是選出一個最接近于用戶發聲應答的一個短語,或者是指明匹配失敗。向用戶給出一個聲響的(或者最好還有可視的)反饋說明,以指明所匹配的短語以及它是否正確。在教學過程中,用戶的應答最好是一個單詞、幾個單詞、或其中還有一個或幾個短語是匹配的一個或幾個語句。最好還用聲響--可視形式來給出關于如何克服所指出的錯誤的附加教學信息。為此目的,最好使用最好是頭盔14(圖1)的一部分的頭戴耳機22和顯示器16。
現在參見圖3,這是一個在生成根據本發明的一個實施例的期望語聲應答基準數據庫B的過程中圖1系統的操作的概要功能性方框圖。這里,用一個話筒30來記錄由多個本民族民眾說出的短語,這些在眾有各種出生地、各種年齡和性別分布。
每個說話人發出多個預定短語的聲音。對于其中每個預定短語,每個說話人正確地發音該短語,而且還重復幾次不正確的發音,每次發音帶有多種預定錯誤中的一種不同的錯誤。發音記錄被保存在中間發聲樣本數據庫A中。該數據庫最好對每個說話人的每個上述短語發音有多個記錄,以增強統計的基礎。
對于基于單詞的口語識別情況,提取出所說短語的一些參數,并把它們與已經存儲在期望語聲應答基準數據庫B內的短語參數融合在一起,以構筑期望語聲應答基準數據庫B。該數據庫包含許多基準期望應答,這些基準期望應答包括具有可接受的發音的第一類基準期望應答,并且對每一個具有可接受發音的第一類基準期望應答都含有多個各自有不同的發音錯誤的第二類基準期望應答。
可以看出,每個短語都分別由M個說話人正確地發音N次進行記錄。另外,還分別由M個說話人以L種各帶有不同發音錯誤的不同形式記錄N次。
現在參見圖4,這是一個在根據本發明的另一個實施例生成語聲基準庫的過程中圖1系統的操作的概要功能性方框圖。這里,期望語聲應答基準數據庫B是由計算機生成的,其方法是生成用來產生語音語言記錄的文本和語音語言文件。語音語言記錄與語音數據庫C一起用來產生一些短語樣板,這些板板的總體構成了期望語聲應答基準數據庫B。
在圖4的實施例中,典型的情況是,這些短語樣板不是單詞或單詞的組合,而是一些像音素、雙音素和音素間過渡這樣的口語的元素的特征的組合。在基于音素的口語識別中,把待識別口語的特征與這些組合相比較,以找到最佳的匹配。
現在參見圖5A和5B,它們一起構成了說明在根據圖2的概要功能性方框圖進行語言教學的過程中系統的操作的概要流程圖。一旦完成了該流程圖中指出的一些初始準備之后,最好是在選定了想要從數據庫E聽到的語聲類型之后,便將選出某一篇課程,并向用戶說明如何發音某一選定聲音。對于每個選定聲音,將向用戶再生從基準語聲樣本數據庫E取出的一個基準語聲樣本,以誘導用戶給出期望語聲應答。
用戶的應答被“Student Response Specimen Recorder(學生應答樣本記錄器)”記錄下來,并與含在期望語聲應答基準數據庫B內的基準期望應答進行比較,上述記錄器在美國專利No.5,487,671中已有說明,其公開內容引用于此作為參考。
如果最佳匹配是匹配于正確應答的,則向用戶提供肯定反饋,課程進入到下一個語聲樣本。
如果最佳匹配匹配于帶有發音錯誤的基準期望應答,則向用戶給出相應的反饋,這個反饋最好包括對錯誤的說明以及如何進行糾正,還包括再生該基準期望應答。根據本發明的一個優選實施例,從基準語聲樣本數據庫F向用戶再生該錯誤發音的短語。
可以使用一個用戶應答數據庫D來再生最新的或較早的用戶應答,以指明用戶的進步,這個再生可以包含在系統的反饋中,或者用于其他目的。
現在參見圖6A、6B和6C,它們一起構成了說明在根據圖3的概要功能性方框圖生成用于語言教學的語聲基準庫的過程中系統的操作的概要流程圖。
一旦完成了該流程圖中指明的初始準備后,訓練的說話人說出正確的短語和多個不正確的短語和多個不正確的短語,后者的發音相似于正確的短語但在發音中有一個或幾個錯誤,以提供各個分別帶有不同發音錯誤的基準期望應答。記錄每一組這樣的正確和不正確短語。根據本發明的一個優選實施例,中間語聲樣本數據庫A含有各種記錄。如前面參考圖3所說明的,數據庫A用來產生期望語聲應答基準庫B,圖6 C用于基于單詞的口語識別。
現在參見圖7,這是一個說明在根據圖4的概要功能性方框圖生成用于語言教學的語聲基準庫的過程中系統的操作的概要流程圖。這里用一臺計算機進入簡明的文本和發音語言,并把文本轉換成指明的語音語言。利用前述類型的語音數據庫C,產生短語樣板。然后把短語樣板存儲到期望語聲應答基準數據庫B中。這樣的處理對系統所采用的每一個短語樣板都執行一次。應該指出,這些短語樣板在典型情形中不是單詞或單詞的組合,而是像音素、雙音素和音素間過渡這樣的口語元素的特征的組合。在基于音素的口語識別中,把待識別口語的特征與這些組合進行比較,以找到最佳的匹配。
現在參見圖8和9,它們說明根據本發明的一個優選實施例生成圖4和7中所用類型的語音數據庫C的處理。例如在圖9中典型地示出的標記口語的數據庫50可以從TI MI T Acoustic-phonetic Continuous Speech Corpora獲得,這可通過地址為online-service@ldc.upenn.edu的電子郵件從賓夕法尼亞大學的Linguistic Data Consortium購得。一個樣板構筑器52在數據庫50上操作,給出語音數據庫C,該樣板構筑器52典型地由一種可購得的軟件實現,這種軟件例如是可通過地址為sales@entropic.com的電子郵件從Entropic CambridgeResearch Laboratories,Ltd有限公司購得的HTK(Hidden Markov Model Toolkit(隱藏馬爾科夫模型工具箱))。圖8的技術可應用于各種語音。
對于語音數據庫58包括各種語言的一些音素的情況,語音數據庫C由結合多個語音數據庫54、56來實現,如圖10所示。本發明的一個特有特征是,語音數據庫54和56包含被學習或口說的一種語言的一些音素,同時也包含用戶母語的一些音素,這樣它們可以結合起來給出增強的口語識別。
現在參見圖11,這是一個說明利用音素進行口語識別的圖。在圖示的例子中,期望單詞是“tomato(西紅柿)”。生成了一個關于各種期望發音的網絡。這里,說話人可能把第一個“0”發音成“O”、“OW”、或“U”,其中“O”這個發音被認為是正確的。
類似地,用戶可能把“a”發音成“A”或“EY”,其中“EY”這個發音被認為是正確的。
圖11的特征在于,用來進行口語識別的所有音素都屬于同一種語言。
現在參見圖12,這是一個說明利用各種語言的音素來進行口語識別的圖。該例子是為識別由日本人所說的英語而設計的。這里期望單詞是“Los Angeles(洛杉礬)”中的“Los”。從圖中可以看出,說話人可能把“L”發音成“L”(圓圈內的“L”)、英語的“R”(圓圈內的“R”)、或者日語的“R”(方塊內的“R”)。
圖12的特征在于,用來進行口語識別的各音素并不全都屬于同一種語言。在圖12的例子中,一些音素是英語音素(圓圈內的字母),而另一些音素則是日語音素(方框內的字母)。
這樣便可以看到,當利用圖12的口語識別技術來進行語言教學時,系統將能識別出日本人特有的錯誤發音,從而可向用戶給出必要的教學反饋。當圖12的口語識別技術用于其他口語識別應用時,能識別出英語發音不完善的日本所說出的英語。
應該指出,對于熟悉本技術領域的人們來說,本發明并不局限于前面具體示出和說明的內容。反之,本發明的范疇應包括前述各種特征和要素的結合和部分結合,同時包括它們各種顯然的變化和擴充。
權利要求
1.交互式語言訓練設備,它包括一個觸發發生器,用來誘導用戶給出期望語音應答;一個期望語聲應答基準庫,它含有許多基準期望應答,這些基準期望應答包括多個具有可接受的發音的第一類基準期望應答,并且對上述每一個具有可接受發音的第一類基準期望應答都含有多個各自有不同的發音錯誤的第二類基準期望應答。一個語聲應答記分器,它指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應答中的發音錯誤。
2.根據權利要求1的設備,其中上述用戶反饋界面還向用戶給出如何克服發音錯誤的教導。
3.根據權利要求1的設備,其中上述用戶反饋界面在緊接著每個期望語聲應答之后立即向用戶指明每個發音錯誤。
4.根據權利要求1的設備,其中上述反饋界面給出關于上述發音錯誤的聲響的和可視的指示。
5.根據權利要求1的設備,其中上述語聲樣本發生器的工作使得期望語聲應答是上述語聲樣本的復現。
6.根據權利要求1的設備,其中上述語聲樣本發生器的工作使得期望語聲應答不是上述語聲樣本的復現。
7.根據權利要求1的設備,其中上述語聲樣本發生器的工作使得期望語聲應答是可以從多于一個的可能的期望語聲應答中選擇的一個語聲樣本。
8.根據權利要求1的設備,其中上述觸發發生器包括一個用來向用戶再生語聲樣本的語聲樣本發生器。
9.根據權利要求1的設備,其中上述觸發發生器包括一個用來向用戶提供可視觸發輸出的可視觸發發生器。
10.根據權利要求1的設備,其中上述期望語聲應答庫包括一個期望語聲應答基準數據庫。
11.根據權利要求10的設備,其中上述期望語聲應答基準數據庫包括許多樣板。
12.根據權利要求10的設備,其中上述期望語聲應答基準數據庫是與說話人無關的。
13.根據權利要求11的設備,其中上述期望語聲應答基準數據庫是與說話人無關的。
14.一種用于交互式語言訓練的方法,它包括誘導用戶給出期望語聲應答;提供一個含有許多基準期望應答的期望語聲應答基準庫,這許多基準期望應答包括多個具有可接受的發音的第一類基準期望應答,并且對每一個上述具有可接受發音的第一類基準期望應答都含有多個各自有不同的發音錯誤的第二類基準期望應答;指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及向用戶指明在用戶給出的期望語聲應答中的發音錯誤。
15.根據權利要求14的方法,它還包括向用戶給出關于如何克服發音錯誤的教導。
16.根據權利要求14的方法,它還包括在緊接著每個期望語聲應答之后立即向用戶指明每一個發音錯誤。
17.根據權利要求14的方法,它還包括向上述用戶給出關于上述發音錯誤的聲響的和可視的指示。
18.根據權利要求14的方法,其中上述期望語聲應答是上述語聲樣本的復現。
19.根據權利要求14的方法,其中上述期望語聲應答不是上述語聲樣本的復現。
20.根據權利要求14的方法,其中上述期望語聲應答是可以從多于一個的可能的期望語聲應答中選擇的一個語聲樣本。
21.根據權利要求14的方法,其中上述誘導語聲應答的步驟包括向用戶再生一些語聲樣本。
22.根據權利要求14的方法,其中上述誘導步驟包括向用戶提供一個可視觸發輸出。
23.口語識別設備,它包括至少一個含有至少是第一種和第二種語言的一些口語元素的數據庫;一個接收器,用來接收待識別口語;以及一個比較器,用來指上述口語的特征與上述至少是第一種和第二種語言的口語元素的特征的組合進行比較。
24.一種語言教學系統,它包括一個觸發發生器,用來誘導用戶給出期望語聲應答;一個口語識別器,用來接收用戶所說的期望語聲應答,該口語識別器包括至少一個含有至少是第一種和第二種語言的一些口語元素的數據庫;一個接收器,用來接收待識別的口語;以及一個比較器,用來把上述口語的特征與上述至少是第一種和第二種語言的上述口語元素的特征的組合進行比較;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應答中的錯誤。
25.根據權利要求23的語言教學系統,其中上述口語元素包括音素、雙音素和音素間過渡中的至少一種。
26.根據權利要求23的語言教學系統,它還包括一個用來產生短語樣板的樣板發生器。
27.根據權利要求23的語言教學系統,它還包括一個用來提取由上述接收器接收到的口語的特征的特征提取器。
28.一種口語識別方法,它包括提供至少一個含有至少是第一種和第二種語言的一些口語元素的數據庫;接收待識別的口語;以及把上述口語的特征與上述至少是第一種和第二種語言的口語元素的特征的組合進行比較。
29.根據權利要求28的口語識別方法,其中上述口語是由一個母語為第二種語言的用戶用第一種語言說出的,并且其中至少一個數據庫含有第一種和第二種語言這兩種語言的一些口語元素。
30.根據權利要求28的方法,其中上述至少第一種和第二種語言包括不同民族的語言。
31.根據權利要求28的方法,其中上述至少第一種和第二種語言包括同一民族語言中的不同方言。
全文摘要
本發明是一種用于交互式語言訓練的設備,它包括:一個用來誘導用戶給出期望語聲應答的觸發發生器;一個含有許多基準期望應答的期望語聲應答基準庫,這許多基準期望應答包含多個具有可接受的發音的第一類基準期望應答,并且對每一個具有可接受發音的第一類基準期望應答都含有多個各自不同的發音錯誤的第二類基準期望應答;一個語聲應答記分器,它指明用戶給出的期望語聲應答和基準期望應答之間的關系;以及一個用戶反饋界面(12、14、16),它向用戶指明在用戶給出的期望語聲應答中的發音錯誤。本發明還分開了口語識別設備,它包括:至少一個含有至少是第一種和第二種語言的一些口語元素的數據庫;一個用來接收待識別口語的接收器;以及一個比較器,用來把上述口語的特征與上述至少第一種和第二種語言的上述口語的特征的組合進行比較。應該指出,在某些情形中,一個口語元素的組合可以是單個口語元素。還公開了一種用于口語識別的方法。
文檔編號G10L15/22GK1197525SQ97190882
公開日1998年10月28日 申請日期1997年5月4日 優先權日1996年7月11日
發明者澤夫·什皮羅 申請人:數字語音(以色列)有限公司