專利名稱:輔助口語語言學習的計算機系統的制作方法
技術領域:
本發明涉及一種輔助口語語言學習的計算機系統。
背景技術:
由于缺少語言練習環境以及有針對性的個別輔導,口語語言學習是學習 外國語中最困難的環節。雖然計算機已經用于輔助一般意義的語言學習,但 在口語語言學習領域,計算機的輔助教學仍然效果有限,難以令人滿意。目 前,某些與語音識別和發音評測相關的技術已被初步用于輔助口語語言學 習,但其性能仍有很大的局限性。
如WO 2006/031536; WO 2006/057896; WO 02/50803; US 6,963,841; US 2005/144010;和WO 99/40556這些公開文本中就涉及到多種建立于語 音識別和發音評測相關技術基礎上的口語語言學習方法及相應的計算機系 統,但這類方法及系統中對于語音識別和發音評測相關技術的運用多局限于 矯正用戶語音及對用戶語音的模仿上,例如將釆集的用戶語音的語調、語速、 音質等聲學參數反映到機器的示范聲音上,將該示范聲音變換為與用戶聲音
相似的聲音,或者直接從機器內預存的示范聲音中找尋并選出與用戶語音相 似的示范聲音,從而在與用戶進一步的口語對話訓練中能夠使用戶通過一味 的模仿和比對示范聲音而得到提高。當然在上述與用戶的口語對話訓練過程 中,系統也會進行一些簡單的錯誤提示,這些錯誤提示多發生在當用戶的口 語語音與示范聲音不匹配時要求用戶重新完成口語的對話訓練;但在這一過 程中系統并不對用戶的口語學習情況進行啟發式的反饋和評測,尤其是不能 啟發式的捕獲用戶口語中的錯誤,并對該錯誤進行糾正和指導;其導致的結 果便是使用戶無法及時發現自己的不足,從而有針對性的進行練習來提髙自 己的口語水平。
總之現有的運用于輔助口語學習的計算機系統不能啟發式的誘導用戶 深入口語語言的學習,常常導致學習者一味模仿正確的口語發音而無法從與 該系統的互動中得到豐富的指導信息,其性能是不完善的,可見提供一種性 能完善的輔助口語語言學習的計算機系統實為亟待解決的重要課題。
發明內容
本發明目的是提供一種性能較為完善的輔助口語語言學習的計算機系統,其應用語音識別和語音及語言分析技術生成與口語語言學習相關的模式 特征,使用結構化的教學模式信息,特別是可以啟發式地捕獲用戶錯誤并智 能地反饋豐富的教學指導信息,以彌補現有技術在這方面的不足。
本發明的技術方案是 一種輔助口語語言學習的計算機系統,包括以下 組件
用戶界面,包括機器對使用者的提示,要求用戶完成一定的口語語言學 習內容,還包括采集用戶在此過程中的語音響應數據
數據庫,包括特征數據項,該特征數據項中包括一組模式特征,用以描 述與用戶的口語語言學習相關的聲學和語言學方面的表現,并將模式特征量 化的與特定的反饋指導信息和學習內容相對應;
語音分析系統,用以分析上述采集于用戶的語音響應數據,從上述采集
的語音響應數據中提取聲學模式特征或者語言學模式特征;
模式匹配系統,用以將上述提取于用戶語音響應數據中的聲學模式特征 或者語言學模式特征中的一個或多個子集與數據庫中的模式特征進行對應
匹配,并根據上述匹配結果生成反饋數據;
反饋系統,用以將上述反饋數據反饋給上述用戶,輔助上述用戶掌握上 述口語語言學習內容。
本發明種輔助口語語言學習的計算機系統的上述主要技術方案中具體 采用了預先定義好的結構化的數據庫,該數據庫中包含有各種語言學習中可 能遇到的錯誤實例和相應的教學指導,這些錯誤實例包括聲學相關的錯誤實 例和語言學相關的錯誤實例。錯誤實例由一系列的模式特征(也即特征向量) 描述,模式特征可以為詞序列、數字或者符號。本發明的主要技術方案中涉 及的"機器"可以是計算機或者其他電子設備,具體例如,但不局限于,桌 面筆記本電腦、移動計算設備如PDA;當然本發明輔助口語語言學習的計算 機系統可以通過互聯網以分布式方式實現,例如客戶端和服務器端系統。本 發明可以應用于各種語言學習,例如中文和英文,本發明還可以根據所提供 的內容應用于教學和測試,這些將在下面進行詳述。
本發明具體的實施方案中,所述結構化的數據庫進一步用于存儲一組相 互關聯的數據項。這些相關聯的數據項包括了一個"特征數據項",例如特 征向量,該向量包括一組模式特征用以分辨用戶在口語練習中可能出現的各種表現尤其是錯誤表現。相關聯的數據項同時包括了 "指導數據項",該項 包括一些指導信息,該指導信息與特征數據項中的聲學模式特征或者語言學 模式特征一一對應,用以指導用戶提髙或改正口語發音中的錯誤(或對用戶 的改正給出獎勵)。指導信息可以有多種形式,例如,語音指導(使用語音 合成器),和/或文字指導(以文本形式輸出),和/或圖形指導(以圖表形式 輸出)。相關聯的數據項同時包括"學習內容數據項",用以標識口語語言學 習內容中的某一個特定的語言學習目標,通過該學習內容數據項,口語語言 學習目標的具體內容就與上述的相關聯的數據項對應起來。概括的講,上述 這些相關聯的數據項包括了對特定口語語言學習內容的預設用戶響應以及 與每種響應對應的學習指導數據項。口語語言學習的內容可以有多種形式, 例如練習發音、流利性、語調(例如基頻的時間軌跡),聲調(對于有 聲調的語言)、重音、詞匯選擇以及其他有關內容。以有聲調的語言為例, 口語語言學習的內容可以設計為練習聲調所采集的用戶發音的語音數據, 特別是從該語音數據中提取的特征,可以用來與已知的一組聲調(例如五種) 中的一種進行匹配。
本質上講,本發明中使用一個模式匹配系統將用戶發音的模式特征與相 應的口語語言學習內容中預設的特征數據項(或說特征向量)進行匹配,根 據匹配的結果搜尋相應的指導信息數據項再給出相應的指導內容。通過這種 方式,相應的指導內容可以與一些預設的語言學習情況對應起來。例如,預 先設定一組可能發生的語言學習錯誤以及相應的學習指導內容,再根據模式 匹配的結果選擇其中最有針對性的學習指導內容反饋給用戶。在一個理想系 統中,預設情況一般會有多種,當然這不是一個嚴格限制。
在實際系統中,匹配所用的模式特征與用戶語音輸入的聲學或者語言學 特點直接相關。例如,與音節或音素的基頻時間軌跡和/或能量髙度相關的 模式特征;和宏觀語言學因素有關的模式特征,譬如詞序和抽象語義的模式 特征。 一組模式特征可以用一個元向量描述,該向量的每個元素可以具有不 同的數據類型,例如一個實數數組(例如基頻的時間軌跡),或某個有序列 表(例如一個詞序列),或其他類似的元素。當然聲學或者語言學模式特征 下面將詳述。
本發明具體的實施方案中,語音分析系統由聲學模式分析系統和語言學模式分析系統組成。這兩個模式分析系統都用到了基本的語音識別系統的輸 出,語音識別系統自身包括了基于統計的聲學模型和語言學模型。聲學模型 用于描述某個語音片段與某個音節或者音素的相似程度。語言學模型用于描 述從音節/音素到字詞的映射,以及字詞的統計先驗概率。在本發明進一步 優選的實施方案中,語音識別系統主要用于生成字詞以及音素/音節的時間 邊界,據此將采集的語音數據進行有效分割,并將聲學模型和語言學模型的 模式特征進行分組。
本發明具體的實施方案中,語音識別系統的輸出可以是下面三個信息 1.音素/字詞;2.音素/字詞+它們的時間邊界;3.音素/字詞的時間邊界; 而語音識別系統可能同時輸出上述三個信息。
本發明具體的實施方案中,聲學模式分析系統將一個或多個音素、音節 和句子,它們的時間邊界,相應的置信程度信息以及相關的韻律信息組成一 個聲學特征向量。該特征與語音識別系統所使用的特征有所不同。這些聲學 特征(例如音素的基頻軌跡或者音素的平均能量)對應于教學相關的語音特 征。
本發明具體的實施方案中所述聲學模式分析系統可以識別口語語音中 的多個層次的發音,例如一個或多個音素、音節和句子,同時提供相應的置 信度,例如音節的后驗概率。這樣,聲學模式特征也就包括一個或多個音素、 音節和句子及其相應的置信度數據。在進一步優選的實施例中,聲學模式分 析系統還能從采集的語音響應數據中識別韻律特征,該韻律特征包括某語音 數據片段(對應于采集的語音數據中的一個音素或者音節)的基頻特征,以 及相應語音數據片段的持續時間和能量值。
本發明具體的實施方案中,語言學模式分析系統用于識別用戶語音中的 語法結構。數據庫中存有大量的各種類型的語法結構,語言分析系統將采集 的語音與數據庫中現有的記錄進行比對給出識別結果。如下是一個簡單示 例我們有一個句子"請將瓶子拿到廚房",語言模式分析系統識別出該句 的語法結構為"將X拿到Y"。隨后,語言模式分析系統將在數據庫中檢索 該語法結構是否存在,并返回相應的索引序號。
本發明進一步優選的實施方案中,語言學模式分析系統還進行語義解 碼,將采集并識別的語音與一些更廣義的語義表達進行匹配。例如,句子"請問哪里有飯店?"可以在語義層面抽象為"詢問"加"地點"加"餐飲部門"。 科技文獻中已經發表了有關利用語音識別系統進行語義級別分析的研究成 果(例如S. Seneff. Robust parsing for spoken language systems. In Proc. ICASSP, 2000)。
這里,釆集語音的語義結構被用于確定指導信息數據庫索引值的特征向量的 元素之一。
本發明進一步優選的實施方案中,語言學模式分析系統還可以識別用戶 語音中的一個或多個關鍵詞,特別是"語法"關鍵詞,例如連接詞或者介詞 等。然后,聲學模式分析系統給出每個識別出來的關鍵詞相應的置信評分。
實際上,這些關鍵詞的置信評分也是用于確定指導信息數據庫索引值的特征 向量的元素之一。當這些關鍵詞對于理解一門語言的意思尤其重要時,上述 特征很有價值。
本發明具體的實施方案中,所述聲學模式分析系統和語言學模式分析系 統,或二者之一可以識別錯誤或者正確的聲學、語言學/語法結構。據此, 本發明系統可以識別用戶口語語言學習中的常見錯誤并給予糾正/提髙。例
如,日語為母語的人經常將音素"R"的音發成音素"L"的音(由于日語 中沒有"R"的音),系統可以識別并指導用戶糾正這個讀音。類似的,例如, 系統可以識別對話"你好嗎?"作為某個對話練習的標準回答,但系統還可 以提示用戶其他采用非正式的語法結構的答案以幫助用戶提髙口語水平。
本發明具體的實施方案中,反饋數據由結構化的數據庫中的指導信息的 索引組成。該索引是由用戶的聲學模式特征與數據庫中的某些預存的聲學模 式特征的匹配程度決定的。在已知當前學習內容的情況下,音素、音節或語 法結構之類的特征的最佳比對結果可以用于判斷用戶發音和句法是否正確 (或者相應的正確程度)。因此,這種對用戶的指導更接近自然語言學習的 感覺。
本發明具體的實施方案中,指導信息是分級整理的,至少包括聲學級別 和語言學級別的指導。據此,系統可以根據用戶所選擇的訓練級別、用戶的 口語能力,以及/或學習內容的難易程度選擇相應的指導信息。例如,對于 初學者,系統反饋聲學級別的指導信息;而對于更髙水平的口語練習者,系 統反饋語言學級別或者語義級別的指導信息。另外,用戶可以選擇所期望的 指導級別。本發明具體的實施方案中,系統的反饋信息包括評分。計算機生成的評 分本質上講可以在任意的數值段。但在實際的語言評測中,真人教師對說話 人的口語語音進行好或壞的評價,或者給出1到10的評分的時候,評分結
果具有很髙的一致性。據此觀察,某些實施例加入了一個映射函數,該函數 將根據模式特征匹配程度給出的評分轉化為用于系統輸出的評分。實際上, 該函數通過一組訓練數據(采集的語音數據)訓練所得,針對該組訓練數據 的真人教師的評分是已知的。該函數用于轉化計算機生成的評分,使得在給
定評分范圍的條件下,系統生成的評分和真人教師的評分具有0.5、 0.6、 0.7、 0.8、 0.9或者0.95以上的相關程度。
本發明優選的實施方案中,系統進行機器輔助教學的口語語言包括某些 基于聲調的語言,例如中文。相應的,系統反饋數據中則包括基頻時間軌跡 數據以及相應的圖解信息。
本發明輔助口語語言學習的計算機系統是自適應的,并可以向用戶學 習。這樣的系統實際上包括了大量歷史數據記錄,例如用戶的語音數據以及 相關的聲學和/或語言學特征向量。通過統計分析,從中可以找到某些頻繁 發生的但無法在數據庫中找到相近匹配的特征。這種情況下,數據庫生成一 個新的記錄,該記錄實際上對應于一種新的普遍的錯誤類型。因此,某些系 統實施例包括一個編碼模塊,用于從歷史數據中識別數據庫中沒有的新的特 征,并將該特征添加到數據庫中。某些情況下,上述模塊將數據庫中現有的 特征重新分類。例如將原有的基頻頻段的40赫茲到100赫茲的范圍分成40 赫茲到70赫茲以及70赫茲到IOO赫茲兩部分。在本發明進一步優選的實施 方案中,系統為專家提供界面以驗證推測得出的新的特征。從而專家可以為 新的特征給出相應的指導信息并添加到數據庫的指導信息數據。除此以外, 系統還可以咨詢用戶新的特征是否和某個錯誤很相關。這些信息可以以文本 的形式加入數據庫。在更新數據庫之前,系統將此"糾正"數據發送給其他 具有同樣錯誤的用戶,從而判別相應的指導信息是否有效的幫助大部分用戶 糾正了錯誤。
本發明輔助口語語言學習的計算機系統還可以用于輔助口語測試。這種 情況下,反饋系統可以生成一份測試報告補充或代替對用戶的反饋。
綜上所述,本發明實際上公開了一種具有自適應特性的輔助口語語言學習的計算機系統,該系統可以進行自動的語音識別,提取與口語教學相關的 用戶的聲學和語言學模式特征,啟發式地捕獲用戶錯誤(分析多種方案)并 給出教學指導。其基本的實現過程為用戶向某種電子設備練習口語發音, 系統采用語音識別技術以及語音和語言學特征分析技術分析用戶語音,以此 生成聲學和語言學錯誤特征。系統在包含有預設錯誤和相應指導的數據庫中 搜索用戶的錯誤特征。系統發現錯誤特征匹配后,通過某種智能方式反饋給 用戶個性化的錯誤分析和教學指導。系統還可以根據用戶的學習體會自動調 整。籍此,系統可以掌握新的知識或者新的個性化的教學指導內容。系統可 以以互動對話模式進行短句教學,也可以以跟讀模式進行長句及段落教學。
本發明輔助口語語言學習的計算機系統在進一步優選的實施方案中,該 系統可以提供客觀定量的機器評分反饋,該評分是經過驗證的,同時對豐富 且具體的聲學和語言學學習點提供反饋評測,并能智能地提供可擴展的個性 化的教學指導以助于糾正發音錯誤或者提高口語技巧。雖然評分是由計算機 生成的,但該評分經過和真人教師的評分進行驗證,因此該評分是可信賴的。 另外,本發明方便于搜集新的知識,因此是可動態改進的。
本發明還提供一種用于實現前述任意一項權利要求所述的輔助口語語 言學習的計算機系統的計算機程序代碼,該計算機程序代碼包括實現如下功 能的計算機程序代碼用戶界面,包括機器對使用者的提示,要求用戶完成 一定的口語語言學習內容,還包括采集用戶在此過程中的語音響應數據;數 據庫,包括特征數據項,該特征數據項中包括一組模式特征,用以描述與用 戶的口語語言學習相關的聲學和語言學方面的表現;語音分析系統,用以分 析上述采集于用戶的語音響應數據,從上述采集的語音響應數據中提取聲學 模式特征或者語言學模式特征;模式匹配系統,用以將上述提取于用戶語音 響應數據中的聲學模式特征或者語言學模式特征中的一個或多個子集與數 據庫中的模式特征進行對應匹配,并根據上述匹配結果生成反饋數據;反饋 系統,用以將上述反饋數據反饋給上述用戶,輔助上述用戶掌握上述口語語 言學習內容。代碼可以通過某種載體提供,例如CD-ROM或者DVD-ROM,
或者可編程存儲器,例如硬件固件。本發明實施方案的代碼(和/或數據) 包括源代碼、目標文件或可執行代碼(基于某種計算機編程語言,例如C或 匯編語言)、設置或控制專用集成電路(ASIC)或現場可編程門陣列(FPGA)的代碼,或者用于硬件描述語言的代碼,如Verilog⑧或者超高速集成電路硬 件描述語言(VHDL)。 本發明的優點是
1. 本發明輔助口語語言學習的計算機系統可以為口語語言學習者提供 針對聲學及語言學的多種方面的反饋評價信息,這些信息是經過統計驗證 的,豐富且準確的,能夠使用戶對自己的整體表現有充分完整的概念。
2. 本發明輔助口語語言學習的計算機系統具有較強的交互性,能夠根 據用戶輸入和數據庫的反饋智能的提供給用戶豐富的可擴展的個性化的教 學指導,這些指導包括如何糾正錯誤,以及為用戶量身定做的造句指導,使 用戶能夠及時發現自己的不足,從而有針對性的進行練習來提髙自己的口語 水平,以助于糾正發音錯誤或者提髙口語技巧。
3. 本發明輔助口語語言學習的計算機系統具有較髙的自適應性,其可 以獲取新的知識(新的口語模式特征/教學指導內容),可以根據用戶的學習 體會自動調整,并籍此掌握新的知識或者新的個性化的教學指導內容,并且 隨著時間的推移不斷完善。因此,相對現有非啟發式的口語學習計算機系統 而言,本發明更智能,更具有實用性。
下面結合附圖及實施例對本發明作進一步描述
圖1是本發明的整體功能結構框圖2是圖1中所示的I虛線框內的詳細流程圖3是圖1中所示的II虛線框內的詳細流程圖4是圖1中所示的m虛線框內的詳細流程圖5是圖1中模塊B中數據庫模式特征數據項的詳細結構圖6是圖1中模塊B中各個部分的相互關系示意圖7是一個由左及右的具有三個輸出狀態的隱馬爾可夫模型(HMM); 圖8是一個已識別的句子的時間分界信息;
圖9是一個用于聲調學習的基頻軌跡特征,包括了中文的四個聲調的基 頻軌跡。
具體實施例方式
具體講,本發明公開了一種輔助口語語言學習的計算機系統,其應用語音識別和語音及語言分析技術生成與口語語言學習相關的模式特征,使用結 構化的教學模式信息(特別是錯誤模式),并且智能地反饋豐富的教學指導 信息。可能的聲學和語言學模式特征(學習錯誤或者對同一意思的多種口語 表達方式)可以通過實際的外語教學案例收集。本發明應用機器學習方法對 如上模式進行分析,得出一組簡潔的特征向量,以反映不同的教學方向。這 些特征向量可以組合起來以用于對不同的教學內容給出具體或總體的評分, 例如發音、流利性或者語法使用的正確性。通過將這些機器評分與真人教師 的評分進行統計回歸,可以保證兩者之間髙度的相關性。另外,數據庫將這 些模式特征分類存儲,并將每種特征對應以不同的特定的教學指導。因此, 我們可以認為教學指導是用戶語音的模式特征的一個函數。
當語言學習者對著機器練習語音時,輸入的音頻信息被機器處理以生成 聲學和語言學模式特征。系統隨后從數據庫中搜索與其相匹配的一個或多個
記錄項,從而找到一系列相應的教學指導內容并將其綜合成一個完整的教學 指導反饋,以文本或者多媒體的形式輸出。系統可以使用語音合成器或者真 人錄音將教學指導以語音形式返回。當系統無法在數據庫中匹配合適的特征 時,該未知特征會被反饋到中心數據庫。每次,當相似的未知特征被發現后, 系統對其進行計數、分析并在適當的時候將其作為新的知識加入數據庫。當 用戶嘗試克服某個特定的錯誤類型時,用戶會被要求輸入他/她的學習心得, 這些信息同樣被分類并作為新的知識加入到數據庫中。
以下首先結合圖l、圖2、圖3、圖4、圖5和圖6,對本發明輔助口語 語言學習的計算機系統的各個部分,尤其是各個功能模塊,進行詳細的解釋 說明,然后再給出一個結合了具體語言學習內容的實施例。
模塊1是一個前端處理模塊。該模塊對輸入語音進行信號處理,并提取 一系列原始特征向量用于后續的語音識別和分析。這些特征向量是實數向 量。這些特征包括,但并不局限于如下幾項
Mel頻率倒譜系數(MFCC)
感知線性預測(PLP)系數
波形能量
波形基頻
模塊2是一個語音識別模塊。該模塊根據輸入的語音識別出字詞序列和每個音節的時間邊界,還可以輸出每個音節的置信評分。該模塊使用模塊l所 輸出的全部或部分的原始聲學特征。語音識別方法包括,但不局限于如下幾種 模板匹配方法將每個音節的規范語音模板與輸入的特征進行匹配,輸出 最匹配的模板
基于概率模型的方法概率模型,例如隱馬爾可夫模型(HMM),可以用 于描述已知特定詞序列的條件下原始特征向量的概率值,并且/或者描述詞序 列的先驗概率。給定輸入的聲學特征,概率模型可以輸出取得最大后驗概率的 字詞序列。識別過程中,可以使用基于語法的詞網絡或者統計語言模型來降低 搜索空間的維度。識別過程自動輸出每個音節的時間邊界。置信度評分通過, 但不局限于下面方法進行計算
-混淆字詞網絡的音節的后驗概率。識別器會輸出多種假設的識別結果。 于是,本發明計算假設中的每個音節的后驗概率,該概率是給定所有可能假設 條件下某音節的似然性。該后驗概率可以直接,或者經過某種適當的線性變化, 作為相應音節的置信評分。
-背景模型似然值比較。我們用大量混合語音數據訓練出一個背景模型, 該模型不具有一般語言模型對字詞的區分能力。用它可以計算對于某個已識別 的音節的原始特征的概率值。然后,我們將用背景模型計算的概率值與用正確 的統計模型計算的概率值進行比較,用比較結果,例如比例信息,來作為置信 度評分的依據。
模塊A為附加模塊,表示用戶輸入語音所對應的文本是預先知道的。此信 息可以用于代替模塊2的文本輸出,或者加速模塊2的識別過程,并直接用于 下一步的模式特征分析。 一般來講,該模塊用于純聲學方面的教學,即主要輸 出給模塊3。
模塊3是一個聲學模式特征提取模塊。該模塊使用模塊2和模塊1的輸出 信息,特定情況下可以包括模塊A的信息,產生一組用于教學目的的聲學模式 特征。這些特征是定量的,并能直接反映語音的聲學特點,例如發音,聲調, 流利性等。這些特征包括,但并不局限于如下幾項
每個音節的原始語音信號(波形);
根據模塊1得到的每個音節的原始聲學特征;
每個音節和/或音素(最小的聲學單元)的持續時間;每個音節的平均能量 每個音節和/或句子的語音基頻值
每個音節或聲素或句子的置信度評分;
模塊4是一個語言學模式特征提取模塊。該模塊使用模塊2的輸出,產生 一組用于教學目的的語言學模式特征。這些特征包括,但并不局限于如下幾項 用戶輸入的詞序列; 用戶使用的詞匯表; 語法關鍵字的出現概率; 預先定義的語法索引; 輸入詞序列的語義項
通過將字詞序列與一系列預先定義的有限狀態語法結構進行匹配可以返 回最匹配的語法結構的索引。語法關鍵字特征和語法結構的索引構成了用戶的 語法模式特征。語義項可由一個語義解析器獲得。該語義解析器將詞序列映射 到標準化的語義項。
模塊5是一個教學模式分析模塊。該模塊使用模塊3輸出的聲學模式特征 以及模塊4輸出的語言學模式特征,并將這些特征與教學模式以及指導內容數 據庫,模塊B,進行匹配。
模塊B是一個預先定義好的教學模式和指導內容數據庫。數據庫每項分兩 大類教學模式特征以及相應的指導內容。教學模式特征包括如前所述的聲學 和語言學模式特征。特征項的結構如圖5所示。這些特征可以是實數型向量、 符號或者索引值。指導內容是相對應的教學模式的解釋性信息。指導內容可以 是文本信息、圖片、語音或者影像樣例或者其他可以通過機器與用戶交流的形 式。建立該數據庫之前需要收集足夠的語音數據、相應的文本內容、真人教師 評分以及真人教師的指導內容。之后則根據訓練數據提取特征信息并根據不同 的指導內容將特征分類。給定某個教學內容時,每個表達對應的模式或者錯誤 對應的模式都和數據庫中的教學指導內容相聯系。這種結構由圖6表示。
匹配根據的是輸入特征和數據庫內的參照特征之間的廣義距離。該距離通 過,但不局限于,如下方法計算
對于實數型特征,首先進行歸一化,從而將特征限制于0到1的值域;然 后計算歐式距離。可以使用一個概率模型及相應的似然值代替歐式距離。
對于索引型特征,如果數據庫中存在同樣數值的索引則返回1,否則返回
對于符號型特征,例如詞序列,計算漢明距離。
進行如上搜索之后,根據不同的教學模式從數據庫中提取一些指導信息, 可以選擇最小匹配距離對應的記錄或者根據排序的匹配結果選擇多個記錄。指 導信息包括錯誤糾正指導或者教學建議。指導信息可以是文本、語音或者其他 多媒體形式。對于基于聲調的語言學習而言,例如中文,有關聲調教學的指導 信息可以是前述的語音基頻值校準圖形。
除了指導信息以外,模塊3和模塊4的輸出還可以用于計算定量評分。該 分數包括針對每個教學方面的定量分數以及對整體表現的總評分。 一般來講, 該分數和輸入特征與數據庫中參照模板特征之間的廣義距離成線性或非線性 關系。分數包括,但不局限于,如下幾項
對句子、音節或音素的發音評分。該評分通過置信度分數、持續時間以及 能量值計算。
對音節或音素的聲調評分。該評分通過語音基頻值計算。 流利性評分。該評分通過置信分數和語音基頻值計算。 通過率。該評分通過得到髙發音/聲調/流利性分值的詞占全部練習詞匯的 比例計算
熟練程度。該評分通過上述所有評分線性加權計算。
上述原始評分要經過進一步線性或非線性映射變換以符合真人教師的評 分標準。該變換基于大量的語言學習樣本數據以及真人老師和計算機的評分通 過統計方法進行訓練。上述評分以數字形式或者圖片形式顯示給用戶,同時應 用對比表、柱狀圖、餅圖和直方圖等統計圖表形式。
綜上,模塊5的輸出包括前述的指導信息以及定量的評分。 模塊6是一個反饋信息生成模塊。該模塊綜合模塊5輸出的指導信息和定 量評分以產生一個有組織的、流暢的和綜合的教學指導內容。最終指導內容包 括基于文本的指導意見和多媒體樣例。該指導包括綜合的指導意見,以及針對 不同的聲學或者語言學學習點的專門的指導意見。另外,將模塊S產生的定量 評分以直方圖或者其他形式的圖形顯示,使學習結果形象化。模塊7是一個可選的文字轉語音模塊。模塊6輸出的基于文本的指導信息 可以通過語音合成轉換為語音或者預先錄制好的真人發音。
模塊8是一個自適應模塊。該自適應模塊可以實現對學習模式及指導信息 數據庫,模塊B,和語音識別模塊2以及聲學分析模塊3的更新。
對于模塊B的更新可按照如下方式進行。首先,模塊根據當前用戶的學習 需求,有效組織可能的反饋信息。模塊統計用戶的發音模式(特別是錯誤模式) 并將其存入數據庫。這些統計信息主要包括用戶的模式特征的計數已經相應的
分析結果索引。下一次,當同一位用戶進行學習時,該用戶可以恢復他的學習 歷史或者通過將當前統計結果和數據庫中的歷史統計進行比對從而認識到進 步。這些統計數據還可以用于設計個性化的學習材料,例如個性化的練習課程 或者高級閱讀材料等。統計數據以數值形式或者圖表形式顯示。
其次,自適應模塊調整數據庫以適應新的情況。發現新的模式特征的時候, 新的模式特征通過網絡被反饋到中心數據庫,例如國際互聯網上的一個服務 器。中心數據庫對這些新的特征計數并且在特征積累一定量后進行歸類。新的 類別出現后,數據庫進行更新以適應這個新的情況,例如一種新的學習錯誤。 新的數據可以被所有的用戶重新使用。另一方面,當某一個用戶取得進步后, 系統可以請用戶輸入學習技巧。該信息也可以被返回到系統并加入數據庫。該 自適應模塊可以保持一個動態的數據庫,以滿足內容的豐富性以及個性化。
對于模塊2和模塊3的更新是通過更新模型參數實現的。模塊2的可更新 模型參數包括,但不限于隱馬爾科夫模型的參數以及語言學模型的先驗概率, 更新方式可采用最大似然估計。模塊3的可更新參數包括但不限于基頻的限 定頻率范圍,平均能力的限定范圍。
如下給出本發明的一個具體實施例---個英語學習系統一一的詳細描
述。在本實施例中,學習語音的用戶設定為母語為中文的學習者。學習范圍設 定為旅游信息。課程模式為句子級別的對話交流。全系統運行于連接到國際互 聯網的個人計算機(PC)。麥克風和耳機作為用戶的輸入輸出設備。
計算機首先通過用戶界面提示一段中文意思(例如,"你想去一個價錢貴 的飯店。"),然后請用戶用英語通過一句話表達同樣的意思。用戶對計算機說 一句英語后,計算機分析各種聲學和語言學方面的特征,并且給出一份豐富的 評測報告和改進建議。因此,本發明輔助口語語言學習的計算機系統的核心是
18語音分析系統和反饋系統。進一步結合圖1、圖2、圖3、圖4、圖5、圖6、 圖7、圖8和圖9所示,對該實施例的功能實現過程給出逐步的描述
首先,模塊1進行前端處理(原始特征提取)。用戶輸入計算機的信息 首先被轉化為微軟⑧WAV格式的數字語音波形。波形數據被分割成一系列重 疊的數據段。相鄰片段的重疊長度為IO毫秒。每個片段的長度為25毫秒。 原始聲學特征提取自每個片段,也就是說,每10毫秒提取一個特征向量, 該片段被稱為"幀"。提取特征時,首先對各幀中的語音信號進行短時傅立 葉變換,得到信號的頻譜信息,然后提取感知線性預測(PLP)特征、能量 和基頻,也即基頻值或f0。為了抑制信號處理中的基頻加倍問題,本發明采 用移動髙斯平滑窗口處理原始的基頻值。關于PLP特征的提取技術,參考[H. Hermansky, N. Morgan, A. Bayya, and P. Kohn.RASTA-PLP speech analysis technique.In Proc. ICASSP, 1992.1;關于基頻值的提取技術,參 考[A. Cheveigh and H. Kawahara. Yin, a fundamental frequency estimator for speech and music.Journal of theAcoustical Society of America, 111 (4), 2002;能量值即為片段內所有信號的平方和。 將PLP值和能量特征輸入到一個統計語音識別模塊2得到
1. 統計上最大可能出現的詞序列和音素序列
2. 以網格形式給出N個備選詞/音素序列
3. 每個詞/音素的聲學模型概率值以及語言學模型概率值
4. 每個詞和音素的時間邊界
統計語音識別系統包括聲學模型、語言學模型和字典。字典給出了由音節/ 音素到字詞的映射關系。
本發明使用了一個包括所有非母語發音變形的多映射發音辭典。語言學模 型采用一個三元模型,給出了每個字詞,雙字詞組,以及三元字詞組的先驗概 率。聲學模型采用一個連續分布的隱馬爾可夫模型(HMM),用于描述給定某 個音素的條件下特征(觀察量)向量的概率分布。
圖7是一個由左及右的隱馬爾可夫模型,如圖7所示,我們采用一種經過 狀態聚類的跨詞邊界的三元組隱馬爾可夫模型。狀態輸出概率是由PLP特征向 量(包括靜態、第一和第二階導數)構成的混合高斯模型。我們使用令牌環傳 遞算法進行搜索,通過在搜索過程中保留多個令牌以得到多條備選的音節/音素序列。語音識別結果以HTK網格形式給出,具體技術細節參見[S.J. Young, D. Kershaw, J.J. Odell, D. Ollaason, V. Valtchev, and P.C. Woodland. (for HTK version 3.0). Cambridge University Engineering Department, 2000維特比算 法可以同時識別音節/音素的時間邊界,該信息用于如圖8所示的子序列分析。
在某些學習任務下,用戶發音的文本內容是已知的,即存在模塊A,包含 了已知的用戶說話內容,這時,識別模塊可以被簡化。這意味著可以使相應的 識別器運行更快。這種情況下,語音識別模塊2的搜索空間大大減小,僅生成 模塊A中給定文本的時間邊界信息以及少量的與用戶發音相似的識別結果。語 音識別之后,相應的文本(可能直接來自于模塊A)和聲學信息輸入給模塊3 和模塊4,分別進行聲學和語言學的模式分析。模塊3匯集或提取如下和教學內 容相關的聲學模式特征。
1. 音節/音素的持續時間
2. 音節/音素的能量
3. 音節/音素的基頻值及其時間軌跡
4. 音節/音素的置信度評分
5. 多組識別出的音素序列
音節/音素的持續時間由模塊2輸出。音節的能量由音節內各幀的平均能 量計算,計算公式如下
& =轉£' ")
其中E、、,為音節的能量,Et為模塊1所得的每幀的能量。音素能量以及音節 /音素的基頻值采用類似方法計算。基頻的時間軌跡是對應于某個音節/音素的一 組基頻向量。我們使用動態時間彎曲算法將該向量歸一化到標準長度。音節的 置信評分通過識別器輸出的字詞網格計算。給定每個音素(或字詞)弧的聲學 概率和語言概率值,可以采用前向-后向算法計算每個弧的后驗概率。由此,原
始的語音識別音素(字詞)網格可以轉化為一個音素(字詞)混淆度網絡,其 中具有相似時間邊界和相似內容的音素(字詞)被合并。隨后更新每個音素(字 詞)的后驗概率并將其作為置信評分。技術細節參照[G.Evermaim and P.C. Woodland. Posterior probability decoding confidence estimation and system combination. In Proc. of the NIST Speech Transcription Worksh叩2000]。最后輸出的音素序列是各個可能的序列中概率最大的那一條。
模塊4提取用戶輸入語音的語言學特征,包括
1. 最優字詞序列
2. 用戶詞匯表
3. 語法關鍵詞的出現概率
4. 預先定義的語法索引
5. 語音的語義解釋
最優字詞序列是模塊2的輸出。詞匯量指用戶使用的不同的詞匯。 語法關鍵詞是事先定義好的一系列詞匯,在實際系統中采用哈希表進行檢 索識別。語法關鍵詞的出現概率來自所識別的關鍵詞對應的置信度評分。 語法關鍵詞和預定義語法索引值表現了用戶的語法模式特征。 句子的語義解釋是通過用一組語法去分析字詞序列而生成的。首先將每個 詞標記為名詞或者動詞等,然后和各個預定義的語法結構進行比對,例如"請 帶名詞/詞組到名詞/詞組"。預定義的語法結構不一定僅僅是正確的語 法,該語法列表還包括大量的常見錯誤語法結構和表達相同意思的不同的語法 結構。該提取算法和語義提取算法類似,僅將常見語義項替換為語法結構/術語。 系統采用魯棒的語義解析用于理解用戶輸入。這里,我們使用基于詞組模 板的方法。算法細節參照[S.Seneff. Robust parsing for spoken language systems. InProc. ICASSP, 2000j 。語義解碼的結果以"request(type-bai-,fo(KbChinese,drink-beer),,的形式 輸出。
生成教學相關的聲學和語言學模式特征后,系統將其與模塊B,學習模式 及指導信息數據庫,中預定義的模式特征和教學指導進行匹配。由于這部分和 智能反饋密切相關,因此我們先描述學習模式及指導信息數據庫的構成。給定 某個語言學習的內容,數據庫包括大量的成對的"模式-指導"信息。聲學模式
集包括如下持續性特征
1. 正確讀音的音節/音素持續時間的平均值和方差(母語和講得很好的中國
話)
2. 代表5種熟練程度(由好到差)的讀音的音節/音素持續時間的平均值和
方差
音節/音素的能量和基頻值按照如上模式提取。就基頻時間軌跡而言,每個音素和音節的歸一化的基頻時間軌跡存于數據 庫。歸一化的基頻的持續時間是每個音節/音素的持續時間的平均值,稱為"歸 一化的持續時間"。所有訓練數據的基頻時間軌跡使用動態時間彎曲算法以延伸 到歸一化的持續時間。每個基頻時間軌跡都將平均基頻值減去以使其基線總是 零值。于是,在每個時間點,訓練數據的平均基頻值被用作歸一化值。值得一 提的是,我們使用三種歸一化的基頻時間軌跡對應于好/中/差三種發音情況。
就置信度評分而言,好/中/差發音者的平均值都存于數據庫。對應于正確的 音節的音素組合和各種不同類型的錯誤的組合,數據庫中存有多個音素/音節到 字詞的映射。例如"謝謝"有兩種不同的音素組合,其中一個是正確的,另外 一個是錯誤的組合,例如發音成"借借"。
就語言學模式特征而言,特定教學內容中的髙頻詞句被存儲于數據庫中, 完整的詞匯表、語法關鍵詞、語義解釋等也存儲于數據庫中。針對常見學習錯 誤的詞匯表和語法關鍵詞也分別存儲于數據庫中。
綜上所述,我們使用預先收集的數據訓練教學相關的聲學和語言學模式并 存儲于數據庫中,因此,統計意義上,這些模式代表了多種可能的模式(不同 的表達或者特定的錯誤)。給定某個教學內容,每個表達對應的模式或者錯誤對 應的模式都和數據庫中的教學指導內容相聯系。這些指導收集于真人教師,并 且以文本和多媒體的形式存在。例如,數據庫包含一條基于文本的和基于語音 的指導信息用于描述如何區分"謝謝"和"借借"。
模塊5使用通過聲學和語言學分析得到的用戶模式特征(聲學分析模塊3 和語言學分析模塊4的輸出)與數據庫中預存的模式特征進行匹配。模塊5根 據匹配過程進行計算/選擇,輸出客觀的評分以及教學指導內容,模塊3M輸入 的特征值的距離以及數據庫定義如下
1.音節/音素持續時間的匹配采用馬氏距離計算用戶語音的持續時間和參 考值之間的距離,計算公式如下
—
(2) 其中A"是用戶語音的持續時間"和數據庫中參考值之間的距離。""是某個 特定的音素或者音節在某種熟練程度下的平均持續時間,^為相應的方差。
222. 音節/音素的能量值 和基頻值 的匹配采用類似公式(2)的方法
3. 基頻時間軌跡的匹配。首先將用戶語音的基頻時間軌跡歸一化,然后按 如下公式計算其和數據庫中的參考值的距離。
7 '=i (3)
其中A'。是用戶語音的基頻時間軌跡和數據庫中參考值之間的距離,T是歸
一化持續時間的長度,AO是歸一化的用戶語音的基頻值, ")是數據庫中歸一 化的參考基頻值。
4. 符號序列(音素或詞或語義項)的匹配。首先將用戶輸入的符號序列和 數據庫中的參考序列對齊,兩者間的距離為替換誤差、刪除誤差和插入誤差之 和。對齊通過動態規劃算法實現。
得出與數據庫中正確的聲學模式之間的上述距離后,可以在音素、音節或 者句子的級別對用戶發音進行客觀的評分。音素級別評分定義如下
2 (4)
l + exp( ,,+ /3) (5) 其中Wi+M'2+W3=1, M'4+M'一l并且都為正數,例如o丄0.5等。e—是音素
的置信評分,"和^是評分函數的參量。音節級別評分A"w采用類似定義。句子 級別的評分定義為音節級評分的平均分,艮P:
二"^^Z《vn/
氣W "v'(/ ( 6 )
其中A^"是句中的音節數。值得一提的是,參數"和/^是音素和音節評分計
算時使用的加權系數,這兩個參數由事先訓練得到,從而保證機器評分和真人 教師評分的高度相關性。
語言學的評分是根據詞和語義項的錯誤率計算的。給定用戶詞序列0"'"以及
語義項序列0,與數據庫中相應參考值之間的距離(錯誤數量),語言學評分計算如下:
其中W+巧-i且都是正數,例如0>1或0.2。 ^自/是數據庫中正確詞序列中
詞的數量,W"'"'是數據庫中正確語義項的數量。
除了客觀的評分,系統同時生成用于糾正錯誤并且/或者提髙口語水平的教 學指導信息。系統通過在數據庫中匹配特定的錯誤模式特征或者其它預存口語 模式特征給出相應的指導信息。就聲學方面而言,系統給出如下個性化的指導 信息
1. 音素發音錯誤。利用用戶輸入語音的每個音節的音素序列與數據庫中的 序列的距離,搜索數據庫中最相近的音素序列。如果所得的音素序列是某種典 型錯誤,則選擇相應的教學指導信息。
2. 語調分析。基頻時間軌跡可以給出音節和音素和字詞的音調信息。給定 用戶語音的基頻時間軌跡的距離,可以發現典型的語調錯誤并給出相應的指導 信息。
針對語言學方面,產生如下的個性化的指導信息
1. 詞匯使用指導。系統對用戶的用詞進行計數統計(在用戶對同一內容進 行多次練習后)。如果某詞在數據庫中記錄應具有較髙的使用頻率但用戶僅使用 了很少次數,系統給出指導信息以鼓勵用戶使用相應詞匯。
2. 語法糾錯。如果匹配的語法索引對應于預先定義的錯誤的語法,系統給 出相應的指導信息。如果匹配的語法索引對應于預先定義的正確的語法,系統 給出采用另外一種語法結構表達相同意思的答案。
3. 語法關鍵字指導。針對某個具體的學習內容,我們事先已知正確的語法 關鍵字。因此,根據用戶讀音中的語法關鍵字的出現概率,系統針對遺漏的或 者使用不足的語法關鍵字給出指導。
4. 語義指導。如果發現匹配的語義序列不正確,則給出產生語義理解錯誤 的原因。
模塊5給出不同的評分和指導信息。反饋生成模塊,模塊6,將其綜合并輸 出一份詳細的評分報告和完整的指導。
24音節/音素和字詞的評分以直方圖形式顯示,總評分以餅圖形式顯示。同時 給出聲調比較圖形,包括正確讀音的基頻曲線和用戶發音的基頻曲線(僅給出 有問題音節的聲調圖形)。指導信息分"詞匯使用"、"語法評價"以及"可理解 性"幾部分。在這些指導信息中,機器使用一些常見的語句結構來組織所反饋 的指導信息,例如"另外,您可以使用。。。來表達同樣的意思。"
模塊7進行文本到語音的轉換。這里,我們使用一個基于隱馬爾可夫模型 的語音合成器。當某些教學指導項的文本內容過長或者指導包含多媒體內容時, 系統不執行該模塊。
模塊8用于維護一個動態的數據庫,使其具有豐富且個性化的內容,即更 新模塊B。如果無法在數據庫中找到匹配的內容,我們給出某種泛泛的指導信 息,告訴用戶需要進一步提髙,例如"您的發音和標準發音還有一段距離,請 改變您的學習級別。"同時,系統將該模式以及原始語音數據存儲下來。程序結 束后,保存的數據通過國際互聯網傳送到服務器。中心服務器對這些模式進行 計數統計,當某種模式積累到一定數量后,中心服務器對其進行分組。當一組 新的模式出現后,真人教師對其進行分析并給出相應的指導意見,服務器將新 的模式,例如"一種新的錯誤型式",加入到數據庫中。該種新的模式可以用于 其他用戶。另外一方面,當某個用戶取得進步時,系統會請求用戶輸入其學習 心得和體驗,該信息也被反饋到中心服務器并且加入數據庫。
除了自適應的內容更新之外,用戶的原始語音數據也用于更新語音識別所 使用的隱馬爾可夫(HMM)模型,它導致了語音識別模塊2以及聲學分析模塊 3的參數更新。這里,我們采用最大似然線性回歸(MLLR)算法更新每個HMM 模型的混合髙斯模型的均值和方差,參照[C.J. Leggetter and P.C. Woodland. Speaker adaptation of continuous density HMMs using multivariate linear regression. ICSLP, pages 451-454, 1994。更新的模型能更好的識別特定用戶的 語音。
另外,學習模式及教學指導信息數據庫,模塊B,還存儲用戶的發音模式 (特別是錯誤模式)的統計信息。這些統計信息主要包括用戶某種發音模式的 計數統計以及相應的分析結果的索引。下次,當相同用戶開始學習的時候,該 用戶可以獲得他的學習歷史記錄,或者通過比較當前的分析結果和數據庫中的 歷史記錄來看到進步。這些統計數據還用于設計個性化的教學材料,例如個性化的練習課程或者髙級閱讀材料等。統計信息可以以數字化或者圖形化的形式 展示。
本系統可以采用類似形式實現其他語言的輔助教學。針對基于聲調的語言, 例如中文,本系統的一個額外特點是可以通過如圖9所示的基頻對齊比較圖形 來指導聲調的訓練。
圖9中,參考基頻值以實線給出,代表了相應的音素或音節的基頻。學習 者的發音的基頻時間軌跡以虛線給出,并且和參考曲線對齊。學習者可以從圖 形中一目了然的看出自己發音的正確性。由于糾正聲調的練習的可視化,極其 有助于提高練習者的聲調水平。曲線、圖形、顏色或者其他圖形屬性會有所不 同。
值得注意的是,本發明不局限于前述的實施例,具有相應從業經驗的人士 可以根據前面的技術和框架描述做出修改以形成其它的實施例。
權利要求
1.一種輔助口語語言學習的計算機系統,包括以下組件用戶界面,包括機器對使用者的提示,要求用戶完成一定的口語語言學習內容,還包括采集用戶在此過程中的語音響應數據;數據庫,包括特征數據項,該特征數據項中包括一組模式特征,用以描述與用戶的口語語言學習相關的聲學和語言學方面的表現,并將模式特征量化的與特定的反饋指導信息和學習內容相對應;語音分析系統,用以分析上述采集于用戶的語音響應數據,從上述采集的語音響應數據中提取聲學模式特征或者語言學模式特征;模式匹配系統,用以將上述提取于用戶語音響應數據中的聲學模式特征或者語言學模式特征中的一個或多個子集與數據庫中的模式特征進行對應匹配,并根據上述匹配結果生成反饋數據;反饋系統,用以將上述反饋數據反饋給上述用戶,輔助上述用戶掌握上述口語語言學習內容。
2. 如權利要求1所述的輔助口語語言學習的計算機系統,其特征在于所述 數據庫用于存儲一組相關聯的數據項,該組相關聯的數據項中包括特征數據項, 還包括指導信息數據項和學習內容數據項;所述特征數據項中的模式特征包括 用戶在口語語言學習中可能出現的聲學模式特征或語言學模式特征;所述指導 信息數據項包括與特征數據項中的聲學模式特征或者語言學模式特征一一對應 的指導信息,用以指導用戶提高或改正從模式匹配過程中發現的口語發音中的 錯誤或不足,所述反饋數據包括上述指導信息;而所述學習內容數據項用以識 別口語語言學習內容中某個特定的語言學習目標,并使得該特定的語言學習目 標中的具體內容與該組相關聯的數據項對應。
3. 如權利要求l或2所述的輔助口語語言學習的計算機系統,其特征在于 所述的語音分析系統包括一個聲學模式分析系統,該聲學模式分析系統從采集 的語音響應數據中識別一種或多種音素、詞和句子并提供相應的置信度數據; 所述聲學模式特征包括上述的一種或多種音素、詞和句子以及相應的置信度數 據。
4.如權利要求3所述的輔助口語語言學習的計算機系統,其特征在于所述 聲學模式分析系統還從獲得的語音響應數據中識別韻律特征;所述韻律特征包括對應于某段語音的基頻特征,持續時間和能量;所述聲學模式特征包括上述 韻律特征。
5. 如權利要求3所述的輔助口語語言學習的計算機系統,其特征在于所述語音分析系統還包括一個語言學模式分析系統將采集的語音響應數據中的語 法結構與數據庫中的一個或多個多種類型的語法結構進行匹配;所述語言學模式特征包括用戶的語法模式特征。
6. 如權利要求5所述的輔助口語語言學習的計算機系統,其特征在于所 述一個或多個多種類型的語法結構,包括在音素、字詞、句子級別的語法結構 的錯誤類型。
7. 如權利要求5所述的輔助口語語言學習的計算機系統,其特征在于所 述語言學模式分析系統還可以識別用戶語音中的一個或多個關鍵詞,并且所述 聲學模式分析系統為這些已識別的關鍵詞提供置信度數據。
8. 如權利要求1或2所述的輔助口語語言學習的計算機系統,其特征在于 所述語音分析系統包括一個語音識別系統,所述語音識別系統同時包括一個聲 學模型用以描述特定字詞或聲學單元的聲學特征,和一個語言學模型用以描述 聲學單元到字詞的映射以及字詞序列的先驗統計特征。
9. 如權利要求8所述的輔助口語語言學習的計算機系統,其特征在于所 述語音識別系統用于識別音素或字詞和它們的時間邊界;所述特征數據項中的 模式特征還包括用戶語音在音素或字詞的時間邊界處的特征。
10. 如權利要求2所述的輔助口語語言學習的計算機系統,其特征在于反 饋數據包括一個索引值,用以索引所選擇的指導信息,作為對模式匹配結果和 特定語言學習內容的響應;所述指導信息包括了詳細的指導數據,用以改正通 過模式匹配發現的口語語言學習錯誤或者提供更多的口語表達方式。
11. 如權利要求2所述的輔助口語語言學習的計算機系統,其特征在于所 述指導信息是分級整理的,至少包括聲學級別和語言學級別;所述反饋系統會 從各個級別中作出選擇以對應特定口語語言學習內容的級別和用戶預先定義好 的熟練級別,或者二者之一。
12. 如權利要求l或2所述的輔助口語語言學習的計算機系統,其特征在于 所述口語語言學習內容中指出的口語語言包括某種基于聲調的語言;而所述反 饋數據包括基頻時間軌跡數據以及相應的圖解信息。
13. 如權利要求12所述的輔助口語語言學習的計算機系統,其特征在于 反饋數據包括給予用戶的聲調反饋,該聲調反饋包括對應于用戶的發音中的某 個音素、字詞或者句子的基頻時間軌跡,采用圖形方式顯示,同時反饋數據還 包括給出相應標準發音的基頻時間軌跡的圖形。
14. 如權利要求l或2所述的輔助口語語言學習的計算機系統,其特征在于 該計算機系統還包括不同用戶的歷史數據存儲;所述歷史數據存儲包括已知的 聲學模式特征和已知的語言學模式特征,或二者之一,還包括系統對用戶的評 價信息,還包括系統識別出的不在數據庫中存在的特征,將其作為新的特征, 并將這個新的特征根據加入到所述結構化的數據庫中。
15. 如權利要求14所述的輔助口語語言學習的計算機系統,其特征在于該 計算機系統還包括一個系統模塊,用于將對應于新的特征的反饋數據加入所述 結構化的數據庫中,而新的反饋數據包括教學指導信息,信息通過向專家咨詢 或者向用戶提問的形式獲得,提問包括詢問用戶如何克服某個對應于新的特征 的錯誤。
16. 如權利要求1或2所述的輔助口語語言學習的計算機系統,其特征在于 給予所述用戶的反饋包括一個評分;所述評分通過一個映射函數計算變換模式 匹配產生的數值結果所得;所述映射函數使計算機系統給出的評分和真人教師 的評分相關。
17. 如權利要求1或2所述的輔助口語語言學習的計算機系統,其特征在于 該計算機系統可以在輔助學習口語語言的同時或之外,輔助測試口語語言,所 述反饋系統在給予用戶反饋的同時或之外,生成一份測試報告。
18. —種用于實現前述任意一項權利要求所述的輔助口語語言學習的計算 機系統的計算機程序代碼的載體,該計算機程序代碼包括實現如下功能的計算 機程序代碼-用戶界面,包括機器對使用者的提示,要求用戶完成一定的口語語言學習 內容,還包括采集用戶在此過程中的語音響應數據;數據庫,包括特征數據項,該特征數據項中包括一組模式特征,用以描述 與用戶的口語語言學習相關的聲學和語言學方面的表現,并將模式特征量化的 與特定的反饋指導信息和學習內容相對應;語音分析系統,用以分析上述采集于用戶的語音響應數據,從上述采集的語音響應數據中提取聲學模式特征或者語言學模式特征;模式匹配系統,用以將上述提取于用戶語音響應數據中的聲學模式特征或 者語言學模式特征中的一個或多個子集與數據庫中的模式特征進行對應匹配,并根據上述匹配結果生成反饋數據;反饋系統,用以將上述反饋數據反饋給上述用戶,輔助上述用戶掌握上述 口語語言學習內容。
全文摘要
本發明公開了一種輔助口語語言學習的計算機系統,包括以下組件用戶界面,提示用戶完成一定的口語語言學習內容并采集用戶的語音響應數據;數據庫,包括一組模式特征用以描述與用戶的口語語言學習相關的聲學和語言學方面的表現;語音分析系統,分析語音響應數據并提取聲學模式特征或者語言學模式特征;模式匹配系統,將提取于語音響應數據的模式特征中的一個或多個子集與數據庫中的模式特征進行對應匹配,并根據匹配結果生成反饋數據;反饋系統,將反饋數據反饋給用戶,輔助用戶掌握口語語言學習內容。本發明具有較高的交互性和自適應性,尤其可以啟發式地捕獲用戶錯誤并智能地反饋豐富的教學指導信息,彌補現有技術在這方面的不足。
文檔編號G06F19/00GK101551947SQ20081012320
公開日2009年10月7日 申請日期2008年6月11日 優先權日2008年6月11日
發明者凱 俞 申請人:凱 俞