專(zhuān)利名稱(chēng):通過(guò)多模態(tài)基于web的界面的用戶驗(yàn)證的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用多模態(tài)(multimodal )基于Web的界面驗(yàn)證用戶身份。
技術(shù)背景多模態(tài)界面允許用戶通過(guò)可視和口語(yǔ)方式與應(yīng)用或其它系統(tǒng)通信。例 如,用戶可通過(guò)圖形用戶界面(GUI)進(jìn)行通信,這可以通過(guò)發(fā)出一個(gè)或 多個(gè)口頭言詞或通過(guò)提供GUI輸入和話音輸入的組合。多模態(tài)交互可以向 用戶提供與系統(tǒng)通信的更多直覺(jué)方式。關(guān)于便攜式計(jì)算設(shè)備,諸如智能電話、個(gè)人數(shù)字助理、以及其它具有 小型表格要素的設(shè)備,多模態(tài)界面允許用戶基于情況選擇交互方式。在某 些情形中,使用GUI可能是有利的,而在其它情形中,話音數(shù)據(jù)輸入可能 更有利或更方便。例如,在通常情況下,用戶可以選擇話音交互,因?yàn)檫@ 是直覺(jué)性和迅捷的。話音數(shù)據(jù)輸入進(jìn)一步免除了用戶不得不使用微型小鍵 盤(pán)或小型GUI,所述二者在使用上都可能是麻煩并緩慢的。不過(guò),在嘈雜環(huán)境中,話音數(shù)據(jù)輸入也許是不可能的。周?chē)脑肼暭?jí) 可能掩蓋用戶話音輸入,以至于對(duì)用戶語(yǔ)音的精確識(shí)別是不可能的。在其 它情況下,諸如當(dāng)驗(yàn)證用戶身份時(shí),用戶也可能選擇小鍵盤(pán)輸入或非口語(yǔ) 交互。典型地,使用用戶名和口令來(lái)實(shí)施用戶驗(yàn)證。因?yàn)閷⑦@樣的信息說(shuō) 出到多模態(tài)界面中可能允許其他人無(wú)意聽(tīng)到機(jī)密信息,所以用戶通常使用 GUI或小鍵盤(pán)輸入這樣的信息。不過(guò),如所迷,在便攜式計(jì)算設(shè)備上以此 方式輸入這樣的信息可以M煩并緩慢的。使用口令還有其它缺點(diǎn).典型地,口令難于記住并且不太安全??紤] 到用戶擁有的過(guò)多的帳戶,其中每個(gè)帳戶都需要用戶名和口令,則記住口
令可能是特別困難的。為避免不得不記住每個(gè)口令,用戶傾向于對(duì)于多個(gè)帳戶使用一個(gè)通用口令、將口令寫(xiě)在訪問(wèn)卡(即ATM卡)的背面、或所 使用的口令與用戶對(duì)于該帳戶的用戶名相同。這些行為中的任一種都可能 將用戶帳戶的安全置于危險(xiǎn)中。而且,由于諸如銀行、航線預(yù)訂、產(chǎn)品購(gòu)買(mǎi)等等的功能開(kāi)始遷移到多 模態(tài)基于Web的界面,用戶驗(yàn)證將變得越來(lái)越重要。這樣的系統(tǒng)僅在交易 是安全的并且系統(tǒng)確保該用戶是用戶所聲明的那個(gè)人之時(shí)才可以是成功 的。因此,提供一種克服了上述缺陷的、通過(guò)多模態(tài)界面驗(yàn)證用戶的技術(shù) 將是有利的。發(fā)明內(nèi)容本發(fā)明提供了一種在通信網(wǎng)絡(luò)上驗(yàn)證用戶身份的解決方案。本發(fā)明的 一實(shí)施例可以包括一種使用多模態(tài)基于Web的界面來(lái)驗(yàn)證用戶身份的方 法。所述方法可以包括將多模態(tài)標(biāo)記語(yǔ)言文檔發(fā)送到遠(yuǎn)程計(jì)算設(shè)備,所 述多才莫態(tài)標(biāo)記語(yǔ)言文檔當(dāng)由所述遠(yuǎn)程計(jì)算設(shè)備呈現(xiàn)時(shí)向用戶查詢用戶標(biāo)識(shí) 符并使得用戶話音的音頻發(fā)送到多模態(tài)基于Web的應(yīng)用。所述用戶標(biāo)識(shí)符 和記錄可以大約同時(shí)從客戶端設(shè)備接收。所述音頻可以與關(guān)聯(lián)于所述用戶 標(biāo)識(shí)符的話音印跡進(jìn)行比較。因此,根據(jù)從所述比較步驟獲得的結(jié)果,位 于所述遠(yuǎn)程計(jì)算設(shè)備的用戶可以被選擇性地準(zhǔn)許對(duì)聯(lián)機(jī)系統(tǒng)的訪問(wèn)。本發(fā)明的另一實(shí)施例可以包括一種用于驗(yàn)證用戶身份的系統(tǒng)。所述系 統(tǒng)可以包括具有包括多個(gè)話音印跡的話音印跡數(shù)據(jù)庫(kù)的驗(yàn)證系統(tǒng),每個(gè) 話音印跡關(guān)聯(lián)于用戶標(biāo)識(shí)符。所述系統(tǒng)還可以包括多模態(tài)應(yīng)用,其被配 置發(fā)送多模態(tài)標(biāo)記語(yǔ)言文檔到客戶端設(shè)備。所述多模態(tài)標(biāo)記語(yǔ)言文檔可以 指定隨機(jī)腳本,并當(dāng)執(zhí)行時(shí)使得用戶標(biāo)識(shí)符和包括大聲讀出所述隨;f幾腳本 的說(shuō)話者的數(shù)字表示的音頻凈i:iC送回所述多模態(tài)應(yīng)用。所述多模態(tài)應(yīng)用可 以將所述腳本、所述記錄和所述用戶標(biāo)識(shí)符提交給所述驗(yàn)證系統(tǒng),用于通 過(guò)比較所述記錄和從關(guān)聯(lián)于所述用戶標(biāo)識(shí)符的多個(gè)話音印跡中選擇的話音 印跡來(lái)驗(yàn)證說(shuō)話者的身份。
本發(fā)明的其它實(shí)施例可以包括機(jī)器可讀存儲(chǔ)裝置,其被編程以使得機(jī) 器實(shí)施這里描述的各種步驟。
現(xiàn)在將僅通過(guò)示例并參考附圖來(lái)描述本發(fā)明的實(shí)施例,在附圖中圖1是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的使用多模態(tài)基于Web的界面 來(lái)實(shí)施用戶-驗(yàn)證的系統(tǒng)的示圖;圖2是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的出于用戶驗(yàn)證目的對(duì)用戶進(jìn) 行登記的方法的流程圖;以及圖3是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的實(shí)施用戶驗(yàn)證的方法的流程圖。
具體實(shí)施方式
以下是對(duì)用于通過(guò)使用多模態(tài)基于Web的界面來(lái)驗(yàn)證用戶身份的示 例性技術(shù)和系統(tǒng)的描述。用戶身份可以通過(guò)使用話音識(shí)別技術(shù)來(lái)驗(yàn)證???以向用戶示出從多模態(tài)基于Web的應(yīng)用接收的多模態(tài)文檔。所述多模態(tài)文 檔(即網(wǎng)頁(yè)類(lèi)型的界面)可以請(qǐng)求用戶提供用戶標(biāo)識(shí)符或用戶名(下文為 "用戶ID")以及話音樣本。用戶ID和話音樣本可以被提供回多模態(tài)基 于Web的應(yīng)用。可以依據(jù)話音樣本并參考用戶ID實(shí)施話音驗(yàn)證?;谠?音驗(yàn)證的結(jié)果,用戶可以被準(zhǔn)許對(duì)聯(lián)機(jī)系統(tǒng)的訪問(wèn)或被拒絕進(jìn)入。圖l是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的使用多模態(tài)基于Web的界面 來(lái)實(shí)施用戶驗(yàn)證的系統(tǒng)100的示圖。如圖所示,系統(tǒng)100可包括客戶端設(shè) 備105、包括多模態(tài)應(yīng)用120的服務(wù)器110、以及具有話音印跡數(shù)據(jù)庫(kù)130 的驗(yàn)證系統(tǒng)125。在一實(shí)施例中,客戶端設(shè)備105可以是多種計(jì)算設(shè)備中的任一種,諸 如臺(tái)式計(jì)算機(jī)、服務(wù)器等等。在另一實(shí)施例中,計(jì)算設(shè)備105可以是便攜 式和/或移動(dòng)計(jì)算設(shè)備,諸如膝上型計(jì)算機(jī)、或者有線或者無(wú)線的被配置用 于因特網(wǎng)通信的個(gè)人數(shù)字助理(PDA)、移動(dòng)電話等等。在任意情形中,
客戶端設(shè)備105可以包括適當(dāng)?shù)能浖?,其用于發(fā)送請(qǐng)求到服務(wù)器110和從 服務(wù)器110接收信息。例如,客戶端設(shè)備105可以包括能夠呈現(xiàn)標(biāo)記語(yǔ)言 文檔(包括多模態(tài)標(biāo)記語(yǔ)言(MML)文檔)的適當(dāng)?shù)臑g覽器。MML文檔可以指定用于用戶交互的可視和話音組件。因此,MML 文檔可包括基于任意標(biāo)記語(yǔ)言的文檔或文件,當(dāng)其被呈現(xiàn)時(shí)允許用戶通過(guò) 可視方式(諸如圖形用戶界面(GUI))以及通過(guò)可聽(tīng)方式(通過(guò)說(shuō)出或 提供雙音多頻輸入)來(lái)提供輸入。這樣的標(biāo)記語(yǔ)言的一個(gè)示例是X+V標(biāo)記 語(yǔ)言。X+V是所提出的用于開(kāi)發(fā)多模態(tài)網(wǎng)頁(yè)的標(biāo)記語(yǔ)言,其結(jié)合了可擴(kuò)展 超文本標(biāo)記語(yǔ)言(XHTML)和話音可擴(kuò)展標(biāo)記語(yǔ)言(VoiceXML)的子集。一般而言,XHTML是已被調(diào)整為符合可擴(kuò)展標(biāo)記語(yǔ)言(XML)的規(guī) 則的HTML 4.0的一版本。VoiceXML是通過(guò)萬(wàn)維網(wǎng)協(xié)會(huì)(W3C)開(kāi)發(fā)的 基于XML的語(yǔ)言。VoiceXML提供用于構(gòu)造基于語(yǔ)音的應(yīng)用的標(biāo)準(zhǔn)化格 式。XHTML和VoiceXML (X+V)共同使得Web開(kāi)發(fā)者能夠?qū)⒃捯糨斎?和輸出添加到傳統(tǒng)的基于圖形的網(wǎng)頁(yè)。MML的另 一示例是基于將語(yǔ)音應(yīng)用語(yǔ)言標(biāo)志(SALT)添加到宿主標(biāo) 記語(yǔ)言,所述宿主標(biāo)記語(yǔ)言諸如XHTML、超文本標(biāo)記語(yǔ)言(HTML)或 者可縮放向量圖形(SVG) 。 SALT是所提出的可以用于開(kāi)發(fā)支持可視和 語(yǔ)音模式的用戶交互的多模態(tài)網(wǎng)頁(yè)的標(biāo)記語(yǔ)言.SALT是通過(guò)SALT論壇 開(kāi)發(fā)的基于XML的語(yǔ)言。服務(wù)器110可以是多種能夠在通信網(wǎng)絡(luò)上回復(fù)請(qǐng)求并提供信息的信息 處理系統(tǒng)中的任一種,例如Web服務(wù)器.如圖所示,服務(wù)器110和客戶端 設(shè)備105可以在通信網(wǎng)絡(luò)115上通信,所述通信網(wǎng)絡(luò)115諸如因特網(wǎng)、局 域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、移動(dòng)或蜂窩式網(wǎng)絡(luò)、另外的多種通信網(wǎng) 絡(luò)、或它們的任意組合。多模態(tài)應(yīng)用120可以在服務(wù)器110內(nèi)執(zhí)行。因此,多模態(tài)應(yīng)用120可 以從客戶端設(shè)備105接收請(qǐng)求和信息,并作為回復(fù)提供諸如標(biāo)記語(yǔ)言文檔 (多模態(tài)的或非多模態(tài)的)的信息。盡管未示出,多模態(tài)應(yīng)用120還可以 包括或訪問(wèn)音頻處理服務(wù),諸如文本到語(yǔ)音(TTS)、語(yǔ)音識(shí)別、和/或雙 音多頻處理。這些服務(wù)可以位于服務(wù)器110內(nèi)或者可以位于與多模態(tài)應(yīng)用 120在通信上鏈接的不同計(jì)算系統(tǒng)內(nèi)。驗(yàn)證系統(tǒng)125可以通過(guò)比較用戶話音的記錄和存儲(chǔ)在話音印跡數(shù)據(jù)庫(kù) 130中的話音印跡來(lái)驗(yàn)證用戶身份。話音印跡數(shù)據(jù)庫(kù)130可以包括來(lái)自已 經(jīng)在驗(yàn)證系統(tǒng)125中進(jìn)行登記的用戶的多個(gè)不同的話音印跡。每個(gè)話音印 跡可以對(duì)應(yīng)于或者關(guān)聯(lián)于用戶ID。當(dāng)接收到話音記錄時(shí),驗(yàn)證系統(tǒng)125可 以比較所述話音記錄和話音印跡數(shù)據(jù)庫(kù)130中的話音印跡,以確定是否存 在匹配。在操作中,客戶端設(shè)備105可以發(fā)送請(qǐng)求MML文檔的請(qǐng)求135到多 模態(tài)應(yīng)用120。多模態(tài)應(yīng)用120可以通過(guò)發(fā)送MML文檔140(即多模態(tài)網(wǎng) 頁(yè))進(jìn)行響應(yīng)。在呈現(xiàn)MML文檔140之時(shí),客戶端設(shè)備105可以在MML 文檔的指示下請(qǐng)求來(lái)自用戶的用戶ID和話音樣本。在一實(shí)施例中,所述 文檔可以提供當(dāng)用戶提供話音樣本時(shí)將由用戶讀出的腳本。需要注意,任 意提示可以是音頻提示(已記錄音頻或TTS)或者在客戶端設(shè)備105的顯 示屏幕上顯示的文本提示。客戶端設(shè)備105例如當(dāng)用戶大聲讀出腳本時(shí)可以產(chǎn)生對(duì)用戶話音的數(shù) 字記錄。 一旦用戶話音的記錄和用戶ID已經(jīng)由客戶端設(shè)備105獲得時(shí), 客戶端設(shè)備105可以在MML文檔140的指示下發(fā)送上述二者到多模態(tài)應(yīng) 用120。記錄145和用戶ID 150可以幾乎同時(shí)祐t送。在接收到用戶ID 150 和記錄145之時(shí),多模態(tài)應(yīng)用120可以將上迷二者提供給驗(yàn)證系統(tǒng)125進(jìn) 行處理。lHi系統(tǒng)125可以使用所提供的用戶ID 150在話音印跡數(shù)據(jù)庫(kù) 130中定位話音印跡。驗(yàn)證系統(tǒng)125接著可以比較話音印跡和記錄150,以 確定記錄150是否匹配該話音印跡。如果匹配,則用戶可以被準(zhǔn)許對(duì)聯(lián)機(jī) 系統(tǒng)的訪問(wèn),所述聯(lián)機(jī)系統(tǒng)諸如用于銀行、預(yù)訂等等的網(wǎng)站。如果不匹配, 訪問(wèn)可以被拒絕。在另一實(shí)施例中,音頻不需要在客戶端設(shè)備105中進(jìn)行記錄,而是在 數(shù)據(jù)連接上從客戶端設(shè)備105流向多模態(tài)應(yīng)用120。諸如支持在數(shù)據(jù)信道 上的話音(被稱(chēng)為IP上的話音(VoIP))的蜂窩式電話的移動(dòng)設(shè)備可以
支持音頻的流動(dòng)。在音頻M戶端設(shè)備105流出的情形中,音頻可以被多 才莫態(tài)應(yīng)用120記錄。
圖2是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的出于用戶驗(yàn)證目的對(duì)用戶進(jìn) 行登記的方法200的流程圖。方法200可以由參考圖l描述的系統(tǒng)或者另 一適當(dāng)?shù)南到y(tǒng)來(lái)實(shí)施。方法200可以在步驟205開(kāi)始,其中對(duì)于聯(lián)才幾系統(tǒng) 是新用戶的用戶可以訪問(wèn)多^=莫態(tài)基于Web的應(yīng)用。用戶可以通it^戶端設(shè) 備訪問(wèn)多模態(tài)基于Web的應(yīng)用。
在步驟210中,多模態(tài)基于Web的應(yīng)用可以提供安全的MML文檔給 位于客戶端設(shè)備的用戶,如所述,MML文檔可以指定基于Web的多模態(tài) 界面或網(wǎng)頁(yè)。這樣,其可以指定用于接收用戶ID以及其它可能是必要的 個(gè)人信息(諸如電話號(hào)碼、地址、電子郵件地址等等)的字段。MML文 檔可以進(jìn)一步指定登記腳本。登記腳本可以包括文本、數(shù)字、符號(hào)、字母等等。
在步驟215,在呈現(xiàn)MML文檔之時(shí),客戶端設(shè)備可以提示用戶大聲 讀出登記腳本。所述提示可以是基于文本的,即網(wǎng)頁(yè)中的書(shū)面指令,或者 可以是可聽(tīng)提示,或者是TTS或者是預(yù)先記錄的音頻。登記腳本可以在客 戶端設(shè)備的顯示屏幕上作為文本顯示。在步驟220,用戶可以大聲讀出登 記腳本,即說(shuō)出登記腳本。在步驟225,客戶端設(shè)備記錄大聲讀取登記腳 本的用戶,并獲得用戶ID和用戶提供的任意其它個(gè)人信息。根據(jù)本發(fā)明 的一實(shí)施例,MML文檔內(nèi)的記錄指令可以指示客戶端設(shè)備產(chǎn)生對(duì)用戶語(yǔ) 音的數(shù)字記錄。例如,在用X+V編寫(xiě)的MML文檔內(nèi),可以使用記錄 (r^wd)標(biāo)志。
在步驟230,當(dāng)用戶已結(jié)束大聲讀出登記腳本時(shí),客戶端設(shè)備可以將 所記錄的音頻轉(zhuǎn)發(fā)到在服務(wù)器上執(zhí)行的多模態(tài)應(yīng)用。除了所記錄的音頻之 外,被輸入到MML文檔的字段中的任意信息(特別是用戶ID)可以初l 送到多模態(tài)基于Web的應(yīng)用.應(yīng)該理解,從MML文檔的字段獲得的數(shù)據(jù) 和所記錄的音頻可以同時(shí)或幾乎同時(shí)^LiL送,客戶端設(shè)備轉(zhuǎn)發(fā)當(dāng)MML文 檔被執(zhí)行時(shí)由其所指定的這樣的信息。
如所述,在另一實(shí)施例中,登記和/或驗(yàn)證音頻可以>^戶端設(shè)備流向多模態(tài)基于Web的應(yīng)用。在這樣的實(shí)施例中,音頻可以由多模態(tài)基于Web 的應(yīng)用所記錄。在此情形中,MML文檔中的流指令可以指示客戶端i殳備 將用戶語(yǔ)音的音頻流向多模態(tài)基于Web的應(yīng)用。在步驟235,多模態(tài)基于Web的應(yīng)用可以接收音頻以及在客戶端設(shè)備 被輸入到MML文檔中的任意其它信息,諸如用戶ID。在步驟240,多模 態(tài)基于Web的應(yīng)用發(fā)送用戶ID、音頻和登記腳本到驗(yàn)證系統(tǒng)。在步驟245, 驗(yàn)證系統(tǒng)可以通過(guò)登記腳本的文本和音頻創(chuàng)建用戶的唯一話音印跡。得到 的話音印跡可以關(guān)聯(lián)于用戶ID并存儲(chǔ)在話音印跡數(shù)據(jù)庫(kù)中。在成功的用 戶登記之后,在步驟250,多模態(tài)基于Web的應(yīng)用可以發(fā)送安全的歡迎頁(yè) 給用戶,并允許用戶訪問(wèn)該服務(wù)器或另 一月良務(wù)器內(nèi)的其它安全頁(yè)。圖3是說(shuō)明了根據(jù)這里公開(kāi)的發(fā)明方案的實(shí)施用戶驗(yàn)證的方法300的 流程圖。方法300可以通過(guò)使用參考圖l描述的系統(tǒng)或者另一類(lèi)似的系統(tǒng) 來(lái)實(shí)施。在步驟305,已注冊(cè)用戶可以經(jīng)由客戶端設(shè)備訪問(wèn)多模態(tài)基于Web 的應(yīng)用,以請(qǐng)求網(wǎng)頁(yè)或?qū)ο到y(tǒng)的登錄。在步驟310,多;f莫態(tài)應(yīng)用可以發(fā)送 MML文檔,在此情形中是安全的基于Web的登錄頁(yè),其可以在步驟315 中由客戶端設(shè)備呈現(xiàn)。安全的登錄頁(yè)可以指定用于接收諸如用戶ID的用戶輸入的一個(gè)或多 個(gè)字段。安全的登錄頁(yè)可以進(jìn)一步指定腳本。腳本可以是字母、數(shù)字和/ 或字詞的隨機(jī)序列。腳本可以由多模態(tài)基于Web的應(yīng)用例如通過(guò)從所述文 本的集合中選擇字詞、字母和/或數(shù)字而生成。在一實(shí)施例中,腳本可以包 括從登記腳本中隨機(jī)選擇的任意字詞、字母或數(shù)字。隨機(jī)生成的腳本防止冒充者試圖欺騙驗(yàn)證系統(tǒng)。如果冒充者嘗試播放 已注冊(cè)用戶的語(yǔ)音的預(yù)先記錄的部分,則預(yù)先記錄的語(yǔ)音將不會(huì)匹配將在 話音印跡比較中使用的預(yù)期的用戶語(yǔ)音。預(yù)先記錄的用戶語(yǔ)音將包括不同 于在隨機(jī)生成的腳本中所指定的字詞。因此,用戶驗(yàn)證將失敗。因此,根 據(jù)本發(fā)明的一實(shí)施例,除話音驗(yàn)證之外還可以使用語(yǔ)音識(shí)別,以防止冒充 者使用預(yù)先記錄的用戶語(yǔ)音來(lái)欺騙系統(tǒng)。
在步驟320,用戶可以將他或她的用戶ID輸入到當(dāng)前呈現(xiàn)在客戶端設(shè) 備的顯示器上的MML文檔的適當(dāng)字段中。用戶可以使用語(yǔ)音、小鍵盤(pán)輸 入、指示筆輸入等來(lái)輸入用戶ID。用戶輸入用戶ID的具體方式并不意味 著限制本發(fā)明。在任意情形中,用戶ID可以被臨時(shí)存儲(chǔ)在客戶端設(shè)備中。在步驟325,用戶可以被指示大聲讀出在客戶端設(shè)備的顯示器上示出 的腳本。用戶可以通過(guò)TTS提示、音頻提示或通過(guò)在所示出的MML文檔 中顯示的文本指令而被提示。在步驟330,客戶端設(shè)備可以產(chǎn)生對(duì)大聲讀 出腳本的用戶的數(shù)字記錄。在一實(shí)施例中,數(shù)字記錄可以被存儲(chǔ)為PCM 數(shù)據(jù)。不過(guò),應(yīng)該理解,數(shù)字音頻文件的具體格式化并不意味著限制本發(fā) 明,在音頻在數(shù)據(jù)連接上流向多模態(tài)基于Web的應(yīng)用的情形中,可以使用 多種不同的數(shù)字音頻格式中的任一種,諸如ADPCM、 MP3、 AAC或壓縮 DSR。在步驟335,當(dāng)用戶結(jié)束說(shuō)話時(shí),客戶端設(shè)備可以發(fā)送腳本和用戶ID 到多模態(tài)基于Web的應(yīng)用.用戶ID和音頻(即驗(yàn)證音頻)可以幾乎同時(shí) 從客戶端提交,并幾乎同時(shí)由多模態(tài)基于Web的應(yīng)用接收,或者作為整個(gè) 記錄或者作為流式音頻.在步驟340,多模態(tài)基于Web的應(yīng)用可以接收音 頻和用戶ID。在步驟345,多模態(tài)基于Web的應(yīng)用可以將音頻、腳本和 用戶ID轉(zhuǎn)發(fā)給驗(yàn)證系統(tǒng),在步驟350,發(fā)汪系統(tǒng)通過(guò)使用用戶ID作為參考從話音印跡數(shù)據(jù)庫(kù)中 定位或檢索用戶的話音印跡。在步驟355,驗(yàn)證系統(tǒng)可以比較音頻和匹配 用戶ID的話音印跡,以確定所述音頻是否匹配所述話音印跡。如果匹配, 則所述方法可以進(jìn)行到步驟360,其中安全的歡迎頁(yè)可以從多模態(tài)基于 Web的應(yīng)用提供給位于用戶設(shè)備的用戶,所述安全的歡迎頁(yè)可以是傳統(tǒng)的 可視網(wǎng)頁(yè)或多才莫態(tài)網(wǎng)頁(yè)。已經(jīng)被驗(yàn)證的用戶可以被允許訪問(wèn)站點(diǎn)和其它安 全的網(wǎng)頁(yè)。如果所記錄的音頻不匹配話音印跡,則在步驟365用戶被多模 態(tài)基于Web的應(yīng)用拒絕訪問(wèn)。本發(fā)明提供了一種使用基于Web的多模態(tài)界面來(lái)!Hi用戶身份的解 決方案。根據(jù)本發(fā)明,說(shuō)話者驗(yàn)證系統(tǒng)基于說(shuō)話者話音的物理特性來(lái)a
說(shuō)話者的身份。通過(guò)多模態(tài)界面,用戶既可以進(jìn)行注冊(cè),也可以稍后^皮驗(yàn) 證系統(tǒng)進(jìn)行驗(yàn)證。登記變得更便利在于,登記腳本作為可視文本被示出給 用戶,所以用戶不需要必須記住長(zhǎng)的文本段落。說(shuō)話者驗(yàn)證部分要求用戶說(shuō)出由多模態(tài)應(yīng)用提供的隨機(jī)腳本。隨機(jī)腳 本防止冒充者試圖播放在嘗試欺騙驗(yàn)證系統(tǒng)時(shí)另一用戶說(shuō)出的預(yù)先記錄的 部分。預(yù)先記錄的語(yǔ)音將不匹配由隨機(jī)生成的腳本所指定的預(yù)期的用戶語(yǔ) 音。用來(lái)驗(yàn)證用戶身份的腳本(類(lèi)似于登記腳本)也可以被可視地示出。 使用多模態(tài)界面的驗(yàn)證可以比僅使用一種模態(tài)更安全,因?yàn)榭梢酝瑫r(shí)要求 可視口令和語(yǔ)音驗(yàn)證。本發(fā)明可以以硬件、軟件或軟硬件的組合來(lái)實(shí)現(xiàn)。本發(fā)明可以在一個(gè) 計(jì)算機(jī)系統(tǒng)中以集中的方式實(shí)現(xiàn),或者以分布的方式(其中不同的單元跨 若干互連計(jì)算機(jī)系統(tǒng)分布)實(shí)現(xiàn)。適于執(zhí)行這里所描述的方法的任何種類(lèi) 的計(jì)算機(jī)系統(tǒng)或其它裝置是適合的。典型的軟硬件組合可以是具有計(jì)算機(jī) 程序的通用計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)程序在被加載和執(zhí)行時(shí)控制該計(jì)算機(jī) 系統(tǒng),使得該計(jì)算機(jī)系統(tǒng)執(zhí)行這里所描述的方法。本發(fā)明還可以嵌入在計(jì)算機(jī)程序產(chǎn)品中,所述計(jì)算機(jī)程序產(chǎn)品包括使 能這里描述的方法的實(shí)現(xiàn)的所有特征,并且當(dāng)其被加栽到計(jì)算機(jī)系統(tǒng)中時(shí) 能夠執(zhí)行這些方法。本上下文中的計(jì)算機(jī)程序、軟件應(yīng)用和/或這些術(shù)語(yǔ)的 其它變體指的是指令集以任何語(yǔ)言、代碼或符號(hào)形式的任何表示法,所述 指令集能夠使具有信息處理能力的系統(tǒng)直接地或在下述兩種方式之一或兩者完成之后來(lái)實(shí)施特定功能,所述兩種方式包括a)轉(zhuǎn)換到另一種語(yǔ)言、 代碼或符號(hào);或者b)以不同的物質(zhì)形式再現(xiàn)。本發(fā)明可以用其它形式實(shí)現(xiàn)而不會(huì)背離其基本屬性或精神。因此,在 指示本發(fā)明的范圍時(shí),應(yīng)該參考權(quán)利要求而不是前述說(shuō)明書(shū)。
權(quán)利要求
1.一種使用多模態(tài)基于Web的界面來(lái)驗(yàn)證用戶身份的方法,包括將多模態(tài)標(biāo)記語(yǔ)言文檔發(fā)送到遠(yuǎn)程計(jì)算設(shè)備,所述多模態(tài)標(biāo)記語(yǔ)言文檔當(dāng)由所述遠(yuǎn)程計(jì)算設(shè)備呈現(xiàn)時(shí)向用戶查詢用戶標(biāo)識(shí)符和用戶話音的音頻;在多模態(tài)基于Web的應(yīng)用接收所述用戶標(biāo)識(shí)符和所述音頻;比較所述音頻和關(guān)聯(lián)于所述用戶標(biāo)識(shí)符的話音印跡;以及根據(jù)從所述比較步驟獲得的結(jié)果選擇性地準(zhǔn)許位于所述遠(yuǎn)程計(jì)算設(shè)備的用戶對(duì)聯(lián)機(jī)系統(tǒng)的訪問(wèn)。
2. 根據(jù)權(quán)利要求l所述的方法,其中所述多模態(tài)標(biāo)記語(yǔ)言文檔包括使 所述音頻流動(dòng)的指令,所述方法進(jìn)一步包括響應(yīng)于呈現(xiàn)所述多模態(tài)標(biāo)記 語(yǔ)言文檔和解釋所述使所述音頻流動(dòng)的指令,所述遠(yuǎn)程計(jì)算設(shè)備使所述音 頻流向所述多模態(tài)基于Web的應(yīng)用。
3. 根據(jù)權(quán)利要求l所述的方法,其中所述多模態(tài)標(biāo)記語(yǔ)言文檔包括記 錄所述音頻的指令,所述方法進(jìn)一步包括響應(yīng)于呈現(xiàn)所述多模態(tài)標(biāo)記語(yǔ) 言文檔和解釋所述記錄指令,所述遠(yuǎn)程計(jì)算設(shè)備產(chǎn)生對(duì)用戶話音的數(shù)字記錄。
4. 根據(jù)權(quán)利要求l所述的方法,其中所述多模態(tài)標(biāo)記語(yǔ)言文檔指定將 由用戶大聲讀出的腳本。
5. 根據(jù)權(quán)利要求4所述的方法,其中所述腳本至少部分地包括隨機(jī)生 成的文本。
6. 根據(jù)權(quán)利要求4所述的方法,其中所述音頻是大聲讀出所述腳本的 用戶的數(shù)字表示。
7. 根據(jù)權(quán)利要求6所述的方法,所述比較步驟進(jìn)一步包括所述多模態(tài) 基于Web的應(yīng)用首先將所述音頻、所一本和所述用戶標(biāo)識(shí)符發(fā)送到lHt 系統(tǒng)。
8. 根據(jù)權(quán)利要求l所述的方法,進(jìn)一步包括 首先將指定登記腳本的多模態(tài)標(biāo)記語(yǔ)言文檔發(fā)送到所述遠(yuǎn)程計(jì)算設(shè)備;接收所述用戶標(biāo)識(shí)符和包括說(shuō)出所述登記腳本的用戶的數(shù)字表示的音 頻;以及通過(guò)確定來(lái)自說(shuō)出所述登記腳本的用戶的音頻的話音印跡以及將所述 話音印跡關(guān)聯(lián)于所述用戶標(biāo)識(shí)符,將所述用戶登記到聯(lián)機(jī)系統(tǒng)中。
9. 一種用于l^ii用戶身份的系統(tǒng),包括具有包括多個(gè)話音印跡的話音印跡數(shù)據(jù)庫(kù)的驗(yàn)證系統(tǒng),每個(gè)話音印跡 關(guān)聯(lián)于用戶標(biāo)識(shí)符;多模態(tài)應(yīng)用,被配置發(fā)送包括腳本的多模態(tài)標(biāo)記語(yǔ)言文檔到客戶端設(shè) 備,所述多模態(tài)標(biāo)記語(yǔ)言文檔當(dāng)由所述客戶端設(shè)備呈現(xiàn)時(shí)使得用戶標(biāo)識(shí)符 和包括大聲讀出所述腳本的說(shuō)話者的數(shù)字表示的音頻被發(fā)送回所述多模態(tài) 應(yīng)用;以及其中所述多模態(tài)應(yīng)用可操作用于將所述腳本、所述音頻和所述用戶標(biāo) 識(shí)符提交給所述驗(yàn)證系統(tǒng),用于通過(guò)比較所述音頻和關(guān)聯(lián)于所述用戶標(biāo)識(shí) 符的話音印跡來(lái)驗(yàn)證所述說(shuō)話者的身份。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述音頻和所述用戶標(biāo)識(shí)符幾 乎同時(shí)從所i^戶端設(shè)備提交給所述多模態(tài)應(yīng)用。
11. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述多模態(tài)標(biāo)記語(yǔ)言文檔包括 使所述音頻流動(dòng)的指令,所述方法進(jìn)一步包括響應(yīng)于呈現(xiàn)所述多^f莫態(tài)標(biāo) 記語(yǔ)言文檔和解釋所述使所述音頻流動(dòng)的指令,所述遠(yuǎn)程計(jì)算設(shè)備4吏所述 音頻流向所述多;f莫態(tài)應(yīng)用。
12. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述多模態(tài)標(biāo)記語(yǔ)言文檔包括 記錄音頻的指令,使得響應(yīng)于呈現(xiàn)所述多模態(tài)標(biāo)記語(yǔ)言文檔和解釋所述 記錄指令,所述客戶端設(shè)備記錄大聲讀出所述腳本的說(shuō)話者。
13. —種計(jì)算機(jī)程序,包括用于執(zhí)行根據(jù)權(quán)利要求1至8的任一項(xiàng)所 述的方法的所有步驟的計(jì)算機(jī)可執(zhí)行指令。
全文摘要
一種使用基于Web的多模態(tài)界面來(lái)驗(yàn)證用戶身份的方法可以包括將多模態(tài)標(biāo)記語(yǔ)言文檔發(fā)送到遠(yuǎn)程計(jì)算設(shè)備,所述多模態(tài)標(biāo)記語(yǔ)言文檔當(dāng)由所述遠(yuǎn)程計(jì)算設(shè)備呈現(xiàn)時(shí)向用戶查詢用戶標(biāo)識(shí)符并使得用戶話音被發(fā)送到多模態(tài)基于Web的應(yīng)用。所述用戶標(biāo)識(shí)符和所述音頻可以大約同時(shí)從客戶端設(shè)備接收。所述音頻可以與關(guān)聯(lián)于所述用戶標(biāo)識(shí)符的話音印跡進(jìn)行比較。根據(jù)從所述比較步驟獲得的結(jié)果,位于所述遠(yuǎn)程計(jì)算設(shè)備的用戶可以被選擇性地準(zhǔn)許對(duì)系統(tǒng)的訪問(wèn)。
文檔編號(hào)G10L17/00GK101120350SQ200680004895
公開(kāi)日2008年2月6日 申請(qǐng)日期2006年1月19日 優(yōu)先權(quán)日2005年2月22日
發(fā)明者D·哈拉米略, G·麥柯布 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司