專利名稱:一種實現語音識別功能的方法
技術領域:
本發明涉及一種實現語音識別功能的方法,特別是涉及一種H.248協議 作為控制協議來實現語音識別功能的方法。
技術背景語音識別功能指把用戶輸入的語音,按規定的語法識別,轉換成文本。如在某個交互應用中,系統先向用戶播放提示音"你需要水,可樂,還是果汁?"。用戶可以通過語音回答,用戶發音只能是包括"水,可樂,果汁,不 需要"這幾個關鍵詞的語音,系統可以對用戶的語音識別,然后向用戶提供 選擇的商品。在固定或者移動網絡應用中,要求用戶輸入時, 一般有以下兩種方法一種方法是用戶輸入DTMF (Dual Tone Multi-Frequency,雙音多頻)音。 如在上述的交互應用中,當用戶輸入l時,表示選擇"水";輸入2時,表示 選擇"可樂";輸入3時,表示選擇"果汁",輸入其它鍵,表示"不需要"。 這種方法在H.248協議中已有完善的定義。另一種方法是用戶直接輸入語音,系統可以將用戶輸入的語音傳輸給另 一通話方,或者進行錄音,或者進行語音識別處理。通過語音識別處理可以完成和DTMF輸入類似的功能,系統可以根據用 戶的語音來確定用戶的選擇。使用語音識別的優點是,用戶可以通過語音直 接和系統交互,不需要其它輔助輸入設備,如用按鍵輸入DTMF,從而簡化 了用戶的輸入方式。隨著語音識別技術的完善,其將成為主流的輸入方式。H. 248協議中通過包定義了豐富的媒體資源控制方法,例如I. H.248.9協議高級媒體服務器包(Advanced Media Server Package)定義的方法有(1)播放語音片段可以按URI (Uniform Resource Identifier,統一資源標識)指示語音片斷的位置,可以指示播放語音片斷的重復次數、每次播放之間的間隔時間、音量、速度等參數;(2) 放音收號播放提示音和DTMF (Dual Tone Multi-Frequency,雙 音多頻)收號交互進行;(3) 錄音可返回錄音文件的標識或者存放位置。2. H.248.7協議定義使用放音標識播放錄音的方法;3. H.248.16協議定義了復雜的收號操作方法。但是,在H.248協議中并未定義上述用戶直接輸入語音的方法,而媒體 資源應用環境需要使用語音識別功能,就此,本發明提供一種通過H.248協 議實現語音識別功能的方法。 發明內容本發明的目的是提供一種實現語音識別功能的方法。 本發明的實現語音識別功能的方法,其中,媒體資源控制設備通過H.248 協議,控制媒體資源處理設備實現對用戶輸入語音的識別。該方法包括以下步驟步驟一,媒體資源控制設備通過定義H.248協議擴展包,在H.248消息 中攜帶擴展包參數,指示媒體資源處理設備執行與該參數相應的語音識別處 理;步驟二,媒體資源處理設備根據上述消息中的參數調用語音識別器執行 語音識別處理;以及步驟三,媒體資源處理設備在完成語音識別后將識別結果上報媒體資源 控制設備。其中,上述語音至少包括普通語音,該參數中攜帶有普通語音的識別語 法參數。當上述識別語法參數為普通語音的識別語法時,媒體資源處理設備根據 該語法調用語音識別器執行語音識別。其中,上述識別語法可以為一特定字 符串,嵌入在H.248消息中,媒體資源處理設備接收到此參數后,直接提取 字符串,調用語音識別器進行語音識別。當語音識別語法預先存儲在媒體資源處理設備或者外部服務器上時,該 識別語法參數為識別語法文件的標識和存儲位置信息,媒體資源處理設備根據存儲位置信息從本地或者外部服務器中讀取語法文件后將其放入緩存,然 后語音識別器依據讀取的語法文件進行語音識別。其中,上述的識別語法參數進一步包括進行語音識別時使用的參數,該 參數包括指示是否僅識別普通語音的參數,媒體資源處理設備根據該參數調 用語音識別器執行語音識別。進一步,上述進行語音識別時使用的參數還包括指示識別時長的參數, 媒體資源處理設備根據該參數確定識別時間的長短。進一步,上述進行語音識別時使用的參數還包括指示等待時長的參數, 媒體資源處理設備根據該參數確定等待用戶輸入時間的長短。進一步,上述進行語音識別時使用的參數還包括指示識別語種的參數, 媒體資源處理設備根據該參數確定進行普通語音識別時采用的語言種類。進一步,上述進行語音識別時使用的參數還包括指示識別精度的參數, 媒體資源處理設備根據該參數確定進行普通語音識別時所要求的識別精度。進一步,所述進行語音識別時使用的參數還包括指示識別靈敏度的參數, 媒體資源處理設備根據該參數確定進行普通語音識別時所要求的識別靈敏 度。進一步,上述進行語音識別時使用的參數還包括指示錄音存放位置的參 數,媒體資源處理設備根據該參數從指定位置讀取用戶輸入的錄黃。進一步,上述進行語音識別時使用的參數還包括指示錄音存放位置的參 數,媒體資源處理設備根據該參數從指定位置讀取用戶輸入的錄音。在上述方法中,在步驟二中媒體資源處理設備調用語音識別器進^語音 識別過程中,進一步包括步驟21,媒體資源控制設備指示媒體資源處理設備檢測語音識別過程中 發生的異常事件。其中,異常事件包括等待用戶輸入超時、識別超時、用戶輸入和語法 不匹配、語法文件不存在、語法文件讀取錯誤、不能識別、識別錯誤、媒體 資源處理設備的軟硬件錯誤。并且,在步驟21之后且在步驟三之前進一步包括步驟22,媒體資源處理設備根據上述指示對語音識別過程進行檢測,并將檢測結果反饋給媒體資源控制設備。進一步,進行語音識別時使用的參數還包括指示語音識別異常時返回錯 誤碼的參數,媒體資源處理設備在檢測到語音識別過程中發生的異常事件時, 根據該參數將相應的錯誤碼反饋給媒體資源控制設備。與現有技術相比,本發明的方法可以在H.248協議上實現用戶輸入的普 通語音的識別,這樣,用戶可以通過語音直接和系統交互,不需要其它輔助 輸入設備,從而簡化了用戶的輸入方式。
圖1為WCDMAIMS網絡中,處理媒體資源業務的網絡架構。 圖2為在固定軟交換網絡中,處理媒體資源業務的網絡架構。 圖3為本發明實現語音識別功能的方法的流程圖。
具體實施方式
圖1為WCDMAIMS網絡中,處理媒體資源業務的網絡架構。其中,應 用服務器1用于處理各種業務,例如對用戶放音、收號、會議、錄音等。業 務呼叫會話控制設備2用于處理路由,將應用服務器發出的消息正確地轉發 給媒體資源控制設備3,或者將媒體資源控制設備3發出的消息正確地路由 到應用服務器1。媒體資源控制設備3用于控制媒體資源,其根據應用服務 器1的要求,選擇相應的媒體資源處理設備4并控制媒體資源的處理。媒體 資源處理設備4用于媒體資源的處理,在媒體資源控制設備3的控制下,完 成應用服務器1下發的媒體資源操作處理。其中,應用服務器l、業務呼叫會話控制設備2、以及媒體資源控制設備 3之間采用的接口使用SIP協議和XML協議,或者是SIP協議和類似XML 的協議(例如VXML)。媒體資源控制設備3和媒體資源處理設備4之間采用 的接口為Mp接口,使用H.248協議。媒體資源處理設備4的對外接口為Mb 接口, 一般采用RTP協議承載用戶媒體流。圖2為在固定軟交換網絡中,處理媒體資源業務的網絡架構。其中,媒 體資源服務器(MediaResource Server, MRS)相當于WCDMAIMS網絡中的 媒體資源控制設備3和媒體資源處理設備4的功能,應用服務器相當于 WCDMA IMS網絡中的應用服務器1和業務呼叫會話控制設備2的功能,以及軟交換設備和應用服務器1功能大致相同。本發明所提供通過H.248協議實現語音識別功能的方法可以應用于圖1 所示的WCDMAIMS網絡、以及圖2所示的固定軟交換網絡中的媒體資源處 理。同樣也可以應用于其它網絡,如CDMA網絡和固定IMS網絡,其媒體 資源應用場景的架構和業務流程和上述WCDMA IMS的基本相同,以及 WCDMA、 CDMA電路軟交換網絡,其媒體資源應用架構和業務流程和固定 軟交換網絡基本相同。也就是,本發明可以應用于所有通過H.248協議控制 媒體資源設備實現語音識別功能的情況。以下將以應用于WCDMAIMS為例,同時參考
本發明所提供的 通過H.248協議實現語音識別功能的方法。通常,語音識別包括普通語音的識別和DTMF音的識別,兩者一般是可 以同時發生的,對DTMF音的識別和普通語音的識別分別使用的是不同的技 術,所需要的控制過程和參數也有很大差別。由于在H.248協議中已經定義 了對于DTMF音的檢測,因此,本發明重點在于對普通語音的識別,以及對 普通語音和DTMF音的同時識別。這里,由于本發明只涉及圖1所示媒體資源控制設備3和媒體資源處理 設備4之間的處理過程,而其他過程同現有WCDMAIMS網絡中的處理過程 相同,因此,為了簡化而只對媒體資源控制設備3和媒體資源處理設備4之 間的處理過程進行描述。如圖3所示,為媒體資源控制設備3和媒體資源處理設備4進行媒體資 源的控制和處理的流程圖。步驟1,媒體資源控制設備3向媒體資源處理設備4發出進行語音識別 的指示。具體地,媒體資源控制設備3通過定義H.248協議擴展包,在H.248消 息中攜帶擴展包參數,從而指示媒體資源處理設備執行語音識別。H.248協 議包定義如下包名稱(PackageName): 自動語音識別包(ASRpackage)包標識(PackageID) asrp(Ox )說明(Description) 略,參見以上方案說明版本(Version): 1 擴展(Extends): 無1. 屬性(Properties) 無2. 事件(Events) 請參閱后述對事件的定義部分。3. 信號(Signals) 請參閱后述對信號的定義部分。4. 統計(Statistics) 無5. 處理(Procedure)對應后述的整個方案的過程。這里的語音識別包括普通語音的識別和DTMF音的識別。DTMF的識別 語法在H.248協議中已有定義。普通語音識別需攜帶識別語法,有兩種方法 可以攜帶識別語法參數(1) 在H,248消息的參數中攜帶識別語法 識別語法是一個特定格式的字符串,如 #JSGFvl.O;Gramar drink;Public <returncommands> = 7_K |可樂|果汁|不需要 該字符串的格式不被處理H.248協議的功能實體識別,只是作為一個串 嵌入在H.248消息中。媒體資源處理設備4接收到此參數后,可以直接提取 字符串并將提取的字符串交給語音識別器處理,其中,該語音識別器可以設 置于媒體資源處理設備4中,也可以獨立設置。(2) 在H.248消息參數中攜帶語音識別語法文件的標識和存儲位置信息 語音識別語法可以預先存儲在媒體資源處理設備4或者其它外部服務器上,H.248消息中攜帶該語法文件的標識和存儲位置信息。 文件的標識可以是符合文件命名規范的任意字符串; 文件的存儲位置信息有三種形式-A. 本地可直接存取的文件,如drink.gmB. 通過file:〃方式存取的文件,如file://huawei/drink.graC. 通過http:/7方式存取的文件,如http://huawei/drink.gra 媒體資源處理設備4接收到此參數后,根據文件的存放位置,先從遠端服務器或者本地存儲中讀取語法文件,放入緩存,然后再調用語音識別器處 理。除了需要在上述的H.248消息中攜帶識別語法或其相關信息之外,還需 要攜帶執行語音識別的參數,這些執行語音識別的參數用于指示媒體資源處 理設備4執行相應的語音識別功能。這些可攜帶的參數包括(1) 是否同時識別DTMF音和普通語音在某些應用中,只要求用戶輸入普通語音。若此參數設置為是,則無論 用戶輸入語音或者DTMF音,媒體資源處理設備4都將進行普通語音和DTMF音的識別。(2) 識別時長該參數用于指示識別時間的長短,也就是,用戶開始輸入時,若在規定 時長內語音的識別沒有完成,則超時返回。(3) 用戶沒有輸入時等待時長 該參數用于指示識別的等待時間的長短,也就是,在開始執行識別時,定長時間內用戶沒有輸入,則超時返回。(4) 識別的語言種類 該參數用于指示媒體資源處理設備進行普通語音識別時所采用的語言的種類,遵從例如RFC3066協議的定義。(5) 識別的精度要求該參數表示識別的精度要求,可以用O到IOO之間的一個值表示。精度 要求越高,耗費的處理能力越多,識別時間也越長。(6) 靈敏度要求該參數用于表示語音識別所需要的靈敏度,可以采用0到100之間的一 個值表示。靈敏度越高,受背景噪音的影響越大,靈敏度越低,受背景噪音 的影響越小。(7) 錄音存放位置在進行語音識別時,可以對用戶的輸入進行錄音,并存放在指定的位置。 該參數表示用戶的錄音所存放的位置。(8) 是否預讀取語法文件 當識別語法是文件的方式存儲時,此參數若設置為是,則在收到請求時,媒體資源處理設備4就從外部的服務器讀取語法文件,并緩存在本地,否則識別時再讀取。(9) 語法文件緩存時長該參數表示媒體資源處理設備4對從服務器讀取的語法文件進行緩存所 采用的時間長短,如果超時,則視為緩存無效。上述步驟1中所提到的H.248協議包采用如下定義一.信號(Signal):包括自動語音識別語法文件(ASRGrammar File)信 號或者自動語音識別語法串(ASRGrammarString)信號,分別對應于上述兩 種攜帶識別語法參數的方法。(1)自動語音識別語法文件(ASR Grammar File),用于指示執行語音識 別功能。信號名(SignalName): 自動語音識別語法文件信號標識(SignalID): asrgf(Ox )說明(Description): 執行ASR功能信號類型(SignalType): br時長(Duration): 不可用(NoApplicable)j參數(Additional Parameter)包括I.參數名(ParameterName): 參數標識(ParameterID): 說明-類型(Type): 是否可選(Optional):語法文件(GarmmarFile) gf(Ox )ASR識別語法文件名和存儲位置字符串(String)否可能取值(PossibleValue): 默認值(Default):II.參數名-參數標識說明類型-是否可選可能取值默認值(Default):合法的文件標識和存儲格式 無識別DTMF (Recognize DTMF) rd(Ox )是否同時識別DTMF6num是是,否是III.參數名 等待識別時間(Wait Recognize Time)參數標識 wrt(Ox )說明 等待識別的時長類型 整數是否可選 是可能取值 大于O秒默認值 無IV.參數名 等待輸入時間(Wait Input Time)參數標識 wit(Ox )說明 等待用戶輸入的時長類型 整數是否可選 是可能取值 大于O秒默認值 無V.參數名 語言類型(Language Type)參數標識 lt(Ox )說明 識別語言種類類型 字符串是否可選 是可能取值 遵從RFC3066協議默認值 無VI.參數名 識別精確度(RecognizeAccuracy)參數標識 ra(Ox )說明 .識別的精確度要求類型 整數是否可選 是可能取值 0~100默認值 無VII.參數名 識別靈敏度(Recognize Sensitivity)參數標識 ra(Ox )說明 識別的靈敏度要求類型 整數是否可選 是可能取值 0~100默認值 無VIII.參數名 錄音文件(Record File)參數標識 rf(0x )說明 識別語音的錄音存放位置類型 字符串是否可選 是可能取值 合法的URI串或者本地文件名默認值 無IX.參數名 預讀取語法(Prefetch Grammar)參數標識 pg(Ox )說明 是否預讀取語法文件類型s enum是否可選 是可能取值 是,否默認值 無X.參數名 緩存時間(CacheTime)參數標識 ct(Ox )說明 語法文件緩存時長類型 整數是否可選 是可能取值 大于O秒默認值 無(2)自動語音識別語法串(ASR Grammar String),用于指示執行語音il 別功能信號名 自動語音識別語法串信號標識 ags(0x )說明 按語法串執行ASR功能信號類型 br時長 不可用 附加參數包括-I.參數名 語法串(Garmmar String)參數標識 gf(0x )說明 ASR識別語法類型 字符串是否可選 否可能取值 合法的識別語法默認值 無II.其它參數和"自動語音識別語法文件"信號的II、 III、 IV、 V、 VI、VII、 VIII相同。步驟2,媒體資源處理設備4在收到來自媒體資源控制設備3的語音識 別指示時,進行消息確認,并將確認結果反饋給媒體資源控制設備3。進一 步,媒體資源處理設備4根據該消息中的上述參數執行相應的處理,例如, 是否同時識別DTMF和普通語音、識別時長、用戶沒有輸入時等待時長、錄 音存放位置、是否預讀取語法文件、語法文件緩存時長等,并調用語音識別 器對用戶輸入的語音進行識別,例如包括識別的語言種類、精度、靈敏度等。步驟3,媒體資源控制設備3指示媒體資源處理設備4檢測語音識別過 程中發生的事件。步驟4,媒體資源處理設備4進行消息確認,并將確認結果反饋給媒體 資源控制設備3。進一步,媒體資源處理設備4對語音識別過程中發生的事 件(Event)進行檢測。可能的事件包括-a.異常情況返回語音識別功能執行的錯誤碼媒體資源處理設備4在執行語音識別過程中,若產生異常,要向媒體資源控制設備返回具體的錯誤碼。錯誤碼的具體值由標準組織統一分配,內容 包括(1) 用戶沒有輸入語音的時間超過預定時間;(2) 語音識別時間超過預定時間;(3) 用戶輸入語音和識別語法不匹配;(4) 語法文件不存在;(5) 語法文件讀取錯誤;(6) 語音識別的語法錯誤;(7) 不能識別或者識別錯誤;(8) 媒體資源處理設備4的硬件錯誤;(9) 媒體資源處理設備4的軟件錯誤;(10) 其它錯誤。b.檢測到用戶開始輸入語音的事件用戶開始輸入語音時,媒體資源處理設備4可以把檢測到的用戶輸入的 語音類型上報給媒體資源控制設備3,輸入類型包括DTMF音,以及普通 語音。在步驟4中,H.248協議包定義的事件具體表示如下 事件-(1)自動語音識別失敗(ASR Failure) 事件名(EventName): 自動語音識別失敗 事件標識(EventID): asrfail(0x )說明 語音識別執行失敗,返回錯誤碼事件說明參數(EventDescriptorParameters): 無檢測到的事件參數(ObservedEventDescriptor Parameters ): I.參數名(ParameterName): 返回錯誤碼(Return FailureCode)ParameterID (參數標識) rfc(Ox )說明 錯誤碼參數參數類型 整數是否可選 否可能值 以上方案定義的錯誤碼默認值 無(2)自動語音識別完成(ASR Success)事件名(EventName): 自動語音識別完成事件標識(EventID): asrsucc(Ox )說明 語音識別執行成功,返回識別結果事件說明參數(EventDescriptorParameters): 無檢測到的事件參數 I.參數名(ParameterName)-ParameterID (參數標識)說明參數類型是否可選可能值默認值自動語音識別結果(ASR Result) ar(Ox )識別結果字符串否DTMF串或者語音文本串 無II.參數名(ParameterName): ParameterID (參數標識)說明參數類型是否可選結果可信度(Result Reliability) rr(Ox )識別結果可信度整數是可能值: 默認值0~100 100(3)檢測到用戶輸入開始識別(ASRBegin)事件名(EventName): 自動語音識別開始(ASRBegin)事件標識(EventID): asrbeg(0x )說明 語音識別執行成功,返回識別結果事件說明參數(EventDescriptorParameters): 無檢測到的事件參數 I.參數名(ParameterName): ParameterED (參數標識)說明是否可選可能值默認值輸入類型(Input Type) it(Ox )用戶的輸入類型DTMF、普通語音字符串否DTMF,普通語音 無步驟5,當媒體資源處理設備4按媒體資源控制設備3指示時所攜帶的 參數完成語音識別后,將在語音識別過程中檢測到的事件上報給控制設備。 同時,將語音識別器返回的識別結果的可信度上報媒體資源控制設備3。識別結果是一個字符串,可能是DTMF串的識別結果,也能是普通語音 的識別的結果。處理11.248協議的功能實體對此串不能識別,返回給媒體資 源控制設備3處理。步驟6,媒體資源控制設備3對媒體資源處理設備4上報的識別結果做 出確認。通過以上方案,可以在固定或者移動網絡的媒體資源應用中,給用戶提 供語音識別相關的業務應用。例如,通過采用語音輸入代替按鍵輸入,用戶 通過語音就可以完成呼叫、査詢等基本功能。本發明實現語音識別的方法并不限于上述的方案,也可以采用其他的方案,例如,媒體資源控制設備3可以將上述步驟1和步驟3中的指示同時發 給媒體資源處理設備4,此時,媒體資源處理設備4可以反饋一個確認消息 以及相應的處理結果給媒體資源控制設備3。
權利要求
1.一種實現語音識別功能的方法,其特征在于,媒體資源控制設備通過H.248協議,控制媒體資源處理設備實現對用戶輸入語音的識別,該方法包括以下步驟步驟一,媒體資源控制設備通過定義H.248協議擴展包,在H.248消息中攜帶擴展包參數,指示媒體資源處理設備執行與該參數相應的語音識別處理;步驟二,媒體資源處理設備根據上述消息中的參數調用語音識別器執行語音識別處理;以及步驟三,媒體資源處理設備在完成語音識別后將識別結果上報媒體資源控制設備。
2. 如權利要求1所述的方法,其特征在于,上述語音至少包括普通語音, 該參數中攜帶有普通語音的識別語法參數。
3. 如權利要求2所述的方法,其特征在于,當該識別語法參數為普通語 音的識別語法時,媒體資源處理設備根據該語法調用語音識別器執行語音識 別。
4. 如權利要求3所述的方法,其特征在于,該識別語法為一特定字符串, 嵌入在H,248消息中,媒體資源處理設備接收到此參數后,直接提取字符串, 調用語音識別器進行語音識別。
5. 如權利要求3所述的方法,其特征在于,當語音識別語法預先存儲在 媒體資源處理設備或者外部服務器上時,該識別語法參數為識別語法文件的 標識和存儲位置信息,媒體資源處理設備根據存儲位置信息從本地或者外部 服務器中讀取語法文件后將其放入緩存,然后語音識別器依據讀取的語法文 件進行語音識別。
6. 如權利要求2所述的方法,其特征在于,戶萬述的識別語法參數進一步 包括進行語音識別時使用的參數,該參數包括指示是否僅識別普通語音的參 數,媒體資源處理設備根據該參數調用語音識別器執行語音識別。
7. 如權利要求6所述的方法,其特征在于,所述進行語音識別時使用的參數進一步包括指示識別時長的參數,媒體資源處理設備根據該參數確定識 別時間的長短。8. 如權利要求7所述的方法,其特征在于,所述進行語音識別時使用的 參數進一步包括指示等待時長的參數,媒體資源處理設備根據該參數確定等 待用戶輸入時間的長短。9. 如權利要求8所述的方法,其特征在于,所述進行語音識別時使用的參數進一步包括指示識別語種的參數,媒體資源處理設備根據該參數確定進 行普通語音識別時采用的語言種類。10. 如權利要求9所述的方法,其特征在于,所述進行語音識別時使用 的參數進一步包括指示識別精度的參數,媒體資源處理設備根據該參數確定 進行普通語音識別時所要求的識別精度。11. 如權利要求10所述的方法,其特征在于,所述進行語音識別時使用 的參數進一步包括指示識別靈敏度的參數,媒體資源處理設備根據該參數確 定進行普通語音識別時所要求的識別靈敏度。12. 如權利要求ll所述的方法,其特征在于,所述進行語音識別時使用 的參數進一步包括指示錄音存放位置的參數,媒體資源處理設備根據該參數 從指定位置讀取用戶輸入的錄音。13. 如權利要求12所述的方法,其特征在于,所述進行語音識別時使用 的參數進一步包括指示錄音存放位置的參數,媒體資源處理設備根據該參數 從指定位置讀取用戶輸入的錄音。14. 如權利要求1至13任何一項所述的方法,其特征在于,在步驟二中 媒體資源處理設備調用語音識別器進行語音識別過程中,進一步包括-步驟21,媒體資源控制設備指示媒體資源處理設備檢測語音識別過程中 發生的異常事件。15. 如權利要求14所述的方法,其特征在于,所述異常事件包括等待 用戶輸入超時、識別超時、用戶輸入和語法不匹配、語法文件不存在、語法 文件讀取錯誤、不能識別、識別錯誤、媒體資源處理設備的軟硬件錯誤。16. 如權利要求15所述的方法,其特征在于,在步驟21之后且在步驟 三之前進一步包括-步驟22,媒體資源處理設備根據上述指示對語音識別過程進行檢測,并 將檢測結果反饋給媒體資源控制設備。7.如權利要求16所述的方法,其特征在于,所述進行語音識別時使用的參數進一步包括指示語音識別異常時返回錯誤碼的參數,媒體資源處理設 備在檢測到語音識別過程中發生的異常事件時,根據該參數將相應的錯誤碼 反饋給媒體資源控制設備。
全文摘要
一種實現語音識別功能的方法,其中,媒體資源控制設備通過H.248協議,控制媒體資源處理設備實現對用戶輸入語音的識別。該方法包括以下步驟媒體資源控制設備通過定義H.248協議擴展包,在H.248消息中攜帶擴展包參數,指示媒體資源處理設備執行與該參數相應的語音識別處理;媒體資源處理設備根據上述消息中的參數調用語音識別器執行語音識別處理;以及,媒體資源處理設備在完成語音識別后將識別結果上報媒體資源控制設備。該方法可以實現用戶輸入的普通語音的識別,用戶可以通過語音直接和系統交互,不需要其它輔助輸入設備,從而簡化了用戶的輸入方式。
文檔編號H04M3/42GK101222541SQ200710153069
公開日2008年7月16日 申請日期2005年10月21日 優先權日2005年10月21日
發明者誠 陳 申請人:華為技術有限公司