專利名稱:基于半自動校正的語音關鍵信息記錄裝置及方法
技術領域:
本發明涉及的是一種語音識別技術領域的裝置及方法,具體是一種基于半自動校正的語音關鍵信息記錄裝置及方法,通過對語音信號進行識別,并以文本形式進行記錄,在用戶不便對語音信息進行文字記錄時,可替代用戶完成語音信息的文字記錄。
背景技術:
受限于語音信號識別技術,已知的記錄裝置在對收到的語音信號進行自動識別后,通過操作員的人工校正,以確保所記錄信息的準確性。由此,使得記錄裝置的正常運作需要大量的人工校正工作;并且,語音信號中所提及的一些信息,可能由于操作員本身的知識量限制,無法做出有效地修正,比如一些地名或專業工具名稱等。已知的記錄裝置,是對全部的語音信息進行識別記錄。但是,語音信息中會出現大 量無意義的信息,比如通話過程中的問候語、助詞、語氣詞。真實有效的信息通常僅為全部語音信息的一部分。識別并記錄全部語音信息,一方面加大了文本信息校正的工作量;另一方面,用戶也不需要諸如問候語之類的信息記錄。語音信息記錄,應盡可能精簡,提供最多的有效信息量。經過對現有技術的檢索發現,英國專利文獻GB2323693A,記載了一種“Speech totext conversion”(語言文字轉換系統),該技術包括至少一個用戶終端用于錄制語音,至少一個自動語音識別處理器以將錄制的語音生成為文本,以及用于將文本反饋至終端的通訊裝置;該用戶終端與自動語音識別處理器之間通過服務器進行遠程且選擇性控制傳輸錄制的語音文件。該技術還包括一選擇糾正器,并由該技術的業務操作員對所識別出的文本信息進行糾錯,最后將更正后的文本信息儲存并反饋給用戶。但是該現有技術需要業務操作員識別全部文本信息,且這些文本信息均為語音識別裝置直接識別結果。一方面,全部文本信息中包含大量無意義信息,如通話過程中的問候語、助詞、語氣詞,真實有效的信息僅占其中一部分,業務操作員識別全部文本信息加重了業務操作員的工作量。另一方面,語音識別裝置直接識別結果中,一類信息為特殊名詞、專有名詞,由業務操作員負責對此類信息進行糾錯,使得糾錯的準確率依賴于業務員的知識量,存在錯誤糾錯的風險;另一類信息,存在一定的格式上的要求,如時間信息,可通過算法進行自動糾錯,若此類信息的糾錯交由業務操作員,亦加重了業務操作員的糾錯工作量。
發明內容
本發明針對現有技術存在的上述不足,提供一種基于半自動校正的語音關鍵信息記錄裝置及方法,通過半自動的信息校正單元,降低了人工校正的工作量;利用數據庫對特殊名詞如地名、專業工具名稱進行校正,降低了人工校正中操作員的知識量限制所造成的影響;提取語音信息中的關鍵信息,從而提高所記錄信息的有效信息量。本發明是通過以下技術方案實現的本發明涉及一種基于半自動校正的語音關鍵信息記錄裝置,包括關鍵信息提取單元和與之相連的信息校正單元,其中關鍵信息提取單元獲取未經校正的文本信息并提取出關鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認后的文本信息。所述的信息校正單元包括冗余信息校正模塊、時間信息校正模塊、特殊名詞校正模塊和用戶反饋確認模塊,其中冗余信息校正模塊的輸入端與關鍵信息提取單元相連,輸出端與時間信息校正模塊相連并將冗余信息校正后的關鍵信息傳輸給輸出端;時間信息校正模塊的輸入端與冗余信息校正模塊相連,輸出端與特殊名詞校正模塊相連并將冗余信息校正、時間信息校正后的關鍵信息傳遞給輸出端;特殊名詞校正模塊的輸入端與時間信息校正模塊相連,輸出端與用戶反饋確認模塊相連并將冗余信息校正、時間信息校正、特殊名詞校正后的關鍵信息傳遞給輸出端。用戶反饋確認模塊的輸入端與特殊名詞校正模塊相連并將冗余信息校正、時間信息校正、特殊名詞校正后的關鍵信息經用戶反饋確認后輸出。所述的關鍵信息提取單元包括句法分析器模塊和分類器模塊,其中句法分析器模塊的輸入端與語音識別單元相連,輸出端與分類器模塊相連并將經句法分析后的詞語、短語傳輸給輸出端;分類器模塊的輸入端與句法分析器模塊相連,輸出端與信息校正單元相連并將分類后的信息中的關鍵信息傳輸給輸出端。本發明涉及一種基于半自動校正的語音關鍵信息記錄方法,包括以下步驟第一步,由用戶處獲得的語音信息通過語音識別軟件獲得語音信號所表達的未經校正的文本信息。所述的語音識別軟件采用卡耐基梅隆大學的開源語音識別軟件Sphinx進行自動語音識別。第二步,關鍵信息提取單元依次對未經校正的文本信息進行句法分析和分類分析得到時間信息、關鍵信息詞類及特殊名詞信息,并將上述信息作為關鍵信息傳輸至輸出端。所述的句法分析是指對所獲得的未經校正的文本信息采用句法分析器進行句法分析,實現對文本信息中語句的分詞,從而將文本信息中的連續語句轉化為各種詞語和/或短語;所述的句法分析器采用斯坦福大學的開源句法分析器Stanford Parser進行句法分析。所述的分類分析是指對分類器采用漢語詞性標注語料庫進行訓練后,采用分類器先從上述詞語和/或短語中分類出時間信息及關鍵信息詞類;此后再采用常用詞庫對分類器進行訓練,并用分類器對關鍵信息詞類中的名詞部分,進一部分類獲得常用詞信息與非常用詞信息;其中的非常用詞信息即為特殊名詞信息。所述的分類器采用貝葉斯文本分類器。所述的關鍵信息詞類是指名詞、動詞、數詞、形容詞、副詞、介詞以及代詞。所述的特殊名詞信息是指名詞中的非常用詞信息部分。第三步,信息校正單元對關鍵信息依次進行冗余信息校正、時間信息校正以及特殊名詞校正并最終得到校正后的關鍵信息,以消除語音識別過程中,由于口音以及識別單元自身性能影響所造成的識別誤差,確保信息記錄的準確性。所述的冗余信息校正是指I)計算任一兩個關鍵信息A與B之間的編碼距離d (A,B)
權利要求
1.一種基于半自動校正的語音關鍵信息記錄裝置,其特征在于,包括關鍵信息提取單元和與之相連的信息校正單元,其中關鍵信息提取單元獲取未經校正的文本信息并提取出關鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認后的文本信息。
2.根據權利要求I所述的基于半自動校正的語音關鍵信息記錄裝置,其特征是,所述的信息校正單元包括冗余信息校正模塊、時間信息校正模塊、特殊名詞校正模塊和用戶反饋確認模塊,其中冗余信息校正模塊的輸入端與關鍵信息提取單元相連,輸出端與時間信息校正模塊相連并將冗余信息校正后的關鍵信息傳輸給輸出端;時間信息校正模塊的輸入端與冗余信息校正模塊相連,輸出端與特殊名詞校正模塊相連并將冗余信息校正、時間信息校正后的關鍵信息傳遞給輸出端;特殊名詞校正模塊的輸入端與時間信息校正模塊相連,輸出端與用戶反饋確認模塊相連并將冗余信息校正、時間信息校正、特殊名詞校正后的關鍵信息傳遞給輸出端。用戶反饋確認模塊的輸入端與特殊名詞校正模塊相連并將冗余信息校正、時間信息校正、特殊名詞校正后的關鍵信息經用戶反饋確認后輸出。
3.根據權利要求I所述的基于半自動校正的語音關鍵信息記錄裝置,其特征是,所述 的關鍵信息提取單元包括句法分析器模塊和分類器模塊,其中句法分析器模塊的輸入端與語音識別單元相連,輸出端與分類器模塊相連并將經句法分析后的詞語、短語傳輸給輸出端;分類器模塊的輸入端與句法分析器模塊相連,輸出端與信息校正單元相連并將分類后的信息中的關鍵信息傳輸給輸出端。
4.一種基于半自動校正的語音關鍵信息記錄方法,其特征在于,包括以下步驟 第一步,由用戶處獲得的語音信息通過語音識別軟件獲得語音信號所表達的未經校正的文本信息; 第二步,關鍵信息提取單元依次對未經校正的文本信息進行句法分析和分類分析得到時間信息、關鍵信息詞類及特殊名詞信息并作為關鍵信息傳輸至輸出端; 第三步,信息校正單元對關鍵信息依次進行冗余信息校正、時間信息校正以及特殊名詞校正并最終得到校正后的關鍵信息; 第四步、信息校正單元將校正后的關鍵信息傳輸給用戶反饋確認模塊,由用戶進行最終確認。
5.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的句法分析是指對所獲得的未經校正的文本信息采用句法分析器進行句法分析,實現對文本信息中語句的分詞,從而將文本信息中的連續語句轉化為各種詞語和/或短語。
6.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的分類分析是指對分類器采用漢語詞性標注語料庫進行訓練后,采用分類器先從上述詞語和/或短語中分類出時間信息及關鍵信息詞類;此后再采用常用詞庫對分類器進行訓練,并用分類器對關鍵信息詞類中的名詞部分,進一部分類獲得常用詞信息與非常用詞信息;其中的非常用詞信息即為特殊名詞信息。
7.根據權利要求6所述的語音關鍵信息記錄方法,其特征是,所述的分類器采用貝葉斯文本分類器。
8.根據權利要求6所述的語音關鍵信息記錄方法,其特征是,所述的關鍵信息詞類是指名詞、動詞、數詞、形容詞、副詞、介詞以及代詞;所述的特殊名詞信息是指名詞中的非常用詞信息部分。
9.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的冗余信息校正是指 1)計算任一兩個關鍵信息A與B之間的編碼距離d(A,B) d(A, B) = max{\sizeof(A) -sizeof(5)|,maxj^fl2 ;I, 其中=Sizeof (X)為關鍵信息X的ASCII編碼的字節數,Xi為關鍵信息X的ASCII編碼的第i個字節的數值,且若i > sizeof(X),貝U Xi = O ;當編碼距離d(A,B) = O的關鍵信息A與關鍵信息B為相同關鍵信息,編碼距離O < d(A,B) < T的關鍵信息A與關鍵信息B則為相似關鍵信息,T相似閾值; 2)將相同關鍵信息與相似關鍵信息一起形成一個相似關鍵信息集合,當關鍵信息C與現有某一個相似關鍵信息集合中任意一條關鍵信息相同,或與現有某一個相似關鍵信息集合中一半以上相似,則將關鍵信息C加入該關鍵信息集合; 3)在確定相似關鍵信息集合后,選取該集合中出現頻率最高的關鍵信息M并將該相似關鍵信息集合中其余的關鍵信息均替換為關鍵信息M。
10.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的時間信息校正是指 a)首先提取時間信息內的時間信息對,并檢驗時間信息對中的各元素,即H、M、s,是否符合二十四小時制、六十分鐘制以及六十秒制; b)當元素不符合時間信息規格約定,則對嘗試其進行自動校正,若無法自動校正,則將該時間信息認定為識別有誤時間信息,并傳遞至用戶反饋確認模塊進行手動糾錯確認。
11.根據權利要求10所述的語音關鍵信息記錄方法,其特征是,所述的提取是指依據關鍵信息中的“點”、“分”、“秒”字眼進行分割,將“點”之前的認為是時間信息對中的元素H,“點”與“分”之間的認為是時間信息對中的元素M,“分”與“秒”之間的認為是時間信息對中的元素S ;當無法找到相應元素,則將時間信息對中的相應元素置為零。
12.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的特殊名詞校正是指將語音識別并分類后的關鍵信息中的特殊名詞信息作為檢索詞條輸出至外部數據庫資源,然后利用外部數據庫的海量數據資源及其所提供的糾錯策略。
13.根據權利要求4所述的語音關鍵信息記錄方法,其特征是,所述的最終確認采用短消息、語音電話和移動網絡傳輸至用戶進行反饋確認,確認后的信息保存于用戶的終端以作備忘。
全文摘要
一種語音識別技術領域的基于半自動校正的語音關鍵信息記錄裝置及方法,該裝置包括關鍵信息提取單元和與之相連的信息校正單元,其中關鍵信息提取單元獲取未經校正的文本信息并提取出關鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認后的文本信息。本發明通過半自動的信息校正單元,降低了人工校正的工作量;利用數據庫對特殊名詞如地名、專業工具名稱進行校正,降低了人工校正中操作員的知識量限制所造成的影響;提取語音信息中的關鍵信息,從而提高所記錄信息的有效信息量。
文檔編號G06F17/30GK102956231SQ201110243379
公開日2013年3月6日 申請日期2011年8月23日 優先權日2011年8月23日
發明者葉英, 孔吉, 劉佩林 申請人:上海交通大學, 富士通株式會社