專利名稱:個人化用戶專用文法的制作方法
個人化用戶專用文法 背景
統一消息傳送系統通常包括諸如電子郵件、語音信箱、傳真等各種通 信技術到單個服務的整合。語音郵件通常作為電子郵件的音頻文件附件被 接收到接收方的郵箱中。然而,音頻文件附件的特性是接收語音郵件的接 收方不能簡單地通過査閱音頻文件來確定語音郵件的內容。并且接收方也 無法識別哪個語音郵件附件比其它更重要。
語音到文本(Speech-to-text)軟件可用來將語音郵件的音頻文件轉換 成可被接收方在視覺上可閱讀的文本文件。通過由語音到文本模塊處理文 本文件,可創建接收方能在計算機屏幕上、個人數字助理(PDA)屏幕上 等查閱的諸如電子郵件正文的文本表示或文件。然而,出于效率目的,語 音到文本軟件必須處理音頻文件中非常復雜的變化,以便確定與語音發聲 相匹配的正確文字。由于發送方的嗓音的諸變化,語音到文本轉寫不總是 能帶來準確結果。此外,在一群人或專業人事中常說的詞語或簡稱可能不 能被語音到文本模塊識別。因此,語音郵件的音頻文件的文本文件可能包 含不可識別的句子或字符,這些句子或字符使文本文件閱讀困難并且妨礙 了統一消息傳送系統帶來的好處。
概述
通過使用專用于接收方、發送方、組織內的一群人、組織內的人事階層的 各個層次等的定制文法并通過標識和提取語音郵件消息內的關鍵短語來將語 音郵件消息轉寫成文本文件的經改進方法克服了公知技術領域中的一個或多 個缺陷。
在一個方面,提供一種計算機實現的方法和系統,該方法和系統使用從統 一消息傳達系統內的個人或多群人中提取的常用詞語、名稱、簡稱以及短語的 定制文法。然后,當將語音郵件的音頻文件轉寫成文本文件時,可參考該定制
文法,以提高該文本文件的準確率。
在另一個方面,從文本文件中提取包含在音頻文件中的關鍵元素并且將其
作為發送到接收方的郵件的一部分包括在內。然后,關鍵元素被用來突出顯示
語音郵件中的重要信息并且使得接收方能確定其相對于接收方的收件箱中的
其它電子郵件和語音郵件的重要性。
或者,本發明可包括各種其它方法和裝置。 其它特征在下文中將有部分變得明顯并且被部分地指出。
附圖簡述
圖1是示出本發明的示例性系統的框圖。
圖2是示出示例性定制文法和文法之間的相互關系的框圖。 圖3是示出本發明的一個實施例的示例性方法的流程圖。 圖4是包含關鍵元素、文本轉寫以及音頻文件的消息的一個實施例的示例 性屏幕截圖。
圖5是示出在其中處理傳入電子郵件的本發明的示例性系統的框圖。 圖6是示出本發明的示例性系統的框圖,其中接收方正在請求回放語音郵 件的音頻文件。
圖7是示出在其中實現本發明的合適的計算系統環境的一個示例的框圖。 對應的附圖標記指示所有附圖中的對應部分。
詳細描述
首先參考圖1,框圖示出在其中實現本發明的一個實施例的系統的示例性 實施例的框圖。系統100具有統一消息傳達服務器102、組織文法104、語音 到文本模塊106、計算機108、郵箱IIO、個人文法112、電話114、媒體播放 器116、外部電話118、遠程計算設備120、網絡122、第二計算機124、第二 郵箱126、第二個人文法128、第二電話130、第二媒體播放器132、關鍵元素 列表134以及通用字典136。
在一個實施例中,呼叫方(例如,語音郵件的發送方)從第二電話130、 外部計算設備120或者外部電話118向具有作為統一消息傳達系統的一部分的
郵箱110的接收方(例如,被呼叫方)致電。語音郵件消息作為音頻文件被錄
音和保存。服務器102執行語音到文件模塊106,該模塊106使用通用詞典136 來分辨音頻文件中發聲的詞語、名稱、簡稱和短語以便創建語音郵件的文本轉 寫本。存在于關鍵元素列表134中的關鍵元素在文本轉寫本中被標識。包含經 標識的關鍵元素、語音郵件的文本轉寫本以及語音郵件的音頻文件的消息(例 如,電子郵件)被發送到接收方的郵箱110。接收方可在計算機108的屏幕上 或者從遠程計算設備120的屏幕上査閱包含在電子郵件中的關鍵元素或者文本 轉寫本。接收方還可通過執行計算機108中的媒體播放器116來聽取語音郵件 的音頻文件。
在一個實施例中,除了使用通用字典136之外,還通過使用專用于語音郵 件接收方的個人文法來提高所轉寫的語音郵件的準確率。從由服務器所執行的 軟件處獲得包含在個人文法112中的數據,該服務器訪問統一消息傳達系統的 用戶郵箱并從接收方的電子郵件收件箱、語音郵件收件箱、來電記錄、電子郵 件通信錄、電話通信錄、聯系人列表、約會日歷、組織圖表等(以下統稱為"郵 箱"、"郵箱110"、"郵箱126"、"接收方的郵箱"以及"語音郵件發送 方的郵箱")中包含的信息中挖掘數據。因此,個人文法包含接收方常用或接 收方接收的文檔中經常包含的詞語、名稱、簡稱以及短語。由于個人文法112 包含接收方常用的數據,所以當語音到文本模塊106正在分辨一個發聲時,個 人文法數據比通用字典136更受重視。因此,使用個人文法112可產生比單獨 使用通用字典136來轉寫語音郵件時更準確的語音郵件的轉寫。
被挖掘用來創建諸如個人文法112等定制文法的信息可被結構化,以便用 于其它應用。例如,擊中頻率以及數據的源被用來開發在統一消息傳達系統中 發送和接收電子郵件的人之間的自組(ad-hoc)關系映射。特定用戶的單個關 系映射可聚集到組關系映射中。這些關系映射可用于諸如那些社會網絡相關的 其它應用程序中。
在創建一個定制文法時,從郵箱中挖掘數據的軟件應該從文字上區分名 稱;將全名存儲在定制文法中;確定名稱發生的頻率;確定數據是否位于消息 的標題行中并確定數據位于哪個標題行;針對該數據是最近的還是舊的,標識 每個數據的年齡索引;確定各項之間的潛在關系鏈接(例如,哪些名稱一起出
現?頻率如何?可在名稱之間建立網絡?)。盡管沒有特地要求創建一個起作 用的定制文法,但是以上幾點可提高定制文法的有用性和多功能性。
在一個示例中,服務器102執行創建語音郵件的文本轉寫本的語音到文本 模塊106。服務器102訪問通用字典136和個人文法112來分辨音頻文件中的 發聲。關鍵元素列表134中所包含的關鍵元素還在文本轉寫本中被標識。包含 語音郵件的關鍵元素和文本轉寫本以及語音郵件的音頻文件附件的電子郵件 被發送到接收方的郵箱110中。接收方可在計算機108的屏幕上或者遠程計算 設備120的屏幕上査閱電子郵件中包含的關鍵元素或文本轉寫本。接收方還可 通過執行計算機108的媒體播放器116或通過在系統中播放來聽取語音郵件的 音頻文件附件。
關鍵元素可包含被確定為重要的詞語或短語,諸如名稱、電話號碼、數據、 時間,"您能……","請致電……"、"在……會面"等。關鍵元素列表134 包含被用來標識出現在語音郵件中的匹配關鍵元素的詞語、短語和數字格式 (例如,可能是電話號碼的一系列數字)等。當諸如詞語或短語的重要性被組 織確定后,將在語音郵件的文本轉寫本中被標識的詞語和短語可被添加到關鍵 元素列表134。
文本中的關鍵元素可在郵件中被突出顯示以允許接收方預覽語音郵件的 主題以便確定其相對的重要性。在一個示例中,關鍵元素可作為郵件的主題行 或標題行來提供。在另一示例中,可在諸如郵件正文頂部等郵件中的突出位置 提供關鍵元素以便使接收方能快速標識語音郵件的主題。
在一個實施例中,關鍵元素可被鏈接到語音郵件的音頻文件的位置以允許 接收方快速回放包含該關鍵元素的那部分語音郵件。
未被語音到文本模塊106識別出的字可被轉寫為符號或字符串,該符號或 字符串被用作占位符以指示字還未被轉寫或被正確轉寫的可能性低。這樣的符
號或字符串的示例可包括省略號(例如,"……")、空白線(例如,"_")
等。在一個實施例中,可設置與有很高的轉寫正確率有關的閾值,其中如果轉 寫正確率在該閾值以下,則省略號或空白線可以被插入到轉寫本中。例如,如 果所轉寫的詞是正確匹配的概率為80%或以下,則在該文本轉寫中插入省略號 或空白線。因此,取代用會使閱讀整體消息變得困難的斷章取義或無意義的文
本填充經轉寫的文本的做法,語音郵件的文本轉寫本可包括具有高準確率的詞 和用于未識別的詞的占位符。然后,閱讀該轉寫的文本的接收方能夠根據總體 語音郵件消息的上下文將正確的詞語、名稱、簡稱或短語快速填入到占位符中。 可在語音郵件的音頻文件的轉寫本中建立兩個或更多文法之間的關系。例
如,除了使用個人文法112或128 (例如,分別是個人文法(接收方)206和 個人文法(呼叫方)208)來準確地轉寫音頻文件之外,諸如包含組織內常用 的詞語、簡稱和短語的組織文法104等其它文法可結合個人文法112來分辨語 音郵件的音頻文件。還可創建包含組織內的各子群或各團隊中的人所使用的詞 語、簡稱和短語的文法(例如,子群文法204),并在語音到文本轉寫過程中 結合其它文法或字典來使用。
圖2是示出示例性定制文法200和文法間的相互關系的框圖。組織文法104
(例如,組織文法202)可通過挖掘組織中的收件箱和文檔被自動創建。替換 地或附加地,軟件公司可創建或修改組織文法的詞語、簡稱和短語,其中這些 詞語、簡稱和短語從整個組織內的所有個人的統一消息傳達系統郵箱中存在的 數據中標識。類似地,從事組織內的特別項目的子群(例如統一消息傳達系統 團隊)可具有專用于其子群的詞語、名稱、簡稱和短語。因此,可創建并使用 子群文法204以便將子群成員接收到的語音郵件的音頻文件轉寫成文字。類似 于個人文法,由服務器102執行的軟件可訪問被標識為特定子群的成員的個人 的統一消息傳達系統郵箱,并從子群成員的郵箱中所包含的信息里挖掘詞語以 便創建子群文法。如圖2所示,組織文法202和子群文法204在接收方和呼叫 方之間是常用的,它們表示這兩方都為同一個公司工作并在同一個子群內。個 人文法(接收方)206和個人文法(呼叫方)208專屬于個人,它們根據每個 個人的郵箱中所挖掘出的數據創建。因此,多個相關文法的組合通過改進對語 音郵件的呼叫方和接收方之間常見的詞語、名稱、簡稱或短語的識別能力可改 進語音郵件的轉寫。
除了個人文法112之外,可被創建的其它文法的示例包括在郵箱110所在 的常見統一消息傳達系統上創建的包含在其它郵箱內經常找到的數據的文法。 文法的其它示例包括經常位于統一消息傳達系統內具有安全檢査的郵箱內的 詞語。通過使用與郵件的接收方有些關系的兩個或更多文法,可提高轉寫的語 音郵件的音頻文件的準確率。還可有條理地建立用于管理層的各階層的文法。
例如,除了個人文法112之外,可為與個人文法112的擁有者相關聯的同一管 理層的一些個人(例如,經理、高級經理、總監等)所使用的共同術語創建文 法。或者,可為個人文法112的擁有者的管理層之上或之下的兩個或更多層建 立文法。因此,通過組合個人文法112和為個人文法112的擁有者的管理層之 上或之下的兩個層所建立的文法,被個人文法112的擁有者主管或者主管該擁 有者的人經常使用的詞語可用來將語音郵件接收方接收的語音郵件轉寫成文 字。替換地或另外,可從收件箱外部的部分或全部文檔中創建文法。例如,可 挖掘來自sharepoint站點的項目文件以創建工作組文法。
除了組織、子群、階層、常見的統一消息傳達系統、常見的安全檢査和個 人文法之外,職業專用文法(例如,醫學、法律、施工、制造等)可用來提高 音頻文件的文本轉寫的準確率。
在另一個實施例中,通過使用與語音郵件的發送方和接收方有關的兩個或 更多個人文法來準確分辨語音郵件以便提高將語音郵件的音頻文件轉寫為文 字的準確率。在本實施例的一個示例中,從與發送方的郵箱126相關聯的電話 130處呼叫的語音郵件發送方為與郵箱110相關聯的接收方錄制語音郵件。服 務器102執行創建語音郵件的文本轉寫本的語音到文本模塊106。服務器102 訪問個人文法112和個人文法128來分辨音頻文件中語音郵箱的接收方或發送 方常用的發音。個人文法112和個人文法128包含語音郵件發送方和語音郵件 接收方經常使用的或經常包含在位于他們各自的郵箱內的文檔中的詞語、名 稱、簡稱和短語(例如,電子郵件收件箱、語音郵件收件箱、來電記錄、電子 郵件通信錄、電話通信錄、聯系人列表、約定日歷、組織圖表等)中。如上所 述,包含在關鍵元素列表134中關鍵元素也在文本轉寫本中被標識。包含語音 郵件的關鍵元素和文本轉寫本,以及語音郵件的音頻文件附件的電子郵件被發 送到接收方的郵箱110中。
圖3是示出本發明的一個實施例的示例性方法的流程圖。當呼叫方為在統 一消息傳達系統100上擁有郵箱110的接收方錄制語音郵件時,該方法在302 開始。在304,創建語音郵件的音頻文件。在306,語音到文本模塊106通過 將音頻文件中出現的發聲與接收方的個人文法112作比較并為口語發聲確定正
確的文本轉寫來創建語音郵件的音頻文件的文本轉寫本。在308,包含在關鍵 元素列表134中關鍵元素在文本轉寫本中被標識。在310,包含在語音郵件的 音頻文件的文本轉寫本、以及語音郵件的音頻文件中出現的經標識的關鍵元素 的消息被創建并發送至接收方。
在另一個實施例中,將經標識的關鍵元素超鏈接到它們在語音郵箱的音頻 文件中的位置。然后,接收方可激活超鏈接來回放包含該關鍵元素的那部分語 音郵件。這在以下事件中很重要,即鄰近關鍵元素的轉寫文本或者不能被轉寫 成文字(例如,包含省略號或空白線占位符),或者轉寫詞語是準確匹配的概 率小于準確閾值(例如,在數字中,由于數字五十(50)和十五(15)的語音 相似,它們可能會被轉寫錯),或者所發生的轉寫中的錯誤導致該關鍵元素之 前或之后的無意義陳述。因此,接收方可快速轉到語音郵件的最重要部分并聽 取發送方錄制的消息,而不需要聽取整個語音郵件。
關鍵元素或者可在文本轉寫本中被突出顯示、或者可在消息中的不同位置 被復制(例如,在消息的正文的頂部或電子郵件消息的主題行里,或兩個位置 都可)。關鍵元素的文本還可被彩色編碼或者該突出顯示可以是彩色編碼(R, G, B, Y)的以便進一步幫助接收方快速標識語音郵件的關鍵元素并為其歸類。 例如,詞語"關于"(ABOUT)附近的文本可被標識為主題(SUBJECT)類 別。短語"你能給我……"或"如果你能……"附近的文字可能被標識接收方 所請求的動作事項(ACTION ITEM)的文本所圍繞。具有特定格式的數值可 被歸類為電話號碼(PHONE NUMBER)。諸如"今天"(TODAY)、"今 天早些時候"(EARL正R TODAY)、"今天晚些時候"、"明天" (TOMORROW)、"星期五"(FRIDAY)、"四月"等詞語和短語可標識 正被請求或建立的計劃好的時間。關鍵短語可按類別分組在一起以允許接收方 按一個快速的、安排好的格式確定語音郵件的主題和所標識出的任何動作事項 或計劃好的事項。圖4是包含關鍵元素、文本轉寫本和音頻文件的消息的一個 實施例的示例性屏幕截圖,其中關鍵元素在文本轉寫本中被突出顯示,被歸類, 并超鏈接到語音郵件的音頻文件。還可以構想,用戶可標記和/或校正轉寫本并 使文本到語音引擎從用戶的修正中學習。在一個實施例中,提供在其上存儲數 據結構的計算機可讀介質。數據結構包括表示語音郵件的經轉寫音頻文件的文
本文件的第一字段、以及表示從文本文件中標識出的關鍵元素的第二字段,其
中該關鍵元素包含在關鍵元素列表136中。
圖5是示出本發明的在其中處理傳入電子郵件的示例性系統的框圖。 圖6是示出本發明的示例性系統的框圖,其中接收方請求回放語音郵件的 音頻文件。接收方或者激活來自與統一消息傳達系統郵件客戶端用戶接口 602 聯網的計算設備中的音頻文件或者激活來自通過諸如Outlook Web Access (華 盛頓州雷德蒙市的微軟公司)等可選的后端web訪問電子郵件程序訪問統一消 息傳達系統的遠程計算設備中的音頻文件。操作與統一消息傳達系統郵件客戶 端用戶接口 602聯網的計算機的接收方打開被發送至接收方的包含關鍵元素、 文本轉寫本以及語音郵件的音頻文件的電子郵件。接收方可激活包含在電子郵 件中的音頻文件,這使得媒體播放器116在接收方的計算機上被啟動。媒體播 放器116回放發送至接收方的語音郵件的音頻文件(媒體回放604)。或者, 接收方可激活在音頻文件的文本轉寫本中被標識的關鍵元素的超鏈接。媒體播 放器116被啟動并且包含關鍵元素的那部分音頻文件在媒體播放器上被回放 (媒體回放604)。
或者,接收方從諸如Outlook Web Access等后端電子郵件客戶端遠程訪問 包含關鍵元素、文本轉寫本和語音郵件的音頻文件的電子郵件。接收方可激活 包含在電子郵件中的音頻文件,這使得媒體播放器116在接收方的遠程計算機 上被啟動。媒體播放器116回放發送至接收方的語音郵件的流音頻文件(媒體 回放604)。或者,接收方可激活在音頻文件的文本轉寫本中被標識的關鍵元 素的超鏈接。媒體播放器116被啟動并且包含關鍵元素的那部分音頻文件通過 流音頻在媒體播放器上被回放(媒體回放604)。
如圖7所示,本發明的實施例的操作環境的一個實施例包括在其間發送諸 如郵件等消息的各種機群和組織。附圖標記702示出示例性機群的一個實施例。 機群702包括具有用于發送和接收來自其它機群和組織的可執行的郵件傳輸 706的服務器704。此外,郵件傳輸代理706將郵件發送和接收至各種消息存 儲708中。在機群中創建的或傳遞到機群的消息被存儲于消息存儲708中。
服務器704通常具有至少某些形式的計算機可讀介質。包括易失性和非易 失性介質兩者、可移動和不可移動介質兩者的計算機可讀介質可以是能被服務
器704訪問的任何可用介質。作為示例,而非限制,計算機可讀介質包括計算 機存儲介質和通信介質。計算機儲存介質包括以用來存儲諸如計算機可讀指 令、數據結構、程序模塊或其它數據等信息的任何方法或技術實現的易失性和 非易失性的、可移動的和不可移動的介質。例如,計算機存儲介質包括RAM、 ROM、 EEPROM、閃存或其它存儲器技術、CD-ROM、數字多功能盤(DVD) 或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設備、或可用來儲存 所期望的信息并能被服務器704訪問的任何其它介質。通信介質通常以諸如載 波或其它傳輸機制等已調制數據信號來體現計算機可讀指令、數據結構、程序 模塊或其它數據,并包括任何信息傳遞介質。本領域的技術人員熟悉已調制數 據信號,它是將其一個或多個特性以在該信號中編碼信息的方式來設置或改變 的信號。諸如有線網絡或直接線連接等有線介質,以及諸如聲學、RF、紅外線 和其它無線介質等無線介質是通信介質的示例。上述的任何一種的組合也被包 括在計算機可讀介質的范圍之內。
服務器704通常采用系統存儲器的某些形式,包括以可移動和/或不可移 動,易失性和/或非易失性存儲器為形式的計算機存儲介質。在所示出的實施例 中,系統存儲器包括只讀存儲器(ROM)和隨機存取存儲器(RAM)。
服務器704可采用與諸如遠程計算機等一個或多個遠程計算機的邏輯連接 在聯網環境中操作。遠程計算機可以是個人計算機、服務器、路由器、網絡 PC、對等設備、或其它常見的網絡節點,并且通常包括許多或全部以上關于服 務器704所描述的元件。圖7所示的邏輯連接包括局域網(LAN)和廣域網 (WAN),但還可包括其它網絡。LAN和/或WAN可以是有線網絡,無線網 絡、有線和無線網絡的組合等。這種網絡連接環境在辦公室、企業范圍計算機 網絡、內聯網和全球計算機網絡(例如,因特網)中是常見的。此外,服務器 704可連接到允許組織內外的用戶互相呼叫并為連接到統一消息傳達系統的接 收方錄制語音消息的公共或電話交換系統(未示出)。
當在LAN網絡連接環境中使用時,服務器704通過網絡接口或適配器連 接至LAN。當在WAN網絡連接環境中使用時,服務器704通常包括通過諸如 因特網等WAN建立通信的調制解調器或其它裝置。可內置或外置的調制解調 器可通過用戶輸入接口或其它合適的機制連接至系統總線。在聯網環境中,關
于服務器704所描繪的程序模塊或其部分可以存儲在遠程存儲器存儲設備(未 示出)中。作為示例,而非限制,圖7將遠程應用程序示為駐留在存儲器設備 中。所示出的網絡連接是示例性的,并且可以采用在計算機之間建立通信鏈路 的其它手段。
在由一個或多個計算機或其它設備執行的諸如程序模塊等計算機可執行 指令的一般上下文中描述本發明的實施例。 一般而言,程序模塊包括,但不限 于,執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件和數據 結構等。本發明的各方面還可在分布式計算環境中來實現,在該環境中,任務
可由通過通信網絡鏈接的遠程處理設備來執行。在分布式計算環境中,程序模 塊可位于包括存儲器存儲設備的本地和遠程計算機存儲介質兩者上。
在軟件體系結構的上下文中的接口包括軟件模塊、組件、代碼部分或計算 機可執行指令的其它序列。該接口包括,例如,訪問第二模塊以代表第一模塊 執行計算任務的第一模塊。該第一和第二模塊(在一個示例中)包括諸如由操 作系統提供的應用程序編程接口 (API)、組件對象模型(COM)接口 (例如, 用于對等應用程序通信)以及可擴展標記語言元數據交換格式(XMI)接口 (例 如,用于web服務間的通信)等。
接口可以是例如在Java2平臺企業版(J2EE) 、 COM或分布式COM (DCOM)示例中緊耦合的、同步實現。替換地或此外,該接口可以是在諸如 web服務等松耦合的、異步實現(例如,使用簡單對象訪問協議)。 一般而言, 接口包括以下特性的任何組合緊耦合、松耦合、同步和異步。此外,該接口 可遵循標準協議、專用協議或標準和專用協議的任何組合。
此處描述的接口可以是單個接口的部分或可以實現為各獨立接口或其任 何組合。接口可通過邏輯或遠程地執行來提供功能。此外,接口可包括比此處 說明或描述的功能多或少的功能。
在操作中,服務器704執行諸如附圖中所示出的計算機可執行指令來實現 本發明的各方面。
以下示例進一步說明本發明。
示例1
當語音郵件消息被提交給統一消息傳達系統后,它們作為音頻附件到達。
音頻文件的特點是相對不透明的;人們不能查看計算機屏幕并看到音頻的內容 或預覽音頻中的最重要的元素。本發明提供對統一消息傳達語音郵件中的音頻 進行文本預覽并從音頻中提取和突出顯示關鍵元素,例如名稱、電話號碼等。 一旦被提取,消息的文本具有以下好處
它允許語音郵件的接收方對語音郵件中的音頻進行文本預覽。在公 共設置中,接收方不需要在計算設備的揚聲器上回放該消息或者調取語音郵件 來聽取該消息。因此,私密性被大大提升。
預覽可允許快速篩選語音郵件以確定哪些語音消息是緊急和重要的。
文本可以被索引并搜索,以便允許更好地在收件箱的更大上下文中 管理語音消息。
諸如名稱和電話號碼等音頻的重要元素可被調出并在消息中突出顯 示,以及存儲在特定消息屬性中。
語音到文本翻譯是非常復雜的技術過程,它不能提供100%的正確結果。
本發明提供一些方法,采用這些方法,不那么完美的技術狀況可以成為對語音 郵件的可接受的用戶體驗。本發明的過程和系統通過使用用戶的郵箱中的信息 以及其它郵箱中潛在的信息來創建專用于統一消息傳達系統用戶的以及專用 于用戶可能獲得的那類語音郵件的定制文法以便將語音郵件的音頻文件轉寫 成文字,從而改善語音到文本轉換的準確率。
當呼叫方使用諸如Exchange (華盛頓州雷德蒙市的微軟公司)等統一消息 傳達系統來對語音消息錄音后,音頻附件被創建并附加于通過Exchange傳輸 以便傳遞到Exchange收件箱而提交的電子郵件消息。本發明通過語音到文本 的翻譯模塊傳送該音頻,該語音到文本的翻譯模塊創建語音消息的正文的文本
預覽,而且還嘗試從語音消息中提取關鍵的文本元素(名稱,電話號碼等)。 一旦提取了文本的正文預覽以及關鍵的文本元素,它們作為消息的一部分被存 儲。正文預覽可置于語音郵件消息的正文中,而關鍵的文本元素可包括在正文 或定制電子郵件屬性中。
由于語音識別技術的狀況和識別引擎所必須支持的文法的廣度,音頻的語 音到文本的翻譯在目前是一種非常不準確的處理。代替提供對充滿不正確結果
的消息的正文預覽,對用戶體驗的一個改進是,當置信度低時,對文字使用占
位符(例如,省略號"……"、文本標記"(未轉寫的文本)"、空白行"_"
等)。這個想法的前提是對于人腦來說"填充空白處"比用正確文字糾正混雜 在一起的錯誤文字更簡單。這是一個必要的方法,因為語音到文本的翻譯的不 到60%的準確率會使得很難理解翻譯結果并且會導致產生該軟件出錯的想法。 使得語音到文本的翻譯變得困難的部分原因是有大量的各種文字能夠匹 配口語發聲。大多數語音到文本的轉寫試圖使用通用字典來解決這個問題。基 于用戶收件箱中的內容(例如,在電子郵件對話中,等)而使用更專用于用戶 的文字可改進通用字典。除此之外,可通過從收件箱的集合中挖掘文字來構建
工作組或公司文法。由于Exchange是服務器,因此它能夠在需要時訪問用戶 收件箱并創建這些類型的跨人文法。
個人文法(例如,郵箱數據)以及組織文法通過提供對翻譯更有針對性的 字典被用來改進語音到文本的翻譯。采用個人文法,在與一特定用戶的通信中 經常使用的詞語和名稱將更容易被翻譯。個人文法從包含在個人的統一消息傳 達系統郵箱中的信息中被創建。個人文法被創建并存儲在系統的郵箱中。對于 特定的語音消息,針對該消息的文法可從呼叫方和接收方兩者的個人文法的聯 合中來創建(假定該呼叫方也在該系統中)。
使用組織文法,在該組織中最常使用的詞語將更容易被翻譯。容易看到在 例如醫療行業中運作的公司中這會是如何重要的改進。個人和組織文法一旦被 創建,它們與更通用的字典一起使用來幫助語音到文本的翻譯。 一旦構建了該 文法,它就可存儲在郵箱中,以便用戶可獲得它并使其與用戶相關聯。
除非以其它方式指定,執行此處所示出和描述的方法的順序不是必要的。 即,除非以其它方式指定,方法中的元素可按任何順序來執行,并且該方法可 包括多于或少于此處所公開的那些元素的元素。例如,可以預見,在另一個元 素之前、同時或之后執行特定元素落入本發明的范圍中。
當介紹本發明的元素或其(諸)實施例時,冠詞"一"、"一個"、"該" 以及"所述"意在表示存在一個或多個元素。術語"包含"、"包括"、以及 "具有"意在表示包括在內并且表示存在除了所列元素之外的其它元素。
鑒于上文,將看到,實現了本發明的若干對象并且獲得其它有利的結果。
由于可以在不脫離本發明的范圍的情況下,對以上的架構和方法做出各種 改變,所以,希望的是,以上描述所中包含的以及附圖中所示出的一切應該被 解釋為說明性而不是限制性的。
權利要求
1.一種改進在統一消息傳達系統中對發送給接收方的語音郵件的音頻文件的轉寫的計算機實現的方法,其中所述統一消息傳達系統包括文法和關鍵元素列表(134),所述方法包括通過將所述音頻文件的發聲與所述文法作比較來將所述音頻文件轉寫成文本文件;以及將關鍵元素的標識與所述文本文件一起包括在所述文本文件中,所述關鍵元素包含在所述關鍵元素列表中。
2. 如權利要求1所述的計算機實現的方法,其特征在于,所述文法是個 人文法(112) (206)并且其中基于所述接收方的電子郵件收件箱、語音郵件 收件箱、來電記錄、電子郵件通信錄、電話通信錄、聯系人列表、約會日歷、 組織圖表以及專用于個人的文檔中的至少一個,所述個人文法(112) (206) 專用于所述接收方。
3. 如權利要求1所述的計算機實現的方法,其特征在于,所述文法是個 人文法(112)并且所述統一消息傳達系統還包括第二文法,其中所述個人文 法(112) (206)和所述第二文法的組合被用來將所述音頻文件轉寫成文本文 件。
4. 如權利要求3所述的計算機實現的方法,其特征在于,所述第二文法 從語音郵件發送方個人文法(128) (208)、子群文法(204)、階層文法、 常見的統一消息傳達系統文法、常見的安全檢査文法、組織文法(104) (202) 以及職業文法組成的組中選出。
5. 如權利要求1所述的計算機實現的方法,其特征在于,包含所述經標 識的關鍵元素、所述經轉寫的文本以及所述語音郵件的音頻文件的消息被發送 至所述接收方。
6. 如權利要求5所述的計算機實現的方法,其特征在于,在所述消息的 主題行或標題行中提供經標識的關鍵元素。
7. 如權利要求5所述的計算機實現的方法,其特征在于,所述標識的關 鍵元素被歸類。
8. 如權利要求7所述的計算機實現的方法,其特征在于,所述類別從由 主題、動作事項、電話號碼以及計劃好的時間組成的組中選出。
9. 如權利要求1所述的計算機實現的方法,其特征在于, 一個或多個關 鍵元素被超鏈接到所述關鍵元素被發聲的音頻文件位置。
10. 如權利要求9所述的計算機實現的方法,其特征在于,還包括 激活所述關鍵元素超鏈接以便在所述語音郵件的音頻文件中回放所述關鍵元素的發聲。
11. 如權利要求1所述的計算機實現的方法,其特征在于,所述音頻文件 中出現的未識別的語音郵件發聲用所述文本中指示所述發聲沒有被轉寫成文 字的占位符轉寫。
12. 如權利要求1所述的方法,其特征在于, 一個或多個計算機可讀介質 具有執行權利要求1所述的計算機可執行方法的計算機可執行指令。
13. —種用于轉寫發送至與統一消息傳達系統相連接的接收方的音頻文 件語音郵件的系統,包括包含來自所述接收方的所述統一消息傳達系統郵箱(110)的數據的文法; 包含位于所述語音郵件中的數據的關鍵元素列表(134); 被配置成執行計算機可執行指令的服務器(102),所述指令用來執行語音到文本模塊(106),所述模塊基于所述文法轉寫所述音頻文件;標識所述文本轉寫中所包含的關鍵元素,所述關鍵元素包含在所述關 鍵元素列表(134)中;以及向所述接收方發送包含所述經標識的關鍵元素、所述文本轉寫以及所 述音頻文件的電子郵件。
14. 如權利要求13所述的系統,其特征在于,所述文法是個人文法(112) 并且其中所述語音到文本模塊(106)基于所述個人文法(112) (206)以及 至少一個另外的文法轉寫所述音頻文件。
15. 如權利要求14所述的系統,其特征在于,所述另外的文法從由語音 郵件發送方個人文法(128) (208)、子群文法(204)、階層文法、常見的 統一消息傳達系統文法、常見的安全檢查文法、組織文法(104) (202)以及職業文法組成的組中選出。
16. 如權利要求13所述的系統,其特征在于,在所述電子郵件中被標識 的所述關鍵元素被超鏈接到所述關鍵元素的音頻文件位置。
17. 如權利要求16所述的系統,其特征在于,所述系統還包括 連接到統一消息傳達系統并能訪問所述接收方的郵箱(110)的計算設備,所述計算設備被配置成響應于關鍵元素超鏈接的激活而執行媒體播放器 (116)。
18. 如權利要求13所述的系統,其特征在于,所述經標識的關鍵元素在 所述電子郵件中被整理歸類。
19. 如權利要求18所述的系統,其特征在于,所述類別從由主題、動作 事項、電話號碼以及計劃好的時間組成的組中選出,并且其中包含在所述電子 郵件中的關鍵元素根據所述關鍵元素的類別被彩色編碼。
20. —種具有在其上存儲數據結構的計算機可讀介質,所述數據結構包括經轉寫音頻的文本文件的第一字段;以及 所述文本文件的關鍵元素的第二字段。
全文摘要
提供用于轉寫通過統一消息傳達系統發送的語音郵件的音頻文件的經改進的系統和方法。創建并使用專用于語音郵件接收方的定制文法以便通過將該音頻文件與接收方常用的詞語、名稱、簡稱以及短語作比較來轉寫所接收的語音郵件。從最終的文本轉寫中標識出關鍵元素以幫助接收方基于語音郵件中所包含的重要內容來處理所接收的語音郵件。
文檔編號G06F17/00GK101351818SQ200680049850
公開日2009年1月21日 申請日期2006年12月29日 優先權日2005年12月30日
發明者D·A·豪威爾, D·T·方, F·塞德, S·桑德拉拉曼 申請人:微軟公司