音頻交互的消息交換的制作方法
【專利摘要】經由語音識別、文本轉語音(TTS)和檢測算法的組合提供了尤其是在便攜式裝置中的完全免持的消息交換。在確定了音頻交互模式是否適當后,可以向用戶大聲地朗讀輸入消息,并且使所述用戶經由音頻輸入用答復消息對發送者作出響應。用戶還可以被提供有按照不同通信方式(例如,呼叫)作出響應的選項,或者執行其它動作。還可以使用戶使用自然語言來發起消息交換。
【專利說明】音頻交互的消息交換
【背景技術】
[0001]隨著計算和聯網技術的發展和廣泛使用,個人和商業通信已經在量和質上激增。經由諸如桌面型計算機、車載計算機、便攜式計算機、智能手機及類似裝置的固定或便攜式計算裝置的多模通信經常發生。由于通過容易定制的軟件/硬件組合控制多面通信,所以以前未聽說過的部件可以應用于日常生活中。例如,將存在信息結合到通信應用中使得人們能夠彼此更加高效地通信。同時的尺寸減小和計算能力提高,使智能手機或類似的手持式計算裝置用于多模通信,其包括但不局限于,音頻,視頻,文本消息交換,電子郵件,即時消息傳送,社交網絡發貼/更新等。
[0002]通信技術激增的結果之一是信息超載。對于人來說,每天交換幾百封電子郵件,參與眾多音頻或視頻通信會議以及交換大量的文本消息并非是不同尋常的。考慮龐大范圍的通信,文本消息交換代替更正式的郵件和耗時的音頻/視頻通信而日益變得更加流行。盡管如此,使用常規的鍵入技術——不管是在實體鍵盤上還是使用觸摸技術——甚至文本消息傳送可能都是低效的、不實用的,或者有時是危險的(例如,駕駛時)。
【發明內容】
[0003]提供本
【發明內容】
是為了以簡化形式介紹以下將在【具體實施方式】中進一步描述的概念的選擇。本
【發明內容】
不旨在專門地標識出所要求保護的主題的關鍵特征或必要特征,也不旨在幫助確定所要求保護的主題的范圍。
[0004]實施例涉及經由語音識別、文本轉語音(TTS)和檢測算法的組合來提供尤其是在便攜式裝置中的完全免持的消息交換。根據一些實施例,可以向用戶大聲地朗讀輸入消息,并且使用戶經由音頻輸入用答復消息對發送者作出響應。用戶還可以被提供按照不同通信模式(例如,呼叫)作出響應的選項,或者執行其它操作。根據其它實施例,可以使用戶使用自然語言來發起消息交換。
[0005]根據對以下的詳細描述的閱讀以及對相關聯的圖的查閱,這些及其它特征和優點將變得顯而易見。應當理解的是,前面的一般性描述及后面的詳細描述都是說明性的,而不限制所要求保護的方面。
【專利附圖】
【附圖說明】
[0006]圖1是圖示了在各種形式中的不同示例裝置之間的聯網通信的概念圖;
圖2圖示了根據實施例的系統中的經由音頻輸入發起消息交換的操作的示例流程;
圖3圖示了根據實施例的系統中的經由音頻輸入對輸入消息作出響應的操作的示例流程;
圖4圖示了用于促進通信的便攜式計算裝置的示例用戶界面;
圖5是可以在其中實施根據實施例的系統的聯網環境;以及 圖6是可以在其中實施實施例的示例計算操作環境的框圖。【具體實施方式】
[0007]如以上簡述的那樣,在確定了音頻交互模式是否適當后,可以向用戶大聲地朗讀輸入消息,并且使用戶經由音頻輸入用答復消息對發送者作出響應。用戶還可以被提供有按照不同通信模式(例如,呼叫)作出響應的選項,或者執行其它動作。還可以使用戶使用自然語言來發起消息交換。在下面的詳細描述中,將參照構成本文的一部分的附圖,其中通過圖示的方式示出了具體的實施例或示例。在不背離本公開的精神或范圍的情況下,可以組合這些方面,可以使用其它方面,并且可以進行結構上的改變。因此,不應按照限制的意義來理解以下的詳細描述,并且本發明的范圍由所附權利要求以及它們的等價物來限定。
[0008]雖然將在結合運行于個人計算機上的操作系統上的應用程序而執行的程序模塊的一般情境中描述實施例,但是本領域技術人員將認識到還可以與其它程序模塊相結合來實現方面。
[0009]一般來說,程序模塊包括完成特定任務或實施特定抽象數據類型的例程、程序、組件、數據結構及其它類型的結構。此外,本領域技術人員將意識到,可以用包括手持式裝置、多處理器系統、基于微處理器的或可編程的消費電子設備、小型計算機、大型計算機以及類似計算裝置的其它計算系統配置來實踐實施例。還可以在分布式計算環境中實踐實施例,在分布式計算環境中,由通過通信網絡鏈接的遠程處理裝置來完成任務。在分布式計算環境中,程序模塊可以位于本地和遠程存儲器存儲裝置二者中。
[0010]可以把實施例實施為計算機實施的過程(方法)、計算系統,或實施為制品,例如計算機程序產品或計算機可讀介質。計算機程序產品可以是可由計算機系統讀取并且編碼計算機程序的計算機存儲介質,該計算機程序包括用于使得計算機或計算系統執行(多個)示例性過程的指令。計算機可讀存儲介質可以例如通過以下各項當中的一項或多項來實施:易失性計算機存儲器、非易失性存儲器、硬盤驅動器、閃存驅動器、軟盤或緊湊型盤以及類似的介質。
[0011]在整個該說明書中,術語“平臺”可以是用于促進多模通信的軟件與硬件組件的組合。平臺的示例包括但不限于在多個服務器上執行的托管服務、在單個服務器上執行的應用以及類似的系統。術語“服務器”通常涉及典型地在聯網環境中執行一個或多個軟件程序的計算裝置。然而,服務器也可以被實施為在被視為網絡上的服務器的一個或多個計算裝置上執行的虛擬服務器(軟件程序)。
[0012]圖1是圖示了在各種形式中的不同示例裝置之間的聯網通信的概念圖。現代的通信系統可以包括在由服務器及其它專用設備管理的一個或多個有線和/或無線網絡之上的信息交換。可以通過諸如蜂窩電話、智能電話、專門裝置之類的專用裝置或者通過執行通信應用的通用計算裝置(固定的或便攜的)來促進用戶交互。
[0013]由現代的通信系統提供的性能和部件上的多樣性使用戶能利用各種通信形式。例如,可以通過相同的裝置單獨地或者組合地使用音頻、視頻、電子郵件、文本消息、數據共享、應用共享以及相似的形式。用戶可以通過他們的便攜式裝置交換文本消息,然后經過不同形式與同一個人繼續對話。
[0014]圖100圖示了兩個示例系統,一個使用蜂窩網絡,另一個使用數據網絡。蜂窩通信系統使得通過由復合中樞系統管理的蜂窩網絡102能夠出現音頻、視頻或文本的基礎交換。蜂窩電話112和122可以具有各不相同的性能。目前,并不少見的是,智能電話在性能方面與桌面型計算裝置非常相似。
[0015]另一方面,基于數據網絡104的通信系統使能通過便攜式(例如,手持式計算機114,124)或固定(例如,桌面型計算機116,126)的計算裝置的更廣泛的數據集的交換和通信形式。典型地,由一個或多個服務器(例如,服務器106)來管理基于數據網絡104的通信系統。通信會話還可以是跨網絡的促進。例如,連接到數據網絡104的用戶可以與連接到蜂窩網絡102的蜂窩電話用戶通過他們的桌面通信應用發起通信會話(按照任何形式)。
[0016]然而,常規的系統和通信裝置主要受限于諸如鍵入或激活在通信裝置上的按鍵或相似控制元件之類的實體交互。雖然在一些系統中使用了基于語音識別的技術,但是典型地,用戶必須通過按壓按鍵來激活這些。此外,在使用基于語音的部件之前,用戶必須按照適當的模式放置裝置/應用。
[0017]根據一些實施例的通信系統采用語音識別、口述和文本轉語音(音頻輸出)技術的組合,以使用戶能發送基于文本的輸出消息并且答復基于文本的輸入消息(接收通知,使消息被讀取給他們,以及制作答復)而無需按壓任何按鍵,甚至觀看裝置屏幕,從而呈現不與通信裝置交互的最小限度。基于文本的消息可以包括任何形式的正文消息,包括但不限于,即時消息(頂)、短消息服務(SMS)消息、多媒體消息傳送服務(麗S)消息、社交網絡發貼/更新、電子郵件以及類似的消息。
[0018]示例實施例還包括方法。可以按照任何數目的方式來實施這些方法,包括這篇文獻中描述的結構。一種這樣的方式是通過在這篇文獻中描述的類型的裝置的機器操作。
[0019]另一種可選的方式是,對于所述方法的獨立操作中的一個或多個,與執行一些獨立操作的一個或多個人操作員協作來執行。這些人操作員無需互相搭配,而是每個操作員都可以僅與執行該程序的一部分的機器在一起。
[0020]圖2圖示了根據實施例的系統中的經由音頻輸入發起消息交換的操作的示例流程。到達促進通信的計算設備的音頻輸入可以經過集成或分離的組件(有線的或無線的),比如麥克風、耳機、汽車套件或相似音頻裝置。雖然可以在根據實施例的通信系統中完成操作的各種順序,但是在圖2和圖3中討論了兩個示例流程。
[0021]示例操作流程200可以開始于,通過預定關鍵詞(例如,“啟動消息傳送”)或按壓裝置上的按鍵來激活消息傳送動作(232)。根據一些實施例,可以通過自然語言來發動消息傳送動作。例如,用戶可以通過說出“給約翰多伊發送消息”來提供指示。如果用戶說出電話號碼或與接受者相似的標識符,則系統可以確認該標識符是適當的,并等待進一步的聲音輸入。如果用戶說出名字,可以執行一個或多個確定算法以將所接收的名字與相似標識符(例如,SIP標識符)的電話號碼相關聯。例如,所接收的名字可以與聯系人列表或相似的數據庫進行比較。如果存在多個名字或相似發音的名字,則該系統可以提示用戶指定哪個聯系人被期望來接收該消息。此外,如果存在與聯系人相關聯的多個標識符(例如,電話號碼、SIP標識符、電子郵件地址、社交網絡地址等),則該系統可以再次提示用戶選擇(通過音頻輸入)所期望的標識符。例如,該系統可以自動地確定出文本消息將不被發送到與聯系人相關聯的規則電話號碼的傳真號,但是如果聯系人有兩個蜂窩電話號碼,則可以提示用戶在這兩個號之間進行選擇。
[0022]一旦確定了所期望的接受者的標識符,則系統可以提示用戶經由音頻提示或者耳聽信號(earcon)來講出消息(234)。耳聽信號是用來代表具體事件的簡短的、獨特的聲音(通常是合成的音調或者聲音模式)。耳聽信號是計算機操作系統的共同特征,其中,警告或者錯誤消息伴隨著獨特的音調或者音調的組合。當用戶說完消息(通過結尾處的沉默的持續時間超出預定時間間隔或者通過諸如“消息結束”之類的用戶音頻提示來進行確定)時,該系統可以執行語音識別(236)。可以在通信裝置處全部或者部分地執行語音識別和/或其它處理。例如,在一些應用中,通信裝置可以將記錄的音頻發送到服務器,服務器可以執行語音識別并且將結果提供給通信裝置。
[0023]在結束語音識別過程后,該裝置/應用可以可選地復述該消息,并且提示用戶編輯/附加/確認該消息(238)。在確認后,可以將該消息作為基于文本的消息傳送給接受者(240),并且可選地,向用戶提供基于文本的消息已經被發送的確認(242)。在該處理的不同階段,該通信裝置/應用的用戶界面還可以向用戶提供視覺反饋。例如,可以顯示各種圖標和/或文本,以指示正在被執行的動作或其結果(例如,指示在進行中的語音識別的動態圖標或者確認圖標/文本)。
[0024]圖3圖示了根據實施例的系統中的經由音頻輸入對輸入消息作出響應的操作的示例流程。
[0025]圖300中的操作開始于,接收基于文本的消息(352)。下一步,該系統可以確定(354)音頻交互模式是否可用或者被允許。例如,用戶可以在他/她開會時或在公共場所時關掉音頻交互模式。根據一些實施例,可以基于多個因素自動地進行確定。例如,指示會議的用戶日程表可被用來關掉音頻交互模式,或者正移動的裝置(例如,經由GPS或者相似的位置服務)可以提示系統激活音頻交互模式。類似地,裝置的位置(例如,裝置正處于面朝下)或類似的環境也可被用來確定是否應當使用音頻交互模式。確定音頻交互模式的另外的因素可以包括但不限于,用戶的移動狀態(例如,用戶不動、步行、駕駛中)、用戶的可行性狀態(如用戶的日程表或相似應用中所指示的)、以及通信裝置的配置(例如,連接的輸入/輸出裝置)。
[0026]如果音頻交互模式是被允許的/可用的,則可以在該裝置或者服務器上將所接收的基于文本的消息經由文本轉語音轉換而轉換成音頻內容(356),并且向用戶播放音頻消息(358)。在完成消息的播放后,該裝置/應用可以使用選項提示用戶(360),所述選項例如是記錄響應消息,發起音頻呼叫(或者視頻呼叫),或者執行類似的動作。例如,用戶可以請求,將經由音頻提供發送者的聯系人詳情,或者回放一連串消息中的早期消息。還可以在消息的開始或結尾向用戶播放發送者的名字和/或標識符(例如電話號碼)。
[0027]在向用戶播放選項后,該裝置/應用可以切換到收聽模式,并且等待來自該用戶的音頻輸入。當接收到用戶的響應時,可以對所接收的音頻輸入執行語音識別(362),并且基于用戶的響應,可以執行諸如給發送者打電話(364)、答復文本消息(366)或者其它動作(368)之類的許多動作之一。類似于圖2中的操作流程,在與用戶進行音頻交互期間,可以顯示可視化提示,例如圖標、文本、顏色警告等。
[0028]可以完全地自動化操作流程200和300中的交互,以允許用戶經由自然語言或者提示來提供音頻輸入(例如,該裝置在各個階段提供音頻提示)。此外,還可以在交互的不同階段采用實體交互(實體或虛擬按鍵的按壓、文本提示等)。此外,在記錄了那些(跟著可選回放)之后,還可以向用戶提供編輯輸出消息的選項。
[0029]過程200和300中包括的操作是為了說明性的目的。還可以通過具有更少或附加步驟的類似過程,以及按使用本文所述原理的操作的不同順序來實施音頻交互的消息交換。
[0030]圖4圖示了用于促進通信的便攜式計算裝置的示例用戶界面。如以上所討論的,可以在促進通信的任何裝置中實施用于文本消息傳送的音頻交互。圖300中所圖示的用戶界面僅僅是移動通信裝置的示例用戶界面。實施例不限于以上所討論的這個示例用戶界面或者其它用戶界面。
[0031]示例移動通信裝置除了諸如按鍵、按鈕、操作鍵等之類的多個實體控制元件之外,還可以包括揚聲器472和麥克風。這種裝置還可以包括照相機474或可以結合不同通信形式使用的類似的輔助裝置。示例用戶界面顯示日期和時間以及用于諸如電話應用476、消息傳送應用478、照相機應用480、文件組織應用482和web瀏覽器484之類的不同應用的許多圖標。用戶界面還可以包括許多虛擬按鍵(未示出),比如用于打電話的雙音多頻(DTMF)操作鍵。
[0032]在示例用戶界面的底部,示出了與消息傳送應用相關聯的圖標和文本。例如,可以與關于消息488的文本提示以及附加圖標490 (例如,指示消息類型、發送者的存在狀態等)一起,顯示所接收的消息的發送者的圖像(或者代表圖標)486。
[0033]在該處理的不同階段,該通信裝置/應用的用戶界面還可以將視覺反饋提供給用戶。例如,可以顯示附加的圖標和/或文本,以指示正在執行的動作或其結果(例如,指示在進行中的語音識別的動態圖標或者確認圖標/文本)。
[0034]還可以配備通信裝置,以確定是否應該/可以使用音頻交互模式。如以上所討論的,基于全球定位服務系統(GPS)信息、蜂窩塔三角測量、無線數據網絡節點檢測、指南針、和加速度傳感器、將照相機輸入匹配到已知的地理位置照片以及類似的方法,位置和/或運動確定系統可以檢測用戶是否正在移動(例如,在車里)。另一種方法可以包括,確定用戶的位置(例如,會議室或者公共場所),并基于此激活音頻交互。類似地,諸如來自日程表應用或者當前執行的應用的關于用戶的信息可被用于確定對于音頻交互而言的用戶可行性。
[0035]可以經由諸如桌面型計算機、膝上型計算機、筆記本之類的任何計算裝置;諸如智能電話、手持式計算機、無線個人數字助理(PDA)、蜂窩電話、車載計算裝置以及類似裝置之類的移動裝置,來促進采用音頻交互的通信。
[0036]可以使用不同的硬件模塊、軟件模塊或者硬件與軟件的組合實施在圖1至4中所討論的不同過程和系統。此外,這樣的模塊可以按照整體的方式執行這些過程的兩個或更多個。雖然已經用音頻交互的消息交換的具體示例提供了一些實施例,但是實施例并不限于這些。實際上,可以在使用各種通信裝置和應用的各種通信系統中并且利用使用本文所描述的原理的附加或更少的部件,來實施實施例。
[0037]圖5是可以在其中實施實施例的示例聯網環境。可以通過在諸如托管服務器的一個或多個服務器514上執行的軟件來實施用于提供具有音頻交互消息交互的通信服務的平臺。該平臺可以通過(多個)網絡510與諸如智能電話511、蜂窩電話512或相似裝置(“客戶端裝置”)之類的個人移動裝置上的客戶端應用進行通信。
[0038]在客戶端裝置511-512中的任一個之上執行的客戶端應用可以與托管服務進行交互,該托管服務提供來自服務器514或在個體服務器516上的通信服務。該托管服務可以提供多模通信服務以及輔助服務,例如存在、位置等。作為多模服務的一部分,可以在用戶之間使用如上所述的音頻交互作用來促進文本消息交換。可以在更多的服務器514或服務器516中的一個上執行諸如語音識別或者文本轉語音轉換之類的與音頻交互作用相關聯的處理中的一部分或全部。可以直接地或者經由數據庫服務器518、在數據存儲器519上存儲和/或者從數據存儲器519取回諸如語音識別、文本轉語音轉換、聯系人信息和類似數據之類的有關數據。
[0039](多個)網絡510可以包括服務器、客戶端、因特網服務提供商以及通信介質的任何拓撲。根據實施例的一種系統可以具有靜態或動態拓撲。(多個)網絡510可以包括諸如企業網絡之類的安全網絡、諸如無線開放網絡之類的不安全網絡、或者因特網。(多個)網絡510還可以包括(尤其在服務器和移動裝置之間的)蜂窩網絡。此外,(多個)網絡510可以包括諸如藍牙或類似網絡的近距離無線網絡。(多個)網絡510提供本文所描述的節點之間的通信。作為示例而非限制,(多個)網絡510可以包括諸如聲學、RF、紅外線以及其它無線介質之類的無線介質。
[0040]可以采用計算裝置、應用、數據源以及數據分發系統的許多其它配置來實施用于提供音頻交互消息交換服務的平臺。此外,圖5中所討論的聯網環境僅僅用于說明性的目的。實施例不限于示例的應用、模塊或過程。
[0041]圖6和相關聯的討論旨在提供可以在其中實施實施例的適當計算環境的簡要的、一般性描述。參照圖6,圖示了根據實施例的用于應用的示例計算操作環境的框圖,例如計算裝置600。在一種基本配置中,計算裝置600可以是能夠促進多模通信的移動計算裝置,所述多模通信包括根據實施例的、使用音頻交互的文本消息交換,計算裝置600包括至少一個處理單元602和系統存儲器604。計算裝置600還可以包括在執行程序方面合作的多個處理單元。根據計算裝置的確切配置和類型,系統存儲器604可以是易失性的(例如RAM)、非易失性的(例如ROM、閃存等)或者二者的某種組合。系統存儲器604典型地包括適于控制平臺的操作的操作系統605,例如來自華盛頓州雷蒙德的微軟公司的WINDOWS MOBILE?、WINDOWS PHONE?或類似操作系統,或類似的操作系統。系統存儲器604還可以包括一個或多個軟件應用,例如程序模塊606、通信應用622和音頻交互模塊624。
[0042]通信應用622可以實現包括文本消息傳送的多模通信。音頻交互模塊624可以向用戶播放輸入消息,并且使用戶通過音頻輸入使用答復消息對發送者作出響應,該音頻輸入經由語音識別、文本轉語音(TTS)和檢測算法的組合。通信應用622還可能向用戶提供按照不同通信模式(例如,呼叫)作出響應或者執行其它動作的選項。音頻交互模塊624可以進一步使用戶使用自然語言發起消息交互。在圖6中通過虛線608內的那些組件圖示了這一基本配置。
[0043]計算裝置600可以具有附加的部件或功能。例如,計算裝置600還可以包括附加的數據存儲裝置(可移除的或不可移除的),例如,例如,磁盤、光盤或帶子。在圖6中通過可移除存儲設備609和不可移除存儲設備610圖示了這樣的附加存儲設備。計算機可讀存儲介質可以包括按照任何方法或技術實施的用于存儲諸如計算機可讀指令、數據結構、程序模塊或其它數據之類的信息的易失性和非易失性、可移除和不可移除的介質。系統存儲器604、可移除存儲設備609和不可移除存儲設備610全都是計算機可讀存儲介質的示例。計算機可讀存儲介質包括但不限于RAM、ROM、EEPR0M、閃存或其它存儲器技術、CD-ROM、數字通用盤(DVD)或其它光學存儲設備、磁帶、磁盤存儲設備或其它磁存儲裝置、或者可以被用來存儲所期望的信息并且可以由計算裝置600訪問的任何其它介質。任何這樣的計算機可讀介質可以是計算裝置600的一部分。計算裝置600還可以具有(多個)輸入裝置612,比如鍵盤、鼠標、筆、語音輸入裝置、觸摸輸入裝置以及類似的輸入裝置。還可以包括諸如顯示器、揚聲器、打印機以及其它類型的輸出裝置之類的(多個)輸出裝置614。這些裝置是本領域內所公知的,且這里不需要詳細討論。
[0044]計算設備600還可以包含通信連接616,其允許裝置比如通過分布式計算環境中的有線或無線網絡、衛星鏈路、蜂窩鏈路、近距離網絡以及類似的機制與其它裝置618進行通信。其它裝置618可以包括執行通信應用的(多個)計算機裝置、其它服務器以及類似的裝置。(多個)通信連接616是通信介質的一個示例。通信介質可以在其中包括計算機可讀指令、數據結構、程序模塊或其它數據。作為示例而非限制,通信介質包括諸如有線網絡或直接連線連接之類的有線介質,以及諸如聲學、RF、紅外線和其它無線介質之類的無線介質。
[0045]上面的說明書、示例和數據提供了實施例的組成的制造和使用的全面描述。雖然已經以特定于結構特征和/或方法動作的語言描述了主題,但是應當理解的是,在所附權利要求中限定的主題不一定受限于前面所描述的具體特征或動作。更確切地,上述的具體特征和動作作為實施權利要求和實施例的示例形式而被公開。
【權利要求】
1.一種至少部分地在用于促進音頻交互的消息交換的計算裝置中執行的方法,所述方法包括: 接收來自用戶的指示以發送消息; 使所述用戶經由音頻輸入提供所述消息的接受者以及所述消息的音頻內容; 對所接收的音頻輸入執行語音識別; 確定來自語音識別的音頻輸入的接受者;以及, 將所述消息的語音識別的內容作為基于文本的消息傳送到所述接受者。
2.如權利要求1所述的方法,還包括: 接收來自發送者的基于文本的消息; 通過文本轉語音轉換,從所接收的消息產生音頻內容; 向所述用戶播放所述音頻內容; 向用戶提供與所播放的音頻內容相關聯的至少一個選項;以及 響應于接收到來自所述用戶的另一音頻輸入,執行與所述至少一個選項相關聯的動作。
3.如權利要求2所述的方法,還包括: 使所述用戶提供指示以發送基于文本的消息,并且所述音頻輸入使用自然語言。
4.如權利要求2所述的方法,還包括: 在接收到所述音頻輸入后,回放所接收的音頻輸入;以及 使得用戶執行以下項之一:編輯所提供的音頻輸入和確認所提供的音頻輸入。
5.如權利要求2所述的方法,其中,所述動作包括來自以下組的一個:發起與所述發送者的音頻通信會話,發起與所述發送者的視頻通信會話,用基于文本的消息進行答復,回放先前的消息,以及提供與所述發送者相關聯的信息。
6.一種能夠促進音頻交互的消息交換的計算裝置,所述計算裝置包括: 通信模塊; 音頻輸入/輸出模塊; 存儲器;以及 處理器,與所述通信模塊、所述音頻輸入/輸出模塊以及所述存儲器相耦合,所述處理器適于執行如下配置的通信應用: 接收來自發送者的基于文本的消息; 通過文本轉語音轉換,從所接收的消息產生音頻內容; 向所述用戶播放所述音頻內容以及與所述發送者相關聯的名字和標識符中的一個; 向用戶提供與所播放的音頻內容相關聯的至少一個選項;以及 響應于接收到來自所述用戶的音頻輸入,執行與所述至少一個選項相關聯的動作。
7.如權利要求6所述的計算裝置,其中,所述通信應用還被配置為: 接收來自所述用戶的音頻指示,以發送基于文本的消息; 使所述用戶經由自然語言輸入提供所述基于文本的消息的接受者以及所述消息的音頻內容; 對所接收的輸入執行語音識別; 使所述用戶通過回放所接收的輸入來執行確認和編輯所述消息中的一個;從所述輸入的語音識別的內容確定所述接受者;以及 將所述基于文本的消息的語音識別的內容傳送給所述接受者。
8.如權利要求6所述的計算裝置,還包括顯示器,其中,所述通信應用還被配置為,經由所述顯示器向所述用戶提供視覺反饋,其包括代表與音頻交互的消息交換相關聯的操作的文本、圖形、動態圖形和圖標中的至少一個。
9.一種在其上存儲有用于促進音頻交互的消息交換的指令的計算機可讀存儲介質,所述指令包括: 基于促進消息交換的通信裝置的設置、用戶的位置、用戶的狀態和用戶輸入這一組中的至少一個自動地激活音頻交互模式; 接收來自用戶的音頻指示,以發送基于文本的消息; 使所述用戶經由自然語言輸入提供所述基于文本的消息的接受者以及所述消息的音頻內容; 對所接收的輸入執行語音識別; 從所述輸入的語音識別的內容確定所述接受者; 將所述消息的語音識別的內容作為基于文本的消息傳送給所述接受者; 接收來自發送者的基于文本的消息; 通過文本轉語音轉換,從所接收的消息產生音頻內容; 向所述用戶播放所述音頻內容; 向用戶提供與所播放的音頻內容相關聯的至少一個選項;以及 響應于接收到來自所述用戶的另一音頻輸入,執行與所述其它音頻輸入相關聯的動作。
10.如權利要求9所述的計算機可讀介質,其中,所述用戶的狀態包括以下組中的至少一個:用戶的移動狀態、用戶的可行性狀態、通信裝置的位置、和通信裝置的配置。
【文檔編號】G10L13/00GK103443852SQ201280016476
【公開日】2013年12月11日 申請日期:2012年4月2日 優先權日:2011年4月7日
【發明者】L.艾哈拉, S.蘭德里, L.斯蒂費爾曼, M.錢塔昆塔, A.薩利文, K.李 申請人:微軟公司