即時語音通信終端、服務器、系統和即時語音通信方法

文檔序號：7974894閱讀：256來源：國知局

專利名稱：即時語音通信終端、服務器、系統和即時語音通信方法
技術領域：
本發明涉及即時通信(IM，Instant Messaging)技術領域，更具體地說，本發明涉及一種即時語音通信終端、服務器、系統和即時語音通信方法。
背景技術：
即時通信服務是一種基于互聯網(Internet)的通信服務，一般以實現網絡上即時通信功能為主。目前，即時通信服務已經在互聯網上得到了廣泛的應用和認可，即時通信服務可以通過即時通信系統來實現。即時通信系統以速度快、功能豐富、使用穩定等優點而獲得了廣大網民的認可和喜愛。在現有的即時通信服務中，用戶之間可以通過即時通信系統進行文字信息的交互、傳送文件、發送手機短消息等多種操作。
圖1所示為現有技術的即時通信系統的結構圖。如圖1所示，即時通信系統包括即時通信客戶端和即時通信服務器，用戶首先在即時通信客戶端登錄即時通信服務器，然后通過即時通信服務器獲取用戶自身和其它用戶的信息，并且和其它客戶端進行信息交互。當用戶之間的連接比較穩定時，用戶之間的信息通過用戶數據報協議(UDP)的形式而互相傳送，當用戶之間的連接不穩定時，用戶之間的信息通過即時通信服務器進行中轉。
目前即時通信的具體交流方式一般包括文本交互、雙方真人語音聊天、視頻交互等。
同文本聊天相比較，真人語音聊天能夠使聊天雙方更直接地交流，同時也省去了聊天雙方的打字之苦。不過真人語音聊天也具有交流過于直接的缺點。實質上，聊天中的某一方(或雙方)在很多情況下(比如考慮到個人隱私問題)，并不希望對方能聽到自己的真實嗓音，但是他們也非常希望能夠逼真地模擬現實世界的聊天場景進行交流，然而這種需求卻一直沒有合適的解決方案。

發明內容
有鑒于此，本發明的主要目的是提出一種即時語音通信終端，以在即時通信中利用語音形式播放用戶輸入的文本信息，從而逼真地模擬現實世界的聊天場景。
本發明的另一目的是提出一種即時語音通信服務器，以在即時通信中利用語音形式播放用戶輸入的文本信息，從而逼真地模擬現實世界的聊天場景。
本發明的再一目的是提出一種即時語音通信系統，以在即時通信中利用語音形式播放用戶輸入的文本信息，從而逼真地模擬現實世界的聊天場景。
本發明的又一目的是提出一種即時語音通信方法，以在即時通信中利用語音形式播放用戶輸入的文本信息，從而逼真地模擬現實世界的聊天場景。
為達到上述目的，本發明的技術方案是這樣實現的一種即時語音通信終端，其通過即時通信連接與即時通信系統相連接，該即時語音通信終端包括文本輸入模塊、語音合成模塊和即時通信模塊，其中文本輸入模塊，用于接收文本輸入，并將所述文本輸入發送到語音合成模塊；語音合成模塊，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊；即時通信模塊，用于通過該即時通信連接將所述語音信號發送到所述即時通信系統。
該終端進一步包括語音播放模塊，所述語音播放模塊，用于播放由所述語音合成模塊合成的語音信號，和/或播放由其它即時語音通信終端發送來的語音信號。
一種即時語音通信服務器，其通過即時通信連接與即時通信客戶端相連接，該即時語音通信服務器包括即時通信模塊和語音合成模塊，其中即時通信模塊，用于通過該即時通信連接接收由即時通信客戶端發送來的文本輸入，將所述文本輸入發送到語音合成模塊，并用于將由該語音合成模塊合成的語音信號通過該即時通信連接發送到即時通信客戶端；語音合成模塊，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊。
一種即時語音通信系統，該系統包括即時通信發送客戶端和即時通信接收客戶端，其中即時通信發送客戶端，用于接收文本輸入，將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端；即時通信接收客戶端，用于播放所述語音信號。
即時通信發送客戶端，進一步用于將所述文本輸入發送到即時通信接收客戶端；即時通信接收客戶端，進一步用于同步于語音播放顯示所述文本輸入。
該系統進一步包括即時通信服務器，所述即時通信服務器，用于中轉即時通信發送客戶端和即時通信接收客戶端之間的語音信號。
一種即時語音通信系統，該系統包括即時通信發送客戶端、即時通信服務器和即時通信接收客戶端，其中即時通信發送客戶端，用于接收文本輸入，將文本輸入發送到即時語音通信服務器；即時語音通信服務器，用于將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端；即時通信接收客戶端，用于播放所述語音信號。
即時通信發送客戶端，進一步用于將所述文本輸入發送到即時通信服務器；即時通信服務器，進一步用于將所述文本輸入轉發到即時通信接收客戶端；
即時通信接收客戶端，進一步用于同步于語音播放顯示所述文本輸入。
一種即時語音通信方法，該方法包括A、接收文本輸入；B、將文本輸入轉換為語音信號；C、通過即時通信連接發送所述語音信號。
步驟A所述接收文本輸入為即時語音通信服務器接收由即時通信發送客戶端所發送的文本輸入，所述步驟B由該即時語音通信服務器執行；所述步驟C包括即時語音通信服務器通過即時通信連接，發送所述語音信號到即時通信接收客戶端。
步驟A所述接收文本輸入為即時通信發送客戶端接收文本輸入，所述步驟B由該即時通信發送客戶端執行；所述步驟C包括即時通信發送客戶端通過即時通信連接，發送所述語音信號到即時通信接收客戶端。
從上述技術方案中可以看出，在本發明所提出的即時語音通信終端中，包括文本輸入模塊、語音合成模塊和即時通信模塊，其中文本輸入模塊，用于接收文本輸入，并將文本輸入發送到語音合成模塊；語音合成模塊，用于將文本輸入轉換為語音信號，并將語音信號發送到即時通信模塊；即時通信模塊，用于通過該即時通信連接將語音信號發送到所述即時通信系統。由此可見，應用本發明以后，在即時通信的交互過程中，利用了成熟的語音合成技術來實現合成文本，從而能夠在即時通信中利用語音形式播放用戶輸入的文本信息，從而更逼真地模擬現實世界的聊天場景，給用戶帶來更好的交流體驗。
另外，本發明的具體實施中，可以由服務器或者本地計算機終端來執行語音合成。如果采用服務器執行語音合成，用戶個人計算機負荷將會降低，如果采用本地計算機來執行語音合成，服務器負荷將會降低。因此，可以根據成本考慮、性能需求等具體應用情形來執行本發明，所以本發明的應用選擇性也非常好。

圖1為現有技術的即時通信系統的結構圖；圖2為根據本發明的即時語音通信客戶端的示范性結構示意圖；圖3為根據本發明的即時語音通信服務器的示范性結構示意圖；圖4為根據本發明第一實施例的即時語音通信系統示范性結構示意圖；圖5為根據本發明第二實施例的即時語音通信系統示范性結構示意圖；圖6為根據本發明即時語音通信方法流程圖。
具體實施例方式
為使本發明的目的、技術方案和優點表達得更加清楚明白，下面結合附圖及具體實施例對本發明再作進一步詳細的說明。
本發明的主要思想是在即時通信文本交互過程中，利用語音合成技術來實現合成文本，從而能夠在即時通信中利用語音形式播放用戶輸入的文本信息。具體地，本發明可以由網絡服務器或者本地計算機終端來執行語音合成。
圖2為根據本發明的即時語音通信客戶端的示范性結構示意圖。其中，該即時語音通信終端200與即時通信系統(圖中未示出)相連接，用于聊天用戶之間的即時通信信息的發送、處理和接收。
如圖2所示，該即時語音通信終端200包括文本輸入模塊201、語音合成模塊202和即時通信模塊203；其中文本輸入模塊201，用于接收文本輸入，并將所述文本輸入發送到語音合成模塊202；語音合成模塊202，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊203；即時通信模塊203，用于通過該即時通信連接將所述語音信號發送到所述即時通信系統。
具體地，文本輸入模塊201可以是即時通信終端所通常采用的文本框，用戶可以在文本框中輸入文本格式的信息。
語音合成模塊202，用于對由文本輸入模塊201接收到的文本輸入執行語音合成。語音合成模塊202可以采用語音合成技術對文本輸入執行語音合成。
語音合成又稱文語轉換(Text to Speech)技術，它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息，也即讓機器像人一樣開口說話。
語音合成與傳統的聲音回放設備(系統)有著本質的區別。傳統的聲音回放設備(系統)，如磁帶錄音機，是通過預先錄制聲音然后回放來實現“讓機器說話”的。這種方式無論是在內容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制，而通過計算機語音合成則可以在任何時候將任意文本轉換成具有高自然度的語音，從而真正實現讓機器“像人一樣開口說話”。
語音合成技術實際上可以看作是一種人工智能技術。為了合成出高質量的語言，除了依賴于各種規則，包括語義學規則、詞匯規則、語音學規則外，還必須對文字的內容有很好的理解，這也涉及到自然語言理解的問題。
文語轉換過程是先將文字序列轉換成音韻序列，再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理，例如分詞、字音轉換等，以及一整套有效的韻律控制規則；第二步需要先進的語音合成技術，能按要求實時合成出高質量的語音流。
因此，一般說來，文語轉換系統都需要一套復雜的文字序列到音素序列的轉換程序，也就是說，文語轉換系統不僅要應用數字信號處理技術，而且必須有大量的語言學知識的支持。
本發明的語音合成模塊202正是可以采用上述技術來實現語音合成。
以上雖然具體闡述了具體常見的語音合成技術，但是本領域技術人員可以意識到，以上舉例僅為示范性的，并不用于限定本發明。實質上，語音合成模塊202可以具體應用任意類型的語音合成技術，本發明對此并無限定。
優選地，即時語音通信終端201還可以進一步包括語音播放模塊。所述語音播放模塊，用于播放由所述語音合成模塊201所合成的語音信號，和/或播放由其它即時語音通信終端發送來的語音信號。當語音播放模塊用于播放由語音合成模塊201所合成的語音信號時，語音播放模塊可以直接與語音合成模塊202連接。當語音播放模塊用于播放由其它即時語音通信終端發送來的語音信號時，語音播放模塊可以直接與即時通信模塊203連接。
可見，加入了語音播放模塊的即時語音通信客戶端200，當用戶在即時語音通信終端201輸入文本的時候，可以自身聽到所輸入的文本，從而帶來全新的個性體驗。不僅與此，即時語音通信終端201還可以播放由其它即時語音通信終端所合成的語音信號，從而聊天雙方都能夠播放語音，因此真正實現了雙方的語音聊天。
在本發明的實施中，既可以由即時通信客戶端來執行對文本的語音合成，也可以由即時通信服務器來執行對文本的語音合成。
相應地，本發明還提出了一種即時語音通信服務器，該即時語音通信服務器通過即時通信連接與即時通信客戶端(未示出)相連接。
圖3為根據本發明的即時語音通信服務器的示范性結構示意圖。
如圖3所示，該服務器300包括即時通信模塊301，用于通過該即時通信連接接收由即時通信客戶端發送來的文本輸入，將所述文本輸入發送到語音合成模塊302，并用于將由該語音合成模塊302合成的語音信號通過該即時通信連接發送到即時通信客戶端；語音合成模塊302，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊301。
類似地，即時語音通信服務器300中的語音合成模塊302可以采用類似于圖2即時語音通信終端200所采用的語音合成技術，或者采用其它類似語音合成技術。語音合成技術已是較為成熟的技術，本發明對此并不累述，同樣本發明對語音合成也無限定。
基于上述分析，下面描述本發明所提出的即時語音通信系統。在各種實施例中，既可以由服務器端來執行語音合成，也可以由即時通信客戶端本地來執行語音合成。
圖4為根據本發明第一實施例的即時語音通信系統示范性結構示意圖。在這種方式中，由即時通信客戶端本地來執行語音合成。這種方式適合用戶之間的點對點交互，或者經由服務器中轉語音數據，但是服務器僅負責轉發語音數據，不對語音數據作任何處理。
如圖4所示，該系統400包括即時通信發送客戶端401和即時通信接收客戶端402，即時通信發送客戶端401和即時通信接收客戶端402通過即時通信連接相通信，其中即時通信發送客戶端401，用于接收文本輸入，將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端402；即時通信接收客戶端402，用于播放所述語音信號。
具體地，即時通信發送客戶端401包括文本輸入模塊4011、語音合成模塊4012和即時通信模塊4013，其中文本輸入模塊4011，用于接收文本輸入，并將所述文本輸入發送到語音合成模塊4012；語音合成模塊4012，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊4013；即時通信模塊4013，用于通過該即時通信連接將所述語音信號發送到即時通信接收客戶端402。
即時通信發送客戶端401還可以包括語音播放模塊，用于播放由所述語音合成模塊4012合成的語音信號，和/或播放由其它即時語音通信終端發送來的語音信號。
具體地，即時通信接收客戶端402包括語音播放模塊4021、即時通信模塊4022，其中即時通信模塊4022，用于通過即時通信連接接收由即時通信發送客戶端401所發送來的語音信號，并將該語音信號發送到語音播放模塊4021；語音播放模塊4021，用于播放語音信號。
優選地，即時通信接收客戶端402在播放語音的同時，還在本地相應窗口顯示出對應于語音的文本輸入，以免語音模糊不清楚等語音造成誤解。此時，即時通信發送客戶端401，進一步用于將所述文本輸入發送到即時通信接收客戶端402；即時通信接收客戶端402，進一步用于同步于語音播放顯示所述文本輸入。
在該實施例的一種具體實施形式中，即時通信發送客戶端401和即時通信接收客戶端402可以采用相同的結構。具體為即時通信發送客戶端401和即時通信接收客戶端402都包括文本輸入模塊、語音合成模塊、即時通信模塊和語音播放模塊，從而即時通信發送客戶端401和即時通信接收客戶端402可以在聊天中分別執行語音合成和語音播放功能，從而聊天雙方具有相同的地位，都能夠合成語音和聆聽對方的語音。
該系統還可以進一步包括即時通信服務器，用于當即時通信發送客戶端401和即時通信接收客戶端402不能直接互連時，中轉即時通信發送客戶端401和即時通信接收客戶端402之間的語音信號。
圖5為根據本發明第二實施例的即時語音通信系統示范性結構示意圖。這種方式適合于用戶通過服務器進行交互。這種方式對服務器的要求較高，服務器的語音合成模塊應該能做到實時處理，而且所有的端到端通信必須都經過服務器中轉，這種方式的優點是用戶個人計算機的即時通信終端負荷小。
如圖5所示，該系統包括即時通信發送客戶端501、即時通信服務器502和即時通信接收客戶端503，其中即時通信發送客戶端501，用于接收文本輸入，將文本輸入發送到即時通信服務器502；即時通信服務器502，用于將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端503；即時通信接收客戶端503，用于播放所述語音信號。
具體地，即時通信發送客戶端501包括即時通信模塊5011和語音播放模塊5012。即時通信模塊5011，用于將獲取的文本輸入通過即時通信連接發送到即時通信服務器502中的即時通信模塊5021；語音播放模塊5012，用于播放由即時通信服務器502發送來的語音信號。
即時通信服務器502包括即時通信模塊5021和語音合成模塊5022。其中，即時通信模塊5021，用于利用即時通信連接，分別接收由即時通信發送客戶端501和即時通信接收客戶端503發送來的文本輸入，并轉發到由語音合成模塊5022合成的語音信號，和/或文本輸入到相應對應接收對端。語音合成模塊5022，用于對即時通信模塊5021發送來的文本輸入執行語音合成。
優選地，即時通信接收客戶端503可以和即時通信發送客戶端501具有相同的結構。類似地，即時通信接收客戶端503也能夠向即時通信服務器502發送文本輸入，并播放由即時通信服務器502所合成的語音，從而構成和即時通信發送客戶端501平等的通信地位。
本發明還公開了一種即時語音通信方法。圖6為根據本發明即時語音通信方法流程圖。如圖6所示，該方法包括步驟601接收文本輸入。
在這里，具體可以實施為由即時通信服務器來接收即時通信發送客戶端所發送的文本輸入，還可以實施為由即時通信發送客戶端來接收文本輸入。
步驟602將文本輸入轉換為語音信號。
步驟603通過即時通信連接發送所述語音信號。
以上過程中，將文本輸入轉換為語音信號可以由即時通信服務器來執行，也可以由即時通信發送客戶端執行。
當即時語音通信服務器接收由即時通信發送客戶端所發送的文本輸入時，該即時語音通信服務器執行語音轉換操作，此時即時語音通信服務器通過即時通信連接發送所述語音信號到即時通信接收客戶端。
當由即時通信發送客戶端接收文本輸入時，該即時通信發送客戶端執行語音轉換操作，此時即時通信發送客戶端通過即時通信連接發送所述語音信號到即時通信接收客戶端。
優選地，還可以將文本輸入的傳送應用到該方法流程中。此時，對應于圖3的優選實施例，也就是由即時通信服務器執行語音轉換操作，該方法可以具體包括如下流程假設有即時通信終端A和即時通信終端B。首先，即時通信終端A將用戶輸入的文本信息發送到即時語音通信服務器；然后，即時語音通信服務器將收到的文本信息送到自身的語音合成模塊，即時語音通信服務器的語音合成模塊對文本信息進行處理，并將語音包回送到網絡服務器的通信及管理模塊將語音包回送給即時通信終端A，同時將語音包和文本信息包一起發送給正在與A交互的即時通信終端B。
即時通信終端A收到語音包，送到語音播放模塊播放。即時通信終端B收到文本包和語音包后，將文本信息在相應即時通信窗口顯示，語音包送到自身的語音播放模塊播放。
可以理解即時通信終端B發送文本信息給即時通信終端A的處理過程類似。
對應于圖4的優選實施例，也就是由即時通信終端本地執行語音轉換操作，該方法可以具體包括如下流程假設有即時通信終端A和即時通信終端B。首先，即時通信終端A將用戶輸入的文本信息送到本地的語音合成模塊，語音合成模塊將合成的語音包送給即時通信終端A，即時通信終端A將語音包送到本地的語音播放模塊進行播放和將文本信息在本地相應窗口顯示。同時，即時通信終端A通過直連或者服務器中轉將語音包和文本包一起發送給即時通信終端B，即時通信終端B將收到的語音包送到自身的語音播放模塊進行播放，文本信息在B端相應窗口顯示。
可以理解與服務器合成相比，即時通信終端本地執行語音合成對個人計算機的要求較高。
其中，上述的各種語音合成模塊可以處于即時通信終端的內部，也可以作為插件的形式提供。
以上所述，僅為本發明的較佳實施例而已，并非用于限定本發明的保護范圍。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護范圍之內。
權利要求
1.一種即時語音通信終端，其通過即時通信連接與即時通信系統相連接，其特征在于，該即時語音通信終端包括文本輸入模塊、語音合成模塊和即時通信模塊，其中文本輸入模塊，用于接收文本輸入，并將所述文本輸入發送到語音合成模塊；語音合成模塊，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊；即時通信模塊，用于通過該即時通信連接將所述語音信號發送到所述即時通信系統。
2.根據權利要求1所述的即時語音通信終端，其特征在于，該終端進一步包括語音播放模塊，所述語音播放模塊，用于播放由所述語音合成模塊合成的語音信號，和/或播放由其它即時語音通信終端發送來的語音信號。
3.一種即時語音通信服務器，其通過即時通信連接與即時通信客戶端相連接，其特征在于，該即時語音通信服務器包括即時通信模塊和語音合成模塊，其中即時通信模塊，用于通過該即時通信連接接收由即時通信客戶端發送來的文本輸入，將所述文本輸入發送到語音合成模塊，并用于將由該語音合成模塊合成的語音信號通過該即時通信連接發送到即時通信客戶端；語音合成模塊，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊。
4.一種即時語音通信系統，其特征在于，該系統包括即時通信發送客戶端和即時通信接收客戶端，其中即時通信發送客戶端，用于接收文本輸入，將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端；即時通信接收客戶端，用于播放所述語音信號。
5.根據權利要求4所述的即時語音通信系統，其特征在于，即時通信發送客戶端，進一步用于將所述文本輸入發送到即時通信接收客戶端；即時通信接收客戶端，進一步用于同步于語音播放顯示所述文本輸入。
6.根據權利要求4所述的即時語音通信系統，其特征在于，該系統進一步包括即時通信服務器，所述即時通信服務器，用于中轉即時通信發送客戶端和即時通信接收客戶端之間的語音信號。
7.一種即時語音通信系統，其特征在于，該系統包括即時通信發送客戶端、即時通信服務器和即時通信接收客戶端，其中即時通信發送客戶端，用于接收文本輸入，將文本輸入發送到即時語音通信服務器；即時語音通信服務器，用于將文本輸入轉換為語音信號，并將所述語音信號發送到即時通信接收客戶端；即時通信接收客戶端，用于播放所述語音信號。
8.根據權利要求7所述的即時語音通信系統，其特征在于，即時通信發送客戶端，進一步用于將所述文本輸入發送到即時通信服務器；即時通信服務器，進一步用于將所述文本輸入轉發到即時通信接收客戶端；即時通信接收客戶端，進一步用于同步于語音播放顯示所述文本輸入。
9.一種即時語音通信方法，其特征在于，該方法包括A、接收文本輸入；B、將文本輸入轉換為語音信號；C、通過即時通信連接發送所述語音信號。
10.根據權利要求9所述的即時語音通信方法，其特征在于，步驟A所述接收文本輸入為即時語音通信服務器接收由即時通信發送客戶端所發送的文本輸入，所述步驟B由該即時語音通信服務器執行；所述步驟C包括即時語音通信服務器通過即時通信連接，發送所述語音信號到即時通信接收客戶端。
11.根據權利要求9所述的即時語音通信方法，其特征在于，步驟A所述接收文本輸入為即時通信發送客戶端接收文本輸入，所述步驟B由該即時通信發送客戶端執行；所述步驟C包括即時通信發送客戶端通過即時通信連接，發送所述語音信號到即時通信接收客戶端。
全文摘要
本發明公開了一種即時語音通信終端，其通過即時通信連接與即時通信系統相連接，該即時語音通信終端包括文本輸入模塊、語音合成模塊和即時通信模塊，其中文本輸入模塊，用于接收文本輸入，并將所述文本輸入發送到語音合成模塊；語音合成模塊，用于將所述文本輸入轉換為語音信號，并將所述語音信號發送到即時通信模塊；即時通信模塊，用于通過該即時通信連接將所述語音信號發送到所述即時通信系統。本發明還公開了即時語音通信服務器、系統以及即時語音通信方法。應用本發明以后，能夠在即時通信中利用語音形式播放用戶輸入的文本信息，從而更逼真地模擬現實世界的聊天場景，帶來更好的交流體驗。
文檔編號H04L12/28GK101075983SQ20061016800
公開日2007年11月21日申請日期2006年12月15日優先權日2006年12月15日
發明者呂靜申請人:騰訊科技(深圳)有限公司

完整全部詳細技術資料下載