聲音處理系統(tǒng)以及終端裝置制造方法
【專利摘要】本發(fā)明提供一種能夠提高聲音識別的精度且用戶容易利用的聲音處理系統(tǒng)。聲音處理系統(tǒng)如果接受了講話聲音,則進行聲音識別,并顯示識別結(jié)果的文本(158)。聲音處理系統(tǒng)進一步按照設(shè)定來將該識別結(jié)果翻譯成其他語言的文本(176)后進行顯示,并且產(chǎn)生其合成聲音。聲音處理系統(tǒng)進一步使用講話時的各種傳感器的輸出、預先完成學習的講話連續(xù)模型、講話候補的翻譯以及聲音識別得分,選擇作為下一次講話講出的概率高且翻譯以及聲音識別得分也高的講話候補,作為講話候補推薦列表(192)來進行推薦。用戶能夠以該講話候補推薦列表(192)內(nèi)的講話作為啟發(fā),考慮下一次講話。
【專利說明】聲音處理系統(tǒng)以及終端裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及使用了聲音識別的服務(wù),特別涉及戶能夠順暢地進行使用了聲音識別的交流的技術(shù)。
【背景技術(shù)】
[0002]伴隨著移動電話特別是所謂智能電話的普及,出現(xiàn)了各種應(yīng)用程序。其中,在輸入中使用聲音的應(yīng)用程序被認為在今后會進一步得到普及。這是因為在智能手機這樣小的裝置中存在難以進行文本輸入問題。
[0003]在輸入中使用聲音的應(yīng)用程序之中,若是僅朗讀“是/否(?: U / tUl ) ”等顯示于畫面的字符串的應(yīng)用程序,用戶不會對應(yīng)當說什么而感到迷茫。但是,在例如如聲音翻譯這樣將聲音輸入用作與他人進行交流的工具的情況下,由于想不到應(yīng)該用聲音輸入什么樣的內(nèi)容才好,所以用戶有時會對應(yīng)用程序的使用感到猶豫。例如,考慮用戶嘗試使用聲音翻譯的應(yīng)用程序的情況。在做嘗試時,經(jīng)常會經(jīng)歷到用戶沒有認真思考應(yīng)當說的語言。
[0004]進一步地,大多情況下在實際發(fā)出聲音之前,會發(fā)出“嗯”、“啊”之類的沒有含義的聲音。在聲音識別中,這樣沒有含義的聲音會降低聲音識別的精度。
[0005]如上所述,雖然要說些什么但大多情況下卻想不到說些什么才好這樣的問題并不限于聲音翻譯。在多人會話中也可能存在同樣的情況。例如,存在以下情況:雖然正在進行會話,但是話題中斷,想不到接下來說些什么才好。
[0006]在專利文獻I中公開了一種話題提供裝置,用于在多人的會話中,當會話的話題中斷時提供話題。該專利文獻I公開的系統(tǒng)使用話題數(shù)據(jù)庫,該話題數(shù)據(jù)庫預先將話題和與該話題相關(guān)的關(guān)鍵字建立關(guān)聯(lián)后存儲,其中,關(guān)鍵字來自于被共同用于多個話題中的觀點。準備多個觀點。該系統(tǒng)從用戶的會話中提取詞句,針對多個觀點中的每一個觀點,計算其權(quán)重,進一步地,針對在最后提示給用戶的話題和存儲在話題數(shù)據(jù)庫中的話題,按每個觀點計算出相似度,將該相似度乘以針對各觀點計算出的權(quán)重,并計算出這些乘法值之和。然后,將該和最大的話題作為新話題而提示給用戶。作為多個觀點,可列舉相當于所謂“5W1H”的觀點。
[0007]根據(jù)專利文獻1,通過該裝置,能夠提供與成為當前會話的中心的觀點相接近而對于其他觀點來說相差較多的話題。
[0008]在先技術(shù)文獻
[0009]專利文獻
[0010]專利文獻1:JP特開2011-123530號公報
【發(fā)明內(nèi)容】
[0011]發(fā)明要解決的課題
[0012]但是,在專利文獻I記載的發(fā)明中,雖然如果會話的內(nèi)容豐富到一定程度就能夠確定話題,但是如果會話較短,則存在難以決定應(yīng)當提供的話題的問題。特別是,在使用了聲音翻譯的會話這樣講話非常短的情況下,很難應(yīng)用專利文獻I記載的發(fā)明。
[0013]進一步,作為在聲音翻譯中特有的問題,存在講話人過多地考慮如何講話才能正確地進行聲音識別并正確地進行翻譯的問題。為此,會迷惑如何講、講些什么,其結(jié)果,大多情況下都會降低聲音翻譯的精度。當然,如果用戶說了容易聲音識別且容易自動翻譯的話,則對于聲音翻譯來說是優(yōu)選的。但是,為此,會使講話本身變得困難,所以不能充分地發(fā)揮聲音翻譯的效果。
[0014]因此,本發(fā)明提供一種能夠提高聲音識別的精度且用戶容易利用的聲音處理系統(tǒng)以及由這樣的聲音處理系統(tǒng)利用的終端裝置。
[0015]本發(fā)明的其他目的是提供一種能夠提高聲音識別的精度和利用聲音識別的結(jié)果來提供的聲音服務(wù)的精度、且用戶容易利用的聲音處理系統(tǒng)、以及由這樣的聲音處理系統(tǒng)利用的終端裝置。
[0016]用于解決課題的手段
[0017]本發(fā)明的第I方面涉及的聲音處理系統(tǒng)包括:講話輸入部件,用于接受講話信息的輸入,該講話信息包含表示講話的聲音信號和表示完成該講話的環(huán)境的規(guī)定環(huán)境信息;聲音識別部件,用于對講話輸入部件接受的講話信息內(nèi)的聲音信號進行聲音識別,并將識別結(jié)果作為文本來輸出;數(shù)據(jù)處理部件,對聲音識別部件輸出的文本執(zhí)行規(guī)定的數(shù)據(jù)處理;講話連續(xù)模型存儲部件,用于存儲以統(tǒng)計方式學習完畢的講話連續(xù)模型,統(tǒng)計方式學習如下:如果接受了講話的文本和規(guī)定環(huán)境信息,則能夠針對規(guī)定的講話集合之中的講話,計算出由文本表示的講話之后連續(xù)講出的概率;講話存儲部件,用于存儲數(shù)據(jù)處理部件對規(guī)定的講話集合內(nèi)的講話和針對該講話集合內(nèi)的各個講話進行了處理時的數(shù)據(jù)處理的可靠度;以及講話候補推薦部件,使用講話輸入部件對聲音識別部件接受的講話信息的識別結(jié)果和該講話信息中包含的環(huán)境信息,基于以規(guī)定的形式將使用存儲在講話連續(xù)模型存儲部件中的講話連續(xù)模型對規(guī)定集合內(nèi)的各講話計算出的概率、和存儲在講話存儲部件中的針對規(guī)定集合內(nèi)的各講話的數(shù)據(jù)處理的可靠度進行組合而得到的評價得分,在多個講話的集合內(nèi),對推薦給進行了聲音識別部件識別出的講話的用戶的講話候補附加得分,并基于該得分而向用戶推薦講話候補。
[0018]如果講話輸入部件接受講話信息的輸入,則聲音識別部件進行針對講話信息中的聲音信號的聲音識別,并輸出識別結(jié)果的文本。數(shù)據(jù)處理部件對該文本進行數(shù)據(jù)處理。使用識別結(jié)果的文本和包含在講話信息中的環(huán)境信息,講話候補推薦部件借助講話連續(xù)模型來計算出各講話成為下一次講話的概率,進一步使用該概率和數(shù)據(jù)處理中的各講話的可靠度,進行推薦為下一次講話的講話的得分附加,根據(jù)該結(jié)果推薦下一次講話候補。
[0019]由于推薦了下一次講話的候補,所以用戶能夠?qū)⒃撝v話候補作為啟發(fā)來考慮下一次講話。由此,能夠降低想不出該講什么而使得用戶感到不知所措的事態(tài)發(fā)生的危險性。
[0020]優(yōu)選,數(shù)據(jù)處理部件包括自動翻譯部件,該自動翻譯部件受理接受某講話后聲音識別部件輸出的識別結(jié)果,將該識別結(jié)果自動翻譯成與某講話的語言不同的其他語言,并作為文本來輸出。可靠度是該自動翻譯部件的翻譯結(jié)果作為相對于某講話的其他語言的翻譯的似然性。
[0021]更優(yōu)選,數(shù)據(jù)處理部件還包括聲音合成部件,該聲音合成部件用于基于自動翻譯部件輸出的其他語言的文本來對其他語言的聲音信號進行合成。
[0022]講話候補推薦部件也可以包括以下部件,該部件用于基于使用講話連續(xù)模型對規(guī)定集合內(nèi)的各講話計算出的概率、與存儲在講話存儲部件中的針對規(guī)定集合內(nèi)的各講話的可靠度之間的線性和的評價,在多個講話的集合內(nèi)推測聲音識別部件進行聲音識別的講話之后的后續(xù)講話的候補。此時,線性和中的可靠度和概率的系數(shù)都是正數(shù)。
[0023]優(yōu)選,聲音處理系統(tǒng)還包括講話候補提示部件,該講話候補提示部件用于向用戶提示由講話候補推薦部件推薦的下一次的講話候補。
[0024]更優(yōu)選,聲音處理系統(tǒng)還包括講話文本信息輸入部件,該講話文本信息輸入部件用于接受包含表示講話的文本和規(guī)定環(huán)境信息在內(nèi)的講話文本信息的輸入,取代聲音識別部件的輸出而將該講話文本信息內(nèi)的文本提供至講話候補推薦部件以及數(shù)據(jù)處理部件。
[0025]本發(fā)明的第2方面涉及的終端裝置包括:包括:麥克風;用于收集與周圍環(huán)境相關(guān)的信息的傳感器的集合;顯示裝置;通信裝置;以及講話信息發(fā)送部件,與麥克風、傳感器的集合以及通信裝置連接,用于經(jīng)由通信裝置,將講話信息發(fā)送到規(guī)定的聲音處理服務(wù)器,并委托聲音識別和針對識別結(jié)果的規(guī)定的數(shù)據(jù)處理,其中,講話信息包含從麥克風接受講話后輸出的信號中得到的聲音信號和從得到該聲音信號時的傳感器的集合得到的信息。終端裝置還包括:處理結(jié)果提示部件,與通信裝置連接,且用于接受響應(yīng)委托而從聲音處理服務(wù)器發(fā)送來的數(shù)據(jù)處理的處理結(jié)果,并向用戶提示該處理結(jié)果;以及講話候補推薦列表顯示部件,從聲音處理服務(wù)器接受被推薦為多個講話候補的講話候補推薦列表,并通過顯示于顯示裝置來向用戶推薦講話候補。
[0026]優(yōu)選,聲音處理服務(wù)器對聲音識別的結(jié)果進行的規(guī)定的數(shù)據(jù)處理是以下處理:將講話自動翻譯成與該講話的語言不同的其他語言,并進一步對該自動翻譯的結(jié)果的聲音進行合成。從聲音處理服務(wù)器發(fā)送的數(shù)據(jù)處理的處理結(jié)果是表示由聲音處理服務(wù)器合成的聲音的聲音信號。處理結(jié)果提示部件包括:揚聲器;以及用于根據(jù)表示由聲音處理服務(wù)器合成的聲音的聲音信號來驅(qū)動揚聲器的部件。
[0027]進一步優(yōu)選,終端裝置還包括:選擇部件,用戶能夠為了選擇由講話候補推薦列表顯示部件顯示的講話候補當中的任一個講話候補,而操作該選擇部件;以及講話文本信息發(fā)送部件,響應(yīng)于由選擇部件選擇出講話候補推薦列表內(nèi)的講話候補當中的任一個講話候補的情況,經(jīng)由通信裝置,將包含選擇出的講話候補的文本和從傳感器的集合得到的信息在內(nèi)的講話文本信息發(fā)送到規(guī)定的聲音處理服務(wù)器,并委托針對該講話文本信息進行規(guī)定的數(shù)據(jù)處理。
[0028]發(fā)明效果
[0029]如以上所述,根據(jù)本發(fā)明,能夠減小利用聲音服務(wù)的用戶對講些什么沒有想法而感到不知所措的可能性,并能夠使聲音服務(wù)更易于使用。并且,在想要講話之前發(fā)出的無意義的聲音變少,能夠提高聲音識別的精度,也能夠提高使用該聲音識別結(jié)果的聲音服務(wù)的精度。
[0030]其結(jié)果,能夠提供一種能提高聲音識別的精度并且用戶易于利用的聲音處理裝置以及終端裝置。
[0031]進一步地,能夠提供一種能提高聲音識別的精度和使用聲音識別結(jié)果的聲音服務(wù)的精度并且用戶易于利用的聲音處理裝置以及終端裝置。
【專利附圖】
【附圖說明】
[0032]圖1是示意性表示本發(fā)明的第I實施方式涉及的聲音翻譯系統(tǒng)的整體結(jié)構(gòu)的圖。
[0033]圖2是示意性表示顯示于在圖1所示的系統(tǒng)中所使用的便攜式終端的畫面上的用于聲音翻譯的畫面的圖。
[0034]圖3是表示在第I實施方式的聲音翻譯系統(tǒng)中在便攜式終端與服務(wù)器之間進行的用于聲音翻譯的處理序列的圖。
[0035]圖4是表示便攜式終端的硬件結(jié)構(gòu)的框圖。
[0036]圖5是表示便攜式終端中實現(xiàn)伴隨使用了聲音輸入的聲音翻譯的處理的程序的控制構(gòu)造的流程圖。
[0037]圖6是在第I實施方式的聲音翻譯系統(tǒng)中執(zhí)行接受來自多個便攜式終端的聲音輸入并翻譯成指定的語言,進一步對其聲音進行合成后送回便攜式終端的處理的服務(wù)器的功能性框圖。
[0038]圖7是用于實現(xiàn)圖6所示的服務(wù)器的功能的程序的流程圖。
[0039]圖8是在圖6所示的服務(wù)器中使用的進行講話連續(xù)模型的學習和文集內(nèi)的講話的翻譯得分的計算的模型生成部的框圖。
【具體實施方式】
[0040]在以下的說明以及附圖中,對同一部件賦予相同的參照符號。因此,不重復對這些部件的詳細說明。
[0041][第I實施方式]
[0042]< 結(jié)構(gòu) >
[0043]-整體結(jié)構(gòu)-
[0044]參照圖1,本發(fā)明涉及的聲音翻譯系統(tǒng)100包括:與因特網(wǎng)102連接且進行聲音翻譯服務(wù)的服務(wù)器106 ;以及能與因特網(wǎng)102連接且安裝有用于利用聲音翻譯服務(wù)的應(yīng)用程序的便攜式終端104。
[0045]-應(yīng)用程序畫面_
[0046]參照圖2,便攜式終端104的用于利用聲音翻譯服務(wù)的應(yīng)用程序畫面130被大體分割成6個區(qū)域。S卩,用于顯示成為聲音翻譯服務(wù)的對象的語言對(源語言和目標語言)的語言顯示區(qū)域140 ;用于顯示以源語言的聲音輸入的語句的聲音識別結(jié)果或文本輸入結(jié)果的輸入文本顯示區(qū)域150 ;顯示對聲音識別后的語句進行自動翻譯而得到的結(jié)果、即文本的翻譯結(jié)果顯示區(qū)域170 ;顯示將翻譯結(jié)果逆翻成原語言后的語句的逆翻譯區(qū)域160 ;顯示推薦為下一次的講話候補的講話候補的列表(講話候補推薦列表)的講話候補推薦區(qū)域190 ;以及顯示聲音翻譯系統(tǒng)的利用狀況的狀態(tài)區(qū)域180。
[0047]在語言顯示區(qū)域140,分別采用源語言的文字將源語言的語言名顯示在左側(cè),將目標語言的語言名顯示在右側(cè)。另外,在應(yīng)用程序畫面130中,翻譯結(jié)果的語句以外的文本都采用源語言的文字來顯示。在源語言名以及目標語言名之間,顯示用于設(shè)定聲音翻譯的語言的組合的設(shè)定按鈕142。
[0048]在輸入文本顯示區(qū)域150顯示:源語言的語言名的顯示156 ;在進行聲音輸入時由用戶操作的聲音輸入按鈕152 ;以及用于顯示不是采用聲音輸入而是直接對輸入語句的文本進行輸入的文本輸入畫面的文本輸入按鈕154。聲音輸入的結(jié)果以及文本輸入的結(jié)果都在輸入文本顯示區(qū)域150內(nèi)被顯示為輸入文本158。另外,在本實施方式中,在按壓聲音輸入按鈕152的期間,對聲音進行錄制。如果中斷聲音輸入按鈕152的按壓,則結(jié)束聲音的錄制。
[0049]在逆翻譯區(qū)域160顯示:將根據(jù)聲音輸入的結(jié)果來生成并被自動翻譯出的目標語言的語句逆翻成源語言的語句而得到的結(jié)果的語句162 ;以及在對語句進行文本輸入等時用于開始該語句的翻譯的翻譯按鈕164。通過將從所輸入的源語言的語句得到的翻譯結(jié)果進一步逆翻成源語言的語句而顯示于逆翻譯區(qū)域160內(nèi),能夠判定翻譯是否正確傳達了講話者的意圖。其中,在本實施方式的說明中,為了易于理解實施方式的說明,并不說明與該逆翻譯相關(guān)聯(lián)的功能部分的詳細情況。
[0050]在翻譯結(jié)果顯示區(qū)域170顯示:目標語言的語言名174 ;自動翻譯結(jié)果的語句(目標語言的語句)的文本176 ;以及用于再生文本176的合成聲音的再生按鈕172。聲音翻譯的結(jié)果被自動作為合成聲音而講出,在想要反復聽取的情況下操作再生按鈕172。
[0051]在講話候補推薦區(qū)域190顯示:由被推薦為接著剛剛之前的用戶的講話而發(fā)言的可能性高且在自動翻譯中受理的可能性高的講話的講話構(gòu)成的講話候補推薦列表192 ;以及與講話候補推薦列表192的各講話對應(yīng)地顯示且用于產(chǎn)生針對各講話的翻譯請求的翻譯請求按鈕194。
[0052]在狀態(tài)區(qū)域180顯示利用次數(shù)等系統(tǒng)的利用狀況和麥克按鈕182。麥克按鈕182與聲音輸入按鈕152同樣地具有開始錄音的功能,但是與聲音輸入按鈕152不同,如果對麥克按鈕182按壓一次后放開則開始聲音的錄制,如果再次按壓麥克按鈕182后放開則結(jié)束聲音的錄制。
[0053]-聲音翻譯的序列-
[0054]參照圖3,說明使用了聲音翻譯系統(tǒng)100的聲音翻譯時便攜式終端104與服務(wù)器106之間的典型的通信序列。最初,在便攜式終端104中進行聲音輸入200,生成包含該聲音、聲音翻譯的語言的組合等信息以及從傳感器的集合得到的環(huán)境信息的聲音識別請求202。聲音識別請求202從便攜式終端104被發(fā)送到服務(wù)器106。服務(wù)器106接收到該聲音識別請求時進行聲音識別處理220,并輸出聲音識別結(jié)果的文本(在本實施方式中,聲音識別處理220進行統(tǒng)計聲音識別處理,假設(shè)伴隨識別的得分最高的僅有I個)。作為輸入,將該文本提供給自動翻譯處理222。自動翻譯處理222將輸入的源語言的語句自動翻譯成目標語言,并生成目標語言的語句。該目標語言的語句被提供至聲音合成處理224。聲音合成處理224根據(jù)所提供的目標語言的語句,合成聲音。
[0055]另一方面,聲音識別處理220的識別結(jié)果的文本也與環(huán)境信息一起被提供至講話候補列表生成處理230。服務(wù)器106包括:講話連續(xù)模型226,是以能夠針對講話集合內(nèi)的各講話計算出在所提供的講話之后講出的概率的方式,預先學習完畢的統(tǒng)計模型;以及講話候補存儲部228,用于存儲源語言的講話的、附加了表示自動翻譯處理222的受理容易度的翻譯得分的講話的集合。在講話候補列表生成處理230中,使用通過講話連續(xù)模型226針對講話集合內(nèi)的各講話計算出的概率和存儲在講話候補存儲部228中的每個講話的翻譯得分,選擇規(guī)定個數(shù)在下一次被講出的可能性高且翻譯得分高的講話,作為列表來輸出。本實施方式中,在該評價中,使用由某一講話在下次被講出的概率與該講話的翻譯得分之間的線性和構(gòu)成的評價得分。在該實施方式的情況下,將評價得分高的講話設(shè)為適于下次候補的講話。因此,該線性和的各系數(shù)都為正。該系數(shù)的值隨著概率的次序和翻譯得分的次序的不同而不同,所以需要基于具體的組合來適當?shù)卮_定。
[0056]講話連續(xù)模型226以如下方式進行了統(tǒng)計完成學習:如果接受了講話的文本和進行該講話時的環(huán)境信息,則能夠針對規(guī)定的講話集合之中的講話,計算出在由文本表示的講話之后連續(xù)講出的概率。
[0057]聲音識別處理220輸出的聲音識別結(jié)果的文本、通過自動翻譯處理222得到的翻譯結(jié)果的文本、通過聲音合成處理224合成的合成聲音數(shù)據(jù)、以及講話候補列表生成處理230生成的講話候補列表都被提供至將這些數(shù)據(jù)發(fā)送到便攜式終端104的發(fā)送處理部232。發(fā)送處理部232將所提供的這些數(shù)據(jù)變換成用于發(fā)送的規(guī)定的格式,并發(fā)送到便攜式終端104。
[0058]接收到來自發(fā)送處理部232的數(shù)據(jù)的便攜式終端104顯示接收到的聲音識別結(jié)果、自動翻譯結(jié)果以及講話候補列表(步驟204)。便攜式終端104進一步地進行從發(fā)送處理部232接收到的合成聲音的講話(步驟206)。在講話后,便攜式終端104返回等待接受下一次聲音輸入200的狀態(tài)。
[0059]另外,如前所述,圖3示出的是典型的處理序列。在不是采用聲音輸入而是進行了文本輸入的情況下,執(zhí)行與圖3所示的處理序列不同的處理序列。
[0060]-便攜式終端104-
[0061]參照圖4,便攜式終端104包括:處理器250,其通過執(zhí)行規(guī)定的程序來控制便攜式終端104的各部分,從而實現(xiàn)各種功能;存儲器252,其存儲處理器250執(zhí)行的程序以及該程序的執(zhí)行所需的數(shù)據(jù),也起到處理器250的作業(yè)區(qū)域的作用;以及處理器250與后述的各種傳感器等之間的接口 254。以下說明的結(jié)構(gòu)要素都能夠經(jīng)由接口 254而與處理器250進行通信。
[0062]便攜式終端104還包括:GPS接收機258,用于通過GPS功能來獲取便攜式終端104的位置的經(jīng)度以及瑋度信息;用于檢測便攜式終端104的3軸方向的加速度的加速度傳感器260、用于檢測與便攜式終端104的3軸相關(guān)的傾斜度的傾斜度傳感器262、檢測便攜式終端104周圍的磁性的磁性傳感器264、檢測便攜式終端104周圍的明亮度的明亮度傳感器266、探測便攜式終端104的規(guī)定位置涉及的壓力的壓力傳感器268以及檢測便攜式終端104周圍的溫度的溫度傳感器270等多個傳感器;麥克風256 ;能夠通過無線通信經(jīng)由未圖示的基站與因特網(wǎng)102連接的通信裝置272 ;觸摸面板274 ;與觸摸面板274分開設(shè)置于便攜式終端104的筐體上的操作按鈕276 ;以及揚聲器280。
[0063]GPS接收機258、加速度傳感器260、傾斜度傳感器262、磁性傳感器264、明亮度傳感器266、壓力傳感器268以及溫度傳感器270等用于收集表示講話時的環(huán)境的信息。在本實施方式中,聲音輸入時的這些各種傳感器的輸出與聲音翻譯的語言對等設(shè)定信息和從聲音得到的ADPCM聲音信號一起以規(guī)定的形式被發(fā)送到服務(wù)器106,作為表示講話時的環(huán)境的環(huán)境信息。這樣發(fā)送到服務(wù)器106的信息是聲音翻譯請求,該聲音翻譯請求請求針對講話聲音的聲音識別、和針對聲音識別的結(jié)果的數(shù)據(jù)處理即自動翻譯以及翻譯結(jié)果的聲音合成。
[0064]實現(xiàn)便攜式終端104的功能的各種程序之中,用于利用聲音翻譯服務(wù)的應(yīng)用程序具有如下的控制構(gòu)造。參照圖5,如果啟動該程序,則進行存儲器區(qū)域的確保、以規(guī)定的初始值來初始化各存儲器位置的初始設(shè)定處理(步驟300)。在初始化完成后,在便攜式終端104的觸摸面板274,顯示用于聲音翻譯服務(wù)的初始畫面(步驟302)。在初始畫面中,激活聲音輸入按鈕152、文本輸入按鈕154、麥克按鈕182以及設(shè)定按鈕142,使翻譯按鈕164以及再生按鈕172失效。
[0065]接著,等待來自用戶的輸入,根據(jù)進行了什么樣的輸入來使控制的流程分支(步驟 304)ο
[0066]如果按壓了聲音輸入按鈕(圖2的聲音輸入按鈕152),則執(zhí)行聲音輸入處理(步驟310)。聲音輸入處理通過調(diào)取聲音輸入的API (Applicat1n Programming Interface)來進行。接著,對輸入的聲音進行規(guī)定的信號處理,生成ADPCM(Adaptive DifferentialPulse Code Modulat1n)形式的聲音信號(步驟312)。進一步,基于該聲音信號、此時的各傳感器的輸出以及翻譯語言等設(shè)定信息,生成聲音翻譯請求,并發(fā)送給服務(wù)器106 (步驟314)。之后,從服務(wù)器106接收聲音識別結(jié)果、自動翻譯結(jié)果、其合成聲音、講話候補的列表(步驟316),為了將聲音識別結(jié)果的文本、自動翻譯結(jié)果的文本以及講話候補的列表分別顯示于圖2的輸入文本顯示區(qū)域150、逆翻譯區(qū)域160以及翻譯結(jié)果顯示區(qū)域170,保存在規(guī)定的存儲器區(qū)域中(步驟318)。進一步,驅(qū)動揚聲器280來產(chǎn)生自動翻譯結(jié)果的合成聲音(步驟320)。即,通過驅(qū)動揚聲器280,以聲音的形式對用戶提示所請求的講話的翻譯結(jié)果。最后,進行應(yīng)用程序畫面130的更新(步驟322),返回到步驟304的輸入等待狀態(tài)。此時,除了激活聲音輸入按鈕152、文本輸入按鈕154以及麥克按鈕182以外,還激活再生按鈕172。
[0067]如果在步驟304中按壓了文本輸入按鈕(圖2的文本輸入按鈕154),則通過調(diào)取文本輸入的API,接受文本的輸入(步驟340),保存所輸入的文本(步驟342),并將所輸入的文本顯示于輸入文本顯示區(qū)域150以及逆翻譯區(qū)域160,由此更新畫面(步驟322),然后返回到步驟304。此時,在更新后的畫面中激活翻譯按鈕164,并使再生按鈕172失效。
[0068]如果在步驟304中按壓了翻譯按鈕(圖2的翻譯按鈕164),則使用在步驟340中輸入并在步驟342中保存的文本、此時的各種傳感器的輸出、以及設(shè)定信息,來生成文本翻譯請求,并發(fā)送到服務(wù)器106 (步驟360)。接著,接收針對該請求的翻譯結(jié)果、翻譯結(jié)果的合成聲音以及講話候補推薦列表(步驟362)。將接收到的翻譯結(jié)果的文本顯示于翻譯結(jié)果顯示區(qū)域170 (圖2)(步驟364),并講出翻譯結(jié)果的合成聲音(步驟366)。之后,更新應(yīng)用程序畫面130 (步驟322),返回到步驟304。
[0069]最后,如果操作了圖2所示的設(shè)定按鈕142,則通過顯示為了進行設(shè)定變更而預先準備的畫面來受理設(shè)定的變更(步驟380),如果設(shè)定結(jié)束,則將該設(shè)定結(jié)果保存到存儲器252中(步驟382),并按照變更后的設(shè)定來更新應(yīng)用程序畫面130 (步驟322),將控制返回到步驟304。
[0070]-服務(wù)器106-
[0071]參照圖6,服務(wù)器106具有如下的功能性結(jié)構(gòu)。另外,服務(wù)器106通過作為硬件而具有大容量的外部存儲裝置的計算機和在該計算機上執(zhí)行的聲音翻譯服務(wù)器程序?qū)崿F(xiàn)。
[0072]服務(wù)器106包括:接收處理部406,用于經(jīng)由因特網(wǎng)102(參照圖1),接收來自便攜式終端104這樣的不確定的多個終端的聲音翻譯請求以及文本翻譯請求;以及控制部408,用于分析接收處理部406接收到的請求,并通過按照分析結(jié)果將數(shù)據(jù)提供給規(guī)定的功能模塊或者輸出用于數(shù)據(jù)選擇的控制信號,從而進行聲音翻譯的整體控制。服務(wù)器106還包括:按語言分類的聲音識別用資源400,是為了進行多個源語言的聲音識別以及為了進行自動翻譯中的目標語言語句的生成而預先準備的,且是針對多個語言分別準備的;按語言對分類的資源402,是為了進行自動翻譯而按多個源語言和多個目標語言的組合的每一個組合而預先準備的;以及按語言分類的聲音合成用資源404,是為了進行聲音合成而針對各個目標語言預先準備的。
[0073]在本實施方式中,按語言分類的聲音識別用資源400包括用于聲音識別的各語言的統(tǒng)計音響模型、辭典以及統(tǒng)計語言模型。在語言成為目標語言時,在自動翻譯中也使用辭典以及語言模型。因此,服務(wù)器106還包括:選擇部410,從按語言分類的聲音識別用資源400之中,選擇由聲音翻譯請求指定的源語言的資源;以及選擇部412,從按語言分類的聲音識別用資源400之中,選擇由聲音翻譯請求指定的目標語言的資源。
[0074]按語言對分類的資源402包括統(tǒng)計翻譯模型,按源語言和目標語言的每一個組合預先準備該統(tǒng)計翻譯模型。服務(wù)器106還包括選擇部414,該選擇部414從按語言對分類的資源402之中選擇由聲音翻譯請求指定的語言對的資源。
[0075]按語言分類的聲音合成用資源404包括進行目標語言的聲音合成時所需的按語言分的資源。如果聲音合成是原片連接型,則按語言分類的原片DB包含在該資源中。服務(wù)器106還包括選擇部416,該選擇部416從按語言分類的聲音合成用資源404之中選擇由聲音翻譯請求指定的目標語言的資源。
[0076]控制部408具有以下功能:基于包含在聲音翻譯請求中的源語言和目標語言的組合,對選擇部410、選擇部412、選擇部414以及選擇部416,分別發(fā)送控制信號以便選擇適當?shù)馁Y源。
[0077]服務(wù)器106還包括:聲音識別引擎418,從控制部408接受聲音翻譯請求中的ADPCM數(shù)據(jù),使用由選擇部410選擇出的資源,進行源語言的聲音識別并輸出其文本數(shù)據(jù);自動翻譯引擎422,接受聲音識別引擎418輸出的源語言的文本數(shù)據(jù),使用由選擇部412選擇出的目標語言的資源、和由選擇部414選擇出的與源語言和目標語言的語言對相對應(yīng)的資源,將源語言語句翻譯成目標語言語句,并作為文本數(shù)據(jù)來輸出;以及聲音合成處理部424,用于接受自動翻譯引擎422輸出的目標語言的文本數(shù)據(jù),使用由選擇部416選擇出的語言資源,進行聲音合成。
[0078]在聲音識別引擎418的輸出和自動翻譯引擎422的輸入之間插入具有2個輸入和與自動翻譯引擎422的輸入連接的輸出的選擇部420。在選擇部420的一個輸入上連接聲音識別引擎418的輸出438。向另一個輸入輸入從控制部408輸出的文本翻譯請求中的文本數(shù)據(jù)440。如前所述,在便攜式終端104中,不僅采用聲音輸入,還進行文本的輸入。在聲音輸入的情況下,將作為聲音識別引擎418的輸出438的文本數(shù)據(jù)提供至自動翻譯引擎422,在文本輸入的情況下,不經(jīng)由聲音識別引擎418,而是直接將請求中的文本數(shù)據(jù)440提供至自動翻譯引擎422。選擇部420選擇2個輸入中的哪一個是控制部408查看聲音翻譯請求的內(nèi)容后通過切換信號442來控制的。針對文本翻譯請求的處理僅是輸入與針對聲音翻譯請求的處理不同,自動翻譯以后的處理與聲音翻譯請求的處理相同。因此,在此不重復針對文本翻譯請求的處理的詳細的說明。另外,對聲音識別引擎418輸出的文本數(shù)據(jù)、對從控制部408直接提供至選擇部420的文本數(shù)據(jù)都賦予聲音翻譯請求中的各種傳感器的輸出值。
[0079]服務(wù)器106還包括:為了將附加在聲音翻譯請求中的各種傳感器的輸出值變換成在推測下一次講話候補時使用的特征量向量的要素值而使用的要素決定用各種DB430 ;針對成為對象的多個語言準備的多個講話連續(xù)模型226的存儲裝置;針對成為對象的多個語言準備的多個講話候補存儲部228 ;以及選擇部434及選擇部436,用于按照控制部408的控制,從多個講話連續(xù)模型226以及多個講話候補存儲部228中選擇與講話語言相對應(yīng)的模型以及講話候補存儲部,且該選擇部434以及選擇部436與講話概率計算部426以及講話候補推薦列表生成部428連接。服務(wù)器106還包括:講話概率計算部426,用于接受選擇部420輸出的文本數(shù)據(jù),使用要素決定用各種DB430以及講話連續(xù)模型226,針對預先準備的各個講話計算出成為所提供的講話的下一次講話的概率;講話候補推薦列表生成部428,用于基于由講話概率計算部426針對各講話計算出的概率、和存儲在講話候補存儲部228中的各講話的翻譯以及聲音識別得分,從該得分的上位中選擇多個下一次被講出的可能性高且由自動翻譯引擎422受理(被正確地翻譯)的可能性高的講話,由此生成講話候補推薦列表;以及發(fā)送處理部432,用于根據(jù)自動翻譯引擎422輸出的翻譯結(jié)果的文本數(shù)據(jù)、聲音合成處理部424輸出的合成聲音、以及講話候補推薦列表生成部428生成的講話候補推薦列表,來組成規(guī)定數(shù)據(jù)格式的反饋數(shù)據(jù),向發(fā)送了聲音翻譯請求的終端(便攜式終端104等)進行反饋。
[0080]但是,對于講話連續(xù)模型226以及講話候補存儲部228而言,需要預先準備。為此,設(shè)置有模型生成部108。針對模型生成部108的結(jié)構(gòu)將后述。
[0081]參照圖7,用于通過由構(gòu)成服務(wù)器106的計算機的硬件執(zhí)行從而實現(xiàn)圖6所示的控制部408的功能的程序具有如下的控制構(gòu)造。如果啟動該程序,則包括:首先進行必要的存儲區(qū)域的確保以及初始化等在啟動之后需要立即執(zhí)行I次的處理的初始設(shè)定步驟450 ;在初始設(shè)定后,等待經(jīng)由因特網(wǎng)102從其他的終端裝置接收與聲音翻譯相關(guān)的請求的步驟452 ;以及根據(jù)在步驟452中接收到的請求是什么來使控制的流程分支的步驟454。
[0082]如果判定為請求是聲音翻譯請求,則基于包含在請求中的語言對的信息,設(shè)定源語言和目標語言,并設(shè)定圖6所示的選擇部410、選擇部412、選擇部414以及選擇部416 (步驟460),執(zhí)行聲音識別(步驟462)。如果聲音識別結(jié)束,則將結(jié)果的源語言的文本作為輸入,進行向目標語言的自動翻譯(步驟464)。如果自動翻譯結(jié)束,則將通過自動翻譯得到的輸出的文本作為輸入,進行聲音合成(步驟466)。進一步,基于在步驟462中得到的文本數(shù)據(jù),生成用于推測下一次講話的特征量向量(步驟468)。在生成該特征量向量時,有時使用包含在請求中的原始的傳感器輸出,有時使用要素決定用各種DB430(參照圖6)將原始的傳感器輸出變換為其他范疇的值。例如,雖然GPS的輸出是瑋度及經(jīng)度的信息,但是可以將這些信息直接作為特征量向量的要素,也可以將瑋度以及經(jīng)度的信息與存在于該位置的設(shè)施名或包含該位置的地域名之間的對應(yīng)關(guān)系存儲在要素決定用各種DB430中,并在變換為設(shè)施名或地域名等之后,將變換后的值作為特征量向量的要素。利用所生成的特征量向量,使用圖6所示的講話概率計算部426,推測規(guī)定個數(shù)的下一次講出的概率高的講話候補,進一步使用圖6所示的講話候補存儲部228,根據(jù)將各講話候補的概率和它們的翻譯以及聲音識別得分組合而得到的評價得分,選擇規(guī)定個數(shù)的成為下一次講話的概率高且翻譯得分也高的講話候補,由此生成講話候補推薦列表(步驟470)。最后,向?qū)Ψ浇K端發(fā)送在步驟462中得到的源語言的聲音識別結(jié)果、在步驟464中得到的自動翻譯結(jié)果的文本、在步驟466中得到的聲音合成、在步驟470中得到的講話候補推薦列表(步驟472),并將控制返回到步驟452。
[0083]另一方面,如果在步驟454中判定為請求是文本翻譯請求,則根據(jù)包含在請求中的語言對的設(shè)定信息,設(shè)定圖6所示的選擇部410、選擇部412、選擇部414以及選擇部416 (步驟478),將所輸入的源語言的文本自動翻譯成目標語言(步驟480)。基于得到的目標語言的文本,對目標語言的聲音進行合成(步驟482),并基于包含在請求中的源語言的輸入文本和環(huán)境信息,生成特征量向量(步驟484),通過參照講話連續(xù)模型226,從而生成由下一次講出的可能性高且翻譯得分也高的講話候補構(gòu)成的講話候補推薦列表(步驟486) ο最后,將在步驟480中得到的目標語言的文本數(shù)據(jù)、在步驟482中得到的目標語言的合成聲音、和在步驟486中得到的講話候補發(fā)送到便攜式終端(步驟488),并將控制返回到步驟452。
[0084]以上是用于實現(xiàn)圖6所示的服務(wù)器106的程序的控制構(gòu)造的概況。
[0085]需要預先準備圖6所示的講話連續(xù)模型226以及存儲在講話候補存儲部228中的講話候補的集合。圖8示出用于此的模型生成部108的結(jié)構(gòu)。另外,在本實施方式中,作為圖6所示的要素決定用各種DB430,包括:GPS/地域信息變換DB518,存儲了從GPS得到的瑋度/經(jīng)度信息、與由該瑋度/經(jīng)度信息確定的國家、地域、州、都道府縣、市、鎮(zhèn)等地域信息之間的對應(yīng)關(guān)系;以及IP地址/設(shè)施名變換地址DB522,存儲了 IP地址、與分配給該IP地址的設(shè)施名之間的對應(yīng)關(guān)系。
[0086]參照圖8,模型生成部108包括含有多個單個語言的講話文本的文集510。存儲在文集510中的講話包括該講話的聲音數(shù)據(jù)和講話的起始的文本。起始文本全都被分割成詞素等規(guī)定的單位,對各單位附加了被稱為DA(Dialog Activity)標簽的表示進行講話時的狀況的標簽。對各講話進一步附加進行該講話時的日期時間、講話的用戶的用戶ID或終端ID、收集了該講話時的用戶的位置(通過GPS得到的瑋度以及經(jīng)度)、發(fā)送來該講話的終端的IP地址、終端的各傳感器探測到的加速度、傾斜度、磁性、明亮度、壓力、溫度等信息。這些信息之中,在因沒有對應(yīng)的傳感器等情況而無法通過便攜式終端得到的信息中代入表示沒有信息的規(guī)定值。
[0087]模型生成部108還包括:輸入部512,在對包含在文集510中的講話數(shù)據(jù)通過手動進行詞素分析、標簽附加等處理時,由用戶使用該輸入部512 ;以及基礎(chǔ)特征向量生成部514,根據(jù)存儲在文集510中的各語句,生成用于生成進行講話連續(xù)模型226的學習用的學習數(shù)據(jù)的基礎(chǔ)特征向量。基礎(chǔ)特征向量生成部514至少針對存儲在文集510中的各語句,以規(guī)定的順序排列附加給這些語句的日期時間、用戶ID或終端ID、以及其他各種傳感器信息,進一步生成將下一次講出的講話的識別編號作為要素的向量。
[0088]模型生成部108還包括:地域信息附加部516,其進行如下處理,即,將包含在由基礎(chǔ)特征向量生成部514生成的各特征向量中的瑋度/經(jīng)度信息、與GPS/地域信息變換DB518進行對照,從而得到與該特征向量相對應(yīng)的講話完成的國家、地域、州、都府縣、市、鎮(zhèn)等地域信息,并插入到特征向量中的適當?shù)奈恢?;設(shè)施信息附加部520,進行如下處理,即,從地域信息附加部516接受特征向量,通過將其中包含的IP地址與IP地址/設(shè)施名變換DB522進行對照,從而得到完成該講話的設(shè)施名,并插入到特征向量內(nèi)的適當?shù)奈恢?;特征向量存儲?26,用于蓄存從設(shè)施信息附加部520輸出的特征向量;以及講話連續(xù)模型學習部524,用于將存儲在特征向量存儲部526中的特征向量作為學習數(shù)據(jù),進行講話連續(xù)模型226的統(tǒng)計學習。
[0089]模型生成部108還包括:講話匯總部540,用于對包含在文集510中的講話之中相同的講話進行匯總,從而生成僅由互不相同的講話構(gòu)成的集合;翻譯引擎544,將由講話匯總部540匯總的各個講話翻譯成多個語言,并針對各講話輸出翻譯結(jié)果的得分;以及翻譯得分計算部542,按每個講話對通過由翻譯引擎544翻譯成多個語言而得到的翻譯結(jié)果的得分求取平均,計算出各講話的平均的翻譯得分,并存儲至講話候補存儲部228中。翻譯引擎544被假設(shè)為進行統(tǒng)計自動翻譯,并將翻譯結(jié)果的似然性設(shè)為翻譯得分??烧J為翻譯得分越高,成為其根源的源語言的講話越容易翻譯。
[0090]模型生成部108還包括:聲音識別引擎546,對包含在文集510中的各講話的聲音數(shù)據(jù)進行聲音識別;以及聲音識別得分計算部548,用于對包含在文集510中的各講話的起始數(shù)據(jù)、和針對該講話的聲音識別引擎546的識別結(jié)果進行比較,從而計算出各講話的聲音識別得分,附加到各講話中并存儲于講話候補存儲部228。
[0091]另外,在圖8中,作為單一的部分而示出了模型生成部108,但是模型生成部108需要按翻譯的每個源語言來生成。關(guān)于翻譯引擎544,可以針對某源語言,使用所有可利用的翻譯引擎,并對由它們得出的翻譯得分求取平均,也可以僅將特定的多個語言作為目標語言來計算出翻譯得分,并使用它們的平均。也可以根據(jù)情況,使用僅將某單一語言設(shè)為目標語言的翻譯引擎544。
[0092]< 動作 >
[0093]-概要-
[0094]該聲音翻譯系統(tǒng)100按照以下方式進行動作。服務(wù)器106具有兩個動作階段。第I是基于模型生成部108的講話連續(xù)模型226以及講話候補存儲部228的學習,第2是使用了學習結(jié)束的講話連續(xù)模型226以及講話候補存儲部228的聲音翻譯服務(wù)的執(zhí)行。以下,首先說明學習階段的服務(wù)器106的動作,接著說明聲音翻譯服務(wù)階段的便攜式終端104和服務(wù)器106的動作。
[0095]-學習-
[0096]需要預先進行講話連續(xù)模型226、以及存儲在講話候補存儲部228中的各講話的翻譯及聲音識別得分的學習。為此,首先,針對成為處理對象的所有語言,按每個語言分別匯集語句來生成文集510。針對文集510內(nèi)的各語句,預先進行詞素分析等,雖然如果進行DA標簽的賦予等是優(yōu)選的,但是根據(jù)需要,使用輸入部512進行這樣的處理。
[0097]針對包含在某語言的文集510 (包括聲音數(shù)據(jù)和起始文本這兩者)中的各語句,進行以下處理。即,使用附加給該語句的信息,通過基礎(chǔ)特征向量生成部514(圖8)生成基礎(chǔ)的特征向量。此時,基于附加給各講話的用戶ID以及講話的日期時間的信息,確定在某講話的下一次講出哪一個講話,將確定下一次講話的信息代入特征向量內(nèi)的適當?shù)奈恢玫囊刂?。接著,通過將包含在各特征向量中的瑋度/經(jīng)度信息與GPS/地域信息變換DB518進行對照,從而根據(jù)瑋度/經(jīng)度信息,得到國家、地域、州、都府縣、市、鎮(zhèn)等地域信息,并代入特征向量中的適當?shù)囊刂?。在沒有對應(yīng)的信息的情況下,將表示沒有該信息的情況的特定值代入該要素(針對其他要素也是同樣的)。進一步,通過將包含在特征向量中的IP地址與IP地址/設(shè)施名變換DB522進行對照,從而將收錄了該講話的IP地址變換成與該IP地址對應(yīng)的設(shè)施名,并代入特征向量的適當?shù)囊刂?。這樣,將特征向量存儲至特征向量存儲部526中。
[0098]如果完成向特征向量存儲部526存儲特征向量,則講話連續(xù)模型學習部524執(zhí)行講話連續(xù)模型226的統(tǒng)計學習處理,或者與存儲并行地執(zhí)行講話連續(xù)模型226的統(tǒng)計學習處理。通過該統(tǒng)計學習,能夠得到如下的講話連續(xù)模型226:如果給出以講話日期時間、用戶ID、IP地址、瑋度/經(jīng)度信息、各種傳感器的值作為要素的某講話的特征向量,則能夠針對各講話計算出在該講話的下一次講出的概率。這些講話連續(xù)模型226優(yōu)選存儲至非易失性的存儲裝置中。
[0099]另一方面,講話匯總部540匯總包含在文集510中的各講話之中的相同的講話,作為文本。翻譯得分計算部542通過將匯總后的各講話提供至翻譯引擎544,從而計算出該講話的翻譯得分。此時,在本實施方式中,準備作為翻譯引擎544來翻譯到各目標語言的統(tǒng)計量,并將根據(jù)這些量得到的翻譯結(jié)果的似然性的平均設(shè)為該講話的翻譯得分。翻譯得分計算部542針對各源語言生成由針對各講話得到的翻譯得分構(gòu)成的翻譯得分DB,并保存至講話候補存儲部228。以上,講話連續(xù)模型226以及翻譯得分DB的學習結(jié)束。進一步地,通過聲音識別引擎546以及聲音識別得分計算部548,計算出包含在文集510中的各語句的聲音識別時的聲音識別得分。即,聲音識別引擎546進行針對各語句的聲音數(shù)據(jù)的聲音識別。聲音識別得分計算部548對聲音識別引擎546的聲音識別結(jié)果和預先附加到該語句的起始語句進行比較,從而計算出該語句的聲音識別得分。該聲音識別得分按保存在文集510中的各講話而存儲至講話候補存儲部228。其結(jié)果,能夠使用存儲在講話候補存儲部228中的信息,計算出存儲在文集510中的各講話的翻譯以及聲音識別得分。
[0100]-聲音翻譯服務(wù)-
[0101]需要預先對便攜式終端104等分配如圖2所示的聲音翻譯應(yīng)用程序。在本實施方式中,能夠連接便攜式終端104的服務(wù)器106是根據(jù)聲音翻譯應(yīng)用程序來固定的。當然,如果服務(wù)器106有多個,則也可以由用戶從其中選擇期望的服務(wù)器。
[0102]在想要利用服務(wù)器106的聲音翻譯服務(wù)的情況下,對用戶來說大致存在2個選擇分支。第I個是聲音翻譯,第2個是文本翻譯。以下,首先說明利用聲音翻譯服務(wù)時的用戶的操作以及便攜式終端104及服務(wù)器106的動作,接著說明利用文本翻譯時的用戶的操作以及便攜式終端104及服務(wù)器106的動作。另外,在此之前,用戶需要通過操作圖2的設(shè)定按鈕142來調(diào)取設(shè)定畫面,選擇自己想要利用的源語言和目標語言的組合。
[0103]在想要進行聲音翻譯的情況下,對用戶來說存在2種方法。第I種是以下方法:按壓聲音輸入按鈕152,并在按壓期間講話,講話結(jié)束后放開聲音輸入按鈕152。第2種是:通過按壓麥克按鈕182來開始聲音的錄制并進行講話,在講話結(jié)束后通過再次按壓麥克按鈕182來結(jié)束聲音的錄制。不論選擇哪一種方法,程序都能夠在圖5的步驟310以及步驟312中,通過調(diào)取與所選擇的處理相對應(yīng)的API,來進行聲音的錄制和信號處理,生成規(guī)定形式的聲音數(shù)據(jù)。
[0104]如果聲音的錄制結(jié)束(如果放開聲音輸入按鈕152,或者在聲音的錄制執(zhí)行中再次按壓麥克按鈕182),則進行圖5所示的步驟314的處理,將聲音翻譯的請求命令、基于設(shè)定的聲音對的信息、聲音數(shù)據(jù)以及環(huán)境信息發(fā)送到服務(wù)器106。在該請求中附加有基于設(shè)定的語言對的信息、講話日期時間、用戶的識別信息以及由GPS接收機258、加速度傳感器260、傾斜度傳感器262、磁性傳感器264、明亮度傳感器266、壓力傳感器268以及溫度傳感器270的輸出構(gòu)成的環(huán)境信息。
[0105]服務(wù)器106如果接收到該聲音翻譯請求(圖7的步驟452),則按照請求中的語言對信息來選擇語言對(步驟454至步驟460),并按照選擇出的語言的組合來控制選擇部410、選擇部412、選擇部414、選擇部416、選擇部434以及選擇部436,選擇適當?shù)囊?。月艮?wù)器106進一步進行聲音識別(步驟462)、針對聲音識別結(jié)果的自動翻譯(步驟464)、針對翻譯結(jié)果的聲音合成(步驟466)。之后,服務(wù)器106根據(jù)聲音識別的結(jié)果和附加到聲音翻譯請求中的各種信息,生成輸入講話的特征向量(步驟468),使用講話連續(xù)模型226以及講話候補存儲部228內(nèi)的各講話的翻譯以及聲音識別得分,生成由下一次講出的可能性高且翻譯以及聲音識別得分也高的講話候補構(gòu)成的講話候補推薦列表(步驟478)。服務(wù)器106在最后將聲音識別結(jié)果、翻譯結(jié)果的文本數(shù)據(jù)、其合成聲音、講話候補推薦列表發(fā)送到便攜式終端104 (步驟472)。如果該處理結(jié)束,則服務(wù)器106轉(zhuǎn)移到下一次的請求處理(步驟452) ο
[0106]參照圖2,便攜式終端104如果受理來自服務(wù)器106的反饋(圖5的步驟316),則將聲音識別結(jié)果顯示于輸入文本顯示區(qū)域150,將自動翻譯結(jié)果的文本顯示于翻譯結(jié)果顯示區(qū)域170,并將講話候補推薦列表192以及翻譯請求按鈕194顯示于講話候補推薦區(qū)域190 (步驟318),進一步地通過按照合成聲音數(shù)據(jù)來驅(qū)動揚聲器280,由此進行講話(步驟320)。根據(jù)步驟318的結(jié)果來更新畫面(步驟322),并返回到用戶的操作等待狀態(tài)(步驟304) ο
[0107]在用戶下一次講話時,能夠參考顯示于講話候補推薦區(qū)域190的講話候補推薦列表。由于并不是在什么都沒有的狀態(tài)下考慮下一次的講話,而是能夠關(guān)注具體的語句進行下一次講話,所以用戶不會感到不知所措。進一步地,由于作為講話,顯示接著之前的講話講出的可能性高的講話,所以用戶在操作便攜式終端104時應(yīng)當回想的事項少的可能性高。并且,顯示于講話候補推薦列表的講話由于翻譯以及聲音識別得分高,所以如果進行了學習該講話的講話,則在進行聲音翻譯時,聲音識別的結(jié)果正確的可能性變高,進一步地,使用了該結(jié)果的自動翻譯的結(jié)果作為目標語言的講話而成為正確的講話的可能性也變高。因此,能夠無誤解且順暢地推進便攜式終端104的用戶和其他語言的用戶之間的對話。
[0108]在本實施方式中,顯示于講話候補推薦列表192的翻譯請求按鈕194都起到產(chǎn)生針對相對應(yīng)的講話的翻譯請求的按鈕的作用。即,如果用戶按壓與講話候補中的任一個文本相對應(yīng)的翻譯請求按鈕194,則將該文本選擇為下一次講話并發(fā)送到服務(wù)器106,作為下一次自動翻譯的對象。
[0109]在文本翻譯的情況下,便攜式終端104如以下方式進行動作。參照圖2,用戶操作文本輸入按鈕154,調(diào)取文本輸入畫面。在便攜式終端104中,在圖5所示的流程圖中,調(diào)取步驟304至步驟340。如果文本的輸入結(jié)束,則用戶按壓結(jié)束文本輸入的按鈕(在圖2中未圖示)。便攜式終端104保存所輸入的文本(步驟342),并更新畫面,以便將所輸入的文本顯示于輸入文本顯示區(qū)域150 (步驟322)。如果用戶進一步按壓翻譯按鈕164,則在圖5中執(zhí)行步驟304?360的處理,生成文本翻譯請求,并發(fā)送到服務(wù)器106。在該請求中附加文本翻譯命令、與基于設(shè)定的語言對相關(guān)的信息、所輸入的源語言的文本數(shù)據(jù)、按壓翻譯按鈕164時的日期時間及用戶的識別信息、以及各種傳感器的輸出。
[0110]服務(wù)器106如果接收到該請求,則通過圖7所示的步驟454、478、480、482、484、486的途經(jīng),將輸入文本翻譯成目標語言,并對其聲音進行合成。服務(wù)器106進一步根據(jù)輸入文本和附加到文本翻譯請求中的各種信息,生成特征向量,使用存儲在講話連續(xù)模型226以及講話候補存儲部228中的各講話的翻譯得分,生成由作為下一次講話的可能性高且翻譯得分也高的源語言的講話列表構(gòu)成的講話候補推薦列表。并且,向便攜式終端104反饋翻譯結(jié)果文本、其合成聲音以及講話候補推薦列表。
[0111]便攜式終端104如果接受了該反饋,則將翻譯結(jié)果文本顯示于翻譯結(jié)果顯示區(qū)域170,并將講話候補推薦列表192以及翻譯請求按鈕194顯示于講話候補推薦區(qū)域190。
[0112]由于在該情況下,也與聲音翻譯時同樣地,將用戶考慮下一次講話用的講話候補推薦列表顯示于講話候補推薦區(qū)域190,所以即便是采用聲音進行下一次講話,還是進行按鈕輸入,都不會感到不知所措,能夠容易考慮下一次的講話。
[0113]如以上所述,根據(jù)本實施方式,在進行聲音翻譯的聲音翻譯系統(tǒng)100中,在便攜式終端104的用戶講話之后,考慮下一次講話時,將講話候補推薦列表顯示于便攜式終端104的畫面上。被顯示的講話候補都是接著先前的講話講出的可能性高且在翻譯時被正確翻譯的可能性高的候補。因此,用戶通過參考這些講話候補來考慮下一次的講話,能夠順暢地繼續(xù)與對方的對話,并且能夠在相互交流中減少因誤譯產(chǎn)生誤解的可能性。
[0114]本次公開的實施方式僅是例示,本發(fā)明并不僅限于上述實施方式。本發(fā)明的范圍在參考發(fā)明的詳細說明的記載的基礎(chǔ)上,由權(quán)利要求書的各項示出,包括與記載于權(quán)利要求書的用語同等的意思以及范圍內(nèi)的所有變更。
[0115]工業(yè)上的可利用性
[0116]本發(fā)明能夠利用于對多人特別是以不同的語言作為母語的人之間的交流進行輔助的終端裝置。
[0117]符號說明
[0118]100聲音翻譯系統(tǒng)
[0119]104便攜式終端
[0120]106服務(wù)器
[0121]108模型生成部
[0122]130應(yīng)用程序畫面
[0123]140語言顯示區(qū)域
[0124]150輸入文本顯示區(qū)域
[0125]160逆翻譯區(qū)域
[0126]180狀態(tài)區(qū)域
[0127]190講話候補推薦區(qū)域
[0128]192講話候補推薦列表
[0129]220聲音識別處理
[0130]222自動翻譯處理
[0131]224聲音合成處理
[0132]226講話連續(xù)模型
[0133]228講話候補存儲部
[0134]230講話候補列表生成處理
[0135]232發(fā)送處理部
[0136]418聲音識別引擎
[0137]422自動翻譯引擎
[0138]424聲音合成處理部
[0139]426講話概率計算部
[0140]428講話候補推薦列表生成部
【權(quán)利要求】
1.一種聲音處理系統(tǒng),包括: 講話輸入部件,用于接受講話信息的輸入,該講話信息包含表示講話的聲音信號和表示完成該講話的環(huán)境的規(guī)定環(huán)境信息; 聲音識別部件,用于對所述講話輸入部件接受的講話信息內(nèi)的聲音信號進行聲音識另IJ,并將識別結(jié)果作為文本來輸出; 數(shù)據(jù)處理部件,對所述聲音識別部件輸出的文本執(zhí)行規(guī)定的數(shù)據(jù)處理; 講話連續(xù)模型存儲部件,用于存儲以統(tǒng)計方式學習完畢的講話連續(xù)模型,統(tǒng)計方式學習完畢的講話連續(xù)模型如下:如果接受了講話的文本和所述規(guī)定環(huán)境信息,則能夠針對規(guī)定的講話集合之中的講話,計算出由所述文本表示的講話之后連續(xù)講出的概率; 講話存儲部件,用于存儲所述數(shù)據(jù)處理部件對所述規(guī)定的講話集合內(nèi)的講話和針對該講話集合內(nèi)的各個講話進行了處理時的數(shù)據(jù)處理的可靠度;以及 講話候補推薦部件,使用所述聲音識別部件對所述講話輸入部件接受的講話信息的識別結(jié)果和該講話信息中包含的環(huán)境信息,基于以規(guī)定的形式將使用存儲在所述講話連續(xù)模型存儲部件中的所述講話連續(xù)模型對所述規(guī)定集合內(nèi)的各講話計算出的概率、和存儲在所述講話存儲部件中的針對所述規(guī)定集合內(nèi)的各講話的所述數(shù)據(jù)處理的可靠度進行組合而得到的評價得分,在所述多個講話的集合內(nèi),對推薦給進行了所述聲音識別部件識別出的講話的用戶的講話候補附加得分,并基于該得分而向用戶推薦講話候補。
2.根據(jù)權(quán)利要求1所述的聲音處理系統(tǒng),其中, 所述數(shù)據(jù)處理部件包括自動翻譯部件,該自動翻譯部件受理接受某講話后所述聲音識別部件輸出的識別結(jié)果,將該識別結(jié)果自動翻譯成與所述某講話的語言不同的其他語言,并作為文本來輸出, 所述可靠度是該自動翻譯部件的翻譯結(jié)果作為相對于所述某講話的所述其他語言的翻譯的似然性。
3.根據(jù)權(quán)利要求2所述的聲音處理系統(tǒng),其中, 所述數(shù)據(jù)處理部件還包括聲音合成部件,該聲音合成部件用于基于所述自動翻譯部件輸出的所述其他語言的文本來對所述其他語言的聲音信號進行合成。
4.根據(jù)權(quán)利要求1?3中任一項所述的聲音處理系統(tǒng),其中, 所述講話候補推薦部件包括以下部件,該部件用于基于使用所述講話連續(xù)模型對所述規(guī)定集合內(nèi)的各講話計算出的概率、與存儲在所述講話存儲部件中的針對所述規(guī)定集合內(nèi)的各講話的可靠度之間的線性和的評價,在所述多個講話的集合內(nèi)推測所述聲音識別部件進行聲音識別的講話之后的后續(xù)講話的候補, 所述線性和中的所述可靠度和所述概率的系數(shù)都是正數(shù)。
5.根據(jù)權(quán)利要求1?4中任一項所述的聲音處理系統(tǒng),其中, 所述聲音處理系統(tǒng)還包括講話候補提示部件,該講話候補提示部件用于向用戶提示由所述講話候補推薦部件推薦的講話候補。
6.根據(jù)權(quán)利要求1?5中任一項所述的聲音處理系統(tǒng),其中, 所述聲音處理系統(tǒng)還包括講話文本信息輸入部件,該講話文本信息輸入部件用于接受包含表示講話的文本和所述規(guī)定環(huán)境信息在內(nèi)的講話文本信息的輸入,取代所述聲音識別部件的輸出而向所述講話候補推薦部件以及所述數(shù)據(jù)處理部件提供該講話文本信息內(nèi)的文本。
7.—種終端裝置,包括:麥克風;用于收集與周圍環(huán)境相關(guān)的信息的傳感器的集合;顯示裝置;通信裝置;以及講話信息發(fā)送部件,與所述麥克風、所述傳感器的集合以及所述通信裝置連接,用于經(jīng)由所述通信裝置,將講話信息發(fā)送到規(guī)定的聲音處理服務(wù)器,并委托聲音識別和針對識別結(jié)果的規(guī)定的數(shù)據(jù)處理,其中,所述講話信息包含從所述麥克風接受講話后輸出的信號中得到的聲音信號和從得到該聲音信號時的所述傳感器的集合得到的信息, 所述終端裝置還包括: 處理結(jié)果提示部件,與所述通信裝置連接,且用于接受響應(yīng)所述委托而從所述聲音處理服務(wù)器發(fā)送來的所述數(shù)據(jù)處理的處理結(jié)果,并向用戶提示該處理結(jié)果;以及 講話候補推薦列表顯示部件,從所述聲音處理服務(wù)器接受被推薦為多個講話候補的講話候補推薦列表,并通過顯示于所述顯示裝置來向用戶推薦講話候補。
8.根據(jù)權(quán)利要求7所述的終端裝置,其中, 所述聲音處理服務(wù)器對所述聲音識別的結(jié)果進行的所述規(guī)定的數(shù)據(jù)處理是以下處理:將所述講話自動翻譯成與該講話的語言不同的其他語言,并進一步對該自動翻譯的結(jié)果的聲音進行合成, 從所述聲音處理服務(wù)器發(fā)送的所述數(shù)據(jù)處理的處理結(jié)果是表示由所述聲音處理服務(wù)器合成的聲音的聲音信號, 所述處理結(jié)果提示部件包括:揚聲器;以及用于根據(jù)表示由所述聲音處理服務(wù)器合成的聲音的聲音信號來驅(qū)動所述揚聲器的部件。
9.根據(jù)權(quán)利要求7或8所述的終端裝置,其中, 所述終端裝置還包括: 選擇部件,用戶能夠為了選擇由所述講話候補推薦列表顯示部件顯示的講話候補當中的任一個講話候補,而操作該選擇部件;以及 講話文本信息發(fā)送部件,響應(yīng)于由所述選擇部件選擇出所述講話候補推薦列表內(nèi)的講話候補當中的任一個講話候補的情況,經(jīng)由所述通信裝置,將包含選擇出的講話候補的文本和從所述傳感器的集合得到的信息在內(nèi)的講話文本信息發(fā)送到規(guī)定的聲音處理服務(wù)器,并委托針對該講話文本信息進行所述規(guī)定的數(shù)據(jù)處理。
【文檔編號】G10L25/69GK104488027SQ201380036292
【公開日】2015年4月1日 申請日期:2013年7月1日 優(yōu)先權(quán)日:2012年7月9日
【發(fā)明者】杉浦孔明, 大熊英男, 木村法幸, 志賀芳則, 林輝昭, 水上悅雄 申請人:獨立行政法人情報通信研究機構(gòu)