專利名稱:語音處理裝置、語音處理方法和程序的制作方法
技術領域:
本發明涉及語音處理裝置、語音處理方法和程序。
背景技術:
近年來,越來越多的用戶將數字化音樂數據存儲到個人計算機(PC)和便攜式音 頻播放器中并通過根據存儲的音樂數據播放音樂來欣賞。基于具有表列音樂數據的播放列 表按順序執行這種音樂播放。當總是單純地按同樣的次序播放音樂時,可能用戶不久就會 厭煩音樂播放。因此,用于音頻播放器的一些軟件具有按從播放列表中隨機選擇的次序執 行音樂播放的功能。日本專利申請公開No. 10-104010中公開了一種自動識別音樂的間歇期并在間歇 期以語音的形式輸出導航信息的導航裝置。除了單純地播放音樂之外,導航裝置可以在用 戶欣賞其播放的音樂與其它音樂之間的間歇期向用戶提供有用的信息。
發明內容
日本專利申請公開No. 10-104010中公開的導航裝置主要目的是插入導航信息而 不覆蓋音樂播放,并非旨在改變欣賞音樂的用戶的體驗質量。如果可以不僅在間歇期而且 在音樂進行中的各個時間點輸出多樣化的語音,則可以針對娛樂性和真實感改進用戶的體
驗質量。鑒于上述內容,期望提供一種新型的和改進的語音處理裝置、語音處理方法和程 序,能夠在音樂進行中的各個時間點輸出多樣化的語音。根據本發明的一個實施例,提供了一種語音處理裝置,包括數據獲取單元,用于 獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間段的特性的音樂進行數 據;確定單元,用于通過采用數據獲取單元獲取的音樂進行數據確定要在播放音樂期間輸 出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在確定單元確定的輸出時 間點輸出語音。采用以上配置,動態地確定與音樂進行中一個或更多個時間點或者一個或更多個 時間段相關聯的輸出時間點,并且在音樂播放期間在輸出時間點輸出語音。數據獲取單元還可以獲取用于定義與特性由音樂進行數據定義的一個或更多個 時間點或者一個或更多個時間段中的任何一個相關聯的語音輸出時刻的時刻數據,以及, 確定單元可以通過采用音樂進行數據和時刻數據確定輸出時間點。數據獲取單元還可以獲取定義語音內容的模板,以及,語音處理裝置還可以包括 合成單元,用于通過采用數據獲取單元獲取的模板合成語音。模板可以包含以文本格式描述語音內容的文本數據,并且文本數據可以具有表示 要插入音樂的屬性值的位置的特定符號。數據獲取單元還可以獲取表示音樂的屬性值的屬性數據,并且合成單元可以在根 據數據獲取單元獲取的屬性數據在特定符號所表示的位置插入音樂的屬性值之后通過采用模板中包含的文本數據合成語音。語音處理裝置還可以包括存儲器單元,用于存儲被定義為分別與音樂播放相關 的多個主題中的任何一個主題相關聯的多個模板,其中,數據獲取單元可以從存儲器單元 處存儲的多個模板中獲取與指定主題對應的一個或更多個模板。至少一個模板可以包含被插入音樂的標題或藝術家姓名作為屬性值的文本數據。至少一個模板可以包含被插入與音樂的排名相關的屬性值的文本數據。語音處理裝置還可以包括歷史日志單元,用于記錄音樂播放的歷史,其中至少一 個模板可以包含被插入基于歷史日志單元記錄的歷史設置的屬性值的文本數據。至少一個模板可以包含被插入基于音樂收聽者或者與收聽者不同的用戶的音樂 播放歷史設置的屬性值的文本數據。音樂進行數據定義的一個或更多個時間點或者一個或更多個時間段的特性可以 包含在該時間點或時間段處演唱的存在、旋律的類型、節拍的存在、音符的類型、音調的類 型以及演奏的樂器的類型中的至少一個。根據本發明的另一個實施例,提供了一種采用語音處理裝置的語音處理方法,包 括如下步驟從布置在語音處理裝置內部或外部的存儲介質獲取定義音樂進行中一個或更 多個時間點或者一個或更多個時間段的特性的音樂進行數據;通過采用獲取的音樂進行數 據確定要在播放音樂期間輸出語音的輸出時間點;并且在播放音樂期間在確定的輸出時間 點輸出語音。根據本發明的另一個實施例,提供了一種程序,用于使控制語音處理裝置的計算 機用作數據獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個 時間段的特性的音樂進行數據;確定單元,用于通過采用數據獲取單元獲取的音樂進行數 據確定要在播放音樂期間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期 間在確定單元確定的輸出時間點輸出語音。如上所述,采用根據本發明的語音處理裝置、語音處理方法和程序,可以在音樂進 行中的各個時間點輸出多樣化的語音。
圖1是示出了根據本發明的實施例的語音處理裝置的概要的示意圖;圖2是示出了屬性數據的示例的說明圖;圖3是示出了音樂進行數據的示例的第一說明圖;圖4是示出了音樂進行數據的示例的第二說明圖;圖5是示出了主題、模板與時刻數據之間的關系的說明圖;圖6是示出了主題、模板和時刻數據的示例的說明圖;圖7是示出了發音描述數據的示例的說明圖;圖8是示出了播放歷史數據的示例的說明圖;圖9是示出了根據第一實施例的語音處理裝置的配置的示例的框圖;圖10是示出了根據第一實施例的合成單元的詳細配置的示例的框圖;圖11是描述了根據第一實施例的語音處理流程的示例的流程圖;圖12是示出了與第一主題對應的語音的示例的說明圖13是示出了屬于第二主題的模板和時刻數據的示例的說明圖14是示出了與第二主題對應的語音的示例的說明圖15是示出了屬于第三主題的模板和時刻數據的示例的說明圖16是示出了與第三主題對應的語音的示例的說明圖17是示出了根據第二實施例的語音處理裝置的配置的示例的框圖18是示出了屬于第四主題的模板和時刻數據的示例的說明圖19是示出了與第四主題對應的語音的示例的說明圖20是示出了根據第三實施例的語音處理裝置的概要的示意圖21是示出了根據第三實施例的語音處理裝置的配置的示例的框圖22是示出了屬于第五主題的模板和時刻數據的示例的說明圖23是示出了與第五主題對應的語音的示例的說明圖;以及
圖24是示出了根據本發明的實施例的語音處理裝置的硬件配置的示例的框圖。
具體實施例方式在下文中,將參照附圖詳細描述本發明的優選實施例。注意,在本說明書和附圖 中,用相同的參考標號表示功能和結構基本上相同的結構元件,并且省略對這些結構元件 的重復說明。將按如下順序對本發明的實施例進行描述。1.語音處理裝置的概要2.對語音處理裝置管理的數據的描述2-1.音樂數據2-2.屬性數據2-3.音樂進行數據2-4.主題、模板和時刻數據2-5.發音描述數據2-6.播放歷史數據3.對第一實施例的描述3-1.語音處理裝置的配置示例3-2.處理流程的示例3-3.主題的示例3-4.第一實施例的結論4.對第二實施例的描述4-1.語音處理裝置的配置示例4-2.主題的示例4-3.第二實施例的結論5.對第三實施例的描述5-1.語音處理裝置的配置示例5-2.主題的示例5-3.第三實施例的結論
<1.語音處理裝置的概要>首先,將參照圖1描述根據本發明的實施例的語音處理裝置的概要。圖1是示出 了根據本發明的實施例的語音處理裝置的概要的示意圖。圖1示出了語音處理裝置100a、 語音處理裝置100b、網絡102和外部數據庫104。語音處理裝置IOOa是根據本發明的實施例的語音處理裝置的示例。例如,語音處 理裝置IOOa可以是諸如PC和工作站等的信息處理裝置、諸如數字音頻播放器和數字電視 接收機等數字家用電器、車輛導航設備等。示范性地,語音處理裝置IOOa能夠經由網絡102 訪問外部數據庫104。語音處理裝置IOOb也是根據本發明的實施例的語音處理裝置的示例。此處,示出 了便攜式音頻播放器作為語音處理裝置100b。例如,語音處理裝置IOOb能夠通過采用無線 通信功能訪問外部數據庫104。語音處理裝置IOOa和IOOb例如讀取集成或可拆卸可連接存儲介質中存儲的音樂 數據并播放音樂。語音處理裝置IOOa和IOOb例如可以包括播放列表功能。在此情形中, 也可以按播放列表定義的順序播放音樂。另外,如后面詳細描述的,語音處理裝置IOOa和 IOOb在要播放的音樂進行中的多個時間點執行附加的語音輸出。可以對應于用戶或系統要 指定的主題和/或按照音樂屬性動態地生成語音處理裝置IOOa和IOOb要輸出的語音的內 容。在下文中,當不明確需要相互區分時,在本說明書的以下描述中縮略每個標號末 尾的字母而將語音處理裝置IOOa和語音處理裝置IOOb統稱為語音處理裝置100。網絡102是連接語音處理裝置IOOa和外部數據庫104的通信網絡。例如,網絡 102可以是任意通信網絡,諸如互聯網、電話通信網、互聯網協議-虛擬專用網(IP-VPN)、局 域網(LAN)或廣域網(WAN)等。另外,網絡102是有線的還是無線的均沒有關系。外部數據庫104是響應于來自語音處理裝置100的請求向語音處理裝置100提供 數據的數據庫。外部數據庫104提供的數據包括例如音樂屬性數據、音樂進行數據和發音 描述數據的一部分。然而,不限于以上內容,可以從外部數據庫104提供其它類型的數據。 另外,可以把在本說明書中描述成從外部數據庫104提供的數據預先存儲在語音處理裝置 100內部。<2.對語音處理裝置管理的數據的描述〉接下來,將描述本發明的實施例中的語音處理裝置100使用的主要數據。[2-1.音樂數據]音樂數據是通過將音樂編碼成數字形式獲取的數據。音樂數據可以以壓縮類型或 非壓縮類型的任意格式形成,諸如WAV、AIFF、MP3和ATRAC等。后面描述的屬性數據和音樂 進行數據與音樂數據相關聯。[2-2.屬性數據]在本說明書中,屬性數據是表示音樂屬性值的數據。圖2示出了屬性數據的示例。 如圖2中所示,屬性數據(ATT)包括從致密盤(CD)的內容表(TOC)、MP3的ID3標簽或播 放列表中獲取的數據(在下文中,稱為TOC數據)以及從外部數據庫104獲取的數據(在 下文中,稱為外部數據)。此處,TOC數據包括音樂標題、藝術家姓名、流派、長度、序數位置 (即,播放列表中的第幾首音樂)等。外部數據例如可以包括表示按每周或每月排名音樂的
7序號的數據。如后所述,可以把這種屬性數據的值插入到要在語音處理裝置100的音樂播 放期間輸出的語音內容中包括的預定位置。[2-3.音樂進行數據]音樂進行數據是定義音樂進行中一個或更多個時間點或者一個或更多個時間段 的屬性的數據。音樂進行數據通過分析音樂數據生成,并且例如預先保存在外部數據庫104 處。例如,可以采用SMFMF格式作為音樂進行數據的數據格式。例如,GraceNote (注冊商 標)公司的壓縮盤數據庫(CDDB,注冊商標)提供市場上SMFMF格式的大量音樂的音樂進行 數據。語音處理裝置100可以使用這種數據。圖3示出了以SMFMF格式描述的音樂進行數據的示例。如圖3中所示,音樂進行 數據(MP)包括一般數據(⑶)和時間線數據(TL)。一般數據是描述整個音樂的特性的數據。在圖3的示例中,示出了音樂的格調(即 歡快、寂寞等)和每分鐘的節拍(BPM 表示音樂的節奏)作為一般數據的數據項。可以把 這種一般數據作為音樂屬性數據處理。時間線數據是描述音樂進行中一個或更多個時間點或者一個或更多個時間段的 屬性的數據。在圖3的示例中,時間線數據包括“位置”、“類別”和“子類別”三個數據項。此 處,“位置”例如通過采用其開始點在開始音樂演奏的時間點的時間范圍(例如,在毫秒等的 數量級上)定義音樂進行中的某個時間點。另外,“類別”和“子類別”表示在“位置”定義的 時間點或者從該時間點開始的局部時間段中演奏的音樂的屬性。更具體地,例如當“類別” 為“旋律”時,“子類別”表示演奏的旋律的類型(即前奏、A調、B調、符尾和弦(hook-line)、 間奏等)。例如當“類另Γ為“音符”時,“子類別”表示演奏的音符的類型(即CMaj、Cm、C7 等)。例如當“類別”為“節拍”時,“子類別”表示在該時間點演奏的節拍的類型(即大節 拍、小節拍等)。例如當“類別”為“樂器”時,“子類別”表示演奏的樂器的類型(即吉他、貝 司、鼓、男歌手、女歌手等)。此處,“類別”和“子類別”的分類不限于這些示例。例如,“男 歌手”、“女歌手”等可以在屬于被定義成與類別“樂器”不同的類別(例如,“歌手”)的子類 別中。圖4是進一步描述音樂進行數據之中的時間線數據的說明圖。圖4上面的部分采 用時間軸示出了音樂進行中演奏的旋律類型、音符類型、音調類型、樂器類型。例如,在圖4 的音樂中,旋律類型按“前奏”、“A調”、“B調”、“符尾和弦”、“間奏”、“B調”和“符尾和弦”的 次序進行。音符類型按“CMaj”、“Cm”、“CMaj”、“Cm”和“C#Maj”的次序進行。音調類型按 “C”和“C#”的次序進行。另外,男歌手在除了 “前奏”和“間奏”以外的旋律部分出現(即 男歌手在這些時段中演唱)。此外,在整個音樂過程中演奏鼓。圖4下面的部分示出了五個時間線數據TLl至TL5作為以上音樂進行中的示例。 時間線數據TLl表示自開始演奏的時間點之后的位置20000 ( S卩,時間點20000毫秒(=20 秒))起演奏的旋律為“A調”。時間線數據TL2表示男歌手在位置21000處開始演唱。時間 線數據TL3表示自位置45000起演奏的音符為“CMaj”。時間線數據TL4表示在位置60000 處演奏大節拍。時間線數據TL5表示自位置63000起演奏的音符為“Cm”。通過采用這種音樂進行數據,語音處理裝置100可以識別在音樂進行中的一個或 更多個時間點或者一個或更多個時間段之中歌聲何時出現(歌手何時演唱),識別在演奏 中何時出現何種類型的旋律、音符、音調或樂器,或者識別何時演奏節拍。
[2-4.主題、模板和時刻數據]圖5是示出了主題、模板與時刻數據之間的關系的說明圖。如圖5中所示,一個或 更多個模板(TP)以及一個或更多個時刻數據(TM)與一個主題數據(TH)相關聯地存在。 即,模板和時刻數據與任何一個主題數據相關聯。主題數據表示分別與音樂播放相關的主 題并把提供的多對模板和時刻數據分類成數個組。例如,主題數據包括主題標識符(ID)和 主題名稱兩個數據項。此處,主題ID是唯一標識各個主題的標識符。主題名稱例如是用戶 用來從多個主題中選擇期望的主題的主題的名稱。模板是定義要在音樂播放期間輸出的語音內容的數據。模板包括以文本格式描述 語音內容的文本數據。例如,語音合成引擎讀出文本數據,以使得模板定義的內容被轉換成 語音。另外,如后所述,文本數據包括表示要插入音樂屬性數據中包含的屬性值的位置的特 定符號。時刻數據是定義與從音樂進行數據識別的一個或更多個時間點或者一個或更多 個時間段相關聯的要在音樂播放期間輸出語音的輸出時刻的數據。例如,時刻數據包括類 型、基準和偏移量三個數據項。此處,例如,類型用于指定包括對音樂進行數據的時間線數 據的類別或子類別的引用的至少一個時間線數據。另外,基準和偏移量定義由類型指定的 時間線數據所表示的時間軸上的位置和相對于語音輸出時間點的位置關系。在對本實施例 的描述中,為一個模板提供一個時刻數據。或者,可以為一個模板提供多個時刻數據。圖6是示出了主題、模板和時刻數據的示例的說明圖。如圖6中所示,多對(對1、 對2、...)模板和時刻數據與具有主題ID為“主題1”和主題名稱為“電臺DJ”這些數據項 的主題數據THl相關聯。對1包含模板TPl和時刻數據TMl。模板TPl包含文本數據“音樂是$ {ARTIST}的 ${TITLE} !”。此處,文本數據中的“${ARTIST}”是表示要插入音樂屬性值之中的藝術家姓 名的位置的符號。另外,“${TITLE}”是表示要插入音樂屬性值之中的標題的位置的符號。 在本說明書中,要插入音樂屬性值的位置用“${. · · } ”表示。然而,不限于此,可以使用其他 符號。另外,作為與模板TPl對應的時刻數據TMl的各個數據值,類型為“最初的歌聲”、基 準為“開頭”、偏移量為“-10000”。以上定義了要自音樂進行中最初的歌聲的時間段的開頭 以前十秒的位置起輸出模板TPl定義的語音內容。另外,對2包含模板TP2和時刻數據TM2。模板TP2包含文本數據“下一首音樂是 $ {NEXT_ARTIST}的 $ {NEXT_TITLE} ! ”。此處,文本數據中的"$ {NEXT_ARTIST} ” 是表示要 插入下一首音樂的藝術家姓名的位置的符號。另外,“$ {NEXT_TITLE} ”是表示要插入下一 首音樂的標題的位置的符號。另外,作為與模板TP2對應的時刻數據TM2的各個數據值,類 型為“間奏”、基準為“開頭”、偏移量為“+2000”。以上定義了要自間奏的時間段的開頭之后 兩秒的位置起輸出模板TP2定義的語音內容。通過準備針對每個主題分類的多個模板和時刻數據,可以根據用戶或系統指定的 主題在音樂進行中的各個時間點輸出多樣化的語音內容。各個主題的語音內容的一些示例 將在后面進一步描述。[2-5.發音描述數據]發音描述數據是通過采用標準化符號描述詞語和語句的準確發音(即,如何恰當 讀出)的數據。例如,用于描述詞語和語句發音的系統可以采用國際音標(IPA)、語音評估方法音標(SAMPA)、擴展SAM音標(X-SAMPA)等。在本說明書中,通過采用能夠僅通過ASCII 字符表達所有符號的X-SAMPA的示例進行描述。圖7是通過采用X-SAMPA示出了發音描述數據的示例的說明圖。圖7中示出了三 個文本數據TXl至TX3以及分別與之對應的三個發音描述數據PDl至PD3。此處,文本數據 TXl表示音樂標題“Mamma Mia”。為了精確,要將音樂標題發音為“mamma miea”。然而,當 單純地將文本數據輸入到用于讀出文本的文本到語音(TTS)引擎時,可能會把音樂標題錯 誤地發音為“mamma maia”。另外,發音描述數據PDl遵照X-SAMPA把文本數據TXl的準確 發音描述為“ ”mA. mi"mi. @,,。當將發音描述數據PDl輸入到能夠支持X-SAMPA的TTS引擎 時,合成準確發音的語音“mamma miea”。類似地,文本數據TX2表示音樂標題“Gimme ! Gimme ! Gimme!”。當向TTS引 擎直接輸入文本數據TX2時,符號“ ! ”被解釋成表示祈使句,使得可能將不必要的空白時 間段插入到標題發音中。另外,通過基于“,,gl. mi#,,gl. mi#,,gl. mi#,,@,,的發音描述數據 PD2合成語音,合成準確發音的語音而沒有不必要的空白時間段。文本數據TX3表示除了日語的中文字符之外還包含字符串“ negai”的音樂標 題。當向TTS引擎直接輸入文本數據TX3時,可能會把沒有必要讀出的符號“ ”讀出為 “波浪線”。另外,通過基于“ne. ”Na. i”的發音描述數據PD3合成語音,合成準確發音的語 音 “negai,,。市場上許多音樂標題和藝術家姓名的這種發音描述數據例如由上述 GraceNote (注冊商標)公司的⑶DB(注冊商標)提供。相應地,語音處理裝置100可以采 用這些數據。[2-6.播放歷史數據]播放歷史數據是保存用戶或設備播放音樂的歷史的數據。播放歷史數據可以以按 時間順序累積播放什么音樂以及何時播放音樂的信息的格式形成或者可以在進行處理以 進行一些概括之后形成。圖8是示出了播放歷史數據的示例的說明圖。圖8中示出了形式相互不同的播放 歷史數據HIST1、HIST2。播放歷史數據HISTl是按時間順序累積包含唯一地指定音樂的音 樂ID以及播放音樂ID指定的音樂的日期和時間的記錄的數據。另外,播放歷史數據HIST2 例如是通過總結播放歷史數據HISTl獲得的數據。播放歷史數據HIST2表示針對每個音樂 ID在預定時間段(例如一周或一個月等)內的播放數量。在圖8的示例中,音樂“M001”的 播放數量為十次,音樂“M002”的播放數量為一次,播放音樂“M123”的數量為五次。與音樂 屬性值類似,可以將從諸如各個音樂的播放數量等播放歷史數據中總結的值、在按降序存 儲的情形中的序數位置插入到語音處理裝置100合成的語音內容中。接下來,將對采用以上數據在音樂進行中的各個時間點輸出多樣化語音內容的語 音處理裝置100的配置進行具體描述。<3.對第一實施例的描述〉[3-1.語音處理裝置的配置示例]圖9是示出了根據本發明的第一實施例的語音處理裝置100的配置的示例的框 圖。如圖9中所示,語音處理裝置100包括存儲器單元110、數據獲取單元120、時刻確定單 元130、合成單元150、音樂處理單元170和音頻輸出單元180。
10
存儲器單元110例如通過采用諸如硬盤和半導體存儲器等存儲介質存儲用于語 音處理裝置100的處理的數據。存儲器單元110要存儲的數據包含音樂數據、與音樂數據 相關聯的屬性數據以及針對每個主題分類的模板和時刻數據。此處,在音樂播放期間將這 些數據之中的音樂數據輸出到音樂處理單元170。通過數據獲取單元120獲取并分別向時 刻確定單元130和合成單元150輸出屬性數據、模板和時刻數據。數據獲取單元120從存儲器單元110或外部數據庫104獲取時刻確定單元130和 合成單元150要使用的數據。更具體地,數據獲取單元120例如從存儲器單元110獲取要 播放的音樂的屬性數據的一部分以及與主題對應的模板和時刻數據并將時刻數據輸出到 時刻確定單元130以及把屬性數據和模板輸出到合成單元150。另外,例如,數據獲取單元 120例如從外部數據庫104中獲取要播放的音樂的屬性數據的一部分、音樂進行數據和發 音描述數據,并把音樂進行數據輸出到時刻確定單元130以及把屬性數據和發音描述數據 輸出到合成單元150。時刻確定單元130通過采用數據獲取單元120獲取的音樂進行數據和時刻數據確 定音樂進行中要輸出語音的輸出時間點。例如,假定圖4中示例的音樂進行數據以及圖6 中示例的時刻數據TMl輸入到時刻確定單元130中。在此情形中,首先,時刻確定單元130 從音樂進行數據中查找時刻數據TMl的類型“最初的歌聲”指定的時間線數據。隨后,指定 圖4中示例的時間線數據TL2為表示音樂的最初的歌聲時間段的開頭時間點的數據。相應 地,時刻確定單元130通過把時刻數據TMl的偏移量值“-10000”加到時間線數據TL2的位 置“21000”來確定根據模板TPl合成的語音的輸出時間點為位置“11000”。以此方式,時刻確定單元130分別針對可能從數據獲取單元120輸入的多個時刻 數據確定與每個時刻數據對應的根據模板合成的語音的輸出時間點。然后,時刻確定單元 130將針對每個模板確定的輸出時間點輸出到合成單元150。此處,根據音樂進行數據的內容,可以確定對于一些模板不存在語音輸出時間點 (即,不輸出語音)。還可以想到對于單個時刻數據存在輸出時間點的多個候選。例如,針 對圖6中示例的時刻數據TM2指定輸出時間點為間奏的開頭之后兩秒。此處,當在單個音 樂中多次演奏間奏時,也根據時刻數據TM2指定輸出時間點為多個。在此情形中,時刻確定 單元130可以從多個輸出時間點之中確定第一個輸出時間點為根據與時刻數據TM2對應的 模板TP2合成的語音的輸出時間點。或者,時刻確定單元130可以確定要在多個輸出時間 點重復輸出語音。合成單元150通過采用數據獲取單元120獲取的屬性數據、模板和發音描述數據 合成要在音樂播放期間輸出的語音。在模板的文本數據具有表示要插入音樂屬性值的位置 的符號的情形中,合成單元150把屬性數據代表的音樂屬性值插入到該位置。圖10是示出了合成單元150的詳細配置的示例的框圖。參照圖10,合成單元150 包括發音內容生成單元152、發音轉換單元154和語音合成引擎156。發音內容生成單元152把音樂屬性值插入到從數據獲取單元120輸入的模板的文 本數據中并生成要在音樂播放期間輸出的語音的發音內容。例如,假定圖6中示例的模板 TPl輸入到發音內容生成單元152中。在此情形中,發音內容生成單元152識別模板TPl的 文本數據中的符號$ {ARTIST}。隨后,發音內容生成單元152從屬性數據中提取并向符號 $ {ARTIST}的位置插入要播放的音樂的藝術家姓名。類似地,發音內容生成單元152識別模板TPl的文本數據中的符號$ {TITLE}。隨后,發音內容生成單元152從屬性數據中提取并 向符號$ {TITLE}的位置插入要播放的音樂的標題。結果,當要播放的音樂的標題為“Tl” 且藝術家姓名為“Al”時,基于模板TPl生成發音內容“音樂是Al的Tl ! ”。發音轉換單元154通過采用發音描述數據對發音內容生成單元152生成的發音 內容之中在單純讀出諸如音樂標題和藝術家姓名等文本數據時可能引起錯誤發音的部分 的發音內容進行轉換。例如,在發音內容生成單元152生成的發音內容中包含音樂標題 "Mamma Mia”的情形中,發音轉換單元154從自數據獲取單元120輸入的發音描述數據中提 取例如圖7中示例的發音描述數據PDl并把“Mamma Mia”轉換成“”mA. m@”mi. @”。結果, 生成消除了錯誤發音可能性的發音內容。示例性地,語音合成引擎156是除了正常文本之外還能夠讀出以X-SAMPA格式描 述的符號的TTS引擎。語音合成引擎156合成語音以根據從發音轉換單元154輸入的發音 內容讀出發音內容。可以以諸如脈沖編碼調制(PCM)和自適應差分脈沖編碼調制(ADPCM) 等任意格式形成語音合成引擎156合成的語音的信號。語音合成引擎156合成的語音與時 刻確定單元130確定的輸出時間點相關聯地輸出到音頻輸出單元180。此處,存在針對單個音樂向合成單元150輸入多個模板的可能性。當在此情形中 同時執行音樂播放和語音合成時,優選地,合成單元150按從較早起的輸出時間點的時間 順序對模板執行處理。相應地,使得能夠減小輸出時間點在完成語音合成的時間點之前過 去的可能性。下面,參照圖9繼續對語音處理裝置100的配置的描述。為了播放音樂,音樂處理單元170從存儲器單元110獲取音樂數據并且例如在執 行諸如流分離和解碼等處理之后生成PCM格式或ADPCM格式的音頻信號。另外,音樂處理 單元170例如可以根據用戶或系統指定的主題只對從音樂數據中提取的一部分執行處理。 音樂處理單元170生成的音頻信號輸出到音頻輸出單元180。合成單元150合成的語音以及音樂處理單元170生成的音樂(即其音頻信號)輸 入到音頻輸出單元180。示例性地,通過采用能夠并行處理的兩個或更多個聲道(或緩存 器)保存語音和音樂。音頻輸出單元180在時刻確定單元130確定的時間點輸出合成單元 150合成的語音并同時順序輸出音樂音頻信號。此處,在語音處理裝置100設置有揚聲器的 情形中,音頻輸出單元180可以將音樂和語音輸出到揚聲器或者可以將音樂和語音(即其 音頻信號)輸出到外部設備。至此,參照圖9和圖10對語音處理裝置100的配置的示例進行了描述。示例性地, 在以上語音處理裝置100的各個單元之中,采用軟件實現并通過諸如中央處理單元(CPU) 和數字信號處理器(DSP)等運算設備執行數據獲取單元120、時刻確定單元130、合成單元 150和音樂處理單元170的處理。除了運算設備之外,音頻輸出單元180還可以設置有DA 轉換電路和模擬電路以對要輸入的語音和音樂執行處理。另外,如上所述,存儲器單元110 可以被配置為采用諸如硬盤和半導體存儲器等存儲介質。[3-2.處理流程的示例]接下來,將參照圖11描述語音處理裝置100所進行的語音處理的流程的示例。圖 11是示出了語音處理裝置100所進行的語音處理流程的示例的流程圖。參照圖11,首先,音樂處理單元170從存儲器單元110獲取要播放音樂的音樂數據(步驟S102)。然后,音樂處理單元170例如把用以指定要播放的音樂的音樂ID等通知給 數據獲取單元120。接下來,數據獲取單元120從存儲器單元110獲取要播放音樂的屬性數據的一部 分(例如,TOC數據)以及與主題對應的模板和時刻數據(步驟S104)。隨后,數據獲取單 元120把時刻數據輸出到時刻確定單元130并把屬性數據和模板輸出到合成單元150。接下來,數據獲取單元120從外部數據庫104獲取要播放音樂的屬性數據的一部 分(例如,外部數據)、音樂進行數據和發音描述數據(步驟S106)。隨后,數據獲取單元 120把音樂進行數據輸出到時刻確定單元130并把屬性數據和發音描述數據輸出到合成單 元 150。接下來,時刻確定單元130通過采用音樂進行數據和時刻數據確定要輸出根據模 板合成的語音的輸出時間點(步驟S108)。隨后,時刻確定單元130把確定的輸出時間點輸 出到合成單元150。接下來,合成單元150的發音內容生成單元152根據模板和屬性數據生成文本 格式的發音內容(步驟S110)。另外,發音轉換單元154通過采用發音描述數據用根據 X-SAMPA格式的符號替代發音內容中包含的音樂標題和藝術家姓名(步驟S112)。隨后,語 音合成引擎156根據發音內容合成要輸出的語音(步驟S114)。重復步驟SllO至步驟S114 的處理,直到針對時刻確定單元130確定輸出時間點的所有模板完成語音合成為止(步驟 S116)。當針對輸出時間點確定的所有模板完成語音合成時,圖11的流程圖完成。此處,語音處理裝置100可以與諸如音樂處理單元170對音樂數據的解碼等處理 并行地執行圖11的語音處理。在此情形中,優選地,語音處理裝置100例如首先開始圖11 的語音處理并在與播放列表中第一首音樂有關的語音合成(或者與音樂有關的語音之中 與最早輸出時間點對應的語音合成)完成之后開始對音樂數據的解碼等。[3-3.主題的示例]接下來,將參照圖12至圖16針對三種類型的主題對根據本實施例的語音處理裝 置100提供的多樣化語音的示例進行描述。(第一主題電臺DJ)圖12是示出了與第一主題對應的語音的示例的說明圖。第一主題的主題名稱為 “電臺DJ”。圖6中示出了屬于第一主題的模板和時刻數據的示例。如圖12中所示,基于包含文本數據“音樂是$ {ARTIST}的$ {TITLE} ! ”的模板TPl 以及屬性數據ATTl合成語音Vl “音樂是Al的Tl ! ”。另外,基于時刻數據TMl確定語音 Vl的輸出時間點在音樂進行數據所表示的最初的歌聲的時間段的開頭之前十秒處。相應 地,緊鄰最初的歌聲開始之前輸出具有真實感的電臺DJ狀的語音“音樂是Al的Tl ! ”而不 覆蓋歌聲。類似地,基于圖6的模板TP2合成語音V2 “下一首音樂是A2的T2 ! ”。另外,基 于時刻數據TM2確定語音V2的輸出時間點在音樂進行數據所表示的間奏的時間段的開頭 之后兩秒處。相應地,緊鄰符尾和弦結束和間奏開始之后輸出具有真實感的電臺DJ狀的語 音“下一首音樂是A2的T2 ! ”而不覆蓋歌聲。(第二主題官方倒計時(countdown))
13
圖13是示出了屬于第二主題的模板和時刻數據的示例的說明圖。如圖13中所示, 多對模板和時刻數據(即,對1、對2、...)與具有主題ID為“主題2”且主題名稱為“官方 倒計時”數據項的主題數據TH2相關聯。對1包含模板TP3和時刻數據TM3。模板TP3包含文本數據“本周排名第 $ {RANKING}位,$ {ARTIST}的$ {TITLE} ”。此處,文本數據中的“$ {RANKING} ”例如是表示 音樂屬性值之中要插入音樂的每周銷售排名的序數位置的位置的符號。另外,作為與模 板TP3對應的時刻數據TM3的各個數據值,類型為“符尾和弦”、基準為“開頭”、偏移量為 “-10000”。另外,對2包含模板TP4和時刻數據TM4。模板TP4包含文本數據“排名從上周上 升 $ {RANKING_DIFF},$ {ARTIST}的 $ {TITLE} ”。此處,文本數據中的“$ {RANKING_DIFF} ”例 如是表示音樂屬性值之中要插入音樂的每周銷售排名從上周的變化的位置的符號。另外, 作為與模板TP4對應的時刻數據TM4的各個數據值,類型為“符尾和弦”、基準為“結尾”、偏 移量為“+2000”。圖14是示出了與第二主題對應的語音的示例的說明圖。如圖14中所示,基于圖13的模板TP3合成語音V3 “本周排名第三位,A3的T3”。 另外,基于時刻數據TM3確定語音V3的輸出時間點在音樂進行數據所表示的符尾和弦的時 間段的開頭之前十秒處。相應地,緊鄰演奏符尾和弦前輸出銷售排名倒計時狀的語音“本周 排名第三位,A3的T3”。類似地,基于圖13的模板TP4合成語音V4 “排名從上周上升六位,A3的T3”。另 外,基于時刻數據TM4確定語音V4的輸出時間點在音樂進行數據所表示的符尾和弦的時間 段的結尾之后兩秒處。相應地,緊鄰符尾和弦結束后輸出銷售排名倒計時狀的語音“排名從 上周上升六位,A3的T3”。當主題是這種官方倒計時時,音樂處理單元170可以提取并向音頻輸出單元180 輸出包含符尾和弦的音樂的一部分,而不是把整個音樂輸出到音頻輸出單元180。在此情形 中,時刻確定單元130確定的語音輸出時間點可能根據音樂處理單元170提取的部分移動。 采用該主題,例如可以通過根據被獲取作為外部數據的排名數據以倒計時方式接連播放僅 符尾和弦部分的音樂來向用戶提供新的娛樂特性。(第三主題信息提供)圖15是示出了屬于第三主題的模板和時刻數據的示例的說明圖。如圖15中所示, 多對模板和時刻數據(即,對1、對2、...)與具有主題ID為“主題3”且主題名稱為“信息 提供”數據項的主題數據TH3相關聯。對1包含模板TP5和時刻數據TM5。模板TP5包含文本數據“$ {INF01} ”。作為與 模板TP5對應的時刻數據TM5的各個數據值,類型為“最初的歌聲”、基準為“開頭”、偏移量 為 “-10000”。對2包含模板TP6和時刻數據TM6。模板TP6包含文本數據“$ {INF02} ”。作為 與模板TP6對應的時刻數據TM6的各個數據值,類型為“間奏”、基準為“開頭”、偏移量為 “+2000”。此處,文本數據中的“$ {INF01} ”和“$ {INF02} ”是表示分別插入與一些情況對應 的由數據獲取單元120獲取的第一和第二信息的位置的符號。第一和第二信息可以是新聞、天氣預報或廣告。另外,新聞和廣告可以與音樂或藝術家有關或者可以與之無關。例如, 可以通過數據獲取單元120從外部數據庫104獲取信息。圖16是示出了與第三主題對應的語音的示例的說明圖。參照圖16,基于模板TP5合成用于讀新聞的語音V5。另外,基于時刻數據TM5確定 語音V5的輸出時間點在音樂進行數據所表示的最初的歌聲的時間段的開頭之前十秒處。 相應地,緊鄰最初的歌聲開始之前輸出用于讀新聞的語音。類似地,基于模板TP6合成用于讀天氣預報的語音V6。另外,基于時刻數據TM6確 定語音V6的輸出時間點在音樂進行數據所表示的間奏的開頭之后兩秒處。相應地,緊鄰符 尾和弦結束和間奏開始之后輸出用于讀天氣預報的語音。采用該主題,由于例如在不出現歌聲的前奏或間奏的時間段中向用戶提供諸如新 聞和天氣預報等信息,因此用戶可以在欣賞音樂的同時有效地利用時間。[3-4.第一實施例的結論]至此,參照圖9至圖16對根據本發明第一實施例的語音處理裝置100進行了描 述。根據本實施例,通過采用定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的屬性的音樂進行數據動態地確定要在音樂播放期間輸出語音的輸出時間點。隨后,在 音樂播放期間在確定的輸出時間點輸出語音。相應地,語音處理裝置100能夠在音樂進行 中的各個時間點輸出語音。這時,采用定義與一個或更多個時間點或者一個或更多個時間 段相關聯的語音輸出時刻的時刻數據。相應地,可以根據時刻數據的定義靈活地設置或改 變語音輸出時間點。另外,根據本實施例,使用模板以文本格式描述要輸出的語音內容。文本數據具有 表示要插入音樂屬性值的位置的特定符號。隨后,可以把音樂屬性值動態地插入到特定符 號的位置。相應地,可以容易地提供各種類型的語音內容,并且語音處理裝置100可以在音 樂進行中輸出多樣化的語音。另外,根據本實施例,通過新定義模板來隨后添加要輸出的語 音內容也是容易的。此外,根據本實施例,準備與音樂播放有關的多個主題,分別與多個主題中的任意 一個主題相關聯地定義以上模板。相應地,由于根據主題的選擇輸出不同的語音內容,語音 處理裝置100能夠長期娛樂用戶。此處,在對本實施例的描述中,在音樂進行中輸出語音。另外,語音處理裝置100 可以輸出諸如叮當聲以及與之伴隨的有效聲音等短音樂。<4.對第二實施例的描述〉[4-1.語音處理裝置的配置示例]圖17是示出了根據本發明的第二實施例的語音處理裝置200的配置的示例的框 圖。參照圖17,語音處理裝置200包括存儲器單元110、數據獲取單元220、時刻確定單元 130、合成單元150、音樂處理單元270、歷史日志單元272和音頻輸出單元180。與根據第一實施例的數據獲取單元120類似,數據獲取單元220從存儲器單元110 或外部數據庫104中獲取時刻確定單元130或合成單元150使用的數據。另外,在本實施 例中,數據獲取單元220獲取由后面提及的歷史日志單元272記錄的播放歷史數據作為音 樂屬性數據的一部分并輸出到合成單元150。相應地,合成單元150變得能夠把基于音樂播 放歷史設置的屬性值插入到模板中包含的文本數據的預定位置。
與根據第一實施例的音樂處理單元170類似,音樂處理單元270從存儲器單元110 獲取音樂數據以播放音樂并且通過執行諸如流分離和解碼等處理生成音頻信號。音樂處理 單元270例如可以根據用戶或系統指定的主題只對從音樂數據提取的一部分執行處理。把 音樂處理單元270生成的音頻信號輸出到音頻輸出單元180。另外,在本實施例中,音樂處 理單元270把音樂播放的歷史輸出到歷史日志單元272。歷史日志單元272例如通過采用諸如硬盤和半導體存儲器等存儲介質以參照圖8 描述的播放歷史數據HISTl和/或HIST2的形式記錄從音樂處理單元270輸入的音樂播放 歷史。隨后,歷史日志單元272根據需要把由此記載的音樂播放歷史輸出到數據獲取單元 220。語音處理裝置200的配置使得能夠基于如下描述的第四主題輸出語音。[4-2.主題的示例](第四主題個人倒計時)圖18是示出了屬于第四主題的模板和時刻數據的示例的說明圖。參照圖18,多對 模板和時刻數據(即,對1、對2、...)與具有主題ID為“主題4”且主題名稱為“個人倒計 時”數據項的主題數據TH4相關聯。對1包含模板TP7和時刻數據TM7。模板TP7包含文本數據“本周播放 $ {FREQUENCY}次,$ {ARTIST}的 $ {TITLE} ! ”。此處,文本數據中的 “$ {FREQUENCY} ” 例如 是表示基于音樂播放歷史設置的音樂屬性值中要插入上周音樂播放次數的位置的符號。例 如,這一播放次數包含在圖8的播放歷史數據HIST2中。另外,作為與模板TP7對應的時刻 數據TM7的各個數據值,類型為“符尾和弦”、基準為“開頭”、偏移量為“-10000”。另外,對2包含模板TP8和時刻數據TM8。模板TP8包含文本數據“連續 $ {DURATION}周第${P_RANKING}位,你最喜愛的音樂$ {TITLE} ”。此處,文本數據中的 “$ {DURATION}”例如是表示基于音樂播放歷史設置的音樂屬性值中要插入表示音樂在排名 的同一序數位置中停留了多少周的數值的位置的符號。文本數據中的“${P_RANKING}”例 如是表示基于音樂播放歷史設置的音樂屬性值中要插入音樂在播放數量排名上的序數位 置的位置的符號。另外,作為與模板TP8對應的時刻數據TM8的各個數據值,類型為“符尾 和弦”、基準為“結尾”、偏移量為“+2000”。圖19是示出了與第四主題對應的語音的示例的說明圖。參照圖19,基于圖18的模板TP7合成語音V7 “本周播放八次,A7的T7 ! ”。另 外,基于時刻數據TM7確定語音V7的輸出時間點在音樂進行數據所表示的符尾和弦的時間 段的開頭之前十秒處。相應地,緊鄰演奏符尾和弦之前輸出每個用戶或每個語音處理裝置 100的關于播放數量排名的倒計時狀的語音“本周播放八次,A7的T7 ! ”。類似地,基于圖18的模板TP8合成語音V8“連續三周第一位,你最喜愛的音樂T7”。 另外,基于時刻數據TM8確定語音V8的輸出時間點在音樂進行數據所表示的符尾和弦的時 間段的結尾之后兩秒處。相應地,緊鄰符尾和弦結束之后輸出關于播放數量排名的倒計時 狀的語音“連續三周第一位,你最喜愛的音樂T7”。在本實施例中,音樂處理單元270也可以提取并向音頻輸出單元180輸出包含符 尾和弦的音樂的一部分,而不是把整個音樂輸出到音頻輸出單元180。在此情形中,可以根 據音樂處理單元270所提取的部分移動時刻確定單元130確定的語音輸出時間點。
[4-3.第二實施例的結論]至此,參照圖17至圖19對根據本發明第二實施例的語音處理裝置200進行了描 述。根據本實施例,也通過采用定義音樂進行中一個或更多個時間點或者一個或更多個時 間段的屬性的音樂進行數據動態地確定要在音樂播放期間輸出語音的輸出時間點。然后, 在音樂播放期間輸出的語音內容可以包含基于音樂播放歷史設置的屬性值。相應地,增進 了可以在音樂進行中各個時間點輸出各種語音。另外,采用以上第四主題(“個人倒計時”),可以為用戶或系統播放的音樂進行關 于播放數量排名的倒計時狀的音樂介紹。相應地,由于當播放傾向不同時向具有同樣音樂 組的用戶提供不同的語音,因此預期進一步提高用戶要體驗的娛樂特性。<5.對第三實施例的描述〉在描述為本發明的第三實施例的示例中,通過采用第二實施例的歷史日志單元 272記錄的音樂播放歷史通過多個用戶(或多個裝置)之間的合作增進要輸出的各種語音。[5-1.語音處理裝置的配置示例]圖20是示出了根據本發明的第三實施例的語音處理裝置300的概要的示意圖。圖 20示出了語音處理裝置300a、語音處理裝置300b、網絡102和外部數據庫104。語音處理裝置300a和300b能夠經由網絡102相互通信。語音處理裝置300a和 300b是本實施例的語音處理裝置的示例,可以是信息處理裝置、數字家用電器、車輛導航設 備等,與根據第一實施例的語音處理裝置100類似。下面,把語音處理裝置300a和300b統 稱為語音處理裝置300。圖21是示出了根據本實施例的語音處理裝置300的配置的示例的框圖。如圖21 中所示,語音處理裝置300包括存儲器單元110、數據獲取單元320、時刻確定單元130、合成 單元150、音樂處理單元370、歷史日志單元272、推薦單元374和音頻輸出單元180。與根據第二實施例的數據獲取單元220類似,數據獲取單元320從存儲器單元 110、外部數據庫104或歷史日志單元272獲取時刻確定單元130或合成單元150要使用的 數據。另外,在本實施例中,當輸入用以唯一地標識后述推薦單元374所推薦音樂的音樂ID 時,數據獲取單元320從外部數據庫104等獲取與音樂ID相關的屬性數據并輸出到合成單 元150。相應地,合成單元150變得能夠將與推薦音樂相關的屬性值插入到模板中包含的文 本數據的預定位置。與根據第二實施例的音樂處理單元270類似,音樂處理單元370從存儲器單元110 獲取音樂數據以播放音樂并通過執行諸如流分離和解碼等處理生成音頻信號。另外,音樂 處理單元370把音樂播放歷史輸出到歷史日志單元272。另外,在本實施例中,當推薦單元 374推薦音樂時,音樂處理單元370例如從存儲器單元110(或者未示出的其他源)獲取所 推薦音樂的音樂數據并執行諸如生成以上音頻信號等處理。推薦單元374基于歷史日志單元272記錄的音樂播放歷史確定要向語音處理裝置 300的用戶推薦的音樂并把唯一地指定該音樂的音樂ID輸出到數據獲取單元320和音樂 處理單元370。例如,推薦單元374可以把歷史日志單元272記錄的音樂播放歷史中播放 數量大的音樂的藝術家的其他音樂確定為要推薦的音樂。另外,例如,推薦單元374可以通 過與其他語音處理裝置300交換音樂播放歷史并采用諸如基于內容過濾(CBF)和協同過濾 (CF)等方法確定要推薦的音樂。另外,推薦單元374可以經由網絡102獲取新音樂的信息并把新音樂確定為要推薦的音樂。另外,推薦單元374可以經由網絡102將自身的歷史日 志單元272記錄的播放歷史數據或者被推薦音樂的音樂ID發送到其他語音處理裝置300。語音處理裝置300的配置使得能夠基于下面描述的第五主題輸出語音。[5-2.主題的示例](第五主題推薦)圖22是示出了屬于第五主題的模板和時刻數據的示例的說明圖。參照圖22,多對 模板和時刻數據(即,對1、對2、對3...)與具有主題ID為“主題5”且主題名稱為“推薦” 數據項的主題數據TH5相關聯。對1包含模板TP9和時刻數據TM9。模板TP9包含文本數據“為常常收聽$ {P_M0ST_ PLAYED}的你推薦 ${R_ARTIST}的 $ {R_TITLE} ”。此處,文本數據中的“$ {P_M0ST_PLAYED},, 例如是表示要插入歷史日志單元272記錄的音樂播放歷史中播放次數最大的音樂標題的 位置的符號。“$ {R_TITLE} ”和“$ {R_ARTIST} ”是分別表示插入推薦單元374所推薦音樂的 標題和藝術家姓名的位置的符號。另外,作為與模板TP9對應的時刻數據TM9的各個數據 值,類型為“第一 A調”、基準為“開頭”、偏移量為“-10000”。另外,對2包含模板TPlO和時刻數據TM10。模板TPlO包含文本數據“你朋友的排 名第 $ {F_RANKING}位,$ {R_ARTIST}的 $ {R_TITLE} ”。此處,文本數據中的“$ {F_RANKING} ” 是表示推薦單元374從其它語音處理裝置300接收的音樂播放歷史中插入表示推薦單元 374所推薦音樂的序數位置的數值的位置的符號。另外,對3包含模板TPll和時刻數據TM11。模板TPll包含文本數據“將在 $ {RELEASE_DATE}發行 $ {R_ARTIST}的 $ {R_TITLE} ”。此處,文本數據中的"$ {RELEASE, DATE}”例如是表示要插入推薦單元374所推薦音樂的發行日期的位置的符號。圖23是示出了與第五主題對應的語音的示例的說明圖。參照圖23,基于圖22的模板TP9合成語音V9“為常常收聽T9的你推薦A9的T9+”。 另外,基于時刻數據TM9確定語音V9的輸出時間點在音樂進行數據所表示的第一 A調的時 間段的開頭之前十秒處。相應地,緊鄰演奏音樂的第一 A調之前輸出用以介紹所推薦音樂 的語音V9。類似地,基于圖22的模板TPlO合成語音VlO“你朋友的排名第一位,AlO的T10”。 也確定語音VlO的輸出時間點在音樂進行數據所表示的第一A調的時間段的開頭之前十秒 處。類似地,基于圖22的模板TPll合成語音Vll “將在9月1日發行All的T11”。 也確定語音Vll的輸出時間點在音樂進行數據所表示的第一A調的時間段的開頭之前十秒 處。在本實施例中,音樂處理單元370可以提取并向音頻輸出單元180輸出僅包含從 第一 A調直到第一符尾和弦(即,有時稱為音樂的“第一和弦”)為止的音樂的一部分,而不 是將整個音樂輸出到音頻輸出單元180。[4-3.第三實施例的結論]至此,參照圖20至圖23對根據本發明的第三實施例的語音處理裝置300進行了 描述。根據本實施例,也通過采用定義音樂進行中一個或更多個時間點或者一個或更多個 時間段的屬性的音樂進行數據動態地確定要在音樂播放期間輸出語音的輸出時間點。然后,在音樂播放期間輸出的語音內容可以包含與基于音樂收聽者(收聽用戶)或者與收聽 者不同的用戶的播放歷史數據所推薦的音樂相關的屬性值。相應地,可以通過連同對音樂 的介紹一起播放與采用普通播放列表要播放的音樂不同的未預見到的音樂進一步提高用 戶的體驗質量,諸如促進遇到新的音樂等。此處,本說明書中描述的語音處理裝置100、200、或者300可以實施為例如具有圖 24中所示的硬件配置的裝置。在圖24中,CPU 902控制硬件的整體操作。只讀存儲器(ROM)904存儲描述一系 列處理的一部分或全部的程序或數據。隨機存取存儲器(RAM)906暫時存儲CPU 902在執 行處理期間要使用的程序、數據等。CPU 902、ROM 904和RAM 906經由總線910相互連接。總線910還連接到輸入/ 輸出接口 912。輸入/輸出接口 912是將CPU 902、ROM 904和RAM 906連接到輸入設備 920、音頻輸出設備922、存儲設備924、通信設備926和驅動器930的接口。輸入設備920經由諸如按鈕、開關、控制桿、鼠標和鍵盤等用戶接口從用戶接收指 令和信息的輸入(例如,主題指定)。音頻輸出設備922例如對應于揚聲器等并用于音樂播 放和語音輸出。存儲設備924例如由硬盤、半導體存儲器等構建并存儲程序和各種數據。通信設 備926支持經由網絡與外部數據庫104或其他設備的通信處理。例如根據需要布置驅動器 930并且可以把可移除介質932裝配到驅動器930。本領域的技術人員應當理解,根據設計要求和其它因素,可以進行各種修改、組 合、子組合和改變,只要這些修改、組合、子組合和改變在所附權利要求或其等價內容的范 圍內。例如,不一定按照流程圖中描述的次序執行參照圖11描述的語音處理。各個處理 步驟可以包括同時或單獨執行的處理。本申請包含與2009年8月21日提交于日本專利局的日本在先專利申請JP 2009-192399中公開的主題相關的主題,所述日本在先專利申請JP2009-192399全部內容 通過引用合并于此。
19
權利要求
1. 一種語音處理裝置,包括數據獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的特性的音樂進行數據;確定單元,用于通過采用所述數據獲取單元獲取的音樂進行數據確定要在播放音樂期 間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在所述確定單元確定的所述輸出時間點輸出語音°
2.根據權利要求1所述的語音處理裝置,其中,所述數據獲取單元還獲取時刻數據,所述時刻數據用于定義與特性由所述音樂 進行數據定義的一個或更多個時間點或者一個或更多個時間段中的任何一個相關聯的語 音的輸出時刻,以及所述確定單元通過采用所述音樂進行數據和所述時刻數據確定所述輸出時間點。
3.根據權利要求2所述的語音處理裝置,其中,所述數據獲取單元還獲取定義語音內容的模板,以及 所述語音處理裝置還包括合成單元,用于通過采用所述數據獲取單元獲取的模板合成語音。
4.根據權利要求3所述的語音處理裝置,其中,所述模板包含以文本格式描述所述語音內容的文本數據,以及 所述文本數據具有表示要插入音樂的屬性值的位置的特定符號。
5.根據權利要求4所述的語音處理裝置,其中,所述數據獲取單元還獲取表示音樂的屬性值的屬性數據,以及 所述合成單元在根據所述數據獲取單元獲取的屬性數據在由所述特定符號所表示的 位置插入音樂的屬性值之后采用所述模板中包含的文本數據合成語音。
6.根據權利要求3所述的語音處理裝置,還包括存儲器單元,用于存儲被定義為分別與音樂播放相關的多個主題中的任何一個主題相 關聯的多個模板,其中,所述數據獲取單元從所述存儲器單元所存儲的多個模板中獲取與指定主題對應 的一個或更多個模板。
7.根據權利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入音樂的標題或藝術家姓名作為屬性值的文本數據。
8.根據權利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入與音樂的排名相關的屬性值的文本數據。
9.根據權利要求4所述的語音處理裝置,還包括 歷史日志單元,用于記錄音樂播放的歷史,其中,至少一個所述模板包含被插入基于所述歷史日志單元記錄的歷史設置的屬性值 的文本數據。
10.根據權利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入基于音樂收聽者或者與收聽者不同的用戶的音樂播放歷史設置的屬性值的文本數據。
11.根據權利要求1所述的語音處理裝置,其中,所述音樂進行數據定義的一個或更多個時間點或者一個或更多個時間段的特性 包含在所述時間點或時間段處演唱的存在、旋律的類型、節拍的存在、音符的類型、音調的 類型以及演奏樂器的類型的至少一個。
12.—種采用語音處理裝置的語音處理方法,包括如下步驟從布置在語音處理裝置內部或外部的存儲介質獲取定義音樂進行中一個或更多個時 間點或者一個或更多個時間段的特性的音樂進行數據;通過采用所獲取的音樂進行數據確定要在播放音樂期間輸出語音的輸出時間點;并且 在播放音樂期間在所確定的輸出時間點輸出語音。
13.一種程序,用于使得用于控制語音處理裝置的計算機用作數據獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的特性的音樂進行數據;確定單元,用于通過采用所述數據獲取單元獲取的音樂進行數據確定要在播放音樂期 間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在所述確定單元確定的輸出時間點輸出語音。
全文摘要
本發明提供了一種語音處理裝置、語音處理方法和程序,所述語音處理裝置包括數據獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間段的特性的音樂進行數據;確定單元,用于通過采用數據獲取單元獲取的音樂進行數據確定要在播放音樂期間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在確定單元確定的輸出時間點輸出語音。
文檔編號G10L13/04GK101996627SQ20101025475
公開日2011年3月30日 申請日期2010年8月13日 優先權日2009年8月21日
發明者宮下健, 梨子田辰志, 池田哲男 申請人:索尼公司