數據處理設備、數據處理方法及程序的制作方法

文檔序號：7722211閱讀：188來源：國知局

專利名稱：數據處理設備、數據處理方法及程序的制作方法
技術領域：
本發明涉及數據處理設備、數據處理方法及程序，并且更具體地涉及例如為了易
于同步和顯示電視廣播節目等的內容的圖像和字幕而提供的數據處理設備、數據處理方法及程序。
背景技術：
例如，在電視廣播中，字幕數據以隱藏字幕等形式被包括在電視廣播信號中，使得聽障觀眾可以理解作為內容而提供的節目的圖像細節。在接收電視廣播信號的電視(TV)接收機和/或包括記錄器等的接收設備中，字幕
數據被疊加在節目的圖像數據上，使得節目圖像得到顯示。通常，字幕可被隱藏(關閉)。此外，在現時提供的電視廣播中，字幕不一定與圖像相同步地顯示。也就是說，字
幕常常與對應于字幕的圖像(其細節通過字幕來描述的圖像)不同步地顯示。特別地，例如在現場廣播中，操作者當場在鍵盤上產生示出為字幕的字符，所以對
應于圖像的字幕比圖像顯示滯后若干秒至數十秒。在這種情況下，圖像細節與通過疊加在
圖像上的字幕提供的描述細節不匹配(不一致)。結果，觀眾常常困惑和煩惱。為了校正所顯示字幕的上述延遲，已經引入了通過電視廣播臺計算為圖像數據顯
示的字幕數據的延遲時間并將延遲時間數據發送給接收設備的方法，如在日本未實審專利
申請公布No. 2006-211636中所公開的。在這種情況下，接收設備基于從廣播臺發送的延遲
時間數據、與圖像相同步地顯示字幕。

發明內容
為了以上述方式從廣播臺向接收設備發送延遲時間數據，應當參考延遲時間數據傳輸來決定(修改)廣播標準，并且廣播臺和接收設備兩者應當為該廣播標準做好準備。
然而，為了決定廣播標準應當執行復雜的過程。另外，要使廣播臺和接收設備兩者為廣播標準做好準備也是復雜而困難的。因此，為了易于同步并且顯示內容的圖像和字幕而作出了本發明的實施例。即，本發明的實施例允許同步并顯示內容的圖像和字幕，而無需修改廣播標準或者使廣播臺為廣播標準做好準備。根據本發明一個實施例，提供了一種數據處理設備和/或使計算機充當該數據處理設備的程序，其中該數據處理設備包括輸出控制單元，該輸出控制單元被配置為從內容數據中的字幕數據中提取搜索所針對的字符串，內容數據包括圖像數據、語音數據和字幕數據；搜索語音數據以尋找說出字符串的語音的數據，獲取在圖像數據中包括的、指示說出字符串的時間的定時信息；生成包括識別信息和定時信息的字幕定時信息，從而獲取字幕定時信息，其中識別信息和定時信息彼此互相關聯，并且識別信息用來識別包括字符串的字幕數據；以及基于字幕定時信息使字幕數據和與字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且輸出字幕數據和圖像數據。
根據本發明一個實施例的數據處理方法包括以下步驟從內容數據中的字幕數據中提取搜索所針對的字符串，內容數據包括圖像數據、語音數據和字幕數據；搜索語音數據以尋找說出字符串的語音的數據，獲取在圖像數據中包括的、指示說出字符串的時間的定時信息；生成包括識別信息和定時信息的字幕定時信息，從而獲取字幕定時信息，其中識別信息和定時信息彼此互相關聯，并且識別信息用來識別包括字符串的字幕數據；以及基于字幕定時信息使字幕數據和與字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且通過數據處理設備來輸出字幕數據和圖像數據。根據上述實施例，從包括圖像數據、語音數據和字幕數據的內容數據中的字幕數據中提取搜索所針對的字符串；搜索語音數據以尋找說出字符串的語音的數據，獲取在圖像數據中包括的、指示說出字符串的時間的定時信息；生成包括識別信息和定時信息的字幕定時信息，從而獲取字幕定時信息，其中識別信息和定時信息彼此互相關聯，并且識別信息用來識別包括字符串的字幕數據；以及基于字幕定時信息使字幕數據和與字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且輸出字幕數據和圖像數據。
這里，該數據處理設備可被提供作為獨立設備和/或在單個設備中包括的至少一個內部塊。另外，該程序可被經由傳送介質來傳送并且/或者被記錄在記錄介質上，以便被呈現給用戶。根據本發明一個實施例，可以容易地同步并顯示內容的圖像和字幕。

圖1是示出了根據本發明一個實施例的記錄器的示例性配置的框圖；圖2是示出內容數據處理單元的示例性配置的框圖；圖3是圖示出字幕定時信息獲取處理的流程圖；圖4是圖示出同步和再現處理的流程圖；以及圖5是示出根據本發明實施例的計算機的示例性配置的框圖。
具體實施例方式[根據本發明一個實施例的記錄器的示例性配置] 圖1是示出根據本發明一個實施例的記錄器的示例性配置的框圖。圖1所示的記錄器例如是硬盤(HD)記錄器，其包括調諧器11、解復用器12、記錄
和再現控制單元13、記錄介質14、解碼器15、內容數據處理單元16，等等。調諧器11接收并解調電視廣播節目的傳輸信號，該傳輸信號例如是從數字廣播
臺(未示出)發送的。結果，調諧器11例如獲取包括內容數據的傳輸流(TS)并且將該TS
發送到解復用器12。這里，圖1所示的記錄器不僅可以以上述方式從數字廣播的傳輸信號獲取內容數據(包括內容數據的TS)，而且可以從包括局域網(LAN)、因特網等在內的網絡獲取內容數據。解復用器12從發送自調諧器11的TS中提取用于執行控制的適當數據(節目專用信息(PSI)和/或業務信息(SI))、包括電子節目指南(EPG)數據的數據，并且將適當的
5控制數據發送到記錄和再現控制單元13。另外，解復用器12基于由用戶(觀眾)執行的操作等從發送自調諧器11的TS中提取包括預定節目的內容數據的TS分組，并且將該TS分組發送到記錄和再現控制單元13。
記錄和再現控制單元13控制在記錄介質14上記錄數據和/或從記錄介質14中再現(讀取)數據的操作。也就是說，記錄和再現控制單元13在記錄介質14上記錄從解復用器12發送的 EPG數據、內容數據(包括內容數據的TS分組)。另外，記錄和再現控制單元13從記錄介質14中再現(讀取)內容數據等，并且基于由用戶執行的操作、從內容數據處理單元16發送的請求等將內容數據等發送到解碼器15。記錄介質14包括包含硬盤(HD)等在內的磁盤、包含數字通用盤(DVD)、藍光光盤等在內的光盤、包含閃存等在內的半導體存儲器等，并且在記錄和再現控制單元13的控制下記錄(存儲)數據。解碼器15例如按照運動圖像專家組(MPEG)標準來解碼從記錄和再現控制單元 13發送的、包括內容數據的TS分組，并且將作為解碼結果而獲得的內容數據發送到內容數
據處理單元16，所述內容數據包括圖像數據、語音數據和通過隱藏字幕獲得的字幕數據，等等。內容數據處理單元16將對適當內容數據的請求數據發送到記錄和再現控制單元 13。另外，內容數據處理單元16對包括在從解碼器15發送的內容數據中的圖像數據、語音數據和字幕數據進行處理，并且輸出通過將字幕數據疊加在相應圖像數據上(復合)而得到的復合圖像數據以及與復合圖像數據一起的語音數據。在上述記錄器中，調諧器11接收并解調傳輸信號從而獲得TS，并且將TS發送到解復用器12。解復用器12從發送自調諧器11的TS中提取包括預定節目的內容數據的TS分組，并且將該TS分組發送到記錄和再現控制單元13。記錄和再現控制單元13把從解復用器12發送的、包括內容數據的TS分組記錄在記錄介質14上。結果，執行了所謂的節目記錄。當再現以上述方式記錄的節目時，記錄和再現控制單元13從記錄介質14中再現 (讀取)包括內容數據的TS分組，并且將TS分組發送到解碼器15。解碼器15對從記錄和再現控制單元13發送的、包括內容數據的TS分組進行解碼，從而得到包括圖像數據、語音數據和字幕數據的內容數據，并且將內容數據發送到內容數據處理單元16。內容數據處理單元16對包括在從解碼器15發送的內容數據中的圖像數據、語音數據和字幕數據進行處理，并且輸出通過將字幕數據疊加在相應圖像數據上而得到的復合圖像數據以及與復合圖像數據一起的語音數據。從內容數據處理單元16輸出的復合圖像數據和語音數據被發送到監視器(未示出)。監視器顯示與復合圖像數據相對應的復合圖像，即通過把描述節目圖像細節的字幕數據疊加在節目圖像上而得到的圖像。同時，監視器輸出與語音數據相對應的語音。
這里，可以基于例如由用戶執行的操作來開啟和/或關閉字幕顯示(字幕疊加)。
[內容數據處理單元16的示例性配置]
圖2示出了圖1所示的內容數據處理單元16的示例性配置。在圖2中，內容數據處理單元16是被配置為處理從解碼器15(在圖1中示出)發送的、包括圖像數據、語音數據和字幕數據的內容數據的數據處理設備。內容數據處理單元 16包括內容數據獲取單元31、字幕獲取單元32、單詞提取單元33、語音提取單元34、語音搜索單元35、字幕定時信息生成單元36、同步單元40，等等。內容數據獲取單元31把對內容數據的請求發送給記錄和再現控制單元13(在圖 1中示出)，并且記錄和再現控制單元13響應于該請求而獲取從記錄介質14中再現并被經由解碼器15發送到內容數據獲取單元31的內容數據。另外，內容數據獲取單元31基于例如由用戶執行的操作，通過記錄和再現控制單元13獲取從記錄介質14中再現并被經由解碼器15發送到內容數據獲取單元31的內容數據。內容數據獲取單元31在適當情況下把以上述方式獲取的內容數據發送到字幕獲取單元32、語音獲取單元34和同步單元40。字幕獲取單元32例如按照字幕數據的群組從發送自內容數據獲取單元31的內容數據中獲取(分離)字幕數據，并且將所獲取的字幕數據發送到單詞提取單元33和字幕定時信息生成單元36。單詞提取單元33通過包括形態分析等的自然語言處理技術，例如從作為發送自字幕獲取單元32的字幕數據而提供的文本數據中提取例如作為搜索所針對的(作為搜索目標的)字符串數據而提供的至少一個單詞(串)的數據，并將單詞數據發送到語音搜索單元35。這里，作為搜索所針對的字符串而通過單詞提取單元33從字幕數據中提取的單詞也被稱為搜索目標單詞。另外，除了從字幕數據中提取搜索目標單詞之外，單詞提取單元33在適當情況下
獲取顯示時間信息并將所獲取的顯示時間信息和搜索目標單詞發送到語音搜索單元35，所
述顯示時間信息指示顯示與包括搜索目標單詞的字幕數據相對應的字幕的時間。也就是說，從內容數據獲取單元31發送到字幕獲取單元32的內容數據例如包括
關于顯示字幕數據的時間的信息。字幕數據獲取單元32還從發送自內容數據獲取單元31
的內容數據中獲取顯示時間信息(除了字幕數據之外)，并且將字幕數據和顯示時間信息
發送到單詞提取單元33。當接收到從字幕獲取單元32發送的顯示時間信息時，單詞提取單元33把從字幕數據中提取的搜索目標單詞和關于顯示包括搜索目標單詞的字幕數據的時間的信息發送到語音搜索單元35。語音獲取單元34從發送自內容數據獲取單元31的內容數據中獲取語音數據，并且將語音數據發送到語音搜索單元35。語音搜索單元35搜索從語音獲取單元34發送的語音數據以尋找說出(語音表達)搜索目標單詞(其數據是從單詞提取單元33發送的)的語音的數據，并且獲取指示在與語音數據一起的圖像數據中說出搜索目標單詞的時間的定時信息。這里，定時信息例如可以是時間碼等，其指示參考作為如下內容而提供的節目的頭時間來確定的相對時間，所述內容對應于通過內容數據獲取單元31獲得的內容數據。
另外，當接收到從單詞提取單元33發送的顯示時間信息時，語音搜索單元35可以在顯示時間信息所指示的顯示時間附近的語音數據的范圍內搜索語音數據，以尋找說出搜索目標單詞的語音的數據。因為語音搜索單元35在顯示時間信息所指示的顯示時間附近的語音數據的范圍內搜索語音數據以尋找說出搜索目標單詞的語音的數據，而非搜索通過內容數據獲取單元 31獲取的內容數據中所包括的整個語音數據段，因此例如可以提高語音數據搜索的精度、減少為了獲得搜索而執行的處理量和以高速執行搜索處理。字幕定時信息生成單元36生成字幕定時信息，字幕定時信息包括用于識別從字幕獲取單元32發送的字幕數據的字幕識別信息以及指示說出搜索目標單詞的時間的定時信息，該定時信息是通過語音搜索單元35搜索說出從字幕數據中提取的搜索目標單詞的語音的數據來獲取的，其中字幕識別信息和定時信息彼此互相關聯。另外，字幕定時信息生成單元36與根據內容數據生成的字幕定時信息相關聯地存儲為了識別通過內容數據獲取單元31獲取的內容數據而提供的內容識別信息。
字幕定時信息生成單元36中存儲的字幕定時信息被同步單元40的輸出控制單元 44在適當情況下參考。另外，為了識別字幕數據而提供的字幕識別信息例如可以是字幕數據本身。另外，為了識別內容數據而提供的內容識別信息例如可以是作為與上述內容數據相對應的內容的節目的標題數據和/或廣播日期和時間數據、廣播頻道，等等。此外，唯一的標識(ID)數據可被給予內容數據，并且ID數據可被用作內容識別信
息。字幕識別信息也可能是這種情形。然而，字幕識別信息應當是根據字幕數據本身獲取
的信息，例如通過將字幕數據確定為自變量(argument)而獲得的散列值。同步單元40對從內容數據獲取單元31發送的內容數據執行處理，使得內容數據
中包括的圖像數據和對應于圖像數據的字幕數據被彼此同步地顯示。結果，同步單元40獲
得通過將字幕數據疊加在相應圖像數據上而實現的復合圖像數據，并且輸出復合圖像數據
和與復合圖像數據一起的語音數據。也就是說，同步單元40包括語音獲取單元41、圖像獲取單元42、字幕獲取單元43、輸出控制單元44、復合單元45，等等。內容數據獲取單元31將內容數據發送給語音獲取單元41、圖像獲取單元42和字幕獲取單元43。語音獲取單元41從所發送的內容數據中獲取語音數據并且將語音數據發送給輸出控制單元44。圖像獲取單元42從所發送的內容數據中獲取圖像數據并且將圖像數據發送給輸出控制單元44。字幕獲取單元43從所發送的內容數據中獲取字幕數據并且將字幕數據發送給輸出控制單元44。輸出控制單元44基于字幕定時信息生成單元36中存儲的字幕定時信息來同步從字幕數據獲取單元43發送的字幕數據和與字幕數據的字幕識別信息相關聯的定時信息所指示的時間的圖像數據，并且輸出字幕數據、圖像數據和與圖像數據一起的語音數據。
也就是說，輸出控制單元44在適當情況下存儲從圖像獲取單元42發送的圖像數
8據和從語音獲取單元41發送的、與圖像數據一起的語音數據，使得圖像數據和語音數據被延遲預定時間并輸出。另外，輸出控制單元44參考字幕定時信息生成單元36中存儲的字幕定時信息中的、與通過內容數據獲取單元31獲取的內容信息的內容識別信息相關聯的每個字幕定時信息項，作為將關注的關注字幕定時信息。另外，輸出控制單元44從關注字幕定時信息中檢測與從字幕獲取單元43發送的字幕數據的字幕識別信息相關聯的定時信息，并且與定時信息所指示的時間的圖像數據 (其細節由與從字幕獲取單元43發送的字幕數據相對應的字幕來描述)相同步地輸出從字幕獲取單元43發送的字幕數據。這里，從輸出控制單元44輸出的語音數據被發送到監視器(未示出)。另外，從輸出控制單元44輸出的圖像數據和描述圖像數據細節的字幕的數據被
發送到復合單元45。復合單元45把從輸出控制單元44發送的字幕數據疊加在同樣從輸出控制單元44 發送的圖像數據上(復合)，使得復合圖像數據被生成并輸出。從復合單元45輸出的復合圖像數據被發送到監視器(未示出)，除此之外，從輸出控制單元44輸出的、與復合圖像數據一起的語音數據也被發送到監視器(未示出)。
上述內容數據處理單元16執行字幕定時信息獲取處理以及同步和再現處理。
在字幕定時信息獲取處理期間，例如基于記錄介質14上記錄的內容數據(包括內容數據的TS分組)而生成字幕定時信息，從而獲取字幕定時信息。另外，在同步和再現處理期間，基于通過字幕定時信息獲取處理獲取的字幕定時信息來同步在內容數據中包括的圖像數據和字幕數據，并且輸出圖像數據、字幕數據和與圖像數據一起的語音數據。
[字幕定時信息獲取處理的描述] 將參考圖3來描述通過圖2所示的內容數據處理單元16執行的字幕定時信息獲取處理。字幕定時信息獲取處理可以在諸如周期性時間和/或非周期性時間之類的任意時間開始。在字幕定時信息獲取處理的步驟Sll處，內容數據獲取單元31獲取在記錄介質 14(在圖1中示出)上記錄的內容數據項之一，其中針對所獲取的內容數據項還未獲取字幕定時信息。也就是說，在步驟Sll處，內容數據獲取單元31把對內容數據的請求數據發送到記錄和再現控制單元13 (在圖1中示出)。響應于該請求，內容數據獲取單元31通過記錄和再現控制單元13獲取從記錄介質14中再現并被經由解碼器15發送到內容數據獲取單元31的內容數據。另夕卜，內容數據獲取單元31把經由解碼器15從記錄和再現控制單元13獲取的內容數據發送到字幕獲取單元32和語音獲取單元34，并且處理從步驟Sll前進到步驟S12。
在步驟S12處，字幕獲取單元32從發送自內容數據獲取單元31的內容數據中獲取每個字幕數據項，并且將這些字幕數據項發送到單詞提取單元33和字幕定時信息生成單元36。另外，在步驟S12處，字幕獲取單元32從發送自內容數據獲取單元31的內容數據中獲取關于顯示從該內容數據中獲取的每個字幕數據項的時間的信息，并且將所獲取的顯示時間信息發送到單詞提取單元33。另外，在步驟S12處，語音獲取單元34從發送自內容數據獲取單元31的內容數據中獲取語音數據(語音的波形數據)，并且將語音數據發送到語音搜索單元35。
此后，處理從步驟S12前進到步驟S13，并且單詞提取單元33從發送自字幕獲取單元32的每個字幕數據項中提取作為搜索所針對的字符串的搜索目標單詞的數據。另外，單詞提取單元33生成搜索目標列表的數據，利用該數據，從每個字幕數據項中提取的搜索目標單詞和從字幕提取單元32發送的顯示時間信息(關于顯示搜索目標單詞所提取的來源的字幕的時間的信息)彼此相關聯地被登記。然后，單詞提取單元33將搜索目標列表數據發送到語音搜索單元35，并且處理從步驟S13前進到步驟S14。這里，例如，單詞提取單元33對用作字幕數據的文本數據執行形態分析，從而文本數據被劃分為多個單詞并且這些單詞中的每一個單詞的朗讀(語聲)的數據被獲取。另外，單詞提取單元例如從通過劃分文本數據而得到的多個單詞中選擇(提取)具有最長朗讀的單詞、專有名詞、具有預定數目字符或者更多字符的至少兩個連續單詞(單詞串)等，
作為搜索目標單詞，以便例如在稍后將描述的步驟S16處以適當的精度搜索說出變為關注單詞(remarked word)的搜索目標單詞的語音的數據。在步驟S14處，語音搜索單元35判定搜索目標單詞是否在發送自單詞提取單元33 的搜索目標列表數據中登記過。如果在步驟S14處判定搜索目標單詞在搜索目標列表中登記過，那么處理前進到步驟S15并且語音搜索單元35把在搜索目標列表中登記過的搜索目標單詞之一選擇為關注單詞。此后，處理從步驟S15前進到步驟S16，并且語音搜索單元35搜索從語音獲取單元 34發送的語音數據，以尋找說出關注單詞的語音的數據。然后，語音搜索單元35基于搜索結果辨認出在先前步驟(即步驟Sll)處獲取的內容數據中包括的圖像數據中說出關注單詞的時間。另外，語音搜索單元35生成指示說出關注單詞的時間的定時信息從而獲取定時信息，并且將定時信息發送到字幕定時信息生成單元36，結果處理從步驟S16前進到步驟 S17。這里，語音搜索單元35例如通過所謂的關鍵字定點(keywordspotting)方法和/ 或生成從語音獲取單元34發送的語音數據的音位(phoneme)和音位位置作為索引并且基于上述索引來搜索包括在關注單詞中的音位的系統的方法，來搜索說出關注單詞的語音的數據。另外，語音搜索單元35可以在與關注單詞相關聯的顯示時間信息所指示的顯示時間附近的語音數據的范圍內，搜索從單詞提取單元33發送的搜索目標列表數據，以尋找說出關注單詞的語音的數據(例如，包括顯示時間信息所指示的顯示時間并且與關注單詞的朗讀長度成比例的時間)。在步驟S17處，字幕定時信息生成單元36把從字幕獲取單元32發送的每個字幕數據項確定為字幕數據項的字幕識別信息。另外，字幕定時信息生成單元36生成字幕定時信息，字幕定時信息包括從語音搜索單元35發送的、指示說出關注單詞的時間的定時信息，以及關注單詞所提取來自的字幕數據(從該字幕數據提取)的字幕識別信息，其中定時信息和字幕識別信息彼此互相關聯。
另外，字幕定時信息生成單元36與針對關注單詞而生成的字幕定時信息相關聯地存儲在先前步驟(即步驟Sll)處獲取的內容數據的內容識別信息，并且處理從步驟S17 前進到步驟S18。在步驟S18處，語音搜索單元35從搜索目標列表(其數據是從單詞提取單元33
發送的)中去除關注單詞和與關注單詞相關聯的顯示時間信息。此后，處理從步驟S18返回到步驟S14，從而重復從S14往下的處理。如果在步驟S14處判定搜索目標單詞未在搜索目標列表中登記過，S卩，如果為在
先前步驟(即步驟Sll)處獲取的內容數據中包括的每個字幕數據項生成了字幕定時信息，
那么字幕信息獲取處理完成。 [OO"][同步和再現處理的描述] 將參考圖4來描述通過圖2所示的內容數據處理單元16執行的同步和再現處理。
在同步和再現處理期間，內容數據獲取單元31在步驟S31處判定是否例如由操作記錄器的用戶指定了再現所針對的(作為再現目標的)內容數據。如果在步驟S31處判定未指定再現所針對的內容數據，那么處理返回到步驟S31。
如果在步驟S31處判定指定了再現所針對的內容數據，那么處理前進到步驟S32，結果內容數據獲取單元31開始獲取內容數據，然后處理前進到步驟S33。
也就是說，如果例如由操作記錄器的用戶指定了再現所針對的內容數據，那么記錄和再現控制單元13(在圖1中示出)從記錄介質14中再現對其進行指定的內容數據(下文中稱為所指定的內容數據)，并把所指定的內容數據經由解碼器15發送到內容數據處理單元16。內容數據獲取單元31開始獲取應以上述方式被發送到內容數據處理單元16的所指定內容數據。通過內容數據獲取單元31獲取的內容數據被發送到設在同步單元40中的語音獲取單元41、圖像獲取單元42和字幕獲取單元43。在步驟S33處，內容數據獲取單元31判定是否應當結束內容數據再現。如果在步驟S33處判定不應當結束內容數據再現，即如果用戶未執行指示結束內
容數據再現的操作等，那么處理前進到步驟S34，從而從所指定的內容數據中獲取語音數
據、圖像數據和字幕數據，然后處理前進到步驟S35。也就是說，在步驟S34處，語音獲取單元41從發送自內容數據獲取單元31的所指定內容數據中獲取語音數據，并且將語音數據發送到輸出控制單元44。
另外，圖像獲取單元42從發送自內容數據獲取單元31的所指定內容數據中獲取圖像數據，并且將圖像數據發送到輸出控制單元44。另外，字幕獲取單元43從發送自內容數據獲取單元31的所指定內容數據中獲取字幕數據，并且將字幕數據發送到輸出控制單元44。另外，在步驟S35處，輸出控制單元44參考在字幕定時信息生成單元36中存儲的、與通過內容數據獲取單元31獲取的所指定內容數據的內容識別信息相關聯的每個字幕定時信息項，作為要關注的關注字幕定時信息。另外，輸出控制單元44把從字幕獲取單元43發送的字幕數據確定為字幕識別信息，并且根據關注字幕定時信息來檢測與字幕識別信息相關聯的定時信息，從而獲取定時信息。然后，處理從步驟S35前進到步驟S36，并且輸出控制單元44基于由關注字幕定時信息而獲取的字幕定時信息，來控制從語音獲取單元41輸出的語音數據、從圖像獲取單元 42輸出的圖像數據、以及從字幕獲取單元43輸出的字幕數據。也就是說，輸出控制單元44在適當情況下延遲和/或不延遲從圖像獲取單元42 發送的圖像數據和從語音獲取單元41發送的、與圖像數據一起的語音數據，并且輸出圖像數據和語音數據。另外，輸出控制單元44與如下圖像數據相同步地輸出從字幕獲取單元43發送的
字幕數據所述圖像數據在由關注字幕定時信息獲取的字幕定時信息所指示的時間被顯
示，即其細節通過與從字幕獲取單元43發送的字幕數據相對應的字幕來描述的圖像數據。
也就是說，在由關注字幕定時信息獲取的字幕定時信息所指示的時間的圖像數據被輸出的
同時，輸出控制單元44開始輸出從字幕獲取單元43發送的字幕數據。從輸出控制單元44輸出的圖像數據和(描述圖像數據的細節的)字幕數據被發
送到復合單元45。此后，處理從步驟S36前進到步驟S37，并且復合單元45把從輸出控制單元44發送的字幕數據疊加在同樣從輸出控制單元44發送的圖像數據上(復合)，從而生成并輸出復合圖像數據。從復合單元45輸出的復合圖像數據被發送到監視器(未示出)，除此之外，從輸出
控制單元44輸出的、與復合圖像數據一起的語音數據也被發送到監視器(未示出)。結果，通過監視器，顯示了對應于復合圖像數據的復合圖像(即，描述節目圖像的
字幕所疊加于的節目圖像)，并且輸出了對應于語音數據的語音。此后，處理從步驟S37返回到步驟S33，從而重復從步驟S33往下的處理。然后，如果在步驟S33處判定應當結束內容數據再現，即如果用戶執行了指示結
束內容數據再現的操作等，那么結束同步和再現處理。因此，在內容數據處理單元16中執行的字幕定時信息獲取處理(在圖3中示出)
期間，單詞提取單元33從包括圖像數據、語音數據和字幕數據的內容數據中包括的字幕
數據中提取作為搜索所針對的字符串的搜索目標單詞，語音搜索單元35搜索內容數據中
包括的語音數據以尋找說出搜索目標單詞的語音數據，從而獲取指示在圖像數據中說出搜
索目標單詞的時間的定時信息，并且字幕定時信息生成單元36生成包括字幕識別信息和
定時信息的字幕定時信息，字幕識別信息是為了識別包括搜索目標單詞的字幕數據而提供
的，定時信息指示說出搜索目標單詞的時間，其中字幕識別信息和定時信息彼此互相關聯。另外，在內容數據處理單元16中執行的同步和再現處理(在圖4中示出)期間，
輸出控制單元44基于字幕定時信息來同步字幕數據和與字幕數據的字幕識別信息相關聯
的定時信息所指示的時間的圖像數據，并且輸出字幕數據和圖像數據。因此，可以容易地同步和顯示內容的圖像和字幕。就是說，例如在不修改廣播標準
和/或使廣播臺為廣播標準做好準備的情況下，可以顯示如下內容圖像在該內容圖像上
疊加了描述內容圖像的細節的字幕。結果，可以減少與圖像(其細節通過字幕來描述)不同步顯示的字幕并且防止觀眾困惑和/或煩惱。
12
另外，除了作為從字幕數據中提取的、搜索所針對的字符串的單個單詞之外，單詞提取單元33還可以采用包括子句、句子等在內的多個單詞串。另外，在上述實施例中，內容數據處理單元16基于在記錄介質14上記錄的內容數據來生成字幕定時信息，從而獲取字幕定時信息。然而，可以例如從設在因特網上的服務器等獲取字幕定時信息。即，可以通過設在因特網上的服務器來生成和呈遞字幕定時信息。在這種情況下，內容數據處理單元16可以從設在因特網上的服務器下載字幕定時信息以進行獲取。當從設在因特網上的服務器下載字幕定時信息以進行獲取時，內容數據處理單元 16可以不包括字幕獲取單元32(被提供為生成字幕定時信息的塊)、單詞提取單元33、語音獲取單元34、語音搜索單元35和字幕定時信息生成單元36。另外，在上述實施例中，針對記錄介質14中存儲(記錄)的內容數據執行了字幕定時信息獲取處理(在圖3中示出)和同步和再現處理(在圖4中示出)。然而，除了記錄介質14上記錄的內容數據之外，還可以針對實時廣播的節目的內容數據執行字幕定時信息獲取處理以及同步和再現處理。當針對實時廣播的節目的內容數據執行字幕定時信息獲取處理以及同步和再現處理時，內容數據被發送到字幕獲取單元32和語音獲取單元34，以及設在同步單元40中的語音獲取單元41、圖像獲取單元42和字幕獲取單元43，并且在內容數據處理單元16中并行執行字幕定時信息獲取處理(在圖3中示出)以及同步和再現處理(在圖4中示出)。
在這種情況下，作為同步和再現處理，(在圖2中示出的)輸出控制單元44使從語音獲取單元41發送的語音數據和從圖像獲取單元42發送的圖像數據延遲預定時間，例如獲取至少一個字幕數據項(一組字幕數據項)的字幕定時信息所用的時間，并且輸出語音數據和圖像數據。另一方面，作為字幕定時信息獲取處理，字幕獲取單元32、單詞提取單元33、語音提取單元34、語音搜索單元35和字幕定時信息生成單元36針對通過字幕獲取單元32獲取的最新字幕數據生成字幕定時信息，并且將字幕定時信息發送到輸出控制單元44。
輸出控制單元44基于最新字幕定時信息與相應圖像數據相同步地輸出從字幕獲取單元43發送的最新字幕數據。在上述實施例中，本發明用于記錄器。然而，除了記錄器之外，本發明可以用于被配置為再現內容的設備和/或裝置，例如被配置為接收電視廣播節目的電視(TV)。
接下來，可以通過硬件和/或軟件來執行通過內容數據處理單元16執行的上述一系列處理過程。當通過軟件來執行這一系列處理過程時，軟件中包括的程序例如被安裝在通用計算機上。圖5示出了根據本發明一個實施例的計算機的示例性配置，其中執行上述一系列處理過程的程序被安裝在計算機上。程序可被預先記錄在設在計算機中的、充當記錄介質的硬盤105和/或只讀存儲器(ROM) 103上。另外，程序可被臨時地和/或永久地存儲(記錄)在可移除記錄介質111中，其中可移除記錄介質111包括柔性盤、致密盤只讀存儲器(CD-ROM)、磁光(M0)盤、數字通用盤 (DVD)、磁盤、半導體存儲器，等等。上述可移除記錄介質111可以表示為所謂的套裝軟件。
13
除了從計算機上的上述可移除記錄介質111安裝之外，程序也可以經由為了實現數字衛星廣播而提供的人造衛星被從下載站點無線地傳送到計算機，或者經由包括局域網(LAN)、因特網等的網絡被以有線方式傳送到計算機。計算機可以通過通信單元108接收以上述方式傳送的程序，并且將程序安裝在內部的硬盤105上。計算機包括經由總線101而連接到輸入和輸出接口 110的中央處理單元(CPU) 102。例如當包括鍵盤、鼠標、麥克風等的輸入單元107被用戶操作，使得指令經由輸入和輸出接口 IIO被發送到CPU 102時，CPU 102基于該指令執行在只讀存儲器(ROM) 103中存儲的程序。另一方面，CPU 102把硬盤105中存儲的程序加載到隨機存取存儲器(RAM) 104中并執行該程序，該程序是從衛星和/或網絡傳送、由通信單元108接收、并被安裝在硬盤105上的程序，或是從插入到驅動器109中的可移除記錄介質111中讀取、并被安裝在硬盤105上的程序。結果，CPU 102執行基于上述流程圖的處理，以及通過上述框圖的配置來執行的處理。然后，CPU102在適當情況下例如經由輸入和輸出接口 IIO從包括液晶顯示器(LCD)、揚聲器等的輸出單元106輸出處理結果的數據，或者從通信單元108發送處理結果數據，并且將處理結果數據記錄在硬盤105上。另外，在本說明書中，描述使計算機執行各處理過程的程序的處理步驟可以不按照根據編寫為流程圖的次序的時間順序來執行。即，處理步驟包括并行執行和/或分開執行的處理過程(例如，并行處理和/或由對象執行的處理)。可以通過單個計算機來處理程序，或者可以將程序分發在多個計算機中進行處理。另外，可以將程序傳送到遠處的計算機并且執行程序。本申請包含與2008年12月4日向日本專利局提交的日本在先專利申請JP
2008-309578中所公開的內容有關的主題，該申請的全部內容通過引用結合于此。本領域技術人員應當明白，取決于設計要求和其他因素，只要各種修改、組合、子
組合和變更在權利要求或其等同物的范圍內就可以作出這些修改、組合、子組合和變更，而
不限于上述實施例。
權利要求
一種數據處理設備，包括輸出控制裝置，被配置為從內容數據中的字幕數據中提取搜索所針對的字符串，所述內容數據包括圖像數據、語音數據和所述字幕數據，搜索所述語音數據以尋找說出所述字符串的語音的數據，獲取在所述圖像數據中包括的、指示說出所述字符串的時間的定時信息，生成包括識別信息和所述定時信息的字幕定時信息，從而獲取所述字幕定時信息，其中所述識別信息和所述定時信息彼此互相關聯，并且所述識別信息用來識別包括所述字符串的字幕數據，以及基于所述字幕定時信息使所述字幕數據和與所述字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且輸出所述字幕數據和所述圖像數據。
2. 根據權利要求1所述的數據處理設備，還包括提取裝置，被配置為從所述內容數據的字幕數據中提取所述搜索所針對的字符串；搜索裝置，被配置為搜索所述內容數據中的語音數據以尋找說出所述字符串的語音的數據，并且獲取指示說出所述字符串的時間的定時信息，以及生成裝置，被配置為生成包括所述識別信息和所述定時信息的字幕定時信息，其中所述識別信息和所述定時信息彼此互相關聯，并且其中所述識別信息用來識別包括所述字符串的字幕數據。
3. 根據權利要求2所述的數據處理設備，其中，當所述內容數據還包括指示顯示所述字幕數據的時間的顯示時間信息時，所述搜索裝置在所述顯示時間信息所指示的顯示時間的時間附近的語音數據的范圍內，搜索說出所述字符串的語音的數據。
4. 一種數據處理方法，包括以下步驟從內容數據中的字幕數據中提取搜索所針對的字符串，所述內容數據包括圖像數據、語音數據和所述字幕數據，搜索所述語音數據以尋找說出所述字符串的語音的數據，獲取在所述圖像數據中包括的、指示說出所述字符串的時間的定時信息，生成包括識別信息和所述定時信息的字幕定時信息，從而獲取所述字幕定時信息，其中所述識別信息和所述定時信息彼此互相關聯，并且所述識別信息用來識別包括所述字符串的字幕數據，以及基于所述字幕定時信息使所述字幕數據和與所述字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且通過數據處理設備來輸出所述字幕數據和所述圖像數據。
5. —種使計算機充當輸出控制裝置的程序，所述輸出控制裝置被配置為從內容數據中的字幕數據中提取搜索所針對的字符串，所述內容數據包括圖像數據、語音數據和所述字幕數據，搜索所述語音數據以尋找說出所述字符串的語音的數據，獲取在所述圖像數據中包括的、指示說出所述字符串的時間的定時信息，生成包括識別信息和所述定時信息的字幕定時信息，從而獲取所述字幕定時信息，其中所述識別信息和所述定時信息彼此互相關聯，并且所述識別信息用來識別包括所述字符串的字幕數據，基于所述字幕定時信息使所述字幕數據和與所述字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且輸出所述字幕數據和所述圖像數據。
6. —種數據處理設備，包括輸出控制單元，被配置為從內容數據中的字幕數據中提取搜索所針對的字符串，所述內容數據包括圖像數據、語音數據和所述字幕數據，搜索所述語音數據以尋找說出所述字符串的語音的數據，獲取在所述圖像數據中包括的、指示說出所述字符串的時間的定時信息，生成包括識別信息和所述定時信息的字幕定時信息，從而獲取所述字幕定時信息，其中所述識別信息和所述定時信息彼此互相關聯，并且所述識別信息用來識別包括所述字符串的字幕數據，以及基于所述字幕定時信息使所述字幕數據和與所述字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且輸出所述字幕數據和所述圖像數據。
全文摘要
本發明公開了數據處理設備、數據處理方法及程序。該數據處理設備包括輸出控制單元，該輸出控制單元被配置為從內容數據中的字幕數據中提取搜索所針對的字符串，內容數據包括圖像數據、語音數據和字幕數據；搜索語音數據以尋找說出字符串的語音的數據，獲取在圖像數據中包括的、指示說出字符串的時間的定時信息；生成包括識別信息和定時信息的字幕定時信息，從而獲取字幕定時信息，其中識別信息和定時信息彼此互相關聯，并且識別信息用來識別包括字符串的字幕數據；以及使字幕數據和與字幕數據的識別信息相關聯的定時信息所指示的時間的圖像數據同步，并且基于字幕定時信息輸出字幕數據和圖像數據。
文檔編號H04N5/445GK101753915SQ200910252949
公開日2010年6月23日申請日期2009年12月4日優先權日2008年12月4日
發明者小林賢一郎, 山本則行, 淺野康治申請人:索尼株式會社

完整全部詳細技術資料下載