專利名稱:用于本征與非本征視聽數據的綜合分析的系統和方法
技術領域:
本發明涉及本征(intrinsic)和非本征(extrinsic)視聽信息的綜合分析,并且特別地本發明涉及例如電影中的特性(feature)與電影中未出現的但是例如通過因特網可獲得的特性的分析和相關。
背景技術:
對電影感興趣的人們多年來不得不查閱書籍、印刷雜志或者印刷的大百科全書,以獲得有關具體電影的附加信息。隨著因特網的出現,許多因特網站涉足于電影相關資料。一個示例是Internet Movie Database(因特網電影數據庫)(http//www.imdb.com),這是對于大量的電影提供大量的各種附加信息的非常詳盡和精致的網站。即使因特網為訪問附加電影信息提供了方便,仍然必須由用戶通過因特網在可獲得的海量信息中設法實現其目的。
隨著Digital Versatile Disk(數字通用光盤)(DVD)媒介的出現,與電影相關的附加信息通常可以在DVD電影的基本菜單上以菜單格式獲得。時常可獲得訪談、可選的電影場景、擴展的演職員表、各種瑣事等。進一步,DVD格式便于場景瀏覽、情節概要、不同場景的書簽等。即使附加信息在許多DVD上可獲得,但是該附加信息是由電影的制作者選擇的,進一步,該附加信息受到DVD盤上可用空間的限制,并且其是靜態信息。
可獲得的電影數量和涉及各種電影、演員、導演等的可獲得的附加信息量是巨大的,并且用戶遭受“信息過載”。對電影感興趣的人們經常努力解決有關他們可以如何準確地找到他們所想要的東西,以及如何發現他們喜歡的新事物的問題。為了解決這一問題,人們已經開發了各種用于搜索和分析視聽數據的系統和方法。可獲得不同類型的這樣的系統,例如用于自動概述的系統,這樣的系統描述在US申請2002/0093591中。另一類型的系統是用于基于例如被選圖像數據例如電影中演員的圖像而進行目標搜索的系統,這樣的系統描述在US申請2003/0107592中。
本發明人已經認識到,能夠集成本征和非本征視聽數據(諸如,集成在DVD電影上的視聽數據和在因特網上發現的附加信息)的系統是具有益處的,并因此設計了本發明。
發明內容
本發明試圖提供用于分析視聽數據的改進系統。更好地,本發明單獨地或組合地緩和或減輕一個或更多個上述缺陷。
因此,在第一方面,提供用于本征和非本征視聽信息的綜合分析的系統,該系統包括本征內容分析器,該本征內容分析器通信(communicatively)連接至視聽源,該本征內容分析器適于搜索該視聽源,以查找本征數據,并適于使用抽取算法來抽取本征數據,非本征內容分析器,該非本征內容分析器通信連接至非本征信息源,該非本征內容分析器適于搜索該非本征信息源,并適于使用檢索算法來檢索非本征數據,其中本征數據和非本征數據相關,從而提供多源數據結構。
視聽系統例如適于家庭使用的視聽系統可以含有處理裝置,其能夠對視聽信息進行分析。能夠預想任何類型的視聽系統,例如這樣的系統包含DigitalVersatile Disk(DVD)單元或能夠顯示流式視頻的單元,該視頻例如是MPEG格式的視頻,或者任何其他類型的適合于通過數據網絡傳輸的格式。該視聽系統也可以是適合于或者通過衛星或者通過電纜接收和顯示視聽內容例如電視和電影的“置頂”盒類型系統。該系統包含用于向用戶呈現視聽內容(即,本征內容)的裝置,或者用于輸出能使視聽內容呈現給用戶的信號的裝置。形容詞“本征的”應當被寬泛地解釋。本征內容可以是能夠從電影源的信號中抽取的內容。本征內容可以是視頻信號、音頻信號、從信號中抽取的文本等。
該系統包含本征內容分析器。該本征內容分析器典型地是能夠分析視聽數據的處理裝置,該本征內容分析器通信連接至視聽源,例如連接至電影源。該本征內容分析器通過使用抽取算法搜索該視聽源,并從中抽取數據。
該系統也包含非本征內容分析器。形容詞“非本征的”應當被寬泛地解釋。非本征內容是不包含在本征內容中,或者不可能從中抽取,或者只是難以從本征內容中提取的內容。非本征內容可以典型地是例如電影劇本、情節串連圖板、評論、分析等的內容。非本征信息源可以是因特網站、包含相關數據的數據載體等。
該系統也包含用于相關多源數據結構中的本征和非本征數據的裝置。指導該相關的規則可以是抽取和/或檢索算法的一部分。相關算法也可以是現有的,該相關算法對多源數據結構中的本征和非本征數據進行相關。多源數據結構可以是低級數據結構,其例如通過數據指針來相關不同類型的數據。多源數據結構可能對于系統的用戶是不可按入的,但對于系統的供應商是可接入的。多源數據結構通常被格式化為高級信息結構,該高級信息結構被呈現給系統的用戶。
本征內容可以使用合適的抽取算法從視聽源中進行抽取,非本征內容可以從非本征信息源中進行檢索。非本征數據的檢索可以基于所抽取的數據,然而非本征數據的檢索也可以基于提供給檢索算法的數據,而與本征內容無關。
抽取和/或檢索算法以與許多電子設備天生具有固定功能的同樣方式可以是系統的一部分。然而,模塊可以可選地提供抽取和/或檢索算法。利用模塊來提供這些算法可能是有優勢的,因為不同的用戶例如對于電影可能有不同的偏愛和喜好,并因此可以提供較大的靈活性。該模塊可以是硬件模塊例如電子模塊,舉例來說,適于插入插槽(slot),但是,該模塊也可以是軟件模塊,例如數據載體上的數據文件,或通過網絡連接可以提供的數據文件。
該系統可以支持能夠由用戶提供查詢的功能,該查詢可以被提供至抽取和/或檢索算法,從而根據該查詢來抽取本征和/或非本征數據。提供這一功能由于視聽數據中風格和內容的多樣性而是有其優勢的。因此,可以提供具有較大靈活性的系統。該查詢可以是語義的查詢,即,該查詢可以使用查詢語言來表示。該查詢可以從查詢表中選擇,舉例來說,與遙控器上的查詢按鈕相連選擇該查詢,該查詢按鈕在被按下時向用戶提供可能已制好的可能查詢的列表。
視聽源可以是電影,以及其中被抽取的本征數據可以包含但不限于文本的、音頻和/或視頻的特性。
非本征信息源可以連接至因特網并且可以通過因特網被訪問。非本征信息源可以是例如通用的因特網站點,如Internet Movie Database,然而非本征信息源也可以是專用的因特網站點,例如帶有向本發明的系統提供附加信息的特定目的的因特網站點。
非本征信息源可以是電影劇本。定稿的電影經常偏離電影劇本。電影制作過程通常基于原始劇本,并且其版本也基于情節串連圖板的發展。使用這個信息就像使用電影的秘訣。不可能或難以從視聽內容抽取的高級語義信息可以使用視聽信號處理和電影劇本與相關電影分析的分析來自動地抽取。這是有優勢的,因為外部信息源可能包含有電影的數據,而該數據完全不能通過視聽分析來抽取,或者如果能被抽取的話,其可靠性也是非常低的。
非本征內容分析器可以包含關于電影劇本語法的知識,以及其中使用劇本語法利用從劇本中抽取的信息來檢索非本征數據。電影劇本的實際內容通常采用規則格式。利用此格式的知識,例如是否場景將發生在里面或外面、位置、一天中的時間等信息可以被抽取。這樣的信息僅僅基于本征數據的抽取是不可能的,或者如果有可能的話,也只可能獲得非常低的確定性。
任何電影的一個重要方面是電影中人物的身份。這樣的信息可以通過將電影內容和劇本相關而獲得,因為電影劇本列出在特定場景中出現的所有人物。通過使用劇本語法,在場景中人物的身份可以被提取。從劇本中提取的身份可以例如與音頻和/或視頻身份標記(器)進行組合,例如,以區分場景中的若干人物。可以從劇本中提取的任何特性可以用于呈現給用戶的電影分析中。其他可以被抽取和被呈現給用戶的可能性是語義場景描繪與描述抽取、電影結構分析、情感(情緒)場景分析、位置/時間/設置檢測、服裝分析、人物輪廓、對話分析、流派/亞流派檢測、導演風格檢測等。
本征和非本征數據的相關可以是時間相關,并且結果可以是多源數據結構,其中本征數據中反映的特性與非本征數據中反映的特性是時間相關的。本征和非本征數據中反映的特性包含但不限于文本、視頻和/或視頻特性。
時間相關可以通過劇本中的對話與電影中對白(spoken text)的對準而獲得。電影中的對白可以包含在封閉字幕(closed caption)中,其可以從副標題中抽取,可以使用語音識別系統來抽取,或可以使用不同的方式來提供。但是一旦提供電影中的對白,這個對白可以與劇本中的對話相比較和相匹配。時間相關可以提供電影的時間標記的抄本。這個比較和匹配通過使用例如自相似性矩陣來獲得。
如上所述,高級信息結構可以根據多源數據結構來生成。高級信息結構在可以用戶和系統的不同功能之間提供接口(界面)。高級信息結構可以對應于例如出現在許多電子裝置中的用戶接口(界面)。
高級信息結構可以存儲于存儲媒體中,這是具有優勢的,因為根據本征和非本征信息,可能需要顯著的數據核查來抽取高級信息結構。進一步,可以生成更新的高級信息結構,其中更新的高級信息結構是根據多源數據結構更新的已有的高級數據結構。例如,在用戶只需要有限分析的場合下,這可能是具有優勢的。或者,例如在非本征信息源已被更新的場合下,并且希望根據非本征信息源更新高級信息結構。
內容分析可以包含利用檢索算法獲得的結果。內容分析和檢索算法可以是動態算法,以適應于基于檢索的非本征數據動態地包含附加功能。因此,內容分析和檢索算法可以是開放的算法,其能夠不斷地學習和更新初始分類(將新的分類引入系統中)。附加功能可以通過在來自本征數據的特性組上使用從非本征數據中獲得的標簽在此系統部署在用戶的家中之后該系統的操作期間訓練檢索算法而獲得。
來自本征數據的特性組可以是特定的數據組,例如可以是電影的說話者,其中使用本發明,例如從說話者ID(身份)的標簽中知道說話者ID。用戶可以例如選擇在訓練中使用的數據組,該數據組的選擇視用戶的方便而為。根據本發明,該數據組也可以由系統的供應商來提供。可以使用神經網絡獲得訓練,即,檢索算法例如可以包含或連接至神經網絡。
可以使用至少一個電影劇本來執行訓練。因此,訓練可以通過選擇數據組為至少一個劇本來執行。這對于能夠訓練系統以支持新特性是有益的,因為例如新演員出現,未知的演員可能變得流行,人們的喜好是不同的,等等。以這種方式,可以提供更靈活和強有力的系統。系統的訓練也可以是盲訓練,以便于視頻理解中客體和語義概念的分類。
多源數據結構用于在電影中提供自動的基本事實識別,這可以用于視聽內容上的確定基準點(benchmarking)算法。電影中的自動標記也可以基于多源數據結構獲得,這對于自動地能夠處理電影內容是有利的。
另一個應用是使用劇本中的文本描述和使用來自視頻內容的視聽特性的視聽場景內容理解。可以提供這樣的系統,其被訓練為把低級和中級音頻/視頻/特性賦予場景的文字描述。可以使用Support Vector Machine(支持矢量機)或Hidden-Markov Model(隱式馬爾可夫模型)來完成訓練。分類可以只基于音頻/視頻/文本特性。
通過使用劇本中的文本描述,可以獲得自動場景內容理解。這樣的理解可能不能從電影自身中抽取。
根據本發明的第二個方面,提供用于綜合分析本征和非本征視聽信息的方法,該方法包含以下步驟搜索本征數據視聽源,以查找數據,并使用抽取算法來抽取本征數據,搜索非本征信息源,并基于被抽取的本征數據,使用檢索算法來檢索非本征數據,相關本征數據和非本征數據,從而提供多源數據結構。
該方法可以進一步包含根據多源數據結構生成高級信息結構的步驟。
本發明的這些和其他方面、特性和/或優勢從隨后描述的實施例中將是清楚的,并將結合這些實施例進行闡述。
現在,將參考附圖詳細闡述本發明的首選實施例,其中附圖1是本發明的一個實施例的高級結構圖表,附圖2是本發明的另一個實施例的方框圖,這個實施例是結合附圖1所述的實施例的一個子實施例,附圖3是劇本和封閉字幕對準的示意圖示,和附圖4是電影中說話者識別的示意圖示。
具體實施例方式
附圖1闡述了本發明的最優實施例的高級圖表。在附圖2中提供根據這個高級圖表的一個具體實施例。
表1
出現在附圖1中的圖表100闡述了用于根據本發明綜合分析非本征和本征視聽信息的模型。各個組成部分的名稱在表1中提供。在圖中,本征視聽信息以電視(電影)片101為例,即,以數據載體如DVD盤上的故事(正)片為例。本征信息是諸如可以從視聽信號中抽取的信息,即從圖像數據、音頻數據和/或抄本數據(以副標題或封閉字幕或圖文電視抄本的形式)中提取的信息。非本征視聽信息在此以對于電影劇本102的非本征訪問為例,例如通過因特網連接103訪問。進一步,非本征信息也可以是情節串連圖板、出版的書籍、電影中的附加場景、電影的末尾、例如對導演和/或演職員、電影評論家的訪談等。這樣的信息能通過因特網連接103而獲得。這些進一步的非本征信息可能希望劇本102經歷高級結構語法分析116。方框102中對電影劇本的強調是一個示例,任何類型的非本征信息并且特別地上述的非本征信息的類型原則上可以有效地插入圖表的方框102中。
作為第一步驟,使用本征內容分析器,處理本征信息。本征內容分析器可以是計算機程序,其適于搜索和分析電影的本征內容。視頻內容可以沿著三條路徑(104,105,106)來處理。沿著路徑1,從信號中抽取對白,該對白通常利用副標題104來表示。抽取包含語音至文本轉換、從MPEG的用戶數據中的封閉字幕抽取、和/或從視頻信號或網頁中的圖文電視抽取。輸出是時間標記的抄本107。沿著路徑2,處理音頻105。音頻處理步驟包含音頻特性抽取,隨后是音頻分段和分類。Mel Cepstral Frequency Coefficients(嘜耳倒頻譜頻率系數)(MFCC)108可以用于檢測說話者轉變110以及形成情感語境確定的一部分。mel-scale(嘜耳標度)是頻率裝倉(binning)方法,其基于耳朵的頻率分辨率。通過以mel標度使用頻率裝倉,計算MFCC,以參數化語音。MFCC是良好的耳朵鑒別指示器(符)。因此,通過執行均衡,利用倒頻譜域中的減法,與頻譜域中的乘法相反,MFCC能用于補償失真信道。音調109也可以形成情感語境確定的一部分,而音調也可以用于相對于語音、音樂和音響(聲音)效果112的分段。說話者轉變檢測110、情感音頻語境111和語音/音樂/SFX分段112通過聲音模型和情感模型被耦合到演員識別2和場景描述3的基于音頻分類。沿著路徑3,分析視頻圖像信號106。這個可視處理包含可視特性抽取,如彩色直方圖113、面部檢測114、圖文電視檢測115、高亮度檢測、語氣(基調)分析等。面部檢測通過面部模型被耦合到基于面部的演員識別4。彩色直方圖是代表色值(在選擇的彩色空間中)及其在圖像中的出現頻率的直方圖。
作為第二步驟,使用非本征內容分析器處理非本征信息。非本征內容分析器可以適于基于抽取的本征數據搜索非本征信息。非本征信息可以象電影標題那樣簡單,然而,所抽取的本征數據也可以是涉及電影的復雜的一組數據。非本征內容分析器可以包含劇本語法分析、情節串連圖板分析、圖書語法分析、附加視聽材料如訪談、宣傳片尾(電影預告片)等的分析的模型。輸出是數據結構,其對有關場景、演職員心境(基調)等的高級信息進行編碼。例如,在電影劇本102上執行高級結構語法分析116。例如,根據通過因特網訪問的信息,例如查閱基于因特網的數據庫,比如Internet Movie Database,確定人物117,并且這些人物與演員進行相互參照。場景位置118和場景描述119用于基于文本的場景描述1中,并且對話120與時間標記的抄本相關,以獲得基于文本的時間標記的劇本。基于文本的時間標記劇本將根據用于基于文本的場景描述1中的對話的時間標記而提供場景的大致邊界。
在建立人物名字和演員120、基于文本場景描述1、基于文本時間標記劇本121、基于音頻的演員識別2、基于音頻的場景描述3和基于面部的演員識別之間的相互參照之后,可以執行多源對準。因此,本征和非本征數據可以進行相關,以得到多源數據結構。一些外部文件如劇本不包含時間信息,通過相關非本征和本征數據,從本征視聽信號中抽取的時間標記信息可以與從外部源中提供的信息進行對準。輸出是非常詳細的多源數據結構,其包含可從非本征和本征源中獲得的信息的超集。
使用多源數據結構,可以生成高級信息結構。在當前實施例中,高級信息結構由三部分組成演員ID的超級模型5,壓縮的描繪概要8和場景邊界檢測與描述,其可以提供語義場景描述9。演員ID的超級模型除了來自多源數據結構的人物識別之外還可以包含視聽人物識別。因此,可以向用戶呈現電影中出現的所有演員的列表,并且例如通過選擇演員,可以向用戶呈現有關這個演員的附加信息,例如該演員參演的其他影片或其他的有關特定演員或人物的信息。壓縮描繪概要模塊可以包含描繪點和故事與次要故事弧(arc)。這些是電影中最令人感興趣的點,這個高級信息對于電影概要是非常重要的。用戶因此可以獲得不同類型的描繪(情節)概要,而這一般不是DVD上所提供的那種類型,或者用戶可以選擇該用戶所感興趣的概要的類型。在語義場景檢測中,建立用于場景和場景邊界的拍攝。用戶可以被呈現場景和電影劇本中的對應場景的完整列表,例如,以便比較導演對于不同場景的劇本的解釋,或者允許用戶定位包含特定人物的場景。
在隨后的實施例中,焦點在于電影劇本與電影的對準。
幾乎所有的長篇電影都需要借助于電影劇本來產生,電影劇本提供了電影故事、環境、對話和活動的統一描述-并且給電影制作者、演員和工作人員提供了創作其對生活的藝術創新版本的開始點。對于那些參與電影的基于內容分析的人來說,劇本是當前用于獲得影片中的重要語義目標的文本描述的未利用資源。這不僅有利于旁路(繞過)語義間隙(例如,將視聽信號轉變成一系列文本描述符)的問題,還有助于使所述描述直接源于影片制作者。劇本可用于數千的電影,并且其遵循半常規格式化標準,并因此是可靠的數據源。
將劇本用作基于內容分析的捷徑中遇到的困難是雙重的。首先,在劇本文本中的文本和電影中的時間周期(期間)之間不存在固有的相關性。為了對抗這個限制,將劇本中對話的行(臺詞)與從電影DVD中抽取的時間標記封閉字幕流進行對準。其他所面臨的阻礙在于,在許多情況下,劇本在制作電影之前完成,所以對話臺詞或整個場景可以被添加、刪除、修改或改變位置。此外,封閉字幕的文本通常只是與屏幕上人物所說出的對話大致相近。為了克服這些影響,使用對于場景/對話修改是魯棒的對準方法是必不可少的。我們的經驗表明,只有大約60%的對話臺詞能在電影中被時間標記。然而,利用對準過程發現的時間標記對話可以被用作統計模型的標簽,其能夠估計沒有被發現的描述符。這相當于是自主式(獨立)、無人監督的過程,用于電影的自動視頻內容分析的語義目標(對象)以及帶有制作它的“技巧”的視頻材料的貼標簽。
我們在此必須指出,劇本的替代(物)是電影分鏡頭劇本手稿(continuity)(腳本)。電影分鏡頭劇本手稿在電影的所有工作完成之后撰寫。術語電影分鏡頭劇本手稿時常在兩個語境中采用-首先,電影的逐個拍攝的分鏡頭劇本,其除了來自劇本的信息之外,還包含攝像機布置和運動。此外,電影分鏡頭劇本手稿也可以指電影對話的確切抄本。這兩種形式都可以由封閉字幕機構使用。雖然來自特定電影的電影分鏡頭劇本手稿可以被印刷出售,但是對于公眾來說,一般不能在線獲得這些手稿。這激發了對于拍攝手稿即劇本的分析,盡管其存在缺陷。
劇本沒有更為廣泛地用于基于內容的分析中的一個原因是因為出現在劇本中的對話、動作和場景描述并沒有與之相關的時間標記。這妨礙了將電影的特定分段分配給一段文本的效力。另一個電影抄本、封閉字幕的源具有電影中對白的文本,但它不包含說出每句臺詞的人物的身份,封閉字幕也不擁有難以從視頻信號中抽取的場景描述。通過對準劇本的對話和電影封閉字幕的文本,我們獲得了最佳效果。
其次,臺詞和場景經常是不完整的、剪切的或位置改變的。為了面對場景是穩固的,可以一次一個場景地重新排序劇本與封閉字幕的對準。這也減輕了具有完全自相似性矩陣的存儲器-密集創作(工作)。
最后,由于不可能在劇本中對于每句對話找到相關物,必須采用從時間標記劇本中抽取的信息、與電影的多峰(模式)分段(音頻/視頻流,封閉字幕,來自外部網站例如imdb.com的信息)組合,以創建事件的統計模型。這些事件可以是影片之間或影片內部的事件,并許諾提供場景的文本描述的能力,這些描述不是利用對準流明確發現的。
劇本對準的一個重要方面是說話者的識別。已訪問在任何特定時間說話的人物將允許基于聲音存在提供對于有關演員的外部數據的鏈接以及電影內部查詢的應用。有關影片對話的無人監督的說話者識別是非常困難的問題,因為語音特性受說話者的情緒變化、在不同的實際或模仿位置中不同的聽覺條件變化(例如,“房間音調”)的影響,同樣受聲道、環境噪音和背景中的大型活動的影響。
我們的解決方案是提供來自對準的時間標記作為“黑盒子(black box)”分類符(器)的標記示例,了解在不同的環境和情緒下聲音的特點。實際上,通過擁有大量的來自對準的訓練數據,我們可以“讓數據說話(let the data do thetalking)”,并且我們的方法純粹是不受監督的,因為一旦劇本和電影音頻以機器可讀形式被捕捉,則不需要任何人工預先處理。
在電影主要的拍攝結束之后,編輯器(者)可以利用考慮或可以不考慮劇本的方式裝配不同的拍攝鏡頭。有時,在名字協調、分鏡頭劇本或制片廠政策方面,場景將被剪切,或者有可能的話,拾取所需要的鏡頭。舉一個極端例子,電影Double Indemnity的結尾被留在剪切房間地上,其中主人公位于毒氣室。Swingers原本是個愛情故事,但是編輯者加快了對話的速度,并將該影片變成了成功的喜劇。
劇本的真實內容通常遵循規則格式。例如,任一場景或拍攝位置的第一行稱為slug line(緩動行)。slug line表示場景是發生在室內還是室外、位置的名稱,并且這可以潛在地指定一天中的時間。slug line是最佳的場景邊界指示器,因為場景有可能發生在許多地方。在slug line之后是位置的描述。該描述將引入(介紹)任何出現的新人物和發生的沒有對話的動作。
劇本的(體積)大小是對話描述,對話被縮排在頁中,以方便閱讀,并給予演員和電影制作者作筆記的地方。如果電影劇本作者對演員的指導在對話中并不明顯,則它可以在描述中指出。標準的劇本格式可以利用語法規則來語法分析SCENE_START:.*|SCENE_START|DIAL_START|SLUG|TRANSITIONDIAL_START:\t+<CHAR NAME>(V.O.|O.S.) \n\t+DIALOGUE|PARENDIALOGUE|:\t+.* \n\nPAREN:\t+(.* )TRANSITION: \t+<TRANS NAME>:
SLUG: <SCENE#> .<INT/EXT><ERNAL|.> -<LOC><-TIME> 在這個語法中,“\n”表示新行字符,“\t”表示制表(符)。“.* ”是來自Perl的常規表達的術語,并且表示“在序列中下一個模式匹配之前的任一事物的任意量”。后面跟隨字符的問號表示該字符可能出現或不出現。“|”允許進行選擇一例如,<O.S.|V.O.>表示V.O.或者O.S.的出現將有助于好的匹配。最后,“+”表示我們將接受仍然被考慮為匹配的一個或更多以前字符-例如,以“\tHello”、“\t\tHello”或者“\t\t\tHello”開頭的行可以是對話,但利用“Hello”開頭的行則不是。
劇本的格式化指南只是建議,而非標準。然而,有可能捕捉最多的利用簡單但靈活的常規表述的劇本制作成百的劇本拷貝用于任何規模的電影制作,劇本可以為了業余愛好者或專業使用而被重新制作,并且在線可獲得成千的劇本。
在附圖2中表示出在單個電影中包含預先處理、對準和說話者識別的系統概述。
電影劇本文本20的文本被語法分析,因此場景和對白邊界和元數據被輸入統一的數據結構。封閉字幕21和音頻特性22從電影的視頻信號23中抽取。在至關重要的階段,劇本和封閉字幕文本被對準24。這個對準在下面詳細說明。在對準中,對話被時間標記,并與特定字符相關。然而,對于每一句對話,不可能在劇本中都找到相關物。必須采用從時間標記的劇本中提取的、與電影的多模式片斷(音頻/視頻流,封閉字幕,來自外部網站信息)組合的信息來創建事件的統計模型25。
以這種方式,有可能在電影的自然噪音環境中,獲得非常高的說話者識別準確度。重要的是注意,這個識別可以使用監督的學習方法來執行,但是自動生成基本事實,因此在分類過程中不需要人工干涉。
因此,電影期間在任何時候說話的人物可以被確定26。這個人物ID可以與因特網數據庫27相關,以獲得電影中人物的演員的識別28。
除了說話者識別之外,也可以抽取場景的位置、時間和描述、各自的臺詞對白及其演說者、演員的附加注解和動作指導、以及場景之間任何建議轉換(剪切衰減,擦除,淡入淡出(解散)等)。
為了對準和說話者識別任務,需要電影DVD的音頻和封閉字幕流。
DVD的User Data Field(用戶數據字段)包含文本形式的副標題流,這不是DVD官方標準的一部分,并因而不保證出現在所有盤上。對于沒有可用副標題信息的電影,可供選擇的是通過在DVD的副標題流上執行OCR(光學字符識別),獲得封閉字幕。這是半交互式過程,其只在遇到新字體時(這通常是每個制作室一次),才需要用戶干涉,但它是完全自主式的。我們遇到的唯一問題是有時小寫字母“1”與大寫字母“I”混淆,我們發現必須將所有的L彎曲為I,以避免在比較單詞時出現混淆。OCR可以使用SubRip程序來實現,并且OCR對于每行封閉字幕提供帶有毫秒分辨率的時間標記。
劇本對話和封閉字幕文本通過使用動態編程來對準,以查找穿越自相似性矩陣的“最佳路徑”。通過在最佳路徑上應用中值濾波器,抽取正確對應于場景的對準。合理精確度的對話分段被分解為封閉字幕行大小的塊(chunk),這意味著我們可以直接把對話塊翻譯成時間標記的分段。下面將討論每個組成部分。
相似矩陣是比較兩個不同版本的相似媒體的一種方式,它是自相似性矩陣的一種擴展,其現在是音頻的基于內容分析的標準工具。
在相似矩陣中,劇本中場景的每個詞i與整個電影的封閉字幕中的每個詞j進行比較。因而,提供矩陣SM(i,j)←screenplay(scene_num,i)=subtitle(j)換句話說,如果場景的詞i與封閉字幕的詞j相同,則SM(i,j)=1,而如果它們不相同,則SM(i,j)=0。屏幕時間沿著對角線i=j線性進展,因此當劇本的對角線與封閉字幕的文本行對齊排列時,我們期望看到1的實對角線。附圖3表示相似矩陣30的示例分段部分,用于比較封閉字幕31和電影“WallStreet”場景87的劇本32。在相似矩陣中,出現在劇本和封閉字幕中的詞可以根據是否找到匹配而被特征化。因此,如果沒有找到匹配,則每個矩陣元素可以標記為不匹配32,如果找到匹配,則可以標記為匹配33。自然地,可以發現許多一致匹配,但是可以發現不連續軌跡,并通過這個軌跡建立最佳路徑。位于這個最佳軌跡上不匹配的詞被相應地標記34。
電影中說話者識別是困難的,因為在電影持續過程中,聲音變化,并且聽覺條件也在變化。因而,為了在不同條件下進行分類,可能需要許多數據。附圖4表示出這一特定問題。示意地表示出兩個場景40,41。在第一場景40中,出現了三個人,這三個人都面向觀眾,并且能夠期望他們此時一個人在講話。因此,只使用本征數據,就有可能利用高確定性抽取說話者身份,例如。使用聲音指紋和面部模型。在第二場景41中,出現了五個人,并且只有一個人正面對觀眾,且可能出現了許多討論,人們可能都在同時說話,而且戲劇性背景音樂可以用來加強緊張心境。使用本征信息,可能不能執行說話者識別。但是,使用其中指示出對話和說話者的劇本,說話者ID能用于檢測場景中的所有說話者。
為了分類和方便基于音頻特性的說話者識別,可以使用以下程序1)選擇訓練/測試/驗證設置2)除去靜默3)基于Martin McKinney的音頻分類器,潛在地除去音樂/噪音部分4)下抽樣至8kHz,因為語音的峰值頻率近似是3.4kHz5)計算CMS,50ms窗口上的delta特性,帶有12.5ms的跳躍尺寸6)將特征向量堆積在一起,以創建長的分析框7)執行PCA,以減少測試設置的維數8)訓練神經網絡或GMM9)在整個電影上模擬網絡/GMM10)比較這個夏天的實習生的基本事實,以了解我們做得有多么好。
本發明也可以實施為計算機程序產品、可存儲在存儲媒體上并且使計算機被編程為執行根據本發明的方法,這對于本領域熟練技術人員來說是顯然的。該計算機可以實施為通用計算機,如個人計算機或網絡計算機,但也可以實施為專用的帶有可編程處理核心的消費電子產品。
如前所述,也可知道,所提及的單數也預定包含多個,并且反之亦然。此外,表述諸如“包含”、“包括”、“含有”、“擁有”、“合入”、“容納”、“包圍”將解釋為非排他的,即這些表述將解釋為不排除其他項的出現。
雖然結合最佳實施例闡述本發明,但是并不打算將本發明限制為在這里所闡述的具體形式。相反,本發明的范圍僅僅利用所附的權利要求來限制。
權利要求
1.一種用于綜合分析本征(10)和非本征(11)視聽數據的系統(100),該系統包括本征內容分析器,該本征內容分析器通信連接至視聽源,該本征內容分析器適于搜索該視聽源,以查找本征數據,并且適于使用抽取算法來抽取本征數據,非本征內容分析器,該非本征內容分析器通信連接至非本征信息源,該非本征內容分析器適于搜索該非本征信息源,并且適于使用檢索算法來檢索非本征數據,其中本征數據和非本征數據相關,從而提供多源數據結構。
2.根據權利要求1的系統,其中非本征數據的檢索基于所抽取的本征數據。
3.根據權利要求1的系統,其中抽取和/或檢索算法利用模塊來提供。
4.根據權利要求1的系統,其中由用戶提供查詢,該查詢被提供給抽取算法,以及其中根據該查詢來抽取本征數據。
5.根據權利要求1的系統,其中由用戶提供查詢,該查詢被提供給檢索算法,以及其中根據該查詢來檢索非本征數據。
6.根據權利要求1的系統,其中本征和非本征數據中反映的特性包含文本、音頻和/或視頻特性。
7.根據權利要求1的系統,其中視聽源是電影(101),以及其中所抽取的數據包含文本特性(104)、音頻和/或視頻特性(105,106)。
8.根據權利要求1的系統,其中非本征信息源被連接至因特網,并且可以通過因特網(103)被訪問。
9.根據權利要求1的系統,其中非本征信息源是電影劇本(102)。
10.根據權利要求9的系統,其中非本征內容分析器包含關于劇本語法的知識,以及其中使用劇本語法根據從劇本中抽取的信息來檢索非本征數據。
11.根據權利要求9或10的系統,其中電影中人物的識別(5)通過電影劇本來獲得。
12.根據權利要求9或10的系統,其中基于電影劇本中包含的信息,分析電影中的特性。
13.根據權利要求1的系統,其中本征和非本征數據的相關是時間相關(121),從而提供多源數據結構,其中本征數據中反映的特性與非本征數據中反映的特性進行時間相關。
14.根據權利要求13的系統,其中時間相關通過電影劇本中的對話(120)與電影中的對白(104)的對準來獲得,并且從而提供電影的時間標記的抄本(121)。
15.根據權利要求14的系統,其中從時間標記的抄本中獲得電影中的說話者識別。
16.根據權利要求9的系統,其中利用自相似性矩陣(30),比較電影劇本與電影中的對白。
17.根據權利要求1的系統,其中根據多源數據結構,生成高級信息結構(5-9)。
18.根據權利要求17的系統,其中高級信息結構可以存儲在存儲媒體上。
19.根據權利要求17的系統,其中生成更新的高級信息結構,該更新的高級信息結構是根據多源數據結構更新的已有的高級信息結構。
20.根據權利要求1的系統,其中檢索算法是動態檢索算法,其適于通過根據檢索的非本征數據包含附加功能來動態地自我更新。
21.根據權利要求20的系統,其中通過使用從非本征數據中獲得的標簽在本征數據中的特性組上訓練檢索算法來獲得附加功能。
22.根據權利要求9和21的系統,其中使用至少一個電影劇本,執行訓練。
23.根據權利要求1的系統,其中基于視聽內容上確定基準點算法中使用的多源數據結構,獲得電影中的自動基本事實識別。
24.根據權利要求1的系統,其中基于電影劇本中的文本描述和電影內容中的視聽特性,獲得電影中的自動場景內容理解。
25.根據權利要求1的系統,其中基于多源數據結構,獲得電影中的自動標記。
26.一種用于綜合分析本征和非本征視聽信息的方法,該方法包含以下步驟搜索視聽源,以查找本征數據,并使用抽取算法來抽取本征數據,搜索非本征信息源,并使用檢索算法來檢索非本征數據,相關本征數據和非本征數據,從而提供多源數據結構。
27.根據權利要求26的方法,進一步包含以下步驟根據多源數據結構,生成高級信息結構。
28.根據權利要求26的方法,其中非本征內容分析器包含有關電影劇本語法的知識,以及其中利用電影劇本語法使用從電影劇本中抽取的信息來檢索非本征數據。
29.根據權利要求26的方法,其中通過在非本征數據集上訓練檢索算法,更新檢索算法。
30.一種計算機程序產品,使計算機被編程為執行根據權利要求26的方法。
31.一種存儲媒體,裝載有根據權利要求30的計算機程序產品。
32.一種編程計算機,用于執行根據權利要求26的方法。
全文摘要
提供用于綜合分析本征和非本征視聽信息的系統,諸如用于分析和相關電影中的特性與該電影中未出現但通過因特網可獲得的特性的系統。該系統包含通信連接至視聽源例如電影源的本征內容分析器,用于搜索該電影中的本征數據,并使用抽取算法來抽取本征數據。進一步,該系統包含通信連接至非本征信息源的非本征內容分析器,諸如通過因特網可獲得的電影劇本,用于搜索非本征信息源,并使用檢索算法來檢索非本征數據。本征數據和非本征數據以多源數據結構進行相關。多源數據結構被轉換為高級信息結構,該高級信息結構被呈現給該系統的用戶。用戶可以瀏覽該高級信息結構,以查看電影中諸如男演員識別(鑒定)的信息。
文檔編號G06F17/30GK1906610SQ200480035750
公開日2007年1月31日 申請日期2004年11月30日 優先權日2003年12月5日
發明者N·迪米特羅瓦, R·圖爾特斯基 申請人:皇家飛利浦電子股份有限公司