專(zhuān)利名稱(chēng)::對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取方法及其建立索引的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及視頻索引與搜索
技術(shù)領(lǐng)域:
,具體地說(shuō),本發(fā)明涉及一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取和建立索引的方法。
背景技術(shù):
:廉價(jià)的大容量存儲(chǔ)設(shè)備制造技術(shù)的進(jìn)步,更高的網(wǎng)絡(luò)數(shù)據(jù)傳輸速率,以及持續(xù)改進(jìn)的高效視頻壓縮技術(shù)使數(shù)字視頻得以廣泛傳播和使用。視頻為多媒體系統(tǒng)用戶提供了大量的信息,同時(shí)它也是很多應(yīng)用系統(tǒng)的數(shù)據(jù)源,這些系統(tǒng)如數(shù)字圖書(shū)館、數(shù)字出版、數(shù)字娛樂(lè)、數(shù)字廣播和遠(yuǎn)程教育等。目前,基于視頻信息的網(wǎng)絡(luò)服務(wù)正處于高速發(fā)展期。但是,與成熟的文本信息搜索相比,目前高效地獲取特定的視頻片段仍然是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。文本與視頻(運(yùn)動(dòng)圖像)在檢索時(shí)差異很大,文本內(nèi)容中的某個(gè)詞很容易被識(shí)別,并且該詞包含人可理解的概念(含語(yǔ)義信息),因此文本內(nèi)容可進(jìn)行全文檢索(此時(shí)文本中的詞匯是檢索特征量);但圖像本身的特征很難用于直接搜索,例如顏色分布特征與用戶的詢問(wèn)信息可能毫無(wú)關(guān)聯(lián),視頻由一系列的圖像構(gòu)成,其語(yǔ)義更為復(fù)雜,機(jī)器將用戶的查詢信息轉(zhuǎn)化為對(duì)一系列視頻特征的査詢存在很大困難,即存在所謂的"語(yǔ)義鴻溝"問(wèn)題。所以,與文本信息不同,直接從視頻數(shù)據(jù)中很難獲得檢索所需的特征量,要對(duì)視頻進(jìn)行有效的檢索必須依賴于充分的視頻元數(shù)據(jù)信息。當(dāng)前大部分的商業(yè)視頻搜索引擎一般也通過(guò)搜索視頻的元數(shù)據(jù)信息如文件名、環(huán)繞文字或者語(yǔ)音腳本(使用語(yǔ)音識(shí)別技術(shù)從視頻中獲得)為用戶返回所需的視頻。這種方法對(duì)視頻的搜索可以定義為一種淺層搜索,因?yàn)樗鼰o(wú)法進(jìn)行基于視頻內(nèi)容的檢索,而且只能檢索到視頻文件層次,而不是深入到每個(gè)視頻片段。顯然,這種搜索結(jié)果用戶是不能滿意的,例如用戶可能只想看一部電影中的某個(gè)片段,這是當(dāng)前搜索引擎所無(wú)法提供的。為了使原始視頻數(shù)據(jù)可以被方便地瀏覽和檢索,必須對(duì)視頻數(shù)據(jù)進(jìn)行分析、建立索引和重新組織,其目標(biāo)是形成原始視頻數(shù)據(jù)的結(jié)構(gòu)化表示。為了將視頻進(jìn)行結(jié)構(gòu)化表示,一個(gè)連續(xù)的視頻圖像序列經(jīng)常被分解成多個(gè)場(chǎng)景和鏡頭單元,這些場(chǎng)景和鏡頭單元根據(jù)其依賴關(guān)系形成了原始視頻序列的層次化表示。一個(gè)鏡頭是由同一個(gè)攝像機(jī)連續(xù)捕獲的一個(gè)幀序列,它實(shí)際上是視頻圖像序列之間的物理邊界。場(chǎng)景由一個(gè)或多個(gè)連續(xù)鏡頭組成,這些鏡頭擁有共同拍攝背景/環(huán)境。例如,我們經(jīng)??梢钥吹胶芏噙B續(xù)的鏡頭(由多個(gè)攝像機(jī)拍攝)共享類(lèi)似的視覺(jué)內(nèi)容,因?yàn)樗鼈兪窃谕瑯拥沫h(huán)境中產(chǎn)生的如會(huì)議室或運(yùn)動(dòng)場(chǎng)等。一個(gè)視頻場(chǎng)景片段一般是一個(gè)具有完整語(yǔ)義的故事單元,它實(shí)際上是視頻圖像序列的語(yǔ)義邊界。由于用戶檢索一般是基于語(yǔ)義單元的檢索,為此視頻圖像序列一般被以場(chǎng)景為單位進(jìn)行組織。顯然,比較準(zhǔn)確的視頻場(chǎng)景抽取是保證檢索質(zhì)量的關(guān)鍵。本發(fā)明主要討論電影類(lèi)視頻進(jìn)行場(chǎng)景抽取和索引的方法。該類(lèi)視頻進(jìn)行場(chǎng)景抽取的過(guò)程一般可以分為兩個(gè)步驟首先是根據(jù)視頻圖像的顏色、紋理等特征進(jìn)行鏡頭邊緣檢測(cè);然后將視覺(jué)內(nèi)容近似且連續(xù)的多個(gè)鏡頭劃分為一個(gè)組并作為一個(gè)場(chǎng)景。這種方法的缺陷首先在于鏡頭檢測(cè)容易受到干擾,例如對(duì)于漸變鏡頭有較高的誤判率,其次鏡頭視覺(jué)內(nèi)容的表示和鏡頭之間相似性的衡量方法目前也不夠成熟。這些原因?qū)е聢?chǎng)景抽取的査全率和査準(zhǔn)率都不是太理想,目前所報(bào)道的査全率和查準(zhǔn)率的最好結(jié)果均在70%左右。另一方面,采用上述方法抽取場(chǎng)景后,為支持高效的檢索,還必須為場(chǎng)景建立索引,例如說(shuō)明場(chǎng)景發(fā)生的地點(diǎn)、主要人物和發(fā)生的事件等。這些工作耗時(shí)費(fèi)力,而且由于個(gè)人主觀性的影響,會(huì)導(dǎo)致標(biāo)注結(jié)果的不客觀。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是結(jié)合劇本和字幕信息對(duì)的電影場(chǎng)景進(jìn)行分割(即場(chǎng)景片段抽取),以達(dá)到較高精度的視頻場(chǎng)景抽取效果。本發(fā)明的另一個(gè)目的是為所抽取的場(chǎng)景視頻片段自動(dòng)匹配其在劇本中的對(duì)應(yīng)文字信息作為其索引,從而避免手工標(biāo)注。為實(shí)現(xiàn)上述第一個(gè)發(fā)明目的,本發(fā)明提供了一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,該方法包括如下步驟1)獲取電影類(lèi)視頻的字幕信息,所述字幕信息包括字幕的文字內(nèi)容以及該字幕的出現(xiàn)和消失時(shí)間;2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息,所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息;3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間,得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間;4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)所述電影類(lèi)視頻進(jìn)行分割,得到各場(chǎng)景的視頻片斷。上述技術(shù)方案中,所述步驟3)包括如下子步驟31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。上述技術(shù)方案中,所述步驟3)還包括如下子步驟32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景,抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像,根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異,進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn),從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn)就是精確確定的后一個(gè)場(chǎng)景的開(kāi)始時(shí)間,也就是精確確定的前一個(gè)場(chǎng)景的結(jié)束時(shí)間。上述技術(shù)方案中,所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白,每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。為實(shí)現(xiàn)上述第二個(gè)發(fā)明目的,本發(fā)明提供了一種對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法,該方法包括根據(jù)上述步驟l)至4)得到各場(chǎng)景的視頻片斷;5)根據(jù)步驟2)中得到的場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息,為各場(chǎng)景的視頻片斷建立索引。與完全基于視頻內(nèi)容分析的視頻場(chǎng)景抽取方法相比,本發(fā)明的優(yōu)勢(shì)在于第一、極大地降低了場(chǎng)景抽取的時(shí)間,這是因?yàn)楸景l(fā)明不需要對(duì)所有的視頻幀都進(jìn)行內(nèi)容分析,而只需要分析兩個(gè)相鄰包含對(duì)白場(chǎng)景之間的那些視頻幀。第二、提高了場(chǎng)景視頻場(chǎng)景片段抽取的精確度,由于劇本實(shí)際上是電影視頻的高層語(yǔ)義,劇本中的場(chǎng)景和視頻中的場(chǎng)景是一一對(duì)應(yīng)的,因此如果所有的場(chǎng)景都包含對(duì)白則理論上本發(fā)明給出的方法可達(dá)到100%的査準(zhǔn)率和查全率;對(duì)于連續(xù)無(wú)對(duì)白場(chǎng)景不超過(guò)一個(gè)的情況,本發(fā)明基本也不會(huì)誤判,由于連續(xù)出現(xiàn)多個(gè)無(wú)對(duì)白場(chǎng)景的情況非常少,因此可以認(rèn)為本發(fā)明可以準(zhǔn)確地抽取出視頻中各個(gè)場(chǎng)景。第三、劇本中的場(chǎng)景描述文本可直接作為所對(duì)應(yīng)抽取場(chǎng)景視頻片段的索引信息,由于劇本中包含了場(chǎng)景所有的高層語(yǔ)義信息,因此可支持用戶進(jìn)行類(lèi)似于文本檢索的査詢,而純粹的基于視頻內(nèi)容分析方法在抽取視頻場(chǎng)景片段后還要進(jìn)行煩瑣的標(biāo)注。圖1本發(fā)明一個(gè)實(shí)施例中對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取和建立索引的總體流程框圖2本發(fā)明一個(gè)實(shí)施例中劇本信息的結(jié)構(gòu)化表示示意圖3本發(fā)明一個(gè)實(shí)施例中基于劇本信息的視頻場(chǎng)景分割方法示意圖。具體實(shí)施例方式本發(fā)明在對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景抽取和索引時(shí),引入了視頻所對(duì)應(yīng)的劇本和字幕這兩方面信息,達(dá)到較高精度的視頻場(chǎng)景抽取效果,并且可以為所抽取的場(chǎng)景視頻片段自動(dòng)匹配其在劇本中的對(duì)應(yīng)文字信息作為其索引,從而避免手工標(biāo)注。劇本是影視作品拍攝制作的依據(jù),實(shí)際上是視頻(連續(xù)圖像)的語(yǔ)義信息。一部電影作品的劇本一般由多個(gè)場(chǎng)景構(gòu)成,劇本中的每個(gè)場(chǎng)景一般包含以下信息地點(diǎn)、時(shí)間、內(nèi)外景說(shuō)明、場(chǎng)景描述、對(duì)白等內(nèi)容。劇本中的對(duì)白實(shí)際上就是電影的字幕。目前對(duì)于高清DVD電影,其字幕一般以外掛文件的形式隨視頻文件一起發(fā)布,易于獲得;對(duì)于內(nèi)嵌型字幕則可通過(guò)視頻OCR技術(shù)提取字幕。每條字幕均包含該字幕在視頻中的出現(xiàn)和消失時(shí)間,本發(fā)明正是通過(guò)利用這些時(shí)間信息結(jié)合劇本場(chǎng)景對(duì)白對(duì)視頻場(chǎng)景片段進(jìn)行抽取。下面,結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地描述。1總體流程附圖1是本專(zhuān)利提出的融合劇本與字幕信息的電影場(chǎng)景抽取與索引方法的總體流程框圖。所包含的主要處理步驟如下1)根據(jù)劇本的文本編輯特征(劇本一般采用文本格式來(lái)體現(xiàn)場(chǎng)景中不同信息域的內(nèi)容)將劇本文本轉(zhuǎn)換為一種由本專(zhuān)利定義的基于上下文無(wú)關(guān)語(yǔ)言的內(nèi)部表示,該轉(zhuǎn)換的目的是去除劇本的文本編輯特征并為其賦予語(yǔ)法格式特征,以便于后續(xù)處理;2)采用語(yǔ)法制導(dǎo)翻譯的方法在上下文無(wú)關(guān)語(yǔ)言表示的劇本中抽取出每個(gè)場(chǎng)景的發(fā)生時(shí)間、發(fā)生地點(diǎn)、人物和對(duì)白等信息,并據(jù)此生成劇本的樹(shù)形結(jié)構(gòu)化表示;3)通過(guò)字幕與場(chǎng)景中對(duì)白文本的匹配,為場(chǎng)景中的每句對(duì)白生成其在視頻中的出現(xiàn)和消失時(shí)刻信息,并把每個(gè)場(chǎng)景所包含的第一句對(duì)白的開(kāi)始時(shí)刻和最后一句對(duì)白的消失時(shí)刻作為場(chǎng)景視頻片段的初始分割邊界;4)確定初始分割邊界后,為達(dá)到視頻的無(wú)縫分割采用基于視頻內(nèi)容分析的方法確定場(chǎng)景和場(chǎng)景之間的切換點(diǎn),并據(jù)此確定場(chǎng)景視頻片段的最終分割邊界。下文對(duì)上述過(guò)程進(jìn)行具體描述,其中前兩個(gè)步驟合并在第2節(jié)中進(jìn)行描述。2劇本信息的抽取與結(jié)構(gòu)化表示劇本是影視作品拍攝制作的依據(jù),實(shí)際上是視頻(連續(xù)圖像)的語(yǔ)義信息。一部影視作品的劇本一般由多個(gè)場(chǎng)景構(gòu)成,劇本中的每個(gè)場(chǎng)景一般包含以下信息地點(diǎn)、時(shí)間、內(nèi)外景說(shuō)明、場(chǎng)景描述、對(duì)白等內(nèi)容。根據(jù)一些正規(guī)出版的電影劇本如《中國(guó)電影劇本選集》和《謝晉電影選集》等,中文劇本中的場(chǎng)景一般具有以下格式(摘自《謝晉電影選集》)60.橋側(cè)石柱晨外景月紅、小香給春花松開(kāi)綁繩。小香(不忍)春花。月紅(哽咽)春姐。春花抱住月紅放聲痛哭。場(chǎng)景雖然表示為一段文本,但它實(shí)際上蘊(yùn)涵了豐富的結(jié)構(gòu)化的信息,如在上面的示例場(chǎng)景中包含了以下不同角度的信息場(chǎng)景編號(hào)60;場(chǎng)景發(fā)生的地點(diǎn)橋側(cè)石柱;場(chǎng)景發(fā)生的時(shí)間晨;場(chǎng)景類(lèi)型外景;場(chǎng)景描述月紅、小香給春花松開(kāi)綁繩;在這些信息之后是場(chǎng)景中的對(duì)話信息,每個(gè)說(shuō)話記錄又可結(jié)構(gòu)化表示為以下各個(gè)域的信息說(shuō)話者小香;月紅;說(shuō)話時(shí)注釋不忍;哽咽;內(nèi)容春花;春姐;話后說(shuō)明(無(wú))春花抱住月紅放聲痛哭;劇本通過(guò)一些顯著的文本編輯特征來(lái)區(qū)分各個(gè)不同方面的信息,例如場(chǎng)景基本說(shuō)明行(首行)一般頂格且為黑體,對(duì)白文本的縮進(jìn)字?jǐn)?shù)要遠(yuǎn)大于注釋文本,對(duì)白中說(shuō)話人用黑體顯示等。這些格式信息是我們進(jìn)行文本內(nèi)部表示轉(zhuǎn)換時(shí)的重要依據(jù)。一個(gè)劇本由多個(gè)場(chǎng)景構(gòu)成,為讓用戶可以根據(jù)場(chǎng)景的不同方面內(nèi)容進(jìn)行視頻的檢索,本實(shí)施例把劇本(Script)所蘊(yùn)涵的信息結(jié)構(gòu)化表示為一棵樹(shù),如附圖2所示。圖中Script節(jié)點(diǎn)表示劇本,它包含多個(gè)場(chǎng)景(Scene節(jié)點(diǎn))。每個(gè)場(chǎng)景又包含發(fā)生地點(diǎn)(Location節(jié)點(diǎn))、發(fā)生時(shí)間(Time節(jié)點(diǎn))、場(chǎng)景類(lèi)型(Type節(jié)點(diǎn))、場(chǎng)景描述(Description節(jié)點(diǎn))、場(chǎng)景所對(duì)應(yīng)的視頻片段(URI節(jié)點(diǎn))、和對(duì)白(Dialogues節(jié)點(diǎn))這六個(gè)方面信息。每個(gè)對(duì)白節(jié)點(diǎn)可包含一或多句對(duì)白(Dialogue節(jié)點(diǎn))。每句對(duì)白包含以下各個(gè)信息說(shuō)話角色(Role節(jié)點(diǎn))、說(shuō)話時(shí)注釋(Annotation節(jié)點(diǎn))、對(duì)白內(nèi)容(Content節(jié)點(diǎn))、話后說(shuō)明(Show節(jié)點(diǎn))、該句對(duì)白在視頻中的出現(xiàn)時(shí)刻(Appear節(jié)點(diǎn))和該句對(duì)白在視頻中的消失時(shí)刻(Disappear節(jié)點(diǎn))。域Appear和Disappear用于表示該條對(duì)白所對(duì)應(yīng)字幕的出現(xiàn)和消失時(shí)刻,這兩個(gè)域的內(nèi)容僅從劇本文本是無(wú)法獲得的,其值將通過(guò)劇本對(duì)白與視頻字幕的匹配來(lái)獲得,具體方法將在下文介紹。劇本作為視頻的語(yǔ)義信息,其結(jié)構(gòu)化表示即為視頻的結(jié)構(gòu)化表示?;谶@種表示方法,劇本中的文本信息都可以作為視頻的索引信息,由此可以很方便地搜索到發(fā)生在某個(gè)地點(diǎn)視頻場(chǎng)景片段,甚至可以搜索到包含某個(gè)角色或某句對(duì)白的視頻片段。采用XMLSchema對(duì)附圖2所示的樹(shù)結(jié)構(gòu)進(jìn)行描述,作為劇本信息的元數(shù)據(jù)模版。在此基礎(chǔ)上,通過(guò)對(duì)劇本文本進(jìn)行結(jié)構(gòu)化信息抽取,可獲得結(jié)構(gòu)化的劇本信息XML文檔,作為視頻場(chǎng)景片段抽取的依據(jù)和視頻的索引。為便于劇本信息的抽取,本實(shí)施例首先根據(jù)劇本場(chǎng)景文本的編輯特征將原始場(chǎng)景文本轉(zhuǎn)化為一種內(nèi)部表示。對(duì)于上文的示例場(chǎng)景其轉(zhuǎn)換后的內(nèi)部表示如下60.橋側(cè)石柱,晨,外景(月紅、小香給春花松開(kāi)綁繩。)小香(不忍)春花。月紅(哽咽)春姐。(春花抱住月紅放聲痛哭。)該內(nèi)部表示實(shí)際上是本實(shí)施例定義的一種具有特定語(yǔ)法格式的劇本場(chǎng)景描述語(yǔ)言,采用CFG(上下文無(wú)關(guān)文法)進(jìn)行定義,其基于BNF(巴斯科范式)的形式化描述如下所示一個(gè)場(chǎng)景描述文法是一個(gè)四元式(Vt,Vn,S,P),其中Vt是終結(jié)符的非空有限集合Vi^(comma,period,colon,character,(,)},comma表示逗號(hào),period表示句點(diǎn),colon表示冒號(hào),character表示字符(不包含'#,和'],);Vn是一個(gè)非終結(jié)符的非空有限集Vn={Scene,Head,Description,Dialogues,Number,Digital,Location,Characters,Time,Remark,Surroundings,Dialogue,Content,Role,Annotation,Show};S是一個(gè)特殊的非終結(jié)符(SEVN)稱(chēng)為開(kāi)始符號(hào);P是一個(gè)產(chǎn)生式(規(guī)則)的有限集合,P中的產(chǎn)生式如下Scene+HeadDescriptionDialogues|HeadDialoguesHead■>IdentifierLocationTimeSurroundings|IdentifierIdentifier~>NumberperiodNumber+DigitalNumber|DigitalDigital">9|8|7|6|5|4|3|2|1|0|Location"^CharacterscommaCharacters"^character|CharacterscharacterTime~>Characters|CharactersRemarkcommaRemark—(Characters)Surroundings"^CharactersDescription"^(Characters)Dialogues—DialogueDialogues|DialogueDialogue—RolecolonAnnotationContentShow|RolecolonContentShow|RolecolonAnnotationContent|RolecolonContentRole-^CharactersAnnotation"^(Characters)Content■>CharactersShow^(Characters)從原始劇本轉(zhuǎn)換為上述內(nèi)部表示的方法如下步驟l:從原始劇本中讀入一行,若已至文件尾的則轉(zhuǎn)步驟4,如果是空行轉(zhuǎn)步驟l,否則轉(zhuǎn)步驟2;步驟2:判斷所讀入行的類(lèi)型計(jì)算該行所包含的字符數(shù)量設(shè)為A,計(jì)算去掉該行左方空格后的字符數(shù)量設(shè)為B;設(shè)n=A-B如果n=0則該文本行為一個(gè)新場(chǎng)景的第一行(標(biāo)記其類(lèi)型為l),轉(zhuǎn)步驟3;否則如果rK4則該文本行為場(chǎng)景中的說(shuō)明/注釋信息(標(biāo)記其類(lèi)型為2),轉(zhuǎn)步驟3;否則如果rK20則該文本行為場(chǎng)景中的說(shuō)話人(標(biāo)記其類(lèi)型為4),轉(zhuǎn)步驟3;否則該文本行為對(duì)白(標(biāo)記其類(lèi)型為3),轉(zhuǎn)步驟3;步驟3:設(shè)當(dāng)前文本行類(lèi)型為T(mén)上一文本行類(lèi)型為L(zhǎng)(這兩個(gè)量的初始值都為零),劇本內(nèi)部表示存于變量F。去掉文本前后空格后,依據(jù)下列規(guī)則處理文本1)T=1:此時(shí)若L=2則首先在F之后追加右括號(hào)換行符,否則直接將場(chǎng)景發(fā)生地點(diǎn)和發(fā)生時(shí)間以及場(chǎng)景類(lèi)型之間的空格替換為逗號(hào),并將該行追加到F,設(shè)置L=T轉(zhuǎn)步驟1;2)T=4:此時(shí)若L-2則還是在F之后追加右括號(hào),否則直接進(jìn)行如下處理如果在文本中檢測(cè)到左括號(hào),則在左括號(hào)之前插入冒號(hào)并將該行追加到F,否則直接將該行追加到F,最后設(shè)置L-T轉(zhuǎn)步驟l;3)T=3:將該行追加到F,設(shè)置L-T轉(zhuǎn)步驟1;4)T=2:此時(shí)若L-1或者L^3則首先在F之后追加左括號(hào),并將該行文本追加到F,否則直接將該行文本追加到F,最后設(shè)置L=T轉(zhuǎn)步驟1;步驟4:在F之后追加右括號(hào),之后結(jié)束程序,轉(zhuǎn)換完成;對(duì)轉(zhuǎn)換后的內(nèi)部表示劇本,本實(shí)施例通過(guò)語(yǔ)法制導(dǎo)翻譯的方法,抽取出場(chǎng)景描述文本中的結(jié)構(gòu)化信息。語(yǔ)法制導(dǎo)翻譯表如表1所示。文本分析過(guò)程中用到了兩個(gè)棧符號(hào)棧(TextStack,TS)和控制棧(ControlStack,CS),字符進(jìn)入符號(hào)棧還是控制棧必須依據(jù)其上下文確定。文本分析過(guò)程按照文本自然順序從頭依次讀入字符,如果該字符是文字將其壓入TS,否則該字符可能是標(biāo)點(diǎn)符號(hào)或者括號(hào)等,此時(shí)要根據(jù)cs棧頂字符進(jìn)行相應(yīng)操作,操作依據(jù)表1進(jìn)行(表中行表示當(dāng)前讀到的控制字符,列則是當(dāng)前控制棧的棧頂符號(hào),表中用EOF表示棧為空的情況);上述過(guò)程持續(xù)進(jìn)行直至讀完所有字符,一般如無(wú)特別注明進(jìn)行表1(該表為語(yǔ)法制導(dǎo)翻譯表)中的操作后程序?qū)⒆x入下一字符。表l<table>tableseeoriginaldocumentpage11</column></row><table>表中Push(CS/TS,c)表示將當(dāng)前讀到的字符壓入棧CS/TS,CS.Pop()表示彈出CS的棧頂字符;Pop(CS/TS)表示彈出CS/TS棧的所有字符,對(duì)于TS棧其彈出內(nèi)容一般為場(chǎng)景各個(gè)信息域的值,表中對(duì)于各個(gè)信息域我們用附圖2中各個(gè)域名稱(chēng)的前三個(gè)字母表示;TS.Count表示當(dāng)前TS棧的字符數(shù)量,shc^Pop(Top,TS)表示彈出TS棧棧頂?shù)?TS.Count-Top)個(gè)字符作為附圖2中Show域的值;Pop(TS,Rol,Con)表示從TS棧中彈出所有字符,分割獲得圖2中Role和Content這兩個(gè)域的值。經(jīng)過(guò)上述抽取過(guò)程之后,附圖2中劇本場(chǎng)景結(jié)構(gòu)化信息域的內(nèi)容除URI、Appear和Disappear己全部生成,這幾個(gè)信息域的內(nèi)容的生成方法將在下文討論。3劇本和字幕的匹配方法本部分討論利用電影字幕信息生成場(chǎng)景中每句對(duì)白的出現(xiàn)和消失時(shí)刻信息(即生成附圖2中Appear和Disappear節(jié)點(diǎn)的值)的方法。高清DVD視頻中字幕一般以外掛文件的形式存在,字幕外掛文件基本上可分為兩大類(lèi),其一為文本文件,其二為圖片文件加時(shí)間索引信息文件,對(duì)于這種格式可通過(guò)OCR技術(shù)轉(zhuǎn)換成文本格式。文本形式外掛字幕中,每條字幕具有如下形式600:01:55,215—〉00:01:57,581師父,趙公子是名門(mén)望族其中第一行為字幕按照其在視頻中出現(xiàn)順序的編號(hào),第二行為字幕的出現(xiàn)和消失時(shí)間,其后為字幕的文字內(nèi)容。為了便于算法的敘述,首先對(duì)劇本和字幕進(jìn)行形式化描述。稱(chēng)一部電影視頻文件為r,F(xiàn)所包含的所有字幕為集合r-(A,A,...,A,...,AJ,集合中的元素A為一個(gè)四元組{D/,D5,£)£,iX:},Z)/為字幕的編號(hào),D5為字幕在視頻中出現(xiàn)的時(shí)間,D£為字幕在視頻中的結(jié)束時(shí)間,Z)C是字幕的文字。r所對(duì)應(yīng)的劇本用集合尸-^p&,…,s,.,…,sj表示,集合中的元素s,表示劇本中的第/個(gè)場(chǎng)景,S,可表示為一個(gè)六元組(S/,5X,5T,SP,SS,SZ^,57表示場(chǎng)景的編號(hào),si表示場(chǎng)景發(fā)生的地點(diǎn),sr表示場(chǎng)景發(fā)生的時(shí)段(晨,日或夜等),sp為場(chǎng)景類(lèi)型(內(nèi)/外景),5S為場(chǎng)景的描述文本,S"為場(chǎng)景中的對(duì)白;SD是一個(gè)集合,《,.."《,...,《},其中《為一個(gè)六元組(SZ)及,SZX4,SZ)C,SDS,SD尸,Si)Z^,S£W為該對(duì)白的說(shuō)出者,SA4是說(shuō)話者說(shuō)出該對(duì)白時(shí)的一些注釋信息,SDC是對(duì)白的文字內(nèi)容,SDS是該對(duì)白結(jié)束之后場(chǎng)景中的后繼動(dòng)作說(shuō)明,SD戶為該條對(duì)白在字幕中的出現(xiàn)時(shí)刻,5Z)D為該條對(duì)白在字幕中的消失時(shí)刻。設(shè)K中所有的字幕文字按其出現(xiàn)順序構(gòu)成集合Z—DCpDCn/X:,,...,!^},為便于書(shū)寫(xiě)改寫(xiě)為^="^2,...,《,...,;^},并以、1^+1表示第/和/+1條字幕文字的連接(多條連續(xù)字幕可能對(duì)應(yīng)場(chǎng)景中的一句對(duì)白),只有連續(xù)字幕文字才能進(jìn)行連接操作;劇本P中所有對(duì)白中的文字按照其出現(xiàn)順序構(gòu)成集合y={5Z>C11,<S1£>Cl2,...,5Z)C21,5>£>C22,...,5IZ)C,,..,51i)Cp},其中SZ)Cy表示第/個(gè)場(chǎng)景中第/個(gè)對(duì)白的文字內(nèi)容,為便于書(shū)寫(xiě)將集合改寫(xiě)為y-U,":^,...,:^,:^,..^,,,..,^,";如果義和r中的元素滿足如下關(guān)系力"叫+|uu…叫=Ac》Ac八"》,則稱(chēng)ff^準(zhǔn)到x用rt火來(lái)表示這種關(guān)系,此時(shí)所在對(duì)白的出現(xiàn)時(shí)刻SD(=Z)5A消失時(shí)刻為SD£>0=。如果劇本對(duì)白文字集合y和字幕文字集合Z,滿足y卞%,則稱(chēng)7對(duì)應(yīng)的劇本尸為I級(jí)劇本;否則如果劇本P中的場(chǎng)景S,滿足以下條件V《(30^=Auuxt+2u…ux,)a(乂p=x,+義ux,"+,ux固u…u:0)則稱(chēng)劇本p為n級(jí)劇本;不滿足上述兩個(gè)條件的劇本稱(chēng)為III級(jí)劇本。從上述定義可以看出,I級(jí)劇本可以根據(jù)字幕中蘊(yùn)涵的時(shí)間信息為其包含的每個(gè)對(duì)白生成Appear和Disappear域的值,II級(jí)和III級(jí)劇本則只能為部分對(duì)白生成這兩個(gè)域的值,II級(jí)劇本與三級(jí)劇本的區(qū)別在于II級(jí)劇本中對(duì)于包含對(duì)白的場(chǎng)景存在第一句對(duì)白和最后一句對(duì)白。定義這三種類(lèi)別劇本的原因是某些劇本并不列出影片中出現(xiàn)的所有對(duì)白。視頻存在I級(jí)劇本時(shí)用戶的査詢粒度可以達(dá)到每句對(duì)白對(duì)應(yīng)的視頻片段。如果視頻存在對(duì)應(yīng)的I級(jí)或II級(jí)劇本,則該視頻可以基于劇本場(chǎng)景信息進(jìn)行基本與劇本吻合的視頻場(chǎng)景片段抽取,對(duì)于m級(jí)劇本則更多的依賴基于視頻內(nèi)容分析的抽取。下面給出字幕與劇本匹配的具體算法-/*本函數(shù)產(chǎn)生包含對(duì)白場(chǎng)景的初始分割邊界,函數(shù)的輸入是結(jié)構(gòu)化表示的場(chǎng)景描述和字幕*/AlgorithmSceneDivide(SceneRecordArray:S,TitleRecordArray:T)beginbt=0;et=0./*—句對(duì)白可對(duì)應(yīng)連續(xù)多條字幕,這兩個(gè)變量用于記錄第一條和最后一條對(duì)應(yīng)字幕*/for(i=0;i<S.length;i++)/*對(duì)劇本中的每個(gè)場(chǎng)景進(jìn)行處理*/if(S[i]ContainDialogue)/*如果場(chǎng)景包含對(duì)白*/化1^=0;_|<8卩].0.16118^++)/*對(duì)場(chǎng)景中每一句對(duì)白根據(jù)字幕生成其開(kāi)始和消失時(shí)刻Vd=GetPureText(S[i].D[j])./*去掉標(biāo)點(diǎn)符號(hào)和感嘆詞*/if(MatchTMe(T,d,&bt,&et))/*在字幕中搜索本句對(duì)白對(duì)應(yīng)的字幕*/S[i].D[j].Appear=T[bt].DB./*設(shè)置對(duì)白的開(kāi)始時(shí)間為第一條字幕的開(kāi)始時(shí)間VS[i].D[j].Disappear=T[et].DE./*設(shè)置對(duì)白的結(jié)束時(shí)間為最后一條字幕的結(jié)束時(shí)間Vbt=bt+l./*設(shè)置下一句對(duì)白的進(jìn)行匹配的開(kāi)始字幕*//*設(shè)置場(chǎng)景所包含的第一句對(duì)白的開(kāi)始時(shí)刻為場(chǎng)景的初始開(kāi)始邊界*/if(j=0)S[i].Begin=S[i].D[j].Appear./*設(shè)置場(chǎng)景所包含的最后一句對(duì)白的結(jié)束時(shí)刻為場(chǎng)景的初始結(jié)束邊界*/if(j=S[i].D.length-l)S[i].End=S[i].D[j].Disappear.endifendforendifcudforend/*本函數(shù)為對(duì)白文本搜索其對(duì)應(yīng)的開(kāi)始和結(jié)束字幕,函數(shù)輸入T為結(jié)構(gòu)化表示的字幕集合,d為對(duì)白文本,bt為進(jìn)行搜索的起始字幕編號(hào),函數(shù)運(yùn)行結(jié)束后bt和et存放開(kāi)始和結(jié)束字幕編號(hào)VAlgorithmMatchTitle(TitleRecordArray:T,Dialogue:d,BeginTitle&bt,EndTitle&et)beginflag=false./*用于記錄匹配狀態(tài),為假表示還沒(méi)找到對(duì)白的第一個(gè)匹配字幕,反之為真Vfor(i=bt;i<T.length-l;i++)pat=GetPureText(T[i].Text)./*去掉標(biāo)點(diǎn)符號(hào)和感嘆詞*/m-StringApproximatch(pat,d,2).嚴(yán)字幕文本和對(duì)白文本的近似匹配*/1^111=-1)/*字符串匹配失敗*/if(flag=false)continue.elseet=i-l;returntrue,endifelse/*匹配成功*/if(flag=false)bt=i;flag=true./*記錄對(duì)白所匹配的第一個(gè)字幕編號(hào)*/endifd=d.Substring(m+l,d.length-m-l)./*刪除對(duì)白前端已經(jīng)匹配字幕的字符,其個(gè)數(shù)為mVif(d.length-0)/*表示本句對(duì)白已經(jīng)沒(méi)有文本,即所有的文本都已經(jīng)匹配到字幕*/et=i;returntrue./*記錄結(jié)束字幕編號(hào),返回匹配成功信息Vendifendifendforreturnfalse./*至此表示無(wú)法為對(duì)白找到匹配字幕,返回匹配失敗信息Vend上述算法適用于三種不同級(jí)別的劇本,算法要求劇本中的對(duì)白必須在字幕中可以找到,即不能出現(xiàn)一句在字幕中根本沒(méi)有的對(duì)白。偽代碼中S是劇本場(chǎng)景信息記錄集基本包含附圖2所示的各個(gè)信息域,S[i]表示第i個(gè)場(chǎng)景對(duì)應(yīng)的信息記錄,S[i].D[j]表示第i個(gè)場(chǎng)景的第j條對(duì)白,T是字幕記錄集。函數(shù)GetPureText()用于去除文本中的標(biāo)點(diǎn)符號(hào)和感嘆詞,這樣做的原因是劇本中對(duì)白文本的標(biāo)點(diǎn)符號(hào)和一些感嘆詞與字幕會(huì)有一些細(xì)微差別。函數(shù)MatchTitle()用于為每條對(duì)白尋找其對(duì)應(yīng)的開(kāi)始和結(jié)束字幕,其中字符串匹配采用基于動(dòng)態(tài)規(guī)劃的近似字符串匹配算法,在編輯距離不超過(guò)2時(shí)認(rèn)為兩個(gè)串匹配。4視頻場(chǎng)景片段抽取與索引假設(shè)場(chǎng)景S,("/S")中有對(duì)白,其中第一個(gè)對(duì)白的文字為&且ujc*+1u…ux,,最后一個(gè)對(duì)白的文字為^,p且尺p=Jf,+Aui,+/1+1u…UXu,則場(chǎng)景《包含視頻段[1)^,£>£](為視頻段的開(kāi)始時(shí)刻,£>£為視頻段的結(jié)束時(shí)刻);另設(shè)場(chǎng)景s,之后第一個(gè)包含對(duì)白的場(chǎng)景為《,包含視頻段,whs,-s,i表示S,到S,.之間無(wú)對(duì)白場(chǎng)景的個(gè)數(shù),則視頻段[D^,DA,]所要確定的切分點(diǎn)數(shù)量為AT+1,設(shè)61,62,...,~+1為這些切分點(diǎn)的切分時(shí)刻,則場(chǎng)景S,對(duì)應(yīng)視頻段的上界(不包含)為A,場(chǎng)景S,.對(duì)應(yīng)視頻段的是下界為^+,,中間每個(gè)無(wú)對(duì)白場(chǎng)景對(duì)應(yīng)的視頻段為[6,,6,J(1^3A0。獲得每個(gè)場(chǎng)景對(duì)應(yīng)視頻段的時(shí)刻上下界后,根據(jù)該信息對(duì)視頻進(jìn)行分割即可獲得每個(gè)場(chǎng)景對(duì)應(yīng)的視頻段。切分點(diǎn)采用基于視頻內(nèi)容分析的方法確定。算法要求劇本的第一個(gè)場(chǎng)景和最后一個(gè)場(chǎng)景必須有對(duì)白,顯然I級(jí)或II級(jí)劇本符合這個(gè)要求,III級(jí)劇本則可能不滿足這一條件,此時(shí)將第一個(gè)字幕和最后一個(gè)字幕部分文本作為劇本第一個(gè)場(chǎng)景和最后一個(gè)場(chǎng)景的對(duì)白。下面結(jié)合附圖3,對(duì)場(chǎng)景視頻片段抽取的具體流程進(jìn)行說(shuō)明。經(jīng)過(guò)上一節(jié)字幕和劇本的匹配處理之后,對(duì)于每一個(gè)包含字幕的場(chǎng)景S[i]已經(jīng)初步確定了其在整個(gè)視頻中的開(kāi)始和結(jié)束邊界,但這個(gè)邊界是不夠準(zhǔn)確的,因?yàn)閳?chǎng)景中的對(duì)白可能在場(chǎng)景出現(xiàn)一段時(shí)間之后才會(huì)出現(xiàn),另外還可能有一些場(chǎng)景沒(méi)有字幕此時(shí)它由上一節(jié)方法無(wú)法確定其邊界,為此為了準(zhǔn)確地分割出場(chǎng)景視頻段,首先必須確定每個(gè)場(chǎng)景的精確邊界。另一方面,本實(shí)施例假定電影視頻的片頭和片尾不作為場(chǎng)景的一部分,并將其單獨(dú)從視頻文件中分割出來(lái)。具體步驟如下步驟1:從視頻片段中分割出片頭設(shè)置輔助變量Begin-0,End-S.begin(即第一個(gè)場(chǎng)景在上一節(jié)中初步確定的邊界),從視頻文件(設(shè)為V)中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻段(附圖2中函數(shù)GetVideoSeg(V,Begin,End)表示這一分割過(guò)程),設(shè)置i-O,轉(zhuǎn)步驟2。步驟2:設(shè)S丄ength表示劇本所包含的場(chǎng)景總數(shù),判斷i是否小于S.length-l,如果是轉(zhuǎn)步驟3,否則轉(zhuǎn)步驟8;步驟3:判斷第i個(gè)場(chǎng)景是否包含對(duì)白(S[i].F為真表示包含對(duì)白),如果不包含轉(zhuǎn)步驟4,否則轉(zhuǎn)步驟5;步驟4:設(shè)置i-i+l,轉(zhuǎn)步驟2;步驟5:取場(chǎng)景i之后的第一個(gè)包含對(duì)白場(chǎng)景設(shè)為j(附圖3中由j-GetNextScene(S,i)表示),設(shè)置Begin-S[i].end,End=S[j].begin,在視頻文件中抽取出開(kāi)始時(shí)刻為Begin結(jié)束時(shí)刻為End的視頻段所對(duì)應(yīng)的所有視頻圖像(即視頻幀),統(tǒng)計(jì)每幅圖像中三個(gè)顏色分量RGB的顏色分布情況,之后使用下面的公式計(jì)算所抽取圖像中兩個(gè)連續(xù)圖像n和n+1之間的顏色分布差異/)(","+1):255z)(","+i)-J^c,o)-c二(/7)l+lcf(/7)-C(p)l+lc,(p)-c二(p)IJ(公式l)公式1假定好°于每個(gè)顏色分量具有256個(gè)強(qiáng)度等級(jí),C,,(/7)表示第n個(gè)圖象中顏色分量R強(qiáng)度等級(jí)為p的像素點(diǎn)個(gè)數(shù),|CS(p)-C二(/7)1表示連續(xù)圖象n和n+l在顏色分量R的第p個(gè)量化等級(jí)上差異絕對(duì)值,其余各項(xiàng)含義可類(lèi)推,假設(shè)所抽取的圖像總數(shù)為N,則需要計(jì)算N-1個(gè)幀間差異,假設(shè)計(jì)算結(jié)果存于數(shù)組Diff中,計(jì)算完成之后轉(zhuǎn)下一步驟;步驟6:在數(shù)組Diff中找出最大的(j-i)個(gè)元素,并使用數(shù)組Pos記錄這些元素在Diff中的下標(biāo),對(duì)Pos數(shù)組中的元素按從小到大順序進(jìn)行排序,之后設(shè)置變量k-0,轉(zhuǎn)下一步驟;步驟7:如果k值等于Pos數(shù)組長(zhǎng)度,轉(zhuǎn)步驟4,否則進(jìn)行如下處理設(shè)置第(i+k)個(gè)場(chǎng)景的結(jié)束時(shí)刻為S[i+k].end=Begin+(Pos[k]+l)*T,第(i+k+l)個(gè)場(chǎng)景的開(kāi)始時(shí)刻為S[i+k+l〗.begin=S[i+k].end,之后設(shè)置Begin-S[i+k].begin,End=S[i+k〗.end,從視頻文件中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻片段作為第(i+k)個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段,將視頻片段的存取位置作為場(chǎng)景中URI域的值,設(shè)置k-k+l,重復(fù)本步驟;步驟8:分割出視頻序列中最后一個(gè)包含對(duì)白的場(chǎng)景設(shè)置Begin=S[S.length-l].begin,End=S[S.length-l].end,從視頻文件中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻片段作為第(S.length-1)個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段,轉(zhuǎn)下一步驟;步驟9:分割出片尾分割出時(shí)刻S[S.length-l].end開(kāi)始直至結(jié)束的視頻片段,結(jié)束程序;通過(guò)上述方法分割出劇本中每個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段后,劇本場(chǎng)景中所包含的文本直接成為相應(yīng)視頻片段的語(yǔ)義標(biāo)注,通過(guò)搜索場(chǎng)景文本中的關(guān)鍵詞即可找到對(duì)應(yīng)視頻,或者通過(guò)指定信息域進(jìn)行檢索,例如檢索出現(xiàn)某個(gè)說(shuō)話人的所有視頻片段。具體而言,本實(shí)施例將附圖2中的劇本結(jié)構(gòu)化信息模板采用XMLSchema進(jìn)行描述,對(duì)于每部電影為其建立符合該描述的XML文件,并將該文件作為該部影片的索引。權(quán)利要求1、一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,該方法包括如下步驟1)獲取電影類(lèi)視頻的字幕信息,所述字幕信息包括字幕的文字內(nèi)容以及該字幕的在視頻中的出現(xiàn)和消失時(shí)間;2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息,所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息;3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,根據(jù)所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間,得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間;4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)所述電影類(lèi)視頻進(jìn)行分割,得到各場(chǎng)景的視頻片斷。2、根據(jù)權(quán)利要求1所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,其特征在于,所述步驟3)包括如下子步驟[31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。3、根據(jù)權(quán)利要求2所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,其特征在于,所述步驟3)還包括如下子步驟[32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景,抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像,根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異,進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn),從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。4、根據(jù)權(quán)利要求1所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,其特征在于,所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白,每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。5、一種對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法,其特征在于,該方法包括-[1)獲取電影類(lèi)視頻的字幕信息,所述字幕信息包括字幕的文字內(nèi)容以及該字幕的在視頻中的出現(xiàn)和消失時(shí)間;[2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息,所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息;[3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間,得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間;[4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)所述電影類(lèi)視頻進(jìn)行分割,得到各場(chǎng)景的視頻片斷;5)根據(jù)步驟2)中得到的場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息,為各場(chǎng)景的視頻片斷建立索引。6、根據(jù)權(quán)利要求5所述的對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法,其特征在于,所述步驟3)包括如下子步驟31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。7、根據(jù)權(quán)利要求6所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法,其特征在于,所述步驟3)還包括如下子步驟32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景,抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像,根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異,進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的起始時(shí)間切分點(diǎn),從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。8、根據(jù)權(quán)利要求5所述的對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法,其特征在于,所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白,每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。全文摘要本發(fā)明涉及一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取方法及其建立索引的方法,抽取方法包括1)獲取電影類(lèi)視頻的字幕信息,字幕信息包括字幕的文字內(nèi)容以及該字幕的出現(xiàn)和消失時(shí)間;2)從電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息,所述結(jié)構(gòu)化信息包括場(chǎng)景對(duì)白信息;3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配,根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間,得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間;4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間,對(duì)所述電影類(lèi)視頻進(jìn)行分割,得到各場(chǎng)景的視頻片斷。建立索引方法則是在上述步驟1)至4)基礎(chǔ)上使用步驟2)中得到的結(jié)構(gòu)化信息為所抽取的視頻片斷建立索引。本發(fā)明具有耗時(shí)少,精確度高等優(yōu)點(diǎn)。文檔編號(hào)G11B27/031GK101650958SQ20091008976公開(kāi)日2010年2月17日申請(qǐng)日期2009年7月23日優(yōu)先權(quán)日2009年7月23日發(fā)明者李松斌,王勁林,王玲芳申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所