對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取方法及其建立索引的方法

文檔序號(hào)：6754427閱讀：403來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>信息存儲(chǔ)應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：：對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取方法及其建立索引的方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及視頻索引與搜索
技術(shù)領(lǐng)域：
，具體地說(shuō)，本發(fā)明涉及一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取和建立索引的方法。
背景技術(shù)：
：廉價(jià)的大容量存儲(chǔ)設(shè)備制造技術(shù)的進(jìn)步，更高的網(wǎng)絡(luò)數(shù)據(jù)傳輸速率，以及持續(xù)改進(jìn)的高效視頻壓縮技術(shù)使數(shù)字視頻得以廣泛傳播和使用。視頻為多媒體系統(tǒng)用戶提供了大量的信息，同時(shí)它也是很多應(yīng)用系統(tǒng)的數(shù)據(jù)源，這些系統(tǒng)如數(shù)字圖書(shū)館、數(shù)字出版、數(shù)字娛樂(lè)、數(shù)字廣播和遠(yuǎn)程教育等。目前，基于視頻信息的網(wǎng)絡(luò)服務(wù)正處于高速發(fā)展期。但是，與成熟的文本信息搜索相比，目前高效地獲取特定的視頻片段仍然是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。文本與視頻(運(yùn)動(dòng)圖像)在檢索時(shí)差異很大，文本內(nèi)容中的某個(gè)詞很容易被識(shí)別，并且該詞包含人可理解的概念(含語(yǔ)義信息)，因此文本內(nèi)容可進(jìn)行全文檢索(此時(shí)文本中的詞匯是檢索特征量)；但圖像本身的特征很難用于直接搜索，例如顏色分布特征與用戶的詢問(wèn)信息可能毫無(wú)關(guān)聯(lián)，視頻由一系列的圖像構(gòu)成，其語(yǔ)義更為復(fù)雜，機(jī)器將用戶的查詢信息轉(zhuǎn)化為對(duì)一系列視頻特征的査詢存在很大困難，即存在所謂的"語(yǔ)義鴻溝"問(wèn)題。所以，與文本信息不同，直接從視頻數(shù)據(jù)中很難獲得檢索所需的特征量，要對(duì)視頻進(jìn)行有效的檢索必須依賴于充分的視頻元數(shù)據(jù)信息。當(dāng)前大部分的商業(yè)視頻搜索引擎一般也通過(guò)搜索視頻的元數(shù)據(jù)信息如文件名、環(huán)繞文字或者語(yǔ)音腳本(使用語(yǔ)音識(shí)別技術(shù)從視頻中獲得)為用戶返回所需的視頻。這種方法對(duì)視頻的搜索可以定義為一種淺層搜索，因?yàn)樗鼰o(wú)法進(jìn)行基于視頻內(nèi)容的檢索，而且只能檢索到視頻文件層次，而不是深入到每個(gè)視頻片段。顯然，這種搜索結(jié)果用戶是不能滿意的，例如用戶可能只想看一部電影中的某個(gè)片段，這是當(dāng)前搜索引擎所無(wú)法提供的。為了使原始視頻數(shù)據(jù)可以被方便地瀏覽和檢索，必須對(duì)視頻數(shù)據(jù)進(jìn)行分析、建立索引和重新組織，其目標(biāo)是形成原始視頻數(shù)據(jù)的結(jié)構(gòu)化表示。為了將視頻進(jìn)行結(jié)構(gòu)化表示，一個(gè)連續(xù)的視頻圖像序列經(jīng)常被分解成多個(gè)場(chǎng)景和鏡頭單元，這些場(chǎng)景和鏡頭單元根據(jù)其依賴關(guān)系形成了原始視頻序列的層次化表示。一個(gè)鏡頭是由同一個(gè)攝像機(jī)連續(xù)捕獲的一個(gè)幀序列，它實(shí)際上是視頻圖像序列之間的物理邊界。場(chǎng)景由一個(gè)或多個(gè)連續(xù)鏡頭組成，這些鏡頭擁有共同拍攝背景/環(huán)境。例如，我們經(jīng)?？梢钥吹胶芏噙B續(xù)的鏡頭(由多個(gè)攝像機(jī)拍攝)共享類(lèi)似的視覺(jué)內(nèi)容，因?yàn)樗鼈兪窃谕瑯拥沫h(huán)境中產(chǎn)生的如會(huì)議室或運(yùn)動(dòng)場(chǎng)等。一個(gè)視頻場(chǎng)景片段一般是一個(gè)具有完整語(yǔ)義的故事單元，它實(shí)際上是視頻圖像序列的語(yǔ)義邊界。由于用戶檢索一般是基于語(yǔ)義單元的檢索，為此視頻圖像序列一般被以場(chǎng)景為單位進(jìn)行組織。顯然，比較準(zhǔn)確的視頻場(chǎng)景抽取是保證檢索質(zhì)量的關(guān)鍵。本發(fā)明主要討論電影類(lèi)視頻進(jìn)行場(chǎng)景抽取和索引的方法。該類(lèi)視頻進(jìn)行場(chǎng)景抽取的過(guò)程一般可以分為兩個(gè)步驟首先是根據(jù)視頻圖像的顏色、紋理等特征進(jìn)行鏡頭邊緣檢測(cè)；然后將視覺(jué)內(nèi)容近似且連續(xù)的多個(gè)鏡頭劃分為一個(gè)組并作為一個(gè)場(chǎng)景。這種方法的缺陷首先在于鏡頭檢測(cè)容易受到干擾，例如對(duì)于漸變鏡頭有較高的誤判率，其次鏡頭視覺(jué)內(nèi)容的表示和鏡頭之間相似性的衡量方法目前也不夠成熟。這些原因?qū)е聢?chǎng)景抽取的査全率和査準(zhǔn)率都不是太理想，目前所報(bào)道的査全率和查準(zhǔn)率的最好結(jié)果均在70%左右。另一方面，采用上述方法抽取場(chǎng)景后，為支持高效的檢索，還必須為場(chǎng)景建立索引，例如說(shuō)明場(chǎng)景發(fā)生的地點(diǎn)、主要人物和發(fā)生的事件等。這些工作耗時(shí)費(fèi)力，而且由于個(gè)人主觀性的影響，會(huì)導(dǎo)致標(biāo)注結(jié)果的不客觀。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是結(jié)合劇本和字幕信息對(duì)的電影場(chǎng)景進(jìn)行分割(即場(chǎng)景片段抽取)，以達(dá)到較高精度的視頻場(chǎng)景抽取效果。本發(fā)明的另一個(gè)目的是為所抽取的場(chǎng)景視頻片段自動(dòng)匹配其在劇本中的對(duì)應(yīng)文字信息作為其索引，從而避免手工標(biāo)注。為實(shí)現(xiàn)上述第一個(gè)發(fā)明目的，本發(fā)明提供了一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，該方法包括如下步驟1)獲取電影類(lèi)視頻的字幕信息，所述字幕信息包括字幕的文字內(nèi)容以及該字幕的出現(xiàn)和消失時(shí)間；2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息，所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息；3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間，得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間；4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)所述電影類(lèi)視頻進(jìn)行分割，得到各場(chǎng)景的視頻片斷。上述技術(shù)方案中，所述步驟3)包括如下子步驟31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。上述技術(shù)方案中，所述步驟3)還包括如下子步驟32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景，抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像，根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異，進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn)，從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn)就是精確確定的后一個(gè)場(chǎng)景的開(kāi)始時(shí)間，也就是精確確定的前一個(gè)場(chǎng)景的結(jié)束時(shí)間。上述技術(shù)方案中，所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白，每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。為實(shí)現(xiàn)上述第二個(gè)發(fā)明目的，本發(fā)明提供了一種對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法，該方法包括根據(jù)上述步驟l)至4)得到各場(chǎng)景的視頻片斷；5)根據(jù)步驟2)中得到的場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息，為各場(chǎng)景的視頻片斷建立索引。與完全基于視頻內(nèi)容分析的視頻場(chǎng)景抽取方法相比，本發(fā)明的優(yōu)勢(shì)在于第一、極大地降低了場(chǎng)景抽取的時(shí)間，這是因?yàn)楸景l(fā)明不需要對(duì)所有的視頻幀都進(jìn)行內(nèi)容分析，而只需要分析兩個(gè)相鄰包含對(duì)白場(chǎng)景之間的那些視頻幀。第二、提高了場(chǎng)景視頻場(chǎng)景片段抽取的精確度，由于劇本實(shí)際上是電影視頻的高層語(yǔ)義，劇本中的場(chǎng)景和視頻中的場(chǎng)景是一一對(duì)應(yīng)的，因此如果所有的場(chǎng)景都包含對(duì)白則理論上本發(fā)明給出的方法可達(dá)到100%的査準(zhǔn)率和查全率；對(duì)于連續(xù)無(wú)對(duì)白場(chǎng)景不超過(guò)一個(gè)的情況，本發(fā)明基本也不會(huì)誤判，由于連續(xù)出現(xiàn)多個(gè)無(wú)對(duì)白場(chǎng)景的情況非常少，因此可以認(rèn)為本發(fā)明可以準(zhǔn)確地抽取出視頻中各個(gè)場(chǎng)景。第三、劇本中的場(chǎng)景描述文本可直接作為所對(duì)應(yīng)抽取場(chǎng)景視頻片段的索引信息，由于劇本中包含了場(chǎng)景所有的高層語(yǔ)義信息，因此可支持用戶進(jìn)行類(lèi)似于文本檢索的査詢，而純粹的基于視頻內(nèi)容分析方法在抽取視頻場(chǎng)景片段后還要進(jìn)行煩瑣的標(biāo)注。圖1本發(fā)明一個(gè)實(shí)施例中對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取和建立索引的總體流程框圖2本發(fā)明一個(gè)實(shí)施例中劇本信息的結(jié)構(gòu)化表示示意圖3本發(fā)明一個(gè)實(shí)施例中基于劇本信息的視頻場(chǎng)景分割方法示意圖。具體實(shí)施例方式本發(fā)明在對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景抽取和索引時(shí)，引入了視頻所對(duì)應(yīng)的劇本和字幕這兩方面信息，達(dá)到較高精度的視頻場(chǎng)景抽取效果，并且可以為所抽取的場(chǎng)景視頻片段自動(dòng)匹配其在劇本中的對(duì)應(yīng)文字信息作為其索引，從而避免手工標(biāo)注。劇本是影視作品拍攝制作的依據(jù)，實(shí)際上是視頻(連續(xù)圖像)的語(yǔ)義信息。一部電影作品的劇本一般由多個(gè)場(chǎng)景構(gòu)成，劇本中的每個(gè)場(chǎng)景一般包含以下信息地點(diǎn)、時(shí)間、內(nèi)外景說(shuō)明、場(chǎng)景描述、對(duì)白等內(nèi)容。劇本中的對(duì)白實(shí)際上就是電影的字幕。目前對(duì)于高清DVD電影，其字幕一般以外掛文件的形式隨視頻文件一起發(fā)布，易于獲得;對(duì)于內(nèi)嵌型字幕則可通過(guò)視頻OCR技術(shù)提取字幕。每條字幕均包含該字幕在視頻中的出現(xiàn)和消失時(shí)間，本發(fā)明正是通過(guò)利用這些時(shí)間信息結(jié)合劇本場(chǎng)景對(duì)白對(duì)視頻場(chǎng)景片段進(jìn)行抽取。下面，結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地描述。1總體流程附圖1是本專(zhuān)利提出的融合劇本與字幕信息的電影場(chǎng)景抽取與索引方法的總體流程框圖。所包含的主要處理步驟如下1)根據(jù)劇本的文本編輯特征(劇本一般采用文本格式來(lái)體現(xiàn)場(chǎng)景中不同信息域的內(nèi)容)將劇本文本轉(zhuǎn)換為一種由本專(zhuān)利定義的基于上下文無(wú)關(guān)語(yǔ)言的內(nèi)部表示，該轉(zhuǎn)換的目的是去除劇本的文本編輯特征并為其賦予語(yǔ)法格式特征，以便于后續(xù)處理；2)采用語(yǔ)法制導(dǎo)翻譯的方法在上下文無(wú)關(guān)語(yǔ)言表示的劇本中抽取出每個(gè)場(chǎng)景的發(fā)生時(shí)間、發(fā)生地點(diǎn)、人物和對(duì)白等信息，并據(jù)此生成劇本的樹(shù)形結(jié)構(gòu)化表示；3)通過(guò)字幕與場(chǎng)景中對(duì)白文本的匹配，為場(chǎng)景中的每句對(duì)白生成其在視頻中的出現(xiàn)和消失時(shí)刻信息，并把每個(gè)場(chǎng)景所包含的第一句對(duì)白的開(kāi)始時(shí)刻和最后一句對(duì)白的消失時(shí)刻作為場(chǎng)景視頻片段的初始分割邊界；4)確定初始分割邊界后，為達(dá)到視頻的無(wú)縫分割采用基于視頻內(nèi)容分析的方法確定場(chǎng)景和場(chǎng)景之間的切換點(diǎn)，并據(jù)此確定場(chǎng)景視頻片段的最終分割邊界。下文對(duì)上述過(guò)程進(jìn)行具體描述，其中前兩個(gè)步驟合并在第2節(jié)中進(jìn)行描述。2劇本信息的抽取與結(jié)構(gòu)化表示劇本是影視作品拍攝制作的依據(jù)，實(shí)際上是視頻(連續(xù)圖像)的語(yǔ)義信息。一部影視作品的劇本一般由多個(gè)場(chǎng)景構(gòu)成，劇本中的每個(gè)場(chǎng)景一般包含以下信息地點(diǎn)、時(shí)間、內(nèi)外景說(shuō)明、場(chǎng)景描述、對(duì)白等內(nèi)容。根據(jù)一些正規(guī)出版的電影劇本如《中國(guó)電影劇本選集》和《謝晉電影選集》等，中文劇本中的場(chǎng)景一般具有以下格式(摘自《謝晉電影選集》)60.橋側(cè)石柱晨外景月紅、小香給春花松開(kāi)綁繩。小香(不忍)春花。月紅(哽咽)春姐。春花抱住月紅放聲痛哭。場(chǎng)景雖然表示為一段文本，但它實(shí)際上蘊(yùn)涵了豐富的結(jié)構(gòu)化的信息，如在上面的示例場(chǎng)景中包含了以下不同角度的信息場(chǎng)景編號(hào)60;場(chǎng)景發(fā)生的地點(diǎn)橋側(cè)石柱；場(chǎng)景發(fā)生的時(shí)間晨；場(chǎng)景類(lèi)型外景；場(chǎng)景描述月紅、小香給春花松開(kāi)綁繩；在這些信息之后是場(chǎng)景中的對(duì)話信息，每個(gè)說(shuō)話記錄又可結(jié)構(gòu)化表示為以下各個(gè)域的信息說(shuō)話者小香；月紅；說(shuō)話時(shí)注釋不忍；哽咽；內(nèi)容春花；春姐；話后說(shuō)明(無(wú))春花抱住月紅放聲痛哭；劇本通過(guò)一些顯著的文本編輯特征來(lái)區(qū)分各個(gè)不同方面的信息，例如場(chǎng)景基本說(shuō)明行(首行)一般頂格且為黑體，對(duì)白文本的縮進(jìn)字?jǐn)?shù)要遠(yuǎn)大于注釋文本，對(duì)白中說(shuō)話人用黑體顯示等。這些格式信息是我們進(jìn)行文本內(nèi)部表示轉(zhuǎn)換時(shí)的重要依據(jù)。一個(gè)劇本由多個(gè)場(chǎng)景構(gòu)成，為讓用戶可以根據(jù)場(chǎng)景的不同方面內(nèi)容進(jìn)行視頻的檢索，本實(shí)施例把劇本(Script)所蘊(yùn)涵的信息結(jié)構(gòu)化表示為一棵樹(shù)，如附圖2所示。圖中Script節(jié)點(diǎn)表示劇本，它包含多個(gè)場(chǎng)景(Scene節(jié)點(diǎn))。每個(gè)場(chǎng)景又包含發(fā)生地點(diǎn)(Location節(jié)點(diǎn))、發(fā)生時(shí)間(Time節(jié)點(diǎn))、場(chǎng)景類(lèi)型(Type節(jié)點(diǎn))、場(chǎng)景描述(Description節(jié)點(diǎn))、場(chǎng)景所對(duì)應(yīng)的視頻片段(URI節(jié)點(diǎn))、和對(duì)白(Dialogues節(jié)點(diǎn))這六個(gè)方面信息。每個(gè)對(duì)白節(jié)點(diǎn)可包含一或多句對(duì)白(Dialogue節(jié)點(diǎn))。每句對(duì)白包含以下各個(gè)信息說(shuō)話角色(Role節(jié)點(diǎn))、說(shuō)話時(shí)注釋(Annotation節(jié)點(diǎn))、對(duì)白內(nèi)容(Content節(jié)點(diǎn))、話后說(shuō)明(Show節(jié)點(diǎn))、該句對(duì)白在視頻中的出現(xiàn)時(shí)刻(Appear節(jié)點(diǎn))和該句對(duì)白在視頻中的消失時(shí)刻(Disappear節(jié)點(diǎn))。域Appear和Disappear用于表示該條對(duì)白所對(duì)應(yīng)字幕的出現(xiàn)和消失時(shí)刻，這兩個(gè)域的內(nèi)容僅從劇本文本是無(wú)法獲得的，其值將通過(guò)劇本對(duì)白與視頻字幕的匹配來(lái)獲得，具體方法將在下文介紹。劇本作為視頻的語(yǔ)義信息，其結(jié)構(gòu)化表示即為視頻的結(jié)構(gòu)化表示?；谶@種表示方法，劇本中的文本信息都可以作為視頻的索引信息，由此可以很方便地搜索到發(fā)生在某個(gè)地點(diǎn)視頻場(chǎng)景片段，甚至可以搜索到包含某個(gè)角色或某句對(duì)白的視頻片段。采用XMLSchema對(duì)附圖2所示的樹(shù)結(jié)構(gòu)進(jìn)行描述，作為劇本信息的元數(shù)據(jù)模版。在此基礎(chǔ)上，通過(guò)對(duì)劇本文本進(jìn)行結(jié)構(gòu)化信息抽取，可獲得結(jié)構(gòu)化的劇本信息XML文檔，作為視頻場(chǎng)景片段抽取的依據(jù)和視頻的索引。為便于劇本信息的抽取，本實(shí)施例首先根據(jù)劇本場(chǎng)景文本的編輯特征將原始場(chǎng)景文本轉(zhuǎn)化為一種內(nèi)部表示。對(duì)于上文的示例場(chǎng)景其轉(zhuǎn)換后的內(nèi)部表示如下60.橋側(cè)石柱，晨，外景(月紅、小香給春花松開(kāi)綁繩。)小香(不忍)春花。月紅(哽咽)春姐。(春花抱住月紅放聲痛哭。)該內(nèi)部表示實(shí)際上是本實(shí)施例定義的一種具有特定語(yǔ)法格式的劇本場(chǎng)景描述語(yǔ)言，采用CFG(上下文無(wú)關(guān)文法)進(jìn)行定義，其基于BNF(巴斯科范式)的形式化描述如下所示一個(gè)場(chǎng)景描述文法是一個(gè)四元式(Vt,Vn，S，P)，其中Vt是終結(jié)符的非空有限集合Vi^(comma，period,colon,character,(，)}，comma表示逗號(hào)，period表示句點(diǎn)，colon表示冒號(hào)，character表示字符(不包含'#，和']，)；Vn是一個(gè)非終結(jié)符的非空有限集Vn={Scene，Head,Description,Dialogues,Number，Digital,Location，Characters,Time,Remark,Surroundings，Dialogue,Content,Role，Annotation，Show};S是一個(gè)特殊的非終結(jié)符(SEVN)稱(chēng)為開(kāi)始符號(hào)；P是一個(gè)產(chǎn)生式(規(guī)則)的有限集合，P中的產(chǎn)生式如下Scene+HeadDescriptionDialogues|HeadDialoguesHead■>IdentifierLocationTimeSurroundings|IdentifierIdentifier~>NumberperiodNumber+DigitalNumber|DigitalDigital">9|8|7|6|5|4|3|2|1|0|Location"^CharacterscommaCharacters"^character|CharacterscharacterTime~>Characters|CharactersRemarkcommaRemark—(Characters)Surroundings"^CharactersDescription"^(Characters)Dialogues—DialogueDialogues|DialogueDialogue—RolecolonAnnotationContentShow|RolecolonContentShow|RolecolonAnnotationContent|RolecolonContentRole-^CharactersAnnotation"^(Characters)Content■>CharactersShow^(Characters)從原始劇本轉(zhuǎn)換為上述內(nèi)部表示的方法如下步驟l:從原始劇本中讀入一行，若已至文件尾的則轉(zhuǎn)步驟4，如果是空行轉(zhuǎn)步驟l，否則轉(zhuǎn)步驟2;步驟2:判斷所讀入行的類(lèi)型計(jì)算該行所包含的字符數(shù)量設(shè)為A，計(jì)算去掉該行左方空格后的字符數(shù)量設(shè)為B;設(shè)n=A-B如果n=0則該文本行為一個(gè)新場(chǎng)景的第一行(標(biāo)記其類(lèi)型為l)，轉(zhuǎn)步驟3;否則如果rK4則該文本行為場(chǎng)景中的說(shuō)明/注釋信息(標(biāo)記其類(lèi)型為2)，轉(zhuǎn)步驟3;否則如果rK20則該文本行為場(chǎng)景中的說(shuō)話人(標(biāo)記其類(lèi)型為4)，轉(zhuǎn)步驟3;否則該文本行為對(duì)白(標(biāo)記其類(lèi)型為3)，轉(zhuǎn)步驟3;步驟3:設(shè)當(dāng)前文本行類(lèi)型為T(mén)上一文本行類(lèi)型為L(zhǎng)(這兩個(gè)量的初始值都為零)，劇本內(nèi)部表示存于變量F。去掉文本前后空格后，依據(jù)下列規(guī)則處理文本1)T=1:此時(shí)若L=2則首先在F之后追加右括號(hào)換行符，否則直接將場(chǎng)景發(fā)生地點(diǎn)和發(fā)生時(shí)間以及場(chǎng)景類(lèi)型之間的空格替換為逗號(hào)，并將該行追加到F，設(shè)置L=T轉(zhuǎn)步驟1;2)T=4:此時(shí)若L-2則還是在F之后追加右括號(hào)，否則直接進(jìn)行如下處理如果在文本中檢測(cè)到左括號(hào)，則在左括號(hào)之前插入冒號(hào)并將該行追加到F，否則直接將該行追加到F,最后設(shè)置L-T轉(zhuǎn)步驟l;3)T=3:將該行追加到F，設(shè)置L-T轉(zhuǎn)步驟1;4)T=2:此時(shí)若L-1或者L^3則首先在F之后追加左括號(hào)，并將該行文本追加到F，否則直接將該行文本追加到F,最后設(shè)置L=T轉(zhuǎn)步驟1;步驟4:在F之后追加右括號(hào)，之后結(jié)束程序，轉(zhuǎn)換完成；對(duì)轉(zhuǎn)換后的內(nèi)部表示劇本，本實(shí)施例通過(guò)語(yǔ)法制導(dǎo)翻譯的方法，抽取出場(chǎng)景描述文本中的結(jié)構(gòu)化信息。語(yǔ)法制導(dǎo)翻譯表如表1所示。文本分析過(guò)程中用到了兩個(gè)棧符號(hào)棧(TextStack,TS)和控制棧(ControlStack,CS),字符進(jìn)入符號(hào)棧還是控制棧必須依據(jù)其上下文確定。文本分析過(guò)程按照文本自然順序從頭依次讀入字符，如果該字符是文字將其壓入TS，否則該字符可能是標(biāo)點(diǎn)符號(hào)或者括號(hào)等，此時(shí)要根據(jù)cs棧頂字符進(jìn)行相應(yīng)操作，操作依據(jù)表1進(jìn)行(表中行表示當(dāng)前讀到的控制字符，列則是當(dāng)前控制棧的棧頂符號(hào)，表中用EOF表示棧為空的情況)；上述過(guò)程持續(xù)進(jìn)行直至讀完所有字符，一般如無(wú)特別注明進(jìn)行表1(該表為語(yǔ)法制導(dǎo)翻譯表)中的操作后程序?qū)⒆x入下一字符。表l<table>tableseeoriginaldocumentpage11</column></row><table>表中Push(CS/TS，c)表示將當(dāng)前讀到的字符壓入棧CS/TS，CS.Pop()表示彈出CS的棧頂字符；Pop(CS/TS)表示彈出CS/TS棧的所有字符，對(duì)于TS棧其彈出內(nèi)容一般為場(chǎng)景各個(gè)信息域的值，表中對(duì)于各個(gè)信息域我們用附圖2中各個(gè)域名稱(chēng)的前三個(gè)字母表示；TS.Count表示當(dāng)前TS棧的字符數(shù)量，shc^Pop(Top，TS)表示彈出TS棧棧頂?shù)?TS.Count-Top)個(gè)字符作為附圖2中Show域的值；Pop(TS，Rol，Con)表示從TS棧中彈出所有字符，分割獲得圖2中Role和Content這兩個(gè)域的值。經(jīng)過(guò)上述抽取過(guò)程之后，附圖2中劇本場(chǎng)景結(jié)構(gòu)化信息域的內(nèi)容除URI、Appear和Disappear己全部生成，這幾個(gè)信息域的內(nèi)容的生成方法將在下文討論。3劇本和字幕的匹配方法本部分討論利用電影字幕信息生成場(chǎng)景中每句對(duì)白的出現(xiàn)和消失時(shí)刻信息(即生成附圖2中Appear和Disappear節(jié)點(diǎn)的值)的方法。高清DVD視頻中字幕一般以外掛文件的形式存在，字幕外掛文件基本上可分為兩大類(lèi)，其一為文本文件，其二為圖片文件加時(shí)間索引信息文件，對(duì)于這種格式可通過(guò)OCR技術(shù)轉(zhuǎn)換成文本格式。文本形式外掛字幕中，每條字幕具有如下形式600:01:55,215—〉00:01:57,581師父，趙公子是名門(mén)望族其中第一行為字幕按照其在視頻中出現(xiàn)順序的編號(hào)，第二行為字幕的出現(xiàn)和消失時(shí)間，其后為字幕的文字內(nèi)容。為了便于算法的敘述，首先對(duì)劇本和字幕進(jìn)行形式化描述。稱(chēng)一部電影視頻文件為r，F(xiàn)所包含的所有字幕為集合r-(A，A，...，A，...，AJ，集合中的元素A為一個(gè)四元組{D/，D5，￡)￡，iX:}，Z)/為字幕的編號(hào)，D5為字幕在視頻中出現(xiàn)的時(shí)間，D￡為字幕在視頻中的結(jié)束時(shí)間，Z)C是字幕的文字。r所對(duì)應(yīng)的劇本用集合尸-^p&，…，s,.,…，sj表示，集合中的元素s,表示劇本中的第/個(gè)場(chǎng)景，S,可表示為一個(gè)六元組(S/，5X，5T,SP,SS，SZ^，57表示場(chǎng)景的編號(hào)，si表示場(chǎng)景發(fā)生的地點(diǎn)，sr表示場(chǎng)景發(fā)生的時(shí)段(晨，日或夜等)，sp為場(chǎng)景類(lèi)型(內(nèi)/外景)，5S為場(chǎng)景的描述文本，S"為場(chǎng)景中的對(duì)白；SD是一個(gè)集合，《，.."《，...，《}，其中《為一個(gè)六元組(SZ)及，SZX4，SZ)C,SDS,SD尸，Si)Z^，S￡W為該對(duì)白的說(shuō)出者，SA4是說(shuō)話者說(shuō)出該對(duì)白時(shí)的一些注釋信息，SDC是對(duì)白的文字內(nèi)容，SDS是該對(duì)白結(jié)束之后場(chǎng)景中的后繼動(dòng)作說(shuō)明，SD戶為該條對(duì)白在字幕中的出現(xiàn)時(shí)刻，5Z)D為該條對(duì)白在字幕中的消失時(shí)刻。設(shè)K中所有的字幕文字按其出現(xiàn)順序構(gòu)成集合Z—DCpDCn/X:,,...,!^},為便于書(shū)寫(xiě)改寫(xiě)為^="^2,...,《,...,;^}，并以、1^+1表示第/和/+1條字幕文字的連接(多條連續(xù)字幕可能對(duì)應(yīng)場(chǎng)景中的一句對(duì)白)，只有連續(xù)字幕文字才能進(jìn)行連接操作；劇本P中所有對(duì)白中的文字按照其出現(xiàn)順序構(gòu)成集合y={5Z>C11，<S1￡>Cl2，...，5Z)C21，5>￡>C22,...，5IZ)C,,..，51i)Cp}，其中SZ)Cy表示第/個(gè)場(chǎng)景中第/個(gè)對(duì)白的文字內(nèi)容，為便于書(shū)寫(xiě)將集合改寫(xiě)為y-U,":^,...,:^,:^,..^,,,..,^,";如果義和r中的元素滿足如下關(guān)系力"叫+|uu…叫=Ac》Ac八"》，則稱(chēng)ff^準(zhǔn)到x用rt火來(lái)表示這種關(guān)系，此時(shí)所在對(duì)白的出現(xiàn)時(shí)刻SD(=Z)5A消失時(shí)刻為SD￡>0=。如果劇本對(duì)白文字集合y和字幕文字集合Z，滿足y卞％，則稱(chēng)7對(duì)應(yīng)的劇本尸為I級(jí)劇本；否則如果劇本P中的場(chǎng)景S,滿足以下條件V《(30^=Auuxt+2u…ux,)a(乂p=x,+義ux,"+,ux固u…u:0)則稱(chēng)劇本p為n級(jí)劇本；不滿足上述兩個(gè)條件的劇本稱(chēng)為III級(jí)劇本。從上述定義可以看出，I級(jí)劇本可以根據(jù)字幕中蘊(yùn)涵的時(shí)間信息為其包含的每個(gè)對(duì)白生成Appear和Disappear域的值，II級(jí)和III級(jí)劇本則只能為部分對(duì)白生成這兩個(gè)域的值，II級(jí)劇本與三級(jí)劇本的區(qū)別在于II級(jí)劇本中對(duì)于包含對(duì)白的場(chǎng)景存在第一句對(duì)白和最后一句對(duì)白。定義這三種類(lèi)別劇本的原因是某些劇本并不列出影片中出現(xiàn)的所有對(duì)白。視頻存在I級(jí)劇本時(shí)用戶的査詢粒度可以達(dá)到每句對(duì)白對(duì)應(yīng)的視頻片段。如果視頻存在對(duì)應(yīng)的I級(jí)或II級(jí)劇本，則該視頻可以基于劇本場(chǎng)景信息進(jìn)行基本與劇本吻合的視頻場(chǎng)景片段抽取，對(duì)于m級(jí)劇本則更多的依賴基于視頻內(nèi)容分析的抽取。下面給出字幕與劇本匹配的具體算法-/*本函數(shù)產(chǎn)生包含對(duì)白場(chǎng)景的初始分割邊界，函數(shù)的輸入是結(jié)構(gòu)化表示的場(chǎng)景描述和字幕*/AlgorithmSceneDivide(SceneRecordArray:S，TitleRecordArray:T)beginbt=0;et=0./*—句對(duì)白可對(duì)應(yīng)連續(xù)多條字幕，這兩個(gè)變量用于記錄第一條和最后一條對(duì)應(yīng)字幕*/for(i=0;i<S.length;i++)/*對(duì)劇本中的每個(gè)場(chǎng)景進(jìn)行處理*/if(S[i]ContainDialogue)/*如果場(chǎng)景包含對(duì)白*/化1^=0;_|<8卩].0.16118^++)/*對(duì)場(chǎng)景中每一句對(duì)白根據(jù)字幕生成其開(kāi)始和消失時(shí)刻Vd=GetPureText(S[i].D[j])./*去掉標(biāo)點(diǎn)符號(hào)和感嘆詞*/if(MatchTMe(T,d，&bt,&et))/*在字幕中搜索本句對(duì)白對(duì)應(yīng)的字幕*/S[i].D[j].Appear=T[bt].DB./*設(shè)置對(duì)白的開(kāi)始時(shí)間為第一條字幕的開(kāi)始時(shí)間VS[i].D[j].Disappear=T[et].DE./*設(shè)置對(duì)白的結(jié)束時(shí)間為最后一條字幕的結(jié)束時(shí)間Vbt=bt+l./*設(shè)置下一句對(duì)白的進(jìn)行匹配的開(kāi)始字幕*//*設(shè)置場(chǎng)景所包含的第一句對(duì)白的開(kāi)始時(shí)刻為場(chǎng)景的初始開(kāi)始邊界*/if(j=0)S[i].Begin=S[i].D[j].Appear./*設(shè)置場(chǎng)景所包含的最后一句對(duì)白的結(jié)束時(shí)刻為場(chǎng)景的初始結(jié)束邊界*/if(j=S[i].D.length-l)S[i].End=S[i].D[j].Disappear.endifendforendifcudforend/*本函數(shù)為對(duì)白文本搜索其對(duì)應(yīng)的開(kāi)始和結(jié)束字幕，函數(shù)輸入T為結(jié)構(gòu)化表示的字幕集合，d為對(duì)白文本，bt為進(jìn)行搜索的起始字幕編號(hào)，函數(shù)運(yùn)行結(jié)束后bt和et存放開(kāi)始和結(jié)束字幕編號(hào)VAlgorithmMatchTitle(TitleRecordArray:T，Dialogue:d，BeginTitle&bt,EndTitle&et)beginflag=false./*用于記錄匹配狀態(tài)，為假表示還沒(méi)找到對(duì)白的第一個(gè)匹配字幕，反之為真Vfor(i=bt;i<T.length-l;i++)pat=GetPureText(T[i].Text)./*去掉標(biāo)點(diǎn)符號(hào)和感嘆詞*/m-StringApproximatch(pat,d，2).嚴(yán)字幕文本和對(duì)白文本的近似匹配*/1^111=-1)/*字符串匹配失敗*/if(flag=false)continue.elseet=i-l;returntrue,endifelse/*匹配成功*/if(flag=false)bt=i;flag=true./*記錄對(duì)白所匹配的第一個(gè)字幕編號(hào)*/endifd=d.Substring(m+l，d.length-m-l)./*刪除對(duì)白前端已經(jīng)匹配字幕的字符，其個(gè)數(shù)為mVif(d.length-0)/*表示本句對(duì)白已經(jīng)沒(méi)有文本，即所有的文本都已經(jīng)匹配到字幕*/et=i;returntrue./*記錄結(jié)束字幕編號(hào)，返回匹配成功信息Vendifendifendforreturnfalse./*至此表示無(wú)法為對(duì)白找到匹配字幕，返回匹配失敗信息Vend上述算法適用于三種不同級(jí)別的劇本，算法要求劇本中的對(duì)白必須在字幕中可以找到，即不能出現(xiàn)一句在字幕中根本沒(méi)有的對(duì)白。偽代碼中S是劇本場(chǎng)景信息記錄集基本包含附圖2所示的各個(gè)信息域,S[i]表示第i個(gè)場(chǎng)景對(duì)應(yīng)的信息記錄，S[i].D[j]表示第i個(gè)場(chǎng)景的第j條對(duì)白，T是字幕記錄集。函數(shù)GetPureText()用于去除文本中的標(biāo)點(diǎn)符號(hào)和感嘆詞，這樣做的原因是劇本中對(duì)白文本的標(biāo)點(diǎn)符號(hào)和一些感嘆詞與字幕會(huì)有一些細(xì)微差別。函數(shù)MatchTitle()用于為每條對(duì)白尋找其對(duì)應(yīng)的開(kāi)始和結(jié)束字幕，其中字符串匹配采用基于動(dòng)態(tài)規(guī)劃的近似字符串匹配算法，在編輯距離不超過(guò)2時(shí)認(rèn)為兩個(gè)串匹配。4視頻場(chǎng)景片段抽取與索引假設(shè)場(chǎng)景S,("/S")中有對(duì)白，其中第一個(gè)對(duì)白的文字為&且ujc*+1u…ux,，最后一個(gè)對(duì)白的文字為^,p且尺p=Jf,+Aui,+/1+1u…UXu,則場(chǎng)景《包含視頻段[1)^,￡>￡](為視頻段的開(kāi)始時(shí)刻，￡>￡為視頻段的結(jié)束時(shí)刻)；另設(shè)場(chǎng)景s,之后第一個(gè)包含對(duì)白的場(chǎng)景為《,包含視頻段，whs,-s,i表示S,到S,.之間無(wú)對(duì)白場(chǎng)景的個(gè)數(shù)，則視頻段[D^，DA,]所要確定的切分點(diǎn)數(shù)量為AT+1，設(shè)61，62,...，~+1為這些切分點(diǎn)的切分時(shí)刻，則場(chǎng)景S,對(duì)應(yīng)視頻段的上界(不包含)為A，場(chǎng)景S,.對(duì)應(yīng)視頻段的是下界為^+,，中間每個(gè)無(wú)對(duì)白場(chǎng)景對(duì)應(yīng)的視頻段為[6,，6,J(1^3A0。獲得每個(gè)場(chǎng)景對(duì)應(yīng)視頻段的時(shí)刻上下界后，根據(jù)該信息對(duì)視頻進(jìn)行分割即可獲得每個(gè)場(chǎng)景對(duì)應(yīng)的視頻段。切分點(diǎn)采用基于視頻內(nèi)容分析的方法確定。算法要求劇本的第一個(gè)場(chǎng)景和最后一個(gè)場(chǎng)景必須有對(duì)白，顯然I級(jí)或II級(jí)劇本符合這個(gè)要求，III級(jí)劇本則可能不滿足這一條件，此時(shí)將第一個(gè)字幕和最后一個(gè)字幕部分文本作為劇本第一個(gè)場(chǎng)景和最后一個(gè)場(chǎng)景的對(duì)白。下面結(jié)合附圖3，對(duì)場(chǎng)景視頻片段抽取的具體流程進(jìn)行說(shuō)明。經(jīng)過(guò)上一節(jié)字幕和劇本的匹配處理之后，對(duì)于每一個(gè)包含字幕的場(chǎng)景S[i]已經(jīng)初步確定了其在整個(gè)視頻中的開(kāi)始和結(jié)束邊界，但這個(gè)邊界是不夠準(zhǔn)確的，因?yàn)閳?chǎng)景中的對(duì)白可能在場(chǎng)景出現(xiàn)一段時(shí)間之后才會(huì)出現(xiàn)，另外還可能有一些場(chǎng)景沒(méi)有字幕此時(shí)它由上一節(jié)方法無(wú)法確定其邊界，為此為了準(zhǔn)確地分割出場(chǎng)景視頻段，首先必須確定每個(gè)場(chǎng)景的精確邊界。另一方面，本實(shí)施例假定電影視頻的片頭和片尾不作為場(chǎng)景的一部分，并將其單獨(dú)從視頻文件中分割出來(lái)。具體步驟如下步驟1:從視頻片段中分割出片頭設(shè)置輔助變量Begin-0，End-S.begin(即第一個(gè)場(chǎng)景在上一節(jié)中初步確定的邊界)，從視頻文件(設(shè)為V)中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻段(附圖2中函數(shù)GetVideoSeg(V，Begin,End)表示這一分割過(guò)程)，設(shè)置i-O,轉(zhuǎn)步驟2。步驟2:設(shè)S丄ength表示劇本所包含的場(chǎng)景總數(shù)，判斷i是否小于S.length-l，如果是轉(zhuǎn)步驟3，否則轉(zhuǎn)步驟8;步驟3:判斷第i個(gè)場(chǎng)景是否包含對(duì)白(S[i].F為真表示包含對(duì)白)，如果不包含轉(zhuǎn)步驟4，否則轉(zhuǎn)步驟5;步驟4:設(shè)置i-i+l，轉(zhuǎn)步驟2;步驟5:取場(chǎng)景i之后的第一個(gè)包含對(duì)白場(chǎng)景設(shè)為j(附圖3中由j-GetNextScene(S，i)表示)，設(shè)置Begin-S[i].end,End=S[j].begin，在視頻文件中抽取出開(kāi)始時(shí)刻為Begin結(jié)束時(shí)刻為End的視頻段所對(duì)應(yīng)的所有視頻圖像(即視頻幀)，統(tǒng)計(jì)每幅圖像中三個(gè)顏色分量RGB的顏色分布情況，之后使用下面的公式計(jì)算所抽取圖像中兩個(gè)連續(xù)圖像n和n+1之間的顏色分布差異/)("，"+1):255z)("，"+i)-J^c，o)-c二(/7)l+lcf(/7)-C(p)l+lc,(p)-c二(p)IJ(公式l)公式1假定好°于每個(gè)顏色分量具有256個(gè)強(qiáng)度等級(jí)，C，，(/7)表示第n個(gè)圖象中顏色分量R強(qiáng)度等級(jí)為p的像素點(diǎn)個(gè)數(shù)，|CS(p)-C二(/7)1表示連續(xù)圖象n和n+l在顏色分量R的第p個(gè)量化等級(jí)上差異絕對(duì)值，其余各項(xiàng)含義可類(lèi)推，假設(shè)所抽取的圖像總數(shù)為N，則需要計(jì)算N-1個(gè)幀間差異，假設(shè)計(jì)算結(jié)果存于數(shù)組Diff中，計(jì)算完成之后轉(zhuǎn)下一步驟；步驟6:在數(shù)組Diff中找出最大的(j-i)個(gè)元素，并使用數(shù)組Pos記錄這些元素在Diff中的下標(biāo)，對(duì)Pos數(shù)組中的元素按從小到大順序進(jìn)行排序，之后設(shè)置變量k-0,轉(zhuǎn)下一步驟；步驟7:如果k值等于Pos數(shù)組長(zhǎng)度，轉(zhuǎn)步驟4，否則進(jìn)行如下處理設(shè)置第(i+k)個(gè)場(chǎng)景的結(jié)束時(shí)刻為S[i+k].end=Begin+(Pos[k]+l)*T，第(i+k+l)個(gè)場(chǎng)景的開(kāi)始時(shí)刻為S[i+k+l〗.begin=S[i+k].end,之后設(shè)置Begin-S[i+k].begin,End=S[i+k〗.end，從視頻文件中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻片段作為第(i+k)個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段，將視頻片段的存取位置作為場(chǎng)景中URI域的值，設(shè)置k-k+l，重復(fù)本步驟；步驟8:分割出視頻序列中最后一個(gè)包含對(duì)白的場(chǎng)景設(shè)置Begin=S[S.length-l].begin，End=S[S.length-l].end，從視頻文件中分割出起始時(shí)間為Begin結(jié)束時(shí)間為End的視頻片段作為第(S.length-1)個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段，轉(zhuǎn)下一步驟；步驟9:分割出片尾分割出時(shí)刻S[S.length-l].end開(kāi)始直至結(jié)束的視頻片段，結(jié)束程序；通過(guò)上述方法分割出劇本中每個(gè)場(chǎng)景對(duì)應(yīng)的視頻片段后，劇本場(chǎng)景中所包含的文本直接成為相應(yīng)視頻片段的語(yǔ)義標(biāo)注，通過(guò)搜索場(chǎng)景文本中的關(guān)鍵詞即可找到對(duì)應(yīng)視頻，或者通過(guò)指定信息域進(jìn)行檢索，例如檢索出現(xiàn)某個(gè)說(shuō)話人的所有視頻片段。具體而言，本實(shí)施例將附圖2中的劇本結(jié)構(gòu)化信息模板采用XMLSchema進(jìn)行描述，對(duì)于每部電影為其建立符合該描述的XML文件，并將該文件作為該部影片的索引。權(quán)利要求1、一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，該方法包括如下步驟1)獲取電影類(lèi)視頻的字幕信息，所述字幕信息包括字幕的文字內(nèi)容以及該字幕的在視頻中的出現(xiàn)和消失時(shí)間；2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息，所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息；3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，根據(jù)所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間，得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間；4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)所述電影類(lèi)視頻進(jìn)行分割，得到各場(chǎng)景的視頻片斷。2、根據(jù)權(quán)利要求1所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，其特征在于，所述步驟3)包括如下子步驟[31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。3、根據(jù)權(quán)利要求2所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，其特征在于，所述步驟3)還包括如下子步驟[32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景，抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像，根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異，進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的時(shí)間切分點(diǎn)，從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。4、根據(jù)權(quán)利要求1所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，其特征在于，所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白，每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。5、一種對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法，其特征在于，該方法包括-[1)獲取電影類(lèi)視頻的字幕信息，所述字幕信息包括字幕的文字內(nèi)容以及該字幕的在視頻中的出現(xiàn)和消失時(shí)間；[2)從所述電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息，所述結(jié)構(gòu)化信息包括所述場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息；[3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間，得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間；[4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)所述電影類(lèi)視頻進(jìn)行分割，得到各場(chǎng)景的視頻片斷；5)根據(jù)步驟2)中得到的場(chǎng)景的發(fā)生地點(diǎn)、發(fā)生時(shí)間、場(chǎng)景類(lèi)型、場(chǎng)景描述和場(chǎng)景對(duì)白信息，為各場(chǎng)景的視頻片斷建立索引。6、根據(jù)權(quán)利要求5所述的對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法，其特征在于，所述步驟3)包括如下子步驟31)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，將所匹配的字幕在視頻中的出現(xiàn)和消失時(shí)間作為場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間。7、根據(jù)權(quán)利要求6所述的對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取的方法，其特征在于，所述步驟3)還包括如下子步驟32)根據(jù)步驟31)得出的各場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)于每?jī)蓚€(gè)相鄰場(chǎng)景，抽取其中前一個(gè)場(chǎng)景的結(jié)束時(shí)間至后一個(gè)場(chǎng)景的開(kāi)始時(shí)間之間的視頻圖像，根據(jù)每?jī)蓚€(gè)連續(xù)視頻圖像之間的顏色分布差異，進(jìn)一步精確確定所述兩個(gè)相鄰場(chǎng)景的起始時(shí)間切分點(diǎn)，從而進(jìn)一步精確確定各場(chǎng)景所對(duì)應(yīng)視頻片段的開(kāi)始和結(jié)束時(shí)間。8、根據(jù)權(quán)利要求5所述的對(duì)電影類(lèi)視頻場(chǎng)景片段建立索引的方法，其特征在于,所述場(chǎng)景對(duì)白信息包括一句或多句對(duì)白，每句對(duì)白包括以下信息說(shuō)話人、說(shuō)話人說(shuō)話時(shí)的動(dòng)作注釋、對(duì)白內(nèi)容文本、對(duì)白之后的后繼動(dòng)作說(shuō)明。全文摘要本發(fā)明涉及一種對(duì)電影類(lèi)視頻進(jìn)行場(chǎng)景片段抽取方法及其建立索引的方法，抽取方法包括1)獲取電影類(lèi)視頻的字幕信息，字幕信息包括字幕的文字內(nèi)容以及該字幕的出現(xiàn)和消失時(shí)間；2)從電影類(lèi)視頻的劇本文本中抽取每個(gè)場(chǎng)景的結(jié)構(gòu)化信息，所述結(jié)構(gòu)化信息包括場(chǎng)景對(duì)白信息；3)對(duì)場(chǎng)景對(duì)白信息與字幕的文字內(nèi)容進(jìn)行匹配，根據(jù)所匹配的字幕的出現(xiàn)和消失時(shí)間，得出場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間；4)根據(jù)步驟3)最后所得出的場(chǎng)景在視頻中的開(kāi)始和結(jié)束時(shí)間，對(duì)所述電影類(lèi)視頻進(jìn)行分割，得到各場(chǎng)景的視頻片斷。建立索引方法則是在上述步驟1)至4)基礎(chǔ)上使用步驟2)中得到的結(jié)構(gòu)化信息為所抽取的視頻片斷建立索引。本發(fā)明具有耗時(shí)少，精確度高等優(yōu)點(diǎn)。文檔編號(hào)G11B27/031GK101650958SQ20091008976公開(kāi)日2010年2月17日申請(qǐng)日期2009年7月23日優(yōu)先權(quán)日2009年7月23日發(fā)明者李松斌,王勁林,王玲芳申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王玲芳;李松斌;王勁林
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所
我是此專(zhuān)利的發(fā)明人

上一篇：一種dram運(yùn)行頻率調(diào)整系統(tǒng)及方法
上一篇：一種精確到字的中文同步顯示歌詞方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
2、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
3、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
4、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
5、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！