專利名稱:用于視頻流的實時新事件檢測的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明主要地涉及視頻流處理并且具體地涉及用于4企測視頻流 中新事件的技術(shù)。
背景技術(shù):
對于流傳輸視頻,新事件檢測(NED)是捕獲呈現(xiàn)先前未見過 的事件的第 一視頻剪輯的任務(wù)。這一任務(wù)在許多領(lǐng)域如智能收集(例 如用于反恐怖主義目的)、金融市場分析和新聞分析中具有實際應(yīng) 用,其中有用信息通常湮沒于隨時間而迅速增長的大量數(shù)據(jù)中。由
于這些應(yīng)用常常在時間上關(guān)鍵而需要快速回轉(zhuǎn),所以非常希望在實 踐中開發(fā)一種在線新事件檢測(ONED)系統(tǒng)。
約十年前,對文檔流的ONED開始在文本處理界受到越來越多 的關(guān)注。作為它的文本對應(yīng)系統(tǒng)的擴展,對^L頻流的ONED因利用 文本和視覺信息而已經(jīng)在視頻處理界吸引越來越多的關(guān)注。視頻 ONED系統(tǒng)的基本思想在于將新剪輯與既往到達的所有剪輯做比較。 如果它們基于文本和視覺特征的相似度值都在某 一 閾值以下,貝'J將 新剪輯預(yù)測為呈現(xiàn)新事件。
先前工作已經(jīng)表明附加圖像信息在標(biāo)識相關(guān)視頻剪輯和實現(xiàn)更 好的主題跟蹤結(jié)果中扮演了重要的角色。然而,對視頻ONED的所 有這些努力主要集中在優(yōu)化檢測準(zhǔn)確度而不是檢測效率上。實際上, 這些方法就剪輯數(shù)目而言造成二次時間復(fù)雜度。因此,它們對于在 實時環(huán)境中檢測新視頻事件、尤其是對于大規(guī)模視頻收集而言效率 并不夠高。
例如,在需要同時監(jiān)視數(shù)以萬計電視頻道的智能收集系統(tǒng)中, 現(xiàn)有ONED系統(tǒng)很難實時處理此類成批并且?guī)挊O高的視頻流。因此,盡管一些現(xiàn)有NED系統(tǒng)聲稱可在線使用,但是它們對于實時應(yīng) 用而言實際上效率并不夠高。
發(fā)明內(nèi)容
本發(fā)明的原理提供用于以提高的檢測效率實時檢測一見頻流中新 事件的技術(shù)。
例如,在本發(fā)明的一個方面中, 一種方法確定給定事件是否為 視頻流中的新事件。該視頻流包括多個事件。第一步驟從給定事件 中提取第一特征(例如文本特征)集。第一特征集與給定事件所關(guān) 聯(lián)的第二特征(例如圖像特征)集相比處理起來計算代價更低。第 二步驟在存在一個或者多個第一相異度標(biāo)準(zhǔn)時僅使用第一特征集來 計算在給定事件與視頻流中的一個或者多個先前事件之間的一個或 者多個第一相異度值。第三步驟基于計算的一個或者多個第一相異 度值來確定給定事件是否為新事件。
在本發(fā)明的另 一 方面中, 一 種用于在視頻流環(huán)境中捕獲呈現(xiàn)先 前未見過的事件的新事件視頻剪輯的實時新事件檢測方法包括多級 順序過濾處理。該處理包括標(biāo)識相關(guān)特征、基于用以導(dǎo)出或者提取 特征的計算量對特征排序以及基于排序的特征來形成一個或者多個 多級順序過濾器,其中在較難計算的特征之前使用較易計算的特征。 在一個特定實施例中,多級順序過濾處理中的一級是獨自使用文本 特征作為用以檢測新事件的過濾器,而后續(xù)級是使用圖像特征作為 用以補充檢測處理的過濾器。
本發(fā)明的這些和其它目的、特征及優(yōu)點將從結(jié)合附圖來閱讀的 對其示例實施例的以下具體描述中變得清楚。
圖1圖示了根據(jù)本發(fā)明一個實施例的視頻數(shù)據(jù)流中的事件; 圖2圖示了根據(jù)本發(fā)明一個實施例的在線新事件檢測系統(tǒng); 圖3圖示了根據(jù)本發(fā)明一個實施例的各種視頻流相似度場景;圖4圖示了根據(jù)本發(fā)明另一個實施例的在線新事件檢測系統(tǒng); 圖5圖示了根據(jù)本發(fā)明一個實施例的在線新事件檢測方法; 圖6A圖示了根據(jù)本發(fā)明另一實施例的在線新事件檢測方法; 圖6B圖示了根據(jù)本發(fā)明又一實施例的在線新事件檢測方法; 圖6C圖示了根據(jù)本發(fā)明一個實施例的滑動時間窗; 圖7圖示了根據(jù)本發(fā)明一個實施例的、其中可以實施用于在線 新事件檢測技術(shù)的計算機系統(tǒng)。
具體實施例方式
下文在示例類型的基于視頻流的數(shù)據(jù)背景下說明本發(fā)明。然而 應(yīng)理解本發(fā)明不限于任何特定類型的視頻數(shù)據(jù)流。實際上,本發(fā)明 更一般地適用于希望提高視頻數(shù)據(jù)流中新事件的檢測效率的任何視
頻數(shù)據(jù)流。
圖1沿著時間軸描繪了視頻流中的事件(102、 104、 106、 108、 110和112)。不同的形狀對應(yīng)于不同的事件。填充形狀代表需要捕 獲的剪輯(即,新剪輯)。應(yīng)理解短語"視頻剪輯"(或者簡稱為"剪 輯")旨在于指代視頻流的至少 一 個部分而術(shù)語"事件"對應(yīng)于對象剪 輯在視頻數(shù)據(jù)流中的出現(xiàn)或者存在。也應(yīng)理解"剪輯"(或者推廣為 視頻流的對象部分)可以包括一個或者多個圖像。正如下文將進一 步說明的,"剪輯,,也可以是"鏡頭"。也應(yīng)理解術(shù)語"在線,,可以與術(shù)語 "實時"互換使用并且一般描述與視頻流中新事件或者剪輯的接收基 本上同時執(zhí)行的步驟或者操作。將這與在一些時間以后執(zhí)行的步驟/ 操作的"離線"或者"非實時"處理做比較。
根據(jù)本發(fā)明的原理,提供用以解決前述效率問題并且按照數(shù)量 級提高ONED系統(tǒng)的視頻處理速率而不犧牲實質(zhì)檢測準(zhǔn)確度的技 術(shù)。由于對圖像特征的計算相當(dāng)耗時,所以通過盡可能多地延遲圖 像特征的處理來最大化ONED系統(tǒng)的效率。具體而言,提出以下數(shù) 個優(yōu)化步驟。先獨自使用文本特征來濾除多數(shù)非新事件剪輯,從而 放棄這些剪輯的高代價的圖像特征提取步驟。然后,當(dāng)將新剪輯與舊剪輯做比較時,先計算它們的文本相似度而如果它們的文本充分 相異則跳過高代價的圖像相似度計算。最后,使用編索引和壓縮方 法的組合來加速文本處理。在圖像相似度計算處理中,也去除錨定
圖像以提高ONED系統(tǒng)的檢測準(zhǔn)確度。
在具體討論優(yōu)化4支術(shù)之前,先描述ONED系統(tǒng)的一個示例實施 例(這里稱為"基線系統(tǒng)")。假設(shè)這一基線系統(tǒng)組合在以下文獻中 報告的現(xiàn)有技術(shù)ONED系統(tǒng)中建議的兩個最有影響的信息源Hsu 和Chang ( W. Hsu和S. Change的"Topic Tracking across Broadcast News Videos with Visual Duplicates and Semantic Concepts", IEEE International Conference on Image Processing (ICIP), 2006: 141-144 ), 這些信息源包括TF-IDF (詞項頻率-反文檔頻率)文本特征和二進制 圖像重復(fù)特征。為了說明本發(fā)明的原理,這里將檢測技術(shù)示例地描 述為基于這一基線系統(tǒng)來構(gòu)建。
圖2示出了基線ONED系統(tǒng)200的架構(gòu),其中一見頻流可以來自 例如一個或者多個多語言視頻頻道201 (d、 C2、 ... Cn)。這些流 然后分割成"鏡頭"。分割塊沒有明示。各鏡頭長約數(shù)秒(例如三秒) 并且定義為無編輯者的切割、漸變或者分解的單個連續(xù)相機操作。 對于各鏡頭,特征提取模塊202從它的關(guān)鍵幀中提取圖像特征(204 ) 并且通過使用自動語音識別(206 )、繼而是機器翻譯(208 )來獲 得英語文本特征,使得不同語言的原視頻剪輯變得可比較。"關(guān)鍵幀" 是作為用于視頻中后續(xù)幀的參考來使用的完整(可能壓縮)圖像。 然后,ONED組件210使用文本和圖像特征來標(biāo)識呈現(xiàn)先前未見過 的事件的,奇,斧^興并且將這些鏡頭發(fā)送到用戶212,該用戶可以是 例如進行更深入分析的個人或者計算機程序。注意雖然在這一示例 性實施例中使用視頻鏡頭作為基本N E D單位,但是本發(fā)明的原理并 不依賴于這一選擇,因此它們普遍適用于其它單位如新聞題材等。
基線系統(tǒng)使用傳統(tǒng)tf.idf詞項加權(quán)作為文本特征。由于各鏡頭S 太短以至于無法包含用于計算有意義的文本相似度的足夠文本(見 下文),所以用先前w=5個4竟頭的文本和后繼w個4竟頭的文本來擴
8展S的文本(注意所有這些鏡頭來自同一頻道)。按照信息檢索的
慣例,將河碌定義為唯 一 詞語而將坊定義為所有唯 一 詞語的集 合。對于詞匯表中的各詞項,和鏡頭集五中的鏡頭<s,基線系統(tǒng)使用
以下公式來計算詞項加權(quán)
(fl)詞項頻率(tf)加權(quán), ,
(f2)反文檔頻率(idf)加權(quán)
(f3)詞項(tf'idf)力口權(quán)沖'"v,。 其中仏是詞項f在S的文本中的頻率(出現(xiàn)次數(shù)),7V是五中鏡頭 的總數(shù),而#是其文本包含,的五中鏡頭的數(shù)目。
在實踐中,有許多不同方式用以提取(幾乎等同)適合于檢測 近似重復(fù)圖像的圖像特征?;€系統(tǒng)使用Campbell等人(M. Campbell 、 S. Ebadollahi和 D. Joshi等人的"1MB Research TRECVID-2006 Video Retrieval System", NIST TRECVID workshop, 2006 )描述的色矩量特征,其中從關(guān)鍵幀圖像的3x3網(wǎng)格中提取局 部化色特征,而用于Lab色空間中各網(wǎng)格的前三個矩量用來構(gòu)造《S
的"=8i個圖像特征y;( 。然而,本發(fā)明不限于這一特定技術(shù)。
4乍為另 一 例子,IBM 7>司的 Translingual Automatic Language Exploitation (TALES)系統(tǒng)(R. Peterson, "IBM Strives for Super Human Speech", http:〃www.accessible-devices.com/superspeech.html, 2006 )可
以使用計算機群集以約四分鐘的延遲-幾乎實時地同時對來自數(shù)以千 計頻道的視頻流執(zhí)行圖像和文本特征提取。
同樣,上述圖像和文本特征提取技術(shù)僅僅是可以使用的常規(guī)技 術(shù)的例子,因此應(yīng)理解可以利用其它適當(dāng)4支術(shù)。應(yīng)理解本發(fā)明的原 理著重于現(xiàn)有系統(tǒng)不能令人滿意地實時完成的ONED組件(210)。
為了檢測視頻ONED系統(tǒng)中的新事件鏡頭,使用兩個鏡頭&和 &的文本和圖像特征來計算它們之間的相異度。相異度越小,&和 &就越可能呈現(xiàn)同一事件。相異度計算方法顯示如下。先使用(f4) 和(f5)獲得文本相異度值(f4)歸一化文本點積值
(f5)文本相異度值
其中^(H,"是《的詞項加權(quán)。記法f錫意味著詞項/出現(xiàn)在《的文本
中。接著使用(f6)和(f7)來荻得圖像相異度 (f6)歸一化圖像相似度值
(n)二值化圖像相異度值
柳^欲微鱖^ ,A = / (ft^-幼細說夠^ >r,》,
其中是&,"s)是《的圖像特征,ff是用于二值化圖像相異度值的
閾值,而/是指示符函數(shù)。也就是,如果歸一化圖像相異度大于n,,
則二值化圖像相異度是一,否則是零。最后,根據(jù)(f8)來獲得& 和&的總相異度值作為文本相異度值和二值化圖像相異度值的線性 組合
<formula>formula see original document page 10</formula>
其中^,是視覺形態(tài)的線性加權(quán)。這樣的線性溶合模型是用以溶合視
頻ONED系統(tǒng)中一見覺和文本形態(tài)的最有效方式之一。
現(xiàn)在呈現(xiàn)基線系統(tǒng)的細節(jié)。在針對各鏡頭的文本的信息檢索中 遵循典型預(yù)處理4乘作,即(1 )使用標(biāo)準(zhǔn)Porter詞干處理器(stemmer ) 來執(zhí)行詞干處理以及(2 )通過使用標(biāo)準(zhǔn)SMART停用詞(stopword ) 列表來去除停用詞。"詞干處理"是用于將變形詞(或者有時為派生 詞)簡化為它們的詞干、基本或者詞根形式-一般為書面詞形式。"停 用詞"是對在文本處理之前或者之后濾除的詞語的稱謂。
注意鏡頭集五隨著新鏡頭在流環(huán)境中陸續(xù)到達而保持變化。出 于ONED目的,tf和idf加權(quán)的計算可以基于與五具有相似特征的靜 態(tài)鏡頭集五'。對于在五'的文本中不存在的詞項,認為它的#是一。 與增量式更新統(tǒng)計量W和#的方法相比,這 一 靜態(tài)方法具有低得多的開銷而檢測準(zhǔn)確度保持大致相同。
當(dāng)鏡頭6"到達時,6"先被預(yù)處理而它的特征保存于存儲器中。然 后S與在S之前來自同一頻道的除了剛才到達的丄=50個之外既往到 達的所有舊鏡頭做比較,因為這Z個鏡頭有可能在與5"相同的新聞
題材段中。如果在s與舊鏡頭之間的所有總相異度值在閾值r以上,
則將S預(yù)測為新事件鏡頭。否則,如果在S與舊鏡頭乂w之間的所有
總相異度值在閾值r以上,則將s預(yù)測為呈現(xiàn)與s。w相同的事件。 可以表明雖然文本特征在檢測新事件中是最有效的組件,但是
牙見覺近似重復(fù)仍可一貫地增強文本基線的^r測準(zhǔn)確度。具體而言, 使用文本和圖像特征可以將文本基線的檢測準(zhǔn)確度提高多達25 % 。 這可以通過以下事實來說明,即兩個鏡頭中的相似圖像常常提供其 呈現(xiàn)了相同事件的證據(jù),即使它們的關(guān)聯(lián)語音錄制可能由于釋義或 者語音識別/翻譯錯誤而沒有充分相似。也就是,文本特征本身不能 正確地檢測這兩個鏡頭呈現(xiàn)同一事件。然而,通過考慮來自圖像特 征的附加i正據(jù),該系統(tǒng)可以產(chǎn)生正確預(yù)測。
為了提供對總相異度值的更多了解,將原相異度公式(f8)改寫 成對文本和圖像特征不對稱處理的等效形式。進一步分析這一替代 形式以表明NED處理如何可以更有效率。先將公式(f5)和(f7) 帶入(f8)中并且將&和&的總相異度改寫為
+ x^,,+
通過考慮其中任一情況都具有兩種子情況的兩種可能情況來分
析(9 ):
(1 )當(dāng)&和&的關(guān)鍵幀是近似重復(fù)圖像時,即&^S|.S3 ,'
^尋到。嫩《"一麵〖%^, d-做J如,喊i,.5j.。因j):匕可以予貞觀'J :
(i) 子情況1:如果!^佳(如戸4,,、則^和&呈現(xiàn)同一事
件;
(ii) 子情況2:如果hn細—鄉(xiāng)—,.Ss,則&和&呈現(xiàn)不同事件。(2)當(dāng)^和&的關(guān)鍵幀不是近似重復(fù)圖像時,即^,-w'w〃一' 《尋至U ^^w-=,—'做-A^^4ws' +ln ^。
因此可以預(yù)測
(i) 子情況3:如果"^Wm-"柳.—則&和&呈現(xiàn)同一
事件;
(ii) 子情況4:如果'諱—-n鄉(xiāng)-麵咪",,則&和&呈現(xiàn)不
同事件。
圖3圖示了上述四種子情況。
對于任兩個鏡頭&和&,看起來必須同時使用它們的文本/圖像 特征并且檢查所有上述四種子情況以確定它們是否呈現(xiàn)同一事件。 然而,這在許多情況下表現(xiàn)得沒有必要。通過不對稱處理文本和圖 像,可以通過將上述四種子情況改寫成以下三種等效情況來極大地 筒化NED操作,其中只有情況2具有兩種子情況
(1) 情況l: w'w《鄉(xiāng)"喊^。在這一情況下,無論歸一化圖像相 異度—《"**"如何都預(yù)測^和&呈現(xiàn)不同事件。
(2) 情況2: w、一'《,^^一—r。在這一情況下有兩種子情
況
(i) 子情況1:如果^i幽,w "'崎一則預(yù)測&和&呈現(xiàn)相同事件。
(ii) 子情況2:如果—-,a > W則預(yù)測&和&呈現(xiàn)不
同事件。
(3) 情況3:" .,-"^'..*^ ,、在這一情況下,無論歸一化圖 像相異度一^自 "如何都預(yù)測&和&呈現(xiàn)相同事件。
在上述情況下,情況1和情況3只需鏡頭A和&的文本特征。 這里,出于ONED目的,可以不對稱處理文本特征和圖#4爭征,即 可以使用文本特征作為用以濾除對圖像特征的多數(shù)不必要操作的預(yù) 過濾器。這能夠為檢測效率帶來很大益處,因為多數(shù)鏡頭對的文本 相似度低,因此情況1是最頻繁出現(xiàn)的情況。另一方面,不希望在 文本特征之前處理圖像特征,因為獨自使用圖像特征不能確定&和
12&是否呈現(xiàn)相同事件。
現(xiàn)在描述用于基于上述分析來提高ONED系統(tǒng)效率的技術(shù)。先 給出優(yōu)化ONED系統(tǒng)的高級概括、然后詳細闡述單獨技術(shù)。
圖4示出了根據(jù)一個示例實施例的優(yōu)化ONED系統(tǒng)400的架構(gòu)。 來自一個或者多個頻道401 (d、 C2、 ... Cn)的視頻流劃分成鏡頭 (未明示)。對于各鏡頭S,通過使用語音識別(403 )以及機器翻 譯(404)技術(shù)來提取文本特征(402 )。文本特征用來標(biāo)識和去除 非新聞鏡頭(406 )。其余新聞鏡頭被饋送到ONED組件412,在這 里新事件鏡頭^皮標(biāo)識和發(fā)送到用戶(414)。在ONED處理中,僅當(dāng) 有必要確定S的關(guān)鍵字是否為錨定圖像(410)并且計算在S與舊鏡 頭之間的相似度時才提取S的圖像特征(408 )。
圖5示出了對根據(jù)ONED系統(tǒng)400來使用的算法的描述。本領(lǐng) 域技術(shù)人員將容易認識到算法500中的哪些偽代碼部分涉及ONED 組件所執(zhí)行的步驟。
在廣播視頻中,非新聞視頻段(例如商業(yè)節(jié)目、TV秀)總是與 新聞題材混合。出于ONED目的,即使沒有相似鏡頭此前已經(jīng)出現(xiàn) 過,非新聞鏡頭仍不應(yīng)視為新事件鏡頭。去除這些鏡頭不僅減少 ONED系統(tǒng)組件需要處理的鏡頭數(shù)目而且提高ONED系統(tǒng)的效率和 檢測準(zhǔn)確度。
為此, 一種簡易方法在廣播新聞視頻時人工指定定期時間段。 然而,這樣的方法不可升級至如ONED系統(tǒng)需要處理的典型情況那 樣的數(shù)以萬計的頻道。另外,出于這里的用途而優(yōu)選去除所有非新 聞鏡頭而不是僅僅商業(yè)節(jié)目。作為一種替代方式,應(yīng)用一種簡易的 基于文本的方法來去除非新聞鏡頭。它的基本思想在于非新聞鏡頭 (例如商業(yè)節(jié)目)常常具有比新聞鏡頭更大的背景噪聲,這造成語 音識別器難以識別非新聞視頻中的文本。另外在新聞鏡頭中主持人 往往以比非新聞鏡頭更快的節(jié)奏談話(例如TV秀)?;谶@兩種性 質(zhì),如果5*的識別文本包含少于J"個的不同詞項則預(yù)測鏡頭S不是 新聞,其中/是預(yù)定常數(shù)。雖然這一方法相當(dāng)簡易,但是它高度準(zhǔn)確并且具有有助于提高ONED系統(tǒng)效率的低開銷。另外,放棄的非 新聞鏡頭不再需要高代價的圖像特征提取步驟。
如上所述,希望盡可能多地延遲圖像特征的提取。如圖4和圖5 中所示,當(dāng)處理新鏡頭S時,先提取它的文本特征而不是它的圖像 特征。當(dāng)將S與舊鏡頭S。w做比較時,先計算它們的規(guī)一化文本點積 而不是它們的圖像相異度。如果1-n咖-(上述情況l),則預(yù)
測S和S。w呈現(xiàn)相同事件。在情況1和情況3中,跳過高代價但是不 必要的圖像相異度計算步驟。只有在情況2下(當(dāng),-r"彼—-r 時),需要計算圖像相異度。由于多數(shù)鏡頭對的文本點積小,所以 情況2出現(xiàn)的頻率通常比情況1和情況3低得多。因而,可以節(jié)省 多數(shù)圖像相異度計算。
另外,當(dāng)預(yù)測新鏡頭不是新事件時,如果所有比較的舊鏡頭屬 于情況1或者情況3,則可以跳過高代價的圖像特征提取步驟。換而 言之,當(dāng)預(yù)測S是新事件鏡頭或者對于一些S。w有鄉(xiāng)—w"",,-f 成立時只需針對新鏡頭S提取圖像特征。在實踐中,當(dāng)存在大量頻 道時,多數(shù)鏡頭會由于反復(fù)提及跨不同頻道和在同 一頻道內(nèi)的同一 事件而呈現(xiàn)現(xiàn)有事件。另外,情況1和情況3的出現(xiàn)頻率比情況2 高得多。因此,對于大部分鏡頭可以跳過高代價的圖像特征提取步 驟。
在新聞視頻中,主持人通常廣播新聞題材。來自同一頻道的兩 個新聞鏡頭常常具有含同一主持人的關(guān)鍵幀但是呈現(xiàn)不同事件。然 而在這一情況下相似關(guān)鍵幀不應(yīng)視為暗示這兩個鏡頭呈現(xiàn)同一事 件。為了將這一因素納入考慮之中使用以下方法。在Campbell等人 (M. Campbell、 S. Ebadollahi和D. Joshi等人的"IMB Research TRECVID-2006 Video Retrieval System", NIST TRECVID workshop, 2006 )中描述的錨定圖像檢測用來檢測關(guān)鍵幀是否為錨定圖像。在 這樣的已知錨定圖像檢測方法中,基于支持矢量機(SVM)和低級 色相關(guān)圖特征來確定關(guān)鍵幀是否為錨定圖像??梢岳闷渌阎獔D 像檢測方法。然后,當(dāng)比較兩個鏡頭時,如果任一鏡頭的關(guān)鍵幀是錨定圖像則設(shè)置二值化圖像相異度為一。也就是說,如果任一鏡頭 為錨定圖像鏡頭則將它們的關(guān)鍵幀視為相異。這可以減少錨定鏡頭
錯誤證據(jù)對oned系統(tǒng)檢測準(zhǔn)確度的影響。
通常,對事件的討論在新聞視頻中僅持續(xù)有限數(shù)量的時間,而 新聞鏡頭不太可能呈現(xiàn)與相當(dāng)舊的鏡頭相同的事件。因此,在存儲 器中僅保持在滑動窗如最近『天內(nèi)那些舊鏡頭的信息。這里『是預(yù) 定常數(shù)。為鏡頭5"而保持的信息包括它的文本特征和它的圖像特征 (見上文)而不是視頻圖像,因為只有這些特征才是比較s與未來 鏡頭所需要的。 一旦舊鏡頭從滑動窗起到期,則立即丟棄它的信息。 如圖所示,圖6c圖示了根據(jù)本發(fā)明一個實施例的滑動時間窗。
通常,事件由大量鏡頭呈現(xiàn)。這些鏡頭中的僅一個鏡頭是新事 件鏡頭。呈現(xiàn)同一事件的所有鏡頭往往彼此相似。因此,將新鏡頭 與呈現(xiàn)同 一事件的所有舊鏡頭做比較顯得過度。代之以僅保持新事 件鏡頭的信息。當(dāng)新鏡頭s到達時,將s與舊的新事件鏡頭做比較。 如果將s預(yù)測為呈現(xiàn)新事件的新事件鏡頭,則在存儲器中保存s的 信息。否則丟棄61。
在鏡頭的文本中的所有詞項可以按照它們的詞項加權(quán)的降序來 歸類。 一般而言,具有較大加權(quán)的那些詞項對于ned而言更重要。 因此,對于各保存鏡頭,僅保持具有最大加權(quán)的前^個詞項而不是 所有詞項。這里k是預(yù)定常數(shù)。僅前《個詞項用來計算文本點積。
為了減少計算相異度值的開銷,通過使用低開銷方法來開發(fā)預(yù) 過濾技術(shù)以從新鏡頭中快速濾除呈現(xiàn)不同事件的多數(shù)鏡頭。以這一 方式,可以實質(zhì)性地減少需要計算的相異度值的數(shù)目??紤]兩個鏡 頭&和&。如果&和&呈現(xiàn)同一事件,則它們的文本中的靠前詞項 往往具有一些重疊。也就是, 一個或者一些詞項有可能在&的文本 和&的文本的靠前詞項中出現(xiàn)。因此,這些靠前詞項可以用來快速
濾除不必要的計算。具體而言,具有預(yù)定常數(shù)m(m^a:)。在計算
&和&的文本點積之前,先檢查6V和&的前肘個詞項是否相交。 如果是這樣,則繼續(xù)計算&和&的文本點積。否則預(yù)測&和&呈現(xiàn)不同事件并且不計算它們的文本點積。
構(gòu)建索引以避免對已經(jīng)濾除的鏡頭的不必要處理。詞匯表中的
每個詞項具有詞項id。各鏡頭具有與它的到達時間對應(yīng)的鏡頭id。 為所有保存鏡頭而保持兩個索引正向索引和反向索引。前向索引 具有用于各保存鏡頭的條目。這些條目按照鏡頭的到達時間降序來 排列。這允許快速標(biāo)識和丟棄從最近『天的滑動窗已經(jīng)到期的那些 鏡頭的信息(見上文)。對于各保存鏡頭,對應(yīng)條目保持圖像特征 和與它們的詞項加權(quán)關(guān)聯(lián)的前〖個詞項。這些詞項按照它們的詞項 id的升序來排列。因而,兩個鏡頭的文本點積可以通過它們的詞項 列表的高效"合并"來計算。
對于各保存鏡頭,通過反向索引僅跟蹤它的前M個詞項。反向 索引具有用于詞匯表中各詞項的條目。用于詞項,的條目是其前M 個詞項包含Z的所有鏡頭的鏡頭id的記錄(鏈接)列表。這些鏡頭 id按照降序來排列使得可以高效完成記錄列表合并。當(dāng)新鏡頭S到 達時,僅掃描與S的前M個詞項對應(yīng)的M個記錄列表。這M個記 錄列表合并在一起以找到可以呈現(xiàn)與S相同的事件的候選鏡頭的鏡 頭id。這是上述預(yù)過濾技術(shù)。然后對于這樣的各候選鏡頭正向 索引用來計算S和&的文本點積和圖像相異度(如果需要)。這一 計算在生成候選鏡頭id之時執(zhí)行。以這一方式,如果S和舊鏡頭的 總相異度值小于閣值r,則將S預(yù)測為非新事件鏡頭而針對S的處理 立即停止。否則,如果將S預(yù)測為新事件鏡頭,則S的信息可以容 易地添加到反向索引中,因為S的鏡頭id大于保存鏡頭的鏡頭id。
圖6A圖示了根據(jù)本發(fā)明另一實施例的在線新事件檢測方法。這 一方法可以實施于ONED系統(tǒng)400中。如圖所示,方法600確定給 定事件是否為視頻流中的新事件。該視頻流包括多個事件。步驟602 從給定事件中提取第一特征(例如文本特征)集。該第一特征集與 給定事件所關(guān)聯(lián)的第二特征(例如圖像特征)集相比較處理起來計 算代價更低。當(dāng)存在一個或者多個第一相異度標(biāo)準(zhǔn)時,步驟604計 算僅使用第一特征集來計算在給定事件與視頻流中的一個或者多個先前事件之間的一個或者多個第一相異度值。步驟606基于一個或 者多個計算的第一相異度值來確定給定事件是否為新事件。
圖6B圖示了根據(jù)本發(fā)明又一實施例的在線新事件檢測方法。這 一方法可以實施于ONED系統(tǒng)400中。如圖所示,方法610是用于 在視頻流環(huán)境中捕獲呈現(xiàn)先前未見過的事件的新事件視頻剪輯的實 時新事件檢測處理。該方法包括多級順序過濾處理。該處理包括標(biāo) 識相關(guān)特征(步驟612)、基于用以導(dǎo)出或者提取特征量的計算量對 特征排序(步驟614)以及基于排序的特征來形成一個或者多個多級 順序過濾器,其中在較難計算的特征之前使用較易計算的特征(步 驟616)。在一個特定實施例中,多級順序過濾處理中的一級是獨自 使用文本特征作為用以檢測新事件的過濾器,而后續(xù)級是使用圖像 特征作為用以補充檢測處理的過濾器。
最后參照圖7,圖示了根據(jù)本發(fā)明一個實施例的、其中可以實施 在線新事件檢測技術(shù)的計算機系統(tǒng)。也就是,圖7圖示了根據(jù)本發(fā) 明一個實施例可以用來實施0NED4支術(shù)(例如上文在圖1至圖6的 背景下描述的組件和方法)中 一個或者多個組件/步驟的計算機系統(tǒng)。 將理解可以在一個這樣的計算機系統(tǒng)上或者在多個這樣的計算機系 統(tǒng)上實施單獨組件/步驟。在實施于分布式計算系統(tǒng)上的情況下,單 獨計算機系統(tǒng)和/或設(shè)備可以經(jīng)由適當(dāng)網(wǎng)絡(luò)如因特網(wǎng)或者萬維網(wǎng)來連 接。然而,可以經(jīng)由專用網(wǎng)或者局部網(wǎng)來實現(xiàn)該系統(tǒng)。在許多情況 下,本發(fā)明不限于任何特定網(wǎng)絡(luò)。
因此,圖7中所示計算機系統(tǒng)可以代表能夠提供這里所述所有 或者部分功能的一個或者多個服務(wù)器或者一個或者多個其它處理設(shè) 備。例如,圖7代表用于實施圖2或者圖4的ONED系統(tǒng)組件的計 算機架構(gòu)。
如圖所示,計算機系統(tǒng)700包括經(jīng)由計算機總線710或者替代 連接布置來耦合的處理器702、存儲器704、輸入/輸出(I/O)設(shè)備 706和網(wǎng)絡(luò)接口 708。
應(yīng)認識到如這里使用的術(shù)語"處理器"旨在于包括任何處理設(shè)備,如例如包括CPU和/或其它處理電^各的處理設(shè)備。也應(yīng)理解術(shù)語
"處理器,,可以指代多個處理設(shè)備而與處理設(shè)備關(guān)聯(lián)的各種單元可以 由其它處理設(shè)備共享。
如這里使用的術(shù)語"存儲器"旨在于包括與處理器或者CPU關(guān)聯(lián) 的存儲器,如例如RAM、 ROM、固定存儲器設(shè)備(例如硬驅(qū)動)、 可移動存儲器設(shè)備(例如盤)、閃存等。存儲器可以被認為是計算 機只讀存儲介質(zhì)。
此外,如這里使用的短語"輸入/輸出設(shè)備"或者"I/0設(shè)備"旨在于 包括例如用于向處理單元輸入數(shù)據(jù)的一個或者多個輸入設(shè)備(例如 鍵盤、鼠標(biāo)等)和/或用于呈現(xiàn)與處理單元相關(guān)聯(lián)的結(jié)果的一個或者 多個輸出設(shè)備(例如顯示器等)。
另外,如這里使用的短語"網(wǎng)絡(luò)接口 "旨在于包括例如用以允許 計算機系統(tǒng)經(jīng)由適當(dāng)通信協(xié)議與另 一 計算機系統(tǒng)進行通信的 一 個或 者多個收發(fā)器。
因而,包括用于執(zhí)行這里所述方法的指令或者代碼的軟件組件 可以存儲于一個或者多個相關(guān)聯(lián)存儲器設(shè)備(例如ROM、固定或者 可移動存儲器)中而在使用準(zhǔn)備就緒時被部分或者整體加載(例如 加載到RAM中)并且由CPU執(zhí)行。
在任何情況下,應(yīng)認識到這里描述的和在附圖中示出的本發(fā)明 技術(shù)可以用硬件、軟件或者其組合的各種形式來實施,例如具有關(guān) 聯(lián)存儲器、 一個或者多個具體實施集成電路、功能電路等的一個或 者多個可操作編程的通用數(shù)字計算機。給出了這里提供的本發(fā)明技 術(shù),本領(lǐng)域普通技術(shù)人員將能夠設(shè)想本發(fā)明技術(shù)的其它實施。
雖然這里已經(jīng)參照附圖描述了本發(fā)明的示例實施例,但是應(yīng)理 解本發(fā)明不限于這些確切實施例并且本領(lǐng)域技術(shù)人員在不脫離本發(fā) 明的范圍或者精神情況下可以做出各種其它改變和修改。
18
權(quán)利要求
1. 一種用于確定給定事件是否為包括多個事件的視頻流中的新事件的方法,包括以下步驟從所述給定事件中提取第一特征集,其中所述第一特征集與所述給定事件所關(guān)聯(lián)的第二特征集相比較處理起來計算代價更低;當(dāng)存在一個或者多個第一相異度標(biāo)準(zhǔn)時,僅使用所述第一特征集來計算在所述給定事件與所述視頻流中的一個或者多個先前事件之間的一個或者多個第一相異度值;以及基于所述計算的一個或者多個第一相異度值來確定所述給定事件是否為新事件。
2. 根據(jù)權(quán)利要求1所述的方法,其中還包括以下步驟 從所述給定事件中提取所述第二特征集;當(dāng)存在一個或者多個第二相異度標(biāo)準(zhǔn)時,使用所述第二特征集 來計算在所述給定事件與所述視頻流中的所述一個或者多個先前事 件之間的一個或者多個第二相異度值;以及基于所述計算的一個或者多個第一相異度值以及所述一個或者 多個第二相異度值來確定所述給定事件是否為新事件。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述第一特征集包括文本 特征集,而所述第二特征集包括圖像特征集。
4. 根據(jù)權(quán)利要求1所述的方法,還包括以下步驟將與所述給 定事件做比較的一個或者多個先前事件的數(shù)目限制為僅包括給定時 間窗內(nèi)的先前事件。
5. 根據(jù)權(quán)利要求1所述的方法,在計算所述一個或者多個第一 相異度值之前,還包括以下步驟預(yù)過濾用來計算所述給定事件與 所述一個或者多個先前事件之間的所述一個或者多個第一相異度值 的所述先前事件,其中所述預(yù)過濾步驟是基于對在所述給定事件和 所述 一 個或者多個先前事件中的項目之間重疊的確定。
6. 根據(jù)權(quán)利要求1所述的方法,還包括以下步驟構(gòu)建一個或者多個索引以跟蹤所述多個事件中的哪些事件用來確定所述給定事 件是否為新事件。
7. 根據(jù)權(quán)利要求1所述的方法,其中所述一個或者多個第一相異度標(biāo)準(zhǔn)包括小于、大于或者等于給定值的文本相異度閾值。
8. 根據(jù)權(quán)利要求1所述的方法,其中所述一個或者多個第二相 異度標(biāo)準(zhǔn)包括小于、大于或者等于給定值的圖像相異度閾值。
9. 一種用于確定給定事件是否為包括多個事件的視頻流中新事 件的制造產(chǎn)品,所述產(chǎn)品包括計算機可讀存儲介質(zhì),所述計算機可 讀存儲介質(zhì)包括在由計算機執(zhí)行時完成根據(jù)權(quán)利要求1所述的步驟 的一個或者多個程序。
10. —種實時的新事件檢測方法,用于在視頻流傳輸環(huán)境中捕 獲呈現(xiàn)先前未見過的事件的新事件視頻剪輯,所述方法包括提供多 級順序過濾處理的步驟,該處理包括以下步驟標(biāo)識相關(guān)特4正;基于用以導(dǎo)出或者提取所述特征的計算量對所述特征排序;以及基于所述排序的特征來形成一個或者多個多級順序過濾器,其 中在較難計算的特征之前使用較易計算的特征。
11. 根據(jù)權(quán)利要求10所述的方法,其中構(gòu)建一個或者多個索引 以提高處理速度。
12. 根據(jù)權(quán)利要求10所述的方法,其中只有與在最近W天內(nèi) 的標(biāo)識新事件剪輯有關(guān)的信息才存儲于存儲器中。
13. 根據(jù)權(quán)利要求10所述的方法,其中只有與各剪輯的前K個 最重要項目有關(guān)的信息才存儲于存儲器中。
14. 根據(jù)權(quán)利要求10所述的方法,其中所述剪輯中的前M個最 重要項目用來預(yù)過濾不太可能呈現(xiàn)與所述新剪輯相同的事件的舊剪 輯。
15. 根據(jù)權(quán)利要求10所述的方法,其中文本特征獨自用來濾除 多數(shù)非新事件剪輯,從而避免對這些剪輯的圖像特征提取。
16. 根據(jù)權(quán)利要求IO所述的方法,其中當(dāng)將所述新剪輯與舊剪輯做比較時,先計算它們的文本相似度而如果它們的文本充分相異 則跳過圖像相似度計算。
17. —種用于確定給定事件是否為包括多個事件的視頻流中新 事件的裝置,該裝置包括存儲器;以及至少一個處理器,耦合到所述存儲器并且操作用以(i)從所 述給定事件中提取第一特征集,其中所述第一特征集與所述給定事 件所關(guān)聯(lián)的第二特征集相比處理起來計算代價更低;(ii)當(dāng)存在一 個或者多個第一相異度標(biāo)準(zhǔn)時僅使用所述第一特征集來計算在所述 給定事件與所述視頻流中的一個或者多個先前事件之間的一個或者 多個第一相異度值;以及(iii)基于所述計算的一個或者多個第一相異度值來確定所述給定事件是否為新事件。
18. 根據(jù)權(quán)利要求17所述的裝置,其中所述處理器還操作用以 從所述給定事件中提取所述第二特征集;當(dāng)存在一個或者多個第二相異度標(biāo)準(zhǔn)時使用所述第二特征集來 計算在所述給定事件與所述視頻流中的所述一個或者多個先前事件 之間的一個或者多個第二相異度值;以及基于所述計算的一個或者多個第一相異度值以及所述一個或者 多個第二相異度值來確定所述給定事件是否為新事件。
19. 根據(jù)權(quán)利要求17所述的裝置,其中所述第一特征集包括文 本特征集而所述第二特征集包括圖像特征集。
20. 根據(jù)權(quán)利要求17所述的裝置,其中所述處理器還操作用以 將與所述給定事件做比較的一個或者多個先前事件的數(shù)目限制為僅 包括給定時間窗內(nèi)的先前事件。
全文摘要
公開了用于以提高的檢測效率實時檢測視頻流中新事件的技術(shù)。例如,一種方法確定給定事件是否為視頻流中的新事件。該視頻流包括多個事件。第一步驟從給定事件中提取第一特征(例如文本特征)集。第一特征集與給定事件所關(guān)聯(lián)的第二特征(例如圖像特征)集相比處理起來計算代價更低。第二步驟在存在一個或者多個第一相似度標(biāo)準(zhǔn)時僅使用第一特征集來計算在給定事件與視頻流中的一個或者多個先前事件之間的一個或者多個第一相似度值。第三步驟基于計算的一個或者多個第一相似度值來確定給定事件是否為新事件。
文檔編號G06K9/00GK101425135SQ200810212690
公開日2009年5月6日 申請日期2008年8月29日 優(yōu)先權(quán)日2007年11月1日
發(fā)明者俞士綸, 嶸 顏, 罡 駱 申請人:國際商業(yè)機器公司