專利名稱:用于為視聽演示內容制作摘要和索引的方法與設備的制作方法
技術領域:
本發明一般地涉及信息處理,更具體地說,涉及為視聽演示內容制作摘要和索引的方法與設備。
背景技術:
正式演示是一種重要、流行的交流方式。在學術界和工業中,捕獲此類演示以便隨后進行在線瀏覽已成了諸如遠程學習與技術培訓等應用的慣例。由于因特網無處不在,記錄討論會并將內容放到網絡上為用戶提供了在任何地方、任何時間由任何人查看的優點。另外,同時有多個演示在運行的討論迫使個人不得不選擇注意所述多個演示中的一個演示,而這時該人可能想關注一個以上同時運行的演示。
以前有關為視頻自動制作摘要的工作可描述為屬于以下三大領域之一分割、分析和演示。分割涉及將視頻幀分割成段。對于視聽演示域,分割要求考慮變化的照明條件、演講者移動及相機搖攝/變焦。可用于對視聽演示分割的技術的缺點之一是無法有效地處理變化的照明條件、演講者移動和相機搖攝/變焦。此外,一旦將視聽內容分割,沒有能夠為內容制作索引的可用技術,也沒有任何技術可為內容制作摘要以方便用戶輕松地進行檢索。在用戶通過計算資源有限的手持裝置訪問視頻數據時,問題就變得更尖銳了。
因此,需要解決先有技術的問題,以便實現自動索引編制,以及提供一種用于為視聽演示內容制作摘要,使用戶能夠高效地定位所需信息的有效方案。
發明內容
一般地說,本發明通過提供能夠自動為視聽演示內容實時制作摘要的方法和系統,滿足了這些需要。應理解,本發明可以多種方式實施,包括實現為方法、系統、計算機可讀介質或裝置。下面將描述本發明的幾個創新實施例。
在一個實施例中,提供了用于將圖像數據分割成段的方法。所述方法首先識別與圖像數據當前幀相關聯的像素。隨后,定義在當前幀的關聯像素周圍的像素鄰域。鄰域的定義包括生成三維鄰域。接著,將當前幀的關聯像素與像素鄰域的每個關聯像素之間的距離進行比較,以確定最小距離。隨后,根據最小距離判斷當前幀的關聯像素是否屬于圖像數據的當前段。
在另一實施例中,提供了用于創建視聽演示摘要的方法。所述方法首先將視聽演示幀分割成段。隨后,識別分段幀的幻燈片區域。接著,生成表示幻燈片區域中線條的直方圖。隨后,抑制與直方圖連續幀相關聯的運動區域。
在又一實施例中,提供了含用于將圖像數據分割成段的程序指令的計算機可讀介質。該計算機可讀介質包括用于識別與圖像數據的當前幀的關聯像素的程序指令。提供了用于定義當前幀的關聯像素周圍的像素的鄰域的程序指令,其中,定義鄰域的程序指令包括用于生成三維鄰域的程序指令。包括了用于將當前幀的關聯像素與像素鄰域的每個關聯像素之間的距離進行比較以確定最小距離的程序指令。還包括了基于最小距離,判斷當前幀的關聯像素是否屬于圖像數據當前段的程序指令。
在又一實施例中,提供了含用于創建視聽演示摘要的程序指令的計算機可讀介質。該計算機可讀介質包含用于將視聽演示幀分割成段的程序指令。提供了用于識別分段幀幻燈片區域的程序指令。包含了用于生成表示幻燈片區域中線條的直方圖以及抑制與直方圖的連續幀相關聯的運動區域的程序指令。
在另一實施例中,提供了配置為捕獲視聽演示并為其制作摘要的系統。系統包括能夠捕獲演示音視頻信號的記錄裝置。包括了與記錄裝置通信的計算裝置。計算裝置可訪問視聽演示的視聽數據。計算裝置包括配置為根據單遍顏色分割方案從視頻信號幀抽取幻燈片區域的幻燈片分割模塊。
在又一實施例中,提供了配置為提供實時會議摘要的系統。該系統包括配置為提供與會議相關的演示的圖像捕獲裝置。包括了配置為從所述圖像捕獲裝置接收捕獲的演示數據的媒體服務器。該媒體服務器可訪問用于會議的演示媒體副本。媒體服務器還配置為根據捕獲的演示數據生成對應于演示的摘要數據。所述摘要數據與會議的演示媒體切換點相關聯。還包括與所述媒體服務器通信的客戶機。所述客戶機能夠接收摘要數據。
在還有的另一實施例中,提供了一種集成電路。所述集成電路包括配置為將圖像數據幀分成多個區的分割電路。所述分割電路通過分析與每個區相關聯的顏色特征和形狀特征,能夠識別作為幻燈片區域的一個區。還包括了配置為識別某幀的一組關聯幀的鏡頭檢測電路,所述識別是通過分析幻燈片區域與圖像數據相鄰幀的邊緣信息來進行的。
通過如下結合附圖以示例方式闡述本發明原理的詳細說明,可清楚本發明的其它方面和優點。
通過如下結合附圖的詳細說明,可輕松理解本發明,圖中類似的標號表示類似的結構元件。
圖1是根據本發明一個實施例的與生成視聽演示目錄相關聯的模塊的高層次方框圖; 圖2是說明如何將傳統圖像分割系統限制為按因果順序將像素與四個前驅進行比較的示意圖; 圖3是說明根據本發明一個實施例,按因果順序將參考像素與當前幀和在前幀的5個相鄰像素進行比較的技術的示意圖; 圖4是根據發明的一個實施例,處理視頻數據幀時行掃描順序的示意圖; 圖5A到5C表示參考圖3和表1所述顏色分割掃描產生的分割結果; 圖6是說明根據本發明一個實施例,用于生成幻燈片區域的一比特表示的模塊的示意圖; 圖7是根據本發明一個實施例的圖6所示運動抑制模塊的更詳細的示意圖; 圖8表示根據本發明一個實施例的運動掩模圖; 圖9是表示根據本發明一個實施例,視頻演示不同幀期間幻燈片切換的視頻跡線(video trace); 圖10是表示根據本發明一個實施例的模板匹配模塊的示意圖; 圖11是能夠捕獲演示視頻并為其制作摘要,且通過電子郵件將摘要發送到用戶的系統的高層示意圖; 圖12是表示根據本發明一個實施例的用于創建視聽演示摘要的方法步驟的流程圖。
具體實施例方式 本文描述了一個用于自動生成視聽演示摘要的系統和方法的發明。然而,根據此公開內容,本領域的技術人員明白,可以不需要一些或所有這些特定細節即實施本發明。在其它情況下,為避免使本發明不夠清楚,未詳細描述眾所周知的過程操作。
本文所述實施例提供了一種方法和系統,可實時捕獲視聽演示并自動制作其摘要。從視頻、音頻和幻燈片演示中,自動生成目錄(TOC)以突出具有到對應幻燈片和視頻文件的鏈接的關鍵主題。因此,通過訪問演示的視聽記錄即幻燈片演示和存儲的演示材料,創建演示TOC,以便用戶可選擇特定演示段。另外,通過TOC或其它一些適用的摘要制作技術為演示制作摘要,使具有例如個人數字助理(PDA)、蜂窩電話、網絡書寫板等手持式裝置的用戶能夠查看摘要頁。之后,用戶可下載可由手持式裝置的有限資源加以處理的特定視頻幀,而不是下載超出消費者手持式裝置有限計算能力的演示視頻流。
如下面更詳細描述的那樣,系統中的主要模塊包括幻燈片分割模塊、鏡頭檢測模塊和模板匹配模塊。幻燈片分割模塊配置為從例如攝像機等記錄演示的數字記錄裝置的每個幀中抽取幻燈片區域。隨后,鏡頭檢測模塊根據幻燈片切換識別視頻幀組。模板匹配模塊隨后通過分析抽取的幻燈片區域,將存儲的幻燈片鏈接到對應的視頻鏡頭。
系統的輸入是由演示或會議記錄裝置,例如數字攝像放像機或任何其它合適的數字錄像機生成的視聽信號與原始演示媒體的文本信息如幻燈片演示的組合。在一個實施例中,幻燈片演示是POWERPOINT演示。對于系統的輸入,假定可訪問演示的視聽記錄內容和原始演示媒體。另外,演示媒體的投影幻燈片由數字錄像裝置捕獲。
圖1是根據本發明一個實施例的與生成視聽演示目錄相關聯的模塊的高層次方框圖。幻燈片分割模塊102接收視頻100的幀。幻燈片分割模塊102配置為從視頻100的幀中抽取幻燈片,以便進行如下作更詳細介紹的模板匹配。可以看到,幻燈片分割模塊102與定位幻燈片區域的模塊110相關聯。在一個實施例中,通過先對每個視頻幀應用顏色分割來執行幻燈片分割。隨后,將幻燈片區域識別為具有緊湊外形(如幻燈片的矩形比)的主相干顏色區(dominant,coherent color region)。
圖1所示的鏡頭檢測模塊104隨后將連續的視頻數據幀進行比較以發現差異,從而識別與從幻燈片分割模塊102抽取的幻燈片相關聯的某段視頻數據的所有幀。如下面將要解釋的那樣,鏡頭檢測模塊104與模塊112相關聯,在模塊112中檢測幻燈片切換以便對于每個幀識別具有同一幻燈片的視頻數據段。本質上,鏡頭檢測模塊104根據幻燈片切換將視頻解析成鏡頭。每個鏡頭有效地捕獲展示一個幻燈片內容的演講人。在一個實施例中,為穩健起見,通過使用邊緣檢測和二進制閾值處理,將幻燈片區域變換成一比特表示。一比特表示隨后變換到Hough(霍夫)參數域,并且根據Hough參數生成邊緣直方圖。邊緣直方圖之間的相關用于生成幻燈片相似度跡線(trace of the slide similarity)。此跡線中的峰值用于檢測幻燈片切換和鏡頭邊界。鏡頭檢測模塊104中包括運動抑制模塊,此模塊配置為減少運動對象,如演講者或演講者所控制對象的影響,這些運動對象與幻燈片區域相交并導致偽幻燈片切換。
仍參考圖1,接著通過模板匹配模塊106將表示鏡頭檢測模塊104所捕獲的視頻數據段的關鍵幀與存儲的幻燈片108進行匹配。也就是說,由通過模塊114鏈接到原始幻燈片的匹配算法處理鏡頭檢測模塊104的關鍵幀數據,以便確定并匹配原始幻燈片108之一。這里將只包含抽取的幻燈片區域的關鍵幀用作模板,并與每個原始幻燈片(或原始幻燈片的副本)進行比較。為穩健起見,匹配算法使用邊緣檢測和二進制閾值處理將關鍵幀和原始幻燈片預處理為一比特表示。隨后,使用空間X/Y投影將一比特表示變換為邊緣直方圖。在對應的邊緣直方圖上,使用X2度量(chi-suqared metric)測量關鍵幀與原始幻燈片之間的相似度。之后,通過模塊116生成視頻演示的摘要。
圖2是說明如何將傳統圖像分割系統限制為按因果順序將像素與四個前驅進行比較的示意圖。這里,像素pixel(i,j)120e與視頻數據幀相關聯,所述數據視頻幀包括與像素位置120a到120d相關聯的前驅標號。然而,像素位置120f到120i的關聯標號此時是未知的。因此,傳統方法可使用一種二步驟過程,在該過程中,第一步驟掃描幀以獲得數據,隨后將第二次掃描用于進行分割。或者,傳統過程可忽略像素位置120f到120I以后的數據。在任一備選實施方案中,因果約束將傳統圖像分割系統限制為如上所述,只按因果順序將像素與四個前驅進行比較。
圖3是說明根據本發明一個實施例,按因果順序將參考像素與當前幀和在前幀的5個相鄰像素進行比較的方法的示意圖。這里,創建了三維鄰域,其中二維即x和y座標用當前幀表示,而一維則用時間表示,即在前幀。因此,在鄰域中考慮了空間和時間特征。應理解,已知與位置122a和122b關聯的像素來自當前幀。然而,與位置122c、122d和122e關聯的像素則來自在前幀。因此,與位置122c到122e關聯的像素借用了在前幀的將來信息。本領域的技術人員會理解,在前幀像素與對應的當前幀像素相比并無顯著不同,因此,在前幀像素可充當當前幀像素的良好近似值,用于本文所述顏色分割技術。
圖4是根據發明的一個實施例,處理視頻數據幀時行掃描順序的示意圖。這里,如圖4所示,掃描行從幀123的左上像素開始,并以之字形方式掃描通過整個幀。本領域的技術人員將明白,所示行掃描順序僅僅是示范性而非限制性的,這是因為可采用任何合適的行掃描順序。另外,由于在本實施例中可使用任何合適數量的前驅,因此,5個前驅的鄰域是示范性而非限制性的。
表1顯示了配置為利用上述5個前驅進行視頻分割的單遍分割算法。表1 Symbollabel(i,j;k)the label for pixel(i,j)in frame kInitial label(i,j;0)to 0 for all i,jFor each frame k in video,計算每段的形心;<!-- SIPO <DP n="7"> --><dp n="d7"/>復位每段的點數Begin,For pixel(i,j)in frame k,Compute distance from label(i,j;k-1)to label(i-1,j;k)and label(i,j-1;k)Merge labels if distance<th3Compute distance from pixel(i,j;k)to label of itscausal predecessor as{label(i,j-1;k),label(i-1,j;k),label(i,j;k-1),label(i,j+1,k-1),label(i+1;k-1)}Let mind be smallest distance and minl be thecorresponding labelIf mind<th1Label(i,j;k)=minl;ElseLet mind2 be the smallest distance ofpixel(i,j;k)and all labelsLet minl2 be such a label.If mind2<th2;Let minl=minl2ElseCreate new segmentMinl=label of new segmentEndifEndifUpdate segment indexed by minl to includepixel(i,j;k)EndEnd. 如圖4所示,從左上像素開始,單遍算法以之字形方式掃描通過整個幀。對于每個像素pixel(i,j;k),該算法將像素pixel(i,j;k)與如圖3所示的該像素的因果前驅標號(label of the pixel’s causalpredecessor)之間的距離作比較。應理解,這里采用的用語“像素之間的距離”指對應像素之間的歐幾里德距離。當然,距離計算考慮了像素的關聯顏色模型。在一個實施例中,最小距離因此與閾值進行比較,以確定像素pixel(i,j;k)是否屬于當前段。如果該像素不屬于當前段,算法將檢查所有標號i,并以閾值下限進行比較,以確定該像素是否屬于前一段。實際上,這減少了因段不連通而形成的小隔離段的數量。如果像素仍不屬于任一段,則形成只包含像素pixel(i,j;k)的新段。
在圖像分割中第一輪分割完成后,通常運用合并過程。然而,合并過程通常以迭代的方式來設計。為避免傳統合并過程所需的不可預計的時間,本文所述實施例采用了及時合并法(merge-in-time),該方法通過將在前幀的標號 label(i,j,k-1)與當前幀的標號label(i-1,j,k)和標號label(i,j-1,k)進行比較來合并下一幀中的段。這種方法可靠地將段合并而沒有經歷很長執行時間的風險。
圖5A到5C表示參考圖3和表1所述顏色分割掃描產生的分割結果。圖5A顯示了視頻數據幀124。視頻數據幀124包括幻燈片演示。幻燈片演示可包括非自然信號,如投影機的反射信號128。圖5B表示應用如上所述顏色分割技術(即幻燈片分割技術)之后圖5A的視頻數據幀124。圖5B內具有不同陰影的區域通過顏色分割技術來識別。例如,區域126a表示一個主相干區(dominant and coherentregion),而區域126b表示另一主相干區。區域126c表示又一主相干區。圖5C表示從圖5B抽取的幻燈片區域126b。也就是說,可通過應用單遍分割算法、如表1所示的算法來識別幻燈片區域。如上所述,每個分割區域可識別為一種主要的相關顏色類型。因此,通過使用配置為識別幻燈片區域的形狀比(shape ratio),可從剩余區域中識別出幻燈片區域。另外,在檢查形狀比前,可利用閾值處理來丟棄小的區域。本領域的技術人員將明白,所抽取的幻燈片區域126b由于暗的照明條件而具有差的對比度,并且包含非自然信號、如投影機的反射信號128。
圖6是說明根據本發明一個實施例,用于生成幻燈片區域的一比特表示的模塊的示意圖。不同于使用抽取的幻燈片區域與數據庫幻燈片直接進行比較以找出匹配項,通過圖6所示的模塊整理所抽取的幻燈片區域,以便使抽取的幻燈片區域更有效地匹配存儲的幻燈演示。與幻燈片區域126b相關聯的對比度在模塊132中得到拉伸。在一個實施例中,生成幻燈片區域的亮度直方圖并在直方圖的兩個端點拉伸,直至它包括0-225的范圍。本領域的技術人員會明白,模塊132的對比度拉伸大大增加了幻燈片內容的清晰度。隨后,在模塊134中對生成的亮度直方圖應用邊緣檢測器。在一個實施例中,邊緣檢測器是一個靈敏的邊緣檢測器,然而,邊緣檢測器可以是任何合適的邊緣檢測器。本領域的技術人員會理解,模塊134的邊緣檢測器配置為捕獲幻燈片區域中的文本和圖形的重要輪廓。邊緣檢測器的輸出隨后成為模塊136的輸入,在模塊136中,使用Hough變換將一比特表示的邊緣和線條轉換到參數空間。
眾所周知,Hough變換是抽取幾何圖元的通用方法。對于本文所述的實施例,關注的是幻燈片區域內的文本和圖形的輪廓。Hough變換根據如下等式將線條從x-y空間域轉換到(ρ,θ)參數域 ρ=x*cos(θ)+y*sin(θ)(1) 這里,ρ是從線條到原點的距離,而θ是在軸x與從原點指向線條的線矢量的垂線之間的角度。由于圖像中的每個像素可能屬于幾個線條,因此,保持了測量線條參數(ρ,θ)強度的累加器A(ρ,θ)。因此,隨后對累加器值進行閾值處理以區分線條和噪聲特征。然后,由累加器生成一維直方圖以表示幻燈片中的線條。
應理解,圖5C的幻燈片區域126b中除了對比度和照明差以外,演講者還可能移到幻燈片區域前面,從而遮蔽文本區并形成陰影。遮蔽和陰影可形成通過Hough變換捕獲的邊緣和線條。因此,為補償遮蔽和陰影,通過運動抑制模塊138形成運動掩模(motion mask)。如下所述,所述運動掩模檢測運動區域,隨后從邊緣直方圖140抑制它們。
圖7是根據本發明一個實施例的圖6所示運動抑制模塊的更詳細的示意圖。幻燈片區域126b傳遞給模塊150,在模塊150中確定相鄰幀之間亮度通道(luminance channel)的幀差異。另外,計算幀差的二進制閾值,并將結果用于生成輪廓。模塊150的輸出傳遞給模塊152,在模塊152中,所述輪廓被復制到單獨的圖像中并被賦予最近的時戳值。設置了時間增量(delta),以將低于該閾值的像素設為零。應理解,此復合運動歷史圖象(MHI)現在包含按其時戳分組的運動區域。用于模塊152的復合運動歷史圖像隨后傳遞給模塊154,在模塊154中應用向下步進填充法(downward stepping flood fill)組合最近的運動區域并將其分割成運動掩模156。參考圖6,本領域的技術人員將明白,通過運動抑制模塊,將把位于運動掩模內的邊緣排除在邊緣直方圖外。
圖8表示根據本發明一個實施例的運動掩模圖。這里,連續的視頻幀142、144和146包括幻燈片區域126b,其中,演示者的手正在幻燈片區域126b上移動。可以看到,手圖像144a到144n沿向下方向移動通過連續的視頻數據幀,從而遮蔽了幻燈片區域126b的一些部分。圖7所示運動抑制模塊用于生成圖8中的運動掩模156。因此,捕獲連續幀中的手形移動使本實施例能夠忽略因手圖像運動產生的非自然信號。在一個實施例中,運動抑制模塊138參與抑制偽幻燈片切換,下面將對此作進一步的說明。
圖9是表示根據本發明一個實施例,視頻演示不同幀期間幻燈片切換的視頻跡線。這里,峰值160a到160g和對應的視頻幀160a-1到160g-1顯示了更換幻燈片的切換點。因此,與視頻幀160a-1到160g-1相關聯的幻燈片區域表示關鍵幀,所述關鍵幀可用作將原始幻燈片鏈接到對應視頻鏡頭的模板。使用如等式(2)所述的相關量度來對相鄰幀的邊緣直方圖進行比較<math> <mrow> <mi>Corr</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mi>Σ</mi> <mi>i</mi> </munder> <msub> <mi>q</mi> <mi>i</mi> </msub> <msub> <mi>v</mi> <mi>i</mi> </msub> <mtext></mtext> </mrow> <msqrt> <munder> <mi>Σ</mi> <mtext>i</mtext> </munder> <msubsup> <mi>q</mi> <mi>i</mi> <mn>2</mn> </msubsup> <munder> <mi>Σ</mi> <mi>i</mi> </munder> <msubsup> <mi>v</mi> <mi>i</mi> <mn>2</mn> </msubsup> </msqrt> <mtext></mtext> </mfrac> </mrow> </math> 從等式2獲得的相關值用于生成視頻跡線,且視頻跡線中的峰值對應于鏡頭切換。應理解,通過消除通過相關比較識別的運動區域,運動抑制有助于減少圖9中幀3000-4000之間的偽峰值。
圖10是表示根據本發明一個實施例的模板匹配模塊的示意圖。這里,通過直方圖拉伸模塊162處理幻燈片區域126b,該模塊的功能類似于圖6所示的對比度拉伸模塊132。模塊162的輸出傳遞給模塊134,在模塊134中,執行如上所述的邊緣檢測。邊緣檢測模塊134的輸出隨后傳遞給空間投影模塊164。這里,通過將邊緣幅度投影到x和y軸上生成一維直方圖。為了將直方圖與例如幻燈片等原始演示媒體的那些直方圖進行比較,對由幻燈片生成的圖像執行類似的處理。也就是說,對原始演示媒體執行邊緣檢測、空間比較和相關比較。接著將原始幻燈片與幻燈片區域進行比較,所述幻燈片區域指通過相關比較最密切相關的關鍵幀。應理解,由于原始演示媒體或其副本具有足夠的質量等級,因此,不需要對原始演示媒體應用直方圖拉伸。
圖11是能夠捕獲演示視頻并為其制作摘要,且通過電子郵件將摘要發送到用戶的系統的高層示意圖。圖像捕獲裝置173捕獲演示170的視頻圖像。捕獲的視頻數據傳送到膝上型計算機172。膝上型計算機172可配置為執行如上所述的幻燈片分割模塊、鏡頭檢測模塊和模板匹配模塊。當然,膝上型計算機172可以是配置為執行本文所述功能的任何合適的計算裝置。膝上型計算機172與媒體服務器174進行通信。在一個實施例中,膝上型計算機將視頻分割成與演示的原始幻燈片對應的鏡頭。視頻鏡頭隨后進行編碼,例如,按照運動圖像專家組(MPEG)或一些其它合適的音頻視頻壓縮標準進行編碼,而后存儲在媒體服務器174上。在另一實施例中,創建結構化為目錄178的網頁摘要并將其存儲在媒體服務器174上。
仍參考圖11,目錄178包括多個索引,其中,每個索引包括幻燈片標題178a、幻燈片縮略圖178c和鏈接到對應視頻流的關鍵幀178b。因此,存儲的網頁可通過電子郵件從媒體服務器174發送到具有配置為接收電子郵件數據的計算裝置(客戶機)的用戶。例如,網頁的收件方可以是能夠接收電子郵件的個人數字助理(PDA)176、膝上型計算機180或任何其它合適的裝置。一旦客戶機收到網頁,用戶便可迅速瀏覽TOC以獲得演示內容的概貌。用戶還可通過縮略圖查看縮略圖178c的全屏形式,或通過關鍵幀178b下載對應的視頻鏡頭。本領域的技術人員會明白,具有有限資源的接收裝置即手持式電子裝置現在可以查看關鍵幀或視頻鏡頭,而不是接收整個視頻流(這可能超出手持式裝置的能力)。在一個實施例中,可由媒體服務器174而非膝上型計算機172執行本文所述的自動摘要制作方法。
應理解,上述實施例可以用軟件或硬件實現。本領域的技術人員會理解,模塊可實現為包括配置為提供上述功能的邏輯門的半導體芯片。例如,可采用硬件描述語言(HDL)如VERILOG來綜合固件和用于實現本文所述必需功能的邏輯門的布局,以提供自動摘要制作技術和相關功能的硬件實現。
圖12是表示根據本發明一個實施例的用于創建視聽演示摘要的方法步驟的流程圖。該方法從操作190開始,在操作190中將視聽演示幀分割成段。這里,以上參考圖3-5C所述的顏色分割技術可用于將視聽演示幀分割成主相干區。該方法隨后前進到操作192,在該操作中識別分段幀的幻燈片區域。這里,某些特征如形狀比要用于識別幻燈片區域。另外,可使用閾值以便消除小的視頻幀區。
圖12所示的方法隨后繼續到操作194,在該操作中生成表示幻燈片區域中線條的直方圖。這里,鏡頭檢測模塊可用于生成直方圖。該方法隨后轉移到操作196,在該操作中,抑制與直方圖的連續幀相關聯的運動區域。在一個實施例中,如上所述應用運動抑制以減少運動對象的影響,所述運動對象在鏡頭檢測期間與幻燈片區域交叉并造成偽警報。另外,可對直方圖執行模板匹配,以便通過相關比較將幻燈片區域與存儲的原始幻燈片或幻燈片副本進行比較。因此,將包含幻燈片區域和相關原始幻燈片或幻燈片副本的視頻幀用于創建摘要,如圖11所示的摘要。
概括地說,以上發明提供了一種實時制作視聽演示摘要的方法。摘要方法允許用戶快速有效地瀏覽冗長的討論會或演示以及查看特定內容。另外,錄制的內容可存儲在服務器上,從而允許用戶通過因特網訪問該內容。摘要方法使具有有限資源而無法處理全部視頻流的客戶機能夠查看演示的某些鏡頭。因此,可將錄像裝置用于捕獲演示并將捕獲的數據傳送到可訪問演示所用幻燈片的計算機。通過幻燈片分割模塊、鏡頭檢測模塊和模板匹配模塊,提供了演示摘要。在一個實施例中,摘要采取目錄的形式。
通過了解上述實施例,應理解,本發明可采用計算機實現的各種涉及計算機系統中存儲的數據的操作。這些操作包括需要具體控制物理量的操作。這些物理量通常但不一定采取可以存儲、傳送、組合、比較或以其它方式加以控制的電信號形式或磁信號形式。此外,執行的控制經常用諸如產生、識別、確定或比較等術語表示。
上述發明可用其它包括手持式裝置、微處理器系統、基于微處理器的或可編程的消費電子設備、微型計算機、大型計算機等的計算機系統配置來實現。本發明還可在分布式計算環境中實施,在分布式計算環境中,由通過通信網絡鏈接的遠程處理裝置執行任務。
本發明還可體現為計算機可讀介質上的計算機可讀代碼。計算機可讀介質是可存儲以后可由計算機系統讀取的數據的任何數據存儲裝置。計算機可讀介質還包括含計算機代碼的電磁載波。計算機可讀介質的示例包括硬盤驅動器、網絡附加存儲裝置(NAS)、只讀存儲器、隨機存取存儲器、CD-ROM、CD-R、CD-RW、磁帶和其它光學或非光學數據存儲裝置。計算機可讀介質還可通過網絡連接的計算機系統分發,以便以分布方式存儲和執行計算機可讀代碼。
雖然為便于理解,對以上發明作了相當詳細的描述,但顯而易見的是,可在所附權利要求書范圍內進行某些變更和修改。因此,所述實施例要視為說明性而非限制性的,且本發明不限于本文提供的細節,而是可以在所附權利要求書的范圍和等效范圍內加以修改。在所附權利要求書中,除非權利要求中明確指明,否則,單元和/或步驟并不暗示任何特定的操作順序。
權利要求
1.一種將圖像數據分割成段的方法,它包括
識別所述圖像數據當前幀的關聯像素;
定義所述當前幀的所述關聯像素周圍的像素鄰域,所述定義包括
生成三維鄰域;
將所述當前幀的所述關聯像素與所述像素鄰域的每個關聯像素之間的距離進行比較以確定最小距離;以及
根據所述最小距離確定所述當前幀的所述關聯像素是否屬于所述圖像數據的當前段。
2.如權利要求1所述的方法,其特征在于確定所述當前幀的所述關聯像素是否屬于所述圖像數據當前段的所述方法操作包括
建立閾值;以及
將所述閾值與所述最小距離進行比較,其中,如果所述最小距離小于所述閾值,則所述當前幀的所述關聯像素屬于所述當前段。
3.如權利要求1所述的方法,其特征在于生成三維鄰域的所述方法操作包括
以在前幀像素的關聯像素值替代所述鄰域的所述當前幀的將來像素值。
4.如權利要求1所述的方法,其特征在于所述三維鄰域包括所述當前幀的二維和在前幀的一維。
5.如權利要求1所述的方法,其特征在于所述方法操作在通過所述圖像數據的所述當前幀的單遍中完成。
6.一種用于創建視聽演示摘要的方法,包括
將所述視聽演示幀分段;
識別所述分段幀的幻燈片區域;
生成表示所述幻燈片區域中線條的直方圖;以及
抑制與所述直方圖的連續幀相關聯的運動區域。
7.如權利要求6所述的方法,其特征在于還包括
根據存儲的與所述幻燈片區域相關聯的幻燈片生成直方圖;以及
將表示所述幻燈片區域中線條的所述直方圖與所述存儲幻燈片的所述直方圖進行比較。
8.如權利要求6所述的方法,其特征在于識別所述分段幀幻燈片區域的所述方法操作包括
確定所述幻燈片區域的形狀比。
9.如權利要求6所述的方法,其特征在于生成表示所述幻燈片區域中線條的直方圖的所述方法操作包括
檢測所述幻燈片區域的文本和圖形邊緣;以及
將表示所述邊緣的數據變換成參數空間。
10.如權利要求6所述的方法,其特征在于抑制與所述直方圖的連續幀相關聯的運動區域的所述方法操作包括
捕獲前景輪廓;
復制所述前景輪廓;
為所述復制的前景輪廓分配最近的時戳;以及
生成運動掩模,其中,在所述運動掩模內的邊緣排除在所述直方圖外。
11.如權利要求6所述的方法,其特征在于將所述視聽演示幀分段的所述方法操作包括
按因果順序將所述幀的每個像素值與相鄰像素進行比較。
12.如權利要求11所述的方法,其特征在于所述相鄰像素值包括5個相鄰像素值。
13.如權利要求12所述的方法,其特征在于所述5個相鄰像素值包括所述幀的兩個在前的相鄰像素值、在前幀的對應像素值及所述在前幀的兩個相鄰像素值。
14.一種具有用于將圖像數據分割成段的程序指令的計算機可讀介質,它包括
用于識別與所述圖像數據的當前幀相關聯的像素的程序指令;
用于定義所述當前幀的所述關聯像素周圍的像素鄰域的程序指令,所述用于定義的程序指令包括
用于生成三維鄰域的程序指令;
用于將所述當前幀的所述關聯像素與所述像素鄰域的每個關聯像素之間的距離進行比較以確定最小距離的程序指令;以及
用于根據所述最小距離,確定所述當前幀的所述關聯像素是否屬于所述圖像數據的當前段的程序指令。
15.如權利要求14所述的計算機可讀介質,其特征在于用于確定所述當前幀的所述關聯像素是否屬于所述圖像數據的當前段的所述程序指令包括
用于建立閾值的程序指令;以及
用于將所述閾值與所述最小距離進行比較的程序指令,其中如果所述最小距離小于所述閾值,則所述當前幀的所述關聯像素屬于所述當前段。
16.如權利要求14所述的計算機可讀介質,其特征在于用于生成三維鄰域的所述程序指令包括
用于以在前幀像素的關聯像素值替換所述鄰域的所述當前幀的將來像素值的程序指令。
17.一種具有用于創建視聽演示摘要的程序指令的計算機可讀介質,它包括
用于將所述視聽演示幀分段的程序指令;
用于識別所述分段幀的幻燈片區域的程序指令;
用于生成表示所述幻燈片區域中線條的直方圖的程序指令;以及
用于抑制與所述直方圖的連續幀相關聯的運動區域的程序指令。
18.如權利要求17所述的計算機可讀介質,其特征在于還包括
用于根據存儲的與所述幻燈片區域相關聯的幻燈片生成直方圖的程序指令;以及
用于將表示所述幻燈片區域中線條的所述直方圖與所述存儲的幻燈片的所述直方圖進行比較的程序指令。
19.如權利要求17所述的計算機可讀介質,其特征在于用于識別所述分段幀的幻燈片區域的所述程序指令包括
用于確定所述幻燈片區域形狀比的程序指令。
20.如權利要求17所述的計算機可讀介質,其特征在于用于生成表示所述幻燈片區域中線條的直方圖的所述程序指令包括
用于檢測所述幻燈片區域的文本和圖形邊緣的程序指令;以及
用于將表示所述邊緣的數據變換成參數空間的程序指令。
21.如權利要求17所述的計算機可讀介質,其特征在于用于抑制與所述直方圖的連續幀相關聯的運動區域的所述程序指令包括
用于捕獲前景輪廓的程序指令;
用于復制所述前景輪廓的程序指令;
用于為所述復制的前景輪廓分配最新時戳的程序指令;以及
用于生成運動掩模的程序指令,其中,在所述運動掩模內的邊緣排除在所述直方圖外。
22.一種配置為捕獲視聽演示并為其制作摘要的系統,它包括
能夠捕獲所述演示的音頻和視頻信號的記錄裝置;以及
與所述記錄裝置通信的計算裝置,所述計算裝置可訪問所述視聽演示的視聽數據,所述計算裝置包括幻燈片分割模塊,所述幻燈片分割模塊配置為根據單遍顏色分割方案從所述視頻信號幀抽取幻燈片區域。
23.如權利要求22所述的系統,其特征在于所述記錄裝置是攝像放像機。
24.如權利要求22所述的系統,其特征在于所述計算裝置包括鏡頭檢測模塊,所述鏡頭檢測模塊配置為比較所述視頻信號的相鄰幀的所述幻燈片區域的邊緣信息。
25.如權利要求24所述的系統,其特征在于所述鏡頭檢測模塊包括運動抑制模塊,所述運動抑制模塊配置為抑制所述幻燈片區域前的運動所造成的非自然信號。
26.如權利要求22所述的系統,其特征在于所述幻燈片分割模塊還配置為將當前幀的像素值與所述當前幀的相鄰像素值和在前幀的相鄰像素值進行比較,所述在前幀的所述相鄰像素值對應于所述當前幀的將來像素位置。
27.如權利要求22所述的系統,其特征在于所述幻燈片分割模塊還配置為創建三維鄰域,以便在抽取所述幻燈片區域中使用,所述三維鄰域包括所述當前幀中的二維和在前幀中的一維。
28.一種配置為提供會議實時摘要的系統,它包括
配置為捕獲與所述會議相關聯的演示的圖像捕獲裝置;
配置為從所述圖像捕獲裝置接收捕獲的演示數據的媒體服務器,所述媒體服務器可訪問用于所述會議的演示媒體副本;所述媒體服務器還配置為根據所述捕獲的演示數據生成對應于所述演示的摘要數據,所述摘要數據與所述會議的演示媒體切換點相關聯;以及
與所述媒體服務器通信的客戶機,所述客戶機能夠接收所述摘要數據。
29.如權利要求28所述的系統,其特征在于所述演示媒體是幻燈片。
30.如權利要求28所述的系統,其特征在于還包括
與所述圖像捕獲裝置和所述媒體服務器通信的計算裝置;所述計算裝置包括幻燈片分割模塊,所述幻燈片分割模塊配置為根據單遍顏色分割方案從所述演示幀抽取幻燈片區域;所述計算機裝置還包括鏡頭檢測模塊,所述鏡頭檢測模塊配置為比較所述視頻信號相鄰幀的所述幻燈片區域的邊緣信息;所述鏡頭檢測模塊包括運動抑制模塊,所述運動抑制模塊配置為抑制所述幻燈片區域前的運動所產生的非自然信號。
31.如權利要求28所述的系統,其特征在于所述摘要數據是目錄,所述目錄含與所述演示媒體的對應副本相關聯的演示媒體切換點圖像。
32.如權利要求28所述的系統,其特征在于所述演示媒體切換點與所述會議更換幻燈片的時間點相關聯。
33.一種集成電路,它包括
配置為將圖像數據幀分割成多個區域的分割電路;所述分割電路能夠通過分析與每個所述區域相關聯的顏色特征和形狀特征將所述區域之一識別為幻燈片區域;以及
配置為識別所述幀的一組關聯幀的鏡頭檢測電路,所述識別是通過分析所述幻燈片區域與所述圖像數據相鄰幀的邊緣信息來進行的。
34.如權利要求33所述的集成電路,其特征在于還包括
模板匹配電路,所述模板匹配電路配置為將表示所述幀組的關鍵幀與原始幻燈片區域進行比較。
35.如權利要求33所述的集成電路,其特征在于所述鏡頭檢測電路還包括
配置為抑制由所述幻燈片區域前的運動造成的非自然信號的運動抑制電路。
36.如權利要求33所述的集成電路,其特征在于所述分割電路還配置為定義三維鄰域,以便在識別所述幻燈片區域中使用,所述三維鄰域包括所述圖像數據當前幀中的二維和所述圖像數據的在前幀中的一維。
37.如權利要求33所述的集成電路,其特征在于所述運動抑制電路包括
用于捕獲前景輪廓的電路;
用于復制所述前景輪廓的電路;
用于為所述復制的前景輪廓指定最新時戳的電路;以及
用于生成運動掩模以排除所述非自然信號的電路。
全文摘要
一種創建視聽演示摘要的方法,所述方法的第一步是將所述視聽演示幀分段。隨后,識別分段幀的幻燈片區域。接著,生成表示幻燈片區域中線條的直方圖。接著,抑制與直方圖的連續幀相關聯的運動區域。本發明還提供了一種用于提供會議實時摘要的系統和集成電路。
文檔編號G06T7/00GK1601531SQ20041008557
公開日2005年3月30日 申請日期2004年9月27日 優先權日2003年9月26日
發明者陳淳中, J·-Y·陳 申請人:精工愛普生株式會社