專利名稱:一種視頻字幕信息提取方法
技術領域:
本發明涉及視頻中的字幕信息提取,特別涉及一種利用視頻語義信息 提取視頻字幕的方法。
背景技術:
近年來,數字視頻技術的發展相當迅速,在廣播電視領域逐步取代了 傳統的存儲和發送模式,在互聯網上的應用更是以驚人的速度得到擴展。 數字視頻具有采集和存取方便、信息量大的優勢,但同時也存在數據量大、 描述困難的特點。隨著視頻數據的海量增長,人們迫切需要先進的視頻處 理技術從而實現有效的視頻索引,摘要,瀏覽以及檢索。視頻字幕信息因 其相對易于提取,直接表征視頻語義和便于基于文本的視頻檢索等特點而 具有重要的研究和應用價值。
現有視頻字幕信息提取方法主要分為三類。第一類為基于連通區域的 提取方法。該方法可以實現文本區域的快速定位和提取,但是對背景復雜 度非常敏感,魯棒性差。第二類為基于紋理的區域檢測方法。該算法實現 起來較筒單,但是由于與字幕具有相近紋理區域的影響,使得檢測準確率 較低。第三類是基于邊緣的檢測方法。該方法計算復雜度低,但是在一定 程度上受視頻分辨率和背景信息的影響。此外,還存在一些通過分類器建 立文字區域模型的方法,但是該類方法對訓練樣本有很強的依賴性,模型 建立比較復雜。
在上述的基于邊緣的檢測方法中,實現字幕檢測、提取時所要完成的
基本步驟包括1、預處理操作;2、字幕區域檢測操作;3、字幕區域分 割操作;4、字幕區域增強操作;5、字幕提取操作;6、文字識別操作。
其中,在字幕區域檢測時,通常采用機器學習的方法,如支持向量機 或神經網絡等,這種機器學習的方法需要收集樣本集并且進行模型的訓 練,如果樣本集選取的不好,可能訓練出的模型并不適合現實中的各種情 況,影響視頻字幕4企測的準確性。而且字幕區域^^測中所要完成的多尺度 變換方法一般只采用圖像下采樣的方法,這樣不利于對視頻中的小字體的檢測。
在做字幕區域增強的過程中,現有技術通過邊緣圖做匹配,以檢測具 有相同字幕的視頻幀,但由于閾值選擇對邊緣提取的影響很大,所以對不同 幀提取邊緣圖變化較大,很難通過準確的閾值設定來檢測具有相同字幕的視頻幀。
而在字幕提取的過程中,現有技術或者采用基于閾值的方法,或者采用 基于筆畫的方法。無論是采用基于閾值的方法,還是基于筆畫的方法都有各 自的缺陷。例如,基于閾值的方法具有通用性不強,對復雜背景的情況很難 適應的缺陷,而基于筆畫的方法則具有筆畫交叉部分很難被找到,從而影響 字幕識別的舉陷。 ,
鑒于現有的視頻字幕提取方法在各個實現步驟中存在著各自的問題, 而在實際檢測的各種視頻中又因為以下四個因素制約視頻字幕信息提取
的準確性和魯棒性1.背景的復雜度;2.視頻圖像的低分辨率;3.字體, 尺寸,顏色及排列方式等的變化;4.不同語言字符的特性。因此,需要一 種新的視頻字幕提取方法以提高視頻字幕信息提取的準確性和魯棒性。
發明內容
因此,本發明的任務是克服現有的視頻字幕提取方法在字幕區域檢 測、字幕區域分割、字幕區域增強、字幕提取等步驟的實現上所存在的不 足,從而影響字幕提取的準確性與魯棒性的缺陷,從而提供一種具有更高 準確性和魯棒性的視頻字幕提取方法。
為了實現上述目的,本發明提供了一種視頻字幕信息提取方法,包括 以下步驟
步驟1 )、對需要提取字幕的視頻圖像進行預處理;
步驟2)、對預處理后的視頻圖像進行多尺度的字幕區域檢測,得到代 表字幕區域大小與位置的矩形塊;
步驟3)、利用所述的矩形塊,對檢測到的字幕區域進行分割;
步驟4)、對分割得到的字幕區域增強對比度;
步驟5)、采用K均值聚類的方法實現對字幕的提取。
上述技術方案中,所述的步驟2)包括以下步驟
步驟21)、對預處理后的視頻圖像進行尺度大小的變換操作,得到多 個不同尺度大小的圖像;步驟22)、對步驟21)所得到的多個不同尺度大小的圖像中的所有象 素點求取邊緣強度;
步驟23)、在各個圖像中,對步驟22)所得到的象素點的邊緣強度做 二值化處理,得到相應的邊緣步驟24)、對各個尺度的圖像進行字幕區域粗檢測,得到各個圖像中 字幕所在的大致區域。
上述技術方案中,在所述的步驟21)中,對預處理后的視頻圖像進行 尺度大小的變換操作時,同時采用了圖像上釆樣和圖像下采樣的方法,得 到與原圖相比尺度更大與更小的多個變換后圖像。
. 上述技術方案中,在所述的步驟22)中,所述的求取邊緣強度的過程 中采用了水平和垂直Sobel算子。
上述技術方案中,在所述的步驟24)中,對各個尺度的圖像進行字幕 區域粗檢測包括以下步驟
步驟241)、為各個尺度圖像的邊緣圖建立DCT圖
步驟242 )、對所得到的DCT圖做連通區域分析,為DCT圖中的每個連 通區域得到 一個外接的矩形
步驟243 )、根據步驟242 )中所得到的外接矩形,實現對圖像中的字 幕區i或的啦L纟全測。
上述技術方案中,在所述的步驟241)中,為各個尺度圖像的邊緣圖 建立DCT圖包括以下步驟
步驟24U)、在一個邊緣圖中,用一個滑動窗口對所述邊緣圖的橫向 和縱向分別進行掃描,統計所述滑動窗口中上、下、左、右四個子窗口內 的邊緣象素個數
步驟2412)、計算表示每個窗口邊緣象素分布散度的值n,其中 n = na xnb xnc xnd ;
步驟2413)、建立DCT圖,所述DCT圖中每個象素對應一個所述的滑 動窗口,當所述n值大于O時,所述DCT圖中的象素值為1,當所述n值 為0時,所述DCT圖中的象素值為0。
上述技術方案中,還可以對所建立的DCT圖進行腐蝕處理,去掉孤 立點;在腐蝕處理過程中,在DCT圖的水平方向上,對于值為'T,的某 象素點,若其左右連續兩個點象素值都為"0"或者三面相臨象素點值都 為"0",則該點作為孤立點,并將其象素值改為"0"。上述技術方案中,所述的滑動窗口的大小為4x4。
上述技術方案中,在所述的步驟243 )中,對圖像中的字幕區域的粗 檢測包括以下步驟
步驟2431 )、將所述DCT圖中的連通區域的外接矩形對應到所述邊緣 圖中的位置,在所述邊緣圖中得到相應的矩形;
步驟2432 )、對所述邊緣圖中滿足條件的矩形塊進行合并;
步驟2433 )、對所述邊緣圖中的所有矩形塊進行尺寸大小的檢測,去 掉尺寸過小的塊;
步驟2434 )、將不同尺度圖像中的檢測結果都變換到原始尺度的圖像 中,然后再將所有的檢測結果緣行合并。
上述技術方案中,在所述的步驟2432)中,所述的合并條件包括
a、 對兩個矩形塊相交的情況,只要相交部分的面積大于0 ,則將兩 個相交的矩形塊進行合并;
b、 對兩個矩形塊在垂直方向上投影的結果有交集,并且它們在水平 方向上距離足夠近的情況,用dl表示兩個塊的水平方向上的距離,d2表 示兩個塊上面的邊在垂直方向上的距離,d3表示兩個塊下面的邊在垂直方 向上的距離,當0<dl<8, 0<d2<4, 0<d3<4時,兩個矩形》丸可以合并,其 中的數值表示象素點的個數;
c、 對于兩個矩形塊在水平方向上投影的結果有交集,并且它們在垂 直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向上的距離,用 d5表示下方矩形塊的右邊和上方矩形塊的左邊在水平方向上的距離,用 d6表示下方矩形塊的左邊和上方矩形塊的右邊在水平方向上的距離,當 d4<4, d5>0, d6〉G時,兩個矩形塊可以合并;
d、 對一個矩形塊的右下角和另一個矩形塊的左上角頂點在水平方向 上和垂直方向上距離都足夠近的情況,用d7表示下方矩形塊的上邊和上 方矩形塊的下邊在垂直方向上的距離,用d8表示下方矩形塊的左邊和上 方矩形塊的右邊在水平方向上的距離,當0<d7<4, 0<d8<8時,兩個矩形 塊可以合并;
e、 一個矩形塊的右上角和另一個矩形塊的左下角頂點在水平方向上 和垂直方向上距離都足夠近的情況,用d9表示下方矩形塊的上邊和上方 矩形塊的下邊在垂直方向上的距離,d10表示下方矩形塊的右邊和上方矩 形塊的左邊在水平方向上的距離,當0<d9<4, 0〈dl(K8時,兩個矩形塊可
ii以合并。
上述技術方案中,在所述的步驟3)中,所述的對^^測到的字幕區域
進行分割包括以下步驟
步驟31)、為一個圖像中所有字幕區域所對應的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;
步驟32)、從所述隊列Ll中取出一個矩形塊,判斷在水平方向是否可 以分割,若水平方向不能分割則將該矩形塊加入所述隊列L2后執行下一 步,否則進行水平方向的分割;
步驟33)、判斷所述隊列Ll是否為空,若不為空,則對所述隊列Ll 中的矩形塊重復執哲上述的步驟32,否則執行下一步; ,
步驟34)、從所述隊列L2中取出一個矩形塊,判斷在垂直方向是否可 以分割,若垂直方向不能分割,則將該矩形塊加入所述隊列Ll后執行下 一步,否則進行垂直方向的分割;
步驟35)、判斷所述隊列L2是否為空,若為空,則重復步驟34),否 則執行下一步;
步驟36)、判斷在所述隊列Ll中是否還包含水平方向或者垂直方向可 分割的矩形塊,若存在,則進入步驟32),否則執行下一步;
步驟37)、對經過分割操作后的矩形塊根據合并條件進行合并操作;
步驟38)、對當前矩形塊的大小進行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾值maxTextBlockHeight的矩形塊。
上述技術方案中,在所述的步驟32)中,所述的水平方向的分割包括
步驟321)、對矩形塊做水平投影,用HP表示各行象素投影所包含的 值為'T'的象素點數;
步驟3")、找出一個矩形塊中HP的最大值hp,^;
步驟323 )、將HP從大到小排序,計算前1/3個H的算術平均值AVE1;
步驟324 )、從最大值hPmax在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;
步驟325 )、在yl和y2處做分割操作,中間的部分標為水平方向不能 再分割,加入所述隊列L2;
步驟326 )、對除去中間部分后所得到的剩余兩部分,判斷它們的高度 是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執行步 驟33),若不大于上述閾值,則直接執行步驟33)。上述4支術方案中,所述的閾值minTextBlockHeight的大小為8,單位 為象素點。
上述技術方案中,在所述的步驟34)中,所述的垂直方向的分割包括 步驟341)、對所述的矩形塊做垂直投影,用V表示各列象素投影所包 含的值為"1"的象素點數;
步驟342 )、計算所述V的算術平均AVE2;
步驟343 )、對垂直投影從左開始,查找一個點,該點應滿足它本身和 其后一點的V值都大于三分之一的AVE2且后兩點V值大于二分之一的 AVE2,查找到該點后,該點被設為開始點xl;
步f聚3")、從xl向右尋找第一個V值小于三分之一的AVE卩且其后4 個連續點的V值均小于三分之一的AVE2的點,該點被設為結束點x2;
步驟345 )、從所述的xl和x2處做分割,中間的部分被判定為垂直方 向不能再分割,將中間部分加入隊列Ll;
步驟346 )、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執行步驟35 ),否則直接執行步驟35 )。
上述技術方案中,在所述的步驟37)中,所述的合并條件為
當兩個塊高度相似,它們的上面的邊在垂直方向上距離相近,而且它 們在水平方向上距離也足夠近時,對這兩個矩形塊做合并操作;其中, Hl,h2表示兩個矩形塊各自的高度。dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離,只有當同時滿足h1〉3/5 x h2, h2〉3/5xhl, ldll |< ( 1/3 x hl ), ldll |< ( 1/3 x h2 ), Idl2l〈16時,才對 相應的矩形塊進行合并。
上述技術方案中,在所述的步驟38 )中,所述閾值maxTextBlockHeight 的值為90,所述闊值minTextBlockWidth的值為60,上述數值的單位為 象素點。
上述技術方案中,在所述的步驟4)中,采用二分法查找具有相似字 幕區域的幀,對所查找到的相似幀的字幕區域增強對比度。
上述技術方案中,所述的采用二分法查找具有相似字幕區域的幀包括 以下步驟
步驟41 )、將視頻的當前幀作為參考幀Ref,然后計算第j (j=Ref+Step ) 幀與參考幀Ref的相似度Sim;所述Sim為Ref幀中各字幕候選塊與第j 幀中對應區域的相似度的最大值,所述S t e p為搜索步長;步驟42)、判斷步驟41)所得到的相似度Sim是否大于閾值Tl,若大 于,則進入視頻的下一幀,然后重新執行步驟41),否則執行下一步;
步驟43)、在第(j-Step)幀和第j幀區間內進行二分查找,尋找與 參考幀不相似的最小幀號N,然后將從Ref幀到第(N-l)幀的所有幀都判 定為與Ref幀相似的圖像。
上述技術方案中,在所述的步驟41)中,所述的Ref幀中各字幕候選 塊與第j幀中對應區域的相似度通過直方圖的交進行計算。
上述技術方案中,所述的對所查找到的相似幀的字幕區域增強對比度 通過將與Ref幀相似的圖像中的字幕區域的象素點取最小值得到。
上述技術方案中,在所述的步驟5)中,所述的采用K均值聚類的方 法實現對字幕的提取包括
首先,設置K個類的初始聚類中心點;
其次,對所有點進行聚類,找到距離它們最近的中心點,將點歸于相 應的類;
接著,根據聚類結果修改聚類中心點,并重新聚類; 然后,迭代上次操作直到聚類中心不再改變;
最后,將聚類中心值最大一類的所有點的灰度值與其他點的灰度值設 為不同的值,以實現字幕與背景間的區分。 上述技術方案中,所述的K取值為3。
上述技術方案中,所述的聚類中心值最大一類的所有點的灰度值設為 255,其他點的灰度值設為0。 本發明的優點在于
1、 本發明的視頻字幕提取方法在字幕區域檢測的過程中,同時對原 圖采用了上采樣和下采樣的方法,使得在提取字幕時不會受到字體大小的 影響。
2、 本發明的視頻字幕提取方法在字幕區域檢測的過程中,不需要進 行模型的訓練,減少了模型訓練不好影響預測結果的可能性;提高了識別 準確率,加快了識別速度。
3、 本發明的視頻字幕提取方法在字幕區域增強的過程中,利用二分 法檢測與當前幀具有相同字幕的的視頻幀,具有較高的檢測效率;且在檢 測具有相同字幕的視頻幀時,通過對圖像直方圖求交的方法實現檢測,具 有較高的魯棒性,克服了現有方法采用閾值設定方式時魯棒性較低的缺
14陷。
4、 本發明的視頻字幕提取方法在視頻字幕提取的過程中,采用了 K 均值聚類的方法,避免了現有基于閣值或基于筆畫方法所帶來的缺陷。
5、 本發明的視頻字幕提取方法本身沒有用到基于語言特征、字體大
小、節目類型的知識,因此不會受到語言類型、字體大小、節目類型等因 素的影響,具有廣泛的通用性。
以下,結合附圖來詳細說明本發明的實施例,其中
圖1為本發明視頻字冪提取方法在一個實施方式中的流程圖;,
圖2 (a)為本發明的視頻字幕提取方法在一個實施方式中所采用的水
平Sobel算子的示意圖;
圖2(b)為本發明的視頻字幕提取方法在一個實施方式中所采用的垂
直Sobel算子的示意圖3為本發明的視頻字幕提取方法在一個實施方式中進行字幕區域粗
才企測時的合并規則;
圖4為本發明的視頻字幕提取方法在一個實施方式中進行字幕區域分
割時的合并規則。
具體實施例方式
下面結合附圖和具體實施方式
對本發明的方法做進一 步的說明。 如圖l所示,本發明的視頻字幕提取方法包括以下步驟 步驟IO、對需要提取字幕的視頻圖像進行預處理。在本實施方式中, 對視頻圖像的預處理主要是對視頻圖像提取亮度分量,然后對亮度分量做 灰度化操作。假設在本實施方式中的視頻圖像采用RGB方式進行編碼, 則對亮度分量Y做灰度化操作時,遵循以下公式
y二0.299i + 0.587G + 0.1145 本領域的普通技術人員應當了解,在YUV或YCrCb空間中,亮度分 量由Y表示,因此可根據上述公式提取亮度分量,然后進行灰度化操作。 而在HIS或HSV空間中,無需提取亮度分量I或V,可直接對亮度分量I 或V進行灰度化操作。
步驟20、對預處理后的視頻圖像進行多尺度的字幕區域粗4全測,從而得到代表字幕區域大小與位置的矩形塊。在本實施方式中,初始化操作是 要對視頻圖像做灰度化操作,因此,多尺度的字幕區域檢測的對象是與視 頻圖像相對應的灰度圖。
步驟30、在視頻圖像中對粗檢測到的字幕區域進行分割操作,在分割
操作過程中對步驟20所得到的矩形塊做進一步的處理。
步驟40、對分割得到的字幕區域增強對比度。考慮到視頻中的字幕都 是編輯者人為添加的,而且為了滿足觀眾的需求,字幕都有一定的持續時 間,通常至少在2秒以上,利用視頻文字在時間上的這一冗余特性對文字 進行跟蹤并增強字幕區域的對比度,對于視頻字幕的提取有很大的作用。 在本實施方式寧,采用二分法進行跟蹤,對于具有相同內,容的字幕區域還 要通過最小值方法進行融合。
步驟50、采用K均值聚類的方法實現對字幕進行提取。在提取過程 中,對增強對比度后的每個字幕區域對應灰度圖中相應部分的象素的灰度 值進行K均值聚類,然后根據K均值聚類的結果區分文字與背景部分。
步驟60、將上一步驟中所提取的字幕通過現有的技術實現字幕識別。
下面對上述步驟的具體實現過程進行詳細的說明。
在步驟20中,多尺度的字幕區域檢測具體包括以下步驟
步驟21、采用圖像金字塔的方法對預處理后的視頻圖像進行尺度大小 的變換操作,得到多個不同尺度大小的圖像。變換操作的目的是要克服由 于視頻圖像中所包含的字體大小不一致所造成的對不同大小的字幕在檢 測準確率上的偏差。在現有技術中, 一般采用圖像下采樣的方式實現圖像 的多尺度變換,因此只能得到尺度大小較原圖更小的變換后圖像。但在實 際應用中,若原圖中的字體可能太小,則只采用圖像下采樣的方式進行圖 像變換不利于對字體的檢測,因此本步驟在進行圖像尺度大小的變換時同 時采用了圖像上采樣和圖像下采樣的方法,從而得到與原圖相比尺度更大 與更小的多個變換后圖像。
在本實施方式中,假設初始化后的視頻圖像是一幅尺寸為WxH的圖 像,采用Sha皿on插值方法將其分別變換為尺寸為2W x 2H的圖像和0. 5W x 0. 5H的圖像。本實施方式中所釆用的Shannon插值方法是成熟的現有技術, 可參見參考文南史l: "Text Enhancement in Digital Video, HuipingLi, Omid Kia, David Doermann, Proc. of SPIE Document Recognition and Retrieval VI, 1999"。本領域的普通技術人員應當了解,在變換過程中也可以采用其他類型的插值方法。
步驟22、選取水平和垂直Sobel算子,對步驟21所得到的不同尺度圖 像中的象素點求取邊緣強度。
在本實施方式中,所采用的水平和垂直Sobel算子大小為3x3,在圖 2中對這兩個算子做了具體的說明,上述兩個算子都可以增強邊緣部分, 濾去非邊緣部分,其中的水平Sobel算子可以保留橫向內容,而垂直Sobel 算子可以保留豎向內容。利用水平Sobel算子可得到水平邊緣強度h (x, y), 利用垂直Sobel算子可以得到垂直邊緣強度v(x,y),通過下列公式計算點 的邊緣強度e(x,y):
步驟23、在各個圖像中,對步驟22中所得到的象素點的邊緣強度做 二值化處理,得到相應的邊緣圖。在本實施方式中,從前面的描述可以知 道, 一幅視頻圖像在尺度變換后可以得到三幅圖像,對這三幅圖像中的象 素點的邊緣強度都要做二值化處理,從而得到三幅對應的邊緣圖。上述的 二值化處理通過設定閾值的方法實現。二值化處理方法的具體實現如下 首先計算邊緣強度圖的灰度直方圖,該圖包含256bin,選取最大的bin對 應的灰度值的三分之一作為閣值;對于邊緣強度圖中灰度值大于閾值的象 素點,其灰度值設為'T,;否則,灰度值設為"0",從而實現圖像的二值 化,獲得邊緣圖。
步驟24、對各個尺度的圖像進行字幕區域粗檢測,得到各個圖像中字 幕所在的大致區域。本步驟的具體操作如下
步驟24-l、為各個尺度圖像的邊緣圖建立DCT圖。它包括以下操作
24-1-1、在一個邊緣圖中,用大小為4x4的滑動窗口對邊緣圖的橫 向和縱向分別以步長為4進行掃描,統計窗口內上、下、左、右四個2x2 子窗口內的邊緣象素個數~, nb, iv nd。
24-1-2、計算表現每個窗口邊緣象素分布散度的值n,它的計算公式 如下
24-1-3、建立DCT圖,所建立的DCT圖的寬和高均為原圖寬和高的1/4, 該圖每個象素對應上述一個4 x 4大小的窗口 , DCT圖中的象素值d的判斷 方式如下<formula>formula see original document page 18</formula>
24-1-4、對所得到的DCT圖進行腐蝕處理,在腐蝕處理過程中按下面 的規則去掉孤立點在水平方向上,對于值為"1"的某象素點,若其左 右連續兩個點象素值都為"0"或者三面相臨象素點值都為"Q",則該點 作為孤立點,并將其象素值改為"0"。
步驟24-2、對所得到的DCT圖做連通區域分析,為DCT圖中的每個連 通區域得到一個外接的矩形。在本步驟中,在連通區域分析時采用了現有 技術,在本實施方式中,可以采用序貫法,關于序貫法的相關技術細節可 參見參考文獻2 "計算機視覺,賈云得,北京科學出版社,2000。,,
步驟24-3、對圖像中的字幕區域進行粗檢測,在粗檢測過程中,應當 盡可能的選取包含字幕的區域。粗檢測操作的具體實現如下
步驟24-3-1 、將DCT圖中的連通區域的外接矩形對應到邊緣圖中的位 置,在邊緣圖中得到相應的矩形。設外接矩形左上,右上,左下,右下四 個頂點的坐標為(xl, yl ), (xl,y2), (x2, yl) , (x2, y2),則在原圖中的 對應的矩形四個頂點的坐標分別為(xl x 4, yl x 4 ), (xlx4,y2x4), (x2 x4,ylx4), (x2x4,y2x4)。本步驟中,之所以要將坐標值乘以4,是因 為在生成DCT的過程中,邊緣圖中每4個象素對應生成DCT圖中的一個象 素。
步驟24-3_2、對邊緣圖中滿足條件的矩形塊進行合并。在圖3中,對 矩形塊的合并條件進行了說明。對于如圖3 (a)、圖3 (b)那樣兩個矩形 塊相交的情況,只要相交部分(圖中的陰影部分)的面積大于0 ,則可將 兩個相交的矩形塊進行合并。對于如圖3(c)那樣兩個矩形塊在垂直方 向上投影的結果有交集,并且它們在水平方向上距離足夠近(如dl<8)的 情況,用dl表示兩個塊的水平方向上的距離,d2表示兩個塊上面的邊在 垂直方向上的距離,d3表示兩個塊下面的邊在垂直方向上的距離,當 0<dl<8, 0<d2<4, (Kd3〈4時,兩個矩形塊可以合并,其中的數值表示象素 點的個數。對于如圖3(d)那樣兩個塊在水平方向上投影的結果有交集, 并且它們在垂直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向 上的距離,用d5表示下面的塊的右邊和上面的塊的左邊在水平方向上的 距離,用d6表示下面的塊的左邊和上面的塊的右邊在水平方向上的距離。 當d4<4, d5>0, d6>0時,兩個矩形塊可以合并。對于如圖3(e)那樣一個塊的右下角和另一個塊的左上角頂點在水平方向上和垂直方向上距離 都足夠近的情況,用d7表示下面的塊的上邊和上面的塊的下邊在垂直方
向上的距離,用d8表示下面的塊的左邊和上面的塊的右邊在水平方向上 的距離。當0<d7<4, 0<d8<8時,兩個矩形塊可以合并。對于如圖3(f) 那樣一個塊的右上角和另一個塊的左下角頂點在水平方向上和垂直方向 上距離都足夠近的情況,用d9表示下面的塊的上邊和上面的塊的下邊在 垂直方向上的距離,d10表示下面的塊的右邊和上面的塊的左邊在水平方 向上的距離。當0<d9<4, (Kdl(K8時,兩個矩形塊可以合并。
步驟24-3-3、對邊緣圖中的所有矩形塊進行尺寸大小的^^測,去掉尺 寸過小的塊。在本實癡方式中,對于寬度小于12個象素的塊并,且高度小 于8個象素的塊進行刪除。
步驟24-3-4、對圖像中的文字區域進行合并操作。在合并操作前,首 先要將不同尺度圖像的邊緣圖中的檢測結果都變換到原始尺度的圖像的 邊緣圖中,然后再將所有的檢測結果進行合并。在本實施方式中,將尺度 大小為2W x 2H的圖像和0. 5W x 0. 5H的圖像都變換到W x H的尺度,此時, 這些圖像中的矩形塊的尺寸大小也做相應的變換。在合并操作時,結合步驟 24-3-2中涉及的合并條件,采用"或"操作實現矩形塊的合并。
在步驟30中,對粗檢測到的字幕區域進行分割的具體實現過程如下
步驟31、為一個圖像中所有字幕區域所對應的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;
步驟32、從隊列Ll中取出一個矩形塊,判斷在水平方向是否可以分 割,若水平方向不能分割則將該矩形塊加入隊列L2后執行下一步,否則 進行水平方向的分割。水平方向分割的實現方法為
步驟32-1、對矩形塊做水平投影,用HP ( Horizontal Projection, 水平投影)表示各行象素投影所包含的值為"1"的象素點數;
步驟32-2、找出一個圖像中HP的最大值hp,;
步驟32-3、將HP從大到小排序,計算前1/3個H的算術平均值AVE1;
步驟32-4、從最大值hp^在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;
步驟32-5、在yl和y2處做分割操作,中間的部分標為水平方向不能 再分割,加入隊列L2;
步驟32-6、對除去中間部分后所得到的剩余兩部分,判斷它們的高度
19是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執行下 一步,若不大于上述閾值,則直接執行下一步。在本步驟中,所述的閾值 minTextBlockHeight是一個根據實驗得到的經-險值,常見的耳又值范圍為 7-9。
步驟33、判斷隊列Ll是否為空,若不為空,則對隊列Ll中的矩形塊 重復執行上述的步驟32,否則執行下一步;
步驟34、從隊列L2中取出一個矩形塊,判斷在垂直方向是否可以分 割,若垂直方向不能分割,則將該矩形塊加入隊列Ll后執行下一步,否 則進行垂直方向的分割。垂直方向分割的實現方法為
步驟.34-1、對矩形塊做垂直投影,用V表示各列,象素投影所包含的值 為"1"的象素點數;
步驟34-2、計算V的算術平均AVE2;
步驟34-3、對垂直投影從左開始,查找一個點,該點應滿足它本身和 其后一點的V值都大于三分之一的AVE2且后兩點V值大于二分之一的 AVE2,查找到該點后,該點:故設為開始點xl;
步驟34-4、從xl向右尋找第一個V值小于三分之一的AVE2且其后4 個連續點的V值均小于三分之一的AVE2的點,該點被設為結束點x2;
步驟34-5、從xl和x2處做分割,中間的部分被判定為垂直方向不能 再分割,將中間部分加入隊列Ll;
步驟34-6、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執行下一步,否則直接執行下一步;
步驟35、判斷隊列L2是否為空,若為空,則重復步驟34,否則執行
下一步;
步驟36、判斷在隊列Ll中是否還包含水平方向或者垂直方向可分割 的矩形塊,若存在,則進入步驟32,否則執行下一步;
步驟37、對經過分割操作后的矩形塊進行合并操作,圖4對合并時應 滿足的條件進行了說明。當兩個塊高度相似,它們的上面的邊在垂直方向 上距離相近,而且它們在水平方向上距離也足夠近時,這兩個塊^[艮可能是 同一行字被分割成兩段的情況,此時對這兩個矩形塊可做合并操作。其中, Hl,h2表示兩個矩形塊各自的高度。dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離。只有當同時滿足h1〉3/5 x h2, h2〉3/5xhl, ldll |< ( 1/3 x hl ), |dll|< ( 1/3 x h2 ), Idl2l〈16時,才對相應的矩形塊進行合并。
步驟38、對當前矩形塊的大小進行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾^f直maxTextBlockHeight的頭巨形》夾。在 本實施方式中,閾值minTextBlockHeight = 8, maxTextBlockHeight = 90, minTextBlockWidth = 60,上述數值的單位為象素點。
在步驟4Q中,對分割得到的字幕區域增強對比度的具體實現如下
步驟41、將視頻的當前幀作為參考幀Ref,然后計算第j (j=Ref+Step) 幀與參考幀Ref的相似度Sim。
其中,Sim為Ref幀中各字幕候選塊(即前一步驟所得到的矩形塊) 與第j幀中對應區域的相似度的最大值。,各字幕候選塊與第j幀中對應區 域的相似度可通過直方圖的交進行計算,具體實現方法可參見參考文獻3: "網上多媒體信息分析與檢索,莊越挺,潘云鶴,吳飛,北京清華大學 出版社,2002"。在本步驟中所涉及的Step為搜索步長,本實施方式中選 擇Step為20。
步驟42、判斷步驟41所得到的相似度Sim是否大于閾值Tl,若大于, 則進入視頻的下一幀,然后重新執行步驟41,否則執行下一步;本步驟中 的Tl通過試一瞼得到,其取值在0. 7至0. 9之間。
步驟43、在第(j-Step)幀和第j幀區間內進行二分查找,尋找與參 考幀不相似的最小幀號N,然后將從Ref幀到第(N-l )幀的所有幀都判定 為與Ref幀相似的圖像。在本步驟中,所述的與參考幀不相似的情況是指 相似度Sim小于或等于閾值Tl的情況。在本步驟中所采用的二分查找方 法屬于現有技術,在本領域中具有廣泛的應用,其具體的實現細節可參見 參考文獻4: "C算法(第一巻基礎、數據結構、排序和搜索),Robert Sedgewick,人民郵電出版j土, 2004。"
步驟44、將與Ref幀相似的圖像中的字幕區域的象素點取最小值,以 增強字幕與背景間的對比度。
由于在一定時間內,視頻圖像中的字幕是靜止的,而大部分背景物體 是運動的,所以對于各幀相同位置的象素點,若它屬于背景,則變化較大, 若屬于字幕,則變化較小。通常字幕象素點的亮度高于背景物體,所以將 Ref幀到第(N-l )幀相同位置的象素點取最小值來增強字幕與背景的對比 度。在本步驟中,之所以要對象素點取最小值,是因為在實際應用中,視 頻字幕通常為高亮度的。在步驟50中,K均值聚類的目的是有利于字幕與背景的分割。在做 K值聚類時,首先人為設置k個類的初始聚類中心點,對所有點進行聚類, 即找到距離它們最近的中心點,然后歸入該類,再根據聚類結果修改聚類 中心點,重新聚類,如此迭代直到聚類中心不再改變(或者滿足其他設定 的條件)。本實施方式中,K取值為3, K值聚類的具體實現方法可以參見 參考文獻5:"模式分類,Richard 0. Duda, Perter E. Hart等,北京機 械工業出版社,2005。"在本實施方式中,認為聚類中心灰度值最大的那 一類做為文字,而其余類的點都是背景點。因此,在提取字幕時,將聚類 中心值最大一類的所有點的灰度值設為255,其他點的灰度值設為0,這 樣做即可實現字幕與背景的區分。
在步驟60中,對字幕一識別可采用本領域的現有技術,在本實施'方 式中,可采用漢王^^司開發的OCR軟件"HWSDK1.2"進行字幕識別。
最后所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制。 盡管參照實施例對本發明進行了詳細說明,本領域的普通技術人員應當理 解,對本發明的技術方案進行修改或者等同替換,都不脫離本發明技術方案 的精神和范圍,其均應涵蓋在本發明的權利要求范圍當中。
權利要求
1、一種視頻字幕信息提取方法,包括以下步驟步驟1)、對需要提取字幕的視頻圖像進行預處理;步驟2)、對預處理后的視頻圖像進行多尺度的字幕區域檢測,得到代表字幕區域大小與位置的矩形塊;步驟3)、利用所述的矩形塊,對檢測到的字幕區域進行分割;步驟4)、對分割得到的字幕區域增強對比度;步驟5)、采用K均值聚類的方法實現對字幕的提取。
2、 根據權利要求1所述的視頻字幕信息提取方法,其特征在于,所 述的步驟2)包括以下步驟步驟21)、對預處理后的視頻圖像進行尺度大小的變換操作,得到多 個不同尺度大小的圖像;步驟22)、對步驟21)所得到的多個不同尺度大小的圖像中的所有象 素點求取邊緣強度;步驟23)、在各個圖像中,對步驟22)所得到的象素點的邊緣強度做 二值化處理,得到相應的邊緣圖;步驟24)、對各個尺度的圖像進行字幕區域粗檢測,得到各個圖像中 字幕所在的大致區域。
3、 根據權利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟21)中,對預處理后的視頻圖像進行尺度大小的變換操作時, 同時采用了圖像上采樣和圖像下采樣的方法,得到與原圖相比尺度更大與 更小的多個變換后圖像。
4、 根據權利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟22 )中,所述的求取邊緣強度的過程中采用了水平和垂直Sobe 1 算子。
5、 根據權利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟24 )中,對各個尺度的圖像進行字幕區域粗檢測包括以下步驟步驟241)、為各個尺度圖像的邊緣圖建立DCT圖 步驟242 )、對所得到的DCT圖做連通區域分析,為DCT圖中的每個連 通區域得到 一 個外接的矩形步驟243 )、根據步驟242 )中所得到的外接矩形,實現對圖像中的字幕區域的粗;險測。
6、 根據權利要求5所述的視頻字幕信息提取方法,其特征在于,在所述的步驟241 )中,為各個尺度圖像的邊緣圖建立DCT圖包括以下步驟 步驟24U)、在一個邊緣圖中,用一個滑動窗口對所述邊緣圖的橫向和縱向分別進行掃描,統計所述滑動窗口中上、下、左、右四個子窗口內的邊緣象素個數 ,nb, n。, nd;步驟2412)、計算表示每個窗口邊緣象素分布散度的值n,其中 n = na xnb xnc x nd ;步驟2413)、建立DCT圖,所述DCT圖中每個象素對應一個所述的滑 動窗口,當所述n值大于O時,所述DCT,圖中的象素值為1,當所述n值 為0時,所述DCT圖中的象素值為0。
7、 根據權利要求6所述的視頻字幕信息提取方法,其特征在于,還可以對所建立的DCT圖進行腐蝕處理,去掉5^立點;在腐蝕處理過程中,在DCT圖的水平方向上,對于值為"1"的某象素點,若其左右連續兩個點象素值都為"0"或者三面相臨象素點值都為"0",則該點作為孤立點, 并將其象素值改為"0"。
8、 根據權利要求6或7所述的視頻字幕信息提取方法,其特征在于, 所述的滑動窗口的大小為4x4。
9、 根據權利要求5所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟243 )中,對圖像中的字幕區域的粗檢測包括以下步驟步驟2431 )、將所述DCT圖中的連通區域的外接矩形對應到所述邊緣圖中的位置,在所述邊緣圖中得到相應的矩形;步驟2432 )、對所述邊緣圖中滿足條件的矩形塊進行合并; 步驟2433 )、對所述邊緣圖中的所有矩形塊進行尺寸大小的檢測,去掉尺寸過小的塊;步驟2434 )、將不同尺度圖像中的檢測結果都變換到原始尺度的圖像 中,然后再將所有的檢測結果進行合并。
10、 根據權利要求9所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟2432)中,所述的合并條件包括a、 對兩個矩形塊相交的情況,只要相交部分的面積大于0 ,則將兩 個相交的矩形塊進行合并;b、 對兩個矩形塊在垂直方向上投影的結果有交集,并且它們在水平方向上距離足夠近的情況,用dl表示兩個塊的水平方向上的距離,d2表示兩個塊上面的邊在垂直方向上的距離,d3表示兩個塊下面的邊在垂直方 向上的距離,當0<dl<8, 0<d2<4, 0<d3<4時,兩個矩形塊可以合并,其 中的數值表示象素點的個數;c、 對于兩個矩形塊在水平方向上投影的結果有交集,并且它們在垂 直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向上的距離,用 d5表示下方矩形塊的右邊和上方矩形塊的左邊在水平方向上的距離,用 d6表示下方矩形塊的左邊和上方矩形塊的右邊在水平方向上的距離,當 d4<4, d5〉0, d6〉0時,兩個矩形塊可以合并;d、 對一個矩形塊的右下角和另一個矩形塊的左上角頂點在水平方向 上和垂直方向上距離都足夠近的情況,用d7表示下方矩形塊的上邊和上 方矩形塊的下邊在垂直方向上的距離,用d8表示下方矩形塊的左邊和上 方矩形塊的右邊在水平方向上的距離,當0<d7<4, 0<d8<8時,兩個矩形 塊可以合并;e、 一個矩形塊的右上角和另一個矩形塊的左下角頂點在水平方向上 和垂直方向上距離都足夠近的情況,用d9表示下方矩形塊的上邊和上方 矩形塊的下邊在垂直方向上的距離,d10表示下方矩形塊的右邊和上方矩 形塊的左邊在水平方向上的距離,當0<d9<4, 0<dl0<8時,兩個矩形塊可 以合并。
11、根據權利要求1所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟3)中,所述的對檢測到的字幕區域進行分割包括以下步驟步驟31)、為一個圖像中所有字幕區域所對應的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;步驟32)、從所述隊列Ll中取出一個矩形塊,判斷在水平方向是否可 以分割,若水平方向不能分割則將該矩形塊加入所述隊列L2后執行下一 步,否則進行水平方向的分割;步驟33)、判斷所述隊列Ll是否為空,若不為空,則對所述隊列Ll 中的矩形塊重復執行上述的步驟32,否則執行下一步;步驟34)、從所述隊列L2中取出一個矩形塊,判斷在垂直方向是否可 以分割,若垂直方向不能分割,則將該矩形塊加入所述隊列Ll后執行下 一步,否則進行垂直方向的分割;步驟35)、判斷所述隊列L2是否為空,若為空,則重復步驟34),否則執行下一步;步驟36 )、判斷在所述隊列Ll中是否還包含水平方向或者垂直方向可 分割的矩形塊,若存在,則進入步驟32),否則執行下一步;步驟37)、對經過分割操作后的矩形塊根據合并條件進行合并操作; 步驟38)、對當前矩形塊的大小進行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾值maxTextBlockHeight的矩形塊。
12、 根據權利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟32)中,所述的水平方向的分割包括步驟321)、對矩形塊做水平投影,用HP表示各行象素投影所包含的 值為"1"的象素,點數;步驟3")、找出一個矩形塊中HP的最大值hp隱;步驟32 3 )、將HP從大到小排序,計算前1/3個H的算術平均值AVE1;步驟324 )、從最大值hPmax在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;步驟325 )、在yl和y2處做分割操作,中間的部分標為水平方向不能 再分割,加入所述隊列L2;步驟326 )、對除去中間部分后所得到的剩余兩部分,判斷它們的高度 是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執行步 驟33),若不大于上述閾值,則直接執行步驟33)。
13、 根據權利要求12所述的視頻字幕信息提取方法,其特征在于, 所述的閾值minTextBlockHeight的大小為8,單位為象素點。
14、 根據權利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟34)中,所述的垂直方向的分割包括步驟341)、對所述的矩形塊做垂直投影,用V表示各列象素投影所包 含的值為"1"的象素點數;步驟342 )、計算所述V的算術平均AVE2;步驟343 )、對垂直投影從左開始,查找一個點,該點應滿足它本身和 其后一點的V值都大于三分之一的AVE2且后兩點V值大于二分之一的 AVE2,查找到該點后,該點被設為開始點xl;步驟344 )、從xl向右尋找第一個V值小于三分之一的AVE2且其后4 個連續點的V值均小于三分之一的AVE2的點,該點一皮i殳為結束點x2;步驟345 )、 ^v所述的xl和x2處啦支分割,中間的部分^1判定為垂直方向不能再分割,將中間部分加入隊列LI;步驟346 )、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執行步驟35 ),否則直接執行步驟35 )。
15、 根據權利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟37)中,所述的合并條件為當兩個塊高度相似,它們的上面的邊在垂直方向上距離相近,而且它 們在水平方向上距離也足夠近時,對這兩個矩形塊做合并操作;其中, Hl,h2表示兩個矩形塊各自的高度,dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離,只有當同時滿足h1〉3/5 x h2, h2〉3/,5xhl, ldll |< ( 1/3 x hl ), |dll|< ( 1/3 x.h2 ), Idl2l〈16時,才對 相應的矩形塊進行合并。
16、 根據權利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟38)中,所述閾值maxTextBlockHeight的值為90,所述閾 值minTextBlockWidth的值為60,上述數值的單位為象素點。
17、 根據權利要求1所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟4)中,采用二分法查找具有相似字幕區域的幀,對所查找到 的相似幀的字幕區域增強對比度。
18、 根據權利要求17所述的視頻字幕信息提取方法,其特征在于, 所述的釆用二分法查找具有相似字幕區域的幀包括以下步驟步驟41 )、將視頻的當前幀作為參考幀Ref,然后計算第j (j=Ref+Step ) 幀與參考幀Ref的相似度Sim;所述Sim為Ref幀中各字幕候選塊與第j 幀中對應區域的相似度的最大值,所述Step為搜索步長;步驟42)、判斷步驟41 )所得到的相似度Sim是否大于閾值Tl,若大 于,則進入視頻的下一幀,然后重新執行步驟41),否則執行下一步;步驟43)、在第(j-Step)幀和第j幀區間內進行二分查找,尋找與 參考幀不相似的最小幀號N,然后將從Ref幀到第(N-l)幀的所有幀都判 定為與Ref幀相似的圖像。
19、 根據權利要求18所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟41)中,所述的Ref幀中各字幕候選塊與第j幀中對應區域 的相似度通過直方圖的交進行計算。
20、 根據權利要求17所述的視頻字幕信息提取方法,其特征在于, 所述的對所查找到的相似幀的字幕區域增強對比度通過將與Ref幀相似的圖像中的字幕區域的象素點取最小值得到。
21、 根據權利要求1所述的視頻字幕信息提取方法,其特征在于,在所述的步驟5)中,所述的采用K均值聚類的方法實現對字幕的提取包括 首先,設置K個類的初始聚類中心點;其次,對所有點進行聚類,找到距離它們最近的中心點,將點歸于相 應的類;接著,根據聚類結果修改聚類中心點,并重新聚類; 然后,迭代上次操作直到聚類中心不再改變;最后,將聚類中心值最大一類的所有點的灰度值與其他點的灰度值設 為不同的值,以實現字幕與背景間的區分。
22、 根據權利要求21所述的視頻字幕信息提取方法,其特征在于, 所述的K取值為3。
23、 根據權利要求21所述的視頻字幕信息提取方法,其特征在于, 所述的聚類中心值最大一類的所有點的灰度值設為255,其他點的灰度值 設為0。
全文摘要
本發明提供一種視頻字幕信息提取方法,包括對需要提取字幕的視頻圖像進行預處理;對預處理后的視頻圖像進行多尺度的字幕區域檢測,得到代表字幕區域大小與位置的矩形塊;利用所述的矩形塊,對檢測到的字幕區域進行分割;對分割得到的字幕區域增強對比度;采用K均值聚類的方法實現對字幕的提取。本發明對字幕的不同語言類型、字體、尺寸以及視頻節目類型都具有通用性;具有字幕區域檢測和文字識別準確率高,速度快的優點;在字幕區域檢測時不需要進行模型的訓練,減少了模型訓練不好影響預測結果的可能性。
文檔編號H04N5/278GK101453575SQ20071017883
公開日2009年6月10日 申請日期2007年12月5日 優先權日2007年12月5日
發明者劉安安, 勝 唐, 硯 宋, 琳 龐, 張勇東, 李錦濤 申請人:中國科學院計算技術研究所