專利名稱:以字幕文字為基礎的影像索引方法
技術領域:
本發明是利用字幕文字在規定的程序內快速、簡便的檢索出使用者所申請的影像,是涉及以字幕文字為基礎的影像索引方法。
背景技術:
在當前媒體信息化的時代,如STB(Settop box)或者PVR(PersonalVideo Recorder)一樣的數字影像處理機不僅可以提供影像,還可以把錄制特定程序的影像顯示出來。使用者可以通過于此觀看所錄制的程序影像,而此時使用者往往就會有希望只截取一部分來觀看的時候。例如,教育程序或者自然文檔文件一樣的教育程序中的全部影像當中,使用者有時會希望只截取必要的一部分來觀看。此時,就需要對使用者希望看到的部分快速的檢索出來進行放映。
同時,如上所述的程序影像當中,含蓄標示目前顯示當中的影像文字偶爾包含在其字幕內的時候,當利用這些字幕時,就可以在規定的程序內簡單快速的檢索出使用者所希望的影像,即可滿足上述的必要性。
發明內容
本發明為了滿足上述必要性而開發的,其目的就在于能夠提供簡單快速的檢索出使用者所指定的影像的、以字幕文字為基礎的影像索引方法。
為此,本發明在提前設定的多個字幕預測閉塞當中檢測字幕,分離包含在其字幕內的字幕文字,在其字幕文字賦予規定的索引編號與上述字幕文字相關的一系列的影像框架群中的最初的影像框架一對一進行匹配,從而索引字幕文字和影像,使得通過規定的字幕文字,更快更簡便的檢索出使用者所指定的影像。
如上詳細所述,根據本發明的字幕文字為基礎的影像索引方法,是在數字影像信號當中檢測字幕文字,與影像框架進行索引,從而在特定程序內通過一定的字幕文字可以輕易的檢索或者訪問(access)使用者所希望的影像。
圖1為根據本發明的顯示索引方法的流程圖;圖2為顯示圖1的字幕檢測方法實例的流程圖;圖3為顯示圖1的字幕文字處理方法實例的流程圖;圖4為顯示圖1的字幕文字認識方式的實例流程圖;圖5a到圖5f為以字幕預測閉塞為例的圖片;圖6為以字幕文字分離為例說明的圖片;圖7為以字幕文字的草圖為例說明的圖片;圖8為以字素分離為例說明的圖片;圖9a到9h為顯示使用在文字認識的屏蔽為例的圖片;圖10為以字幕文字和影像索引為例說明的圖片。
具體實施例方式
以下通過附圖詳細說明本發明。
首先,參考圖1說明根據本發明的字幕文字為基礎的影像索引方法,而圖1是顯示本發明的索引方法流程圖。
根據本發明的索引方法,首先在如PVR的影像標示畫面領域等特定數字影像處理機中,提前大量設定好以字幕所在領域預測的閉塞(以下簡稱“字幕預測閉塞”)。
當在影像顯示畫面的所有領域檢測出字幕時,其字幕檢測時間隨即也會增加。因此在本發明當中通過實驗以及經驗,利用字幕在特定領域內會限制顯示的這一事實,提前設定好字幕預測閉塞,在其設定的多個字幕預測閉塞當中檢測字幕。
上述字幕預測閉塞在影像顯示畫面的整個范圍中占有1/3-1/4左右,但是根據相關數字影像處理機的計算處理速度等因素,亦可設定為1/2左右的范圍。
同時,根據本發明,字幕預測閉塞提前設定好的狀態下,以相關數字影像處理機接收、解壓規定的數字影像索引時,在其解壓的數字影像索引當中會判斷與上述提前設定好的多個字幕預測閉塞相對應的位置上是否存在字幕,繼而檢測字幕S100。
此時,上述字幕判斷狀態根據本發明會包括如下特點。
即,在字幕預測閉塞內的規定領域內存在灰度級急劇變化的部分時,即存在持有比規定的預設的灰度(gray)級的變化量大時,就判斷為字幕預測閉塞內存在字幕;反之,即字幕預測閉塞內的灰度級變化量為預設的灰度(gray)級變化量以下時,就會判斷為字幕預測閉塞內無字幕。
同時如上所述,在規定的字幕預測閉塞內判斷為存在字幕領域時,根據階段性在相關字幕預測閉塞內,通過文字分離器檢測字幕(S100),分離在其包含在檢測出的字幕內的字幕文字(S200),執行對階段S200分離的字幕文字持有何種字型的文字確認工作(S300)。
其次,根據階段S300結束對字型的文字確認,當沒有形成字幕文字時,就會在設定框架內連續執行字幕文字的重復有無工作。當其沒有形成字幕文字的重復時,會在文字確認結束的字幕文字當中賦予索引(indexing)編號,匹配在其相關的連續性的影像框架群中的與起始框架相當的影像框架當中后,把其匹配關系存儲在相關數字影像處理機內的數據庫內,結束其字幕文字和影像框架的索引(indexing)(S400)。
如上,在本發明當中,提前設定好多個字幕預測閉塞,在其多個字幕預測閉塞內存在字幕時,在字幕直接分離字幕文字,同時在其字幕文字添加索引編號,把索引編號與字幕文字相關的一系列影像框架群中最初的影像框架進行一對一的匹配后存儲其匹配關系。使用者可以通過這樣存儲的規定的字幕文字,可以更加簡單的檢索自己所指定的影像。
接下來,參考圖2說明在圖1所示階段S100的字幕檢索方法。上述圖2就是顯示圖1所示階段S100的字幕檢索方法流程圖。
首先,階段S100字幕文字分離方法在其前述的本發明的字幕預測閉塞提前多數設定的狀態下,以相關數字影像處理機接收規定的數字影像進行索引(S101)及解壓(S102),在其階段S102解壓的數字影像索引當中檢索出上述提前設定的多個字幕預測閉塞相對應的規定范圍(S103)。
然后,在其階段S103檢索出的字幕預測閉塞領域內,檢索灰度(gray)級的變化量(S104),當在其范圍內存在灰度(gray)級急劇變化的部分時(S105),即比規定預設的灰度(gray)級的變化量大時,判定為在其字幕預測閉塞內存在字幕(S106);反之,即字幕預測閉塞內的灰度級變化量為預設的灰度(gray)級變化量以下時,判定為在其字幕預測閉塞內沒有字幕。
同時,根據階段S106判斷在規定的字幕預測閉塞內存在字幕領域時,會檢測S105字幕領域內的字幕,其一系列的動作直到針對上述字幕預測閉塞的灰度級變化量檢查(check)結束為止(S108),將反復執行。
接下來,參考圖3說明圖1所示階段S200的字幕文字分離方法。上述圖2是顯示圖1所示階段S100的字幕文字分離方法流程圖。
首先,根據本發明的階段性S200的字幕文字分離方法,是根據階段S100在其規定的字幕預測閉塞內判斷為存在字幕而進行檢索時,首先根據預設的線上檢索規則系統,在其上述檢索S201的字幕內檢索出規定的文字分離垂直線。
例如,在字幕中以最左側的垂直線定義為標準線,從設定的標準線向水平方向以設定像素間隔的規定垂直線設定為文字分離垂直線,并對其進行檢索。
同時,根據階段S201,檢索到文字分離垂直線時,在其文字分離垂直線上檢索向左側以設定像素間隔距離的左側垂直線(S202),當上述兩個垂直線之間為空白時(S203),即兩者之間的灰度級比標示文字的規定灰度級小時,同時在其左側垂直線上存在設定灰度級以上的像素時(S207),會判斷為有文字,并對位于上述文字垂直線左側的字幕文字進行分離(S208)。
繼而結束階段S208,向其文字分離垂直線右側以設定的像素間隔距離檢索出右側垂直線(S209)后,當兩個垂直線之間為空白(S210),右側垂直線存在設定灰度級以上的像素時,進行為N階段S201,檢索第二個文字分離垂直線即檢索如第一個文字分離垂直線上設定的像素相當間隔的第二個文字分離垂直線,而又重新檢索其第二個文字分離垂直線左側的文字。這樣的文字檢索動作在階段S211從規定的文字分離垂直線向右側如在其設定像素相當間隔的右側垂直線上設定灰度級以上的像素直到消失為止,反復執行從而從字幕當中分離文字。
同時,與這樣的文字分離動作不同,在階段S204兩個垂直線即文字分離垂直線和其左側的垂直線之間不存在空白時,即意味兩者之間文字顯示的設定灰度級以上的像素存在時,會判斷為產生錯誤,并根據其錯誤所屬的預設的錯誤判別標準檢索出后(S204),按照其相關錯誤種類重新檢索文字分離垂直線(S205),以其重新檢索的文字分離垂直線為標準分離位于左側的規定文字進行下一階段(S209)。上述的動作是其字幕文字不是正方形文字而是英文或者數字時才發生的情況,而本發明把這些情況全部分類為錯誤,在每個情況以可變性檢索文字分離垂直線并執行文字分離。而前述的字幕文字分離莫過于一個實例,皆有可能對其進行豐富的改變。
以下,參考圖4以圖1所示的階段S300字幕文字認識方法為例進行說明。上述圖4是顯示圖1所示的階段S300字幕文字認識方法的流程圖。
首先,根據本發明的字幕文字識別方法會概括(Skeleton,orTinning)在階段S200分離的文字(S301)。
一般情況下,文字的筆畫是以橫向或者豎向畫出的多個線所形成,因此為了在后續即將要敘述階段的特點抽取階段認識相關文字,其必要的特點很難提取且最終的文字認識階段當中也會產生很多錯誤。
本發明以解決這一問題為基礎,在階段S200的文字分離后,對分離的文字執行改變為最原始形態的骨格化階段的梗概階段(S301),只對在相關文字筆畫最基本的骨格相當的線像素(pixel)標示為一定的設定灰度級,余下屬于線上的像素標示為顯示空白的一定灰度級并進行概括。
例如,相當于文字筆畫基本骨格的線上像素以二進制“1”來標示,而除此之外的其他線上像素則以二進制“0”來標示。
其次,根據階段S301結束文字的概括以后,把完成概括的文字按照預設的坐標變化規則變化坐標,在其規定的文字標示領域中以預設的中心領域變化即進行對中(centering)處理(S302)。
一般情況下,文字位于上述規定文字標示領域內的下方或者上方或者左側和右側時,如數字或者英文小寫字母屬于此類。而此類向一邊傾斜的位置不僅在后續要提出的階段特點提取時對于提取相關特點非常困難,而且會產生諸多錯誤,繼而降低文字認識率。
因此,本發明不影響文字位置,使其相關文字的特點一直提取到同樣的位置,而根據階段S302在提取特點前進行中心變換(centering)。
其次,根據階段S302結束中心變換后,結束中心變換的文字為漢字時,根據本發明利用輪廓線屏蔽進行字數分離。
上述輪廓線屏蔽是在概括的相關文字當中,從左側最上端的像素起始到其文字末端相當的像素為止反復提取方向值。而其方向值本身表示一定的方向,方向表示值的反復次數表示的是其位于相關方向像素數量。利用這些輪廓線屏蔽把上述方向值按照記述的順序進行記錄,漢字則會分離成字數。
同時,結束階段S304的字數分離時適用于本發明的文字認識方法最后對其包括分離字數的文字特點和顯示的特點屏蔽進行檢索(S305),把其檢索出的屏蔽按照各自匹配的筆畫設定規則進行組合(S400),確認文字是何種字型。
例如,在數字影像處理機內的數據庫提前存儲匹配于特定筆畫的屏蔽相關編號后,檢測上述檢索的屏蔽上述數據庫當中提前存儲的編號是否一致,進而對上述檢測的屏蔽編號和一致的編號相關屏蔽內組合各自所匹配的筆畫,從而確認文字的字型。
另外,使用在本發明的特點作為能夠最佳表現文字實例中的一例,在本發明當中如上所述為其特點的提取,利用與字數的末端重疊的部分、分歧點等表示其各自位置信息的特點屏蔽來確認文字字型為佳。
圖5a至圖5f是使用在本發明的字母預測閉塞為例顯示的圖片。如圖所示,在本發明當中影像標示畫面的整個領域檢測字幕時,其檢索字幕的時間就會增加。因此在本發明當中通過實驗及經驗利用字幕會限制在特定領域而顯示出的公開事實,在其如PVR影像表示畫面領域等數字影像處理機內以字幕所處的領域設定預期字幕閉塞。其中符號500-1,500-2,500-3,500-4,500-5,500-6是相當于如上所述的字幕預測閉塞實例,而這些字幕預測閉塞(500-1,500-2,500-3,500-4,500-5,500-6)根據相關數字影像處理機的計算處理速度,可進行多樣的變化。
其次,圖6是以文字分離方法為例說明的圖片。如圖所示,在字幕文字列中最左側的垂直線(L-1)定義為標準線,從所定義的標準線(L-1)以水平方向相當于設定像素a把間隔的規定一定垂直線(L-2)設定為本發明當中所使用的文字分離垂直線。在這文字分離垂直線中存在相當于像素(A)間隔的垂直線上,表示文字的灰度級以上的像素時,在字幕當中分離位于文字分離垂直線左側的“全”字。同時,在文字分離垂直線上以像素(B)單位間隔間隔的垂直線上存在設定灰度級以上的像素時,重新以L-2線為標準線檢測文字分離垂直線,其后的階段如同上述說明一樣執行而在字幕當中分離“北"字。
圖7是使用于本發明的概括(skeleton)方法為例說明的圖片,如圖所示, 的″—″筆畫是以三個線所組成的。在本發明當中會把這些三個線概括為一個線。即以相當于相關文字的筆畫最基本骨格的線像素(pixel)表示為一定的設定灰度級,屬于余下線上的像素概括表示為顯示空白的一定的灰度級。
其次,圖8是以字數分離方法為例顯示的圖片。如圖所示,概括的相關文字的左側最上端起始到其文字最末端為止的像素中重復提取方向值而進行字數的分離。例如,使用圖8所示的8方向屏蔽對概括化的相關文字″″ 進行分離時,左側最上端的像素到其末端顯示方向值的話就是3,3,3,3的進行。而后在其分歧點會以(3.5)表示的同時重現向左側以3,3,3,3進行,最后再以5,5,5,5,5表示。通過這些一系列的方向值就會分離成″″ 而上述3或者5的反復次數取決于位于進行方向的像素數量。
圖9a到9h是使用于本發明的屏蔽。如圖所示,在相關數字影像處理機內的數據庫提前存儲匹配于特定筆畫的屏蔽相關編號(100-1,100-2,100-3,100-4,100-5,100-6,100-7,100-8)后,以上述存儲的屏蔽在其特定字型的文字進行屏蔽,繼而檢測出表現字型的屏蔽內相關編號后,對匹配的筆畫組合在檢測出的相關編號屏蔽中,使其能夠確認上述文字的字型。例如,″″ 是組合100-1,100-6,100-3相關屏蔽相匹配的筆畫,從而就會確認″″ 這個字型。
圖10是以字幕文字和影像索引(indexing)為例說明的圖片。如圖所示,對字型的文字確認結束時,直到設定框架為止會連續執行字幕文字重復存在與否。當沒有形成字幕文字的重復時在其結束文字確認的字幕文字當中賦予索引(indexing)編號(0,1,2,3,...,N),在其相關的連續性影像框架群當中匹配在相當于起始框架的影像框架當中后,對其匹配關系存儲于數字影像處理機內的數據庫等,從而對字幕文字和影像框架進行索引(indexing)。例如,以A-1,A-2,...,A-8所形成的影像框架群當中所重復的字幕文字為“蜜蜂的一生”時,在其字幕文字當中賦予索引編號“0”,同時在其索引編號匹配起始框架的″A-1″。當使用者輸入蜜蜂這一文字時,參考其索引編號“0”就會找的到規定影像起始框架″A-1″。
如此,在其特定字幕文字賦予索引編號,同時對其索引編號與字幕文字相關的一系列影像框架當中最起始的影像框架一對一進行匹配后,把匹配關系提前存儲在數字影像標示裝置內的數據庫當中。在一定的程序內可以通過特定字幕文字輕易的找的到使用者所指向的影像框架。
通過上述的說明內容,本領域的技術人員完全可以在不偏離本項發明技術思想的范圍內,進行多樣的變更以及修改。
因此,本項發明的技術性范圍并不能局限于說明書上的詳細說明內容;必須要根據專利申請的范圍來確定其技術性范圍。
權利要求
1.一種以字幕文字為基礎的影像索引方法,其特征在于包括第一階段,所有數字影像處理機解壓的特定程序影像物的影像索引是以在上述影像索引的整個領域檢測提前設定的字幕預測閉塞,并判斷對其領域內是否存在字幕;第二階段,在上述第一階段當上述字幕預測閉塞內存在字幕時,通過上述數字影像處理機內的文字分離器,在上述字幕內分離字幕文字;第三階段,在上述第二階段對分離的字幕文字字型利用上述數字影像處理器內的文字確認器確認;第四階段,在上述第三階段,已經形成字型的字幕文字匹配索引編號,并把字幕文字分離的相關影像框架匹配于其索引編號后存儲于上述數字影像處理機內的數據庫中。
2.按照權利要求1所述的以字幕文字為基礎的影像索引方法,其特征在于所述第一階段根據上述字幕預測閉塞內的灰度級變化量和提前設定的灰度級變化量的比較結果,判斷是否存在字幕。
3.按照權利要求2所述的以字幕文字為基礎的影像索引方法,其特征在于上述字幕預測閉塞內的灰度級變化量比提前設定好的灰度級變化量大的時候,會判斷為上述字幕預測閉塞內存在字幕;上述字幕預測閉塞內的灰度級變化量為上述提前設定好的灰度級變化量以下的時候,就判斷為字幕預測閉塞內不存在字幕。
4.按照權利要求1或權利要求3所述的以字幕文字為基礎的影像索引方法,其特征在于所述字幕預測閉塞提前設定為多個。
5.按照權利要求1所述的以字幕文字為基礎的影像索引方法,其特征在于所述第二階段包括第2-1階段,是根據上述字幕預設的線上檢測標準,檢測文字分離垂直線;第2-2階段,在上述第2-1階段檢測出的文字分離垂直線當中,如同向左側設定像素的個數相當所間隔存在的左側垂直線上存在灰度級以上的像素時,會判斷為在上述文字分離垂直線左側存在字幕文字,從而分離相關字幕文字。
6.按照權利要求5所述的以字幕文字為基礎的影像索引方法,其特征在于在所述第2-2階段后在上述文字分離遲滯線上,以右側設定的像素個數相當間隔存在的右側垂直線上,判斷設定灰度級以上的像素存在與否后,根據其判斷結果反復執行上述第2-1階段和第2-2階段。
7.按照權利要求1所述的以字幕文字為基礎的影像索引方法,其特征在于在所述第三階段和第四階段之間,另外包含,針對在上述第三階段形成字型認識的字幕文字重復存在與否,進行判斷的階段。
全文摘要
本發明涉及以字幕文字為基礎的影像標引方法,在提前設定的多個字幕預測閉塞當中檢測字幕,分離包含在其字幕內的字幕文字,在其字幕文字賦予規定的索引編號與上述字幕文字相關的一系列的影像框架群中的最初的影像框架一對一進行匹配,從而索引字幕文字和影像,使得使用者在規定的程序內可以通過字幕文字,更快更簡便的檢索出所指定的影像。
文檔編號G11B27/10GK1728782SQ20041005321
公開日2006年2月1日 申請日期2004年7月28日 優先權日2004年7月28日
發明者金正祐 申請人:上海樂金廣電電子有限公司