一種斯諾克比賽視頻事件檢測與語義標注方法
【技術領域】
[0001]本發明屬于基于內容的視頻檢索領域,具體涉及一種斯諾克比賽視頻事件檢測和語義標注方法。
【背景技術】
[0002]基于語義內容的視頻分析一直是多媒體研究領域的熱點問題。體育視頻作為一類重要的視頻資源,有著巨大的觀眾基數和商業價值,得到了相關科研機構和研究人員的廣泛關注。隨著近年來三網融合環境下體育視頻數量的急劇增長和移動計算設備的迅速普及,人們早已不再滿足于當前的體育視頻觀看與檢索現狀,而對于快速定位自己感興趣的視頻內容有著更加迫切的需求,解決這一問題的關鍵就是對視頻中的語義事件進行自動檢測與標注。
[0003]臺球是世界三大紳士運動之一,在世界范圍內具有廣泛的群眾基礎,而斯諾克則是公認的最規范和最有影響力的臺球運動。斯諾克運動在中國發展之迅速、水平提升之顯著令整個臺球界驚訝,英國的天空電視臺也曾預言斯諾克的未來將在中國。隨著中國斯諾克選手在國際賽場上的異軍突起,國內普通觀眾也開始越來越多地關注斯諾克賽事。由于斯諾克賽事耗時較長,人們一般很少有時間去看完一場完整的斯諾克比賽,人們希望利用閑暇時間觀看最精彩的部分,如精彩的單桿高分、精彩進球、精彩安全球等,或者僅僅只是希望跳過一段局間插播的廣告或者對局中乏味的防守大戰。此外,如何從海量的斯諾克比賽視頻中快速找到觀眾感興趣的內容,也是一個重要的需求。為了滿足這些需求,關鍵是對視頻中的語義事件進行自動檢測與標注,而現有的對于斯諾克視頻分析的研究成果并不足以完成這一任務。因此,一個基于語義內容的斯諾克比賽視頻事件檢測系統的意義就顯得格外重要。
[0004]目前國內外針對體育視頻的分析工作大多把焦點集中在足球、籃球、網球等體育運動中,并取得了一些重要的研究成果。而斯諾克作為近年來越來越熱門的體育運動,正受到來自社會各界的廣泛關注。雖然目前已有少量斯諾克視頻分析的研究成果,但這些成果對于構建一個基于語義內容的事件檢測與標注系統還有一定的距離,具體表現在以下幾個方面:1.現有的針對斯諾克比賽視頻的分析工作都把目標定位在視頻摘要的自動生成與比賽過程的三維重建,并沒有完全針對事件檢測與標注的相關研究,而現有的研究成果遠不足以實現基于內容的視頻檢索;2.現有的針對斯諾克比賽視頻摘要的研究,往往只是簡單地對整個比賽流程進行流水賬式的記錄,并沒有區分各類事件的重要性,同時也忽略了很多重要的語義事件,雖然這些摘要對于專業球員和教練有較大幫助,但是其中的大部分內容都是普通觀眾不感興趣的,普通觀眾感興趣的只是比賽中精彩的或者關鍵的事件;3.現有的針對斯諾克比賽視頻的分析工作僅僅依靠單一的視覺信息進行分析,而忽略了包含有大量語義信息的文字與音頻信息,這是現有研究工作的一個巨大缺陷。
【發明內容】
[0005]針對現有技術中存在的問題,本申請提供的是一種斯諾克比賽視頻事件檢測與語義標注方法,其中根據斯諾克視頻的具體特征而對其視頻進行分析及標注,以實現對視頻的檢索,與現有體育視頻分析相比,該方法可以滿足廣大觀眾的需求,因而尤其適用于當今斯諾克視頻。
[0006]為實現上述目的,按照本發明的一個方面,提供了一種斯諾克比賽視頻事件檢測與語義標注方法,通過對視頻內在的各個模態信息的利用,并結合斯諾克的領域知識,實現斯諾克比賽視頻的事件檢測和語義標注,包括以下步驟:
[0007](I)對全臺面鏡頭中的比分條信息進行提取,具體包括以下子步驟:
[0008](1-1)使用全臺面鏡頭檢測算法進行全臺面鏡頭檢測;
[0009](1-2)根據比分條的位置特點及文字的邊緣特征確定出比分條的精確位置;
[0010](1-3)根據相鄰比分條區域圖像之差對當前擊球球員指示符進行定位;
[0011](1-4)利用比分條與當前擊球球員指示符的位置信息,進一步分割出比分條中的各個信息字段;
[0012](1-5)使用光學字符識別技術對分割出的信息字段進行文字識別;
[0013](1-6)針對識別過程中球員名可能出現的錯誤,將識別結果與官方球員數據庫進行模糊匹配,以獲得準確的球員名;
[0014](1-7)去除比分條信息序列中的冗余信息。
[0015](2)通過使用隱馬爾可夫模型對正式對局過程中的音頻流進行音頻分類,定位出掌聲、笑聲和嘆息聲三類對事件檢測有價值的音頻類型。
[0016](3)使用回放鏡頭檢測算法進行回放鏡頭的檢測。
[0017](4)通過文字、音頻、視頻三種模態信息的融合,并結合斯諾克的領域知識,使用相應的算法對各類語義事件進行檢測及標注,具體包括以下子步驟:
[0018](4-1)從比分條信息變化序列推斷事件;
[0019](4-2)根據比分條信息序列推斷回放鏡頭的事件類型;
[0020](4-3)結合音頻分類結果與其他兩個模態的信息檢測事件。
[0021]總體而言,按照本發明的上述技術構思與現有技術相比,主要具備以下的技術優占.V.
[0022](I)提出了一種可靠的全臺面鏡頭檢測方法;
[0023](2)在全臺面鏡頭檢測的基礎上,提出了比分條的定位與其中各個信息字段的提取方法;
[0024](3)實現了對以下斯諾克事件的檢測與標注:局、單桿高分、防守大戰、長考、犯規、精彩進球、精彩安全球、失誤和有趣事件。對于局、單桿高分、防守大戰、長考和犯規五類事件實現了完美的檢測效果,精彩進球與精彩安全球事件也達到了較高的檢測性能;
[0025](4)提出的檢測方法可自適應于不同分辨率的視頻。
【附圖說明】
[0026]圖1為本發明提供的一種斯諾克比賽視頻事件檢測與語義標注方法的總體流程
示意圖。【具體實施方式】
[0027]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
[0028]圖1為本發明一種斯諾克比賽視頻事件檢測與語義標注方法的總體流程示意圖,主要包括四個階段:比分條信息提取階段,包括全臺面鏡頭檢測、比分條定位、當前擊球球員指示符定位、字段分割與文字識別;音頻分類階段,使用隱馬爾可夫模型進行音頻分類;回放鏡頭檢測階段,使用回放鏡頭檢測算法檢測回放鏡頭;融合多模態信息的事件檢測階段,分別從利用比分條信息、結合比分條信息與回放鏡頭、結合音頻分類結果與其他兩個模態的信息三個角度來進行事件檢測。具體包括如下步驟:
[0029](I)比分條信息提取
[0030]全臺面鏡頭檢測步驟如下:
[0031]步驟1:對于某一視頻幀,根據顏色特征提取臺面區域;
[0032]步驟2:對臺面區域圖像進行閉操作處理,去除可能造成干擾的小物體;
[0033]步驟3:使用邊緣檢測算法檢測邊緣;
[0034]步驟4:使用霍夫變換檢測直線,對位置相近的直線僅保留其中一條;
[0035]步驟5:根據是否同時滿足以下兩個條件判斷該視頻幀是否為全臺面鏡頭:
[0036]條件1:直線條數為4 ;
[0037]條件2:4條直線的坐標(Θ,P )滿足以下位置要求:
[0038]直線I: Θ = Ji /2± π /60,ImgHeight*0.03〈 P <ImgHeight^0.3 ;
[0039]直線2: Θ = Ji /2± π /60,ImgHeight*0.6〈 P <ImgHeight^0.9 ;
[0040]直線3: Θ = Ji /12+ JT /18,ImgHeight^0.1< P <ImgHeight^0.4 ;
[0041 ]直線 4: Θ = Il j: /12± π /18,ImgHeight*-0.9〈 P <ImgHeight^-0.5。
[0042]其中,ImgHeight為視頻幀的高度。
[0043]對于檢測出的全臺面鏡頭,比分條定位步驟如下:
[0044]步驟1:計算出桌面梯形區域的4條邊對應的4條直線中下方直線與左右兩條直線的交點,左交點記為Pl,右交點記為Ρ2。
[0045]步驟2:計算Pl與視頻幀左邊界的距離以及Ρ2與視頻幀右邊界的距離,取較小距離對應的點作為確定比分條大致區域的基準點P。
[0046]步驟3:按視頻幀高度的0.08倍計算比分條大致區域的高度,記為H。
[0047]步驟4:根據桌面梯形區域的上下兩條邊對應的直線計算出梯形高度,作為桌面區域的高度,記為TH。
[0048]步驟5:找到位于P點正下方距離P點ΤΗ*0.03的點Q。
[0049]步驟6:計算出點Q關于視頻幀中垂線的鏡像點Q’。
[0050]步驟7:計算Q與Q’的水平距離,即為比分條大致區域的寬度,記為W。
[0051]步驟8:以點Q為原點,取出臺面區域正下方寬為W,高為H的矩形區域,即得到比分條的大致區域。
[0052]步驟9:將比分條大致區域的圖像作灰度化處理。
[0053]步驟10:對該灰度圖像使用邊緣檢測算法檢測邊緣。
[0054]步驟11:使用寬度為0.3*H(H為比分條大致區域的高度),高度為I的橫條形結構元先后對邊緣圖像進行腐蝕和膨脹操作,得到水平長直線所在位置對應的圖像,然后將邊緣圖像與該圖像作差,即得到去除水平長直線后的邊緣圖像。
[0055]步驟12:使用Sobel算子分別計算水平與垂直方向上圖像的梯度強度,并將這兩個分量相加。
[0056]步驟13:計算出梯度強度圖像在各行上像素值之和、各行上像素值之和的平均值Mean以及各行上像素值之和的最大值Max。
[0057]步驟14:如果各行上像素值之和的均值小于10*W(W為大致比分條區域的寬度),就認為不存在比分條,不需要再進行后續檢測;否則,則認為存在比分條。
[0058]步驟15:對于比分條存在的情況,以0.7*Max為閾值,對于在梯度強度圖像中像素值之和大于該閾值的行則歸入最終的比