廣播電視節目中違規廣告的監測方法和系統的制作方法
【專利摘要】本發明公開廣播電視中違規廣告的監測方法,該方法包括:S1.獲取并存儲廣播電視數據;S2.建立所述存儲數據的音頻內容索引;S3.根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告;S4.根據所述違規廣告,建立違規廣告模板;S5.根據違規廣告模板進行廣播電視中廣告的監測。
【專利說明】廣播電視節目中違規廣告的監測方法和系統
【技術領域】
[0001]本發明涉及視音頻智能分析【技術領域】,尤其涉及一種廣播電視中違規廣告的監測方法和系統。
【背景技術】
[0002]廣播電視作為廣告的一種主要傳播媒體,近年來頗受廣告商的青睞,廣播電視的廣告投入量多年來一直保持較高的水平。但是,一些廣告商為了追求利益,通過多種方式在廣播電視中發布各種違規廣告。
[0003]現有的廣播電視中違規廣告的監測方法是:首先把節目打包錄制成一個一個的文件,然后采用人工值守,逐個把節目文件使用播放器打開,控制播放進度進行回聽回看,從而完成對違規廣告內容的排查或抽查。
[0004]現有的廣播電視中違規廣告的監測方法存在的問題是:對海量廣播電視節目進行監測,不僅效率低下,而且需要配置大量的人力和物力,此外,人工在監測過程中,存在疲勞、慣性等主觀性因素,也會造成監測偏差。
【發明內容】
[0005]本發明所要解決的技術問題是現有技術對海量廣播電視節目進行監測,不僅效率低下,而且需要配置大量的人力和物力,此外,人工在監測過程中,存在疲勞、慣性等主觀性因素,也會造成監測偏差的問題。
[0006]為此目的,本發明提出廣播電視中違規廣告的監測方法,該方法包括:
[0007]S1.獲取并存儲廣播電視數據;
[0008]S2.建立所述存儲數據的音頻內容索引;
[0009]S3.根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告;
[0010]S4.根據所述違規廣告,建立違規廣告模板;
[0011]S5.根據違規廣告模板進行廣播電視中廣告的監測。
[0012]其中,所述步驟S2包括:
[0013]S21.讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到音頻的詞圖;
[0014]S22.根據所述連續語音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格;
[0015]S23.對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格;
[0016]S24.根據所述優化后的音素網格,建立音頻內容索引。
[0017]其中,所述步驟S3包括:
[0018]S31.根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置;[0019]S32.根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。
[0020]其中,所述步驟S4包括:
[0021]S41.標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容;
[0022]S42.確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣告;
[0023]S43.根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征;
[0024]S44.將所述特征信息進行歸一化處理,得到特征序列;
[0025]S45.根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
[0026]其中,所述步驟S5包括:
[0027]S51.提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征;
[0028]S52.將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列;
[0029]S53.將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度;
[0030]S54.比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
[0031]本發明還提出廣播電視中違規廣告的監測系統,該系統包括:
[0032]數據獲取與存儲模塊,用于獲取并存儲廣播電視數據;
[0033]音頻內容索引建立模塊,用于建立所述存儲數據的音頻內容索引;
[0034]違規關鍵詞檢索模塊,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告;
[0035]違規廣告模板建立模塊,用于根據違規關鍵詞檢索模塊檢索到的違規廣告,建立違規廣告模板;
[0036]違規廣告模板檢索模塊,用于根據違規廣告模板進行廣播電視中廣告的監測。
[0037]其中,所述音頻內容索引建立模塊包括:
[0038]詞圖單元,用于讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到首頻的詞圖;
[0039]音素網格生成單元,用于根據所述連續語音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格;
[0040]音素網格優化單元,用于對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格。
[0041]其中,所述違規關鍵詞檢索模塊包括:
[0042]檢索單元,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置;
[0043]判斷單元1,用于根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。[0044]其中,所述違規廣告模板建立模塊包括:
[0045]標注單元,用于標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容;
[0046]類型確定單元,用于確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣
生P=I ;
[0047]特征信息提取單元I,用于根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征;
[0048]歸一化處理單元1,用于將所述特征信息進行歸一化處理,得到特征序列;
[0049]違規廣告模板生成單元,根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
[0050]其中,所述違規廣告模板檢索模塊包括:
[0051]特征信息提取單元2,用于提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征;
[0052]歸一化處理單元2,用于將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列;
[0053]匹配單元,用于將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度;
[0054]判斷單元2,用于比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
[0055]相比于現有技術,本發明提供的方法的有益效果是:可以對海量廣播電視節目進行更全面、更快速、更準確地監測。
【專利附圖】
【附圖說明】
[0056]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0057]圖1示出了廣播電視中違規廣告的監測方法流程圖;
[0058]圖2示出了廣播電視中違規廣告的監測系統結構圖。
【具體實施方式】
[0059]為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0060]實施例1:
[0061]本實施例公開一種廣播電視中違規廣告的監測方法,如圖1所示,該方法包括:
[0062]S1.獲取并存儲廣播電視數據;
[0063]本實施例中,將廣播電視數據存儲到文件數據庫中的方式有兩種,其一,根據預設的時間,周期性掃描硬盤上緩存的廣播電視數據并存儲到文件數據庫中,為了有效管理數據文件,掃描到廣播電視數據時,自動獲得文件屬性;其二,用戶選擇廣播電視節目數據,上傳到文件數據庫中,上傳時輸入文件屬性,所述文件屬性包括:文件名稱、文件路徑、所屬頻道、開始時間和結束時間。
[0064]S2.建立所述存儲數據的音頻內容索引;
[0065]S3.根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告;
[0066]S4.根據所述違規廣告,建立違規廣告模板;
[0067]S5.根據違規廣告模板進行廣播電視中廣告的監測。
[0068]其中,所述步驟S2包括:
[0069]S21.讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到音頻的詞圖;所謂詞圖(Word Graph),就是一個有向無環的加權圖,其中,詞圖的橫坐標為時間軸,詞圖上每個節點表示一個在特定時間結束的詞,到達該節點的邊表示該詞的持續時間,邊上的權值為其對應的聲學模型得分;
[0070]S22.根據所述連續語音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格;所謂時間邊界信息,就是詞圖上每個詞所持續的開始時間和結束時間;
[0071]S23.對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格;
[0072]S24.根據所述優化后的音素網格,建立音頻內容索引。
[0073]其中,所述步驟S3包括:
[0074]S31.根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置;
[0075]S32.根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。
[0076]其中,所述步驟S4包括:
[0077]S41.標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容;
[0078]S42.確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣告;
[0079]S43.根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征;
[0080]S44.將所述特征信息進行歸一化處理,得到特征序列;
[0081]S45.根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
[0082]其中,所述步驟S5包括:
[0083]S51.提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征;
[0084]S52.將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列;
[0085]S53.將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度;
[0086]S54.比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
[0087]較佳的,自動把違規廣告從節目數據中截取出來,轉碼成av1、flv、ts、mp3等格式,并長久保存到存儲服務器或磁盤陣列等存儲設備中。
[0088]自動從違規廣告中提取某一圖像關鍵幀作為取證圖片。
[0089]根據頻道、時間、行業、廠商、品牌、類別、違規內容等進行統計,生成統計報表輸出。
[0090]實施例2:
[0091]本實施例公開一種廣播電視中違規廣告的監測系統,如圖2所示,該系統包括:
[0092]數據獲取與存儲模塊,用于獲取并存儲廣播電視數據;
[0093]音頻內容索引建立模塊,用于建立所述存儲數據的音頻內容索引;
[0094]違規關鍵詞檢索模塊,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告;
[0095]違規廣告模板建立模塊,用于根據違規關鍵詞檢索模塊檢索到的違規廣告,建立違規廣告模板;
[0096]違規廣告模板檢索模塊,用于根據違規廣告模板進行廣播電視中廣告的監測。
[0097]其中,所述音頻內容索引建立模塊包括:
[0098]詞圖單元,用于讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到首頻的詞圖;
[0099]音素網格生成單元,用于根據所述連續語音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格;
[0100]音素網格優化單元,用于對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格。
[0101]其中,所述違規關鍵詞檢索模塊提供web界面,違規關鍵詞檢索模塊包括:
[0102]檢索單元,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置;本實施例中,人工在web界面中首先選擇某個或某些頻道,并選定起止日期時間段,然后輸入違規廣告可能含有的任意違規關鍵詞,檢索單元會根據這些違規關鍵詞進行檢索,檢索時,多個關鍵詞以“與”、“或”邏輯關系進行檢索,檢索單元支持在結果中二次檢索;為了提高檢出率,檢索單元支持模糊匹配檢索,同時為了提高檢索效率,檢索單元支持在音頻內容索引建立模塊的緩存中檢索。
[0103]判斷單元1,用于根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。
[0104]本實施例中,檢索關鍵詞結果按置信度大小排序并分頁顯示在web界面上,顯示的信息包括關鍵詞、節目數據文件、頻道、時間點、置信度。置信度的確定,就是聲學模型得分的加權值。
[0105]其中,所述違規廣告模板建立模塊包括:
[0106]標注單元,用于標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容;
[0107]類型確定單元,用于確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣
生P=I ;[0108]特征信息提取單元I,用于根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征;
[0109]歸一化處理單元1,用于將所述特征信息進行歸一化處理,得到特征序列;
[0110]違規廣告模板生成單元,根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
[0111]其中,所述違規廣告模板檢索模塊包括:
[0112]特征信息提取單元2,用于提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征;
[0113]歸一化處理單元2,用于將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列;
[0114]匹配單元,用于將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度;
[0115]判斷單元2,用于比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,所述門限根據先驗知識確定的則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
[0116]較佳的,該系統包括檢索結果顯示模塊,檢索結果顯示模塊用于顯示檢索結果,SP在web界面中顯示違規廣告的檢索結果,顯示信息包含頻道、起止時間、時長、屬性等;
[0117]人工選擇一條或多條違規廣告進行下載取證時,檢索結果顯示模塊自動從節目數據中把違規廣告截取出來,轉碼成av1、flv、ts等格式,并長久保存到存儲服務器或磁盤陣列等存儲設備中,自動從違規廣告中提取某一圖像關鍵幀作為取證圖片保存;
[0118]人工在web界面中根據頻道、時間、行業、廠商、品牌、類別、違規內容等進行違規廣告統計,生成word或excel格式的統計報表輸出。
[0119]本實施例公開的系統可實現7X24小時不間斷的監測處理,語音內容索引速度大于5倍實時,索引速度約15MB/秒,對置信度高于90的違規關鍵詞檢索,準確率達到95%以上,檢索速度為秒級。違規廣告模板建立后,基于模板的違規廣告檢索的準確率超過99%,檢索速度超過100倍實時,即從一天的節目檢索某個違規廣告,僅需要15分鐘。
[0120]雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可以在不脫離本發明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權利要求所限定的范圍之內。
【權利要求】
1.廣播電視中違規廣告的監測方法,其特征在于,該方法包括: 51.獲取并存儲廣播電視數據; 52.建立所述存儲數據的音頻內容索引; 53.根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告; 54.根據所述違規廣告,建立違規廣告模板; 55.根據違規廣告模板進行廣播電視中廣告的監測。
2.根據權利要求1所述的方法,其特征在于,所述步驟S2包括: 521.讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到音頻的詞圖; 522.根據所述連續語 音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格; 523.對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格; 524.根據所述優化后的音素網格,建立音頻內容索引。
3.根據權利要求1所述的方法,其特征在于,所述步驟S3包括: 531.根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置; 532.根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。
4.根據權利要求3所述的方法,其特征在于,所述步驟S4包括: 541.標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容; 542.確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣告; 543.根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征; 544.將所述特征信息進行歸一化處理,得到特征序列; 545.根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
5.根據權利要求1所述的方法,其特征在于,所述步驟S5包括: 551.提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征; 552.將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列; 553.將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度; 554.比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
6.廣播電視中違規廣告的監測系統,其特征在于,所述系統包括: 數據獲取與存儲模塊,用于獲取并存儲廣播電視數據; 音頻內容索引建立模塊,用于建立所述存儲數據的音頻內容索引; 違規關鍵詞檢索模塊,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索違規廣告; 違規廣告模板建立模塊,用于根據違規關鍵詞檢索模塊檢索到的違規廣告,建立違規廣告模板; 違規廣告模板檢索模塊,用于根據違規廣告模板進行廣播電視中廣告的監測。
7.根據權利要求6所述的系統,其特征在于,所述音頻內容索引建立模塊包括: 詞圖單元,用于讀取所述存儲數據中的音頻,對所述音頻進行連續語音識別,得到音頻的詞圖; 音素網格生成單元,用于根據所述連續語音識別過程的時間邊界信息,將所述詞圖拆分成音素并生成音素網格; 音素網格優化單元,用于對所述音素網格進行節點合并、時間點量化和低概率路徑裁剪,得到優化后的音素網格。
8.根據權利要求6所述的系統,其特征在于,所述違規關鍵詞檢索模塊包括: 檢索單元,用于根據預設的違規關鍵詞,從所述音頻內容索引中檢索包含所述違規關鍵詞的廣告并記錄違規關鍵詞在音頻中出現的位置; 判斷單元1,用于根據所述違規關鍵詞在音頻中出現的位置,判斷所述檢索到的廣告是否為違規廣告,如果是違規廣告,則確認違規廣告的開始時間和結束時間。
9.根據權利要求6所述的系統,其特征在于,所述違規廣告模板建立模塊包括: 標注單元,用于標注違規廣告的模板屬性,所述模板屬性包括:廠商、行業、品牌、類別及違規內容; 類型確定單元,用于確定所述違規廣告的類型,所述類型包括電視廣告及廣播廣告;特征信息提取單元1,用于根據所述違規廣告的類型,提取所述違規廣告的特征信息,所述特征信息包括:視頻灰度特征及音頻子帶能量特征; 歸一化處理單元1,用于將所述特征信息進行歸一化處理,得到特征序列; 違規廣告模板生成單元,根據所述特征序列,建立全局索引,得到違規廣告模板,所述違規廣告模板包括電視違規廣告模板及廣播違規廣告模板。
10.根據權利要求6所述的系統,其特征在于,所述違規廣告模板檢索模塊包括: 特征信息提取單元2,用于提取待監測廣播電視數據中的特征信息,所述特征信息包括:視頻灰度特征和音頻子帶能量特征; 歸一化處理單元2,用于將所述特征信息進行歸一化處理,得到待匹配的視音頻特征序列; 匹配單元,用于將待匹配的視音頻特征序列與違規廣告模板的特征序列進行匹配,計算匹配相似度; 判斷單元2,用于比較所述匹配相似度與預設門限的大小,如果匹配相似度大于預設門限,則待監測廣播電視數據為違規廣告,否則,待監測廣播電視數據不是違規廣告。
【文檔編號】G06F17/30GK103914530SQ201410126252
【公開日】2014年7月9日 申請日期:2014年3月31日 優先權日:2014年3月31日
【發明者】姜洪臣 申請人:北京中科模識科技有限公司