一種新型視聽節目廣告投播方法
【專利摘要】本發明公開了一種新型視聽節目廣告投放方法,涉及視頻標注技術領域;解決了現有技術計算量大,計算速度慢的技術問題;該技術方案包括:步驟一,監聽分析音頻播出設備的輸出;步驟二,實時計算語音哈希值;步驟三,將語音哈希值與廣告標注庫里的視聽節目的語音哈希值進行對比,查找對應的廣告內容,顯示在屏幕上。
【專利說明】
一種新型視聽節目廣告投播方法
技術領域
[0001 ]本發明涉及視頻標注技術領域,特別涉及一種新型視聽節目廣告投播方法。
【背景技術】
[0002] 通常采用感知哈希技術來匹配內容相似的多媒體內容。感知哈希可以將具有相同 感知內容的多媒體數字唯一的映射為一段數字摘要,可以對內容保持操作的魯棒性和對內 容篡改的區分性,并滿足單向性、抗碰撞性等要求。感知哈希技術在基于內容的多媒體識別 和檢索中得到了廣泛的應用。
[0003] -個視聽節目內容,使用不同的設備,在不同的網站、電視臺播放時,它的碼率、音 頻編碼算法、音頻采樣格式、音頻采樣率、聲音強度會出現變化。文件可能會被剪切,畫面上 可能會加上水印、廣告等等。這對哈希技術和檢索匹配技術的計算速度提出了更高的要求, 只有非常快速的哈希技術,才能應用于電腦、智能手機、智能電視等不同的播放設備。
[0004] 已有的音頻哈希技術基于線性預測、MFCC等復雜特征進行的計算,為防止篡改而 設計,復雜、計算量非常大,不利于在播放器端進行快速處理。
【發明內容】
[0005] 本發明要解決的是現有技術計算量大,計算速度慢的技術問題。
[0006] 為了解決上述問題,本發明提供了一種新型視聽節目廣告投播方法,包括:
[0007] 步驟一,監聽分析音頻播出設備的輸出;
[0008] 步驟二,實時計算語音哈希值;
[0009] 步驟三,將語音哈希值與廣告標注庫里的視聽節目的語音哈希值進行對比,查找 對應的廣告內容,顯示在屏幕上。
[0010]通過以上技術方案可知,本發明提供一種新型視聽節目廣告投播方法,本發明技 術計算量非常低,音頻數據解碼后得到數據樣本,直接比較相鄰數據樣本的符號即可,沒有 復雜的運算,并且得到的哈希摘要內容豐富,匹配準確。用戶使用播放設備時,無論使用不 同的播放器,只要聲音輸出是開著的,就能加載播放內容關聯的廣告。本發明通過分析設備 發出的聲音,而不是分析視頻流數據,來進行內容匹配。這樣就使整個應用不依賴于電視 臺、視頻網站這些播放渠道,不需要它們的授權。不依賴于這些渠道,播放的廣告卻又和這 些渠道內容存在關聯關系,是一種"新型"廣告平臺。
【附圖說明】
[0011] 圖1 一種新型視聽節目廣告投播方法流程圖;
[0012] 圖2-種新型視聽節目廣告投播方法示意圖;
[0013] 圖3-種新型視聽節目廣告投播方法示意圖;
[0014] 圖4解碼后的音頻數據按照樣本先后順序繪制成的過零率示意圖;
[0015] 圖5最佳匹配偏移附近的連續時間偏移與計算的平均距離示意圖;
[0016] 圖6-種新型視聽節目廣告投播方法流程圖。
【具體實施方式】
[0017] 下面將結合附圖及實施例對本發明的技術方案進行更詳細的說明。
[0018] 需要說明的是,如果不沖突,本發明實施例以及實施例中的各個特征可以相互結 合,均在本發明的保護范圍之內。
[0019] 實施例一,如圖1所示,一種新型視聽節目廣告投播方法,包括:
[0020] 步驟一,監聽分析音頻播出設備的輸出;
[0021] 步驟二,實時計算語音哈希值;
[0022] 步驟三,將語音哈希值與廣告標注庫里的視聽節目的語音哈希值進行對比,查找 對應的廣告內容,顯示在屏幕上。
[0023] 本發明技術計算量非常低,沒有復雜的運算,根據視頻文件的哈希特征與對視頻 文件的標注內容信息的對應關系準確匹配標注信息,便于播放。用戶使用播放設備時,無論 使用不同的播放器,只要聲音輸出是開著的,就能加載播放內容關聯的廣告。
[0024] 本發明通過分析設備發出的聲音,而不是分析視頻流數據,來進行內容匹配。這樣 就使整個應用不依賴于電視臺、視頻網站這些播放渠道,不需要它們的授權。不依賴于這些 渠道,播放的廣告卻又和這些渠道內容存在關聯關系,是一種"新型"廣告平臺。
[0025] 實施例二,如圖6所示,在實施例一的基礎上,更優的,所述步驟一,監聽分析音頻 播出設備的輸出;具體包括記錄下音頻播出設備連續一段時間的聲音采樣,歸一化為一個 同一頻率的聲音樣本。歸一化為一個同一頻率的聲音樣本便于分析聲音樣本。
[0026]更優的,歸一化為一個同一頻率的聲音樣本,最優的為8000HZ的聲音樣本。在一個 較低的采樣頻率下計算過零率和進行匹配,這些細微的變化對匹配而言,影響并不大。 [0027]更優的,所述步驟二,實時計算語音哈希值;具體包括計算過去t時間的聲音樣本 的單向過零點語音哈希值。在語音數據的波形圖中,橫軸是〇軸,穿過橫軸便是過零。只要臨 接兩個樣本的符號不同,既統計為一次過零。單位時間內的過零次數,即為過零率。過零率 是非常易于計算的特征。過零率還具有抗編輯的特征。實時計算語音哈希值,可以便捷、快 速的分析當前播放的視聽節目。
[0028]更優的,t為10秒到30分鐘之間。t時間太長沒有工作量大,也沒有必要。太短不利 于數據分析。
[0029]更優的,最優的t為30秒到2分鐘。這個時間比較短,工作量也不大,也可以計算出 語音哈希值,有利于加快效率。
[0030] 更優的,所述步驟三,通過將語音哈希值先查詢匹配的視聽節目,再查詢對應視聽 節目的廣告標注數據,最后返回匹配的廣告標注內容及標注對應視聽節目時間段的過零點 語音哈希值,所述廣告標注內容及標注對應視聽節目時間段的過零點語音哈希值需要向前 預取部分。舉例說明,假設一條廣告標注在某視聽節目的第40秒至第42秒出現,所返回的標 注對應的過零點語音哈希值不僅僅包括該視聽節目第40秒至第42秒的過零點語音哈希值, 還應包括之前一段時間的過零點語音哈希值。假設這個前置時間為30秒,則該標注對應的 語音哈希值應為第10秒至第42秒的過零點語音哈希值。向前預取部分有利于準確計算及匹 配標注對應視聽節目時間段的過零點語音哈希值。
[0031] 更優的,區分查詢得到的廣告及其對應的語音哈希值;將已經播放的標注對應視 聽節目語音片段哈希值和區分出的廣告及其對應的語音哈希值進行比對,查看有沒有廣告 需要進行播放,如果有,則在畫面上指定位置播放廣告。
[0032] 區分查詢得到的廣告及其對應的語音哈希值包括將查詢得到的廣告及其對應的 語音哈希值放入本地廣告緩存或其它的方式與廣告標注庫里的其它信息區分開的方式。這 樣便于廣告能夠及時得到播放。
[0033] 更優的,定時查找廣告庫,和/或定時查找區分出的查詢得到的廣告是否需要播 放。將已經播放的語音片段和視頻廣告緩沖區中預取的部分進行比對,查看有沒有廣告需 要進行播放,如果有,則在畫面上指定位置播放廣告;這樣便于廣告能夠及時得到播放。 [0034]以上流程中,查找廣告庫這一過程可以定時進行,查找頻率可以在100毫秒一 30分 鐘之間,推薦為30秒一2分鐘1次。查詢本地廣告緩存這一過程查找頻率比較高,推薦為100 暈秒一 10秒1次。
[0035] 播放廣告的位置可以在視頻設備的四周或角落等不影響用戶觀看視頻的地方。
[0036] 更優的,實現步驟一、二、三之前,播放設備安裝一個獨立的應用,所述獨立的應用 是一個獨立的程序或者APP應用,通過這個獨立的應用實現步驟一、二、三。本發明可作為智 能電視、智能手機、電腦等視音頻播放設備的新型廣告平臺,實現內容相關的精準廣告投 放。本發明不要求播放器內部內置廣告機制,只要求播放設備安裝一個獨立的應用即可,特 別適用于智能手機、智能電視等能夠預安裝應用的場景。這樣,用戶使用播放設備時,無論 使用不同的播放器,只要聲音輸出是開著的,就能加載播放內容關聯的廣告。
[0037] 對試聽節目進行廣告標注及播放的方法為如圖3、圖4所示:
[0038] 第一步:對視聽節目內容進行廣告標注。廣告標注例如,指定在視頻節目播放到第 20秒-22秒時,在視頻畫面顯示一條圖文廣告,用戶點開廣告,能夠顯示更詳細的內容,或者 跳轉到購買畫面。
[0039] 第二步:將視聽節目內容的音頻哈希特征值、標注錨定點數據(起、止時間點)寫入 廣告標注庫。廣告標注庫里存儲了大量視聽節目內容音頻哈希特征值及其標注內容。視聽 節目內容的音頻哈希特征值的計算方法在后面詳細描述。
[0040] 第三步:在播放設備上安裝獨立應用,即廣告服務程序,監聽設備的音頻播放輸 出,檢測過去一段時間的語音哈希值,根據相似度從廣告標注庫里檢索匹配的廣告內容和 錨定點數據,在播放視頻到對應內容時,能夠在界面上顯示對應的廣告圖文信息。
[0041] 本發明采用以語音過零率特征為基礎的視聽節目哈希機制和設備端動態內容關 聯廣告查詢與加載機制。
[0042] 基于語音過零率特征的視頻文件哈希機制
[0043] 視聽節目里的音頻數據,解碼后的每個通道數據為一段連續的數字,表示每秒對 聲音采樣后的樣本值。比如說,44100HZ有符號16bit的音頻每秒進行44100次采樣,每次采 樣的數字為16位有符號整數。將解碼后的音頻數據按照樣本先后順序繪圖,可得到圖4。
[0044] 在數據的波形圖中,橫軸是0軸,穿過橫軸便是過零。只要臨接兩個樣本的符號不 同,既統計為一次過零。單位時間內的過零次數,即為過零率。過零率是非常易于計算的特 征。
[0045] 過零率還是抗編輯的特征。常見的視頻編輯中,對聲音的編輯主要有剪切、改變音 量大小、改變采樣率、改變編碼格式等方式。對聲音進行剪切,并不會導致過零率發生變化; 改變音量大小,導致采樣樣本的幅度發生變化,也不會導致過零率的變化;改變采樣率和改 變編碼格式會導致過零率產生細微的變化,我們的實驗結果表明,將語音樣本降采樣,在一 個較低的采樣頻率下計算過零率和進行匹配,這些細微的變化對匹配而言,影響并不大。
[0046]特征的具體計算方式如下:
[0047] 第一步,對聲音進行降采樣,統一為一個較低頻率(典型為8000HZ或4000HZ)的音 頻數據。
[0048] 第二步,對音頻數據按照固定的時間間隔T進行分割,計算每個T時間間隔的單向 過零數。比如,只計算上一個樣本為負,下一個樣本為正,這樣的過零數。真實過零率必然為 單向過零率的兩倍,因此,采用單向過零數代表過零數,可以減少計算量。單向過零數序列 便是這個視頻在T時間分辨率下的音頻特征,存入數據庫。每個視頻文件,可以存儲一個時 間分辨率下的音頻特征,也可以存儲多個時間分辨率下的音頻特征。T越大,特征串的長度 越低,匹配速度越快,匹配精度會產生對應下降。
[0049] 第三步,進行匹配。假設有兩個視頻文件A和B,視頻文件B是視頻文件A的衍生文 件。在相同的T下計算,A文件得到的特征字符串為A1A2A3…An,B文件得到的特征字符串為 BlB2B3***Bm〇 ?m^n〇
[0050] 對B特征字符串依次偏移T的整數倍,計算對應字符串位置的單向過零數的平均距 離:
[0051]
[0052 ]求D j的最小值,如果最小值小于指定的閾值,則認為兩個視頻文件匹配上了。記最 小值對應的j值為jf,則jfT為視頻文件B對于視頻文件A的時間偏移量。
[0053]我們選擇了一段25分鐘09秒的視頻,記為視頻A,使用視頻編輯軟件,將視頻里從5 分31秒到7分18秒部分剪切下來,保存為視頻B。兩個視頻的采樣率均為44100HZ。提取音頻, 降采樣頻率為8000HZ,以0.025秒為步長,計算特征字符串,兩個字符串間的匹配,得到的最 小特征距離為3.16,最佳匹配位置為331.225秒,與剪切起點331秒的誤差為0.225秒,可見 匹配的比較準確。
[0054]將最佳匹配偏移附近的連續時間偏移與計算的平均距離作圖,見圖5:
[0055]可以看見,在兩個視頻所比較的音頻內容接近重疊的地方,單向過零點特征計算 的平均距離由大于12迅速降低至4以下。
[0056]使用另外兩個與A不相干的視頻C和D,計算B與它們的最小匹配距離,結果為16.53 和13.82。以4為閾值,可以得出,B不是C和D的衍生視頻,B是A的衍生視頻,時間偏移為 331.225秒的結論。
[0057]使用視頻編輯軟件,將B視頻里的音頻數據采用24000HZ的采樣率編碼,得到視頻 E;保持采樣率不變,將編碼格式由AAC變為AMR,得到視頻F。計算視頻E、F與A的最小匹配距 離,得到的結果分別為2.60和3.24,對應的偏移時間為331.125和331.225。由此可見,哈希 特征對編碼格式和采樣率的改變具有非常強的魯棒性。
[0058]本發明提出了一種全新的試聽節目廣告機制,它通過監聽設備播放的聲音,向服 務器端發送音頻哈希值,快速匹配相關的內容,加載內容相關的廣告。這是一種全新的機 制,未發現現有技術的實現。
[0059] 本發明可作為智能電視、智能手機、電腦等視音頻播放設備的新型廣告平臺,實現 內容相關的精準廣告投放。本發明不要求播放器內部內置廣告機制,只要求播放設備安裝 一個獨立的應用即可,特別適用于智能手機、智能電視等能夠預安裝應用的場景。這樣,用 戶使用播放設備時,無論使用不同的播放器,只要聲音輸出是開著的,就能加載播放內容關 聯的廣告。
[0060] 就音頻哈希而言,一個視頻在不同網站上,在電視臺上播放,它在內容上的變化屬 于視頻編輯行為。本方法是專為視頻編輯行為設計的感知哈希與匹配方法,而非針對故意 篡改內容設計的感知哈希與匹配方法,這種方法更加有針對性,在保障匹配度的情況下,不 需要進行復雜的計算,匹配速度非常快,能夠迅速的在大量視頻標注庫里找出與播放的視 頻內容關聯的視頻,并且匹配到正確的時間點。
[0061] 當然,本發明還可有其他多種實施例,在不背離本發明精神及其實質的情況下,熟 悉本領域的技術人員當可根據本發明作出各種相應的改變和變形,但這些相應的改變和變 形都應屬于本發明的權利要求的保護范圍。
【主權項】
1. 一種新型視聽節目廣告投放方法,其特征在于,包括: 步驟一,監聽分析音頻播出設備的輸出; 步驟二,實時計算語音哈希值; 步驟三,將語音哈希值與廣告標注庫里的視聽節目的語音哈希值進行對比,查找對應 的廣告內容,顯示在屏幕上。2. 根據權利要求1所述的投放方法,其特征在于,所述步驟一,監聽分析音頻播出設備 的輸出;具體包括記錄下音頻播出設備連續一段時間的聲音采樣,歸一化為一個同一頻率 的聲音樣本。3. 根據權利要求2所述的投放方法,其特征在于,歸一化為一個同一頻率的聲音樣本, 最優的為8000HZ的聲音樣本。4. 根據權利要求1所述的投放方法,其特征在于,所述步驟二,實時計算語音哈希值;具 體包括計算過去t時間的聲音樣本的單向過零點語音哈希值。5. 根據權利要求4所述的投放方法,其特征在于,t為10秒到30分鐘之間。6. 根據權利要求5所述的投放方法,其特征在于,最優的t為30秒到2分鐘。7. 根據權利要求1所述的投放方法,其特征在于,所述步驟三,通過將語音哈希值先查 詢匹配的視聽節目,再查詢對應視聽節目的廣告標注數據,最后返回匹配的廣告標注內容 及標注對應視聽節目時間段的過零點語音哈希值,所述廣告標注內容及標注對應視聽節目 時間段的過零點語音哈希值需要向前預取部分。8. 根據權利要求7所述的投放方法,其特征在于,區分查詢得到的廣告及其對應的語音 哈希值;將已經播放的標注對應視聽節目語音片段哈希值和區分出的廣告及其對應的語音 哈希值進行比對,查看有沒有廣告需要進行播放,如果有,則在畫面上指定位置播放廣告。9. 根據權利要求7所述的投放方法,其特征在于,定時查找廣告庫,和/或定時查找區分 出的查詢得到的廣告是否需要播放。10. 根據權利要求1所述的投放方法,其特征在于,實現步驟一、二、三之前,播放設備安 裝一個獨立的應用,所述獨立的應用是一個獨立的程序或者APP應用,通過這個獨立的應用 實現步驟一、二、三。
【文檔編號】H04N21/458GK105933761SQ201610474076
【公開日】2016年9月7日
【申請日】2016年6月24日
【發明人】程國艮, 王語
【申請人】中譯語通科技(北京)有限公司