視頻中語音關鍵詞廣告的更換方法及裝置的制造方法
【技術領域】
[0001]本發明涉及視頻處理技術領域,特別是涉及一種視頻中語音關鍵詞廣告的更換方法及裝置。
【背景技術】
[0002]植入式廣告越來越多的被電影和電視劇所采用。其中,關鍵詞廣告的植入方式通常為:在視頻拍攝過程中由某些人物用語言來提及關鍵詞廣告,從而在所拍攝視頻中形成該關鍵詞廣告所對應的語音關鍵詞廣告。其中,關鍵詞廣告所包含的文本內容可以為商品品牌名、商品廣告語等與商品相關的詞語。
[0003]但是,隨著植入廣告業務的發展,衍生出植入的廣告內容在合作期滿之后被更換的需求,或者,同一視頻在不同渠道播放時須植入不同廣告的新需求。舉例而言:有一個視頻節目中,主持人口播說到“本節目由加多寶贊助”,但是,在某些情況下存在這樣的需求:將視頻節目中的“加多寶”的發音替換為“王老吉”;其中,“加多寶”和“王老吉”為關鍵詞廣告,而提及“加多寶”和“王老吉”的語音為語音關鍵詞廣告。
[0004]那么,如何在不影響用戶體驗的前提下,更換視頻中語音關鍵詞廣告是一個亟待解決的問題。
【發明內容】
[0005]本發明實施例的目的在于提供一種視頻中語音關鍵詞廣告的更換方法及裝置,以實現在不影響用戶體驗的前提下,更換視頻中語音關鍵詞廣告的目的。
[0006]具體技術方案如下:
[0007]第一方面,本發明實施例提供了一種視頻中語音關鍵詞廣告的更換方法,包括:
[0008]獲得預先從原目標視頻中確定出的原語音關鍵詞廣告所對應的原語音波形和原文本內容;其中,所述原語音關鍵詞廣告為所述原目標視頻中目標人物所提及的關于原關鍵詞廣告的語音;
[0009]基于所述原語音波形,確定所述原文本內容中各個字符的發音速率和語調特征;其中,任一字符的語調特征通過該字符所包括音素的頻譜特征表征;
[0010]基于預先確定出的所述目標人物的發音特征和所述語調特征,確定所述各個字符的語調特征變化量;其中,所述發音特征通過所統計出的預定的音素的頻譜特征來表征;
[0011]基于所述目標人物的發音特征,確定具有預定文本內容的待植入關鍵詞廣告的待植入語音關鍵詞廣告所對應的初始語音波形;
[0012]利用所述原文本內容中所述各個字符的發音速率和所述語調特征變化量,對所述初始語音波形進行波形調整;
[0013]將波形調整后的初始語音波形所對應的語音作為所述待植入關鍵詞廣告所對應的待植入語音關鍵詞廣告;
[0014]利用所述待植入語音關鍵詞廣告替換所述原目標視頻中的所述原語音關鍵詞廣生口 O
[0015]可選的,所述目標人物的發音特征的預先確定過程,包括:
[0016]獲得預先采集的目標人物的語料,其中,所述語料包括語音樣本和所述語音樣本所對應的文本樣本;
[0017]獲得所述語音樣本所對應的語音波形樣本;
[0018]利用所述語音波形樣本和相應的文本樣本,訓練所述目標人物所對應的語音聲學豐旲型;
[0019]基于所述語音聲學模型,確定針對于所述目標人物的預定的音素的頻譜特征;
[0020]將所確定出的針對于所述目標人物的預定的音素的頻譜特征作為所述目標人物的發音特征。
[0021]可選的,所述目標人物的語料,包括:
[0022]從所述原目標視頻中所提取到的關于所述目標人物的語料;
[0023]或者,
[0024]從所述原目標視頻中和所述原目標視頻以外的所述目標人物的語音文件中所提取到的關于所述目標人物的語料。
[0025]可選的,確定所述原文本內容中各個字符的發音速率的方式,包括:
[0026]從所述原語音波形中獲得所述原文本內容的各個字符的單一發音持續時間以及所述原文本內容的總發音持續時間;
[0027]利用所述單一發音持續時間和所述總發音持續時間,確定所述原文本內容中各個字符的發音速率。
[0028]第二方面,本發明實施例還提供了一種視頻中語音關鍵詞廣告的更換裝置,包括:
[0029]原語音波形獲得模塊,用于獲得預先從原目標視頻中確定出的原語音關鍵詞廣告所對應的原語音波形和原文本內容;其中,所述原語音關鍵詞廣告為所述原目標視頻中目標人物所提及的關于原關鍵詞廣告的語音;
[0030]原字符特征獲得模塊,用于基于所述原語音波形,確定所述原文本內容中各個字符的發音速率和語調特征;其中,任一字符的語調特征通過該字符所包括音素的頻譜特征表征;
[0031]語調特征變化量獲得模塊,用于基于預先確定出的所述目標人物的發音特征和所述語調特征,確定所述各個字符的語調特征變化量;其中,所述發音特征通過所統計出的預定的音素的頻譜特征來表征;
[0032]初始語音波形確定模塊,用于基于所述目標人物的發音特征,確定具有預定文本內容的待植入關鍵詞廣告的待植入語音關鍵詞廣告所對應的初始語音波形;
[0033]初始語音波形調整模塊,用于利用所述原文本內容中所述各個字符的發音速率和所述語調特征變化量,對所述初始語音波形進行波形調整;
[0034]待植入語音廣告關鍵詞確定模塊,用于將波形調整后的初始語音波形所對應的語音作為所述待植入關鍵詞廣告所對應的待植入語音關鍵詞廣告;
[0035]語音關鍵詞廣告替換模塊,用于利用所述待植入語音關鍵詞廣告替換所述原目標視頻中的所述原語音關鍵詞廣告。
[0036]可選的,所述目標人物的發音特征通過發音特征確定模塊來確定,所述發音特征確定t吳塊,包括:
[0037]語料獲得單元,用于獲得預先采集的目標人物的語料,其中,所述語料包括語音樣本和所述語音樣本所對應的文本樣本;
[0038]語音波形樣本獲得單元,用于獲得所述語音樣本所對應的語音波形樣本;
[0039]語音聲學模型訓練單元,用于利用所述語音波形樣本和相應的文本樣本,訓練所述目標人物所對應的語音聲學模型;
[0040]音素特征確定單元,用于基于所述語音聲學模型,確定針對于所述目標人物的預定的音素的頻譜特征;
[0041]發音特征確定單元,用于將所確定出的針對于所述目標人物的預定的音素的頻譜特征作為所述目標人物的發音特征。
[0042]可選的,所述語料獲得單元所獲得的所述目標人物的語料,包括:
[0043]從所述原目標視頻中所提取到的關于所述目標人物的語料;
[0044]或者,
[0045]從所述原目標視頻中和所述原目標視頻以外的所述目標人物的語音文件中所提取到的關于所述目標人物的語料。
[0046]可選的,所述原字符特征獲得模塊確定所述原文本內容中各個字符的發音速率的方式,包括:
[0047]從所述原語音波形中獲得所述原文本內容的各個字符的單一發音持續時間以及所述原文本內容的總發音持續時間;
[0048]利用所述單一發音持續時間和所述總發音持續