hcine表示詞i對應的音素總 數,p(ph」0t)是當前語音幀為0t時音素為j的后驗概率,tjPL分別表示當前(待重估)音素 的開始幀和結束幀(語音轉寫過程中得到),|丨和€為當前音素中第s個狀態的開始幀和結束 幀(對詞做狀態級切分后獲得)。
[0135] 6)第26維:狀態幀方差〇sframe
[0138] 上式中,Ns表示當前詞對應的狀態數,Fs表示當前詞第s個狀態上獲得的幀數(對詞 做狀態級切分后獲得個狀態對應幀數的平均值。
[0139] 7)第27維:詞的位置系數ilcic;/Nw,h。。表示當前詞在句子中的位置序號,心表示當前 句子包含的詞的總數;
[0140] 8)第28維:詞長,即當前詞包含的字數;
[0141] 9)第29維:判斷當前詞是否為停止詞,是停止詞時為1,否則為0;
[0142] 10)第30維:當前詞的時間長度,單位為秒;
[0143] 11)第31維:當前詞對應的競爭詞總數,即混淆網絡中兩個相鄰結點間弧的總數;
[0144] 12)第32維:當前關鍵詞對應語音文件中相應片段的短時平均能量。
[0145] 利用上述多知識源特征生成的32維特征向量對各詞進行置信度重估的過程可參 照前面公式(3)、(4)的描述,在此不再贅述。
[0146] 上面所述濾除文本文件中無意義的詞句可以采用依存句法分析技術對轉寫后的 文本進行句法分析,并將句法分析結果轉換為詞向量(如one-hot向量),將該詞向量作為特 征,結合分類器(如SVM)對轉寫后文本中的詞進行分類,依據分類結果過濾掉無意義的詞 (如語氣詞)和句子等內容。
[0147] 需要說明的是,上述對各詞進行置信度重估和濾除文本文件中無意義的詞句這兩 個過程在處理時不分先后,即可以先對各詞進行置信度重估,再濾除文本文件中無意義的 詞句;也可以先濾除所述文本文件中無意義的詞句,再對各詞進行置信度重估。
[0148] 步驟106,根據置信度重估結果計算各文本文件與所述用戶興趣模型的相關度。
[0149] 首先,對過濾后的文本文件,采用現有的Word Embedding技術計算過濾后文本文 件中每個詞的詞向量,記為V。
[0150] 然后,將各詞的置信度重估結果作為該詞的權重,對文本文件中出現的所有詞的 詞向量進行加權平均,得到該文本文件的向量:
[0153] 上式中Nword為過濾后的文本文件包含詞的總數,WPPi表示第i個詞的置信度,Vi表 示第i個詞的詞向量,Vd。。表示過濾后文本文件的向量。
[0154] 最后,計算當前文本文件與用戶興趣模型(以SVM模型為例)之間的相關度;
[0155] Sd〇c=W2 · Vd〇c+b2 (11)
[0156] 其中,參數w^SVM分類平面的法向量、b2為偏置參數(常量),由大量訓練數據訓練 得到。
[0157] 進一步的,還可以將上述SVM輸出的相關度值進行歸一化處理,以便更直觀地進行 檢索文件的排序。
[0158] 步驟107,根據所述相關度展示檢索出的語音文件信息。
[0159] 具體地,可以按照相關度從大到小依次展示相關度大于設定閾值的語音文件信 息;或者按照相關度從大到小依次展示設定個數的語音文件信息。
[0160] 此外,還可對文件相關度得分劃分對應不同級別的閾值,得到原始語音文件的重 要性級別,如"高"、"中"和"低"等級別,將最終展示的語音文件信息和其級別信息一起展示 給用戶。
[0161]需要說明的是,展示的語音文件信息可以是語音文件的主題名稱、摘要、鏈接等信 息,對此本發明實施例不做限定。
[0162] 本發明實施例提供的語音文件檢索方法,針對語音轉寫得到的文本文件存在一定 數量的轉寫錯誤的現象,通過提取語音轉寫得到的文本文件中各詞的多知識源特征,利用 所述多知識源特征對各詞進行置信度重估,并濾除所述文本文件中無意義的詞句,根據置 信度重估結果計算各文本文件與所述用戶興趣模型的相關度;根據所述相關度展示檢索出 的語音文件,從而有效地減少了轉寫錯誤對文件排序的影響。本發明實施例的語音文件排 序方法,不僅大大提高了語音文件檢索的效率,而且保證了檢索結果的準確性。
[0163] 相應地,本發明實施例還提供一種語音文件檢索系統,如圖2所示,是該系統的一 種結構示意圖。
[0164] 在該實施例中,所述系統包括:
[0165] 模型訓練模塊201,用于訓練對應檢索關鍵詞的用戶興趣模型;
[0166] 語音文件獲取模塊202,用于獲取待檢索的各語音文件;
[0167] 語音轉寫模塊203,用于對所述語音文件進行語音轉寫,得到轉寫結果;
[0168] 文本文件生成模塊204,用于根據所述轉寫結果獲得所述語音文件對應的文本文 件;
[0169] 特征獲取模塊205,用于獲取所述文本文件中各詞的多知識源特征;
[0170] 置信度重估模塊206,用于利用所述多知識源特征對所述文本文件中各詞進行置 信度重估;
[0171] 過濾模塊207,用于濾除所述文本文件中無意義的詞句;
[0172] 相關度計算模塊208,用于根據置信度重估結果計算各文本文件與所述用戶興趣 模型的相關度;
[0173] 展示模塊209,用于根據所述相關度展示檢索出的語音文件信息。
[0174] 需要說明的是,在實際應用中,所述檢索關鍵詞可以是用戶在檢索時輸入的一個 或多個檢索關鍵詞,也可以是預先從一些特定情景語料中搜集得到的一個或多個檢索關鍵 詞,對此本發明實施例不做限定。
[0175] 所述用戶興趣模型可以采用回歸模型,模型訓練模塊201在訓練回歸模型時,可以 采用現有的Word Embedding技術計算檢索關鍵詞的詞向量表示,并結合待檢索文本中與檢 索詞無關的詞向量動態訓練回歸模型,作為最終的用戶興趣模型。相應地,模型訓練模塊 201的一種具體結構可以包括以下各單元:
[0176] 語料收集單元,用于收集包含所述檢索關鍵詞的語料;
[0177] 詞向量計算單元,用于計算所述語料中各詞的詞向量;
[0178] 訓練單元,用于利用所述詞向量訓練回歸模型,將所述回歸模型作為用戶興趣模 型。
[0179] 在本發明實施例中,所述轉寫結果為詞級混淆網絡格式,其不僅包括最優候選詞, 還包括多個競爭候選詞。所述混淆網絡中保存有每個詞在語音文件中的時間位置、聲學模 型得分、語言模型得分和原始置信度。另外,所述多知識源特征包括以下特征中的至少兩 種:詞后驗概率;競爭詞的后驗概率差;語言模型得分;幀平均聲學模型得分。當然,為了使 后續置信度重估結果更準確,所述多知識源特征還可進一步包括以下任意一種或多種:各 詞對應的音素后驗概率、狀態幀方差;詞位置系數;詞長;是否為停止詞;時長;競爭詞個數; 短時平均能量等。對于這些特征前面已有詳細說明,在此不再贅述。
[0180]相應地,所述置信度重估模塊206可以利用上述多知識源特征為各詞生成一組多 維特征向量,然后利用預先訓練的回歸模型(后面以SVM模型為例)及各詞的多維特征向量 計算該詞的置信度。置信度重估模塊206的一種具體結構可以包括:多維特征向量生成單元 和置信度計算單元,其中,所述多維特征向量生成單元用于根據所述多知識源特征為各詞 生成一組多維特征向量;置信度計算單元用于利用預先訓練的回歸模型及各詞的多維特征 向量計算該詞的置信度。
[0181]如圖3所示,是本發明實施例中相關度計算模塊的一種結構示意圖,該模塊包括:
[0182] 詞向量計算單元31,用于對于每個文本文件,計算所述文本文件中各詞的詞向量;
[0183] 文件向量計算單元32,用于將各詞的置信度重估結果作為該詞的權重,對所述文 本文件中出現的所有詞的詞向量進行加權平均,得到所述文本文件的向量:
[0184] 相關度計算單元33,用于根據所述文本文件的向量計算所述文本文件與所述用戶 興趣模型的相關度。
[0185] 上述各計算單元的具體計算過程可參照前面本發明方法實施例中的描述,在此不 再贅述。
[0186] 上展示模塊209可以根據所述相關度展示檢索出的語音文件信息。在實際應用中, 可以按照相關度從大到小的順序依次展示相應語音文件信息,比如,可以展示相關度大于 設定閾值的所有語音文件信息,或者展示設定個數的語音文件信息。所述語音文件信息可 以是語音文件的主題名稱、摘要、鏈接等信息,對此本發明實施例不做限定。
[0187] 如圖4所示,是