聲音檢索裝置、聲音檢索方法
【專利說明】聲音檢索裝置、聲音檢索方法
[0001]相關申請的參照
[0002]關于本申請要求以2014年3月5日提交的日本專利申請特愿2014-42541號為基礎的優先權,通過本申請而援引該基礎申請的內容。
技術領域
[0003]本發明涉及聲音檢索裝置以及聲音檢索方法。
【背景技術】
[0004]近年,伴隨聲音、動畫等的多媒體內容的擴大/普及,要求高精度的多媒體檢索技術。關于聲音檢索,正在研宄一種聲音檢索的技術,其從聲音中確定發出了與提供的檢索詞(查詢)相對應的聲音的部位。在聲音檢索中,由于聲音識別困難這樣的特有的原因,與從字符串中確定包括所希望的檢索詞的部位的字符串檢索的技術相比,還沒有確立足夠的性能的檢索方法。由此,正在研宄各種用于實現足夠的性能的聲音檢索的技術。
[0005]例如,非專利文獻I (巖見圭祐、坂本渚、中川聖一,“距離O ?音節n-gram索引?二dt §音聲検索語検出ω距離尺度ω厳密化”,情報處理學會論文誌,Vol.54,N0.2,495-505,(2013.2))公開了在以聲音識別結果為基礎的聲音檢索中,考慮未知詞/識別錯誤的問題,穩健地進行聲音檢索的方法。
[0006]發明要解決的課題
[0007]但是,為了實現高精度的聲音檢索,具有各種的課題。例如,根據檢索對象的聲音信號的區間,存在如長音或接近無聲的信號的區間那樣,無論對于怎樣的檢索詞均容易被推定為發出與檢索詞相對應的聲音的區間和不是這樣的區間,從而成為誤檢測的原因。另夕卜,根據檢索詞,在檢索詞中的僅一部分接近檢索對象的聲音信號的情況下,有時僅僅根據該一部分,錯誤地推定為檢索詞整體與聲音信號對應。
【發明內容】
[0008]本發明是為了解決上述那樣的課題而提出的,本發明的目的在于提供可高精度地進行聲音檢索的聲音檢索裝置以及聲音檢索方法。
[0009]用于解決課題的技術方案
[0010]為了實現上述目的,本發明的聲音檢索裝置包括:
[0011]檢索詞取得單兀,其取得檢索詞;
[0012]變換單元,其將上述檢索詞取得單元取得的檢索詞變換為音素串;
[0013]輸出概率取得單元,其針對每一幀,取得從上述音素串包含的各音素輸出檢索對象的聲音信號的特征量的輸出概率;
[0014]相對化運算單元,其對于上述輸出概率取得單元針對上述各音素取得的輸出概率,根據針對上述音素串中包含的另一音素而取得的輸出概率執行相對化運算;
[0015]區間指定單元,其在上述檢索對象的聲音信號中,指定多個似然取得區間;
[0016]似然取得單元,其根據上述相對化運算單元運算后的輸出概率,取得表示上述區間指定單元所指定的似然取得區間為發出與上述檢索詞相對應的聲音的區間的可能性的似然;
[0017]確定單元,其根據上述似然取得單元針對上述區間指定單元指定的各個似然取得區間所取得的似然,確定被推定為從上述檢索對象的聲音信號中發出了與上述檢索詞對應的聲音的推定區間。
[0018]發明的效果
[0019]根據本發明,可高精度地進行聲音檢索。
【附圖說明】
[0020]圖1為表示本發明的實施方式I的聲音檢索裝置的物理結構的圖。
[0021]圖2為表示本發明的實施方式I的聲音檢索裝置的功能結構的圖。
[0022]圖3中(a)為檢索對象的聲音信號的波形圖,(b)為表示在檢索對象的聲音信號中設定的幀的圖,(C)為表示在檢索對象的聲音信號中指定的似然計算區間的圖。
[0023]圖4中(a)為表示各音素的各幀的距離的圖,(b)為表示各幀中的基準音素的圖,(C)為表示通過基準音素的距離進行相對化后的距離的圖。
[0024]圖5是采用各幀中的聲音信號的特征量和各音素的距離的矩陣來表示基于DP匹配的最大似然序列的檢索的圖。
[0025]圖6為表示本發明的實施方式I的聲音檢索裝置所進行的聲音檢索處理的流程的流程圖。
[0026]圖7為表示本發明的實施方式I的相對化運算處理的流程的流程圖。
[0027]圖8為表示本發明的實施方式2的聲音檢索裝置的功能結構的圖。
[0028]圖9為表示基于DP匹配的最大似然序列的檢索和此時生成的累積距離表以及迀移方向表的圖。
[0029]圖10中(a)為表示包含與檢索詞相對應的音素串中的僅僅一部分音素的區間中的通過最大似然序列的檢索而取得的路徑和標準化的累積距離的圖,(b)為表示包含與檢索詞相對應的音素串中的全部音素的區間中的最大似然序列的檢索和標準化的累積距離的圖。
[0030]圖11為表示本發明的實施方式2的聲音檢索裝置所執行的聲音檢索處理的流程的流程圖。
[0031]圖12為表示本發明的實施方式2的標準化運算處理的流程的流程圖。
[0032]用于實施發明的方式
[0033]下面參照附圖,對本發明的實施方式進行說明。另外,在圖中對于相同或相應的部分賦予相同的符號。
[0034]實施方式I
[0035]實施方式I的聲音檢索裝置在物理上如圖1所示的那樣構成。聲音檢索裝置100包括R0M(只讀存儲器,Read Only Memory) 1、RAM(隨機存取存儲器,Random AccessMemory) 2、外部存儲器3、輸入裝置4、輸出裝置5、CPU (中央處理器,Central ProcessingUnit)6。
[0036]ROMl存儲用于進行各種初始設定、硬件的檢查、程序的下載等的初始程序。RAM2暫時存儲CPU6執行的各種軟件程序、執行這些軟件程序所需要的數據等。
[0037]外部存儲器3例如是硬盤等,存儲各種軟件程序、數據等。在這些軟件程序中,包括應用軟件程序、OS (操作系統,Operating System)這樣的基本軟件程序等。
[0038]輸入裝置4例如是鍵盤等,輸入裝置4將用戶采用鍵盤而操作輸入的文本數據等輸入到CPU6。輸出裝置5例如具備液晶顯示器等的畫面、揚聲器等。輸出裝置5將通過CPU6輸出的文本數據顯示在畫面中,從揚聲器輸出聲音數據。
[0039]CPU6將存儲在外部存儲器3中的軟件程序讀出到RAM2中,通過執行控制該軟件程序,來實現下述的功能結構。
[0040]聲音檢索裝置100從功能上如圖2所示那樣構成。聲音檢索裝置100包括聲音信號存儲部101、聲學模型存儲部102、時間長度存儲部104、檢索詞取得部111、變換部112、時間長度導出部113、區間指定部114、特征量計算部115、輸出概率取得部116、搜索部117、似然計算部118、重復部119、確定部120、相對化運算部130。聲音信號存儲部101、聲學模型存儲部102以及時間長度存儲部104由外部存儲器3的存儲區域構成。
[0041]聲音信號存儲部101存儲檢索對象的聲音信號。檢索對象的聲音信號例如是與新聞廣播等的聲音、錄音的會議的聲音、圖像的聲音等有關的聲音?目號。
[0042]聲學模型存儲部102存儲聲學模型。聲學模型是對構成可作為檢索詞而取得的字符串的各音素的頻率特性進行模型化而得到的。聲學模型存儲部102例如存儲單音(I音素)的聲學模型(單音模型)、雙音(2音素)的聲學模型(雙音模型)、三音(3音素)的聲學模型(三音模型)等。
[0043]單音模型為針對每個I音素而生成的聲學模型,是不依賴于鄰接的音素,亦即將與前后的音素狀態的狀態迀移固定化的聲學模型。雙音模型和三音模型分別是針對每個2音素和每個3音素而生成的聲學模型,是依賴于鄰接的音素的聲學模型。雙音模型是考慮了與前后單方的音素狀態的狀態迀移的聲學模型。三音模型是考慮了與前后雙方的音素狀態的狀態迀移的聲學模型。下面以作為聲學模型采用單音模型的情況為例子來進行說明。聲音檢索裝置100通過普通的方法學習聲學模型,將其預先存儲在聲學模型存儲部102中。
[0044]作為聲學模型,例如可以采用在普通的聲音識別中使用的聲學模型即HMM(HiddenMarkov Model ;隱馬爾可夫模型)。HMM是用于通過統計學的方法,從聲音信號中概率性地推定出成為輸出該聲音信號的輸出源的語言的模型。HMM采用將表示時序的狀態波動的迀移概率和輸出從各個狀態而輸入的特征量的概率(輸出概率)作為參數的標準圖。該輸出概率通過對按照預定的權重系數進行加權后的高斯(標準)分布相加后的混合高斯分布來
[0045]時間長度存儲部104按照各音素的狀態單位來存儲在聲學模型中采用的各音素的平均繼續長度。各音素的平均繼續長度是發出各音素時的平均的時間長度。各音素的狀態是在時間方向上對各音素進行細分后的單位,相當于聲學模型的最小單位。在各音素中,預先確定狀態數量。
[0046]下面以在各音素中確定的狀態數量為“3”的情況為例子來進行說明。例如,音素“a”被分為包括該音素的發音開始時的第I狀態“al”、作為中間狀態的第2狀態“a2”、包括發音結束時的第3狀態“a3”這的3個狀態。在將聲學模型中采用的全部音素的數量設為Q時,存在“3 X Q”個的狀態。聲音檢索裝置100針對“3 X Q”個的各個狀態,根據大量的聲音信號的數據,計算繼續長度的平均值,將其預先存儲在時間長度存儲部104中。
[0047]另外,為了提高檢索精度,優選用于學習聲學模型的聲音信號以及用于計算音素的平均繼續長度的聲音信號是通過與發出檢索對象的聲音信號的域(環境)相同的域而發出的聲音信號。例如,在檢索對象為在會議室中錄音得到的聲音信號時,優選采用在會議室中錄音得到的聲音信號來學習聲學模型,并計算音素的平均繼續長度。但是,用于學習聲學模型的聲音信號以及用于計算音素的平均繼續長度的聲音信號也可以是通過與發出檢索對象的聲音信號的域不同的域而發出的聲音信號。
[0048]檢索詞取得部111取得檢索詞。檢索詞取得部111例如取得用戶經由輸入裝置4輸入的檢索字符串來作為檢索詞。即,用戶通過字符串(文本),向聲音檢索裝置100賦予用于從檢索對象的聲音信號中檢索發出目標聲音的部分的檢索詞(查詢)。
[0049]變換部112按照檢索詞取得部111取得的檢索詞,對聲學模型的音素進行排列,將檢索詞變換為音素串。即,變換部112按照與檢索詞中包含的字符相同的順序,排列對各字符進行發聲時的音