專利名稱:音樂搜索設備及方法、程序以及記錄介質的制作方法
技術領域:
本技術涉及音樂搜索設備及方法、程序以及記錄介質,并且尤其涉及能夠從輸入信號中設別出音樂的音樂搜索設備及方法、程序以及記錄介質。
背景技術:
過去,為了識別作為輸入信號而輸入的音樂,進行將輸入信號的特征量與作為要被識別的音樂的候選的參考信號的特征量進行匹配的處理。然而,例如,當諸如戲劇的電視節目的音頻源被用作輸入信號時,包括諸如對話、聲音(環境噪聲)、白噪聲、粉紅噪聲以及音效的非音樂信號分量的噪聲分量(在下文中簡稱為“噪聲 ”)經常與諸如背景音樂(BGM)的音樂信號分量混合,并且由這種噪聲導致的輸入信號的特征量的變化影響匹配處理結果。就這一點而言,已經提出了如下技術該技術使用屏蔽模式來屏蔽輸入信號的特征量中具有低可靠性的分量,從而只使用具有高可靠性的分量來進行匹配處理。特別地,針對特征矩陣預先準備多種屏蔽模式,其中特征矩陣代表被變換為時頻域中的信號的輸入信號的特征量,而屏蔽模式用于屏蔽與預定的時頻域相對應的矩陣分量。使用所有屏蔽模式進行輸入信號的特征量與數據庫中多個參考信號的特征量之間的匹配處理。被計算出最高相似度的那個參考信號的音樂被識別為輸入信號的音樂(例如,參見日本專利申請公開(JP-A) 2009-276776)。
發明內容
然而,難以評估輸入信號上疊加有噪聲的時間和頻率,并且難以預先準備適合于輸入信號的屏蔽模式。因此,在JP-A 2009-276776中公開的技術中,難以進行適當的匹配處理,因而很難以高準確度從音樂與噪聲混合的輸入信號中識別出音樂。同時,還存在這樣一種技術該技術產生屏蔽模式,使得輸入信號中平均功率高的時間段中的分量被視為疊加有音樂以外的噪聲的分量,并且只使用輸入信號中平均功率低的時間段的特征量進行匹配。根據該技術,盡管可以產生取決于輸入信號的屏蔽模式,但是該屏蔽模式中沒有考慮到頻率分量,并且該屏蔽模式不一定是適于輸入信號的屏蔽模式。此外,如圖I的左側所示,在時頻域的輸入信號中,音樂信號分量DM中包括了來自對話的噪聲Dv。在此情況下,在該技術中,只使用對話中斷的區域SI和S2中的幾個段的特征量來進行匹配處理。因此,很難以高準確度從音樂與噪聲混合的輸入信號中識別出音樂。為了以高準確度從音樂與噪聲混合的輸入信號中識別出音樂,希望使用如圖I的右側所示的區域S3和S4中的音樂信號分量Dm的特征量來進行匹配處理。本技術是鑒于上述問題而作出的,并且希望以高準確度從輸入信號中識別出音樂。根據本技術的一實施例,提供了一種音樂搜索設備,用于將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號的音樂,所述音樂搜索設備包括指數計算單元,用于基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度和通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數;相似度計算單元,用于計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及音樂識別單元,用于基于所述相似度來識別所述輸入信號的音樂。所述指數計算單元可以包括最大點檢測單元,用于從預定時間段的所述輸入信號中檢測所述信號分量的強度為最大的最大點;以及近似處理單元,用于通過模板函數對所述最大點附近的所述信號分量的強度進行近似,并且,所述指數計算單元可以基于所述最大點附近的所述信號分量的強度與所述模板函數之間的誤差來計算所述指數。所述指數計算單元可以根據所述模板函數的曲率來調節所述指數。所述指數計算單元可以根據所述模板函數的最大點的頻率來調節所述指數。所述音樂搜索設備可以進一步包括權重分布產生單元,用于基于所述輸入信號的每個區域中的第一特征量和所述參考信號的每個區域中的第一特征量來產生所述輸入信號和所述參考信號的每個區域上的權重分布,并且計算所述輸入信號的每個區域中的第一特征量與所述參考信號的每個區域中的第一特征量之間的第一特征量相似度。所述相似度計算單元基于所述權重分布的權重和所述第一特征量相似度來計算所述輸入信號的每個區域中的第二特征量與所述參考信號的每個區域中的第二特征量之間的相似度。所述音樂搜索設備可以進一步包括第一特征量計算單元,用于計算通過在時間方向上過濾所述指數而獲得的所述指數的時間平均量,作為所述第一特征量;以及第二特征量計算單元,用于計算通過在時間方向上過濾所述指數而獲得的所述指數的時間變化量,作為所述第二特征量。
根據本技術的另一實施例,一種音樂搜索方法將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號的音樂,所述音樂搜索方法可以包括基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度以及通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數;計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及基于所述相似度識別所述輸入信號的音樂。根據本技術的另一實施例,提供了一種程序或者由記錄介質記錄的程序,所述程序使計算機執行將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號的音樂的信號處理。所述信號處理可以包括基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度以及通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數;計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及基于所述相似度識別所述輸入信號的音樂。根據本技術的另一實施例,基于變換到時頻域的輸入信號的每個區域的信號分量的強度和通過對該信號分量的強度進行近似而獲得的函數來計算該信號分量的音調指數。計算基于該指數而獲得的輸入信號的每個區域中的特征量與基于對變換到該時頻域的參考信號計算出的指數而獲得的參考信號的每個區域中的特征量之間的相似度。基于該相似度識別該輸入信號的音樂。根據本技術的上述實施例,能夠以高準確度從輸入信號中識別出音樂。
圖I是用于描述用于匹配處理的輸入信號的特征量的圖;圖2是示出根據本技術實施例的音樂搜索設備的配置的框圖;圖3是示出指數計算單元的功能配置示例的框圖;圖4是示出第一特征量計算單元的功能配置示例的框圖;
圖5是示出第二特征量計算單元的功能配置示例的框圖;圖6是用于描述音樂識別處理的流程圖;圖7是用于描述輸入信號分析處理的流程圖;圖8是用于描述指數計算處理的流程圖;圖9是用于描述峰值檢測的圖;圖10是用于描述對峰值周圍的功率譜進行近似的圖;圖11是用于描述指數調節函數的圖;圖12是用于描述輸入信號的音調指數的示例的圖;圖13是用于描述第一特征量計算處理的流程圖;圖14是用于描述第一特征量的示例的圖;圖15是用于描述第二特征量計算處理的流程圖;圖16是用于描述第二特征量的示例的圖;圖17是用于描述參考信號分析處理的流程圖;圖18是用于描述匹配處理的流程圖;圖19是用于描述屏蔽模式的產生示例的圖;圖20是用于描述輸入信號的第二特征量與參考信號的第二特征量之間的匹配處理的圖;圖21是示出按時間序列排列的相似度的示例的圖;圖22是用于描述相似度的時間連續性的圖;以及圖23是示出計算機的硬件配置示例的框圖。
具體實施例方式下文中將參照附圖詳細描述本發明的優選實施例。注意,在本文字說明和附圖中,由相同的附圖標記來表示具有基本相同的功能和結構的結構元件,并且省略對這些結構元件的重復說明。根據本技術的實施例,提供了一種音樂搜索設備,用于將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號的音樂,所述音樂搜索設備包括指數計算單元,用于基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度和通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數;相似度計算單元,用于計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及音樂識別單元,用于基于所述相似度來識別所述輸入信號的音樂。根據本技術的實施例,提供了一種音樂搜索方法,用于將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號的音樂,所述音樂搜索方法包括基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度以及通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數;計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及基于所述相似度識別所述輸入信號的音樂。下文中將參照附圖描述本技術的實施例。將按照以下順序進行描述。
I.音樂搜索設備的配置2.音樂識別處理〈I.音樂搜索設備的配置>圖2示出根據本技術實施例的音樂搜索設備的配置。圖2的音樂搜索設備11通過將音樂信號分量與諸如對話或環境噪聲的噪聲分量(噪聲)相混合的輸入信號與包括未混合有噪聲的音樂信號分量的參考信號進行比較來識別輸入信號的音樂,然后輸出識別結果。音樂搜索設備11包括輸入信號分析單元31、參考信號分析單元32和匹配處理單元33。輸入信號分析單元31分析從外部裝置等輸入的輸入信號,從輸入信號中提取代表輸入信號的特征的特征量,并將該特征量輸出到匹配處理單元33。輸入信號分析單元31包括剪切單元51、時頻變換單元52、指數計算單元53、第一特征量計算單元54和第二特征量計算單元55。剪切單元51從輸入信號中剪切出與預定時間相對應的信號,并且將剪切出的信號輸出到時頻變換單元52。時頻變換單元52將來自剪切單元51的與預定時間相對應的輸入信號變換為時頻域中的信號(譜圖,spectrogram),并且將該譜圖提供給指數計算單元53。指數計算單元53根據來自時頻變換單元52的輸入信號的譜圖,針對譜圖的每個時頻域來計算代表信號分量包括音樂的音調指數,并且將計算出的音調指數提供給第一特征量計算單元54和第二特征量計算單元55。在此,音調指數代表音調關于時間的穩定性,這種穩定性是由輸入信號中每個頻率的信號分量的強度(功率譜)來表示的。一般來說,由于音樂包括特定聲調(頻率)的聲音并且連續地發聲,所以音調在時間方向上是穩定的。然而,對話具有音調在時間方向上不穩定的特征,并且,在環境噪聲中,在時間方向上連續的音調是很少見的。就這一點而言,指數計算單元53通過對與預定時間段相對應的輸入信號中音調的存在或不存在以及音調的穩定性進行量化,來計算音調指數。第一特征量計算單元54基于來自指數計算單元53的譜圖的每個時頻域的音調指數來計算第一特征量,并將第一特征量提供給匹配處理單元33,該第一特征量是代表輸入信號音樂度如何(音樂性)的特征量。第二特征量計算單元55基于來自指數計算單元53的譜圖的每個時頻域的音調指數來計算第二特征量,并將第二特征量提供給匹配處理單元33,該第二特征量是代表輸入信號的音樂的特性的特征量。參考信號分析單元32分析存儲在存儲單元(未示出)中的或者從外部裝置輸入的參考信號,從參考信號中提取代表參考信號的特征的特征量,并且將所提取的特征量提供給匹配處理單元33。參考信號分析單元32包括時頻變換單元61、指數計算單元62、第一特征量計算單元63和第二特征量計算單元64。時頻變換單元61將參考信號變換為譜圖,并且將該譜圖提供給指數計算單元62。指數計算單元62根據來自時頻變換單元61的參考信號的譜圖,針對譜圖的每個時頻域來計算表示信號分量包括音樂的音調指數,并且將計算出的音調指數提供給第一特征量計算單元63和第二特征量計算單元64。 第一特征量計算單元63基于來自指數計算單元62的譜圖的每個時頻域的音調指數來計算第一特征量,并將第一特征量提供給匹配處理單元33,該第一特征量是代表參考信號的音樂性的特征量。第二特征量計算單元64基于來自指數計算單元62的譜圖的每個時頻域的音調指數來計算第二特征量,并將第二特征量提供給匹配處理單元33,該第二特征量是代表參考信號的音樂的特性的特征量。匹配處理單元33通過基于來自輸入信號分析單元31的輸入信號的第一特征量和來自參考信號分析單元32的參考信號的第一特征量進行來自輸入信號分析單元31的輸入信號的第二特征量與來自參考信號分析單元32的參考信號的第二特征量之間的匹配處理,來識別包括在輸入信號中的音樂。匹配處理單元33包括屏蔽模式產生單元71、相似度計算單元72和比較確定單元73。屏蔽模式產生單兀71基于來自輸入信號分析單兀31的輸入信號的每個時頻域的第一特征量和來自參考信號分析單元32的參考信號的每個時頻域的第一特征量,產生被用于輸入信號的第二特征量與參考信號的第二特征量之間的匹配處理的屏蔽模式,然后將所產生的屏蔽模式提供給相似度計算單元72。此外,屏蔽模式產生單元71還計算第一特征量相似度,并將第一特征量相似度提供給相似度計算單元72,該第一特征量相似度是來自輸入信號分析單元31的輸入信號的每個時頻域的第一特征量與來自參考信號分析單元32的參考信號的每個時頻域的第一特征量之間的相似度。相似度計算單元72使用來自屏蔽模式產生單元71的屏蔽模式和第一特征量相似度,計算來自輸入信號分析單元31的輸入信號的第二特征量與來自參考信號分析單元32的參考信號的第二特征量之間的相似度,并且將計算出的相似度提供給比較確定單元73。比較確定單元73基于來自相似度計算單元72的相似度,確定包括在輸入信號中的音樂是否是參考信號的音樂,并且輸出代表參考信號的音樂的屬性的音樂屬性信息作為識別結果。[指數計算單元的配置]接下來,將參照圖3描述圖2中所示的指數計算單元53的詳細配置。圖3的指數計算單元53包括時間段選擇單元81、峰值檢測單元82、近似處理單元83、音調度計算單元84和輸出單元85。時間段選擇單元81在來自時頻變換單元52的輸入信號的譜圖中選擇預定時間段的譜圖,并且將所選擇的譜圖提供給峰值檢測單元82。峰值檢測單元82在時間段選擇單元81所選擇的預定時間段(時幀)的譜圖中檢測峰值,該峰值是每個單位頻率處信號分量的強度最強的點。近似處理單元83通過預定函數來對該預定時間段的譜圖中由峰值檢測單元82檢測到的峰值周圍的信號分量的強度(功率譜)進行近似。音調度計算單元84基于由近似處理單元83近似的預定函數與由峰值檢測單元82 檢測到的峰值周圍的功率譜之間的距離(誤差),計算通過在與該預定時間段相對應的譜圖上對音調指數進行量化而獲得的音調度。輸出單元85保持由音調度計算單元84計算出的、與該預定時間段相對應的譜圖上的音調度。輸出單元85將所保持的所有時間段的譜圖上的音調度提供給第一特征量計算單元54和第二特征量計算單元55,作為剪切單元51所剪切出的與預定時間相對應的輸入信號的音調指數。以此方式,在時頻域中針對每個預定時間段并針對每個單位頻率來計算具有音調度(元素)的音調指數。[第一特征量計算單元的配置]接下來,將參照圖4描述圖2中所示的第一特征量計算單元54的詳細配置。圖4的第一特征量計算單元54包括過濾處理單元91、再采樣處理單元92和二值化處理單元93。過濾處理單元91通過在時間方向上對來自指數計算單元53的、在輸入信號的時頻域中的每個預定時間段和每個單位頻率處具有音調度(元素)的音調指數進行過濾,來計算音調指數的時間平均量,并且將該時間平均量提供給再采樣處理單元92,作為代表輸入信號的音樂性的第一特征量。再采樣處理單元92在時間方向上對來自過濾處理單元91的第一特征量進行再采樣(向下采樣),并且將向下采樣的第一特征量提供給二值化處理單元93。二值化處理單元93對來自再采樣處理單元92的向下采樣的第一特征量進行二值化處理,并且將得到的第一特征量提供給匹配處理單元33。[第二特征量計算單元的配置]接下來,將參照圖5描述圖2中所示的第二特征量計算單元55的詳細配置。圖5中所示的第二特征量計算單元55包括過濾處理單元101、再采樣處理單元102和三值化處理單元103。過濾處理單元101通過在時間方向上對來自指數計算單元53的、在輸入信號的時頻域中的每個預定時間段和每個單位頻率處具有音調度(元素)的音調指數進行過濾,來計算音調指數的時間變化量,并且將該時間變化量提供給再采樣處理單元102,作為代表輸入信號的音樂的特性的第二特征量。再采樣處理單元102在時間方向上對來自過濾處理單元101的第二特征量進行再采樣(向下采樣),并且將向下采樣的第二特征量提供給三值化處理單元103。三值化處理單元103對來自再采樣處理單元102的向下采樣的第二特征量進行三值化處理,并且將得到的第二特征量提供給匹配處理單元33。圖2中所示的參考信號分析單元32的指數計算單元62、第一特征量計算單元63和第二特征量計算單元64與輸入信號分析單元31的指數計算單元53、第一特征量計算單元54和第二特征量計算單元55具有相同的功能,并且將省略其詳細描述。<2.音樂識別處理〉接下來,將參考圖6的流程圖描述音樂搜索設備11的音樂識別處理。當包括要被識別的音樂的輸入信號被輸入到音樂搜索設備11時,音樂識別處理開始。輸入信號在時間上連續地輸入到音樂搜索設備11。在步驟SI I中,輸入信號分析單元31執行輸入信號分析處理以分析從外部裝置輸入的輸入信號,并且從輸入信號中提取輸入信號的特征量。 [輸入信號分析處理的細節]在此,將參照圖7的流程圖來描述圖6的流程圖的步驟Sll中的輸入信號分析處理的細節。在步驟S31中,輸入信號分析單元31的剪切單元51從輸入信號中剪切出與預定時間(例如,15秒)相對應的信號,并且將剪切出的信號提供給時頻變換單元52。在步驟S32中,時頻變換單元52使用諸如Hann窗口的窗口函數或者使用離散傅里葉變換(DFT)等,將來自剪切單元51的與預定時間相對應的輸入信號變換為譜圖,并且將該譜圖提供給指數計算單元53。在此,窗口函數不局限于Hann函數,并且可以使用正弦窗口或哈明窗口(Hamming window)。此外,本發明不局限于DFT,并且可以使用離散余弦變換(DCT)。此外,變換后的譜圖可以是功率譜、振幅譜和對數振幅譜中的任何一個。此外,為了增加頻率分辨率,可以通過補零(zero-padding)過采樣來將頻率變換長度增加為大于窗口的長度(例如,兩倍或四倍)。在步驟S33中,指數計算單元53執行指數計算處理,因而根據來自時頻變換單元52的輸入信號的譜圖計算譜圖的每個時頻域中的輸入信號的音調指數。[指數計算處理的細節]在此,將參照圖8的流程圖描述圖7的流程圖的步驟S33中的指數計算處理的細節。在步驟S51中,指數計算單元53的時間段選擇單元81在來自時頻變換單元32的輸入信號的譜圖中選擇預定時間段(例如,在具有25秒持續時間的輸入信號的第一秒期間)的譜圖,并且將所選擇的譜圖提供給峰值檢測單元82。在步驟S52中,峰值檢測單元82針對每個時幀(時間區間)而在時間段選擇單元81所選擇的與一秒相對應的譜圖中檢測峰值,該峰值是時頻域中每個頻帶上的信號分量的功率譜(強度)為該頻帶附近最強的那個點。例如,在圖9的上部所示的變換到時頻域的輸入信號的譜圖中,在某一幀的某一頻率附近的時頻域r中檢測到圖9的下部所示的峰值p。在步驟S53中,近似處理單元83通過作為預先定義的典型函數的模板函數,對時間段選擇單元81所選擇的與一秒相對應的譜圖上由峰值檢測單元82檢測到的每個時幀的每個頻帶的峰值周圍的功率譜進行近似。在下文中,該模板函數是二次函數,但不限于二次函數。該模板函數可以是任何其它函數,如三次函數或更高次函數的高維函數或者三角函數。如上所述,在圖9的下側檢測到峰值P。然而,具有峰值的功率譜不局限于在時間方向上穩定的音調(在下文中稱為“持續音調”)。由于峰值可以是由諸如噪聲、旁瓣、干擾或隨時間變化的音調的信號分量所引起的,所以可能無法基于峰值適當地計算出音調指數。此外,由于DFT峰值是離散的,所以峰值頻率不一定是真正的峰值頻率。根據Proc. I CMC,87 中 J. 0. Smith III 和 X. Serra 的文獻“PARSHL Apro gram foranalysis/synthesis of inharmonic sounds based on asinusoidal representation,,,可以通過二次函數來對某一時幀中峰值周圍的對數功率譜的值進行近似,而與該值是音樂還是人類語音無關。這樣,在本技術中,通過二次函數對每個時幀的每個頻帶的峰值周圍的功率譜進行近似。此外,在本技術中,在以下假定之下確定峰值是否由持續音調引起。
a)通過經由在時間方向上擴展二次函數而獲得的函數來對持續音調進行近似。b)因為由音樂導致的峰值在時間方向上是持續的,所以對頻率隨時間的變化進行零階近似(zero-order approximation)(不改變)。c)需要在一定程度上允許振幅隨時間的變化,并且例如通過二次函數來對該變化進行近似。這樣,如圖10中所示,通過經由在某一時幀中在時間方向上擴展二次函數而獲得的隧道式函數(tunnel type function)(四次函數)來對持續音調建模,并且可以由下面關于時間t和頻率《的公式(I)來代表該持續音調。這里,表示峰值頻率。[公式I]g(t,co) = f ( co - co p) 2+ct2+dt+e ---(I)這樣,通過在所關注的峰值周圍基于假定a)至c)應用四次函數(例如通過最小二乘近似)而獲得的誤差可被用作音調(持續音調)指數。也就是說,下面的公式(2)可被用作誤差函數。[公式2]J(a, b, c, d, e) = Z (f (k, n) -g(k, n))2 ^min
「 …(2)在公式⑵中,f(k,n)表示第n幀和第k區間的DFT譜,而g(k,n)是與表示持續音調的模型的公式(I)具有相同涵義的函數,并由下面的公式(3)來表示。[公式3]
權利要求
1.一種音樂搜索設備,用于將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號中的音樂,所述音樂搜索設備包括 指數計算單元,用于基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度和通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數; 相似度計算單元,用于計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及 音樂識別單元,用于基于所述相似度來識別所述輸入信號中的音樂。
2.根據權利要求I所述的音樂搜索設備,其中,所述指數計算單元包括 最大點檢測單元,用于從預定時間段的所述輸入信號中檢測所述信號分量的強度為最大的最大點;以及 近似處理單元,用于通過模板函數對所述最大點附近的所述信號分量的強度進行近似,以及 其中,所述指數計算單元基于所述最大點附近的所述信號分量的強度與所述模板函數之間的誤差來計算所述指數。
3.根據權利要求2所述的音樂搜索設備,其中,所述指數計算單元根據所述模板函數的曲率來調節所述指數。
4.根據權利要求2所述的音樂搜索設備,其中,所述指數計算單元根據所述模板函數的最大點的頻率來調節所述指數。
5.根據權利要求I所述的音樂搜索設備,進一步包括 權重分布產生單元,用于基于所述輸入信號的每個區域中的第一特征量和所述參考信號的每個區域中的第一特征量來產生所述輸入信號和所述參考信號的每個區域上的權重分布,并且計算所述輸入信號的每個區域中的第一特征量與所述參考信號的每個區域中的第一特征量之間的第一特征量相似度, 其中,所述相似度計算單元基于所述權重分布的權重和所述第一特征量相似度來計算所述輸入信號的每個區域中的第二特征量與所述參考信號的每個區域中的第二特征量之間的相似度。
6.根據權利要求5所述的音樂搜索設備,進一步包括 第一特征量計算單元,用于計算通過在時間方向上過濾所述指數而獲得的所述指數的時間平均量,作為所述第一特征量;以及 第二特征量計算單元,用于計算通過在時間方向上過濾所述指數而獲得的所述指數的時間變化量,作為所述第二特征量。
7.一種音樂搜索方法,用于將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號中的音樂,所述音樂搜索方法包括 基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度以及通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數; 計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及基于所述相似度識別所述輸入信號中的音樂。
8.一種使計算機執行信號處理的程序,所述信號處理將輸入信號與僅包括音樂的參考信號進行比較并識別所述輸入信號中的音樂,所述信號處理包括 基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度以及通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數; 計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度;以及 基于所述相似度識別所述輸入信號中的音樂。
9.一種記錄權利要求8中所述的程序的記錄介質。
全文摘要
本發明提供了音樂搜索設備及方法、程序以及記錄介質。指數計算單元基于變換到時頻域的所述輸入信號的每個區域的信號分量的強度和通過對所述信號分量的強度進行近似而獲得的函數,計算所述信號分量的音調指數。相似度計算單元計算基于所述指數而獲得的所述輸入信號的每個區域中的特征量與基于對變換到所述時頻域的所述參考信號計算出的指數而獲得的所述參考信號的每個區域中的特征量之間的相似度。音樂識別單元基于所述相似度來識別所述輸入信號中的音樂。本技術可應用于從輸入信號中識別音樂的音樂搜索設備。
文檔編號G10L11/00GK102750948SQ20121010728
公開日2012年10月24日 申請日期2012年4月12日 優先權日2011年4月19日
發明者安部素嗣, 澁谷崇 申請人:索尼公司