專利名稱:音樂片段檢測設備和方法以及音樂信號檢測設備的制作方法
技術領域:
本技術涉及音樂片段檢測設備和方法、程序、記錄介質以及音樂信號檢測設備,并且更加具體地涉及能夠從輸入信號中檢測音樂部分的音樂片段檢測設備和方法、程序、記錄介質以及音樂信號檢測設備。
背景技術:
過去,多首歌曲(音樂)已用在電視廣播或無線電廣播的廣播節目中。在廣播節目當中,存在如音樂節目中那樣音樂明顯地用作主要部分的節目,以及如戲劇中那樣音樂用作背景音樂(BGM)的節目。對于廣播節目的觀眾而言,常常存在例如僅再生和觀看音樂節目的音樂部分的需
要。 進一步,對于廣播電臺而言,常常存在如下需要容易地支付版權費,或者涉及根據廣播節目通過管理使用的音樂來對廣播節目進行編輯。當準備了音樂數據庫時,這可以通過使用如下技術來實現將廣播節目的語音信號和數據庫的語音信號相比較,并且搜索廣播節目的語音信號中包括的音樂。然而,當沒有準備音樂數據庫時,或者當廣播節目的語音信號中包括的音樂沒有登記到數據庫時,難以使用上面描述的音樂搜索技術。在這種情況下,用戶不得不收聽廣播節目并檢查音樂的存在與否或者一致性。收聽這樣的大量廣播節目會花費許多時間和努力。在這點上,已提議了從廣播節目的語音信號中檢測包括音樂的片段的技術。例如,存在如下技術當輸入信號被變換成頻譜時,基于峰值在時間方向上持續的時間段來檢測音樂片段(例如參見日本專利申請公開(JP-A)第10-301594號)。
發明內容
根據JP-A第10-301594號中公開的技術,可以以高精確度從僅在特定時間包括音樂的輸入信號(諸如音樂節目的語音信號或者其中與音樂相比具有足夠較低水平的非音樂聲音(在下文中稱之為“噪聲”)與音樂相混合的輸入信號)中檢測音樂片段。然而,從其中音樂作為BGM與噪聲(如具有與如戲劇中那樣的音樂幾乎相同水平的語音)相混合的輸入信號中,難以適當地檢測頻譜的峰值,所以檢測音樂片段的準確性很可能降低。進一步,存在如下技術使用諸如對話或解說之類的語音通常被定向到廣播節目中的中心這一特征,通過從輸入信號的左聲道信號中減去右聲道信號(或者從右聲道信號中減去左聲道信號)來排除語音(噪聲)的影響。然而,難以將這種技術應用于電視廣播,并且同樣難以將這種技術應用于其中音樂被定向到中心的輸入信號。另外,獨立于左右聲道而生成通過語音壓縮而得到的量化噪聲,這樣一來在這種技術中,與原始輸入信號具有低相關性的量化噪聲就可能包括在相減信號中。進而,在頻譜中被形成以在時間方向上持續的峰值不限于通過音樂造成,而是峰值可以通過噪聲、旁瓣、干擾或時變音調等而造成。因為這個原因,難以從基于峰值的音樂片段的檢測結果中完全排除除了音樂之外的噪聲的影響。如上所述,已難以以高精確度從其中音樂與具有幾乎與音樂相同的水平的噪聲相混合的輸入信號中檢測音樂部分。考慮到前述狀況而做出本技術,并且希望以高精確度從輸入信號中檢測音樂部分。根據本技術的實施例,提供了一種音樂片段檢測設備,該音樂片段檢測設備包括指標計算單元,其基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及音樂確定單元,其基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。指標計算單元可以設置有最大點檢測單元,其從預定時間段的輸入信號中檢測信號分量的最大強度點;以及逼近處理單元,其通過二次函數在最大點附近逼近信號分量 的強度。基于信號分量在最大點附近的強度和二次函數之間的誤差,指標計算單元可以計算該指標。指標計算單元可以根據二次函數的曲率來調整指標。指標計算單元可以根據二次函數的最大點的頻率來調整指標。音樂片段檢測設備可以進一步包括特征量計算單元,其基于對應于預定時間的輸入信號的每個區域的音調指標,計算對應于所述預定時間的輸入信號的特征量;并且當特征量大于預定閾值時,音樂確定單元可以確定對應于預定時間的輸入信號包括音樂。通過針對每個頻率在時間方向上求取對應于預定時間的輸入信號的每個區域的音調指標的積分,特征量計算單元可以計算該特征量。通過在對應于預定時間的輸入信號的每個區域中針對每個頻率求取其中大于預定閾值的音調指標在時間方向上最連續的區域的音調指標的積分,特征量計算單元可以計算該特征量。音樂片段檢測設備可以進一步包括濾波處理單元,其在時間方向上對特征量進行濾波;并且當在時間方向上濾波的特征量大于預定閾值時,音樂確定單元可以確定對應于預定時間的輸入信號包括音樂。根據本技術的另一個實施例,提供了一種檢測音樂片段的方法,該方法包括基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。根據本技術的還有另一個實施例,提供了一種程序和一種記錄在記錄介質中的程序,該程序使計算機執行以下過程基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。根據本技術的還有另一個實施例,提供了一種音樂信號檢測設備,該音樂信號檢測設備包括指標計算單元,其基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標。
根據本技術的實施例,基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標,并且基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。根據上面描述的本技術的實施例,可以以高精確度從輸入信號中檢測音樂部分。
圖I是圖示根據本技術實施例的音樂片段檢測設備的配置的框圖;圖2是圖示指標計算單元的功能配置例子的框圖;圖3是圖示特征量計算單元的功能配置例子的框圖;
圖4是用于描述音樂片段檢測過程的流程圖;圖5是用于描述指標計算過程的流程圖;圖6是用于描述對峰值的檢測的示圖;圖7是用于描述對峰值周圍的功率頻譜的逼近的示圖;圖8是用于描述指標調整函數的示圖;圖9是用于描述輸入信號的音調指標的例子的示圖;圖10是用于描述特征量計算過程的流程圖;圖11是用于描述對特征量的計算的示圖;圖12是用于描述對特征量的計算的示圖;圖13是圖示特征量計算單元的另一個功能配置例子的框圖;圖14是用于描述特征量計算過程的流程圖;圖15是用于描述對特征量的計算的示圖;圖16是用于描述通過現有技術對確定結果進行濾波的示圖;圖17是圖示音樂片段檢測設備的另一個功能配置例子的框圖;圖18是用于描述音樂片段檢測過程的流程圖;圖19是用于描述對特征量進行濾波的示圖;以及圖20是圖示計算機的硬件配置例子的框圖。
具體實施例方式在下文中,參考附圖來詳細地描述本發明的優選實施例。注意,在本說明書和附圖中,具有基本上相同功能和結構的結構性元件用相同的標號來指示,并且省略對這些結構性元件的重復說明。在下文中,參考附圖來描述本技術的實施例。按照以下順序進行描述。I.音樂片段檢測設備的配置2.音樂片段檢測過程3.其它配置〈I.音樂片段檢測設備的配置>圖I圖示了根據本技術實施例的音樂片段檢測設備的配置。圖I的音樂片段檢測設備11從其中音樂的信號分量與諸如人們之間的談話或噪聲之類的噪聲分量(噪聲)相混合的輸入信號中檢測音樂部分,并且輸出檢測結果。
音樂片段檢測設備11包括裁剪單元31、時間頻率變換單元32、指標計算單元33、特征量計算單元34和音樂片段確定單元35。裁剪單元31從輸入信號中裁剪對應于預定時間的信號,并且將裁剪的信號供應給時間頻率變換單元32。時間頻率變換單元32將來自裁剪單元31的對應于預定時間的輸入信號變換成時間頻率域的信號(頻譜圖),并且將時間頻率域的頻譜圖供應給指標計算單元33。針對頻譜圖的每個時間頻率域,基于時間頻率變換單元32的輸入信號的頻譜圖,指標計算單元33計算表示音樂的信號分量的音調指標,并且將計算的指標供應給特征量計算單元34。
這里,音調指標表示音調相對于時間的穩定性,所述音調通過輸入信號中每個頻率的信號分量的強度(例如功率頻譜)來表示。一般而言,音樂具有某個調(頻率)中的聲音并持續發聲,這樣一來在時間方向上就是穩定的。然而,人談話具有其中音調在時間方向上不穩定的特性,并且在環境噪聲中,很少看到在時間方向上持續的音調。在這點上,通過量化音調的存在與否以及對應于預定時間段的輸入信號上的音調的穩定性,指標計算單元33計算音調指標。基于來自指標計算單元33的頻譜圖的每個時間頻率域的音調指標,特征量計算單元34計算表示輸入信號有多音樂化(音樂性)的特征量,并且將特征量供應給音樂片段確定單元35。 基于來自特征量計算單元34的特征量,音樂片段確定單元35確定裁剪單元31裁剪的對應于預定時間的輸入信號中是否包括音樂,并且輸出確定結果。[指標計算單元的配置]接下來,參考圖2來描述圖I的指標計算單元33的詳細配置。圖2的指標計算單元33包括時間段選擇單元51、峰值檢測單元52、逼近處理單元53、音調程度計算單元54和輸出單元55。時間段選擇單元51在來自時間頻率變換單元32的輸入信號的頻譜圖中選擇預定時間段的頻譜圖,并且將選擇的頻譜圖供應給峰值檢測單元52。峰值檢測單元52檢測時間段選擇單元51選擇的預定時間段的頻譜圖中的每個單元頻率處的峰值,所述峰值是這樣的點,在所述點處,信號分量的強度為最強。逼近處理單元53通過預定函數逼近預定時間段的頻譜圖中由峰值檢測單元52檢測的峰值周圍的信號分量的強度(例如功率頻譜)。基于逼近處理單元53逼近的預定函數和峰值檢測單元52檢測的峰值周圍的功率頻譜之間的距離(誤差),音調程度計算單元54計算通過量化對應于預定時間段的頻譜圖上的音調指標而獲得的音調程度。輸出單元55保持音調程度計算單元54計算的對應于預定時間段的頻譜圖上的音調程度。輸出單元55將保持的全部時間段的頻譜圖上的音調程度供應給特征量計算單元34,作為裁剪單元31裁剪的對應于預定時間的輸入信號的音調指標。如上所述,針對時間頻率域中的每個預定時間段,并且針對每個單元頻率,計算裁剪單元31裁剪的對應于預定時間的輸入信號上具有音調程度(元素)的音調指標。[特征量計算單元的配置]
接下來,參考圖3來描述圖I所示的特征量計算單元34的詳細配置。圖3的特征量計算單元34包括積分單元71、相加單元72和輸出單元73。積分單元71 針對每個單元頻率求取滿足來自指標計算單元33的音調指標上的預定條件的音調程度的積分,并且將積分結果供應給相加單元72。相加單元72將滿足預定條件的積分值相加到來自積分單元71的每個單元頻率的音調程度的積分值,并且將相加結果供應給輸出單元73。輸出單元73對來自相加單元72的相加值執行預定計算,并且將計算結果輸出到音樂片段確定單元35,作為裁剪單元31裁剪的對應于預定時間的輸入信號的特征量。〈2.音樂片段檢測過程>接下來,參考圖4的流程圖來描述音樂片段檢測設備11的音樂片段檢測過程。當從外部裝置等將輸入信號輸入到音樂片段檢測設備11時,音樂片段檢測過程開始。進一步,輸入信號在時間方面被持續輸入到音樂片段檢測設備U。裁剪單元31從輸入信號中裁剪對應于預定時間(例如2秒)的信號,并且將裁剪的信號供應給時間頻率變換單元32。裁剪的對應于預定時間的輸入信號在下文中被適當地稱為“塊”。在步驟S12中,使用諸如漢寧(Hann)窗之類的窗函數,或者使用離散傅里葉變換(DFT)等,時間頻率變換單元32將來自裁剪單元31的對應于預定時間的輸入信號(塊)變換成頻譜圖,并且將頻譜圖供應給指標計算單元33。這里,窗函數不限于漢寧窗,而是可以使用正弦窗或漢明(Hamming)窗。進一步,本發明不限于DFT,而是可以使用離散余弦變換(DCT)。進一步,變換的頻譜圖可以是功率頻譜、振幅頻譜和對數振幅頻譜中的任何一個。進一步,為了增加頻率分辨率,通過用零填充進行過采樣,頻率變換長度可以增加以大于(例如兩倍或四倍于)窗長。在步驟S13中,指標計算單元33執行指標計算過程,并從而在頻譜圖的每個時間頻率域中根據來自時間頻率變換單元32的輸入信號的頻譜圖來計算輸入信號的音調指標。[指標計算過程的細節]這里,參考圖5的流程圖來描述圖4的流程圖的步驟S13中的指標計算過程的細節。在步驟S31中,指標計算單元33的時間段選擇單元51在來自時間頻率變換單元32的輸入信號的頻譜圖中選擇任何一個幀的頻譜圖,并且將選擇的頻譜圖供應給峰值檢測單元52。例如,幀長為16毫秒。在步驟S32中,在對應于時間段選擇單元51選擇的一個幀的頻譜圖中的頻帶附近,峰值檢測單元52檢測峰值,所述峰值是時間頻率域中的點,在所述點處,每個頻帶上的信號分量的功率頻譜(強度)為最強。例如,在圖6的上側所示的被變換到時間頻率域中的輸入信號的頻譜圖(一個四邊形(方塊)表示每個幀的每個頻率的頻譜)中,在粗體方塊所指示的某個幀的某個頻率處檢測圖6的下側所示的峰值p (具體而言,由表示峰值p的圓圈包圍的頻譜當中的最大頻譜)。實際上,圖6的上側所示的方塊在縱向方向上的數目等于圖6的下側所示的頻譜在頻率方向(水平軸方向)上的數目(黑圓圈的數目)。
在步驟S33中,逼近處理單元53通過二次函數在對應于時間段選擇單元51選擇的一個幀的頻譜圖上逼近峰值檢測單元52檢測的峰值周圍的功率頻譜。如上所述,在圖6的下側檢測峰值P,然而成為峰值的功率頻譜并不限于在時間方向上穩定的音調(在下文中稱之為“持久音調”)。由于峰值可能由諸如噪聲、旁瓣、干擾或時變音調之類的信號分量造成,所以基于峰值可能無法適當地計算音調指標。進一步,由于DFT峰值是離散的,所以峰值頻率不一定是真正的峰值頻率。根據J. O.Smith III 和 X. Serra 在 Proc. ICMC,87 中的文獻“PARSHL :Aprogram for analysis/synthesis of inharmonic sounds based on a sinusoidalrepresentation”,某個巾貞中的峰值周圍的對數振幅頻譜的值可以通過二次函數來逼近,而不管它是音樂還是人語音。這樣一來,在本技術中,就通過二次函數來逼近峰值周圍的對數振幅頻譜。 進一步,在本技術中,在以下假定之下確定峰值是否由持久音調造成。
·
a)通過在時間方向上擴展二次函數而獲得的函數來逼近持久音調。b)頻率的時間變化經受零階逼近(不變化),因為由音樂造成的峰值在時間方向上持久。c)振幅的時間變化需要在某種程度上允許,并且例如通過二次函數來逼近。這樣一來,持久音調就通過如圖7所示在某個幀中的時間方向上通過擴展二次函數而獲得的隧道式函數(雙二次函數)來建模,并且可以通過關于時間t和頻率《的以下公式(I)來表示。這里,《5表示峰值頻率。[數學式I]g(t,co) = a ( co - co p) 2+ct2+dt+e -(I)這樣一來,例如通過利用最小二乘逼近在聚焦的峰值周圍基于假定a)至c)應用雙二次函數而獲得的誤差就可以用作音調(持久音調)指標。亦即,以下公式(2)可以用作誤差函數。[數學式2]
權利要求
1.一種音樂片段檢測設備,包括 指標計算單元,其基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及 音樂確定單元,其基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。
2.根據權利要求I所述的音樂片段檢測設備,其中,所述指標計算單元包括 最大點檢測單元,其從預定時間段的所述輸入信號中檢測所述信號分量的最大強度點;以及 逼近處理單元,其通過二次函數在所述最大點附近逼近所述信號分量的強度,并且 基于所述信號分量在所述最大點附近的強度和所述二次函數之間的誤差,所述指標計算單元計算所述指標。
3.根據權利要求2所述的音樂片段檢測設備,其中,所述指標計算單元根據所述二次函數的曲率來調整所述指標。
4.根據權利要求2所述的音樂片段檢測設備,其中,所述指標計算單元根據所述二次函數的最大點的頻率來調整所述指標。
5.根據權利要求I所述的音樂片段檢測設備,進一步包括 特征量計算單元,其基于對應于預定時間的輸入信號的每個區域的音調指標,計算對應于所述預定時間的輸入信號的特征量, 其中,當所述特征量大于預定閾值時,所述音樂確定單元確定對應于所述預定時間的輸入信號包括音樂。
6.根據權利要求5所述的音樂片段檢測設備,其中,通過針對每個頻率在時間方向上求取對應于所述預定時間的輸入信號的每個區域的音調指標的積分,所述特征量計算單元計算所述特征量。
7.根據權利要求5所述的音樂片段檢測設備,其中,通過在對應于所述預定時間的輸入信號的每個區域中針對每個頻率求取其中大于預定閾值的音調指標在時間方向上最連續的區域的音調指標的積分,所述特征量計算單元計算所述特征量。
8.根據權利要求5所述的音樂片段檢測設備,進一步包括 濾波處理單元,其在時間方向上對所述特征量進行濾波, 其中,當在時間方向上濾波的所述特征量大于預定閾值時,所述音樂確定單元確定對應于所述預定時間的輸入信號包括音樂。
9.一種檢測音樂片段的方法,包括 基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及 基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。
10.一種使計算機執行以下過程的程序 基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所述信號分量的音調指標;以及 基于所述音調指標確定所述輸入信號的每個區域是否包括音樂。
11.一種記錄如權利要求10所述的程序的記錄介質。
12.—種音樂信號檢測設備,包括指標計算單元,其基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度和通過逼近所述信號分量的強度而獲得的函數,來計算所 述信號分量的音調指標。
全文摘要
本公開涉及音樂片段檢測設備和方法以及音樂信號檢測設備。基于被變換到時間頻率域中的輸入信號的每個區域的信號分量的強度(例如功率頻譜)和通過逼近所述信號分量的強度而獲得的函數(二次函數),指標計算單元計算所述信號分量的音調指標。音樂確定單元基于音調指標確定輸入信號的每個區域是否包括音樂。本技術可以應用于音樂片段檢測設備,該音樂片段檢測設備從其中音樂與噪聲相混合的輸入信號中檢測音樂部分。
文檔編號G10L21/02GK102750947SQ201210107008
公開日2012年10月24日 申請日期2012年4月12日 優先權日2011年4月19日
發明者東山惠祐, 安部素嗣 申請人:索尼公司