來自音樂音頻信號的拍子、和弦和強拍的評估的制作方法
【專利摘要】提供了服務器系統500,其用于接收具有用于在該服務器系統處理的相關聯的音頻/音樂音軌的視頻片段。該系統包括:拍子跟蹤模塊,其用于識別音頻信號中的拍子時刻(ti),以及和弦變化估計模塊,其用于從在所述拍子時刻(ti)的所述音頻信號中的色度重音信息確定和弦變化似然。此外,提供了基于第一重音和第二重音的估計模塊,其用于使用各自不同算法從在所述拍子時刻(ti)的所述音頻信號確定各自的基于第一重音和第二重音的強拍似然值。處理的最后階段使用預定義的基于分數的算法識別在拍子時刻(ti)出現的強拍,該預定義的基于分數的算法采用在所述拍子時刻(ti)的和弦變化似然和所述基于第一重音和第二重音的強拍似然的數值表示作為輸入。
【專利說明】來自音樂音頻信號的拍子、和弦和強拍的評估
【技術領域】
[0001] 本發明涉及用于音頻信號分析的方法和系統,以及特別是涉及用于識別音樂信號 中的強拍的方法和系統。
【背景技術】
[0002] 在音樂術語中,強拍是小節線劃分的節(還被稱為小節)的第一拍或脈沖。它頻 繁地,盡管不總是,攜帶有節奏的循環的最強重音。因為當舞者使他們的移動跟隨音樂時, 音樂家演奏音樂以及為舞者伴奏,因此對于音樂家而言,強拍是重要的。
[0003] 有許多實際應用,在該實際應用中,期望的是從音樂音頻信號識別強拍的時間位 置。此類應用包含:音樂推薦應用,在音樂推薦應用中,搜索與參考音軌類似的音樂,在唱片 節目選播員(DJ)應用中,其中例如,要求在播放列表中的歌曲之間的無縫拍子混合過渡, 以及要求以自動循環技術。
[0004] 在使用強拍以幫助同步自動視頻場景剪輯至音樂上有意義的點中,已經識別了特 別有用的應用。例如,在從與相同音樂表演有關的不同源獲得多個視頻(具有音頻)片段的 地方,將期望的是,自動加入來自不同源的片段以及以美觀的方式提供視頻片段,就像創建 專業音樂視頻的方式。在這種情況下,有利的是,將視頻鏡頭之間的切換同步到音樂強拍。
[0005] 以下詞語用于理解下面描述的某些概念。
[0006] 首商:首符的基本頻率(fQ)的生理關聯。
[0007] 色度(Chroma),還被稱為音級(pitch class):由屬于共同音級的整數八度分離 的音樂音高。在西方音樂中,使用12音級。
[0008] 拍子或基本拍(tactus):音樂中的時間的基本單位,它能夠被認為是速率,當聽 到一段音樂時,大多數人在該速率將使他們的腳輕打地面。該詞語還用于表示屬于單個拍 子的音樂部分。
[0009] 音樂速度:以每分鐘拍子數(BPM)為單位表示的拍子或基本拍脈沖的速率。
[0010] 小節或小節線劃分的節:被定義成給定時間期間的給定數目的拍子的時間分割。 例如,在具有4/4拍子記號的音樂中,每個小節包括4個拍子。
[0011] 強拍:小節或小節線劃分的節的第一拍子。
[0012] 重音或基于重音的音頻分析:分析音頻信號以檢測音樂中的事件和/或變化,包 含但不限于所有離散聲音事件的開始,尤其是長音高聲音的起始,音色(timbre)的響度中 的突然變化,以及和聲變化。以下給出進一步的細節。
[0013] 音樂節拍的人感知涉及推斷來自音樂強音(即重音)的時刻的脈沖的有規律的模 式。重音是由音樂中的各種事件導致的,包含所有離散聲音事件的開始,尤其是長音高聲音 的起始,響度或音色中的突然變化,以及和聲變化。自動音樂速度、拍子或強拍估計器可以 通過測量音樂音頻加重、估計潛在脈沖的時間段和階段以及選擇對應于音樂速度或感興趣 的一些其它韻律水平的水平,來試圖模仿音樂節拍的人感知。因為重音與音樂中的事件有 關,因此基于重音的音頻分析指的是音樂中的事件和/或變化的檢測。此類變化可以與信 號的響度、頻譜和/或音高內容中的變化有關。作為示例,基于重音的分析可以有關于檢測 來自信號的頻譜變化、計算來自該信號的新奇度或起始檢測函數、檢測來自該信號的離散 起始或檢測該信號的音高和/或和聲內容中的變化,例如使用色度特征。當執行頻譜變化 檢測時,可以使用各種變換或濾波器組分解,諸如快速傅里葉變換或多速率濾波器組,或甚 至基本頻率f〇或音高顯著估計器。作為簡單示例,可以通過計算在信號上的短幀中的一組 頻帶上的信號的短時能量,以及接著計算每兩個相鄰幀之間的差,諸如歐式距離,來執行重 音檢測。為了增加針對各種音樂類型的魯棒性,已經開發了許多不同重音信號分析方法。
[0014] 下文中將描述的系統和方法利用在以下出版物中描述的背景知識,通過引用將以 下出版物并入本文。
【權利要求】
1. 裝置,包括: 拍子跟蹤模塊,其用于識別音頻信號中的拍子時刻(ti); 和弦變化估計模塊,其用于從在所述拍子時刻(ti)或在所述拍子時刻(ti)之間的所述 音頻信號確定至少一個和弦變化似然; 基于第一重音的估計模塊,其用于從在所述拍子時刻(ti)或在所述拍子時刻(ti)之間 的所述音頻信號確定至少一個基于第一重音的強拍似然;以及 強拍識別器,其用于使用在所述拍子時刻(ti)或在所述拍子時刻(ti)之間的所確定的 和弦變化似然和所述基于第一重音的強拍似然來識別在拍子時刻(ti)出現的強拍。
2. 根據權利要求1所述的裝置,其中所述強拍識別器被配置為使用預定義的基于分數 的算法,該預定義的基于分數的算法采用在所述拍子時刻(tj或在所述拍子時刻(tj之間 的所確定的和弦變化似然和所述基于第一重音的強拍似然的數值表示作為輸入。
3. 根據權利要求1所述的裝置,其中所述強拍識別器被配置為使用基于判決的邏輯電 路,該基于判決的邏輯電路采用在所述拍子時刻(tj或在所述拍子時刻(tj之間的所確定 的和弦變化似然和所述基于第一重音的強拍似然的數值表示作為輸入。
4. 根據任何前述權利要求所述的裝置,其中所述拍子跟蹤模塊被配置為從所述音頻信 號提取重音特征以生成重音信號,從所述重音信號來估計所述音頻信號的音樂速度以及從 所述音樂速度和所述重音信號來估計所述拍子時刻(t)。
5. 根據權利要求4所述的裝置,其中所述拍子跟蹤模塊被配置為:借助于基于基本頻 率(&)的顯著性分析提取色度重音特征,來生成所述重音信號。
6. 根據權利要求4所述的裝置,其中所述拍子跟蹤模塊被配置為:借助于所述音頻信 號的多速率濾波器組類型分解,來生成所述重音信號。
7. 根據權利要求2所述的裝置,其中所述拍子跟蹤模塊被配置為:借助于基于基本頻 率顯著性分析提取色度重音特征結合所述音頻信號的多速率濾波器組類型分解,生成所述 重音信號。
8. 根據任何前述權利要求所述的裝置,其中所述和弦變化估計模塊使用預定義的算 法,該預定義的算法采用在當前拍子時刻(tj或在當前拍子時刻(tj之間的音高色度的值 以及在之前的和/或隨后拍子時刻或在之前的和/或隨后拍子時刻之間的音高色度的一個 或多個值作為輸入。
9. 根據權利要求8所述的裝置,其中所述預定義的算法采用在所述當前拍子時刻(tj 或在所述當前拍子時刻Ui)之間以及在預定數目的在前和隨后拍子時刻或在預定數目的 在前和隨后拍子時刻之間的音高色度的值作為輸入,以使用差的和或相似性計算來生成和 弦變化似然。
10. 根據權利要求8或權利要求9所述的裝置,其中所述預定義的算法采用在當前的以 及在前和/或隨后的拍子時刻或在當前的以及在前和/或隨后的拍子時刻之間的平均音高 色度的值作為輸入。
11. 根據權利要求10所述的裝置,其中所述預定義的算法被定義成:
其中X是色度或音級的數目,y是在前拍子時刻的數目以及Z是隨后拍子時刻的數目。
12. 根據權利要求8至11中的任何一項所述的裝置,其中所述和弦變化估計模塊被配 置為:借助于基于基本頻率(&)的顯著性分析提取色度特征來計算所述音高色度或平均音 高色度。
13. 根據任何前述權利要求所述的裝置,所述裝置還包括:基于第二重音的估計模塊, 其用于從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號確定基于第二, 不同的,重音的強拍似然,以及其中所述強拍識別器還被配置為采用所述基于第二重音的 強拍似然作為至所述基于分數的算法的輸入。
14. 根據權利要求13所述的裝置,其中基于重音的估計模塊中的一個基于重音的估計 模塊被配置為將從針對所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號提 取色度重音特征應用于預定義的似然算法或變換,使用基本頻率(f〇)的顯著性分析來提取 所述色度重音特征。
15. 根據權利要求14所述的裝置,其中所述基于重音的估計模塊中的另一個基于重音 的估計模塊被配置為將從所述音頻信號的多個子帶中的每個子帶提取的重音特征應用于 預定義的似然算法或變換。
16. 根據權利要求14或權利要求15所述的裝置,其中所述重音估計模塊或每個重音估 計模塊被配置為在所述拍子時刻(tj或在所述拍子時刻(tj之間將所述重音特征應用于 線性判別分析(LDA)變換,以獲得各自的基于重音的數字似然。
17. 根據任何前述權利要求所述的裝置,所述裝置還包括:用于在輸入到所述強拍識 別器之前正規化和弦變化似然以及所述基于重音的強拍似然或每個基于重音的強拍似然 的值的構件。
18. 根據權利要求17所述的裝置,其中所述正規化構件被配置為使用值的最大絕對值 除這些值中的每個值。
19. 根據任何前述權利要求所述的裝置,其中所述強拍識別器被配置為:針對一組拍 子時刻中的每個時刻,生成表示或包含所述和弦變化似然值和所述基于重音的強拍似然或 每個基于重音的強拍似然的和的分數,以及從在所述一組拍子時刻上的最高的生成的似然 值來識別強拍。
20. 根據權利要求19所述的裝置,其中所述強拍識別器應用以下算法:
s(tn)是拍子時亥Ij tn,tn+M,tn+2M,· · ·,的集合,M是小節中的拍子的數目,以及wc,Wa和Wm 分別是針對所述和弦變化概率、基于第一重音的強拍似然和基于第二重音的強拍似然的權 重。
21. 根據任何前述權利要求所述的裝置,所述裝置包括: 用于接收多個視頻片段的構件,每個視頻片段具有各自的具有共同內容的音頻信號; 以及 視頻編輯模塊,其用于使用所識別的強拍來識別針對所述視頻片段的可能的編輯點。
22. 根據權利要求21所述的裝置,其中所述視頻編輯模塊還被配置為:在一個或多個 編輯點加入多個視頻片段以生成加入的視頻片段。
23. 用于處理音頻信號的裝置,所述裝置包括: 拍子跟蹤模塊,其用于識別所述音頻信號中的拍子時刻(h); 和弦變化估計模塊,其用于從在所述拍子時刻(h)或在所述拍子時刻(tj之間的所述 音頻信號中的色度重音信息確定至少一個和弦變化似然; 基于第一重音和第二重音的估計模塊,其用于使用各自不同的算法從在所述拍子時刻 (tj或在所述拍子時刻(tj之間的所述音頻信號確定各自的基于第一重音和第二重音的 強拍似然值;以及 強拍識別器,其用于使用在所述拍子時刻(t)或在所述拍子時刻(tj之間的和弦變化 似然的數值表示和所述基于第一重音和第二重音的強拍似然值來識別在拍子時刻(h)出 現的強拍。
24. -種方法,包括: 識別音頻信號中的拍子時刻(tj ; 從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號確定至少一個和 弦變化似然; 從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號確定至少一個基 于第一重音的強拍似然;以及 使用在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述和弦變化似然和所述基 于第一重音的強拍似然來識別在拍子時刻(tj出現的強拍。
25. 根據權利要求24所述的方法,其中識別強拍使用預定義的基于分數的算法,該預 定義的基于分數的算法采用在所述拍子時刻(tj或在所述拍子時刻(tj之間的所確定的 和弦變化似然和所述基于第一重音的強拍似然的數值表示作為輸入。
26. 根據權利要求24所述的方法,其中識別強拍使用基于判決的邏輯,該基于判決的 邏輯采用在所述拍子時刻(tj或在所述拍子時刻(tj之間的所確定的和弦變化似然和所 述基于第一重音的強拍似然的數值表示作為輸入。
27. 根據權利要求24至26中的任何一項所述的方法,其中識別拍子時刻(tj包括:從 所述音頻信號提取重音特征以生成重音信號,從所述重音信號來估計所述音頻信號的音樂 速度以及從所述音樂速度和所述重音信號來估計所述拍子時刻(tj。
28. 根據權利要求27所述的方法,包括:借助于基于基本頻率(&)的顯著性分析提取 色度重音特征來生成所述重音信號。
29. 根據權利要求28所述的方法,包括:借助于所述音頻信號的多速率濾波器組類型 分解,來生成所述重音信號。
30. 根據權利要求28或權利要求29所述的方法,包括:借助于基于基本頻率顯著性分 析提取色度重音特征結合所述音頻信號的多速率濾波器組類型分解,生成所述重音信號。
31. 根據權利要求24至30中的任何一項所述的方法,其中確定和弦變化似然使用預定 義的算法,該預定義的算法采用在當前拍子時刻(tj或在當前拍子時刻(tj之間的音高色 度的值以及在之前的和/或隨后拍子時刻U i)或在之前的和/或隨后拍子時刻Ui)之間 的音高色度的一個或多個值作為輸入。
32. 根據權利要求31所述的方法,其中所述預定義的算法采用在當前拍子時刻(h)或 在當前拍子時刻Ui)之間以及在預定數目的在前和隨后拍子時刻或在預定數目的在前和 隨后拍子時刻之間的音高色度的值作為輸入,以使用差的和或相似性計算來生成和弦變化 似然。
33. 根據權利要求31或權利要求32所述的方法,其中所述預定義的算法采用在當前的 以及在前和/或隨后的拍子時刻或在當前的以及在前和/或隨后的拍子時刻之間的平均音 高色度的值作為輸入。
34. 根據權利要求33所述的方法,其中所述預定義的算法被定義成:
其中X是色度或音級的數目,y是在前拍子時刻的數目以及z是隨后拍子時刻的數目。
35. 根據權利要求31至34中的任何一項所述的方法,其中確定和弦變化似然借助于基 于基本頻率(4)的顯著性分析提取色度特征來計算所述音高色度或平均音高色度。
36. 根據權利要求24至35中的任何一項所述的方法,還包括:從在所述拍子時刻(tj 或在所述拍子時刻(tj之間的所述音頻信號確定的基于第二,不同的,重音的強拍似然,以 及其中識別強拍還包括采用所述基于第二重音的強拍似然作為至所述基于分數的算法的 輸入。
37. 根據權利要求36所述的方法,其中確定所述基于重音的強拍似然中的一個基于重 音的強拍似然包括:將從針對所述拍子時刻(h)或在所述拍子時刻(tj之間的所述音頻信 號提取色度重音特征應用于預定義的似然算法或變換,使用基本頻率(f〇)的顯著性分析來 提取所述色度重音特征。
38. 根據權利要求37所述的方法,其中確定所述基于重音的強拍似然中的另一個基于 重音的強拍似然包括:將從所述音頻信號的多個子帶中的每個子帶提取的重音特征應用于 預定義的似然算法或變換。
39. 根據權利要求37或權利要求38所述的方法,其中確定所述基于重音的強拍似然包 括:在所述拍子時刻(tj或在所述拍子時刻(tj之間將所述重音特征應用于線性判別分析 (LDA)變換,以獲得各自的基于重音的數字似然。
40. 根據權利要求24至39中的任何一項所述的方法,還包括:在識別強拍之前正規化 和弦變化似然以及所述基于重音的強拍似然或每個基于重音的強拍似然的值。
41. 根據權利要求40所述的方法,其中所述正規化步驟包括:使用值的最大絕對值除 這些值中的每個值。
42. 根據權利要求24至41中的任何一項所述的方法,其中識別強拍包括:針對一組拍 子時刻中的每個時刻,生成表示或包含所述和弦變化似然值和所述基于重音的強拍似然或 每個基于重音的強拍似然的和的分數,以及從在所述一組拍子時刻上的最高的生成的似然 值來識別強拍。
43. 根據權利要求42所述的方法,其中識別強拍使用以下算法:
其中S(tn)是拍子時刻tn,tn+M,tn+2M,...,的集合,M是小節中的拍子的數目,以及WyW a 和wm分別是針對所述和弦變化概率、基于第一重音的強拍似然和基于第二重音的強拍似然 的權重。
44. 一種處理視頻片段的方法,所述方法包括: 接收多個視頻片段,每個視頻片段具有各自的具有共同內容的音頻信號; 執行根據權利要求20至35中的任何一項所述的方法以識別強拍;以及 使用所識別的強拍來識別針對所述視頻片段的編輯點。
45. 根據權利要求44所述的方法,還包括:在所述編輯點處加入多個視頻片段以生成 加入的視頻片段。
46. 一種方法,包括: 識別音頻信號中的拍子時刻(tj ; 從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號中的色度重音信 息確定至少一個和弦變化似然; 使用各自不同的算法從在所述拍子時刻(h)的所述音頻信號確定各自的基于第一重 音和第二重音的強拍似然值;以及 使用在所述拍子時刻(h)或在所述拍子時刻(tj之間的和弦變化似然的數值表示和 所述基于第一重音和第二重音的強拍似然值來識別在拍子時刻(tj出現的強拍。
47. -種包括指令的計算機程序,當由計算機裝置運行該指令時,該指令控制所述計算 機裝置執行權利要求24至46中的任何一項所述的方法。
48. -種非短暫性的計算機可讀存儲介質,該非短暫性的計算機可讀存儲介質具有存 儲在其上的計算機可讀代碼,當由計算裝置運行該計算機可讀代碼時,該計算機可讀代碼 使得所述計算裝置執行一種方法,所述方法包括: 識別音頻信號中的拍子時刻(ti); 從在所述拍子時刻(ti)或在所述拍子時刻(ti)之間的所述音頻信號確定至少一個和 弦變化似然; 從在所述拍子時刻(ti)或在所述拍子時刻(ti)之間的所述音頻信號確定至少一個基 于第一重音的強拍似然;以及 使用在所述拍子時刻(ti)或在所述拍子時刻(ti)之間的和弦變化似然和所述基于第 一重音的強拍似然的數值表示來識別在拍子時刻(ti)出現的強拍。
49. 裝置,所述裝置具有至少一個處理器以及至少一個存儲器,所述至少一個存儲器具 有存儲在其上的計算機可讀代碼,當運行所述計算機可讀代碼時,所述計算機可讀代碼控 制所述至少一個處理器: 識別音頻信號中的拍子時刻(tj ; 從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號確定至少一個和 弦變化似然; 從在所述拍子時刻(tj或在所述拍子時刻(tj之間的所述音頻信號確定至少一個基 于第一重音的強拍似然;以及 使用在所述拍子時刻(h)或在所述拍子時刻(tj之間的和弦變化似然和所述基于第 一重音的強拍似然的數值表示來識別在拍子時刻(h)出現的強拍。
【文檔編號】G10H1/40GK104395953SQ201280074293
【公開日】2015年3月4日 申請日期:2012年4月30日 優先權日:2012年4月30日
【發明者】A·J·埃羅寧 申請人:諾基亞公司