專利名稱:一種音樂片段的伸縮抗性區間的計算方法
技術領域:
本發明涉及一種音樂片段的伸縮抗性區間的計算方法,屬于音頻處理技術領域。
背景技術:
隨著21世紀互聯網融入千家萬戶、各行各業,同時數字音樂產業快速增長和發展,人們通過互聯網來獲取音樂,享受音樂,甚至創作音樂的需求也日益增加。音樂重構就是一種允許用戶將一個音樂片段延展或縮短到指定的時間長度的技術,它增強了音樂在不同場景下使用的靈活性,例如為不同時長的影片做背景音樂。而目前的音樂重構技術(包括申請號為201010570241. I和201010570222. 9的發明專利)只關心如何進行重構,而不關心音樂片段伸縮尺度的限制,即音樂伸縮抗性。音樂伸縮抗性是指在滿足人聽覺感受的自 然、流暢性前提下,對音樂片段進行時域伸縮的最大延展率α_和最小縮短率amin。這種特性表征了音樂片段的可伸縮尺度范圍,是音樂自身結構以及人對音樂的感知之間的重要 聯系,在音樂重構、音樂心理學、語音感知等研究領域都有重要的參考價值,而目前與之直接相關的研究成果很少。
發明內容
本發明的目的是提出一種音樂片段的伸縮抗性區間的計算方法,通過設計一種伸縮抗性類別的非均勻劃分方式,將伸縮抗性離散化表示,然后再提取音樂片段的內容特征,利用分類模型來解決伸縮抗性的計算問題。最后,利用機器學習技術和音樂風格信息對計算方法進行優化,從而實現音樂伸縮抗性計算的目標。本發明提出的音樂片段的伸縮抗性區間的計算方法,包括以下步驟(I)選擇多個不同風格的音樂片段,由多人進行試聽實驗,根據個人聽覺的舒適度確定每個音樂片段的伸縮抗性值,根據多個音樂片段的伸縮抗性值建立一個音樂伸縮抗性數據集,進而得到音樂伸縮抗性數據集中伸縮抗性分布直方圖H,其中橫坐標為伸縮抗性值,從O. 00到2. 00,縱坐標為伸縮抗性值出現的頻數;(2)對上述分布直方圖H進行等面積切分,將伸縮抗性值中的最大延展率α _和最小縮短率amin各劃分為1*個子區間,將每個子區間定義為一個伸縮抗性類別,得到伸縮抗性類別的集合L,具體過程如下(2-1)令m為音樂伸縮抗性數據集中音樂片段總數,則每個伸縮抗性類別含有的音樂片段數為令抗性類別集合L為空,設判斷邊界值W=L 00,初始化伸縮抗性區間的下界 R1qw=O. 00,上界 Rup = w ;(2-2)對伸縮抗性區間的下界Rlw進行判斷,若Rlw彡W,則得到伸縮抗性類別的集合L,若R1ot〈w且R1ot ^ Rup,則停止當前計算直到得到伸縮抗性類別的集合L,若R1ot〈w且Rlmt〈Rup,從上述分布直方圖H的伸縮抗性區間[Rlmt,Rup)中找到頻數最高的伸縮抗性值ax,并從分布直方圖H得到相應的出現頻數Fx ;(2-3)對上述出現頻數Fx進行判斷,若Fx〈mavg,則進行步驟(2_4),若Fx彡mavg,則使抗性類別集合L=L U {〈αχ,αχ+δ>},其中δ為不同伸縮抗性值之間的最小距離,即分布直方圖H中橫坐標相鄰刻度的距離,U表示對集合求并集的操作;然后同時分別執行兩步,其一是令伸縮抗性區間的下界Rltw保持不變,伸縮抗性區間的上界Rup= αχ-δ,再重復步驟(2-2),其二是令伸縮抗性區間的上界Rup保持不變,伸縮抗性區間的下界Rlmt=Ci χ+ δ,再重復步驟(2-2);直到上述步驟(2-2)中,Rlow≥W,得到伸縮抗性類別的集合L,或R1ot〈w且Rlow ^ Rup,停止當前計算直到得到伸縮抗性類別的集合L ;(2-4)設定一個抗性指示變量q,q的取值為從伸縮抗性區間的下界Rlw開始以分布直方圖H中相鄰伸縮抗性值之間的最小距離δ遞增,且q〈Rup,計算分布直方圖H中從下界Rlmt到q的所有伸縮抗性值出現的頻數的和S,得到結果S ≥ mavg,或q ^ Rup,對得到的結果進行判斷,若S≥mavg,則令L=L U {<Rl0W, q+ δ >},Rlow = q+ δ,q=Rlow,重復本步驟,直到q≥Rup≥q≥Rup,則令L=L U {〈R1(W,q>},并停止重復本步驟,直到步驟(2-2)得到伸縮抗性類別的集合L ;(2-5)令步驟(2-1)中的判斷邊界值w=2.0,初始化伸縮抗性區間的下界Rlow=L 00,上界Rup=w,執行步驟(2-2),添加對a _的伸縮抗性類別劃分,得到總的伸縮抗性類別的集合L ;(3)從抗性類別集合L中,得到與音樂伸縮抗性數據集中每個音樂片段的伸縮抗性值相對應的類別,分別對每個音樂片段作出類別標注Rmin和Rmax,分別提取每個音樂片段的音頻內容特征,音頻內容特征包括頻譜時域特征、梅爾倒譜系數和色度,并將頻譜時域特征、梅爾倒譜系數和色度的組合作為該音樂片段的與Rmin分類對應的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應的特征向量;(4)對步驟(3)得到的每個音樂片段的特征向量進行泛化處理令Xmin(Mi)表示與上述音樂伸縮抗性數據集中與Rmin分類對應的第i個音樂片段的特征向量,則(Xmin(M1),…,Xfflin(Mn)I表示與音樂伸縮抗性數據集中與Rmin分類對應的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第j個維度出現的最大值maXj和最小值mirij,使Xj = (xj-mirij)/(maxj-mirij),其中Xj為上述特征向量集合中各個特征向量的第j個維度的特征值;同理,令{Xmax (M1),…,Xmax (Mn)}表示與Rmax分類對應的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第P個維度的最大值maxp和最小值minp,使Xp= (xp-minp)/(maxp-minp),其中xp為該特征向量集合中各個特征向量第P個維度的特征值;(5)定義音樂伸縮抗性數據集中,具有步驟(3)標注的相同伸縮抗性類別的音樂片段滿足伸縮抗性相似關系,記該相似關系為Must-Link,具有步驟(3)標注的不同伸縮抗性類別的音樂片段滿足伸縮抗性相異關系,記該相異關系為Cannot-Link,建立一個優化目標函數g⑷對A=Σ 7U所Μ Σ ])Λ .^m^
(Mj ,Mj ^Nhisf-Link(Xj ,Xj )eCannot-Link其中A為待求解的對角矩陣,DA_dm& (mf ,) = ^Y^k=l Akk (mik -m丨、,初始化時,設
對角矩陣A中所有對角元為l,d為特征向量的維數,利用梯度下降算法,迭代求解對角矩陣A,對角矩陣A中的對角元即為特征向量各維度的權重Akk ;(6)從待處理的音樂片段中提取頻譜時域特征、梅爾倒譜系數和色度,并將頻譜時域特征、梅爾倒譜系數和色度的組合作為待處理音樂片段的與Rmin分類對應的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應的特征向量;根據上述步驟(4)計算得到的特征向量集合中各向量的第s個維度的最大值maxs和最小值mins,以及第s個維度的特征向量值Xs,并采用步驟(4)的泛化處理方法,對待處理的音樂片段的特征向量進行泛化處理,得到待處理音樂片段的特征向量;
(7)設定待處理音樂片段的音樂風格;(8)根據上述步驟(5)得到的特征向量各維度的權重Akk,計算待處理音樂片段Hlu與上述音樂伸縮抗性數據集中各個音樂片段&的相異程度ψ ,
__|θ,當與mr風格相同
權利要求
1.一種音樂片段的伸縮抗性區間的計算方法,其特征在于該方法包括以下步驟 (1)選擇多個不同風格的音樂片段,由多人進行試聽實驗,根據個人聽覺的舒適度確定每個音樂片段的伸縮抗性值,根據多個音樂片段的伸縮抗性值建立一個音樂伸縮抗性數據集,進而得到音樂伸縮抗性數據集中伸縮抗性分布直方圖H,其中橫坐標為伸縮抗性值,從O.OO到2. 00,縱坐標為伸縮抗性值出現的頻數; (2)對上述分布直方圖H進行等面積切分,將伸縮抗性值中的最大延展率amax和最小縮短率amin各劃分為1*個子區間,將每個子區間定義為一個伸縮抗性類別,得到伸縮抗性類別的集合L,具體過程如下 (2-1)令m為音樂伸縮抗性數據集中音樂片段總數,則每個伸縮抗性類別含有的音樂片段數為令抗性類別集合L為空,設判斷邊界值W=L 00,初始化伸縮抗性區間的下界 Ricw=O. 00,上界 Rup=W ; (2-2)對伸縮抗性區間的下界R1ot進行判斷,若R1otS W,則得到伸縮抗性類別的集合L,若R1 Jw且R1ot彡Rup,則停止當前計算直到得到伸縮抗性類別的集合L,若R1ot〈w且R1 JRup,從上述分布直方圖H的伸縮抗性區間[R1m,Rup)中找到頻數最高的伸縮抗性值Cix,并從分布直方圖H得到相應的出現頻數Fx ; (2-3)對上述出現頻數Fx進行判斷,若Fx〈mavg,則進行步驟(2-4),若Fx > mavg,則使抗性類別集合L=L U {<αχ, αχ+δ>},其中δ為不同伸縮抗性值之間的最小距離,即分布直方圖H中橫坐標相鄰刻度的距離,U表示對集合求并集的操作;然后同時分別執行兩步,其一是令伸縮抗性區間的下界Rlmt保持不變,伸縮抗性區間的上界Rup=a χ_ δ,再重復步驟(2-2),其二是令伸縮抗性區間的上界Rup保持不變,伸縮抗性區間的下界Rlmt= αχ+δ,再重復步驟(2-2);直到上述步驟(2-2沖,R1ot彡W,得到伸縮抗性類別的集合L,或R1ot〈w且Rlw彡Rup,停止當前計算直到得到伸縮抗性類別的集合L ; (2-4)設定一個抗性指示變量q,q的取值為從伸縮抗性區間的下界Rlw開始以分布直方圖H中相鄰伸縮抗性值之間的最小距離δ遞增,且q〈Rup,計算分布直方圖H中從下界R1ot到q的所有伸縮抗性值出現的頻數的和S,得到結果S ^ mavg,或q ^ Rup,對得到的結果進行判斷,若 S 彡 mavg,則令 L=L U {<Rl0W, q+ δ >},Rlow = q+ δ,q=Rlow,重復本步驟,直到 q 彡 Rup ;若q彡Rup,則令L=L U {〈RlM,q>},并停止重復本步驟,直到步驟(2-2)得到伸縮抗性類別的集合L ; (2-5)令步驟(2-1)中的判斷邊界值w=2. 0,初始化伸縮抗性區間的下界Rlw=L 00,上界Rup=w,執行步驟(2-2),添加對a max的伸縮抗性類別劃分,得到總的伸縮抗性類別的集合L ; (3)從抗性類別集合L中,得到與音樂伸縮抗性數據集中每個音樂片段的伸縮抗性值相對應的類別,分別對每個音樂片段作出類別標注Rmin和Rmax,分別提取每個音樂片段的音頻內容特征,音頻內容特征包括頻譜時域特征、梅爾倒譜系數和色度,并將頻譜時域特征、梅爾倒譜系數和色度的組合作為該音樂片段的與Rmin分類對應的特征向量,將頻譜時域特征和色度的組合作為該音樂片段的與Rmax分類對應的特征向量; (4)對步驟(3)得到的每個音樂片段的特征向量進行泛化處理令Xmin(Mi)表示與上述音樂伸縮抗性數據集中與Rmin分類對應的第i個音樂片段的特征向量,則(Xmin(M1),…,Xfflin(Mn)I表示與音樂伸縮抗性數據集中與Rmin分類對應的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第j個維度出現的最大值ma\和最小值Hiinj,使Xj=(Xj-Hiinj)/(maxj-mirij),其中Xj為上述特征向量集合中各個特征向量的第j個維度的特征值;同理,令{Xmax (M1),…,Xmax (Mn)}表示與Rmax分類對應的所有音樂片段的特征向量集合,分別計算該特征向量集合中各向量的第P個維度的最大值maxp和最小值minp,使Xp= (xp-minp)/(maxp-minp),其中xp為該特征向量集合中各個特征向量第P個維度的特征值; (5)定義音樂伸縮抗性數據集中,具有步驟(3)標注的相同伸縮抗性類別的音樂片段滿足伸縮抗性相似關系,記該相似關系為Must-Link,具有步驟(3)標注的不同伸縮抗性類別的音樂片段滿足伸縮抗性相異關系,記該相異關系為Cannot-Link,建立一個優化目標函數g⑷
全文摘要
本發明涉及一種音樂片段的伸縮抗性區間的計算方法,屬于音頻處理技術領域。首先建立音樂伸縮抗性數據集,得到伸縮抗性分布直方圖,對其進行等面積切分形成伸縮抗性類別,提取多種音頻內容特征形成音樂片段的特征向量,并進行泛化處理,并求解出對角矩陣,使用音樂風格區分音樂片段的相異程度,在K近鄰判別下,計算出待處理片段的伸縮抗性區間。本發明方法首次提出對音樂伸縮抗性的量化表示方法,以音頻內容特征為主,以音樂風格為輔,并結合機器學習的策略實現了對音樂伸縮抗性區間的計算,具有較高精確度,且操作簡潔,它能夠直接被用于音樂重構算法中的參數估計,和音樂心理學、語音感知中關于人感知音樂片段的特性的研究。
文檔編號G11B20/14GK102831910SQ201210247939
公開日2012年12月19日 申請日期2012年7月17日 優先權日2012年7月17日
發明者王朝坤, 陳俊 申請人:清華大學