聲音信號中主音高的獲取方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種聲音信號中主音高的獲取方法及系統(tǒng),該方法包括:提供聲音信號并對聲音信號進(jìn)行分幀以形成聲音信號分幀;利用傅里葉變換將所述聲音信號分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號;獲取所述頻域信號中幅度的峰值點(diǎn);計算所述峰值點(diǎn)的諧波和;利用概率轉(zhuǎn)換公式將所述諧波和中的幅度轉(zhuǎn)換為概率,再通過維特比算法選取最強(qiáng)概率的頻率曲線;以及將所述頻率曲線轉(zhuǎn)換為音高,進(jìn)而形成了對應(yīng)所述聲音信號的主音高。本發(fā)明通過計算聲音信號的峰值點(diǎn)、諧波和、以及概率轉(zhuǎn)換公式,進(jìn)而獲得聲音信號的主音高,提高了音高獲取的準(zhǔn)確率,進(jìn)而使得通過音高提取人聲成為可能。本發(fā)明解決了現(xiàn)有采用人耳聽覺識別音高的不準(zhǔn)確的問題。
【專利說明】
聲音信號中主音高的獲取方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音識別領(lǐng)域,特指一種聲音信號中主音高的獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002] 音高是指人耳對聲音調(diào)子高低的主觀感覺,主要取決于頻率的高低與響度的大 小,頻率低的調(diào)子給人以低沉、厚實、粗礦的感覺;頻率高的調(diào)子給人以亮麗、明亮、尖刻的 感覺。目前音高是通過人耳的聽覺來識別的,不能準(zhǔn)確的判斷一段音樂信號的音高,進(jìn)而也 就不能對該音樂信號中的主音高進(jìn)行分離提取、轉(zhuǎn)換等操作了。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種聲音信號中主音高的獲取方法 及系統(tǒng),解決現(xiàn)有技術(shù)中采用人耳聽覺識別音高不準(zhǔn)確而不能對音樂信號中的主音高進(jìn)行 分離提取、轉(zhuǎn)換等操作的問題。
[0004] 實現(xiàn)上述目的的技術(shù)方案是:
[0005] 本發(fā)明一種聲音信號中主音高的獲取方法,包括:
[0006] 獲取聲音信號,對所述聲音信號進(jìn)行分幀以形成聲音信號分幀;
[0007] 利用傅里葉變換將所述聲音信號分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形 成頻域信號;
[0008] 獲取所述頻域信號中幅度的峰值點(diǎn);
[0009] 計算所述峰值點(diǎn)的諧波和;
[0010] 利用概率轉(zhuǎn)換公式將所述諧波和中的幅度轉(zhuǎn)換為概率,再通過維特比算法選取最 強(qiáng)概率的頻率曲線;以及
[0011] 將所述頻率曲線轉(zhuǎn)換為音高,進(jìn)而形成了對應(yīng)所述聲音信號的主音高。
[0012] 本發(fā)明通過計算聲音信號的峰值點(diǎn)、諧波和、以及概率轉(zhuǎn)換公式,進(jìn)而獲得聲音信 號的主首尚,提尚了首尚獲取的準(zhǔn)確率,進(jìn)而使得通過首尚提取人聲成為可能。本發(fā)明解決 了現(xiàn)有采用人耳聽覺識別音高的不準(zhǔn)確的問題,解決了不能對音樂信號中的主音高進(jìn)行分 離提取、轉(zhuǎn)換等操作的問題。
[0013] 本發(fā)明聲音信號中主音高的獲取方法的進(jìn)一步改進(jìn)在于,利用傅里葉變換將所述 聲音信號分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號,包括:
[0014] 利用公式一將所述聲音信號分幀從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號,并畫出對 應(yīng)所述頻域信號的頻域波形;
[0015] 所述公式一為:
[0016]
[0017] 公式一中:x(n)是時項信虧,W(n)是窗凼數(shù),k是頻卒刻度,1是幀數(shù),M窗函數(shù)長度, N是傅里葉變換大小,j的平方是-I,n是信號時域采樣點(diǎn)。
[0018] 本發(fā)明聲音信號中主音高的獲取方法的進(jìn)一步改進(jìn)在于,獲取所述頻域信號中幅 度的峰值點(diǎn),包括:
[0019] 從所述頻域波形中找到峰值點(diǎn),所述頻域波形的橫坐標(biāo)為頻率值,縱坐標(biāo)為幅度 值;
[0020] 利用第一組公式查找距所述峰值點(diǎn)前后一個單位的頻率值所對應(yīng)的幅度值,并與 所述峰值點(diǎn)對應(yīng)的幅度值一起做二次插值;
[0021] 所述第一組公式為:
[0022] Ai = X(km-l)
[0023] A2 = X(km)
[0024] A3 = X(km+l)
[0025]
[0026] 第一組公式中:km是頻率值,AlA^A3是幅度值,d是三個峰值點(diǎn)的二次插值;
[0027]基于第二組公式和所述二次插值對所述峰值點(diǎn)進(jìn)行修正,得到經(jīng)修正的峰值點(diǎn); [0028] 所述第二組公式為:
[0029]
[0030]
[0031 ]第二組公式中是經(jīng)修正的峰值點(diǎn)的頻率值m是經(jīng)修正的峰值點(diǎn)的幅度值,'是 頻率值,A1、A2、A3是幅度值,d是三個峰值點(diǎn)的二次插值;
[0032]從得到的經(jīng)修正的峰值點(diǎn)中選取IOOHZ至1200HZ范圍的峰值點(diǎn)作為候選峰值點(diǎn);
[0033] 計算所述候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。
[0034] 本發(fā)明聲音信號中主音高的獲取方法的進(jìn)一步改進(jìn)在于,計算所述峰值點(diǎn)的諧波 和,包括:
[0035]利用第三組公式計算每一虛擬峰值點(diǎn)的諧波和;
[0036] 所述第三組公式為:
[0037]
[0038]
[0039]第三組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和,γ 是閾值系數(shù)。
[0040] 本發(fā)明聲音信號中主音高的獲取方法的進(jìn)一步改進(jìn)在于,利用概率轉(zhuǎn)換公式將所 述諧波和中的幅度轉(zhuǎn)換為概率,包括:
[0041] 利用所述第三組公式獲取a為2,β為2的β分布,均勻分成100個點(diǎn)的概率表;
[0042] 利用第四組公式統(tǒng)計所述概率表中整體諧波和的均值與標(biāo)準(zhǔn)差;
[0043] 所述第四組公式為:
[0044] K= (HS-H)/〇
[0045] idxl=K*100+0.5
[0046] idx2=min(max( idxl ,0),99)
[0047] p = t[idx2]
[0048] 所述第四組公式中:H是均值,〇是標(biāo)準(zhǔn)差,p是概率,t是概率表。
[0049] 本發(fā)明還提供了一種聲音信號中主音高的獲取系統(tǒng),包括:
[0050] 聲音獲取單元,用于獲取聲音信號;
[0051] 聲音分幀單元,與所述聲音獲取單元連接,用于對所述聲音信號進(jìn)行分幀以形成 聲音信號分幀;
[0052]頻域轉(zhuǎn)換單元,與所述聲音分幀單元連接,用于基于傅里葉變換將所述聲音信號 分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號;
[0053]峰值獲取單元,與所述頻域轉(zhuǎn)換單元連接,用于獲取所述頻域信號中幅度的峰值 占 .
[0054] 諧波和計算單元,與所述峰值獲取單元連接,用于計算所述峰值點(diǎn)的諧波和;
[0055] 概率轉(zhuǎn)換單元,與所述諧波和計算單元連接,用于利用概率轉(zhuǎn)換公式將所述諧波 和中的幅度轉(zhuǎn)換為概率,并通過維特比算法選取最強(qiáng)概率的頻率曲線;以及
[0056] 音高轉(zhuǎn)換單元,與所述概率轉(zhuǎn)換單元連接,用于將所述頻率曲線轉(zhuǎn)換為音高,進(jìn)而 形成了對應(yīng)所述聲音信號的主音高。
[0057]本發(fā)明聲音信號中主音高的獲取系統(tǒng)的進(jìn)一步改進(jìn)在于,還包括有存儲單元,所 述存儲單元內(nèi)存儲有公式一,所述公式一為:
[0058]
[0059] ^ T : ,In HI 千么又,1是幀數(shù),M窗函數(shù)長度, N是傅里葉變換大小,j的平方是-I,n是信號時域采樣點(diǎn);
[0060] 所述頻域轉(zhuǎn)換單元與所述存儲單元連接,所述頻域轉(zhuǎn)換單元利用所述存儲單元內(nèi) 存儲的所述公式一將所述聲音信號分幀從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號,并畫出對應(yīng) 所述頻域信號的頻域波形。
[0061] 本發(fā)明聲音信號中主音高的獲取系統(tǒng)的進(jìn)一步改進(jìn)在于,所述存儲單元內(nèi)還存儲 有第一組公式和第二組公式;
[0062] 所述第一組公式為:
[0063] Ai = X(km-l)
[0064] A2 = X(L)
[0065] A3 = X(km+l)
[0066]
[0067]第一組公式中:km是頻率值,AlA^A3是幅度值,d是三個峰值點(diǎn)的二次插值;
[0068] 所述第二組公式為:
[0069]
[0070]
[0071 ]第二組公式中是經(jīng)修正的峰值點(diǎn)的頻率值^是經(jīng)修正的峰值點(diǎn)的幅度值,'是 頻率值,A1、A2、A3是幅度值,d是三個峰值點(diǎn)的二次插值;
[0072] 所述峰值獲取單元與所述存儲單元連接,所述峰值獲取單元包括有峰值查找模 塊、幅度差值模塊、修正模塊、以及虛擬峰值模塊;
[0073] 所述峰值查找模塊用于從所述頻域波形中找到峰值點(diǎn);
[0074] 所述幅度差值模塊與所述峰值查找模塊連接,用于依據(jù)所述第一組公式查找出距 所述峰值點(diǎn)前后一個單元的頻率值對應(yīng)的幅度值,并與所述峰值點(diǎn)對應(yīng)的幅度值一起做二 次插值;
[0075]所述修正模塊與所述峰值查找模塊和所述幅度差值模塊連接,用于利用所述第二 組公式和所述二次插值對所述峰值點(diǎn)進(jìn)行修正以得到經(jīng)修正的峰值點(diǎn);
[0076]所述虛擬峰值模塊與所述修正模塊連接,用于從得到的經(jīng)修正的峰值點(diǎn)中選取 100HZ至1200HZ范圍的峰值點(diǎn)作為候選峰值點(diǎn),并計算所述候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。
[0077]本發(fā)明聲音信號中主音高的獲取系統(tǒng)的進(jìn)一步改進(jìn)在于,所述存儲單元內(nèi)還存儲 有第三組公式;
[0078] 所述第三組公式為:
[0079]
[0080]
[0081] 第三組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和,γ 是閾值系數(shù);
[0082] 所述諧波和計算單元與所述存儲單元連接,所述諧波和計算單元用于利用所述第 三組公式計算每一虛擬峰值點(diǎn)的諧波和。
[0083] 本發(fā)明聲音信號中主音高的獲取系統(tǒng)的進(jìn)一步改進(jìn)在于,所述存儲單元內(nèi)存儲有 第四組公式;
[0084] 所述第四組公式為:
[0085] K= (HS-H)/〇
[0086] idxl=K*100+0.5
[0087] idx2=min(max( idxl ,0),99)
[0088] p = t[ idx2]
[0089] 所述第四組公式中:H是均值,σ是標(biāo)準(zhǔn)差,p是概率,t是概率表;
[0090] 所述概率轉(zhuǎn)換單元與所述存儲單元連接,所述概率轉(zhuǎn)換單元通過所述第三組公式 獲取a為2,β為2的β分布,均勻分成100個點(diǎn)的概率表,并利用所述第四組公式統(tǒng)計所述概率 表中整體諧波和的均值與標(biāo)準(zhǔn)差。
【附圖說明】
[0091] 圖1為本發(fā)明聲音信號中主音高的獲取系統(tǒng)的系統(tǒng)圖。
[0092] 圖2為本發(fā)明聲音信號中主音高的獲取方法的流程圖。
【具體實施方式】
[0093]下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明。
[0094] 本發(fā)明提供了一種聲音信號中主音高的獲取系統(tǒng)及方法,目的在于準(zhǔn)確的獲取聲 音信號中的主音高,較佳用于獲取音樂信號中的主音高,為從音樂信號中提取人聲提供基 礎(chǔ)。本發(fā)明解決了現(xiàn)有技術(shù)中采用人工聽覺識別音高存在的音高識別不準(zhǔn)確的問題。本發(fā) 明采用將聲波信號轉(zhuǎn)換到頻域內(nèi),并畫出對應(yīng)的頻域波形,再獲取頻域波形的峰值點(diǎn),獲取 峰值點(diǎn)時通過提高頻域的分辨率來提高獲取音高的準(zhǔn)確率。計算峰值點(diǎn)的諧波和,再通過 概率轉(zhuǎn)換將幅度轉(zhuǎn)換為概率,就獲得了每幀的頻率,也就是音高。下面結(jié)合附圖對本發(fā)明聲 音信號中主音高的獲取系統(tǒng)及方法進(jìn)行說明。
[0095] 參閱圖1,顯示了本發(fā)明聲音信號中主音高的獲取系統(tǒng)的系統(tǒng)圖。下面結(jié)合圖1,對 本發(fā)明聲音信號中主音高的獲取系統(tǒng)進(jìn)行說明。
[0096] 如圖1所示,本發(fā)明聲音信號中主音高的獲取系統(tǒng)包括聲音獲取單元11、聲音分幀 單元12、頻域轉(zhuǎn)換單元13、峰值獲取單元14、諧波和計算單元15、概率轉(zhuǎn)換單元16、音高轉(zhuǎn)換 單元17、以及存儲單元18;聲音獲取單元11與聲音分幀單元12連接,聲音分幀單元12與頻域 轉(zhuǎn)換單元13連接,頻域轉(zhuǎn)換單元13與峰值獲取單元14連接,峰值獲取單元14與諧波和計算 單元15連接,諧波和計算單元15與概率轉(zhuǎn)換單元16連接,概率轉(zhuǎn)換單元16與音高轉(zhuǎn)換單元 17連接,聲音獲取單元11、聲音分幀單元12、頻域轉(zhuǎn)換單元13、峰值獲取單元14、諧波和計算 單元15、概率轉(zhuǎn)換單元16、以及音高轉(zhuǎn)換單元17均與存儲單元18連接。
[0097] 聲音獲取單元11用于獲取聲音信號,所獲取的聲音信號可以是音樂信號,該音樂 信號為多種音高旋律的混合體。聲音獲取單元11可以是麥克風(fēng),通過錄制的方式獲取聲音 信號,也可以是聲音輸入設(shè)備,通過輸入以聲波形式的聲音信號而獲取對應(yīng)的聲音信號。
[0098] 聲音分幀單元12接收到聲音獲取單元11獲取的聲音信號,聲音分幀單元12用于對 該聲音信號進(jìn)行分幀以形成聲音信號分幀,一般以30ms為一幀對聲音信號進(jìn)行分幀處理, 經(jīng)分幀處理的聲音信號成為以時間幀為劃分單位的聲音信號分幀。
[0099]頻域轉(zhuǎn)換單元13接收到聲音分幀單元12的聲音信號分幀,該頻域轉(zhuǎn)換單元13利用 傅里葉變換將聲音信號分幀的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號。頻域轉(zhuǎn)換 單元13還將頻域信號以公式一畫出頻域波形,該頻域信號的波形圖是以頻率為X軸,以幅度 為Y軸的頻域圖。公式一存儲在存儲單元18內(nèi),該公式一為:
[0100]
[0101]在公式一中:χ(η)是時域信號,w(n)是窗函數(shù),k是頻率刻度,1是幀數(shù),M窗函數(shù)長 度,N是傅里葉變換大小,j的平方是-l,n是信號時域采樣點(diǎn);
[0102] 頻域轉(zhuǎn)換單元13調(diào)取存儲單元18內(nèi)存儲的公式一,利用公式一將聲音信號分幀從 時域轉(zhuǎn)換到頻域內(nèi),形成頻域信號并畫出對應(yīng)該頻域信號的頻域波形。
[0103] 峰值獲取單元14接收到頻域轉(zhuǎn)換單元13的頻域信號和頻域波形,峰值獲取單元14 用于獲取頻域信號中的幅度的峰值點(diǎn),頻域波形的波形圖是以頻率為X軸,以幅度為Y軸。峰 值獲取單元14通過第一組公式和第二組公式提高頻域的分辨率,提升獲取的峰值點(diǎn)的準(zhǔn)確 率,以提高音高獲取的準(zhǔn)確率。第一組公式和第二組公式存儲在存儲單元18內(nèi),該第一組公
式為:
[0104]
[0105]
[0106]
[0107]
[0108]在第一組公式中:km是頻率值,AlA^A3是幅度值,d是三個峰值點(diǎn)的二次插值; [0109] 該第二組公式為:
[0110]
[0111]
[0112] 在第二組公式中:是經(jīng)修正的峰值點(diǎn)的頻率值,&是經(jīng)修正的峰值點(diǎn)的幅度值,km 是頻率值,A1、A2、A3是幅度值,d是三個峰值點(diǎn)的二次插值,其中的六 2是頻率值km對應(yīng)的幅度 值,六:是頻率值kfl對應(yīng)的幅度值,A3是頻率值km+1對應(yīng)的幅度值;
[0113] 峰值獲取單元14包括有峰值查找模塊、幅度差值模塊、修正模塊、以及虛擬峰值模 塊;
[0114] 峰值查找模塊用于從頻域波形中找到峰值點(diǎn),峰值點(diǎn)為幅度較高的點(diǎn),峰值點(diǎn)的 橫坐標(biāo)是頻率值km,縱坐標(biāo)是幅度值A(chǔ)2 ;
[0115] 幅度差值模塊與峰值查找模塊連接,用于依據(jù)第一組公式查找出距峰值點(diǎn)前后一 個單元的頻率值1^_ I、km+1對應(yīng)的幅度值A(chǔ)1、A3,并與峰值點(diǎn)對應(yīng)的幅度值A(chǔ) 2-起做二次插 值,得到了二次插值d;
[0116] 修正模塊與峰值查找模塊和幅度差值模塊連接,用于利用第二組公式和二次插值 d對峰值點(diǎn)進(jìn)行修正以得到經(jīng)修正的峰值點(diǎn),該經(jīng)修正的峰值點(diǎn)的橫坐標(biāo)是頻率值i縱坐 , 標(biāo)是幅度值α · ?
[0117] 虛擬峰值模塊與修正模塊連接,用于從得到的經(jīng)修正的峰值點(diǎn)中選取100HZ至 1200ΗΖ范圍的峰值點(diǎn)作為候選峰值點(diǎn),并計算候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。計算虛擬峰 值點(diǎn)如下:
[0118] 得到的峰值點(diǎn)中選取100ΗΖ到1200ΗΖ中的峰值點(diǎn)作為候選項,假設(shè)兩個峰值點(diǎn)對 應(yīng)的虛擬峰值點(diǎn)(Π,al)、( f 2,a2)的第h次諧波、第h+Ι次諧波;則有h = fl/ (f 2-f 1),則對應(yīng) 的虛擬峰值點(diǎn)為(H/h,aO),aO通過檢測前一幀中相近候選峰值點(diǎn)的幅度來近似,如果沒有 相近的峰值點(diǎn)則刪除。同樣的,繼續(xù)假設(shè)h和h+2次諧波來計算虛擬峰值點(diǎn)。
[0119] 諧波和計算單元15接收到峰值獲取單元14得出的虛擬峰值點(diǎn),諧波和計算單元15 用于計算該虛擬峰值點(diǎn)的諧波和,該諧波和計算單元15利用第三組公式計算每一虛擬峰值 點(diǎn)的諧波和。該第三組公式為:
[0120]
[0121]
[0122] 第三組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和,γ 是閾值系數(shù)。
[0123] 概率轉(zhuǎn)換單元16接收到諧波和計算單元15得出的諧波和,該概率轉(zhuǎn)換單元16利用 概率轉(zhuǎn)換公式將諧波和中的幅度轉(zhuǎn)換為概率,轉(zhuǎn)換為概率后再通過維特比算法選取最強(qiáng)概 率的頻率曲線。該概率轉(zhuǎn)換公式以第四組公式存儲在存儲單元18內(nèi),該第四組公式為:
[0124] K= (HS-H)/〇
[0125] idxl=K*100+0.5
[0126] idx2=min(max( idxl ,0),99)
[0127] p = t[idx2]
[0128] 在第四組公式中:H是均值,σ是標(biāo)準(zhǔn)差,p是概率,t是概率表;
[0129] 概率轉(zhuǎn)換單元16通過第三組公式獲取a為2,β為2的β分布,均勻分成100個點(diǎn)的概 率表t,并利用第四組公式統(tǒng)計概率表t中整體諧波和的均值與標(biāo)準(zhǔn)差,就形成了對應(yīng)諧波 和的概率p。
[0130] 音高轉(zhuǎn)換單元17接收到概率轉(zhuǎn)換單元16得到的頻率曲線,該音高轉(zhuǎn)換單元17將頻 率曲線中的每一幀的頻率值轉(zhuǎn)換為音高,較佳地,對頻率曲線中的每一幀的頻率值求log即 為音高,進(jìn)而形成了對應(yīng)聲音信號的主音高。
[0131] 下面對本發(fā)明音樂信號中主音高的獲取方法進(jìn)行說明。
[0132] 本發(fā)明音樂信號中主音高的獲取方法,包括以下步驟:
[0133] 執(zhí)行步驟S21,獲取聲音信號并進(jìn)行分幀形成聲音信號分幀,提供的聲音信號可以 是音樂信號,該音樂信號為多種音高旋律的混合體。可以通過麥克風(fēng)錄制的方式提供聲音 信號,也可以是通過聲音輸入設(shè)備輸入以聲波形式的聲音信號而獲取對應(yīng)的聲音信號。一 般以30ms為一幀對聲音信號進(jìn)行分幀處理,經(jīng)分幀處理的聲音信號成為以時間幀為劃分單 位的聲音信號分幀。接著執(zhí)行步驟S22。
[0134] 執(zhí)行步驟S22,利用傅里葉變換將聲音信號分幀從時域轉(zhuǎn)換到頻域,通過傅里葉變 換將聲音信號分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號。利用傅里葉變換 將聲音信號分幀中的每一幀信號從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號,包括:
[0135] 利用公式一將聲音信號分幀從時域轉(zhuǎn)換到頻域內(nèi)以形成頻域信號,并畫出對應(yīng)頻 域信號的頻域波形;
[0136] 該公式-^ki ·
[0137]
[0138] 在公式一中:X(n)是時域信號,w(n)是窗函數(shù),k是頻率刻度,1是幀數(shù),M窗函數(shù)長 度,N是傅里葉變換大小,j的平方是-l,n是信號時域采樣點(diǎn)。接著執(zhí)行步驟S23。
[0139] 執(zhí)行步驟S23,獲取頻域信號中幅度的峰值點(diǎn),獲取該頻域信號中幅度的峰值點(diǎn), 包括:
[0140] 從頻域波形中找到峰值點(diǎn),頻域波形的橫坐標(biāo)為頻率值,縱坐標(biāo)為幅度值;
[0141] 利用第一組公式查找距所述峰值點(diǎn)前后一個單位的頻率值所對應(yīng)的幅度值,并與 所述峰值點(diǎn)對應(yīng)的幅度值一起做二次插值;
[0142] 該第一組公式為:
[0143] Ai = X(km-l)
[0144] A2 = X(km)
[0145] A3 = X(km+l)
[0146]
[0147] 在第一組公式中:km是頻率值,A1、A2、A3是幅度值,d是三個峰值點(diǎn)的二次插值,其 中的六 2是頻率值km對應(yīng)的幅度值,六:是頻率值km-1對應(yīng)的幅度值,A3是頻率值km+1對應(yīng)的幅 度值;
[0148] 基于第二組公式和二次插值對所述峰值點(diǎn)進(jìn)行修正,得到經(jīng)修正的峰值點(diǎn);
[0149] 第二組公式為:
[0150]
[0151]
[0152] 在第二組公式中:是經(jīng)修正的峰值點(diǎn)的頻率值,&是經(jīng)修正的峰值點(diǎn)的幅度值,km 是頻率值,A1、A2、A3是幅度值,d是三個峰值點(diǎn)的二次插值;
[0153] 通過第一組公式將原始信號補(bǔ)充三倍大小都零然后做fft,然后對找到的峰值點(diǎn) 做二次插值。在通過第二組公式對峰值點(diǎn)進(jìn)行修正。
[0154] 從得到的經(jīng)修正的峰值點(diǎn)中選取100HZ至1200HZ范圍的峰值點(diǎn)作為候選峰值點(diǎn); 計算所述候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。具體地,從得到的峰值點(diǎn)中選取100HZ至1200HZ范 圍的峰值點(diǎn)作為候選項,同時計算候選項的虛擬峰值點(diǎn),假設(shè)兩個峰值點(diǎn)對應(yīng)的虛擬峰值 點(diǎn)(Π,al)、(f2,a2)的第h次諧波、第h+Ι次諧波;則有h = f l/(f2-fl),則對應(yīng)的虛擬峰值點(diǎn) 為(fl/h,a0),a0通過檢測前一幀中相近候選峰值點(diǎn)的幅度來近似,如果沒有相近的峰值點(diǎn) 則刪除。同樣的,繼續(xù)假設(shè)h和h+2次諧波來計算虛擬峰值點(diǎn)。接著執(zhí)行步驟S24。
[0155] 執(zhí)行步驟S24,計算峰值點(diǎn)的諧波和,以得到所有峰值點(diǎn)的諧波和。計算峰值點(diǎn)的 諧波和,包括:
[0156] 利用第三組公式計算每一虛擬峰值點(diǎn)的諧波和;
[0157] 該第三組公式為:
[0158]
[0159]
[0160]在第三組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和, γ是閾值系數(shù)。接著執(zhí)行步驟S25。
[0161]執(zhí)行步驟S25,利用概率轉(zhuǎn)換公式將諧波和中的幅度轉(zhuǎn)換為概率,選取最強(qiáng)概率的 頻率曲線,利用概率轉(zhuǎn)換公式將所述諧波和中的幅度轉(zhuǎn)換為概率,包括:
[0162 ]利用第三組公式獲取a為2,β為2的β分布,均勻分成100個點(diǎn)的概率表t;
[0163] 利用第四組公式統(tǒng)計概率表t中整體諧波和的均值與標(biāo)準(zhǔn)差;
[0164] 該第四組公式為:
[0165] K= (HS-H)/〇
[0166] idxl=K*100+0.5
[0167] idx2=min(max( idxl ,0),99)
[0168] p = t[idx2]
[0169] 在第四組公式中:H是均值,σ是標(biāo)準(zhǔn)差,p是概率,t是概率表。
[0170] 再通過維特比算法選取最強(qiáng)概率的頻率曲線。接著執(zhí)行步驟S26。
[0171 ]執(zhí)行步驟S26,將頻率曲線轉(zhuǎn)換為音高,對頻率曲線中的每幀的頻率求log,即獲得 了音高,進(jìn)而形成了對應(yīng)聲音信號的主音高。
[0172]以上結(jié)合附圖實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域中普通技術(shù)人員可根據(jù)上 述說明對本發(fā)明做出種種變化例。因而,實施例中的某些細(xì)節(jié)不應(yīng)構(gòu)成對本發(fā)明的限定,本 發(fā)明將以所附權(quán)利要求書界定的范圍作為本發(fā)明的保護(hù)范圍。
【主權(quán)項】
1. 一種聲音信號中主音高的獲取方法,其特征在于,包括: 獲取聲音信號,對所述聲音信號進(jìn)行分帖W形成聲音信號分帖; 利用傅里葉變換將所述聲音信號分帖中的每一帖信號從時域轉(zhuǎn)換到頻域內(nèi)W形成頻 域信號; 獲取所述頻域信號中幅度的峰值點(diǎn); 計算所述峰值點(diǎn)的諧波和; 利用概率轉(zhuǎn)換公式將所述諧波和中的幅度轉(zhuǎn)換為概率,再通過維特比算法選取最強(qiáng)概 率的頻率曲線;W及 將所述頻率曲線轉(zhuǎn)換為音高,進(jìn)而形成了對應(yīng)所述聲音信號的主音高。2. 如權(quán)利要求1所述的聲音信號中主音高的獲取方法,其特征在于,利用傅里葉變換將 所述聲音信號分帖中的每一帖信號從時域轉(zhuǎn)換到頻域內(nèi)W形成頻域信號,包括: 利用公式一將所述聲音信號分帖從時域轉(zhuǎn)換到頻域內(nèi)W形成頻域信號,并畫出對應(yīng)所 述頻域信號的頻域波形; 所述公式一為:公式一中:x(n)是時域信號,w(n)是窗函數(shù),k是頻率刻度,1是帖數(shù),Μ窗函數(shù)長度,N是 傅里葉變換大小,j的平放是-1,η是信號時域采樣點(diǎn)。3. 如權(quán)利要求2所述的聲音信號中主音高的獲取方法,其特征在于,獲取所述頻域信號 中幅度的峰值點(diǎn),包括: 從所述頻域波形中找到峰值點(diǎn),所述頻域波形的橫坐標(biāo)為頻率值,縱坐標(biāo)為幅度值; 利用第一組公式查找距所述峰值點(diǎn)前后一個單位的頻率值所對應(yīng)的幅度值,并與所述 峰值點(diǎn)對應(yīng)的幅度值一起做二次插值; 所述第一組公式為: Ai=X(km-l) A2 = X(km) A3 = X(km+l)第一組公式中:km是頻率值,Ai、A2、A3是幅度值,d是Ξ個峰值點(diǎn)的二次插值; 基于第二組公式和所述二次插值對所述峰值點(diǎn)進(jìn)行修正,得到經(jīng)修正的峰值點(diǎn); 所述第二組公式為:第二組公式中:^;^是經(jīng)修正的峰值點(diǎn)的頻率值,^是經(jīng)修正的峰值點(diǎn)的幅度值古。是頻率 值,Ai、A2、A3是幅度值,(1是;個峰值點(diǎn)的二次插值; 從得到的經(jīng)修正的峰值點(diǎn)中選取100監(jiān)至1200監(jiān)范圍的峰值點(diǎn)作為候選峰值點(diǎn); 計算所述候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。4. 如權(quán)利要求3所述的聲音信號中主音高的獲取方法,其特征在于,計算所述峰值點(diǎn)的 諧波和,包括: 利用第Ξ組公式計算每一虛擬峰值點(diǎn)的諧波和; 所述第Ξ組公式為:第Ξ組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和,丫是闊 值系數(shù)。5. 如權(quán)利要求4所述的聲音信號中主音高的獲取方法,其特征在于,利用概率轉(zhuǎn)換公式 將所述諧波和中的幅度轉(zhuǎn)換為概率,包括: 利用所述第Ξ組公式獲取a為2,β為2的β分布,均勻分成100個點(diǎn)的概率表; 利用第四組公式統(tǒng)計所述概率表中整體諧波和的均值與標(biāo)準(zhǔn)差; 所述第四組公式為: Κ=化 S-H)/〇 idxl=K*100+0.5 idx2=min(max(idxl ,0) ,99) p = t[idx2] 所述第四組公式中:Η是均值,ο是標(biāo)準(zhǔn)差,p是概率,t是概率表。6. -種聲音信號中主音高的獲取系統(tǒng),其特征在于,包括: 聲音獲取單元,用于獲取聲音信號; 聲音分帖單元,與所述聲音獲取單元連接,用于對所述聲音信號進(jìn)行分帖W形成聲音 信號分帖; 頻域轉(zhuǎn)換單元,與所述聲音分帖單元連接,用于基于傅里葉變換將所述聲音信號分帖 中的每一帖信號從時域轉(zhuǎn)換到頻域內(nèi)W形成頻域信號; 峰值獲取單元,與所述頻域轉(zhuǎn)換單元連接,用于獲取所述頻域信號中幅度的峰值點(diǎn); 諧波和計算單元,與所述峰值獲取單元連接,用于計算所述峰值點(diǎn)的諧波和; 概率轉(zhuǎn)換單元,與所述諧波和計算單元連接,用于利用概率轉(zhuǎn)換公式將所述諧波和中 的幅度轉(zhuǎn)換為概率,并通過維特比算法選取最強(qiáng)概率的頻率曲線;w及 音高轉(zhuǎn)換單元,與所述概率轉(zhuǎn)換單元連接,用于將所述頻率曲線轉(zhuǎn)換為音高,進(jìn)而形成 了對應(yīng)所述聲音信號的主音高。7. 如權(quán)利要求6所述的聲音信號中主音高的獲取系統(tǒng),其特征在于,還包括有存儲單 元,所述存儲單元內(nèi)存儲有公式一,所述公式一為:公式一中:x(n)是時域信號,w(n)是窗函數(shù),k是頻率刻度,1是帖數(shù),Μ窗函數(shù)長度,N是 傅里葉變換大小,j的平方是-1,η是信號時域采樣點(diǎn); 所述頻域轉(zhuǎn)換單元與所述存儲單元連接,所述頻域轉(zhuǎn)換單元利用所述存儲單元內(nèi)存儲 的所述公式一將所述聲音信號分帖從時域轉(zhuǎn)換到頻域內(nèi)W形成頻域信號,并畫出對應(yīng)所述 頻域信號的頻域波形。8. 如權(quán)利要求7所述的聲音信號中主音高的獲取系統(tǒng),其特征在于,所述存儲單元內(nèi)還 存儲有第一組公式和第二組公式; 所述第一組公式為: Ai = X(km-l) A2 二 X 化m) A3 = X(km+l)第一組公式中:km是頻率值,Ai、A2、A3是幅度值,d是Ξ個峰值點(diǎn)的二次插值; 所述第二組公式為:第二組公式中:4是經(jīng)修正的峰值點(diǎn)的頻率值,^是經(jīng)修正的峰值點(diǎn)的幅度值,心是頻 率值,Ai、Α2、A3是幅度值,d是Ξ個峰值點(diǎn)的二次插值; 所述峰值獲取單元與所述存儲單元連接,所述峰值獲取單元包括有峰值查找模塊、幅 度差值模塊、修正模塊、W及虛擬峰值模塊; 所述峰值查找模塊用于從所述頻域波形中找到峰值點(diǎn); 所述幅度差值模塊與所述峰值查找模塊連接,用于依據(jù)所述第一組公式查找出距所述 峰值點(diǎn)前后一個單元的頻率值對應(yīng)的幅度值,并與所述峰值點(diǎn)對應(yīng)的幅度值一起做二次插 值; 所述修正模塊與所述峰值查找模塊和所述幅度差值模塊連接,用于利用所述第二組公 式和所述二次插值對所述峰值點(diǎn)進(jìn)行修正W得到經(jīng)修正的峰值點(diǎn); 所述虛擬峰值模塊與所述修正模塊連接,用于從得到的經(jīng)修正的峰值點(diǎn)中選取100HZ 至1200監(jiān)范圍的峰值點(diǎn)作為候選峰值點(diǎn),并計算所述候選峰值點(diǎn)對應(yīng)的虛擬峰值點(diǎn)。9. 如權(quán)利要求8所述的聲音信號中主音高的獲取系統(tǒng),其特征在于,所述存儲單元內(nèi)還 存儲有第Ξ組公式; 所述第Ξ組公式為:第Ξ組公式中:β是衰減參數(shù),I待計算的諧波階數(shù),ε是選擇函數(shù),HS是諧波和,丫是闊 值系數(shù); 所述諧波和計算單元與所述存儲單元連接,所述諧波和計算單元用于利用所述第Ξ組 公式計算每一虛擬峰值點(diǎn)的諧波和。10. 如權(quán)利要求9所述的聲音信號中主音高的獲取系統(tǒng),其特征在于,所述存儲單元內(nèi) 存儲有第四組公式; 所述第四組公式為: Κ=化 S-H)/〇 idxl=K*100+0.5 idx2=min(max(idxl ,0) ,99) p = t[idx2] 所述第四組公式中:Η是均值,ο是標(biāo)準(zhǔn)差,p是概率,t是概率表; 所述概率轉(zhuǎn)換單元與所述存儲單元連接,所述概率轉(zhuǎn)換單元通過所述第Ξ組公式獲取 a為2,β為2的β分布,均勻分成100個點(diǎn)的概率表,并利用所述第四組公式統(tǒng)計所述概率表中 整體諧波和的均值與標(biāo)準(zhǔn)差。
【文檔編號】G10L21/14GK105845149SQ201610156616
【公開日】2016年8月10日
【申請日】2016年3月18日
【發(fā)明人】曹裕行
【申請人】上海語知義信息技術(shù)有限公司