本發(fā)明涉及一種時(shí)間序列分析方法。特別是涉及一種將張量分解技術(shù)與多線性自回歸模型相結(jié)合對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)的基于多線性自回歸模型的時(shí)間序列分析方法。
背景技術(shù):
可接觸的數(shù)據(jù)近些年在數(shù)量、速度以及種類方面正在以指數(shù)級(jí)的方式增長(zhǎng),這種增長(zhǎng)的趨勢(shì)在科學(xué)界正面臨著各種各樣的挑戰(zhàn),在可接觸的數(shù)據(jù)當(dāng)中一種重要的數(shù)據(jù)表現(xiàn)形式就是時(shí)間序列。時(shí)間序列就是在一段時(shí)間內(nèi)由一組連續(xù)的測(cè)量值組成的一系列數(shù)據(jù)點(diǎn)。在過(guò)去的十年時(shí)間中,挖掘時(shí)間序列已經(jīng)成為一個(gè)非常有前景的研究領(lǐng)域。對(duì)時(shí)間序列的分析任務(wù)主要包括以下幾種:預(yù)測(cè)、監(jiān)測(cè)、反饋控制、異常檢測(cè)、聚類、分類以及分割;涵蓋了環(huán)境學(xué)、生態(tài)學(xué)、生物學(xué)、生物醫(yī)學(xué)、氣象學(xué)、計(jì)算機(jī)視覺(jué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域。
建模和預(yù)測(cè)時(shí)間序列數(shù)據(jù)已經(jīng)成為當(dāng)前時(shí)間序列分析的一個(gè)主流方向。時(shí)間序列預(yù)測(cè)就是依據(jù)以前的觀察值去預(yù)測(cè)一個(gè)系統(tǒng)的演變行為。在對(duì)時(shí)間序列進(jìn)行分析中主要面臨著三種挑戰(zhàn):語(yǔ)境制約、時(shí)域平滑性和數(shù)據(jù)高維度。語(yǔ)境制約是指許多真實(shí)的時(shí)間序列數(shù)據(jù)受到語(yǔ)境信息的影響,尤其是針對(duì)感官網(wǎng)絡(luò)時(shí)間序列的分析。時(shí)域平滑性指的是沿著時(shí)間維度相鄰觀察值之間的相關(guān)性。數(shù)據(jù)高維度主要是指時(shí)間序列數(shù)據(jù)是由高維的數(shù)組組成的。時(shí)間序列數(shù)據(jù)的數(shù)學(xué)結(jié)構(gòu)形式不僅僅局限于向量和矩陣的形式,而且也包括多維度的數(shù)據(jù)形式例如張量。張量是高階向量和矩陣的一種概括形式,對(duì)向量和矩陣提供了一種非常有用的表現(xiàn)形式,例如可以用四階的張量時(shí)間序列去對(duì)氣象學(xué)上的時(shí)空網(wǎng)格海洋數(shù)據(jù)進(jìn)行建模,張量的四個(gè)維度分別表示緯度、經(jīng)度、高度和時(shí)間。
當(dāng)前已經(jīng)提出了大量的技術(shù)去分析時(shí)間序列,主要可以分為含參數(shù)的方法和無(wú)參數(shù)的方法兩大類。含參數(shù)的方法假設(shè)依賴于充足的先驗(yàn)知識(shí)潛在的時(shí)間序列模型可以用一個(gè)含有未知參數(shù)的參數(shù)模型去描述。相比之下,無(wú)參數(shù)的方法通過(guò)在沒(méi)有任何特定結(jié)構(gòu)下估計(jì)譜線密度、條件均值、高階條件矩和條件密度去減少參數(shù)估計(jì)的過(guò)程。然而,最普遍的將張量時(shí)間序列數(shù)據(jù)遷移成向量或者矩陣的方法不僅容易造成維數(shù)災(zāi)難,而且也會(huì)破壞數(shù)據(jù)結(jié)構(gòu)造成相鄰數(shù)據(jù)間關(guān)系信息的遺失。
在近些年隨著張量分解技術(shù)的完善和日趨成熟,已經(jīng)提出了許多基于張量分解技術(shù)去分析張量時(shí)間序列的方法。這些方法可以保存時(shí)間序列的高維數(shù)據(jù)結(jié)構(gòu)信息不造成信息的丟失,也可以解決語(yǔ)境制約的問(wèn)題。同時(shí)由于自回歸模型在處理大范圍的時(shí)間序列結(jié)構(gòu)數(shù)據(jù)時(shí)展現(xiàn)了強(qiáng)有力的優(yōu)越性和靈活性,為了同時(shí)的解決時(shí)間序列分析中所面臨的語(yǔ)境制約、時(shí)域平滑性、數(shù)據(jù)高維度這三種挑戰(zhàn),在本發(fā)明中我們?cè)趶埩糠纸獾目蚣芟聦⒆曰貧w模型推廣到張量中去各項(xiàng)異性的處理時(shí)間序列的空域維度和時(shí)域維度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是,提供一種保持了時(shí)間序列在時(shí)域上的連續(xù)性的基于多線性自回歸模型的時(shí)間序列分析方法。
本發(fā)明所采用的技術(shù)方案是:一種基于多線性自回歸模型的時(shí)間序列分析方法,包括如下步驟:
1)將時(shí)間序列編碼為張量;
2)將最初的張量變換為一個(gè)維度減少的形式;
3)對(duì)獲得的維度減少形式的張量應(yīng)用自回歸模型去保持時(shí)域上的連續(xù)性;
4)動(dòng)態(tài)學(xué)習(xí)步驟2)~3)更新結(jié)果直到算法收斂,結(jié)果達(dá)到最優(yōu)。
步驟1)包括:將N+1維的時(shí)間序列X,表示為一個(gè)N+1階的張量形式其中I1,I2,…,IN表示時(shí)間序列中除時(shí)間維度外的其他維度,T表示時(shí)間序列的時(shí)間維度,用Xt表示X的第t個(gè)時(shí)間切片。
步驟2)包括:利用張量Tucker分解去提取最初的時(shí)間序列中潛在的變量或者成分用于捕獲時(shí)間序列最顯著的特征并移除數(shù)據(jù)中的冗余信息,具體是尋找N個(gè)映射矩陣去建立潛在張量Y的第t個(gè)時(shí)間切片Yt和時(shí)間序列X第t個(gè)時(shí)間切片Xt之間的聯(lián)系,形式如下:
步驟3)包括:
(1)對(duì)潛在張量Y的時(shí)域依賴性進(jìn)行建模,引入m階自回歸模型AR(m)去保存潛在張量Y的時(shí)間連續(xù)性:
其中εt是高斯白噪聲滿足εt~N(0,Σt),N為高斯分布,Σt是白噪聲的協(xié)方差張量滿足Σt=Var(εt),Var表示方差形式,是自回歸模型的模型參數(shù);
(2)基于m階自回歸模型函數(shù)得到以下的噪音協(xié)方差張量表達(dá)式:
(3)采用最大似然估計(jì)法去估計(jì)自回歸模型的模型參數(shù)得到基于噪音協(xié)方差張量的Yule-Waler方程:
(4)通過(guò)利用自回歸模型去最大化真實(shí)觀測(cè)值與預(yù)測(cè)值之間的協(xié)方差相關(guān)性,得到以下的目標(biāo)函數(shù):
該式中Cov(Yt|·)測(cè)量真實(shí)潛在張量與預(yù)測(cè)潛在張量之間的條件協(xié)方差相關(guān)性,為了盡可能多的保存信息并控制未知變量的尺度,是目標(biāo)函數(shù)的正交性限制條件。
(5)只要估計(jì)出了自回歸模型的模型參數(shù)噪音協(xié)方差張量的累積范數(shù)由下式計(jì)算得出:
(6)用噪音協(xié)方差張量的累積范數(shù)代替目標(biāo)函數(shù),最優(yōu)化的問(wèn)題轉(zhuǎn)化為如下形式:
(7)求解目標(biāo)函數(shù):
令則的等價(jià)形式表示為:
該式中
用拉格朗日乘子法和特征值分解法去最小化所述的目標(biāo)函數(shù),引入交替下降算法首先固定U2,U3,…UN,得到:
該目標(biāo)函數(shù)相對(duì)于映射矩陣U1的偏導(dǎo)數(shù)由下式計(jì)算得出:
在式中u1j是矩陣的廣義特征向量,λ1j是相應(yīng)的特征值;
同樣,固定映射矩陣U1,…,Ui-1…Ui+1…UN,得到目標(biāo)函數(shù)關(guān)于映射矩陣Ui的偏導(dǎo)數(shù):
在該式中uij是矩陣的廣義特征向量,λij是相應(yīng)的特征值。
步驟4)具體是在最后將步驟2)和步驟3)整合到一個(gè)動(dòng)態(tài)學(xué)習(xí)框架中使步驟2)和步驟3)的學(xué)習(xí)過(guò)程隨著時(shí)間進(jìn)行更新,直到結(jié)果達(dá)到最優(yōu)。
本發(fā)明的基于多線性自回歸模型的時(shí)間序列分析方法,在去除時(shí)間序列空域中的噪聲和冗余信息的同時(shí),控制了時(shí)間序列時(shí)域信息之間的內(nèi)在聯(lián)系,保持了時(shí)間序列在時(shí)域上的連續(xù)性。本發(fā)明提升了對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)的準(zhǔn)確性,尤其是針對(duì)高維度的時(shí)間序列預(yù)測(cè)問(wèn)題。
附圖說(shuō)明
圖1是本發(fā)明基于多線性自回歸模型的時(shí)間序列分析方法的流程圖;
圖2是本發(fā)明實(shí)施例實(shí)驗(yàn)結(jié)果示意圖;
圖3是本發(fā)明中自回歸模型參數(shù)m與預(yù)測(cè)誤差的關(guān)系;
圖4是本發(fā)明算法的收斂性與算法迭代次數(shù)的關(guān)系。
具體實(shí)施方式
下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的基于多線性自回歸模型的時(shí)間序列分析方法做出詳細(xì)說(shuō)明。
本發(fā)明的基于多線性自回歸模型的時(shí)間序列分析方法,為了同時(shí)的解決時(shí)間序列分析中所面臨的語(yǔ)境制約、時(shí)域平滑性、數(shù)據(jù)高維度這三種挑戰(zhàn),在張量分解的框架下將自回歸模型推廣到張量中去各項(xiàng)異性的處理時(shí)間序列的空域維度和時(shí)域維度。通過(guò)在張量分解的框架中引入自回歸模型可以各項(xiàng)異性的對(duì)時(shí)間序列的空域維度以及時(shí)域維度同時(shí)進(jìn)行處理,在去除時(shí)間序列空域中的噪聲和冗余信息的同時(shí),控制了時(shí)間序列時(shí)域信息之間的內(nèi)在聯(lián)系,保持了時(shí)間序列在時(shí)域上的連續(xù)性。本發(fā)明提升了對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)的準(zhǔn)確性。
如圖1所示,本發(fā)明的基于多線性自回歸模型的時(shí)間序列分析方法,包括如下步驟:
1)將時(shí)間序列編碼為張量;包括:
將N+1維的時(shí)間序列X,表示為一個(gè)N+1階的張量形式其中I1,I2,…,IN表示時(shí)間序列中除時(shí)間維度外的其他維度,T表示時(shí)間序列的時(shí)間維度,用Xt表示X的第t個(gè)時(shí)間切片。本發(fā)明的目的就是去找到一個(gè)包含潛在低維度的張量其中J1<I1,J2<I2,…,JN<IN可以最大程度上的保存時(shí)間序列在時(shí)域上的連續(xù)性,J1,J2,…,JN表示時(shí)間序列中除時(shí)間維度外的其他維度,用Yt表示Y的第t個(gè)時(shí)間切片。在得到潛在的張量Y的基礎(chǔ)上,應(yīng)用自回歸模型技術(shù)去建模時(shí)間序列數(shù)據(jù)中的時(shí)域依賴性去預(yù)測(cè)YT+1。
2)將最初的張量變換為一個(gè)維度減少的形式;
雖然將最初的時(shí)間序列表示成了張量形式,但是觀測(cè)到的數(shù)據(jù)經(jīng)常會(huì)伴隨著各種各樣的噪聲以及較高的維度。本發(fā)明中利用張量Tucker分解去提取最初的時(shí)間序列中潛在的變量或者成分用于捕獲時(shí)間序列最顯著的特征并移除數(shù)據(jù)中的冗余信息,具體是尋找N個(gè)映射矩陣去建立潛在張量Y的第t個(gè)時(shí)間切片Yt和時(shí)間序列X第t個(gè)時(shí)間切片Xt之間的聯(lián)系,形式如下:
3)對(duì)獲得的維度減少形式的張量應(yīng)用自回歸模型去保持時(shí)域上的連續(xù)性;包括:
(1)對(duì)潛在張量Y的時(shí)域依賴性進(jìn)行建模,引入m階自回歸模型AR(m)去保存潛在張量Y的時(shí)間連續(xù)性:
其中εt是高斯白噪聲滿足εt~N(0,Σt),N為高斯分布,Σt是白噪聲的協(xié)方差張量滿足Σt=Var(εt),Var表示方差形式,是自回歸模型的模型參數(shù);
(2)基于m階自回歸模型函數(shù)得到以下的噪音協(xié)方差張量表達(dá)式:
(3)采用最大似然估計(jì)法去估計(jì)自回歸模型的模型參數(shù)得到基于噪音協(xié)方差張量的Yule-Waler方程:
(4)通過(guò)利用自回歸模型去最大化真實(shí)觀測(cè)值與預(yù)測(cè)值之間的協(xié)方差相關(guān)性,得到以下的目標(biāo)函數(shù):
該式中Cov(Yt|·)測(cè)量真實(shí)潛在張量與預(yù)測(cè)潛在張量之間的條件協(xié)方差相關(guān)性,為了盡可能多的保存信息并控制未知變量的尺度,是目標(biāo)函數(shù)的正交性限制條件。
(5)只要估計(jì)出了自回歸模型的模型參數(shù)噪音協(xié)方差張量的累積范數(shù)由下式計(jì)算得出:
(6)用噪音協(xié)方差張量的累積范數(shù)代替目標(biāo)函數(shù),最優(yōu)化的問(wèn)題轉(zhuǎn)化為如下形式:
(7)求解目標(biāo)函數(shù):
令則的等價(jià)形式表示為:
該式中
用拉格朗日乘子法和特征值分解法去最小化所述的目標(biāo)函數(shù),引入交替下降算法首先固定映射矩陣U2,U3,…UN,得到:
該目標(biāo)函數(shù)相對(duì)于映射矩陣U1的偏導(dǎo)數(shù)由下式計(jì)算得出:
在式中u1j是矩陣的廣義特征向量,λ1j是相應(yīng)的特征值;
同樣,固定映射矩陣U1,…,Ui-1…Ui+1…UN,得到目標(biāo)函數(shù)關(guān)于映射矩陣Ui的偏導(dǎo)數(shù):
在該式中uij是矩陣的廣義特征向量,λij是相應(yīng)的特征值。
4)動(dòng)態(tài)學(xué)習(xí)步驟2)~3)更新結(jié)果直到算法收斂,結(jié)果達(dá)到最優(yōu)。具體是在最后將步驟2)和步驟3)整合到一個(gè)動(dòng)態(tài)學(xué)習(xí)框架中使步驟2)和步驟3)的學(xué)習(xí)過(guò)程隨著時(shí)間進(jìn)行更新,直到結(jié)果達(dá)到最優(yōu)。
下面以一個(gè)具體的時(shí)間序列預(yù)測(cè)實(shí)驗(yàn)來(lái)驗(yàn)證本發(fā)明方法的有效性,詳見下文描述:
實(shí)驗(yàn)采用的是來(lái)自于海洋浮標(biāo)測(cè)繪的真實(shí)海平面溫度數(shù)據(jù)庫(kù)(SST),該數(shù)據(jù)通過(guò)在太平洋的海面上投放了一批浮標(biāo)采集而來(lái)。該項(xiàng)任務(wù)花費(fèi)了10年的時(shí)間去建立最終在1994年完成,采集到的海洋數(shù)據(jù)每天都要向美國(guó)國(guó)家海洋和大氣管理局(NOAA)的軌道衛(wèi)星中上傳數(shù)次。在本發(fā)明中所用到的數(shù)據(jù)是5×6的海平面溫度網(wǎng)格,該溫度的測(cè)量范圍為西經(jīng)180度北緯5度到西經(jīng)110度南緯5度,測(cè)量時(shí)間從1994年4月26日上午7時(shí)到1994年7月19日上午3時(shí)總共包含了2000個(gè)時(shí)間點(diǎn)。在本發(fā)明中將前1940個(gè)時(shí)間點(diǎn)作為訓(xùn)練集,去預(yù)測(cè)后60個(gè)時(shí)間點(diǎn)。得到實(shí)驗(yàn)結(jié)果如圖2所示。圖中AR、ARMA為基于統(tǒng)計(jì)學(xué)的方法,LDS、MLDS為基于多線性的時(shí)間序列分析方法。通過(guò)圖2可以看出,本發(fā)明的方法明顯的優(yōu)于傳統(tǒng)的時(shí)間序列分析方法,預(yù)測(cè)誤差減少的許多同時(shí)本發(fā)明中所需調(diào)節(jié)的參數(shù)只有自回歸模型參數(shù)m,要比傳統(tǒng)的方法效率提升很多。
圖3是本發(fā)明算法的自回歸模型參數(shù)m與預(yù)測(cè)誤差的關(guān)系,從圖3中可以看出當(dāng)自回歸模型參數(shù)m=39時(shí),算法結(jié)果達(dá)到最優(yōu)。
圖4是本發(fā)明算法的收斂性與算法迭代次數(shù)的關(guān)系,從圖4中可以看出本發(fā)明的方法具有很好的收斂性。