一種基于復雜網絡理論的適用于分類的時間序列特征提取方法
【專利摘要】本發明的目的在于提供一種基于復雜網絡理論的適用于分類的時間序列特征提取方法,本方法的步驟包括:首先,將時間序列轉化為相應的復雜網絡;其次,為了得到適用于分類的特征向量,對所得復雜網絡的統計特征進行提取,得到相應的特征向量;最后,將所得特征向量輸入分類器,對時間序列進行分類。通過實驗驗證本發明所提方法的有效性,實驗結果表明將該方法所提取特征應用于時間序列分類能夠達到較高的準確率。
【專利說明】-種基于復雜網絡理論的適用于分類的時間序列特征提取 方法
【技術領域】
[0001] 本發明涉及時間序列的數據挖掘【技術領域】,特別是涉及適用于分類的時間序列特 征提取方法。
【背景技術】
[0002] 隨著信息獲取、傳輸和存儲技術的發展,廣泛存在于現實世界中的時間序列數據 被記錄了下來,產生了大量的時間序列數據,比如金融數據、水文數據、傳感器網絡監控數 據、移動對像跟蹤數據、機器故障檢測數據等等。利用機器學習和數據挖掘方法從這大量的 數據中獲取時間序列的知識已經成為一個重要的研究領域,而對時間序列數據進行分類正 是其中的一個重要組成部分。例如,根據心電圖的時間序列波形識別患者所患疾病,根據植 物葉子輪廓所得序列識別植物葉子所屬物種,根據用電量序列識別用電工廠所屬行業,依 據機器運作過程進行故障檢測和故障類型判別等等。
[0003] 由于時間序列數據和時間相關聯,所以一般情況下其數據量非常大,維度非常高, 這增加了時間序列分類的難度和計算量,對時間序列分類技術提出了更高的要求。衡量時 間序列分類技術優劣的核心標準是分類的錯誤率,而降低分類錯誤率的途徑有兩種:一是 改進分類器;二是采用特征提取方法。特征提取方法是在不犧牲或較少犧牲分類錯誤率的 前提下,在分類之前對時間序列進行適當的規約,得到相應的特征向量,以達到大大減少數 據量同時降低分類錯誤率的目的。
[0004] 現階段時間序列的特征提取方法可歸納為四類,分別是基于基本統計方法的特征 提取,基于模型的特征提取,基于變換的特征提取以及基于分形理論的特征提取。基于基 本統計方法的特征提取的思路是,提取數據波形的均值,方差,極值,波段,功率譜,過 零點等統計特征來構成原有時間序列的特征向量。基于模型的特征提取的思路是,利用數 學模型刻畫時間序列,然后提取數學模型的參數構成原有時間序列的特征向量。基于變換 的特征提取包括基于時頻變換的特征提取和基于線性變換的特征提取。基于時頻變換的特 征提取的思路是,將信號從時域變換到頻域,然后提取幅值、相位等來構成原有時間序列的 特征向量。基于線性變換的特征提取的思路是,利用線性變換方法對原有時間序列進行降 維,從而提取出原有時間序列的特征來構成原有時間序列的特征向量。基于分形理論的特 征提取的思路是,利用分形理論計算原有時間序列的分形維數,將分形維數作為原有時間 序列的特征向量。
【發明內容】
[0005] 本發明的目的在于提供一種基于復雜網絡理論的適用于分類的時間序列特征提 取方法,采用本方法能夠達到獲得較高的分類準確率的目的。
[0006] 本發明的目的可通過以下的技術措施來實現:
[0007] -種基于復雜網絡理論的適用于分類的時間序列特征提取方法,包括下列步驟:
[0008] 步驟I,對訓練數據集中的時間序列進行相空間重構,將相空間中的每一點作為復 雜網絡的一個節點;
[0009] 步驟2,計算步驟1中所得復雜網絡節點兩兩之間的距離;所述距離計算采用歐氏 距離計算公式;
[0010] 步驟3,對于步驟1中所得的每個復雜網絡節點,取與其最近的K個節點相連接, 如果某一條邊已經加入復雜網絡中,則下一個與該節點最接近的點與該節點相連接;得到 與原始時間序列相對應的復雜網絡;K是一個正整數,一般取值為復雜網絡節點數的2%? 3 % ;
[0011] 步驟4,對于步驟3中所得復雜網絡,計算其平均最短路徑長度(average
【權利要求】
1. 一種基于復雜網絡理論的適用于分類的時間序列特征提取方法,其特征在于包括下 列步驟: 步驟1,對訓練數據集中的時間序列進行相空間重構,將相空間中的每一點作為復雜網 絡的一個節點; 步驟2,計算步驟1中所得復雜網絡節點兩兩之間的距離;所述距離計算采用歐氏距離 計算公式; 步驟3,對于步驟1中所得的每個復雜網絡節點,取與其最近的K個節點相連接,如果 某一條邊已經加入復雜網絡中,則下一個與該節點最接近的點與該節點相連接;得到與原 始時間序列相對應的復雜網絡;K是一個正整數,一般取值為復雜網絡節點數的2%?3%; 步驟4,對于步驟3中所得復雜網絡,計算其平均最短路徑長度(averageshortest pathlength);所述平均最短路徑長度計算公式如下:
N為復雜網絡節點 數,du為節點i與節點j之間的最短路徑長度; 步驟5,對于步驟3中所得復雜網絡,計算其聚集系數(clusteringcoefficitent);所
述聚集系數計算公式如下 N。為閉三元組的數量,N。為開三元組的數量; ? 步驟6,對于步驟3中所得復雜網絡,計算其模度(modularity); 步驟7,對于步驟3中所得復雜網絡,計算其度分布信息熵(degreeentropy);所述度 分布信息熵計算公式如下:
&為節點i的度(degree); 步驟8,對于步驟3中所得復雜網絡,計算其全局系數(globalefficient);所述全局 系數計算公式如下
步驟7,對于步驟3中所得復雜網絡,計算其回環系數(cycliccoefficient); 步驟8,對于步驟3中所得復雜網絡,計算其中心點優勢度(centralpoint dominance); 步驟9,對于步驟3中所得復雜網絡,計算其富集系數(richclubcoefficient); 步驟10,對于步驟3中所得復雜網絡,計算其lth-moments;所述lth-moments計算公 式如下:
其中Ai為復雜網絡鄰接矩陣的特征值,1為整數; 步驟11,對于步驟3中所得復雜網絡,計算其強度(intensity); 步驟12,對于步驟3中所得復雜網絡,計算其連貫性(coherence); 步驟13,對于步驟3中所得復雜網絡,計算其匹配系數(matchingindex);所 述匹配系數計算公式如下
其中E(G)為復雜網絡G中的邊構成的集合,
步驟14,將步驟4至步驟13所得計算結果作為特征向量的各個分量,得到原始時間序 列的特征向量; 步驟15,對步驟14中所得原始時間序列的特征向量的各個分量分別進行歸一化以及 標準化; 步驟16,利用步驟15中所得經過歸一化和標準化后的原始時間序列的特征向量對分 類器進行訓練; 步驟17,對測試數據集中的時間序列按步驟1至步驟15進行處理,得到測試數據集中 的時間序列對應的特征向量; 步驟18,將步驟17中所得測試數據集中的時間序列對應的特征向量輸入步驟16中所 得經過訓練的分類器,對測試數據集中的時間序列的類別進行預測。
2.如權利要求1所述的方法,其特征在于:所述分類器選自SVM、KNN等分類器。
【文檔編號】G06F17/30GK104408072SQ201410605262
【公開日】2015年3月11日 申請日期:2014年10月30日 優先權日:2014年10月30日
【發明者】楊勁鋒, 肖勇, 任龍霞, 陳啟冠, 闕華坤, 馬千里, 王家兵, 邢林杰, 蔣佳軍 申請人:廣東電網有限責任公司電力科學研究院, 華南理工大學