一種股票價格優化預測方法
【專利摘要】本發明涉及一種股票價格優化預測方法。其特征在于,采用泛化能力較強,且不容易陷入局部最優和過擬合現象的支持向量回歸機模型作為股票價格預測的核心部分,克服人工神經網絡算法的缺點;引入流形學習中的線性局部切空間排列算法,將股票原始數據看作嵌入在高維歐式空間中的低維流形,提取股票數據中的非線性子流形結構,使得提取的特征更加具有區分度和代表性,并同時降低股票數據噪聲;最后再利用遺傳算法優化支持向量回歸機的訓練參數,解決了單一支持向量回歸機模型參數選擇困難的問題,最終提高股價的預測精度。
【專利說明】
一種股票價格優化預測方法
技術領域
[0001]本發明屬于金融數據分析處理領域,尤其涉及一種采用流形學習和支持向量回歸機的股票價格優化預測方法。
【背景技術】
[0002]股票市場受到多方面因素的影響,導致股票價格變化多端,也正是因為這種變化,使得投資者能夠通過買賣股票賺得差價收益。然而,若沒有敏銳的市場直覺和豐富的金融知識是不能立足于股票交易市場并從中獲利的。因此為了更加準確地識別股市動蕩的規律,預測股價走勢從而盡可能降低虧損的風險,前人總結了很多股票價格預測的經驗和方法,大致可以分為三大類:人工經驗預測法、時間序列預測法和機器學習預測法。
[0003]I)人工經驗預測法
[0004]也稱證券投資分析法,是一種依靠人力分析各種影響因素,從而對股票未來價格或趨勢做出判斷的方法。包括基本面分析和技術分析兩個大的類型。基本面分析從影響股票價格的外部因素入手,如分析國家經濟形勢、金融政策的變化、上市公司的經營情況、內部穩定性等,通過分析這些外部影響因素,定性地判斷未來股票價格的漲幅趨勢或價格高低定位等,該方法一般為大型基金和機構所采用。技術分析則是利用各種圖表、指標和分析工具來歸納分析市場的變化,依靠統計和歸納發現股價的波動規律,將發現的周期性規律用來指導股票交易的一種方法,也是廣大股民最常用的一種方法。人工經驗預測法主要依靠人力手工進行各種分析預測,在這個數據量暴增的時代,人工的方法顯然耗時耗力,且人的情緒容易波動,從而直接影響到對趨勢的判斷造成虧損。
[0005]2)時間序列預測法
[0006]時間序列分析方法的應用對象包括所有隨著時間推移變化的變量,其基本思想是依據時間序列變量與時間之間的相關性,利用統計模型對歷史的時間序列對象建立數學模型,以此預測未來值。然而時間序列分析法雖然在對線性系統的處理上具有較好效果,但股票價格具有非線性的特征,不適合用時間序列分析法進行建模預測。
[0007]3)機器學習預測法
[0008]機器學習預測法是利用機器學習的算法對影響股票價格波動的各種因素和指標,與股票價格之間的非線性關系建模,將學習到的關鍵模式用于指導對未來股票價格的預測。機器學習預測法對人工操作的要求不高,只需要機器自動地進行學習即可預測,提高了效率且避免了人的情緒和失誤所造成的損失。
【發明內容】
[0009]我們采用泛化能力較強,且不容易陷入局部最優和過擬合現象的支持向量回歸機(SVR)模型作為股票價格預測的核心部分,克服人工神經網絡算法的缺點;引入流形學習中的線性局部切空間排列算法(LLTSA),將股票原始數據看作嵌入在高維歐式空間中的低維流形,提取股票數據中的非線性子流形結構,使得提取的特征更加具有區分度和代表性,并同時降低股票數據噪聲;最后再利用遺傳算法(GA)優化SVR的訓練參數,解決了單一 SVR模型參數選擇困難的問題,最終提高股價的預測精度。
[0010]選取基于結構風險最小化原則的支持向量回歸機作為預測模型,具有很好的泛化能力且不容易陷入局部極小,并利用遺傳算法對其核參數、懲罰因子和不敏感系數進行尋優操作,解決了人工查找參數困難的問題。將線性局部切空間排列算法與經過遺傳算法優化的支持向量回歸機模型組合,提出了一個新的股票價格優化預測模型,即LLTSA-GA-SVR模型。
【附圖說明】
[0011]圖1.LLTSA-GA-SVR模型預測流程
[0012]圖2.LLTSA特征提取過程
【具體實施方式】
[0013]我們提出的LLTSA-GA-SVR模型如圖1所示,預測股價的流程如下:
[0014]I)數據預處理
[0015]收集股票數據后,首先需對股票數據進行預處理,將其轉換為適合模型處理的形式。比如根據模型的預測形式,將原始股票數據轉化為數據樣本集,并劃分訓練集和測試集;以及對股票數據進行歸一化處理,消除量綱差異。
[0016]2) LLTSA 特征提取
[0017]對原始股票數據進行預處理后,利用LLTSA算法提取數據樣本集的特征,進行降維和降噪的操作,其處理過程如圖2所示。LLTSA算法首先對輸入的數據樣本集進行PCA投影操作,即將原始數據樣本集映射到PCA的主子空間,預先降低數據噪聲和維度,使得后續的處理更加高效和方便。然后對樣本集中所有的數據點求其鄰域,通過線性逼近數據點及其鄰域對應的切空間,將數據樣本點投影到切空間上,得到局部坐標。通過將所有局部坐標進行全局排列,整合局部信息,構造全局排列矩陣。最后將目標函數轉換為特征值的求解,求得能夠將高維原始數據樣本集映射到低維樣本集的轉換矩陣,根據該轉換矩陣得到降維去噪后的低維特征集。
[0018]3)生成初始種群
[0019]本文選定二進制編碼方案對三個參數進行編碼,具體做法為將每個參數轉化為20位二進制數然后再拼接起來,形成一個候選解。該候選解由三個參數的編碼組合即60位二進制數組成。經過編碼的個體稱為一條染色體。
[0020]4)訓練SVR評估個體適應度
[0021]將種群中的每個個體重新拆分為三個參數的二進制序列并分別轉化為十進制數,則總共得到20組、和的值。將SVR模型的參數設為其中一組參數值,并對劃分的訓練樣本集進行建模訓練,得到預測值與真實值計算MSE,以此評估這組參數對應個體的適應度大小。對種群中20組參數候選值都進行同樣的適應度評估,最后將個體按適應度大小排序。
[0022]5)選擇、交叉和突變遺傳形成新的種群
[0023]對上一步形成的種群按設定的選擇概率、交叉概率和突變概率進行選擇、交叉和突變三種遺傳操作。進行選擇操作時按一定的選擇概率淘汰種群中不滿足適應度要求的個體。進行交叉操作時根據一定的模式和概率對選中的個體進行其部分基因序列交換從而產生新的個體延續至下一代,兩個被選擇進行交叉遺傳操作的個體Cl和C2,C1的高位第12位開始的序列“111”與C2的低三位“000”發生交換,產生如圖所示的下一代個體Cl’和C2’。
[0024]進行突變操作時按突變概率選擇種群中的個體改變其某個位置的基因符號,得到下一代的個體,其中個體Cl的高位第12位的“I”發生變異,變為“O”,形成新的下一代個體Cl,。
[0025]6)判斷迭代條件
[0026]對新生成的種群用步驟4)判斷其中包含個體的適應度大小,若有個體的適應度滿足設定最優值或總體迭代次數達到上限,則停止迭代,適應度最優個體即為所求;若不滿足以上兩個條件,則轉至步驟4)循環執行直到滿足停止條件為止。當迭代停止后,就可以得到最優的個體,至此遺傳算法對三個參數的優化完成。
[0027]7)組成最優SVR模型
[0028]將遺傳算法處理得到的最優個體分解為三個參數對應的二進制序列再進行十進制轉換,即可得到的最優的參數(:、0和£的值,將SVR模型的參數設置為這三個最優值,即可得到經過遺傳算法優化的SVR模型。
[0029]8)預測股票價格
[0030]將步驟2)得到的經過LLTSA算法提取特征之后的特征樣本集輸入到遺傳算法優化的SVR模型中,利用其中訓練集訓練模型,再將訓練好的模型在測試集上進行檢驗,得出股票收盤價的預測值。
【主權項】
1.一種股票價格優化預測方法,其特征在于,包括以下關鍵步驟: 1)線性局部切空間排列算法特征提取 對原始股票數據進行預處理后,利用線性局部切空間排列提取數據樣本集的特征,進行降維和降噪的操作;求得能夠將高維原始數據樣本集映射到低維樣本集的轉換矩陣,根據該轉換矩陣得到降維去噪后的低維特征集; 2)支持向量回歸機參數優化 具體又包括: a.生成初始種群 將每個參數轉化為20位二進制數然后再拼接起來,形成一個候選解; b.訓練支持向量回歸機評估個體適應度 對劃分的訓練樣本集進行建模訓練,得到預測值與真實值計算MSE,以此評估這組參數對應個體的適應度大小。對種群中20組參數候選值都進行同樣的適應度評估,最后將個體按適應度大小排序; c.選擇、交叉和突變遺傳形成新的種群 按設定的選擇概率、交叉概率和突變概率進行選擇、交叉和突變三種遺傳操作; d.判斷迭代條件 對新生成的種群判斷其中包含個體的適應度大小,若有個體的適應度滿足設定最優值或總體迭代次數達到上限,則停止迭代,適應度最優個體即為所求;若不滿足以上兩個條件,則循環執行直到滿足停止條件為止;當迭代停止后,就可以得到最優的個體; 3)組成最優支持向量回歸機模型 將遺傳算法處理得到的最優個體分解為三個參數對應的二進制序列再進行十進制轉換,即可得到的最優的參數(:、0和£的值,將支持向量回歸機的參數設置為這三個最優值,gp可得到經過遺傳算法優化的支持向量回歸機模型; 4)預測股票價格 將前述步驟得到的經過線性局部切空間排列算法提取特征之后的特征樣本集輸入到遺傳算法優化的支持向量回歸機模型中,利用其中訓練集訓練模型,再將訓練好的模型在測試集上進行檢驗,得出股票收盤價的預測值。
【文檔編號】G06Q10/04GK106056244SQ201610368834
【公開日】2016年10月26日
【申請日】2016年5月30日
【發明人】陳遠, 羅必輝, 蔣維琛, 陳文欣
【申請人】重慶大學