一種股票標準新聞庫的構建方法及構建系統的制作方法
【技術領域】
[0001] 本發明涉及文字信息處理技術領域,尤其是一種股票標準新聞庫的構建方法。
【背景技術】
[0002] 股市新聞作為市場信息的重要部分,被投資者廣泛地分析和運用。隨著互聯網的 高速發展,新聞傳播和信息變更的速度非常大。擁有如此大量的信息,越來越多的金融機構 依靠計算機來分析數據,與此相關的分析預測系統可以幫助投資者過濾干擾信息并做出合 理的選擇。
[0003] 股票價格的統計分析和預測方法很多,一些傳統技術分析方法包括股價圖形分析 (點線圖、直線圖、K線圖等)、趨勢分析(趨勢線、通道線、黃金分割線等)、指標分析(隨機 指標、威廉指標、乖離率、相對強弱指數等)等。這些技術主要集中在運用近期歷史價格數 據的數值型方法分析,不能分析文字新聞數據。
[0004] 目前,隨著互聯網的發展,基于文本分析的股票分析及預測方法也取得了實際的 應用效果。基于文本分類-預測模型可以利用最新的股市新聞,對股價給出一個比較明確 的預測(上升,持平或者下降)。基于文本分析的股票分析及預測方法通過公開新聞信息, 利用改進的評價組對股票情感詞進行特征選擇,并用歸一化后的絕對詞頻權重對文本中的 情感詞進行特征加權選擇并對股票新聞進行傾向性分析。但是該方法較為復雜,效率較低, 輸出結果的準確性不高。
【發明內容】
[0005] 本發明所要解決的技術問題是提供一種構建簡單,輸出準確的股票標準新聞庫構 建方法及構建系統。
[0006] 本發明解決上述技術問題的技術方案如下:
[0007] -種股票標準新聞庫的構建方法,其特征在于,包括如下步驟,
[0008] 步驟S1 :獲取股票新聞信息;
[0009] 步驟S2 :根據股票新聞信息構建股票標準庫Z。;
[0010] 步驟S3 :對股票標準庫中的文本進行預編譯;
[0011] 步驟S4 :對已編譯文本的特征進行標識,選取特征詞;
[0012] 步驟S5 :計算特征詞的信息增益,得到特征詞的特征值;
[0013] 步驟S6 :利用特征值訓練支持SVM算法,得到抽取新聞特征的分類模型;
[0014] 步驟S7 :利用分類模型更新股票標準庫;
[0015] 步驟S8 :重復步驟S3至步驟S6,調整股票標準庫中的新聞組成,直至分類結果正 確比率大于閾值。
[0016] 本發明的有益效果:通過對抓取的新聞信息進行判斷是積極新聞還是消極新聞, 構建分類模型,并通過向量機算法不斷更新數據庫中的新聞信息,實現新聞庫的構建,該數 據庫構建方法簡單,實現方便,且新聞數據處理效率高,及時更新數據信息,數據信息準確。
[0017] 進一步,獲取股票新聞信息的方法為使用互聯網工具網絡爬蟲從互聯網中抓取股 票新聞彳目息。
[0018] 采用進一步技術方案的有益效果:從互聯網中實時抓取新聞信息,新聞時效性高, 能夠實現動態更新新聞庫。
[0019] 進一步,所述步驟S2構建股票標準庫的方法為根據獲取的股票新聞信息,逐條判 斷新聞信息對股票是看漲或看跌,如果看漲,則該條新聞信息歸類為積極新聞,如果看跌則 該條新聞歸類為消極新聞,積極新聞和消極新聞共同構成股票標準庫Z。。
[0020] 采用進一步技術方案的有益效果:新聞信息歸類為積極新聞和消極新聞,歸類簡 單直接,積極新聞和消極新聞共同構成股票標準庫Z。,便于后續文本處理。
[0021] 進一步,所述步驟S3中對股票標準庫中的文本進行預編譯,預編譯包括對新聞信 息進行分詞和去除停用詞;
[0022] 分詞,采用Jieba分詞系統,基于前綴詞典實現高效的詞圖掃描,生成句子中漢字 所有可能成詞情況所構成的有向無環圖,采用了動態規劃查找最大概率路徑,找出基于詞 頻的最大切分組合;
[0023] 去除停用詞,定義停用詞,利用Jieba分詞工具去除停用詞。
[0024] 采用進一步技術方案的有益效果:工業界和學術界常用的有The Stanford NLP (中科院NLP組),其為基于Python語言的Jieba開源分詞軟件的中文分詞組件。采用 Jieba分詞系統,它基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況 所構成的有向無環圖。采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。 另外利用Jieba分詞工具本身自帶的停用詞庫(包含語氣助詞、副詞、介詞、連接詞等)就 可以很好的達到去除停用詞的目標。
[0025] 進一步,所述步驟S4對文本特征進行標識,采用TF-IDF加權法;
[0026] TF-IDF的計算方法為詞頻TF與逆向文檔頻率IDF的乘積,TF表示詞語在文件d 中出現的頻率,IDF的含義是:如果包含詞語t的文件越少,也就是n越小,IDF越大,則說 明詞語t具有很好的類別區分能力;
[0027] 對于在某一特定語料中的詞語h來說,TF的計算方法為:
[0029] 上式中Ii1,,是該詞語在文檔d ,中的顯現次數,而分母則是在文檔d ,中所有詞語的 顯現次數之總和;
[0030] IDF由總文檔數目除以包含該詞語的文檔的數目,再將所得到的商取對數得到:
[0032] 其中|D| :股票標準庫的文檔總數;
[0033] Uht1GdJI :包含詞語心的文檔數目(即Ii1,盧0的文檔數目),如果該詞語 在語料庫中不存在,就會導致分母為零,因此使用1+I U A1G d ,} I作為特征選擇方法;
[0034] TF-IDF加權法的計算方法如下:
[0035] TFIDFlj j= TF !, ^IDFl0
[0036] 采用進一步技術方案的有益效果:采用TF-IDF加權法,TF-IDF(term frequency inverse document frequency)是一種用于資訊檢索的常用加權技術。用以評估某個詞語 對于一個文檔集合(或股票標準庫)中的其中一份文件的重要程度。單詞的重要性隨著 它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。 TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評 級,所以TF-IDF加權法傾向于去掉常見的無意義的詞語,保留重要的詞語,對于經過分詞 和去掉停用詞處理后新聞文本中的詞語。
[0037] 實際中如果特征詞選擇太多,在訓練SVM時耗時長,還不收斂,但特征詞太少,標 準新聞庫構建效果不好。所以經過實驗,選取20個特征詞為最優方案。
[0038] 進一步,所述步驟S5中信息增益為某一特征在文檔中出現的前后信息熵之差,其 計算公式為:
[0039]
[0040] 式中:P(C1)表示類別(;出現的概率,用類別匕的文檔數除以總的文檔數;P(t)是 特征t出現的概率,用出現過T的文檔數除以總文檔數;P (C111)表示出現T的時候,類別C1 出現的概率;
[0041] 對每個詞語進行編號,每個編號的詞語計算得到的信息增益與之一一對應,并作 為輸入數據對支持SVM進行有監督訓練,訓練的輸出數據為1或-1表示特征詞的特征值, 其中1表示積極新聞,-1表示消極新聞。
[0042] 采用進一步技術方案的有益效果:計算特征詞的特征值,采用1表示積極新聞,-1 表示消極新聞,方法簡單,歸類迅速。
[0043] 進一步,步驟S6,利用特征值訓練支持SVM算法,得到抽取新聞特征的分類模型。
[0044] 采用進一步技術方案的有益效果:SVM(向量機)算法是機器學習中成熟的算法, 其是利用已知的輸入輸出數據進行訓練,得到描述輸入輸出數據分類的支持向量,算法訓 練完畢。接下來,如果沒有輸出標簽的數據輸入到該系統中,利用已經訓練得到的支持向量 就可以將新輸入的數據進行分類。該算法還有很多改進方法,本專利的本步驟可以使用任 何SVM算法。
[0045] 進一步,所述步驟S7中利用分類模型更新股票標準庫的具體步驟如下:
[0046] 步驟71 :將將特征詞的信息增益作為輸入加入到已訓練的支持SVM上,選擇對股 票新聞積極或消極分類正確的新聞,組成新聞集合Z1;
[0047] 步驟72 :使用爬蟲工具在網頁上繼續獲取股票評價新聞,新聞的特征數據作為輸 入加入到已訓練的支持SVM上,對股票新聞進行分類,得到其為積極或消極分類的結果;
[0048] 步驟73 :將得到的新聞及其分類結果構成新聞集合Z2,利用Z1修改Z。,構建新的股 票新聞標準庫,并將Z 2