本發明涉及計算機技術領域,尤其涉及一種信息挖掘方法、電子裝置及可讀存儲介質。
背景技術:
目前,在信息挖掘和推送領域,業界通常是實時或者定時在預先確定的數據源(例如,各大新聞網站)對特定類型的信息(例如,新聞標題信息)進行分析篩選,以自動挖掘出目標信息。現有的分析篩選方案是:預先訓練好識別信息的類別標簽的分類器;再利用訓練好的分類器對特定類型的信息的類別標簽進行識別,以識別出屬于預設類別標簽的目標信息。這種現有的分析篩選方案只能識別出屬于預設類別標簽的目標信息,無法對目標信息指向的核心觀點信息進行深度挖掘,使得目標信息的挖掘和推送的準確性無法保障,容易出錯。
技術實現要素:
本發明的主要目的在于提供一種信息挖掘方法、電子裝置及可讀存儲介質,旨在有效挖掘出核心觀點信息。
為實現上述目的,本發明提供的一種信息挖掘方法,所述方法包括以下步驟:
實時或者定時從預先確定的數據源獲取特定類型的信息;
對獲取的各個信息進行分詞處理,并對各個信息對應的各個分詞進行詞性標注;
根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹;
在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。
優選地,所述對獲取的各個信息進行分詞處理的步驟包括:
根據正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;
根據逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;
若所述第一數量與所述第二數量相等,且所述第三數量小于或者等于所述第四數量,則將所述第一匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量相等,且所述第三數量大于所述第四數量,則將所述第二匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量不相等,且所述第一數量大于所述第二數量,則將所述第二匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量不相等,且所述第一數量小于所述第二數量,則將所述第一匹配結果作為該信息的分詞結果。
優選地,所述對各個信息對應的各個分詞進行詞性標注的步驟包括:
根據通用字詞典庫中字和詞分別與詞性的映射關系,及/或,預設的字和詞分別與詞性的映射關系,確定各個信息的各個分詞對應的詞性;
為各個信息的各個分詞標注對應的詞性。
優選地,所述預設結構分詞樹包括多級節點,第一級節點為各個信息本身,第二級節點為分詞短語,第二級節點之后的每一級節點均是上一級節點對應的下一級分詞或者分詞短語,所述根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹的步驟包括:
a1、在各個信息對應的各個分詞中,找出各個預設詞性的目標分詞;
a2、根據各個信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語;
a3、若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點;
a4、若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語;
a5、重復執行上述步驟a3和a4,直到確定出各個節點分支的最后一級節點對應的分詞。
優選地,所述根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息的步驟包括:
基于構建的預設結構分詞樹,計算各個預設第一關鍵詞性的分詞與各個預設第二關鍵詞性的分詞之間的距離;
分別找出與各個預設第一關鍵詞性的分詞距離最近的預設第二關鍵詞性的分詞,并將各個預設第一關鍵詞性的分詞與距離其最近的預設第二關鍵詞性的分詞按照在該信息中的順序組成對應的核心觀點信息。
此外,為實現上述目的,本發明還提供一種電子裝置,所述電子裝置包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的信息挖掘系統,所述信息挖掘系統被所述處理器執行時實現如下步驟:
實時或者定時從預先確定的數據源獲取特定類型的信息;
對獲取的各個信息進行分詞處理,并對各個信息對應的各個分詞進行詞性標注;
根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹;
在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。
優選地,所述對獲取的各個信息進行分詞處理的步驟包括:
根據正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第一匹配結果,所述第一匹配結果中包含有第一數量的第一詞組和第三數量的單字;
根據逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第二匹配結果,所述第二匹配結果中包含有第二數量的第二詞組和第四數量的單字;
若所述第一數量與所述第二數量相等,且所述第三數量小于或者等于所述第四數量,則將所述第一匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量相等,且所述第三數量大于所述第四數量,則將所述第二匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量不相等,且所述第一數量大于所述第二數量,則將所述第二匹配結果作為該信息的分詞結果;
若所述第一數量與所述第二數量不相等,且所述第一數量小于所述第二數量,則將所述第一匹配結果作為該信息的分詞結果。
優選地,所述對各個信息對應的各個分詞進行詞性標注的步驟包括:
根據通用字詞典庫中字和詞分別與詞性的映射關系,及/或,預設的字和詞分別與詞性的映射關系,確定各個信息的各個分詞對應的詞性;為各個信息的各個分詞標注對應的詞性。
優選地,所述預設結構分詞樹包括多級節點,第一級節點為各個信息本身,第二級節點為分詞短語,第二級節點之后的每一級節點均是上一級節點對應的下一級分詞或者分詞短語,所述根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹的步驟包括:
在各個信息對應的各個分詞中,找出各個預設詞性的目標分詞;根據各個信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語;若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點;若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語,直到確定出各個節點分支的最后一級節點對應的分詞。
進一步地,為實現上述目的,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有信息挖掘系統,所述信息挖掘系統可被至少一個處理器執行,以使所述至少一個處理器執行如上述的信息挖掘方法的步驟。
本發明提出的信息挖掘方法、電子裝置及可讀存儲介質,對從數據源獲取的特定類型的信息進行分詞及對各個分詞進行詞性標注,并根據各個分詞的順序和詞性構建預設結構分詞樹,基于構建的預設結構分詞樹解析出該信息對應的核心觀點信息。由于能對獲取的信息進行分詞,并根據各個分詞的詞性構建預設結構分詞樹,利用預設結構分詞樹來挖掘信息中各個分詞的深度聯系以得到核心觀點信息,從而實現對信息的深度挖掘,準確獲取到信息中的核心觀點信息。
附圖說明
圖1為本發明信息挖掘系統10較佳實施例的運行環境示意圖;
圖2為本發明信息挖掘系統10一實施例的功能模塊示意圖;
圖3為本發明信息挖掘方法一實施例中預設結構分詞樹的示意圖;
圖4為本發明信息挖掘方法一實施例的流程示意圖。
本發明目的的實現、功能特點及優點將結合實施例,參照附圖做進一步說明。
具體實施方式
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本發明提供一種信息挖掘系統。請參閱圖1,是本發明信息挖掘系統10較佳實施例的運行環境示意圖。
在本實施例中,所述的信息挖掘系統10安裝并運行于電子裝置1中。該電子裝置1可包括,但不僅限于,存儲器11、處理器12及顯示器13。圖1僅示出了具有組件11-13的電子裝置1,但是應理解的是,并不要求實施所有示出的組件,可以替代的實施更多或者更少的組件。
所述存儲器11在一些實施例中可以是所述電子裝置1的內部存儲單元,例如該電子裝置1的硬盤或內存。所述存儲器11在另一些實施例中也可以是所述電子裝置1的外部存儲設備,例如所述電子裝置1上配備的插接式硬盤,智能存儲卡(smartmediacard,smc),安全數字(securedigital,sd)卡,閃存卡(flashcard)等。進一步地,所述存儲器11還可以既包括所述電子裝置1的內部存儲單元也包括外部存儲設備。所述存儲器11用于存儲安裝于所述電子裝置1的應用軟件及各類數據,例如所述信息挖掘系統10的程序代碼等。所述存儲器11還可以用于暫時地存儲已經輸出或者將要輸出的數據。
所述處理器12在一些實施例中可以是一中央處理器(centralprocessingunit,cpu),微處理器或其他數據處理芯片,用于運行所述存儲器11中存儲的程序代碼或處理數據,例如執行所述信息挖掘系統10等。
所述顯示器13在一些實施例中可以是led顯示器、液晶顯示器、觸控式液晶顯示器以及oled(organiclight-emittingdiode,有機發光二極管)觸摸器等。所述顯示器13用于顯示在所述電子裝置1中處理的信息以及用于顯示可視化的用戶界面,例如應用菜單界面、應用圖標界面等。所述電子裝置1的部件11-13通過系統總線相互通信。
請參閱圖2,是本發明信息挖掘系統10較佳實施例的功能模塊圖。在本實施例中,所述的信息挖掘系統10可以被分割成一個或多個模塊,所述一個或者多個模塊被存儲于所述存儲器11中,并由一個或多個處理器(本實施例為所述處理器12)所執行,以完成本發明。例如,在圖2中,所述的信息挖掘系統10可以被分割成獲取模塊01、分詞模塊02、構建模塊03、解析模塊04;上述各模塊包括一系列計算機程序指令段,這些計算機程序指令段可被處理器12執行,以實現本申請各實施例所提供的對應的功能。以下描述將具體介紹所述模塊01-04的功能。
獲取模塊01,用于實時或者定時從預先確定的數據源獲取特定類型的信息。例如,可通過網絡爬蟲等工具實時或者定時從預先確定的數據源(例如,各大新聞網站、論壇等)獲取特定類型的信息(例如,新聞標題信息、索引信息、簡介信息等)。
分詞模塊02,用于對獲取的各個信息進行分詞處理,并對各個信息對應的各個分詞進行詞性標注。對從數據源中獲取到的特定類型的各個信息后,可對獲取的各個信息進行分詞處理。例如,可利用字符串匹配的分詞方法對各個信息進行分詞處理,如正向最大匹配法,把一個信息中的字符串從左至右來分詞,即從左到右將待分詞的信息文本中的幾個連續字符與詞表匹配,如果匹配上,則切分出一個詞;或者,反向最大匹配法,把一個信息中的字符串從右至左來分詞,即從待分詞的信息文本的末端開始匹配掃描,從右至左將待分詞的信息文本中的幾個連續字符與詞表匹配,如果匹配上,則切分出一個詞;或者,最短路徑分詞法,一個信息中的字符串里面要求切出的詞數是最少的;或者,雙向最大匹配法,正反向同時進行分詞匹配。還可利用詞義分詞法對各個信息進行分詞處理,詞義分詞法是一種機器語音判斷的分詞方法,利用句法信息和語義信息來處理歧義現象來分詞。還可利用統計分詞法對各個信息進行分詞處理,從當前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據詞組的統計,會統計有些兩個相鄰的字出現的頻率較多,則可將這兩個相鄰的字作為詞組來進行分詞。對獲取的各個信息完成分詞處理后,可對各個信息對應的各個分詞(包括詞組和單字)進行詞性標注。例如,所述詞性包括:實詞—名詞、動詞、形容詞、數量詞、代詞等;虛詞—副詞、介詞、連詞、助詞、嘆詞、擬聲詞等。
構建模塊03,用于根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹;
解析模塊04,用于在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。
對各個信息對應的各個分詞進行詞性標注后,根據各個信息中各個分詞的順序以及各個分詞標注的詞性,將各個信息對應的各個分詞構建成預設結構分詞樹。如可設置預設結構分詞樹中不同詞性對應的節點級別,將一個信息中的各個分詞作為不同節點,構建該信息對應的預設結構分詞樹;還可將不同詞性的分詞組成分詞短語,以與各個分詞形成不同的節點級別,構建該信息對應的預設結構分詞樹。在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。例如,可設置某一詞性的分詞為核心信息,或從歷史搜索記錄中統計確定出核心信息對應的詞性的分詞,將該詞性設置為核心詞性,則在該信息對應的預設結構分詞樹中找出屬于核心詞性,且在預設結構分詞樹中到主節點的節點距離最短的分詞,作為該信息對應的核心觀點信息。還可設置多個核心詞性,在該信息對應的預設結構分詞樹中找出屬于核心詞性的多個分詞,且找到預設結構分詞樹中屬于核心詞性的多個分詞之間節點距離最短的分詞組合,將該分詞組合對應的信息作為該信息的核心觀點信息。
本實施例對從數據源獲取的特定類型的信息進行分詞及對各個分詞進行詞性標注,并根據各個分詞的順序和詞性構建預設結構分詞樹,基于構建的預設結構分詞樹解析出該信息對應的核心觀點信息。由于能對獲取的信息進行分詞,并根據各個分詞的詞性構建預設結構分詞樹,利用預設結構分詞樹來挖掘信息中各個分詞的深度聯系以得到核心觀點信息,從而實現對信息的深度挖掘,準確獲取到信息中的核心觀點信息。
進一步地,在其他實施例中,在根據該信息對應的預設結構分詞樹解析出該信息對應的核心觀點信息之后,上述解析模塊04還用于:
利用預先訓練好的分類器識別出該信息的核心觀點信息對應的分類標簽;若識別出的分類標簽屬于預先確定的分類標簽,則將該信息的全部內容,及/或,該信息的全部內容的鏈接地址推送給預先確定的終端。例如,若用戶感興趣的為體育類的信息,則可預先確定分類標簽為“體育”,在解析出從數據源得到的信息中的核心觀點信息之后,可進一步地識別出該信息的核心觀點信息對應的分類標簽,若識別出的分類標簽屬于“體育”類標簽,則判斷該信息為用戶感興趣的信息,則將該信息的全部內容,及/或,該信息的全部內容的鏈接地址推送給預先確定的終端如用戶的手機、平板電腦等,從而實現目標信息的有效挖掘和精準推送。
進一步地,在其他實施例中,上述分詞模塊02還用于:
根據正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第一匹配結果;
根據逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第二匹配結果。其中,所述第一匹配結果中包含有第一數量的第一詞組,所述第二匹配結果中包含有第二數量的第二詞組;所述第一匹配結果中包含有第三數量的單字,所述第二匹配結果中包含有第四數量的單字。
若所述第一數量與所述第二數量相等,且所述第三數量小于或者等于所述第四數量,則輸出所述第一匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量相等,且所述第三數量大于所述第四數量,則輸出所述第二匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量不相等,且所述第一數量大于所述第二數量,則輸出所述第二匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量不相等,且所述第一數量小于所述第二數量,則輸出所述第一匹配結果(包括詞組和單字)。
本實施例中采用雙向匹配法來對獲取的各個信息進行分詞處理,通過正反向同時進行分詞匹配來分析各個信息待處理的字符串中前后組合內容的粘性,由于通常情況下詞組能代表核心觀點信息的概率更大,即通過詞組更能表達出核心觀點信息。因此,通過正反向同時進行分詞匹配找出單字數量更少,詞組數量更多的分詞匹配結果,以作為信息的分詞結果,從而提高分詞及信息挖掘的準確性。
進一步地,在其他實施例中,上述分詞模塊02還用于:
根據通用字詞典庫中字和詞分別與詞性的映射關系(例如,通用字詞典庫中,操場對應的詞性是名詞),及/或,預設的字和詞分別與詞性的映射關系(例如,預設的字和詞分別與詞性的映射關系中,操場對應的詞性是常用名詞),確定各個信息的各個分詞對應的詞性,并為各個信息的各個分詞標注對應的詞性。其中,預設的字和詞分別與詞性的映射關系的詞性標注優先級高于通用字詞典庫中字和詞分別與詞性的映射關系。例如,若通用字詞典庫中操場對應的詞性是名詞,而預設的字和詞分別與詞性的映射關系中操場對應的詞性是常用名詞,則優先按照預設的字和詞分別與詞性的映射關系來標注,即對操場標注的詞性為常用名詞。
進一步地,在其他實施例中,所述預設結構分詞樹包括多級節點,第一級節點為各個信息本身,第二級節點為分詞短語,第二級節點之后的每一級節點均是上一級節點對應的下一級分詞或者分詞短語,上述構建模塊03還用于:
在各個信息對應的各個分詞中,找出各個預設詞性的目標分詞;根據各個信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語;若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點;若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語,直到確定出各個節點分支的最后一級節點對應的分詞。
上述解析模塊04還用于:
基于構建的預設結構分詞樹,計算各個預設第一關鍵詞性的分詞與各個預設第二關鍵詞性的分詞之間的距離;分別找出與各個預設第一關鍵詞性的分詞距離最近的預設第二關鍵詞性的分詞,并將各個預設第一關鍵詞性的分詞與距離其最近的預設第二關鍵詞性的分詞按照在該信息中的順序組成對應的核心觀點信息。
在一種具體實施方式中,如圖3所示,該信息為“我去操場踢足球”,對應的分詞結果為“我去操場踢足球”,詞性標注的結果為“我/代詞去/動詞操場/常用名詞踢足球/常用名詞”。為該信息“我去操場踢足球”構建的預設結構分詞樹參見圖3所示,該預設結構分詞樹包括多級節點,第一級節點為信息本身,第二級節點為分詞短語(例如,名詞短語、動詞短語及斷句符如“。”)。本實施例中,在各個信息對應的各個分詞中,找出各個預設詞性“例如,名詞、動詞等”的目標分詞;根據信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語。第二級節點之后的每一級節點均是其上一級節點所對應的下一級分詞或者分詞短語,第三級節點為第二級節點的分詞或者分詞短語。如圖3中所示,對該信息進行詞性標注的結果為“我/代詞去/動詞操場/常用名詞踢足球/常用名詞”,根據該信息中各個分詞的分詞順序如從左至右的順序來確定第二級節點,預先設定第二級節點為分詞短語包括名詞短語、動詞短語等,該信息中從左至右,“我”為代詞屬于名詞短語,因此“我”確定為第二級節點,排序在“我”之后的“去”、“操場”、“踢足球”可組成動詞短語“去操場踢足球”,因此,可確定“去操場踢足球”為第二級節點。因此,該信息的預設結構分詞樹中第二級節點包括“我”、“去操場踢足球”。進一步地,第二級節點“我”不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點。而作為第二級節點的動詞短語“去操場踢足球”,可以進一步分詞,則該第二級節點“去操場踢足球”的分詞或者分詞短語可作為第三級節點,該第三級節點包括動詞“去”和名詞短語“操場踢足球”,進一步地,名詞短語“操場踢足球”還可以分為第四級節點“操場”、“踢足球”。若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性“例如,名詞、動詞等”的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語;若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點。
基于構建的預設結構分詞樹,計算各個第一關鍵詞性(例如,動詞)分詞與各個第二關鍵詞性(例如,名詞)分詞的距離,將各個第一關鍵詞性分詞與各個第二關鍵詞性分詞之間相隔的節點數作為所述距離。其中,第一關鍵詞性、第二關鍵詞性可根據實際需要自定義設定,或根據該用戶的歷史搜索記錄中核心信息通常對應的詞性進行相應設置。分別找出與各個第一關鍵詞性分詞距離最近的第二關鍵詞性分詞,分別將各個第一關鍵詞性分詞與距離其最近的第二關鍵詞性分詞按照在該信息中的順序組成對應的核心觀點信息。如圖3中的“去操場”、“去踢足球”作為挖掘出的該信息“我去操場踢足球”對應的核心觀點信息。
本發明進一步提供一種信息挖掘方法。
參照圖4,圖4為本發明信息挖掘方法一實施例的流程示意圖。
在一實施例中,該信息挖掘方法包括:
步驟s10,實時或者定時從預先確定的數據源獲取特定類型的信息。例如,可通過網絡爬蟲等工具實時或者定時從預先確定的數據源(例如,各大新聞網站、論壇等)獲取特定類型的信息(例如,新聞標題信息、索引信息、簡介信息等)。
步驟s20,對獲取的各個信息進行分詞處理,并對各個信息對應的各個分詞進行詞性標注。
對從數據源中獲取到的特定類型的各個信息后,可對獲取的各個信息進行分詞處理。例如,可利用字符串匹配的分詞方法對各個信息進行分詞處理,如正向最大匹配法,把一個信息中的字符串從左至右來分詞,即從左到右將待分詞的信息文本中的幾個連續字符與詞表匹配,如果匹配上,則切分出一個詞;或者,反向最大匹配法,把一個信息中的字符串從右至左來分詞,即從待分詞的信息文本的末端開始匹配掃描,從右至左將待分詞的信息文本中的幾個連續字符與詞表匹配,如果匹配上,則切分出一個詞;或者,最短路徑分詞法,一個信息中的字符串里面要求切出的詞數是最少的;或者,雙向最大匹配法,正反向同時進行分詞匹配。還可利用詞義分詞法對各個信息進行分詞處理,詞義分詞法是一種機器語音判斷的分詞方法,利用句法信息和語義信息來處理歧義現象來分詞。還可利用統計分詞法對各個信息進行分詞處理,從當前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據詞組的統計,會統計有些兩個相鄰的字出現的頻率較多,則可將這兩個相鄰的字作為詞組來進行分詞。
對獲取的各個信息完成分詞處理后,可對各個信息對應的各個分詞(包括詞組和單字)進行詞性標注。例如,所述詞性包括:實詞—名詞、動詞、形容詞、數量詞、代詞等;虛詞—副詞、介詞、連詞、助詞、嘆詞、擬聲詞等。
步驟s30,根據各個信息對應的各個分詞的分詞順序和詞性,將各個信息對應的各個分詞構建成預設結構分詞樹。
步驟s40,在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。
對各個信息對應的各個分詞進行詞性標注后,根據各個信息中各個分詞的順序以及各個分詞標注的詞性,將各個信息對應的各個分詞構建成預設結構分詞樹。如可設置預設結構分詞樹中不同詞性對應的節點級別,將一個信息中的各個分詞作為不同節點,構建該信息對應的預設結構分詞樹;還可將不同詞性的分詞組成分詞短語,以與各個分詞形成不同的節點級別,構建該信息對應的預設結構分詞樹。在一個信息對應的預設結構分詞樹構建完成后,根據該信息對應的預設結構分詞樹,解析出該信息對應的核心觀點信息。例如,可設置某一詞性的分詞為核心信息,或從歷史搜索記錄中統計確定出核心信息對應的詞性的分詞,將該詞性設置為核心詞性,則在該信息對應的預設結構分詞樹中找出屬于核心詞性,且在預設結構分詞樹中到主節點的節點距離最短的分詞,作為該信息對應的核心觀點信息。還可設置多個核心詞性,在該信息對應的預設結構分詞樹中找出屬于核心詞性的多個分詞,且找到預設結構分詞樹中屬于核心詞性的多個分詞之間節點距離最短的分詞組合,將該分詞組合對應的信息作為該信息的核心觀點信息。
本實施例對從數據源獲取的特定類型的信息進行分詞及對各個分詞進行詞性標注,并根據各個分詞的順序和詞性構建預設結構分詞樹,基于構建的預設結構分詞樹解析出該信息對應的核心觀點信息。由于能對獲取的信息進行分詞,并根據各個分詞的詞性構建預設結構分詞樹,利用預設結構分詞樹來挖掘信息中各個分詞的深度聯系以得到核心觀點信息,從而實現對信息的深度挖掘,準確獲取到信息中的核心觀點信息。
進一步地,在其他實施例中,在根據該信息對應的預設結構分詞樹解析出該信息對應的核心觀點信息之后,該方法還包括:
利用預先訓練好的分類器識別出該信息的核心觀點信息對應的分類標簽;若識別出的分類標簽屬于預先確定的分類標簽,則將該信息的全部內容,及/或,該信息的全部內容的鏈接地址推送給預先確定的終端。例如,若用戶感興趣的為體育類的信息,則可預先確定分類標簽為“體育”,在解析出從數據源得到的信息中的核心觀點信息之后,可進一步地識別出該信息的核心觀點信息對應的分類標簽,若識別出的分類標簽屬于“體育”類標簽,則判斷該信息為用戶感興趣的信息,則將該信息的全部內容,及/或,該信息的全部內容的鏈接地址推送給預先確定的終端如用戶的手機、平板電腦等,從而實現目標信息的有效挖掘和精準推送。
進一步地,在其他實施例中,上述步驟s20中對獲取的各個信息進行分詞處理的步驟包括:
根據正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第一匹配結果;
根據逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫進行匹配,得到第二匹配結果。其中,所述第一匹配結果中包含有第一數量的第一詞組,所述第二匹配結果中包含有第二數量的第二詞組;所述第一匹配結果中包含有第三數量的單字,所述第二匹配結果中包含有第四數量的單字。
若所述第一數量與所述第二數量相等,且所述第三數量小于或者等于所述第四數量,則輸出所述第一匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量相等,且所述第三數量大于所述第四數量,則輸出所述第二匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量不相等,且所述第一數量大于所述第二數量,則輸出所述第二匹配結果(包括詞組和單字);
若所述第一數量與所述第二數量不相等,且所述第一數量小于所述第二數量,則輸出所述第一匹配結果(包括詞組和單字)。
本實施例中采用雙向匹配法來對獲取的各個信息進行分詞處理,通過正反向同時進行分詞匹配來分析各個信息待處理的字符串中前后組合內容的粘性,由于通常情況下詞組能代表核心觀點信息的概率更大,即通過詞組更能表達出核心觀點信息。因此,通過正反向同時進行分詞匹配找出單字數量更少,詞組數量更多的分詞匹配結果,以作為信息的分詞結果,從而提高分詞及信息挖掘的準確性。
進一步地,在其他實施例中,上述步驟s20中對各個信息對應的各個分詞進行詞性標注的步驟包括:
根據通用字詞典庫中字和詞分別與詞性的映射關系(例如,通用字詞典庫中,操場對應的詞性是名詞),及/或,預設的字和詞分別與詞性的映射關系(例如,預設的字和詞分別與詞性的映射關系中,操場對應的詞性是常用名詞),確定各個信息的各個分詞對應的詞性,并為各個信息的各個分詞標注對應的詞性。其中,預設的字和詞分別與詞性的映射關系的詞性標注優先級高于通用字詞典庫中字和詞分別與詞性的映射關系。例如,若通用字詞典庫中操場對應的詞性是名詞,而預設的字和詞分別與詞性的映射關系中操場對應的詞性是常用名詞,則優先按照預設的字和詞分別與詞性的映射關系來標注,即對操場標注的詞性為常用名詞。
進一步地,在其他實施例中,所述預設結構分詞樹包括多級節點,第一級節點為各個信息本身,第二級節點為分詞短語,第二級節點之后的每一級節點均是上一級節點對應的下一級分詞或者分詞短語,上述步驟s30包括:
a1、在各個信息對應的各個分詞中,找出各個預設詞性的目標分詞;
a2、根據各個信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語;具體地,可將后一個目標分詞之前的字詞作為前一個目標分詞的分詞短語;將最后一個目標分詞及其之后的字詞作為最后一個分詞短語。
a3、若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點;
a4、若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語;
a5、重復執行上述步驟a3和a4,直到確定出各個節點分支的最后一級節點對應的分詞。
上述步驟s40包括:
基于構建的預設結構分詞樹,計算各個預設第一關鍵詞性的分詞與各個預設第二關鍵詞性的分詞之間的距離;
分別找出與各個預設第一關鍵詞性的分詞距離最近的預設第二關鍵詞性的分詞,并將各個預設第一關鍵詞性的分詞與距離其最近的預設第二關鍵詞性的分詞按照在該信息中的順序組成對應的核心觀點信息。
在一種具體實施方式中,如圖3所示,圖3為本發明信息挖掘方法一實施例中預設結構分詞樹的示意圖。該信息為“我去操場踢足球”,對應的分詞結果為“我去操場踢足球”,詞性標注的結果為“我/代詞去/動詞操場/常用名詞踢足球/常用名詞”。為該信息“我去操場踢足球”構建的預設結構分詞樹參見圖3所示,該預設結構分詞樹包括多級節點,第一級節點為信息本身,第二級節點為分詞短語(例如,名詞短語、動詞短語及斷句符如“。”)。本實施例中,在各個信息對應的各個分詞中,找出各個預設詞性“例如,名詞、動詞等”的目標分詞;根據信息中各個目標分詞的順序,確定各個第二級節點對應的分詞短語。第二級節點之后的每一級節點均是其上一級節點所對應的下一級分詞或者分詞短語,第三級節點為第二級節點的分詞或者分詞短語。如圖3中所示,對該信息進行詞性標注的結果為“我/代詞去/動詞操場/常用名詞踢足球/常用名詞”,根據該信息中各個分詞的分詞順序如從左至右的順序來確定第二級節點,預先設定第二級節點為分詞短語包括名詞短語、動詞短語等,該信息中從左至右,“我”為代詞屬于名詞短語,因此“我”確定為第二級節點,排序在“我”之后的“去”、“操場”、“踢足球”可組成動詞短語“去操場踢足球”,因此,可確定“去操場踢足球”為第二級節點。因此,該信息的預設結構分詞樹中第二級節點包括“我”、“去操場踢足球”。進一步地,第二級節點“我”不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點。而作為第二級節點的動詞短語“去操場踢足球”,可以進一步分詞,則該第二級節點“去操場踢足球”的分詞或者分詞短語可作為第三級節點,該第三級節點包括動詞“去”和名詞短語“操場踢足球”,進一步地,名詞短語“操場踢足球”還可以分為第四級節點“操場”、“踢足球”。若一個分詞短語可以進一步分詞,則找出該分詞短語中的各個預設詞性“例如,名詞、動詞等”的目標分詞,并根據該分詞短語對應的各個目標分詞的順序,確定該分詞短語的下一級節點對應的分詞或者分詞短語;若一個分詞短語不可以進一步分詞,則確定該分詞短語為所在節點分支的最后一級節點。
基于構建的預設結構分詞樹,計算各個第一關鍵詞性(例如,動詞)分詞與各個第二關鍵詞性(例如,名詞)分詞的距離,將各個第一關鍵詞性分詞與各個第二關鍵詞性分詞之間相隔的節點數作為所述距離。其中,第一關鍵詞性、第二關鍵詞性可根據實際需要自定義設定,或根據該用戶的歷史搜索記錄中核心信息通常對應的詞性進行相應設置。分別找出與各個第一關鍵詞性分詞距離最近的第二關鍵詞性分詞,分別將各個第一關鍵詞性分詞與距離其最近的第二關鍵詞性分詞按照在該信息中的順序組成對應的核心觀點信息。如圖3中的“去操場”、“去踢足球”作為挖掘出的該信息“我去操場踢足球”對應的核心觀點信息。
此外,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有信息挖掘系統,所述信息挖掘系統可被至少一個處理器執行,以使所述至少一個處理器執行如上述實施例中的信息挖掘方法的步驟,該信息挖掘方法的步驟s10、s20、s30等具體實施過程如上文所述,在此不再贅述。
需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件來實現,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,服務器,空調器,或者網絡設備等)執行本發明各個實施例所述的方法。
以上參照附圖說明了本發明的優選實施例,并非因此局限本發明的權利范圍。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執行所示出或描述的步驟。
本領域技術人員不脫離本發明的范圍和實質,可以有多種變型方案實現本發明,比如作為一個實施例的特征可用于另一實施例而得到又一實施例。凡在運用本發明的技術構思之內所作的任何修改、等同替換和改進,均應在本發明的權利范圍之內。