企業新聞分析方法及系統的制作方法
【專利摘要】本發明提供一種企業新聞分析方法及系統,其中企業新聞分析方法包括:判斷并接收目標企業全稱;拆分目標企業全稱,獲取目標企業簡稱;根據目標企業全稱和目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞;采用評價分析方法對關聯新聞進行分析,并給出對目標企業的信譽評價。本發明的企業新聞分析方法及系統能夠使得用戶快速、準確地得出對目標企業的信譽評價。
【專利說明】
企業新聞分析方法及系統
技術領域
[0001]本發明涉及大數據應用分析領域,尤其涉及一種企業新聞分析方法及系統。
【背景技術】
[0002]在金融信貸領域,風險控制人員往往需要對目標企業進行企業輿論形象調查,從而對該企業給出客觀評價。
[0003]傳統企業輿論調查方法是通過人為地收集企業輿論信息,并人為查看輿論信息內容,從而給出相應評價。但是,這種傳統方法的缺點是,對信息獲取以及信息分析的效率低,不僅費時費力,而且出現信息遺漏的概率大。
【發明內容】
[0004]本發明要解決的技術問題是提供一種企業新聞分析方法及系統,使得用戶能夠快速、準確地得出對目標企業的信譽評價。
[0005]為解決上述技術問題,本發明提供的技術方案是:
[0006]—方面,本發明提供一種企業新聞分析方法,應用于計算機中,包括:判斷并接收目標企業全稱;拆分目標企業全稱,獲取目標企業簡稱;根據目標企業全稱和目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞;采用評價分析方法對關聯新聞進行分析,并給出對目標企業的信譽評價。
[0007]進一步地,采用網絡爬蟲技術搜取關聯新聞。
[0008]進一步地,進行分析步驟之前,還包括:統計目標企業全稱和目標企業簡稱在與目標企業關聯度較低的每一條關聯新聞中的出現頻率,并將出現頻率低于一定范圍的關聯新聞判定為不相關新聞并篩除。
[0009]進一步地,進行分析步驟之前,還包括:計算關聯新聞的標題之間的相似度,并將相似度高于一定范圍的關聯新聞判斷為重復新聞并篩除。
[0010]進一步地,評價分析方法包括正負向評價分析方法和/或關聯人物及關聯企業分析方法,其中,正負向評價分析方法為:對關聯新聞采用隱式語義索引法或關鍵詞分析方法對目標企業進行正向評價和負向評價;關聯人物及關聯企業分析方法為:抽取每一條關聯新聞中的組織機構名稱和個人名稱,并采用聚類方法對抽取到的組織機構名稱和個人名稱進行聚類,通過統計目標企業與每個聚類同時出現在所有關聯新聞中的頻率,獲得目標企業的關聯人物及關聯企業,其中,聚類所獲得的每一個類別代表一個企業或個人,且組織機構名稱包括企業全稱或簡稱。
[0011]進一步地,隱式語義索引法為,采用預先建立的正負向分類器對每一條關聯新聞進行正負向評價。
[0012]進一步地,關鍵詞分析方法為,通過提取每一條關聯新聞中的正向關鍵詞詞頻和負向關鍵詞詞頻,并采用預先建立的關鍵詞庫進行比較,獲得每一條關聯新聞的正負向評價。
[0013]另一方面,本發明提供一種企業新聞分析系統,應用于計算機中,包括:企業名稱輸入模塊,判斷并接收目標企業全稱;企業名稱拆分模塊,將接收到的目標企業全稱,拆分成目標企業簡稱;關聯新聞獲取模塊,根據企業名稱拆分模塊中的目標企業全稱和目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞;關聯新聞分析模塊,對關聯新聞獲取模塊所獲取到的關聯新聞進行分析,并給出對目標企業的信譽評價。
[0014]進一步地,還包括關聯新聞篩選模塊,關聯新聞篩選模塊對關聯新聞獲取模塊中所獲得的關聯新聞進行篩選。
[0015]進一步地,關聯新聞篩選模塊包括不相關新聞篩除單元和去重單元,不相關新聞篩除單元,統計全稱和簡稱在與目標企業關聯度較低的每一條關聯新聞中的出現頻率,并將出現頻率低于一定范圍的關聯新聞判定為不相關新聞并篩除;去重單元,計算關聯新聞的標題之間的相似度,并將相似度高于一定范圍的關聯新聞判斷為重復新聞并篩除。
[0016]發明實施例的企業新聞分析方法及系統,應用于計算機中,通過將用戶輸入的需要查詢的目標企業名稱與企業名單詞庫內的詞條進行匹配,給出相應候選企業全稱,例如,若用戶輸入的是目標企業的簡稱,則會給出相應的候選企業全稱,供用戶選擇。在接收到目標企業全稱后,將按照一定的規則對目標企業全稱進行拆分,從而獲得目標企業簡稱,例如,若目標企業全稱為“杭州第一科技有限公司”,則“有限”和“公司”這兩個常見詞匯將首先被篩選掉,再去掉地名“杭州”,也就是說,最后得到的目標企業的簡稱為“第一科技” O同時使用目標企業全稱和目標企業簡稱在互聯網環境中對目標企業情況進行搜索,具體地,例如,對于某一條新聞,若該新聞標題、摘要和正文中出現有目標企業全稱或簡稱,則該條新聞將被獲取。同時使用目標企業全稱和目標企業簡稱來獲取與目標企業相關聯的關聯新聞,可以使得所搜索的關聯新聞更加充分、全面。此外,需要說明的是,通過統計目標企業在互聯網上的關聯新聞的總量及關聯新聞的來源,可以評估該目標企業的媒體曝光率和影響力。此外,對于所獲得的所有關聯新聞,采用適當的評價分析方法進行分析,并給出一個比較直觀的對目標企業的信譽評價結果,如此,可以相當大地減少評價一個目標企業所需要的時間,也可以大大節省人力。
[0017]因此,本發明提供的企業新聞分析方法及系統,能夠使得用戶快速、準確地得出對目標企業的信譽評價。
【附圖說明】
[0018]圖1是本發明實施例一提供的企業新聞分析方法的流程圖;
[0019]圖2是本發明實施例二提供的企業新聞分析系統的框圖;
[0020]圖3是本發明實施例二提供的企業新聞分析系統的框圖。
【具體實施方式】
[0021]下面通過具體的實施例進一步說明本發明,但是,應當理解為,這些實施例僅僅是用于更詳細具體地說明之用,而不應理解為用于以任何形式限制本發明。
[0022]實施例一
[0023]結合圖1,本發明實施例提供一種企業新聞分析方法,應用于計算機中,本發明實施例的企業新聞分析方法的具體步驟包括:
[0024]步驟SlOl:判斷并接收目標企業全稱;
[0025]步驟S102:拆分目標企業全稱,獲取目標企業簡稱;
[0026]步驟S103:根據目標企業全稱和目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞;
[0027]步驟S104:采用評價分析方法對關聯新聞進行分析,并給出對目標企業的信譽評價。
[0028]本發明實施例的企業新聞分析方法,應用于計算機中,通過將用戶輸入的需要查詢的目標企業名稱與企業名單詞庫內的詞條進行匹配,給出相應候選企業全稱,例如,若用戶輸入的是目標企業的簡稱,則會給出相應的候選企業全稱,供用戶選擇。在接收到目標企業全稱后,將按照一定的規則對目標企業全稱進行拆分,從而獲得目標企業簡稱,例如,若目標企業全稱為“杭州第一科技有限公司”,則“有限”和“公司”這兩個常見詞匯將首先被篩選掉,再去掉地名“杭州”,也就是說,最后得到的目標企業的簡稱為“第一科技”。同時使用目標企業全稱和目標企業簡稱在互聯網環境中對目標企業情況進行搜索,具體地,例如,對于某一條新聞,若該新聞標題、摘要和正文中出現有目標企業全稱或簡稱,則該條新聞將被獲取。同時使用目標企業全稱和目標企業簡稱來獲取與目標企業相關聯的關聯新聞,可以使得所搜索的關聯新聞更加充分、全面。此外,需要說明的是,通過統計目標企業在互聯網上的關聯新聞的總量及關聯新聞的來源,可以評估該目標企業的媒體曝光率和影響力。此夕卜,對于所獲得的所有關聯新聞,采用適當的評價分析方法進行分析,并給出一個比較直觀的對目標企業的信譽評價結果,如此,可以相當大地減少評價一個目標企業所需要的時間,也可以大大節省人力。
[0029]因此,本發明實施例提供的企業新聞分析方法及系統,能夠使得用戶快速、準確地得出對目標企業的信譽評價。
[0030]優選地,步驟S103中,采用網絡爬蟲技術搜取關聯新聞。由于網絡爬蟲技術的搜索效果顯著且應用成熟,使用網絡爬蟲技術來獲取互聯網中的與目標企業相關聯的新聞信息,能夠確保所獲取的關聯新聞的全面性。
[0031 ]進一步優選地,進行分析步驟之前,還包括:統計目標企業全稱和目標企業簡稱在與目標企業關聯度較低的每一條關聯新聞中的出現頻率,并將出現頻率低于一定范圍的關聯新聞判定為不相關新聞并篩除。關聯新聞的獲取是通過目標企業全稱和目標企業簡稱來實現,在獲取到的所有關聯新聞中,存在與目標企業關聯度較低的關聯新聞(例如,該目標企業的招聘文章)。對于與目標企業關聯度較低的關聯新聞,將統計目標企業全稱或目標企業簡稱在該關聯新聞摘要、正文中的出現頻率,若出現頻率低于某一閾值,則將該條關聯新聞認定為不相關新聞并將其篩除。此外,對于招聘類文章,則是直接針對新聞標題和摘要中的“招聘”進行關鍵字識別,將該則新聞進行篩除。
[0032]進一步優選地,進行分析步驟之前,還包括:計算關聯新聞的標題之間的相似度,并將相似度高于一定范圍的關聯新聞判斷為重復新聞并篩除。由于互聯網新聞往往被多家媒體轉載,致使所獲得的關聯新聞的重復較多。本實施例是通過判斷所有關聯新聞的標題相似度來對所獲得的關聯新聞進行去重。具體地,首先對所獲得的每條關聯新聞的標題進行分詞,將所有標題的分詞結果匯總,形成“詞空間”,并將每個標題轉化為“詞空間”內的向量,此外,為了方便相似度計算,每個標題的詞向量將被進行歸一化。更加具體地,對于任意兩條關聯新聞的標題所對應的兩個詞向量,通過計算兩個詞向量之間的余弦來獲得它們之間的相似度。例如,假定關聯新聞A的標題所對應的經過歸一化后的詞向量為a,以及關聯新聞B所對應的經過歸一化后的詞向量為b,若向量a與向量b之間的余弦值為I,此時,關聯新聞A與關聯新聞B的相似度評估結果為“完全相同”;若向量a與向量b之間的余弦值為O,此時,關聯新聞A與關聯新聞B的相似度評估結果為“完全不同”。也就是說,向量a與向量b之間的余弦值越小,則關聯新聞A與關聯新聞B之間的相似度越低。優選地,本實施例設定的閾值為(0,0.5],即,當兩個標題向量的余弦值超過該閾值則認為相似度過高,并將其認定為重復新聞,且選擇保留新聞所對應媒體中影響力較大的那條關聯新聞。此外,需要說明的是,所設定的閾值并非固定不變,可以根據實際情況進行調整。
[0033]此外,需要說明的是,篩除出現頻率低于一定范圍的關聯新聞的步驟與篩除相似度高于一定范圍的關聯新聞的步驟,這兩個步驟并無先后順序,只要在進行分析步驟之前進行即可。
[0034]進一步優選地,步驟S104中,評價分析方法包括正負向評價分析方法和/或關聯人物及關聯企業分析方法,其中,正負向評價分析方法為:對關聯新聞采用隱式語義索引法或關鍵詞分析方法對目標企業進行正向評價和負向評價;關聯人物及關聯企業分析方法為:采用實體抽取算法抽取每一條關聯新聞中的組織機構名稱和個人名稱,并采用聚類方法對抽取到的組織機構名稱和個人名稱進行聚類,通過統計目標企業與每個聚類同時出現在所有關聯新聞中的頻率,獲得目標企業的關聯人物及關聯企業,其中,聚類所獲得的每一個類別代表一個企業或個人,且組織機構名稱包括企業全稱或簡稱。通過對目標企業的每條關聯新聞進行正負向評價分析,可以評估企業的媒體口碑。通過對目標企業的關聯新聞進行關聯人物及關聯企業分析,可以得到目標企業的關系網絡。
[0035]具體地,隱式語義索引法為,采用預先建立的正負向分類器對每一條關聯新聞進行正負向評價。其中,需要說明的是,隱式語義索引是通過海量文獻找出詞匯間的關聯,當兩個詞匯或者一組詞匯大量在同文檔內出現時,這兩個詞匯或者這一組詞匯被判定為語義相關。本實施例提前采用一定數量的新聞樣本通過隱式語義索引模型(Latent SemanticIndexing Model)進行有監督訓練,從而獲得一個正負向分類器。更加具體地,在分類器訓練階段,本實施例是將所有的新聞樣本用于LSI模型訓練,從而獲得從詞頻向量到概念向量的轉換矩陣。之后,對于每一條新聞樣本,將首先獲得一個詞頻向量,并通過LSI模型獲得一個對應的概念向量,每條新聞的概念向量被表達為概念空間內的一個坐標點。通過LSI模型學習,能夠選出能最大限度分離正負樣本的η個概念維度,并選取概念空間中由這η個概念維度構成的超平面作為正向負向分類器。在對關聯新聞的分析階段,對待評價的關聯新聞內的所有詞匯的詞頻,形成稀疏詞頻向量,通過LSI模型將稀疏詞向量投射到概念空間,通過正向負向分類器即可得到關聯新聞的正向負向評價分析結果。
[0036]需要說明的是,本實施例的LSI模型為隱式語義索引模型的簡稱,二者在概念上是等同的。
[0037]進一步優選地,關鍵詞分析方法為,通過提取每一條關聯新聞中的正向關鍵詞詞頻和負向關鍵詞詞頻,并采用預先建立的關鍵詞庫進行比較,獲得每一條關聯新聞的正負向評價。具體地,本實施例中的關鍵詞庫為,首先部分正向新聞樣本和部分負向新聞樣本內提取關鍵詞,并通過所提取的這些關鍵詞構建關于正向和負向詞匯的基本關鍵詞庫,此外,還對該基本關鍵詞庫進行擴充,具體的擴充方法為,以Google開源包word2vec方法為算法基礎,利用采集并經過處理的新聞樣本為材料對關鍵詞庫進行擴充,從而獲得本實施例的關鍵詞庫。在對關聯新聞的分析階段,,對待評價的關聯新聞進行處理時,分別提取正向關鍵詞詞頻和負向關鍵詞詞頻,通過將關鍵詞詞頻與關鍵詞庫進行比較得到每一條關聯新聞的正負向評價分析結果。
[0038]實施例二
[0039]結合圖2所示,本實施例提供一種企業新聞分析系統,應用于計算機中,本實施例的企業新聞分析系統包括:企業名稱輸入模塊I,判斷并接收目標企業全稱;企業名稱拆分模塊2,將企業名稱輸入模塊I中接收到的目標企業全稱,拆分成目標企業簡稱;關聯新聞獲取模塊3,根據企業名稱拆分模塊2中的目標企業全稱和目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞;關聯新聞分析模塊4,對關聯新聞獲取模塊3所獲取到的關聯新聞進行分析,并給出對目標企業的信譽評價。
[0040]本發明的企業新聞分析系統,應用于計算機中,通過將用戶輸入的需要查詢的目標企業名稱與企業名單詞庫內的詞條進行匹配,給出相應候選企業全稱,例如,若用戶輸入的是目標企業的簡稱,則會給出相應的候選企業全稱,供用戶選擇。在接收到目標企業全稱后,將按照一定的規則對目標企業全稱進行拆分,從而獲得目標企業簡稱,例如,若目標企業全稱為“杭州第一科技有限公司”,則“有限”和“公司”這兩個常見詞匯將首先被篩選掉,再去掉地名“杭州”,也就是說,最后得到的目標企業的簡稱為“第一科技” ο同時使用目標企業全稱和目標企業簡稱在互聯網環境中對目標企業情況進行搜索,具體地,例如,對于某一條新聞,若該新聞標題、摘要和正文中出現有目標企業全稱或簡稱,則該條新聞將被獲取。同時使用目標企業全稱和目標企業簡稱來獲取與目標企業相關聯的關聯新聞,可以使得所搜索的關聯新聞更加充分、全面。此外,對于所獲得的所有關聯新聞,采用適當的評價分析方法進行分析,并給出一個比較直觀的對目標企業的信譽評價結果,如此,可以相當大地減少評價一個目標企業所需要的時間,也可以大大節省人力。
[0041]因此,本發明提供的企業新聞分析方法及系統,能夠使得用戶快速、準確地得出對目標企業的信譽評價。
[0042]優選地,還包括關聯新聞篩選模塊5,如圖3所示,關聯新聞篩選模塊5對關聯新聞獲取模塊3中所獲得的關聯新聞進行篩選。
[0043]進一步優選地,關聯新聞篩選模塊5包括不相關新聞篩除單元和去重單元,不相關新聞篩除單元,統計全稱和簡稱在與目標企業關聯度較低的每一條關聯新聞中的出現頻率,并將出現頻率低于一定范圍的關聯新聞判定為不相關新聞并篩除;去重單元,計算關聯新聞的標題之間的相似度,并將相似度高于一定范圍的關聯新聞判斷為重復新聞并篩除。
[0044]盡管本發明已進行了一定程度的描述,明顯地,在不脫離本發明的精神和范圍的條件下,可進行各個條件的適當變化。可以理解,本發明不限于所述實施方案,而歸于權利要求的范圍,其包括所述每個因素的等同替換。
【主權項】
1.一種企業新聞分析方法,應用于計算機中,其特征在于,所述方法包括: 判斷并接收目標企業全稱; 拆分所述目標企業全稱,獲取目標企業簡稱; 根據所述目標企業全稱和所述目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞; 采用評價分析方法對所述關聯新聞進行分析,并給出對所述目標企業的信譽評價。2.根據權利要求1所述的企業新聞分析方法,其特征在于,所述搜取目標企業的關聯新聞步驟中,采用網絡爬蟲技術搜取所述關聯新聞。3.根據權利要求1所述的企業新聞分析方法,其特征在于,所述進行分析步驟之前,還包括:統計所述目標企業全稱和所述目標企業簡稱在與所述目標企業關聯度較低的所述每一條關聯新聞中的出現頻率,并將出現頻率低于一定范圍的所述關聯新聞判定為不相關新聞并師除。4.根據權利要求1所述的企業新聞分析方法,其特征在于,所述進行分析步驟之前,還包括:計算所述關聯新聞的標題之間的相似度,并將相似度高于一定范圍的所述關聯新聞判斷為重復新聞并篩除。5.根據權利要求1至4中任一項所述的企業新聞分析方法,其特征在于, 所述進行分析步驟中,所述評價分析方法包括正負向評價分析方法和/或關聯人物及關聯企業分析方法,其中, 所述正負向評價分析方法為:對所述關聯新聞采用隱式語義索引法或關鍵詞分析方法對所述目標企業進行正向評價和負向評價; 所述關聯人物及關聯企業分析方法為:抽取所述每一條關聯新聞中的組織機構名稱和個人名稱,并采用聚類方法對抽取到的所述組織機構名稱和個人名稱進行聚類,通過統計所述目標企業與每個聚類同時出現在所述所有關聯新聞中的頻率,獲得所述目標企業的關聯人物及關聯企業,其中,聚類所獲得的每一個類別代表一個企業或個人,且所述組織機構名稱包括企業全稱或簡稱。6.根據權利要求5所述的企業新聞分析方法,其特征在于,所述隱式語義索引法為,采用預先建立的正負向分類器對所述每一條關聯新聞進行正負向評價。7.根據權利要求5所述的企業新聞分析方法,其特征在于,所述關鍵詞分析方法為,通過提取所述每一條關聯新聞中的正向關鍵詞詞頻和負向關鍵詞詞頻,并采用預先建立的關鍵詞庫進行比較,獲得所述每一條關聯新聞的正負向評價。8.一種企業新聞分析系統,應用于計算機中,其特征在于,該系統包括: 企業名稱輸入模塊:判斷并接收目標企業全稱; 企業名稱拆分模塊:將所述企業名稱輸入模塊中接收到的目標企業全稱,拆分成目標企業簡稱; 關聯新聞獲取模塊:根據所述企業名稱拆分模塊中的所述目標企業全稱和所述目標企業簡稱,自動在互聯網中搜取目標企業的關聯新聞; 關聯新聞分析模塊:對所述關聯新聞獲取模塊所獲取到的所述關聯新聞進行分析,并給出對目標企業的信譽評價。9.根據權利要求8所述的企業新聞分析系統,其特征在于,還包括關聯新聞篩選模塊,所述關聯新聞篩選模塊對所述關聯新聞獲取模塊中所獲得的關聯新聞進行篩選。10.根據權利要求9所述的企業新聞分析系統,其特征在于,所述關聯新聞篩選模塊包括不相關新聞篩除單元和去重單元; 所述不相關新聞篩除單元,統計所述目標企業全稱和所述目標企業簡稱在與所述目標企業關聯度較低的所述每一條關聯新聞中的出現頻率,并將所述出現頻率低于一定范圍的所述關聯新聞判定為不相關新聞并篩除; 所述去重單元,計算所述關聯新聞的標題之間的相似度,并將所述相似度高于一定范圍的所述關聯新聞判斷為重復新聞并篩除。
【文檔編號】G06F17/30GK105975491SQ201610266431
【公開日】2016年9月28日
【申請日】2016年4月26日
【發明人】周智, 胡洋吉
【申請人】重慶譽存企業信用管理有限公司