針對新聞事件的聚合提取方法及裝置的制造方法
【專利摘要】本發明涉及一種針對新聞事件的聚合提取方法及裝置,其中,該方法包括獲取各個新聞源的新聞;對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文;根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。本發明提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。
【專利說明】
針對新聞事件的聚合提取方法及裝置
技術領域
[0001]本發明涉及新聞信息技術領域,特別涉及一種針對新聞事件的聚合提取方法及裝置。【背景技術】
[0002]新聞,它是對新近發生的有社會意義并引起公眾興趣的事實的簡短報道。因此,真實性、時效性及文字少、篇幅小成為消息的基本特征。報紙、廣播、電視新聞是使用得最廣泛的一種新聞體裁。
[0003]然而,隨著信息化技術的迅速發展,如何將新聞快速而有效的傳播出去,成為當今社會一個非常重要的問題。除了傳統的報紙、電視等可以用來作為新聞傳播的媒介之外,網絡也是新聞傳播的一個重要媒介。
[0004]目前,網絡作為媒介傳播新聞時,一般都是由各個新聞媒體將新聞發布在自己網站或頻道上。大眾通過關鍵詞搜索可以看到與關鍵詞先關的新聞,這些新聞的來源不同,例如來自新浪、騰訊、網易等等,甚至很多個人發出的相關信息。雖然這些新聞和關鍵詞相關, 但是,并不能確定這些新聞都是針對同一事件新聞,因此,在這些鋪天蓋地的信息,大眾很難從中挑選針對某一事件的新聞,極大地影響了用戶閱讀新聞的效率及獲取新聞信息的準確性。
【發明內容】
[0005]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發明第一方面實施例在于提出一種針對新聞事件的聚合提取方法。
[0006]本發明的第二方面實施例在于提出一種針對新聞事件的聚合提取裝置。
[0007]為了實現上述目的,本發明第一方面實施例的針對新聞事件的聚合提取方法,包括:
[0008]獲取各個新聞源的新聞;
[0009]對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;
[0010]對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文;
[0011]根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。
[0012]根據本發明提供的針對新聞事件的聚合提取方法,對來自不同新聞源的新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;文本內容包括新聞標題及正文。由此,用戶在同一網頁頁面上可以瀏覽針對同一事件的所有新聞報道,如此,提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。
[0013]為了實現上述目的,本發明第二方面實施例的針對新聞事件的聚合提取裝置,包括:
[0014]第一獲取單元,用于獲取各個新聞源的新聞;
[0015]第一相關度計算單元,用于對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;
[0016]第一匯編單元,用于對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文;
[0017]展現單元,用于根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。
[0018]根據本發明提供的針對新聞事件的聚合提取裝置,第一相關度計算單元對來自不同新聞源的新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;第一匯編單元對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;文本內容包括新聞標題及正文。由此,用戶在同一網頁頁面上可以瀏覽針對同一事件的所有新聞報道,如此,提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。
【附圖說明】
[0019]圖1是本發明實施例針對新聞事件的聚合提取方法的流程圖;
[0020]圖2是本發明實施例針對新聞事件的聚合提取方法中步驟SlOl的流程圖;
[0021]圖3是本發明實施例針對新聞事件的聚合提取方法中步驟S102的流程圖;
[0022]圖4是本發明另一實施例針對新聞事件的聚合提取方法的流程圖;
[0023]圖5是本發明另一實施例針對新聞事件的聚合提取方法中步驟S204的流程圖;
[0024]圖6是本發明實施例針對新聞事件的聚合提取裝置結構示意圖;
[0025]圖7是本發明實施例針對新聞事件的聚合提取裝置中第一獲取單元結構示意圖;
[0026]圖8是本發明實施例針對新聞事件的聚合提取裝置中第一相關度計算單元結構示意圖;
[0027]圖9是本發明另一實施例針對新聞事件的聚合提取裝置結構示意圖;
[0028]圖10是本發明另一實施例針對新聞事件的聚合提取裝置中排序單元結構示意圖。
[0029]本發明目的的實現、功能特點及優點將結合實施例,參照附圖做進一步說明。
【具體實施方式】
[0030]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發明,而不能理解為對本發明的限制。
[0031]參照圖1所示,圖1示出了本發明實施例提供的針對新聞事件的聚合提取方法的流程圖,為了便于描述,僅示出了與本發明實施例相關的部分。具體的,該針對新聞事件的聚合提取方法,包括:[〇〇32]S101、獲取各個新聞源的新聞。
[0033]該步驟中,可以使用新聞源提供的接口獲取新聞數據。由于網絡上的新聞信息來源廣泛,例如來自各個新聞媒體網站的新聞,還有一些個人或組織發布至網上的事件信息等,所以,上述新聞源可以是任意網站的新聞,也可以是搜索引擎搜集的各種事件信息等。 [〇〇34]在本發明的一個實施例中,步驟S101具體可以包括:
[0035]S1011、定時抓取新聞源的新聞頁面。例如采用JAVA爬蟲抓取新聞頁面。
[0036]S1012、解析抓取的所述新聞頁面,提取新聞頁面中的文本內容以及新聞發布時間。由于抓取的新聞頁面一般包括除了文本內容、新聞發布時間之外的其他諸多內容,例如鏈接地址等等,而作為讀者而言,需要獲取的信息一般僅限于文本內容、新聞發布時間等, 因此,在抓取到新聞頁面之后,提取新聞頁面中的文本內容和新聞發出時間。
[0037]S102、對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組。
[0038]由于在網絡上獲取新聞來自各個不同新聞源,而且每條新聞針對的可能屬于不同的事件,所以,對來自不同新聞源的新聞兩兩之間進行相關度計算,根據計算的相關度即可判斷兩個新聞之間是否是針對同一事件,即當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞。如果是針對同一事件的新聞,則將兩個新聞放入同一新聞組,位于該新聞組內的所有新聞即是針對同一事件的。[〇〇39]在本發明的一個實施例中,步驟S102具體可以包括:
[0040]S1021、采用詞匯共現算法查找來自不同新聞源的兩個新聞的文本內容中的第一共現詞匯和/或句子;也即是,查找不同新聞源的兩個新聞的文本內容中以一定頻率重復出現的詞匯,共現詞匯和/或句子一定程度上反應了該新聞所針對的事件,例如“樓市”。
[0041]S1022、引入詞典語義分析兩個新聞的文本內容中所述第一共現詞匯和/或句子之間的相關關系。[〇〇42]由于共現詞和/或句子一定程度上反應了該新聞所針對事件,所以,如果兩個新聞中的第一共現詞和/或句子的含義是相同的或相近似的,則說明兩者所針對的事件極有可能是同一事件。由此,該步驟中,在步驟S1021確定兩個新聞各自的共現詞和/或句子之后, 引入詞典對兩個新聞中的共現詞和/或句子進行語義比較,找到兩個新聞中的共現詞和/或句子之間的相關關系,該相關關系一包包括相同詞或句子、近義詞、反義詞、無關聯詞,無關聯詞是指在語義上完全不同,沒有任何關聯的兩個詞匯,例如“樓市”與“房地產”可以理解為近義詞。[〇〇43]S1023、提取不同新聞源的兩個新聞中的新聞發布時間。
[0044]由于相類似事件的新聞中共現詞和/或句子可能相同,但是,相類似事件并不是同一事件,例如2000年發生“XX刑事案件”和2010年發生“XX刑事案件”,兩者的案情相似,因此,從兩個新聞中查找的共現詞和/或句子可能是非常接近的,也即是,其兩者之間的相關關系可能為相同詞或近義詞。如果由此判斷兩者的為針對同一事件的新聞而將其列入同一新聞組,則明顯影響準確性。
[0045]而新聞發出時間則間接表征了新聞所針對的事件的發生事件,也即是,新聞報道事件一般與事件發生的事件相隔不會太久,由此,該步驟中,需要提取兩個新聞的新聞發布時間,以該新聞發布時間作為參考,則顯著提高針對同一事件的新聞分類準確率。
[0046]S1024、將不同新聞源的兩個新聞中的新聞發布時間進行比較,確定新聞發布時間的相關關系。
[0047]每篇新聞都有時間戳,在時間戳可以作為新聞發布時間,將兩篇新聞的發布時間進行對比,確定新聞發布時間的相關關系,該相關關系可以是相同時間、臨近時間和無關聯時間,臨近時間是指兩篇新聞的新聞發布時間前后相差較少,例如相差幾天。無關聯時間是指兩篇新聞的新聞報道事件相差較大,例如相差一個月或幾個月。
[0048]S1025、根據所述第一共現詞匯和/或句子之間的相關關系及所述新聞發送時間的相關關系計算所述兩個新聞之間的相關度。
[0049]由于兩個新聞的文本內容中所述第一共現詞匯和/或句子之間的相關關系表征了兩個新聞所針對的事件之間的關聯性,即兩個新聞的文本內容中所述第一共現詞匯和/或句子之間的相關關系為相同詞或近義詞時,說明兩者所針對的事件極有可能是同一事件,但是也有可能是發生在不同時間的相似事件。而兩個新聞的新聞發布時間的相關關系表征了事件發生時間的關聯性。所以,以第一共現詞匯和/或句子之間的相關關系及所述新聞發送時間的相關關系作為參考,來判斷兩篇新聞是否針對同一事件,可以提高判斷的準確性,剔除不同時間發生的相類似事件的干擾。
[0050]S1026、當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組。也就是說,當兩篇新聞的共現詞語義相同或接近,并且,新聞發布時間相同或鄰近時,則說明兩者針對的是同一事件,將兩新聞放入同一事件新聞組中。
[0051]需要說明的是,為了提高兩篇新聞是否針對的是同一事件的準確性,可以在步驟S1021中,盡量查找多個共現詞和/或句子,再通過步驟S1022對多個共現詞和/或句子的語義分析比較,最終,步驟S1025計算的相關度更加精確,步驟S1026中將兩新聞確定為針對同一事件的新聞的準確性更高。
[0052]在發明的另一個實施例中,還包括:
[0053]S1027、當相關度小于設定值時,兩新聞確定為針對不同事件的新聞并建立兩個事件新聞組,兩新聞分別位于兩所述事件新聞組中。如此,可以針對不同時間的新聞分別放入至不同新聞組中,用戶可以根據需要選擇對應的新聞組。
[0054]S103、對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文。
[0055]也就是說,該步驟中,是將位于同一事件新聞組中的所有新聞的文本內容進行匯總,并按照一定的順序編排形成文本內容集,并且記載在同一網頁頁面,例如從頁面的上之下依次排放針對同一事件的各個新聞媒體的文本內容,例如騰訊新聞文本內容、新浪新聞文本內容、央視網新聞文本內容、……、個人發出的事件先關信息(例如公眾人物的微博、微信內容等)。
[0056]S104、根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。
[0057]需要說明的是,也網頁頁面可以是網站,也可以以新聞客戶端的上的頁面。當用戶需要查看新聞時,點擊直接進入網站或新聞客戶端上,再進入至該網頁頁面上瀏覽該事件的各個不同新聞源的新聞報道。
[0058]根據本實施例提供的針對新聞事件的聚合提取方法,對來自不同新聞源的新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;文本內容包括新聞標題及正文。由此,用戶在同一網頁頁面上可以瀏覽針對同一事件的所有新聞報道,如此,提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。
[0059]參照圖2所示,圖2示出了本發明實施例提供的針對新聞事件的聚合提取方法的另一流程圖,為了便于描述,僅示出了與本發明實施例相關的部分。具體的,該針對新聞事件的聚合提取方法,包括:
[0060]S201、獲取各個新聞源的新聞。
[0061]S202、對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組。[〇〇62]S203、對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文。[〇〇63]S204、根據新聞內容的真實性對同一新聞組內各個新聞的文本內容依次排序。
[0064]由于以網絡作為新聞的載體,網絡監管制度不完善,導致了網絡上的新聞的真實性參差不齊。所以,本實施例中,可以根據新聞內容的真實性對同一新聞組內的各個新聞的文本內容進行順序排列,例如對來自新浪、騰訊等新聞媒體的新聞的文本內容排列在網頁頁面的上方,而其他機構、組織或個人發布的信息可以排列在網頁頁面的下方,如此,用戶在流量新聞的時,一般都是從上之下瀏覽(拖動頁面),確保用戶瀏覽的新聞為真實性較高的新聞的文本內容。[〇〇65]在本發明的一個實施例中,步驟S204具體可以包括:
[0066]S2041、獲取政府職能機構網站上公告信息及公告時間。由于政府職能機構一般會對重要事件作出指示或公式,而且以文本方式公開的政府職能機構的官方網站上,而且,其具有針對某個事件或現象的概述。而政府職能部門公告信息的具有權威性和真實性,所以, 可以將公告信息及公告時間作為判斷新聞真實性的依據。[〇〇67]S2042、采用詞匯共現算法查找來自所述政府職能機構網站上公告信息與所述新聞中的第二共現詞匯和/或句子。也即是,查找政府職能機構網上的上公告信息及新聞的文本內容中以一定頻率重復出現的詞匯,該共現詞匯和/或句子一定程度上反應了該其針對的事件。
[0068]S2043、引入詞典語義分析所述第二共現詞匯和/或句子之間的相關關系。
[0069]由于第二共現詞和/或句子一定程度上反應了該公告信息或新聞所針對事件,所以,如果公告信息中的共現詞和/或句子的含義與新聞中的共現詞和/或句子的含義是相同的或相近似的,則說明兩者所針對的事件極有可能是同一事件或者是相關聯的內容。由此,引入詞典對政府職能機構的公開信息和新聞中的第二共現詞和/或句子進行語義比較,找到政府職能機構的公開信息和該新聞中的第二共現詞和/或句子之間的相關關系,該相關關系一包包括相同詞或句子、近義詞、反義詞、無關聯詞,無關聯詞是指在語義上完全不同,沒有任何關聯的兩個詞匯。
[0070]S2044、將所述新聞中的新聞發布時間與所述公告信息的公告時間進行比較,確定新聞發布時間與公告時間的相關關系。該相關關系可以是相同時間、臨近時間和無關聯時間,臨近時間是指兩篇新聞的新聞發布時間前后相差較少,例如相差幾天。
[0071]S2045、根據所述第二共現詞匯和/或句子之間的相關關系及所述新聞發送時間與公告時間的相關關系計算所述新聞與所述公告信息之間的相關度。
[0072]由于政府職能機構的公告信息和新聞的文本內容中所述第二共現詞匯和/或句子之間的相關關系表征了兩者所針對的事件之間的關聯性。所以,以第二共現詞匯和/或句子之間的相關關系及所述公告時間和新聞發布時間的相關關系作為參考,來判斷政府職能機構的公告信息和該新聞是否針對同一事件,可以提高判斷的準確性。
[0073]如上所述,由于政府職能部門發布的公告信息具有權威性和真實性,所以,當政府職能機構的公告信息和該新聞是針對同一事件時,則說明該新聞是真實的,否則有可能不真實。
[0074]S2046、根據所述新聞與所述公告信息之間的相關度大小,對同一事件新聞組內各個新聞的文本內容在同一網頁頁面上進行依次排序。
[0075]也就是說,將針對同一事件新聞組中與所述公告信息之間的相關度越大的新聞排列的網頁頁面的最上面,相關度越小的依次排列再網頁頁面的下面。
[0076]S205、根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。
[0077]根據本實施例提供的針對新聞事件的聚合提取方法,對來自不同新聞源的新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;文本內容包括新聞標題及正文,根據新聞內容的真實性對同一新聞組內各個新聞的文本內容依次排序。由此,用戶在同一網頁頁面上可以瀏覽針對同一事件的所有新聞報道,如此,提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。同時,確保用戶瀏覽新聞的真實性。
[0078]參照圖4所示,圖4示出了本發明另一實施例一種針對新聞事件的聚合提取裝置,包括:
[0079]第一獲取單元301,用于獲取各個新聞源的新聞;
[0080]第一相關度計算單元302,用于對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;
[0081]第一匯編單元303,用于對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文;[〇〇82]展現單元304,用于根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。[〇〇83]在本發明的一個實施例中,所述第一獲取單元301包括:
[0084]抓取模塊3011,用于定時抓取新聞源的新聞頁面;
[0085]解析模塊3012,用于解析抓取的所述新聞頁面,提取新聞頁面中的文本內容以及新聞發布時間。[〇〇86]在本發明的一個實施例中,所述第一相關度計算單元302包括:[〇〇87]第一查找模塊3021,用于采用詞匯共現算法查找來自不同新聞源的兩個新聞的文本內容中的第一共現詞匯和/或句子;[〇〇88]第一詞義分析模塊3022,用于引入詞典語義分析兩個新聞的文本內容中所述第一共現詞匯和/或句子之間的相關關系;
[0089]提取模塊3023,用于提取不同新聞源的兩個新聞中的新聞發布時間;
[0090]第一時間對比模塊3024,用于將不同新聞源的兩個新聞中的新聞發布時間進行比較,確定新聞發布時間的相關關系;
[0091]第一計算模塊3025,用于根據所述第一共現詞匯和/或句子之間的相關關系及所述新聞發送時間的相關關系計算所述兩個新聞之間的相關度;[〇〇92]確定模塊3026,用于當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組。[〇〇93]在本發明的另一個實施例中,所述確定模塊3026還用于:
[0094]當相關度小于設定值時,兩新聞確定為針對不同事件的新聞并建立兩個事件新聞組,兩新聞分別位于兩所述事件新聞組中。[〇〇95]在本發明的又一個實施例中,還包括:
[0096]排列單元305,用于根據新聞內容的真實性對同一新聞組內各個新聞的文本內容依次排序,所述排序單元305具體包括:
[0097]獲取模塊3051,用于獲取政府職能機構網站上公告信息及公告時間;[〇〇98]第二查找模塊3052,用于采用詞匯共現算法查找來自所述政府職能機構網站上公告信息與所述新聞中的第二共現詞匯和/或句子;[〇〇99]第二詞義分析模塊3053,用于引入詞典語義分析所述第二共現詞匯和/或句子之間的相關關系;
[0100]第二時間對比模塊3054,用于將所述新聞中的新聞發布時間與所述公告信息的公告時間進行比較,確定新聞發布時間與公告時間的相關關系;
[0101]第二計算模塊3055,用于根據所述第二共現詞匯和/或句子之間的相關關系及所述新聞發送時間與公告時間的相關關系計算所述新聞與所述公告信息之間的相關度;
[0102]排列模塊3056,用于根據所述新聞與所述公告信息之間的相關度大小,對同一事件新聞組內各個新聞的文本內容在同一網頁頁面上進行依次排序。
[0103]根據本發明提供的針對新聞事件的聚合提取裝置,第一相關度計算單元302對來自不同新聞源的新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;第一匯編單元303對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;文本內容包括新聞標題及正文。由此,用戶在同一網頁頁面上可以瀏覽針對同一事件的所有新聞報道,如此,提高用戶從網絡上獲取新聞信息的準確性以及用戶瀏覽新聞的效率。
[0104]需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置或系統類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0105]還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0106]結合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(RAM)、內存、只讀存儲器(R0M)、電可編程R0M、電可擦除可編程R0M、寄存器、硬盤、可移動磁盤、CD-ROM、或技術領域內所公知的任意其它形式的存儲介質中。
[0107]對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
【主權項】
1.一種針對新聞事件的聚合提取方法,其特征在于,包括: 獲取各個新聞源的新聞; 對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關聯的兩新聞位于同一事件新聞組;對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包括新聞標題及正文;根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集。2.根據權利要求1所述的針對新聞事件的聚合提取方法,其特征在于,所述獲取各個新聞源的新聞包括: 定時抓取新聞源的新聞頁面; 解析抓取的所述新聞頁面,提取新聞頁面中的文本內容以及新聞發布時間。3.根據權利要求2所述的針對新聞事件的聚合提取方法,其特征在于,所述對來自不同新聞源的所述新聞兩兩之間進行相關度計算,當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,包括: 采用詞匯共現算法查找來自不同新聞源的兩個新聞的文本內容中的第一共現詞匯和/或句子; 引入詞典語義分析兩個新聞的文本內容中所述第一共現詞匯和/或句子之間的相關關系; 提取不同新聞源的兩個新聞中的新聞發布時間; 將不同新聞源的兩個新聞中的新聞發布時間進行比較,確定新聞發布時間的相關關系; 根據所述第一共現詞匯和/或句子之間的相關關系及所述新聞發送時間的相關關系計算所述兩個新聞之間的相關度; 當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組。4.根據權利要求3所述的針對新聞事件的聚合提取方法,其特征在于,還包括: 當相關度小于設定值時,兩新聞確定為針對不同事件的新聞并建立兩個事件新聞組,兩新聞分別位于兩所述事件新聞組中。5.根據權利要求1所述的針對新聞事件的聚合提取方法,其特征在于,所述根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的文本內容集之前還包括: 根據新聞內容的真實性對同一新聞組內各個新聞的文本內容依次排序,具體包括: 獲取政府職能機構網站上公告信息及公告時間; 采用詞匯共現算法查找來自所述政府職能機構網站上公告信息與所述新聞中的第二共現詞匯和/或句子; 引入詞典語義分析所述第二共現詞匯和/或句子之間的相關關系; 將所述新聞中的新聞發布時間與所述公告信息的公告時間進行比較,確定新聞發布時間與公告時間的相關關系; 根據所述第二共現詞匯和/或句子之間的相關關系及所述新聞發送時間與公告時間的相關關系計算所述新聞與所述公告信息之間的相關度;根據所述新聞與所述公告信息之間的相關度大小,對同一事件新聞組內各個新聞的文 本內容在同一網頁頁面上進行依次排序。6.—種針對新聞事件的聚合提取裝置,其特征在于,包括:第一獲取單元,用于獲取各個新聞源的新聞;第一相關度計算單元,用于對來自不同新聞源的所述新聞兩兩之間進行相關度計算, 當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立一事件新聞組,相關 聯的兩新聞位于同一事件新聞組;第一匯編單元,用于對同一事件新聞組內各個新聞的文本內容進行匯編形成針對同一 事件不同新聞源的文本內容集,并將該文本內容集加載至同一網頁頁面;所述文本內容包 括新聞標題及正文;展現單元,用于根據用戶發出的訪問請求,打開網頁頁面展示同一事件不同新聞源的 文本內容集。7.根據權利要求6所述的針對新聞事件的聚合提取裝置,其特征在于,所述第一獲取單 元包括:抓取模塊,用于定時抓取新聞源的新聞頁面;解析模塊,用于解析抓取的所述新聞頁面,提取新聞頁面中的文本內容以及新聞發布 時間。8.根據權利要求7所述的針對新聞事件的聚合提取裝置,其特征在于,所述第一相關度 計算單元包括:第一查找模塊,用于采用詞匯共現算法查找來自不同新聞源的兩個新聞的文本內容中 的第一共現詞匯和/或句子;第一詞義分析模塊,用于引入詞典語義分析兩個新聞的文本內容中所述第一共現詞匯 和/或句子之間的相關關系;提取模塊,用于提取不同新聞源的兩個新聞中的新聞發布時間;第一時間對比模塊,用于將不同新聞源的兩個新聞中的新聞發布時間進行比較,確定 新聞發布時間的相關關系;第一計算模塊,用于根據所述第一共現詞匯和/或句子之間的相關關系及所述新聞發 送時間的相關關系計算所述兩個新聞之間的相關度;確定模塊,用于當相關度大于設定值時,將兩新聞確定為針對同一事件的新聞并建立 一事件新聞組。9.根據權利要求8所述的針對新聞事件的聚合提取裝置,其特征在于,所述確定模塊還 用于:當相關度小于設定值時,兩新聞確定為針對不同事件的新聞并建立兩個事件新聞組, 兩新聞分別位于兩所述事件新聞組中。10.根據權利要求6所述的針對新聞事件的聚合提取裝置,其特征在于,還包括:排列單元,用于根據新聞內容的真實性對同一新聞組內各個新聞的文本內容依次排 序,所述排序單元具體包括:獲取模塊,用于獲取政府職能機構網站上公告信息及公告時間;第二查找模塊,用于采用詞匯共現算法查找來自所述政府職能機構網站上公告信息與所述新聞中的第二共現詞匯和/或句子; 第二詞義分析模塊,用于引入詞典語義分析所述第二共現詞匯和/或句子之間的相關關系; 第二時間對比模塊,用于將所述新聞中的新聞發布時間與所述公告信息的公告時間進行比較,確定新聞發布時間與公告時間的相關關系; 第二計算模塊,用于根據所述第二共現詞匯和/或句子之間的相關關系及所述新聞發送時間與公告時間的相關關系計算所述新聞與所述公告信息之間的相關度; 排列模塊,用于根據所述新聞與所述公告信息之間的相關度大小,對同一事件新聞組內各個新聞的文本內容在同一網頁頁面上進行依次排序。
【文檔編號】G06F17/27GK106021351SQ201610303436
【公開日】2016年10月12日
【申請日】2016年5月10日
【發明人】李華基
【申請人】深圳職業技術學院