專利名稱:信息處理裝置以及處理方法
信息處理裝置以及處理方法
技術領域:
本發明涉及一種信息處理裝置以及處理方法,尤其涉及一種用于時間脈絡信息 處理裝置以及處理方法。
背景技術:
某新聞發生后一段時間,各新聞站點會迅速發布出很多相關報道。當這種資源 變化程度足夠大時,我們稱此新聞為事件或者突發事件。此時,用戶在各大搜索引擎進 行該事件的相關檢索后,搜索引擎會在網頁上展示出一系列與該事件相關的新聞。展示 出的新聞會有不同的排序及排列方式,通常會按照時間順序將該事件展示給用戶。關于 該事件或者突發事件的新聞通常很多,而且具有重復性,讓用戶眼花繚亂,對該事件沒 有一個清楚的了解。因此,需要提供事件的脈絡信息提供給用戶查詢。然而,并不是所 有的事件都需要提供脈絡信息,因為并不是所有的事件都具有在一定時間內的持續性。 需要對事件進行判定是否屬于需要給出脈絡信息的事件,而且如何實現脈絡信息的分析 與計算,都是需要解決的問題。中國發明專利申請公開第CN101571853號揭示了通過多中心結構建立相應的話 題模型,更為準確、全面的描述話題。通過話題多中心的建立和更新,展現話題內容的 動態演化發展過程,即話題的產生、發展、高潮直至消亡的全過程。該發明專利申請公 開采用向量空間模型形成新聞報道和話題模型;采用夾角余弦公式計算報道和話題的相 似度;采用向量分解方法建立話題的多個側面,并判斷話題內容的演變。然而,該發明 專利申請公開并未揭示其具體的分析與計算方法,且對于何種情形下需要給出事件的脈 絡信息也沒有給出。另外,美國專利申請公開第2002/0152245A1號針對搜索的信息根 據時間和標題進行串聯,然后根據用戶的查詢條件展示給用戶根據時間和標題串聯的新 聞。該美國專利申請公開針對新聞進行聚類,然后根據時間窗更新脈絡信息。然而,該 技術并未區分給出事件脈絡信息的情形和條件。然而上述兩個現有技術,均是將收集到的新聞信息全部載入,然后根據時間和 標題進行串聯,工作量很大,影響脈絡分析的時效性及脈絡分析結果的清晰性。容易造 成用戶的困擾,并浪費用戶的時間。因此,需要針對以上技術缺陷給出解決方案。
發明內容本發明的目的在于提供一種可以提供事件脈絡信息的信息處理裝置。本發明的又一個目的在于提供一種提供事件脈絡信息的信息處理方法。為實現上述目的,本發明的一個方面是關于一種信息處理裝置,其包括新聞簇信息載入模塊載入新聞簇信息;脈絡分析模塊分析所述新聞簇信息并產生脈絡信息;前端展示模塊展示所述脈絡信息。
作為本發明的進一步改進,其還具有存儲器,用以存儲所述脈絡信息。作為本發明的進一步改進,所述新聞簇信息載入模塊包括數據加載模塊加載一個周期內收集到的所有新聞數據;新聞聚類模塊文本聚類所述一個周期內的新聞數據并分別歸類;計算焦點簇信息模塊計算焦點簇,并產生出若干個新聞簇。作為本發明的進一步改進,所述數據加載模塊的周期為4天至7天之間。作為本發明的進一步改進,所述脈絡分析模塊包括新聞數量分布計算模塊統計不同時間段內新聞的數量分布;脈絡需求判定模塊利用時間窗和新聞簇的分類來過濾不需要出脈絡的新聞事 件,并避免產生低質量的新聞簇產出脈絡;脈絡數據生成模塊生成脈絡信息并返回信息處理裝置,以進行保存。作為本發明的進一步改進,所述脈絡分析模塊還包括配置信息加載模塊載入新聞聚類后產生的焦點簇配置信息。作為本發明的進一步改進,所述脈絡分析模塊還包括相似新聞去重模塊單遍聚類新聞簇內的高質量新聞,并歸檔相似度很高的新 聞,以最早的那篇新聞為代表新聞,參加后一階段的時間片聚類。作為本發明的進一步改進,所述脈絡分析模塊還包括時間片聚類模塊將所有的新聞按照時間排列,每篇新聞作為一個獨立的片 段,每次合并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的距離都大于 一定的閾值時停止合并。作為本發明的進一步改進,所述脈絡分析模塊還包括后處理模塊通過上述的時間片聚類算法,得到事件的若干個進展以后,從每 個片段中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。作為本發明的進一步改進,所述時間窗為1天,只有新聞簇的時間跨度大于24 小時,才會出脈絡信息。作為本發明的進一步改進,所述事件以專題新聞頁展示給用戶,其具有以時間 排序的最新報道列表及事件的脈絡信息。作為本發明的進一步改進,所述最新報道列表位于專題新聞頁的左側,時間的 脈絡信息位于位于該專題新聞頁的右側。作為本發明的進一步改進,所述脈絡信息展示為時間軸。為實現上述目的,本發明又一個方面是關于一種信息處理方法,其包括步驟1)新聞簇信息加載載入新聞簇信息;2)計算脈絡信息分析所述新聞簇信息并產生脈絡信息;3)新聞事件展示展示所述脈絡信息。作為本發明的進一步改進,其還包括步驟以通用數據的格式存儲所述脈絡信 肩、ο作為本發明的進一步改進,所述新聞簇信息加載步驟包括1)加載數據加載一個周期內收集到的所有新聞數據;2)進行新聞聚類文本聚類所述一個周期內的新聞數據并分別歸類;
3)計算焦點簇信息計算焦點簇,并產生出若干個新聞簇。作為本發明的進一步改進,所述加載數據的周期為4天至7天之間。作為本發明的進一步改進,所述計算脈絡分析的步驟包括1)計算新聞數量分布統計不同時間段的新聞發布數量;2)判定脈絡需求利用時間窗和新聞簇的分類來過濾不需要出脈絡的新聞事 件,并避免產生低質量的新聞簇產出脈絡;3)生成脈絡數據生成脈絡信息并返回信息處理裝置,以進行保存。作為本發明的進一步改進,所述判定脈絡需求的步驟中,時間窗為1天,只有 新聞簇的時間跨度大于24小時,才會出脈絡信息。作為本發明的進一步改進,所述計算脈絡分析的步驟還包括加載配置信息載入新聞聚類后產生的焦點簇配置信息。作為本發明的進一步改進,所述計算脈絡分析的步驟還包括相似新聞去重單遍聚類新聞簇內的高質量新聞,并歸檔相似度很高的新聞, 以最早的那篇新聞為代表新聞,參加后一階段的時間片聚類。作為本發明的進一步改進,所述計算脈絡分析的步驟還包括時間片聚類將所有的新聞按照時間排列,每篇新聞作為一個獨立的片段,每 次合并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的距離都大于一定的 閾值時停止合并。作為本發明的進一步改進,所述時間片聚類步驟中,計算兩個片段中兩兩新聞 對的時間距離,然后求平均值以度量兩個片段之間距離。作為本發明的進一步改進,所述時間間距是采用新聞時間來計算,其中新聞時 間的統計是按照每半小時為一個小時間片,統計每個時間片內的相同新聞簇的個數,求 出各個時間片新聞數占所有時間片新聞數的比值,該比值用于重新分配24小時的時間長 度,作為新聞時間。作為本發明的進一步改進,所述計算脈絡分析的步驟還包括后處理通過上述的時間片聚類算法,得到事件的若干個進展以后,從每個片 段中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。作為本發明的進一步改進,所述后處理步驟中,如果有一個片段的新聞數量明 顯比相鄰的片段要少很多,那么這個片段要作為噪音被刪除掉。作為本發明的進一步改進,所述后處理步驟中,對于選擇出來的內容或者標題 非常相近的脈絡新聞,會進行去重,只保留時間更早的那篇新聞。作為本發明的進一步改進,所述判定脈絡需求步驟,其包括1)發生事件;2)判斷時間跨度是否符合要求,如否,則判定為該事件無脈絡需求;3)如果時間跨度符合要求,則判斷事件是否有多個階段,如果無,則判定無脈 絡需求;4)如果事件有多個階段,則判斷各階段之間是否有邏輯順序,如果無,則判定 為一般脈絡需求;5)如果事件的各階段之間具有邏輯順序,則判定為強脈絡需求。
作為本發明的進一步改進,所述事件的邏輯順序至少包括現象和本質、態度和 行動,由淺至深、由主到次或者由此及彼之一。作為本發明的進一步改進,所述強脈絡需求事件包括持續性事件及突發性事 件。作為本發明的進一步改進,所述低質量新聞簇是通過統計新聞簇中地區新聞的 地域個數,如果地域分布比較散,那么判定為一個低質量的新聞簇。作為本發明的進一步改進,所述新聞簇內可以出現的最多地域數目為3個,高 于該值則認為是低質量新聞簇。作為本發明的進一步改進,所述無法通過地域來過濾的低質量新聞簇,則通過 對新聞簇內新聞內容的凝聚度來打分,對于打分較低的新聞簇,判定為低質量新聞簇, 不給出新聞脈絡。作為本發明的進一步改進,所述打分的方法是在新聞簇內,挑選轉載率最高 的N條新聞,計算N條新聞兩兩之間的文本距離,然后算平均值作為整個簇的內容質量 得分。作為本發明的進一步改進,所述轉載率不低于3次。作為本發明的進一步改進,所述事件以專題新聞頁展示給用戶,其具有以時間 排序的最新報道列表及事件的脈絡信息。作為本發明的進一步改進,所述最新報道列表位于專題新聞頁的左側,時間的 脈絡信息位于位于該專題新聞頁的右側。作為本發明的進一步改進,所述脈絡信息展示位時間軸。本發明的有益效果是工作量較小、時效性較強、清晰度較高的給出新聞事件 的脈絡信息。
圖1是根據本發明優選實施方式一的信息處理裝置的示意框圖;圖2是圖1所示信息處理裝置的處理流程示意圖;圖3是根據本發明優選實施方式二的信息處理裝置的示意框圖;圖4是圖3所示的信息處理裝置的處理流程示意圖;圖5是本發明信息處理裝置的新聞簇信息載入模塊的示意框圖;圖6是圖5所示的新聞簇信息載入模塊的處理流程示意圖;圖7是本發明信息處理裝置中脈絡分析模塊的示意框圖;圖8是本發明脈絡分析模塊的數據處理流程示意圖;圖9是本發明新聞事件脈絡需求判定流程示意圖;圖10是本發明信息處理裝置中事件脈絡信息展示示意圖片;圖11是本發明信息處理裝置中又一事件脈絡信息展示示意圖片。
具體實施方式持續一定時間的新聞事件會具有事件演化過程,脈絡信息是將該演化過程按照 時間序列呈現出來。理想情況下,用戶對事件完全不了解的情況下,能夠通過閱讀給出的脈絡信息,迅速了解整個事件的來龍去脈。并不是每個新聞事件都需要給出脈絡信息。只有特別的新聞簇,才具有出脈絡 的必要。新聞簇要滿足一定的時間窗長度,以及話題本身具有階段型的發展趨勢才適合 用脈絡的形式來展現。時間窗長度可以配置,于本發明優選實施方式中,時間窗長度要 求時間的相關報道持續一天以上。另外,在當前瀏覽端的架構下,還需要避免一些低質 量的新聞簇出脈絡信息。因此,本發明信息處理裝置及其處理方法的思路是首先,對于本發明信息處理裝置產出的新聞簇,需要判定該新聞簇是否具有脈 絡需求,如果滿足脈絡需求,則進行脈絡分析。對于有脈絡需求的新聞簇,需要利用機器挖掘算法,產出該新聞簇的脈絡信 息。具體的脈絡信息及展現形式,請參閱圖10,前端展示模塊的左側列出根據時間排序 的新聞事件的一系列最新報道,右側為該新聞事件的事件回顧,即脈絡信息。該展示位 置并不固定,可以根據需要調整脈絡信息的顯示位置。請參閱圖1,其示出了根據本發明優選實施方式一的信息處理裝置的示意框圖, 其包括新聞簇信息載入模塊將焦點簇信息載入新聞處理裝置;脈絡分析模塊以上述周期內產生的新聞簇為輸入,產生脈絡信息;存儲器將上述脈絡信息以通用數據的格式直接存儲到指定目錄;前端展示模塊根據用戶的搜索條件,展示事件的新聞列表及事件脈絡信息。請參閱圖5,新聞簇信息載入模塊包括數據加載模塊將一個周期內收集到的所有新聞數據加載至本發明信息處理裝 置,于本發明較佳實施方式中,該周期為4天至7天;新聞聚類模塊將數據加載模塊加載的一個周期內的新聞數據進行文本聚類, 將周期內的新聞數據分別歸類;計算焦點簇信息模塊根據歸類后的新聞,計算焦點簇,并產生出若干個新聞簇。由于本發明的信息處理裝置的脈絡分析模塊是內嵌到信息處理裝置中,所以脈 絡分析用到的新聞事件的時間窗也受到新聞簇周期的限制,即為4天至7天。但是這樣 的優點是能夠自然的將脈絡信息同新聞簇對應起來,因為二者的更新周期一致。請參閱圖2,其示出了根據圖1的信息處理裝置的處理流程示意圖,其包括步 驟SlOlS102
脈絡信息;S103
指定目錄;S104
fn息O請參閱圖3,其示出了根據本發明優選實施方式二的信息處理裝置的示意框圖,載入新聞簇信息;計算脈絡信息脈絡分析模塊以上述周期內產生的新聞簇為輸入,產生 保存數據數據保存模塊將上述脈絡信息以通用數據的格式直接存儲到 前端展示由前端展示模塊展示用戶查詢條件下的事件結果列表及脈絡其包括新聞簇信息載入模塊將焦點簇信息載入新聞處理裝置;脈絡分析模塊以上述周期內產生的新聞簇為輸入,產生脈絡信息;前端展示模塊根據用戶的搜索條件,展示事件的新聞列表及事件脈絡信息。其中,本發明信息處理裝置實時運算,并由前端展示模塊進行展示。請參閱圖4,其示出了根據圖3的信息處理裝置的處理流程示意圖,其包括步 驟SlOl 載入新聞簇信息;S102計算脈絡信息脈絡分析模塊以上述周期內產生的新聞簇為輸入,產生 脈絡信息;S104前端展示由前端展示模塊展示用戶查詢條件下的事件結果列表及脈絡 fn息ο與優選實施方式一比較,優選實施方式二采用實時運算的方式,缺省存取器。圖6為根據圖5所示的新聞簇信息載入模塊的示意框圖的處理流程圖,其步驟如 下SlOll 加載數據利用數據加載模塊將一個周期內收集到的所有新聞數據加 載至信息處理裝置。于本發明較佳實施方式中,該周期為4天至7天;S1012進行新聞聚類新聞聚類模塊將數據加載模塊加載的一個周期內的新 聞數據進行文本聚類,將周期內的新聞數據分別歸類;S1013計算焦點簇信息計算焦點簇信息模塊根據歸類后的新聞,計算焦點 簇,并產生出若干個新聞簇。請參閱圖7,本發明信息處理裝置中的脈絡分析模塊包括配置信息加載模塊配置信息為信息處理裝置中新聞聚類后產生的焦點簇信 息,配置信息加載模塊將上述配置信息載入脈絡分析模塊;新聞數量分布計算模塊一天有24個小時,各個小時的新聞發布數量是有很大 差別的。通過統計,新聞發布的高峰主要有兩個時間段,分別是在8:00 11:30,以及 14:00 16:00。新聞數量分布計算模塊統計不同時間段的新聞發布數量,對于后續的時 間片聚類是有幫助的。脈絡需求判定模塊利用時間窗和新聞簇的分類來過濾,同時避免一些低質量 的新聞簇產出脈絡。時間窗的大小和分類的過濾設置,都可以通過配置文件來設定,當前的時間窗 為1天,即只有新聞簇的時間跨度大于24小時,才考慮出脈絡信息。于本發明優選實 施方式中,在分類方面,共有國際、國內、體育、娛樂、社會、財經和互聯網等7個分 類具有出脈絡的需要。這7個需要出脈絡信息的分類具有類別代號1,2,3,4,5,6, 7。然而,其并不僅限于以上7個分類,其他分類同樣適用本發明的信息處理方法出具脈 絡信息。相似新聞去重模塊對新聞簇內的高質量新聞,進行一次單遍聚類,如果碰到 相似度很高的新聞,則歸檔在一起,以最早的那篇新聞為代表新聞,參加后一階段的時 間片聚類。單遍聚類的合并閾值和質心調整閾值,可以通過配置文件來設定。
時間片聚類模塊將所有的新聞按照時間排列,初始時,每篇新聞作為一個獨 立的片段,每次合并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的距離 都大于一定的閾值時停止合并。于本發明的優選實施方式中,片段數量至少為3個時停 止合并,片段之間的距離大于5個小時的情形下停止合并。然而,本發明并不僅限于片 段數量為至少3個時停止合并,其還可以設置為其他片段數量,同樣可以實現本發明的 發明目的。同理,片段之間的距離也同樣不僅限于距離大于5個小時的情形下停止合 并,其還可以選擇其他時間距離,同樣可以實現本發明的發明目的。度量兩個片段之間 距離的方法是計算兩個片段中兩兩新聞對的時間距離,然后求平均值。為了更符合新聞發布的時間規律,本發明信息處理方法采用“新聞時間”來代 替“自然時間”計算時間距離。后處理模塊通過上述的時間片聚類算法,得到事件的若干個進展以后,從每 個片段中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。在這個過程中,還會對時間片劃分的結果進行一定的修正工作。如果有一個片 段的新聞數量明顯比相鄰的片段要少很多,那么這個片段要作為噪音被刪除掉。同時,對于選擇出來的內容或者標題非常相近的脈絡新聞,也會進行去重,只 保留時間更早的那篇新聞。脈絡數據生成模塊生成脈絡信息并返回信息處理裝置,進行保存。具體來講,脈絡信息生成的數據處理流程如圖8所示,其包括以下步驟S201 加載配置信息配置信息為信息處理裝置中新聞聚類后產生的焦點簇信 息,配置信息加載模塊將上述配置信息載入脈絡分析模塊。S202計算新聞數量在各個時間段的分布一天有24個小時,各個小時的新 聞發布數量是有很大差別的。通過統計,新聞發布的高峰主要有兩個時間段,分別是在 8:00 11:30,以及14:00 16:00。新聞數量分布計算模塊統計不同時間段的新聞發布 數量,對于后續的時間片聚類是有幫助的。“新聞時間”是相對于“自然時間”來說的,一天24小時,每個小時的跨度是 一樣的。但是對于新聞來說,由于新聞發布并不是在24小時內均勻分布的,所以本發明 信息處理方法中在新聞發布高峰期間隔1個小時,要比在新聞發布的低谷期間隔一個 小時,造成的時間跨度更長。統計的方法是新聞數量于各時間段分布計算模塊按照每半小時為一個小時間 片,統計每個時間段內的相同新聞簇的個數,求出各個時間段新聞數占所有時間片新聞 數的比值,這個比值可以用來重新分配24小時的時間長度,作為“新聞時間”。最終的 結果可以是在0點至6點之間的1個小時,在“新聞時間”中只有半個小時,甚至更 少,而在9:00 11:00期間的一個小時,相當于2 3個小時。由于統計本身不怎么消耗資源,所以每個周期都會重新統計一次。S203脈絡需求判定并不是所有的新聞簇都適合出脈絡。影響新聞簇是否需要脈絡的因素有時間窗的大小以及話題是否具有階段性的 進展模式。本發明信息處理方法是脈絡需求判定模塊利用時間窗和新聞簇的分類來過濾, 同時避免一些低質量的新聞簇產出脈絡。
時間窗的大小和分類的過濾設置,都可以通過配置文件來設定,當前的時間窗 為1天,即只有新聞簇的時間跨度大于24小時,才考慮出脈絡信息。分類方面,國際、 國內、體育、娛樂、社會、財經和互聯網共7個分類具有出脈絡的需要,并分別具有脈 絡信息代號1-7。然而,其他分類同樣適用于本發明信息處理方法實現脈絡分析的需求。請參閱圖9,新聞事件的脈絡需求判定流程為S301 發生事件 A ;S302時間跨度是否符合要求,如否,則判定為該事件A無脈絡需求;于本發明實施方式中,時間跨度需要滿足大于24小時;S303如果時間跨度符合要求,則判斷事件A是否有多個階段,如果無,則判 定無脈絡需求;S304如果事件A有多個階段,則判斷各階段之間是否有邏輯順序,如果無, 則判定為一般脈絡需求,如體育賽事新聞、娛樂新聞等事件;如是否有原因和結果、現象和本質、態度和行動,由淺至深、由主到次或者由 此及彼等,都可以判斷為各階段之間具有邏輯順序;S305如果事件A的各階段之間具有邏輯順序,則判定為強脈絡需求。強脈絡需求事件包括持續性事件及突發性事件。持續性事件如獸獸門、局長日 記門、喝開水死亡、躲貓貓、鄧玉嬌等。突發性事件如地震、事故、災難等。低質量新聞簇判定的方法是統計新聞簇中地區新聞的地域個數,如果地域分布比較散,那么判定為一個低 質量的新聞簇。這類低質量新聞簇的代表就是一些講各地抗旱,各地學習科學發展觀等 新聞簇。于本發明信息處理方法中,新聞簇內可以出現的最多地域數目為3個,高于該 值則認為是低質量新聞簇。對于無法通過地域來過濾的新聞簇,通過對新聞簇內新聞內容的凝聚度來打 分,對于打分較低的新聞簇,也不給出新聞脈絡。打分的方法是在新聞簇內,挑選轉 載率最高的若干條新聞(最多抽N條,N可配置),計算N條新聞兩兩之間的文本距離, 然后算平均值作為整個簇的內容質量得分。通過數據分析,這種方法對于過濾那些由于 某個特征詞而聚集在一起的大雜燴新聞簇,比如“奧巴馬”等類型的新聞簇比較有效。 其中轉載率不低于3次。S204相似新聞去重在新聞報道中,會有很多相似的新聞在描述同一事件的 同一階段,但是他們的時間間隔卻可能較大,一個主要的原因是各方編輯的相應速度不 一樣,描述方式也不一樣。為了不讓相似的新聞被劃分到不同的時間片中,作為不同的事件階段,需要把 相似度較高的新聞合并起來,這樣可以提升脈絡分析的質量。相似新聞去重的實現方法是相似新聞去重模塊對新聞簇內的高質量新聞,進 行一次單遍聚類,如果碰到相似度很高的新聞,則歸檔在一起,以最早的那篇新聞為代 表新聞,參加后一階段的時間片聚類。單遍聚類的合并閾值和質心調整閾值,可以通過 配置文件來設定。于本發明中,優選的實施方式為選取的高質量新聞不低于8條,合并 閾值為0.55,質心調整閾值為0.75。S205時間片聚類時間片聚類模塊使用媒體報道新聞事件的趨勢來擬合事件發展的趨勢。把每篇新聞都映射成在時間軸上的一個點,那么一個新聞簇的新聞集合,就是 時間軸上的點的集合。如果新聞的發布時間同事件進展發生的時間一致的話,將這些點 劃分成若干個片段獨立開來,每個獨立的片段就可以看作是一個事件發展的階段。當然,這是一種理想的假設,實際的情況應該是描述同一個事件階段的新聞 報道,某個網站的報道可能晚上11點鐘就及時發出,而有一些站點,可能要等到第二天 8點以后才能發出。而且不同的站點新聞滯后性都不一樣,所以時間片聚類的效果打了折 扣。但是通過觀察,可以透過時間片劃分的結果,提取出事件發展的重要的幾個階段。 同時,還可以用相似新聞過濾的方法來削弱滯后性新聞帶來的負面影響。時間片聚類的算法是將所有的新聞按照時間排列,初始時,每篇新聞作為一 個獨立的片段,每次合并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的 距離都大于一定的閾值時停止合并。度量兩個片段之間距離的方法是計算兩個片段中 兩兩新聞對的時間距離,然后求平均值。于本發明優選實施方式中,單遍聚類的合并閾 值為0.55。于本發明的優選實施方式中,片段數量至少為3個時停止合并,片段之間的 距離大于5個小時的情形下停止合并。為了更符合新聞發布的時間規律,本發明采用“新聞時間”來代替“自然時 間”計算時間距離。S206后處理通過上述的時間片聚類算法,得到事件的若干個進展以后,后 處理模塊從每個片段中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。在這個過程中,還會對時間片劃分的結果進行一定的修正工作。如果有一個片 段的新聞數量明顯比相鄰的片段要少很多,那么這個片段要作為噪音被刪除掉。同時,對于選擇出來的內容或者標題非常相近的脈絡新聞,也會進行去重,只 保留時間更早的那篇新聞。計算該新聞相似度時,標題相似的權重為2。S207生成脈絡數據脈絡數據生成模塊生成脈絡信息并返回信息處理裝置, 進行保存。請參閱圖10及圖11,于本發明的最佳實施方式中,其示出了根據本發明信息處 理方法得到的事件脈絡信息,并以專題新聞頁的方式展現。該專題新聞頁包括位于左上 方該事件的熱門報道,位于熱門報道下方的對該事件的各方評論及位于左側最下方的帶 有圖片的新聞。新聞頁右側下方即為該新聞的事件回顧,即脈絡信息。該脈絡信息展示 位置可調整。同時,脈絡信息的展示也并不限于圖10及圖11所呈現的展現形式,其具 體的應用形式,可以有多種,比如展現成一個時間軸的樣式,用戶可以隨意移到想看的 時間點上,則展現這個時間點的進展情況。特別需要指出的是,本發明具體實施方式
中僅以信息處理裝置以及處理方法作 為示例,在實際應用中任何類型的信息處理裝置以及處理方法均適用本發明揭示的原 理。對于本領域的普通技術人員來說,在本發明的教導下所作的針對本發明的等效變 化,仍應包含在本發明權利要求所主張的范圍中。
權利要求
1.一種信息處理裝置,其特征在于其包括 新聞簇信息載入模塊載入新聞簇信息;脈絡分析模塊分析所述新聞簇信息并產生脈絡信息; 前端展示模塊展示所述脈絡信息。
2.如權利要求1所述的信息處理裝置,其特征在于,還具有存儲器,用以存儲所述脈絡信息。
3.如權利要求1所述的信息處理裝置,其特征在于,所述新聞簇信息載入模塊包括數據加載模塊加載一個周期內收集到的所有新聞數據; 新聞聚類模塊文本聚類所述一個周期內的新聞數據并分別歸類; 計算焦點簇信息模塊計算焦點簇,并產生出若干個新聞簇。
4.如權利要求3所述的信息處理裝置,其特征在于,所述數據加載模塊的周期為4天 至7天之間。
5.如權利要求1或2所述的信息處理裝置,其特征在于,所述脈絡分析模塊包括 新聞數量分布計算模塊統計不同時間段內新聞的數量分布;脈絡需求判定模塊過濾不需要出脈絡的新聞事件,并避免產生低質量的新聞簇產 出脈絡;脈絡數據生成模塊生成脈絡信息并返回信息處理裝置,以進行保存。
6.如權利要求5所述的信息處理裝置,其特征在于,所述脈絡分析模塊還包括 配置信息加載模塊載入新聞聚類后產生的焦點簇配置信息。
7.如權利要求5所述的信息處理裝置,其特征在于,所述脈絡分析模塊還包括 相似新聞去重模塊單遍聚類新聞簇內的高質量新聞,并歸檔相似度很高的新聞,以最早的那篇新聞為代表新聞,參加后一階段的時間片聚類。
8.如權利要求5所述的信息處理裝置,其特征在于,所述脈絡分析模塊還包括 時間片聚類模塊將所有的新聞按照時間排列,每篇新聞作為一個獨立的片段,每次合并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的距離都大于一定的 閾值時停止合并。
9.如權利要求8所述的信息處理裝置,其特征在于,所述脈絡分析模塊還包括 后處理模塊通過上述的時間片聚類算法,得到事件的若干個進展以后,從每個片段中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。
10.如權利要求5所述的信息處理裝置,其特征在于,所述時間窗為1天,只有新聞 簇的時間跨度大于24小時,才會出脈絡信息。
11.如權利要求1所述的信息處理裝置,其特征在于,所述事件以專題新聞頁展示給 用戶,其具有以時間排序的最新報道列表及事件的脈絡信息。
12.如權利要求11所述的信息處理裝置,其特征在于,所述最新報道列表位于專題新 聞頁的左側,時間的脈絡信息位于位于該專題新聞頁的右側。
13.如權利要求11所述的信息處理裝置,其特征在于,所述脈絡信息展示為時間軸。
14.一種信息處理方法,其包括步驟 1)新聞簇信息加載載入新聞簇信息;2)計算脈絡信息分析所述新聞簇信息并產生脈絡信息;3)新聞事件展示展示所述脈絡信息。
15.如權利要求14所述的信息處理方法,其特征在于,還包括步驟以通用數據的 格式存儲所述脈絡信息。
16.如權利要求14或15所述的信息處理方法,其特征在于,所述新聞簇信息加載步 驟包括1)加載數據加載一個周期內收集到的所有新聞數據;2)進行新聞聚類文本聚類所述一個周期內的新聞數據并分別歸類;3)計算焦點簇信息計算焦點簇,并產生出若干個新聞簇。
17.如權利要求14所述的信息處理方法,其特征在于,所述加載數據的周期為4天至 7天之間。
18.如權利要求14所述的信息處理方法,其特征在于,所述計算脈絡分析的步驟包括1)計算新聞數量分布統計不同時間段的新聞發布數量;2)判定脈絡需求過濾不需要出脈絡的新聞事件,并避免產生低質量的新聞簇產出 脈絡;3)生成脈絡數據生成脈絡信息并返回信息處理裝置,以進行保存。
19.如權利要求18所述的信息處理方法,其特征在于,所述判定脈絡需求的步驟中, 時間窗為1天,只有新聞簇的時間跨度大于24小時,才會出脈絡信息。
20.如權利要求18所述的信息處理方法,其特征在于,所述計算脈絡分析的步驟還包括加載配置信息載入新聞聚類后產生的焦點簇配置信息。
21.如權利要求18所述的信息處理方法,其特征在于,所述計算脈絡分析的步驟還包括相似新聞去重單遍聚類新聞簇內的高質量新聞,并歸檔相似度很高的新聞,以最 早的那篇新聞為代表新聞,參加后一階段的時間片聚類。
22.如權利要求21所述的信息處理方法,其特征在于,所述計算脈絡分析的步驟還包括時間片聚類將所有的新聞按照時間排列,每篇新聞作為一個獨立的片段,每次合 并距離最近的兩個片段,直到片段的數量足夠少或者片段之間的距離都大于一定的閾值 時停止合并。
23.如權利要求22所述的信息處理方法,其特征在于,所述時間片聚類步驟中,計算 兩個片段中兩兩新聞對的時間距離,然后求平均值以度量兩個片段之間距離。
24.如權利要求23所述的信息處理方法,其特征在于,所述時間間距是采用新聞時間 來計算,其中新聞時間的統計是按照每半小時為一個小時間片,統計每個時間片內的相 同新聞簇的個數,求出各個時間片新聞數占所有時間片新聞數的比值,該比值用于重新 分配24小時的時間長度,作為新聞時間。
25.如權利要求21所述的信息處理方法,其特征在于,所述計算脈絡分析的步驟還包括后處理通過上述的時間片聚類算法,得到事件的若干個進展以后,從每個片段 中,挑選出最具代表性的一篇新聞作為這個片段的代表新聞。
26.如權利要求25所述的信息處理方法,其特征在于,所述后處理步驟中,如果有一 個片段的新聞數量明顯比相鄰的片段要少很多,那么這個片段要作為噪音被刪除掉。
27.如權利要求25所述的信息處理方法,其特征在于,所述后處理步驟中,對于選擇 出來的內容或者標題非常相近的脈絡新聞,會進行去重,只保留時間更早的那篇新聞。
28.如權利要求14所述的信息處理方法,其特征在于,所述判定脈絡需求步驟,其包括1)發生事件;2)判斷時間跨度是否符合要求,如否,則判定為該事件無脈絡需求;3)如果時間跨度符合要求,則判斷事件是否有多個階段,如果無,則判定無脈絡需求;4)如果事件有多個階段,則判斷各階段之間是否有邏輯順序,如果無,則判定為一 般脈絡需求;5)如果事件的各階段之間具有邏輯順序,則判定為強脈絡需求。
29.如權利要求28的信息處理方法,其特征在于,所述事件的邏輯順序至少包括現象 和本質、態度和行動,由淺至深、由主到次或者由此及彼之一。
30.如權利要求28的信息處理方法,其特征在于,所述強脈絡需求事件包括持續性事 件及突發性事件。
31.如權利要求28的信息處理方法,其特征在于,所述低質量新聞簇是通過統計新聞 簇中地區新聞的地域個數,如果地域分布比較散,那么判定為一個低質量的新聞簇。
32.如權利要求28的信息處理方法,其特征在于,所述新聞簇內可以出現的最多地域 數目為3個,高于該值則認為是低質量新聞簇。
33.如權利要求28的信息處理方法,其特征在于,所述無法通過地域來過濾的低質量 新聞簇,則通過對新聞簇內新聞內容的凝聚度來打分,對于打分較低的新聞簇,判定為 低質量新聞簇,不給出新聞脈絡。
34.如權利要求33的信息處理方法,其特征在于,所述打分的方法是在新聞簇 內,挑選轉載率最高的N條新聞,計算N條新聞兩兩之間的文本距離,然后算平均值作 為整個簇的內容質量得分。
35.如權利要求34的信息處理方法,其特征在于,所述轉載率不低于3次。
36.如權利要求14所述的信息處理方法,其特征在于,所述事件以專題新聞頁展示給 用戶,其具有以時間排序的最新報道列表及事件的脈絡信息。
37.如權利要求36所述的信息處理方法,其特征在于,所述最新報道列表位于專題新 聞頁的左側,時間的脈絡信息位于位于該專題新聞頁的右側。
38.如權利要求36所述的信息處理方法,其特征在于,所述脈絡信息展示位時間軸。
全文摘要
本發明關于處理需要產生脈絡信息的新聞事件的一種信息處理裝置以及處理方法。信息處理裝置包括載入新聞簇信息的新聞簇信息載入模塊、分析所述新聞簇信息并產生脈絡信息的脈絡分析模塊及展示所述脈絡信息的前端展示模塊。本發明的信息處理裝置以及處理方法工作量較小、時效性較強、清晰度較高的給出新聞事件的脈絡信息。
文檔編號G06F17/27GK102012917SQ20101056062
公開日2011年4月13日 申請日期2010年11月26日 優先權日2010年11月26日
發明者彭學政, 柳楊, 王凱 申請人:百度在線網絡技術(北京)有限公司