一種數字資源熱點生成方法及裝置的制造方法
【技術領域】
[0001] 本發明設及數字資源處理領域,具體設及一種數字資源熱點自動生成方法及裝 置。
【背景技術】
[0002] 隨著互聯網的迅猛發展,數字資源成為人們獲取信息的重要途徑之一,數字報刊 的閱讀也日益普及。同時,隨著生活節奏的加快,用戶對高效閱讀的需求更加強烈,如何從 海量的數字資源中獲取有價值的信息變得尤為重要。面對每日更新的新聞報道,快速自動 發現熱點并推薦給用戶成為實現高效閱讀的可行途徑。由于數字資源的信息量巨大,人工 干預進行熱點推薦無疑需要花費大量的人力和時間,因此利用新聞報道自身信息實現熱點 新聞的自動發現成為亟待解決的問題。
[0003] 傳統的熱點發現技術大多需要事先進行主題詞提取、給定熱點個數或設置各種經 驗參數。該類方法對主題詞的選擇及新詞發現具有很強的依賴性,從而導致處理新詞頻出 的報刊文本時效果欠佳,且參數的選擇會嚴重影響熱點發現的效果,對熱點個數和經驗參 數具有一定的依賴,需要預先設定聚類數目,對熱點個數也沒有很好的自適應性。
【發明內容】
[0004] 因此,本發明要解決的技術問題在于克服現有技術中熱點發現技術效果差、需要 預先設置參數依賴性強的缺陷。
[0005] 本申請提供一種數字資源熱點生成方法,包括如下步驟
[0006] 從數字資源中提取標題和正文;
[0007] 分別獲取標題相似度矩陣和正文相似度矩陣;
[000引對所述標題相似度矩陣進行聚類,根據標題相似度聚類結果獲得標題候選熱點 集;
[0009] 對所述正文相似度矩陣進行聚類,根據正文相似度聚類結果獲得正文候選熱點 集;
[0010] 根據所述標題候選熱點集和所述正文候選熱點集獲取候選熱點集。
[0011] 優選地,獲取候選熱點集后,還包括根據候選熱點集中的每個集合內數字資源的 數目W及數字資源的屬性信息確定集合的排序,將排序在前的預設數量的集合作為熱點。
[0012] 優選地,根據標題相似度聚類結果獲得標題候選熱點集的步驟包括:
[0013] 獲取標題相似度聚類結果中每個集合中的數字資源的數量;
[0014] 若所述數量小于第一闊值,則刪除該集合;
[0015] 若所述數量位于第一闊值和第二闊值之間,則將該集合加入所述標題候選熱點集 中;
[0016] 若所述數量大于第二闊值,則進行二次聚類,得到二次聚類結果,獲取二次聚類結 果中每個集合中的數字資源的數量,若該數量小于所述第一闊值,刪除該集合,若該數量位 于第一闊值和第二闊值之間,則將該集合加入所述標題候選熱點集,若該數量大于所述第 二闊值,則刪除該集合。
[0017] 優選地,根據正文相似度聚類結果獲得正文候選熱點集的步驟包括:
[0018] 獲取正文相似度聚類結果中每個集合中的數字資源的數量;
[0019] 若所述數量小于第一闊值,則刪除該集合;
[0020] 若所述數量位于第一闊值和第二闊值之間,則將該集合加入所述正文候選熱點集 中;
[0021] 若所述數量大于第二闊值,則進行二次聚類,得到二次聚類結果,獲取二次聚類結 果中每個集合中的數字資源的數量,若該數量小于所述第一闊值,刪除該集合,若該數量位 于第一闊值和第二闊值之間,則將該集合加入所述正文候選熱點集,若該數量大于所述第 二闊值,則刪除該集合。
[0022] 優選地,根據所述標題候選熱點集和所述正文候選熱點集獲取候選熱點集的步驟 包括:
[0023] 獲取所述標題候選熱點集和所述正文候選熱點集中存在共有數字資源的集合;
[0024] 將正文候選熱點集中存在共有數字資源的集合加入所述候選熱點集,去掉所述標 題候選熱點集中存在共有數字資源的集合;
[0025] 對所述標題候選熱點集和所述正文候選熱點集中不存在共有數字資源的集合,獲 取每個集合中的正文的關鍵詞向量,計算每兩個集合之間的相似度,若大于預設相似度闊 值,則將該兩個集合合并,將合并后的集合加入候選熱點集;若不大于相似度闊值,則將該 兩個集合分別加入所述候選熱點集。
[0026] 優選地,獲取候選熱點集后,還包括對所述候選熱點集進行去噪的步驟,包括:
[0027] 針對候選熱點集中的每個集合,計算集合內每條數字資源與中屯、數字資源的相似 度,若該相似度小于預設闊值,則刪除該數字資源。
[00%]優選地,獲取標題相似度矩陣的步驟,包括:
[0029] 對每篇數字資源的標題進行分詞,得到詞語集合并計算相應詞語權重;
[0030] 根據所述詞語集合及權重計算任意兩個標題之間的相似度;
[0031 ]根據所述相似度建立標題相似度矩陣。
[0032] 優選地,還包括:獲取正文相似度矩陣的步驟,包括:
[0033] 對每篇數字資源的正文進行分詞,分詞后進行停用詞及詞性過濾,得到詞語集合 并計算相應詞語權重;
[0034] 在所述詞語集合中獲取所述詞語權重較高的預設數量的特征詞語;
[0035] 根據所述特征詞語計算任意兩篇正文之間的相似度;
[0036] 根據所述相似度建立正文相似度矩陣。
[0037] 本發明還提供一種數字資源熱點生成裝置,包括
[0038] 信息提取單元,用于從數字資源中提取標題和正文;
[0039] 相似矩陣獲取單元,用于分別獲取標題相似度矩陣和正文相似度矩陣;
[0040] 標題候選熱點集提取單元,用于對所述標題相似度矩陣進行聚類,根據標題相似 度聚類結果獲得標題候選熱點集;
[0041] 正文候選熱點集提取單元,用于對所述正文相似度矩陣進行聚類,根據正文相似 度聚類結果獲得正文候選熱點集;
[0042] 候選熱點集提取單元,用于根據所述標題候選熱點集和所述正文候選熱點集獲取 候選熱點集。
[0043] 優選地,還包括熱點生成單元,用于根據候選熱點集中的每個集合內數字資源的 數目W及數字資源的屬性信息確定集合的排序,將排序在前的預設數量的集合作為熱點。
[0044] 本發明技術方案,具有如下優點:
[0045] 1.本發明提供的數字資源熱點生成方法,首先,從數字資源中提取標題和正文;然 后分別獲取標題相似度矩陣和正文相似度矩陣;通過分別聚類獲得標題候選熱點集和正文 候選熱點集;最后,根據所述標題候選熱點集和所述正文候選熱點集獲取候選熱點集。該方 案中,使用正文信息和標題信息來進行熱點推薦,正文信息和標題信息采用不同的方式處 理,相互作為補充和依據,使得獲得的熱點更加準確,避免了現有技術中對主題詞表和新詞 發現的需求,減弱熱點發現對熱點個數和經驗參數的依賴,實現了面向數字報刊的熱點新 聞自動發現。
[0046] 2.本發明提供的數字資源熱點生成方法,通過對新聞標題及正文進行不同的預處 理操作,并基于無需事先設定聚類數目的聚類算法,通過簇間去噪、簇合并、簇內去噪等實 現熱點新聞的自動發現,提高了熱點生成效率,同時也提高了熱點生成的精度。
[0047] 3.本發明提供的數字資源熱點生成方法,輸入為結構化數字新聞集合,不需要主 題詞表和經驗參數設定,無需人工干預,是面向數字報刊的熱點新聞自動發現方法;在相似 度計算部分引入同義詞詞林,充分考慮了文本的語義信息,減弱了多義詞和同義詞給文本 相似度計算帶來的干擾;對標題和正文設計不同的預處理方法,同時將兩者分別聚類后合 并聚類結果,充分利用了新聞標題和正文的不同特點;無需事先設定聚類數目的聚類算法 的引入提高了方法對熱點數目的適應性,使得熱點新聞的發現真正自動化。
【附圖說明】
[0048] 為了更清楚地說明本發明【具體實施方式】或現有技術中的技術方案,下面將對具體 實施方式或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的 附圖是本發明的一些實施方式,對于本領域普通技術人員來講,在不付出創造性勞動的前 提下,還可W根據運些附圖獲得其他的附圖。
[0049] 圖1為本發明實施例1中數字資源熱點生成方法的一個流程圖;
[0050] 圖2為本發明實施例1中數字資源熱點生成方法的另一個流程圖;
[0051] 圖3為本發明實施例2中數字資源熱點生成裝置的結構框圖。
【具體實施方式】
[0052] 下面將結合附圖對本發明的技術方案進行清楚、完整地描述,顯然,所描述的實施 例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術 人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0053] 在本發明的描述中,需要說明的是,術語"中也'、"上"、"下"、"左"、"右"、"豎直"、 "水平"、"內"、"外"等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了 便于描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、 W特定的方位構造和操作,因此不能理解為對本發明的限制。此外,術語"第一"、"第二"、 "第立"僅用于描述目的,而不能理解為指示或暗示相對重要性。