確定新聞之間相關性的方法和裝置的制造方法
【技術領域】
[0001]本發明涉及計算機技術領域,具體而言,涉及一種確定新聞之間相關性的方法和
目.0
【背景技術】
[0002]在互聯網領域內,當新的新聞出現時,需要將其和已有的新聞進行比較,確定新的新聞和已有的哪些新聞是相關新聞關系,以便于在用戶查看新聞時將相關新聞一起推薦給用戶。
[0003]由于已有新聞的數量龐大,而每個新的新聞都需要與所有已有新聞進行比較,導致計算量非常巨大,計算新聞相關性的效率非常低。
【發明內容】
[0004]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的確定新聞之間相關性的方法和裝置。
[0005]依據本發明的一種確定新聞之間相關性的方法,包括:將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離;將第二新聞與所述標桿新聞進行比較,得到所述第二新聞與所述標桿新聞的距離;計算所述第一新聞與所述標桿新聞的距離和所述第一新聞與所述標桿新聞的距離之間的距離差,根據所述距離差確定所述第一新聞與所述第二新聞之間的相關性。
[0006]可選地,前述的方法,在將第一新聞與標桿新聞進行比較之前,還包括:識別所述第一新聞的類型,并從標桿新聞集合中選擇具有相對應類型的所述標桿新聞。
[0007]可選地,前述的方法,在將第一新聞與標桿新聞進行比較之前,還包括:獲取所述第一新聞中的關鍵詞,并從標桿新聞集合中選擇具有所述關鍵詞的所述標桿新聞。
[0008]可選地,前述的方法,將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離,具體包括:獲取所述第一新聞的特征屬性,并根據述第一新聞的特征屬性生成所述第一新聞對應的向量,將所述第一新聞對應的向量與所述標桿新聞對應的向量進行比較;將第二新聞與所述標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離,具體包括:獲取所述第二新聞的特征屬性,并根據述第二新聞的特征屬性生成所述第二新聞對應的向量,并將所述第二新聞對應的向量與所述標桿新聞對應的向量進行比較。
[0009]可選地,前述的方法,獲取所述第一新聞的特征屬性,具體包括:對所述第一新聞進行分詞得到多個詞,計算所述第一新聞的多個詞的詞頻,作為所述第一新聞的特征屬性;獲取所述第二新聞的特征屬性,具體包括:對所述第二新聞進行分詞得到多個詞,計算所述第二新聞的多個詞的詞頻,作為所述第二新聞的特征屬性。
[0010]可選地,前述的方法,根據所述距離差確定所述第一新聞與所述第二新聞之間的相關性,具體包括:在所述距離差位于預設區間時,將所述第二新聞設置為所述第一新聞的相關新聞,以用于在需推送所述第一新聞的相關新聞時推送所述第二新聞。
[0011]依據本發明的一種確定新聞之間相關性的裝置,包括:第一距離計算模塊,用于將第一新聞與標桿新聞進行比較,得到所述第一新聞與所述標桿新聞的距離;第二距離計算模塊,用于將第二新聞與所述標桿新聞進行比較,得到所述第二新聞與所述標桿新聞的距離;相關性計算模塊,用于計算所述第一新聞和所述標桿新聞的距離與所述第一新聞與所述標桿新聞的距離之間的距離差,根據所述距離差確定所述第一新聞與所述第二新聞之間的相關性。
[0012]可選地,前述的裝置,還包括:第一標桿新聞獲取模塊,用于識別所述第一新聞的類型,并從標桿新聞集合中選擇具有相對應類型的所述標桿新聞。
[0013]可選地,前述的裝置,還包括:第二標桿新聞獲取模塊,用于獲取所述第一新聞中的關鍵詞,并從標桿新聞集合中選擇具有所述關鍵詞的所述標桿新聞。
[0014]可選地,前述的裝置,還包括:第一向量生成模塊,用于獲取所述第一新聞的特征屬性,并根據述第一新聞的特征屬性生成所述第一新聞對應的向量;所述第一標桿新聞獲取模塊將所述第一新聞對應的向量與所述標桿新聞對應的向量進行比較;第二向量生成模塊,用于獲取所述第二新聞的特征屬性,并根據述第二新聞的特征屬性生成所述第二新聞對應的向量;所述第一標桿新聞獲取模塊將所述第二新聞對應的向量與所述標桿新聞對應的向量進行比較。
[0015]可選地,前述的裝置,所述第一向量生成模塊對所述第一新聞進行分詞得到多個詞,計算所述第一新聞的多個詞的詞頻,作為所述第一新聞的特征屬性;所述第二向量生成模塊對所述第二新聞進行分詞得到多個詞,計算所述第二新聞的多個詞的詞頻,作為所述第二新聞的特征屬性。
[0016]可選地,前述的裝置,所述相關性計算模塊在所述距離差位于預設區間時,將所述第二新聞設置為所述第一新聞的相關新聞,以用于在需推送所述第一新聞的相關新聞時推送所述第二新聞。
[0017]根據以上技術方案,本發明的確定新聞之間相關性的方法和裝置至少具有以下優占.V.
[0018]根據本發明的技術方案,當需要分析不同新聞之間的相關性時,不必進行多個新聞之間的對比,而是進行多個新聞與標桿新聞之間的比較,如果兩個新聞與標桿之間的距離相似,則說明兩個新聞之間具有一定的類似程度;由于標桿新聞只有一個,而其他新聞不需要進行互相之間的對比,只需要進行與標桿新聞的對比,即可確定多個新聞之間的相關性,所以根據本發明的技術方案獲取相關新聞的效率非常高。
[0019]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
【附圖說明】
[0020]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0021]圖1示出了根據本發明的一個實施例的確定新聞之間相關性的方法的流程圖;
[0022]圖2示出了根據本發明的一個實施例的確定新聞之間相關性的裝置的框圖;
[0023]圖3示出了根據本發明的一個實施例的確定新聞之間相關性的裝置的框圖。
【具體實施方式】
[0024]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0025]如圖1所示,本發明的一個實施例中提供了一種確定新聞之間相關性的方法,包括:
[0026]步驟110,將第一新聞與標桿新聞進行比較,得到第一新聞與標桿新聞的距離。在本實施例中,對標桿新聞不進行限制,任何一篇新聞都可以選定作為標桿新聞。
[0027]步驟120,將第二新聞與標桿新聞進行比較,得到第二新聞與標桿新聞的距離。
[0028]步驟130,計算第一新聞與標桿新聞的距離和第一新聞與標桿新聞的距離之間的距離差,根據距離差確定第一新聞與第二新聞之間的相關性。在本實施例中,距離反映了新聞之間的差別,本實施例對計算距離的方式不進行限制;根據本實施例的技術方案,容易理解,當第一新聞與標桿新聞之間的距離,和第二新聞與標桿新聞之間的距離相似時,說明第一新聞與第二新聞之間的距離較近,也就是兩個新聞之間的相關性較強;當第一新聞與標桿新聞之間距離較近,第二新聞與標桿新聞之間的距離較遠時,說明第一新聞與第二新聞之間的距離較遠,兩個新聞之間的相關性較弱。
[0029]本發明的一個實施例中還提供一種確定新聞之間相關性的方法,相比于前述的實施例,本實施例的確定新聞之間相關性的方法,在步驟110之前,還包括:
[0030]識別第一新聞的類型,并從標桿新聞集合中選擇具有相對應類型的標桿新聞。在本實施例中,如果第一新聞、第二新聞與標桿新聞之間的距離過大,只能說明第一新聞、第二新聞與標桿新聞均有很大不同,但難以說明第一新聞、第二新聞之間的相關性如何;而同類型的新聞之間具有較高的相關性,則本實施例使得第一新聞與標桿新聞之間的距離較小,說明第一新聞與標桿新聞相關性較高,則第二新聞與標桿新聞距離大則相當于與第一新聞距離大,即第一新聞與第二新聞相關性較弱,第二新聞與標桿新聞距離小則相當于與第一新聞距離小,即第一新聞與第二新聞相關性較強