一種詞權重的分析方法及裝置的制造方法
【技術領域】
[0001]本發明涉及互聯網技術領域,特別是涉及一種詞權重的分析方法及裝置。
【背景技術】
[0002]隨著互聯網的發展,互聯網中總的存儲數據量非常巨大,因此為了使用戶能夠快速準確的查找到所需要的數據內容,提供互聯網搜索服務的廠商就需要對搜索引擎的搜索質量進行優化。其中,權重是搜索引擎給予一個網頁的評估值,這個權重可以反映出網頁的重要程度,權重越高,說明網頁獲得更多搜索引擎的信任和認可。而在用戶使用搜索引擎的過程中,會在搜索框中提交查詢內容,這些查詢內容通常稱之為query,搜索引擎需要根據query在海量數據中獲取有用信息。由于query中具有不同的詞語term,其中每個term對于獲取有用查詢結果而言其重要程度各不相同,因此若要根據query準確獲取到目標查詢結果就需要參考query中各個term的重要性,也就是需要利用query中term的權重進行目標結果的查詢。
[0003]在現有確定term權重的方法中,通常會利用共同點擊、詞性以及命名實體來確定term權重,但是這些方法并不是以用戶在互聯網環境中使用搜索引擎獲取內容為基礎,從而導致通過上述方法確定的term權重在互聯網搜索領域中的參考價值并不高。因此如何在互聯網搜索引擎環境下確定term權重成為使用互聯網搜索引擎時亟待解決的問題。
【發明內容】
[0004]有鑒于此,本發明提出了一種詞權重的分析方法及裝置,主要目的在于解決現有確定term權重的方法無法在互聯網搜索引擎環境下準確確定query中term權重的問題。
[0005]依據本發明的第一個方面,本發明提供一種詞權重的分析方法,包括:
[0006]獲取〈查詢,標題〉對;
[0007]統計〈查詢,標題〉對中所述查詢的詞片段中每個詞的出現情況信息;
[0008]根據所述出現情況信息計算相同詞片段中每個詞的出現概率;
[0009]根據所述相同詞片段中每個詞的出現概率確定所述相同詞片段中每個詞的權重。
[0010]進一步的,所述獲取〈查詢,標題〉對包括:
[0011]獲取用戶點擊日志,所述點擊日志中包括用戶提交的所有查詢以及得到的所有標題;
[0012]整理所述點擊日志,將用戶提交的查詢與點擊所述查詢的url得到的標題一一對應,形成〈查詢,標題〉對。
[0013]進一步的,所述統計〈查詢,標題〉對中所述查詢的詞片段中每個詞的出現情況信息包括:
[0014]獲取〈查詢,標題〉對中所述查詢的所有詞片段,所述詞片段包括所述查詢中的每一個詞和相鄰兩個及以上的詞組成的詞組;
[0015]統計所述查詢的所有詞片段中每個詞的出現情況信息。
[0016]進一步的,統計所述查詢的所有詞片段中每個詞的出現情況信息包括:
[0017]判斷所述查詢的詞片段中每個詞是否在所述查詢的〈查詢,標題〉對中對應的標題中出現;
[0018]根據判斷結果統計所述查詢的詞片段中每個詞的出現情況信息,所述出現情況信息用預設的出現符號以及未出現符號表示。
[0019]進一步的,根據所述出現情況信息計算相同詞片段中每個詞的出現概率包括:
[0020]獲取相同詞片段所對應的所有標題的總個數;
[0021]獲取所述相同詞片段中每個詞在所述對應的所有標題中出現的次數;
[0022]用所述次數除以所述對應的所有標題的總個數得到相同詞片段中每個詞在所述對應的所有標題中的出現概率。
[0023]進一步的,根據所述相同詞片段中每個詞的出現概率確定所述相同詞片段中每個詞的權重包括:
[0024]將相同詞片段中每個詞在所述對應的所有標題中的出現概率作為所述相同詞片段中每個詞的權重。
[0025]依據本發明的第二個方面,本發明提供一種詞權重的分析裝置,包括:
[0026]獲取單元,用于獲取〈查詢,標題〉對;
[0027]統計單元,用于統計所述獲取單元獲取的〈查詢,標題〉對中所述查詢的詞片段中每個詞的出現情況信息;
[0028]計算單元,用于根據所述出現情況信息計算相同詞片段中每個詞的出現概率;
[0029]確定單元,用于根據所述計算單元計算的所述相同詞片段中每個詞的出現概率確定所述相同詞片段中每個詞的權重。
[0030]進一步的,所述獲取單元包括:
[0031]獲取模塊,用于獲取用戶點擊日志,所述點擊日志中包括用戶提交的所有查詢以及得到的所有標題;
[0032]整理模塊,用于整理所述獲取模塊獲取的所述點擊日志,將用戶提交的查詢與點擊所述查詢的url得到的標題--對應,形成〈查詢,標題〉對。
[0033]進一步的,所述統計單元包括:
[0034]切分模塊,用于獲取〈查詢,標題〉對中所述查詢的所有詞片段,所述詞片段包括所述查詢中的每一個詞和相鄰兩個及以上的詞組成的詞組;
[0035]統計模塊,用于統計所述切分模塊獲取的所述查詢的所有詞片段中每個詞的出現情況信息。
[0036]進一步的,所述統計單元還用于判斷所述查詢的詞片段中每個詞是否在所述查詢的〈查詢,標題〉對中對應的標題中出現,以及根據判斷結果統計所述查詢的詞片段中每個詞的出現情況信息,所述出現情況信息用預設的出現符號以及未出現符號表示。
[0037]進一步的,所述計算單元包括:
[0038]計數模塊,用于獲取相同詞片段所對應的所有標題的總個數;
[0039]所述計數模塊還用于獲取所述相同詞片段中每個詞在所述對應的所有標題中出現的次數;
[0040]計算模塊,用于用所述次數除以所述對應的所有標題的總個數得到相同詞片段中每個詞在所述對應的所有標題中的出現概率。
[0041]進一步的,所述確定單元用于將相同詞片段中每個詞在所述對應的所有標題中的出現概率作為所述相同詞片段中每個詞的權重。
[0042]借由上述技術方案,本發明實施例提供的一種詞權重的分析方法及裝置,能夠在用戶大規模使用互聯網搜索引擎的過程中獲取到〈查詢,標題〉對,并統計查詢中的詞片段中每個詞的出現情況信息,根據每個詞的出現情況信息計算相同詞片段中每個詞的出現概率,根據所述相同詞片段中每個詞的出現概率確定所述相同詞片段中每個詞的權重。而在現有技術中,當確定搜索查詢中詞的權重時無法基于互聯網環境中使用搜索引擎獲取內容為基礎,從而造成搜索詞的詞權重確定不準確,進而影響搜索結果的準確性。與現有技術中的這一缺陷相比,本發明能夠以用戶大規模使用搜索引擎點擊形成的日志為基礎,在互聯網搜索引擎環境下準確確定搜索查詢中詞的權重,從而有效提高搜索結果的準確性。
[0043]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
【附圖說明】
[0044]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0045]圖1示出了本發明實施例提供的一種詞權重的分析方法的流程圖;
[0046]圖2示出了本發明實施例提供的一種詞權重的分析裝置的組成框圖;
[0047]圖3示出了本發明實施例提供的另一種詞權重的分析裝置的組成框圖;
[0048]圖4示出了本發明實施例提供的另一種詞權重的分析裝置的組成框圖;
[0049]圖5示出了本發明實施例提供的另一種詞權重的分析裝置的組成框圖。
【具體實施方式】
[0050]下面將參照附圖更加詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0051 ] 在用戶使用搜索引擎時需要提交查詢query,查詢query中具有不同的詞語term,其中每個term對于獲取有用查詢結果而言其重要程度各不相同,因此若要根據query準確獲取到目標查詢結果就需要參考query中各個term的重要性,也就是需要利用query中term的權重進行目標結果的查詢。在現有確定term權重的方法中,通常會利用共同點擊、詞性以及命名實體來確定term權重,但是這些方法并不是以用戶在互聯網環境中使用搜索引擎獲取內容為基礎,