專利名稱:確定權威網站的方法及裝置的制作方法
技術領域:
本發明涉及網絡技術,具體涉及一種確定權威網站的方法及裝置。
背景技術:
目前,隨著網絡技術的發展,互聯網作為一個龐大的信息資源,成為了 人們獲取信息的最方便、快捷的途徑,也是最主要途徑之一。
通常,通過互聯網獲取信息的最常用手段是利用搜索引擎進行搜索,然 后從搜索結果中找尋所需的信息。由于互聯網中存在的各種信息的質量參差不 齊,低質量的信息很可能會誤導用戶,甚至給用戶帶來不必要的物質和精神損 失。
為了便于用戶能夠獲得高質量的信息,產生了一些提供導航目錄類的網 站,這些網站對互聯網信息做了全面、多層次的分類,列出了各個不同領域及 其子領域內的權威網站。所謂權威網站是指該網站提供的信息在真實性、權威 性、及時性和全面性等方面都優于本領域內的其它網站。
但這些權威網站的生成需要通過人工編輯的方式來選擇,手工挑選每一 個領域內的權威網站,人工成本高、周期長,而且需要相關人員全面了解各個 領域內的相關知識。
發明內容
本發明提供一種確定權威網站的方法及裝置,能夠自動得到各領域內穩定 有-爻的4又威網站。
為此,本發明提供如下技術方案
一種確定權威網站的方法,包括
獲取同 一領域內的多個關4定詞;
獲取所述多個關鍵詞分別對應的被點擊網頁;
分別統計各網站內的所述被點擊網頁的局部信息;
根據所述局部信息確定對應所述領域的權威網站。
優選地,所述方法還包括
實時存儲用戶的查詢信息,所述查詢信息包括查詢詞、查詢時間、查詢 用戶、被點擊網頁;
根據所述查詢信息統計全局信息,所述全局信息包括每個網站內被點擊 網頁的數量、網站內被點擊網頁對應的所有查詢詞的數量、網站內被點擊網頁 對應的所有查詢詞的查詢量;
所述獲取所述領域內的關4建詞對應的被點擊網頁包括
根據所述用戶的查詢信息及所述全局信息獲取所述關鍵詞對應的被點擊 網頁。
優選地,所述根據所述局部信息確定對應所述領域的權威網站包括 根據所述局部信息計算對應各網站的判決參數;
如果所述判決參數超過設定的閾值,則將對應該判決參數的網站設定為權 威網站。
優選地,所述被點擊網頁的局部信息包括網頁被點擊的次數和/或被點 擊的網頁數、以及點擊的用戶數; 所述判決參數包括
所述領域內某網站中網頁被點擊數與所述領域內所有網站中網頁被點擊 數的比值;和/或
所述領域內某網站中被點擊網頁數與所述領域內所有網站被點擊的網頁 數的比值。
優選地,當所述判決參數有多個時,對應每個判決參數都設置有一個閾值。 優選地,所述方法還包括
在統計各網站內的所述被點擊網頁的局部信息之前,對所述網頁進行過 濾;所述對網頁進行過濾包括
過濾掉同 一個用戶多次查詢相同查詢詞點擊的多個網頁;和/或 過濾掉對應所述查詢詞在短期內爆發式查詢點擊的多個網頁。 可選地,所述獲取同一領域內的多個關4建詞包括 為所述領域選取一個權威網站; 獲取點擊所述權威網站下網頁的查詢詞集合;
通過過濾所述查詢詞集合,確定所述領域內的關^l定詞。
優選地,所述通過過濾所述查詢詞集合,確定所述領域內的關鍵詞包括
如果查詢詞對應的被點擊網站中所述領域權威網站的數量與該領域已知 權威網站的數量的比值大于設定的第 一 閾值,則確定所述查詢詞為所述領域內
的關4建詞;和/或
如果查詢詞對應的^皮點擊網站中所述領域斥又威網站的數量與所述查詢詞 對應的被點擊網站數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領i或內的關4建詞;和/或
如果查詢詞對應的被點擊網站中屬于所述領域權威網站的數量與查詢詞 對應的被點擊網頁數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領域內的關鍵詞。
優選地,所述方法還包括
對確定的對應所述領域的權威網站下網頁的查詢詞集合進行過濾,重新確 定所述領域內的關鍵詞;
根據重新確定的所述領域內的關4定詞進行迭代處理,重新確定對應所述領 i或的—又威網站;
當迭代處理滿足設定的終止條件后,根據迭代結果確定對應所述領域的權 威網站。
可選地,設定的終止條件包括
如果迭代處理過程中確定的權威網站連續一致的次數超過預定的一致次 數閾值,則終止迭代處理;或者
如果迭代處理次數超過預定的迭代次數閾值,則終止迭代處理。
一種確定權威網站的裝置,包括
關鍵詞確定單元,用于獲取同一領域內的多個關4建詞;
點擊網頁獲取單元,用于獲取多個關鍵詞分別對應的被點擊網頁;
局部信息統計單元,用于分別統計各網站內的所述被點擊網頁的局部信
自
網站確定單元,用于根據所述局部信息確定對應所述領域的權威網站。
優選地,所述裝置還包括
存儲單元,用于實時存儲用戶的查詢信息,所述查詢信息包括查詢詞、 查詢時間、查詢用戶、;陂點擊網頁;
全局信息統計單元,用于纟艮據所述查詢信息統計全局信息,所述全局信息 包括每個網站內被點擊網頁的數量、網站內被點擊網頁對應的所有查詢詞的 數量、網站內被點擊網頁對應的所有查詢詞的查詢量;
所述點擊網頁獲取單元根據所述用戶的查詢信息及所述全局信息獲取所 述領域內的關鍵詞對應的被點擊網頁。
優選地,所述網站確定單元包括
計算子單元,用于根據所述局部信息計算對應各網站的判決參數;
判決子單元,用于在所述判決參數超過設定的閾值時,將對應該判決參數 的網站設定為權威網站。
優選地,所述被點擊網頁的局部信息包括網頁被點擊的次數和/或被點 擊的網頁數、以及點擊的用戶數;
所述判決參數包括
所述領域內某網站中網頁被點擊數與所述領域內所有網站中網頁被點擊 數的比值;和/或
所述領域內某網站中被點擊網頁數與所述領域內所有網站被點擊的網頁 數的比值。
優選地,所述裝置還包括
的局部信息之前,對所述網頁進行過濾; 所述對網頁進行過濾包括
過濾掉同一個用戶多次查詢相同查詢詞點擊的多個網頁;和/或
過濾掉對應所述查詢詞在短期內少暴發式查詢點擊的多個網頁。
優選地,所述關4建詞確定單元包括
權威網站選取子單元,用于為所述領域選取一個權威網站;
查詢詞集合獲取子單元,用于獲取點擊所述權威網站下網頁的查詢詞集
合;
關4定詞生成子單元,用于通過濾所述查詢詞集合,確定所述領域內的關鍵:詞。
優選地,所述關鍵詞生成子單元按以下方式確定所述領域內的關鍵詞 如果查詢詞對應的,皮點擊網站中所述領域一又威網站的數量與該領域已知 權威網站的數量的比值大于設定的第 一 閾值,則確定所述查詢詞為所述領域內
的關鍵詞;和/或
如果查詢詞對應的#1點擊網站中所述領域權威網站的數量與所述查詢詞 對應的被點擊網站數量的比值大于設定的第 一閾值,則確定所述查詢詞為所述
領域內的關鍵詞;和/或
如果查詢詞對應的被點擊網站中屬于所述領域權威網站的數量與查詢詞 對應的被點擊網頁數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領域內的關鍵詞。優選地,所述網站確定單元還包括
反饋子單元,用于判斷是否需要進行迭代處理,如果需要,則將確定的對 應所述領域的權威網站反饋給所述關鍵詞確定單元;
所述關4建詞確定單元對確定的對應所述領i或的4又威網站下網頁的查詢詞 集合進行過濾,重新確定所述領域內的關4定詞。
可選地,所述反々貴子單元按以下方式判斷是否需要進行迭代處理 如果迭代處理過程中確定的權威網站連續 一致的次數超過預定的 一致次 數閾值,則終止迭代處理;或者
如果迭代處理次數超過預定的迭代次數閾值,則終止迭代處理。 由以上本發明提供的技術方案可以看出,本發明確定權威網站的方法及裝 置,通過確定需要發現權威網站的領域及所述領域內的關鍵詞;獲取所述領域 內的關鍵詞對應的被點擊網頁;分別統計各網站內的所述被點擊網頁的局部信 息;根據所述局部信息確定對應所述領域的權威網站。能夠自動發現并向用戶 提供各領域的權威網站,更新周期短,不需要人工編輯,大大節省了人力資源 成本。
進一步地,對確定的某領域的權威網站進行迭代處理,可以使最終確定的 權威網站更準確可靠。
圖1是本發明實施例確定權威網站的方法的一種實現流程圖; 圖2是本發明實施例確定權威網站的方法的另 一 種實現流程圖; 圖3是本發明實施例確定權威網站的裝置的一種結構示意圖; 圖4是本發明實施例確定權威網站的裝置的另一種結構示意圖。
具體實施例方式
為了使本技術領域的人員更好地理解本發明實施例的方案,下面結合附圖 和實施方式對本發明實施例作進一步的詳細說明。
本技術領域人員知道,不同的領域有不同的權威網站。領域是一個多層 次的概念,譬如說體育是一個領域,這個領域內有多個子領域,譬如游泳、 田徑、足球、籃球、排球、舉重等等。體育領域的權威網站并不一定是這些子 領域的權威網站,同樣,這些子領域的權威網站也不一定是體育領域的權威網站。比如, http:〃sports.sohu.com/是網站,而http:〃sports.sohu.com/baseball/是站點內的目錄。權威網站中"網站"的概念是可以擴展的,不僅僅是站點,還可 以是站點下的某個目錄頁面。以體育領域和它的子領域為例, http:〃sports.sohu.com/是體育領域的權威網站,同時它的目錄頁面 http:〃sports.sohu.com/baseball/是棒球子領域的權威網站。
本文中下述內容,除非特殊說明,所述權威網站的涵義包括站點和站點下 目錄頁面。
通常,用戶使用搜索引擎的過程包括用戶輸入查詢詞,瀏覽查詢結果, 點擊查詢結果等。用戶的行為反映了用戶對搜索結果是否滿足需求的判斷,用 戶會選擇和查詢意圖相關的網頁,而且,用戶會優先選擇他心目中權威可靠的 站點下的網頁。
在實現本發明的過程中,通過分析查詢詞和被點擊的查詢結果也證實了該 推斷即針對某個領域的查詢詞,點擊量主要分布在與該領域相關的網站內, 而且集中在與該領域相關的權威網站內;而且,點擊各領域內權威網站內網頁 的查詢詞,基本上也都是這些查詢詞。
可見,各領域內的查詢詞與該領域內的權威網站之間存在這樣的聯系 通過某領域內的查詢詞可以獲取該領域內的權威網站;同樣,通過某領域
內的權威網站也可以得到該領域內的查詢詞。
為此,本發明實施例確定權威網站的方法通過確定需要發現權威網站的領
域及所述領域內的關鍵詞;獲取所述領域內的關鍵詞對應的被點擊網頁;分別 統計各網站內的所述被點擊網頁的局部信息;根據所述局部信息確定對應所述 領域的權威網站。從而無需人工編輯,即可自動發現各領域的權威網站。
如圖l所示,是本發明實施例確定權威網站的方法的一種實現流程圖,主 要包括以下步驟
步驟IOI,獲取同一領域內的多個關鍵詞。
可以為每個領域選擇幾個關鍵詞,比如選擇10個;也可以給每個領域選 擇一個^又威網站,由前面的分析可知,通過該4又威網站可以得到該領域內的查 詢詞集合,然后對該查詢詞集合進行過濾,得到所述關4建詞,具體過程將在后 面詳細i兌明。
步驟102,獲取所述多個關鍵詞分別對應的被點擊網頁。 在用戶進行查詢行為時,可以實時存儲用戶的查詢信息,比如查詢詞、 查詢時間、查詢用戶、被點擊網頁等信息;根據這些查詢信息可以統計出全局 信息,所述全局信息包括每個網站內被點擊網頁的數量、網站內被點擊網頁 對應的所有查詢詞的數量、網站內#:點擊網頁對應的所有查詢詞的查詢量等信 息。這樣,根據該用戶的這些查詢信息及全局信息,即可得到該領域內的每個 關鍵詞對應的被點擊網頁,以供后續分析。
步驟103,分別統計各網站內的所述被點擊網頁的局部信息。 步驟104,才艮據所述局部信息確定對應所述領域的^L威網站。 步驟105,將確定的權威網站提供給用戶。
所述被點擊網頁的局部信息,可以是網頁被點擊的次數和點擊的用戶數, 也可以是被點擊的網頁數和點擊的用戶數,還可以是網頁被點擊的次數、被點 擊的網頁數、以及點擊的用戶數這三者。當然,本發明實施例也不排除其他方 式的信息記錄。
由于某個領域的權威網站首先必須是以該領域內容為核心的網站,也就是 -沈,查詢和點擊i方問該網站下網頁的查詢詞,應該主要是該領:威的查詢詞。因 此,可以使用以下特征來判斷某網站是否是以該領域為核心內容的網站
某領域內某網站中網頁被點擊數與對應所有查詢詞該網站中網頁被點擊
數的比值;和/或
某領域內某網站中被點擊網頁數與對應所有查詢詞該網站中被點擊的網 頁數。
權威網站和非權威網站的區別主要表現在在查詢該領域查詢詞時,權威 網站下的網頁被點擊的可能性遠高于非權威網站,因此,可以根據以上特征設 定權威網站的判決參數,根據設定的判決參數來確定某個網站是否為權威網 站。
具體地,在本發明方法實施例中,在才艮據所述局部信息確定對應所述領域 的權威網站時,首先根據所述局部信息計算對應各網站的判決參數;然后根據 該判決參數來確定所述網站是否為權威網站。
可以使用以下判決參數來確定該網站是否是某領域的權威網站,也就是 說,是否為對應該領域的權威網站
某領域內某網站中網頁被點擊凄t/該領域內所有網站中網頁被點擊數;和/
或
某領域內某網站中被點擊網頁勤該領域內所有網站被點擊的網頁數。 當設有多個判決參數時,對應每一個判決參數,可以通過實驗選擇一個合
適的閾值,如果所述判決參數超過設定的閾值,則將對應該判決參數的網站設
定為4又威網站。
對應不同判決參數的閾值可以相同,也可以不同。當設有多個判決參數時, 可以選擇任何一個判決參數超過對應的閾值,即判決相應的網站為權威網站, 也可以選擇所有判決參數均超過對應的閾值,才判斷相應的網站為權威網站。 在應用時,可以根據具體的應用環境來選擇。
利用本發明實施例的方法,可以自動發現權威網站,無需人工編輯,有效 地節省了人力資源成本。
為了防止網絡中的惡意點擊行為,進一步保證向用戶提供的權威網站的準 確性,還可以在上述步驟102和步驟103之間增加過濾的步驟,即在統計各網 站內的所述被點擊網頁的局部信息之前,對所述網頁進行過濾。
由于大多數搜索引擎都利用用戶的點擊行為提高搜索引擎的檢索效果,因
而有人會利用搜索引擎的這個特點,惡意搜索并點擊某些網頁,以試圖提高這 些網頁的搜索排序位置。因此本發明實施例中,還可以將這些惡意局部信息過 濾掉,以提高對權威網站判決的準確性。
惡意局部信息一^:具有以下某個特征
(1) 同一個用戶(以IP地址來標識)多次查詢相同關4建詞并點擊某個或 某幾個網頁;
(2) 某一個查詢詞在短時期內爆發式查詢并點擊某個或某幾個網頁。 因此,可以利用這些特征,過濾惡意的局部信息,保證局部信息的可靠性。
在本發明實施例中,具體地,對所述對網頁進行過濾包括過濾掉同一個用戶 多次查詢相同查詢詞點擊的多個網頁;和/或,過濾掉對應所述查詢詞在短期 內爆發式查詢點擊的多個網頁。
為了進一步保證向用戶提供的權威網站的準確性,還可以進行迭代處理, 對確定的對應所述領域的權威網站下網頁的查詢詞集合進行過濾,重新確定所 述領域內的關鍵詞,根據重新確定的所述領域內的關鍵詞進行迭代處理,重新 確定對應所述領域的權威網站,當迭代處理滿足設定的終止條件后,根據迭代 結果確定對應所述領域的權威網站,并提供給用戶。
如圖2所示,是本發明實施例確定權威網站的方法的另一種實現流程圖
其中,步驟201至步驟204與圖1所示實施例中的步驟101至步驟104相 同,在此不再詳細描述。除此之外,還包括以下步驟
步驟205,判斷是否進行迭代處理;如果是,則執行步驟206;否則,執 行步驟208。
迭代結束可以有以下兩種情況
一是權威網站數量達到穩定,以前后連續預定次(一致次數閾值)迭代過 程發現的權威網站一致作為判斷標準;
二是迭代達到了一定次數,可以預先估計的一個數值(迭代次數閾值)。 符合其中一個條件,迭代將結束。
步驟206,獲取確定的權威網站下網頁的查詢詞集合。 步驟207,通過過濾所述查詢詞集合,重新確定所述領域內的關4建詞。然 后,返回步驟202。
某個特定領域內的查詢詞具有以下特點
(1) 對應該查詢詞,用戶點擊了多個該領域權威網站下的網頁,而不僅 僅是某個權威網站下的網頁;
(2) 對應該查詢詞,用戶點擊的主要是該領域權威網站下的頁面。 因此根據這些特點,可以構造如下三個特征用以識別一個查詢詞是否是某
個特定領域的查詢詞
查詢詞對應的被點擊網站中某領域權威網站的數量/該領域已知權威網站 的數量;
查詢詞對應的被點擊網站中某領域權威網站的數量/查詢詞對應的^皮點擊 網站數量;
查詢詞對應的被點擊網頁中屬于某領域權威網站的數量/查詢詞對應的尋皮 點擊網頁^t量;
如果上述三個比值中任何一個或多個大于設定的一個閾值(第一閾值), 則認為所述查詢詞為所述領域內的關4定詞。
過濾后的查詢詞,用于下一輪迭代。
步驟208,根據迭代結果確定權威網站,并提供給用戶。
基于上述步驟207中確定某領域內關鍵詞的方法,在步驟201中,也就是 說,在最初確定某領域內關鍵詞時,也可以參照上述方法。首先,為所述領域 選取一個權威網站,也就是說,預設一個該領域內的權威網站,獲取點擊所述 權威網站下網頁的查詢詞集合;通過濾所述查詢詞集合,確定所述領域內的關 鍵詞。
同樣,為了防止網絡中的惡意點擊行為,進一步保證向用戶提供的權威網 站的準確性,還可以在上述步驟202和步驟203之間增加過濾的步驟,即在統 計各網站內的所述被點擊網頁的局部信息之前,對所述網頁進行過濾。具體過 濾過程可參照前面的描述。
利用本發明實施例的方法,可以自動發現權威網站,無需人工編輯,有效 地節省了人力資源成本。而且,權威網站的準確性較高。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟 是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于一計算機可
讀取存儲介質中,所述的存儲介質,如ROM/RAM、磁碟、光盤等。
相應地,本發明實施例還提供了一種確定權威網站的裝置,可以自動發現 各領域內的權威網站,使搜索引擎或者其他互聯網用戶獲取信息的工具或渠道 可以利用該權威網站信息向用戶提供更權威可信、及時全面的信息。
如圖3所示,是本發明實施例確定權威網站的裝置的一種結構示意圖 該裝置包括關鍵詞確定單元302、點擊網頁獲取單元303、局部信息統 計單元304和網站確定單元305。還可進一步包括存儲單元306和全局信息 統計單元307。其中
關鍵詞確定單元302,用于獲取同一領域內的多個關鍵詞;點擊網頁獲取 單元303,用于獲取所述多個關鍵詞分別對應的被點擊網頁;局部信息統計單 元304,用于分別統計各網站內的所述被點擊網頁的局部信息;網站確定單元 305,用于根據所述局部信息確定對應所述領域的權威網站。
存儲單元306,用于實時存儲用戶的查詢信息,所述查詢信息包括查詢 詞、查詢時間、查詢用戶、;陂點擊網頁;全局信息統計單元307,用于才艮據所 述查詢信息統計全局信息,所述全局信息包括每個網站內被點擊網頁的數量、 網站內^^皮點擊網頁對應的所有查詢詞的凄t量、網站內#皮點擊網頁對應的所有查 詢詞的查詢量。
這樣,點擊網頁獲取單元303就可以根據所述用戶的查詢信息及所述全局 信息獲取所述領域內的關鍵詞對應的被點擊網頁。
所述網站確定單元305包括計算子單元351和判決子單元352。其中 計算子單元351,用于根據所述局部信息計算對應各網站的判決參數;判決子 單元352,用于在所述判決參數超過設定的閾值時,將對應該判決參數的網站 設定為4又威網站。
其中,所述被點擊網頁的局部信息包括網頁被點擊的次數和/或被點擊 的網頁數、以及點擊的用戶數;
所述判決參數包括所述領域內某網站中網頁被點擊數與所述領域內所有 網站中網頁凈皮點擊數的比值;和/或
所述領域內某網站中被點擊網頁數與所述領域內所有網站被點擊的網頁 數的比值。
為了防止網絡中的惡意點擊行為,進一步保證向用戶提供的權威網站的準
確性,還可以在圖3所示的點擊網頁獲取單元303和局部信息統計單元304 之間增加過濾單元(圖中未示),在統計各網站內的所述被點擊網頁的局部信 息之前,對所述網頁進行過濾,過濾掉所述被點擊網頁中的惡意局部信息。具 體地,針對惡意局部信息的特點,過濾掉同一個用戶多次查詢相同查詢詞點擊 的多個網頁;和/或過濾掉對應所述查詢詞在短期內爆發式查詢點擊的多個網 頁。
利用本發明實施例的裝置,可以自動發現權威網站,無需人工編輯,有效 地節省了人力資源成本。具體過程可參照圖1所示本發明實施例的方法中的描 述。
如圖4所示,是本發明實施例確定權威網站的裝置的另一種結構示意圖。 與圖3所示實施例不同的是,在該實施例中,網站確定單元406不僅包括 計算子單元451和判斷子單元452,還包括了反饋子單元453。其中,計算子 單元451和判斷子單元452與圖3所示實施例中計算子單元351和判斷子單元 352相同。反饋子單元453,用于判斷是否需要進行迭代處理,如果需要,則 將確定的對應所述領域的權威網站反饋給關鍵詞確定單元402。所述反饋子單 元453可以按以下方式判斷是否需要進行迭代處理
如果迭代處理過程中確定的權威網站連續 一致的次數超過預定的 一致次 數閾值,則終止迭代處理;或者
如果迭代處理次數超過預定的迭代次數閾值,則終止迭代處理。 在該實施例中,關4定詞確定單元402,用于對確定的對應所述領域的權威 網站下網頁的查詢詞集合進行過濾,重新確定所述領域內的關4定詞。其包括 權威網站選取子單元421、查詢詞集合獲取子單元422和關鍵詞生成子單元 423。其中
權威網站選取子單元421 ,用于為所述領域選取一個一又威網站;查詢詞集 合獲取子單元422,用于獲取點擊所述權威網站下網頁的查詢詞集合;關鍵詞 生成子單元423,用于通過濾所述查詢詞集合,確定所述領域內的關^^詞。 所述關鍵詞生成子單元423按以下方式確定所述領域內的關鍵詞 如果查詢詞對應的被點擊網站中所述領域權威網站的數量與該領域已知
權威網站的數量的比值大于設定的第 一 閾值,則確定所述查詢詞為所述領域內
的關4建詞;和/或
如果查詢詞對應的被點擊網站中所述領域權威網站的數量與所述查詢詞 對應的被點擊網站數量的比值大于設定的第 一閾值,則確定所述查詢詞為所述
領域內的關鍵詞;和/或
如果查詢詞對應的被點擊網站中屬于所述領域權威網站的數量與查詢詞 對應的被點擊網頁數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領域內的關鍵詞。
該實施例的裝置,通過迭代處理,對確定的對應所述領域的權威網站下網 頁的查詢詞集合進行過濾,重新確定所述領域內的關鍵詞,根據重新確定的所 述領域內的關鍵詞進行迭代處理,重新確定對應所述領域的權威網站,當迭代 處理滿足設定的終止條件后,根據迭代結果確定對應所述領域的權威網站,可 以進一步保證向用戶提供的權威網站的準確性。
同樣,為了防止網絡中的惡意點擊行為,進一步保證向用戶提供的權威網 站的準確性,也可以在圖4所示的點擊網頁獲取單元303和局部信息統計單元 304之間增加過濾單元(圖中未示),在統計各網站內的所述被點擊網頁的局 部信息之前,對所述網頁進行過濾,過濾掉所述被點擊網頁中的惡意局部信息。 具體地,針對惡意局部信息的特點,過濾掉同一個用戶多次查詢相同查詢詞點 擊的多個網頁;和/或過濾掉對應所述查詢詞在短期內爆發式查詢點擊的多個 網頁。
需要說明的是,圖3所示實施例的裝置中,關鍵詞確定單元302在確定關 鍵詞時,可以直接選定幾個所述領域內的關鍵詞,也可以按照圖4所示實施例 的裝置中與關鍵詞確定單元402類似的處理方式,給每個領域預先標注一個權 威網站,獲取點擊所述權威網站下網頁的查詢詞集合,然后通過濾所述查詢詞 集合,確定所述領域內的關鍵詞。
以上對本發明實施例進行了詳細介紹,本文中應用了具體實施方式
對本發 明進行了闡述,以上實施例的說明只是用于幫助理解本發明的裝置及方法;同 時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式
及應用 范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
權利要求
1、一種確定權威網站的方法,其特征在于,包括:獲取同一領域內的多個關鍵詞;獲取所述多個關鍵詞分別對應的被點擊網頁;分別統計各網站內的所述被點擊網頁的局部信息;根據所述局部信息確定對應所述領域的權威網站。
2、 根據權利要求1所述的方法,其特征在于,所述方法還包括 實時存儲用戶的查詢信息,所述查詢信息包括查詢詞、查詢時間、查詢用戶、被點擊網頁;根據所述查詢信息統計全局信息,所述全局信息包括每個網站內被點擊網頁的數量、網站內被點擊網頁對應的所有查詢詞的數量、網站內被點擊網頁對應的所有查詢詞的查詢量;所述獲取所述領域內的關鍵詞對應的被點擊網頁包括根據所述用戶的查詢信息及所述全局信息獲取所述關鍵詞對應的被點擊網頁。
3、 根據權利要求1所述的方法,其特征在于,所述根據所述局部信息確 定對應所述領域的權威網站包括根據所述局部信息計算對應各網站的判決參數;如果所述判決參數超過設定的閾值,則將對應該判決參數的網站設定為權 威網站。
4、 根據權利要求3所述的方法,其特征在于,所述被點擊網頁的局部信息包括網頁被點擊的次數和/或被點擊的網頁 數、以及點擊的用戶數; 所述判決參數包括所述領域內某網站中網頁被點擊數與所述領域內所有網站中網頁被點擊 數的比值;和/或所述領域內某網站中被點擊網頁數與所述領域內所有網站被點擊的網頁 數的比值。
5、 根據權利要求4所述的方法,其特征在于,當所述判決參數有多個時, 對應每個判決參數都設置有一個閾值。
6、 根據權利要求1至5任一項所述的方法,其特征在于,還包括 在統計各網站內的所述被點擊網頁的局部信息之前,對所述網頁進行過濾;所述對網頁進行過濾包括過濾掉同一個用戶多次查詢相同查詢詞點擊的多個網頁;和/或 過濾掉對應所述查詢詞在短期內火暴發式查詢點擊的多個網頁。
7、 根據權利要求1至5任一項所述的方法,其特征在于,所述獲取同一 領域內的多個關鍵詞包括為所述領域選取一個權威網站;獲取點擊所述權威網站下網頁的查詢詞集合;通過過濾所述查詢詞集合,確定所述領域內的關4建詞。
8、 根據權利要求7所述的方法,其特征在于,所述通過過濾所述查詢詞 集合,確定所述領域內的關鍵詞包括如果查詢詞對應的被點擊網站中所述領域權威網站的數量與該領域已知 權威網站的數量的比值大于設定的第一閾值,則確定所述查詢詞為所述領域內 的關鍵詞;和/或如果查詢詞對應的#:點擊網站中所述領域4又威網站的凄t量與所述查詢詞 對應的被點擊網站數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領i或內的關4定詞;和/或如果查詢詞對應的被點擊網站中屬于所述領域權威網站的數量與查詢詞 對應的被點擊網頁數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領域內的關鍵詞。
9、 根據權利要求7所述的方法,其特征在于,還包括 對確定的對應所述領域的4又威網站下網頁的查詢詞集合進行過濾,重新確定所述領域內的關鍵詞;根據重新確定的所述領域內的關鍵詞進行迭代處理,重新確定對應所述領 i或的外又威網站;當迭代處理滿足設定的終止條件后,根據迭代結果確定對應所述領域的權 威網站。
10、 根據權利要求9所述的方法,其特征在于,設定的終止條件包括 如果迭代處理過程中確定的權威網站連續一致的次數超過預定的一致次數閾值,則終止迭代處理;或者如果迭代處理次數超過預定的迭代次數閾值,則終止迭代處理。
11、 一種確定權威網站的裝置,其特征在于,包括 關鍵詞確定單元,用于獲取同一領域內的多個關鍵詞;點擊網頁獲取單元,用于獲取多個關鍵詞分別對應的被點擊網頁; 局部信息統計單元,用于分別統計各網站內的所述被點擊網頁的局部信臺.網站確定單元,用于才艮據所述局部信息確定對應所述領域的權威網站。
12、 根據權利要求11所述的裝置,其特征在于,還包括存儲單元,用于實時存儲用戶的查詢信息,所述查詢信息包括查詢詞、 查詢時間、查詢用戶、凈皮點擊網頁;全局信息統計單元,用于根據所述查詢信息統計全局信息,所述全局信息 包括每個網站內被點擊網頁的數量、網站內被點擊網頁對應的所有查詢詞的 #:量、網站內#皮點擊網頁對應的所有查詢詞的查詢量;所述點擊網頁獲取單元根據所述用戶的查詢信息及所述全局信息獲取所 述領域內的關#:詞對應的#1點擊網頁。
13、 根據權利要求11所述的裝置,其特征在于,所述網站確定單元包括 計算子單元,用于根據所述局部信息計算對應各網站的判決參數; 判決子單元,用于在所述判決參數超過設定的閾值時,將對應該判決參數的網站設定為權威網站。
14、 根據權利要求13所述的裝置,其特征在于,所述被點擊網頁的局部信息包括網頁被點擊的次數和/或被點擊的網頁 數、以及點擊的用戶數; 所述判決參數包括所述領域內某網站中網頁被點擊數與所述領域內所有網站中網頁被點擊 數的比值;和/或所述領域內某網站中被點擊網頁數與所述領域內所有網站被點擊的網頁 數的比值。
15、 根據權利要求11至14任一項所述的裝置,其特征在于,還包括 過濾單元,用于在所述局部信息統計單元統計各網站內的所述^C點擊網頁的局部信息之前,對所述網頁進行過濾; 所述對網頁進行過濾包括過濾掉同 一個用戶多次查詢相同查詢詞點擊的多個網頁;和/或 過濾掉對應所述查詢詞在短期內火暴發式查詢點擊的多個網頁。
16、 根據權利要求11所述的裝置,其特征在于,所述關鍵詞確定單元包括權威網站選取子單元,用于為所述領域選取一個權威網站;查詢詞集合獲取子單元,用于獲取點擊所述權威網站下網頁的查詢詞集合;關鍵詞生成子單元,用于通過濾所述查詢詞集合,確定所述領域內的關鍵詞。
17、 根據權利要求16所述的裝置,其特征在于,所述關4建詞生成子單元 按以下方式確定所述領域內的關4建詞如果查詢詞對應的被點擊網站中所述領域權威網站的凄t量與該領域已知 權威網站的數量的比值大于設定的第一閾值,則確定所述查詢詞為所述領域內 的關鍵詞;和/或如果查詢詞對應的^皮點擊網站中所述領域權威網站的數量與所述查詢詞 對應的被點擊網站數量的比值大于設定的第一閾值,則確定所述查詢詞為所述 領域內的關鍵詞;和/或如果查詢詞對應的被點擊網站中屬于所述領域權威網站的數量與查詢詞 對應的被點擊網頁數量的比值大于設定的第一闊值,則確定所述查詢詞為所述 領域內的關鍵詞。
18、 根據權利要求16所述的裝置,其特征在于,所述網站確定單元還包括反饋子單元,用于判斷是否需要進行迭代處理,如果需要,則將確定的對 應所述領域的權威網站反饋給所述關4定詞確定單元;所述關4定詞確定單元對確定的對應所述領域的 一又威網站下網頁的查詢詞 集合進行過濾,重新確定所述領域內的關鍵詞。
19、根據權利要求18所述的裝置,其特征在于,所述反饋子單元按以下 方式判斷是否需要進行迭代處理如果迭代處理過程中確定的權威網站連續 一致的次數超過預定的 一致次 數閾值,則終止迭代處理;或者如果迭代處理次數超過預定的迭代次數閾值,則終止迭代處理。
全文摘要
本發明公開了一種確定權威網站的方法及裝置,所述方法包括獲取同一領域內的多個關鍵詞;獲取所述多個關鍵詞分別對應的被點擊網頁;分別統計各網站內的所述被點擊網頁的局部信息;根據所述局部信息確定對應所述領域的權威網站。利用本發明,能夠自動為用戶提供各領域的權威網站。
文檔編號H04L12/24GK101383730SQ200810225178
公開日2009年3月11日 申請日期2008年10月30日 優先權日2008年10月30日
發明者佟子健 申請人:北京搜狗科技發展有限公司