專利名稱:為網頁分配關鍵詞的制作方法
技術領域:
本發明一般涉及網頁分類的領域,更具體地,涉及根據相關關鍵詞進行網頁分類。
背景技術:
網頁關鍵詞分配是網頁分類和搜索的一個重要步驟。關鍵詞必須具有足夠的代表性,以捕捉包含在頁面中的信息,以及,必須足夠通用且為社會接受,以用于實際使用(例如,根據用戶提供的搜索關鍵詞為用戶識別一個相關網頁)。通常網頁中包含一些由設計者為其分配的關鍵詞。例如,關鍵詞可能在超文本標記語言(HTML)標簽“title”或元標簽“keyword”或“description”下被找到。由于不同的網頁設計者分配該等關鍵詞的方式不同且用以服務的目的不同,該等關鍵詞在實際使用中并不一定能夠被接受。有多種不同技術可能用于為網頁分配關鍵詞。在基于人工智能的技術中,一種算法分析網頁以獲得該網頁的特點和相應地為該網頁分配關鍵字。該種算法提高了所分析的網頁的數量。在基于數據挖掘的技術中,一種算法尋找頁面內出現的數據的趨勢,然后為該頁面識別關鍵屬性。在基于關鍵詞密度的技術中,一種算法對出現在網頁中的詞進行分類, 并且基于已獲得的密度函數為該網頁分配關鍵詞。該等技術都是計算密集型的,且由于需要分析網頁內容,要求為每個頁面提供大容量存儲空間。此外,頁面內容的任何修改將使得對整個頁面再次分析成為必須。進一步,由于該等技術依靠頁面的內容,其不適用于為基本無詞的網頁分配關鍵詞,例如由 JavaScript動態構建的頁面,如谷歌地圖頁面。
發明內容
現有技術的多種缺陷,被本發明的、使用關鍵詞數據為網頁分配關鍵詞的方法、系統及設備所解決,其中,所述關鍵詞數據從網頁自身、包含指向該網頁的鏈接的網頁,以及, 被在該網頁中的鏈接指向的網頁中獲得,其中,從多個網頁中獲得的該關鍵詞數據被處理, 從而為該網頁提供關鍵詞數據的相關集合。為網頁分配關鍵詞的方法的一個實施例包括識別與網頁相關的自有關鍵詞,該自有關鍵詞包括從該網頁中獲得的關鍵詞數據;識別與該網頁相關的內鏈關鍵詞,該內鏈關鍵詞包括從包含鏈接至該網頁的鏈接的其他網頁中獲得的關鍵詞數據;識別與該網頁相關的外鏈關鍵詞,該外鏈關鍵詞包括從包含該網頁鏈接至其他網頁的鏈接的所述其他網頁中獲得的關鍵詞數據;以及,合并該自有、內鏈和外鏈關鍵詞,以為該網頁形成關鍵詞集合。 此外,該自有、內鏈和外鏈關鍵詞集合可能會進一步被處理,以提供相應的有序排序的自有、內鏈和外鏈關鍵詞集合。此外,一個或多個啟發式函數可能會被用于確定,在自有、內鏈和外鏈關鍵詞集合中的,每個關鍵字的相對重要度。
鑒于以下結合相應附圖的詳細說明,本發明的教導可以被很容易地理解,其中圖1描繪了一個網絡化的計算機系統高級框圖,其有助于理解本發明的實施例;圖2圖示性地描述了被鏈接的網頁之間的關鍵詞關系;圖3描繪了根據一個實施例的用于為網頁分配關鍵詞的方法流程圖;圖4描繪了一個在網頁中識別合適關鍵詞的方法流程圖;圖5描繪了一個為與網頁相關的關鍵詞排序的方法流程圖;圖6描繪了一個適用于執行在此描述的功能的通用目的計算機的高級框圖。為便于理解,在可能的情況下,使用相同的參數以指定附圖中共用的相同的元素。
具體實施例方式本發明將主要在用于為特定網頁分配關鍵詞的方法、系統及設備的場景中被描述,其中,使用從所述特定網頁、包括指向該特定網頁鏈接的其他網頁,以及,被在所述特定網頁中的鏈接指向的其他網頁的數據,為特定網頁分配關鍵詞。多個網頁可能被迭代處理, 以加強相應關鍵字的相關性。網頁關鍵詞數據庫可能會被生成,在該網頁關鍵詞數據庫中, 與多個網頁,可能所有可用網頁,相關的關鍵詞被提供,使得對該關鍵詞數據庫的高速搜索在搜索算法、分類算法及類似算法的場景中被提供。那些本領域的和通過教導而知曉的技術人員在此將意識到可適用于許多其他應用的實施例,例如網頁分類(通過為多個網頁分配關鍵詞),用戶追蹤(通過檢測被用戶訪問的頁面的關鍵詞)等。通常,網頁中包含一些由設計者為其分配的一些關鍵詞。例如,網頁中的關鍵詞可能通過檢測HTML標簽,如“title”或其他HTML標簽,或通過檢測元數據標簽,如“keyword” 標簽或“description”,被找到。多種實施例在迭代的或非迭代方法論的場景中,利用該等關鍵詞為特定網頁分配關鍵詞。要注意的是,該等實施例執行操作為網頁分配關鍵詞,即使該網頁或相關網頁不包括與標簽相關的關鍵詞。通常來說,根據該多種實施例的方法、系統和設備,通過從那個該網頁(在此被表示為“自有”網頁)、那些包含指向該自有網頁(在此被表示為“內鏈”網頁)鏈接的網頁、 以及那些被該自有網頁指向的網頁(在此被表示為“外鏈”網頁)中檢索關鍵詞,來為特定網頁分配關鍵詞。圖1描繪了一個網絡化的計算機系統高級框圖,其有助于理解當前實施例。具體地,多個網絡元素或節點110以標準方式被相互連接從而形成網絡120,例如互聯網。該等多種網絡元素或節點包含附有多種支持對網頁、流媒體等進行通用或統一尋址協議的硬件和軟件組件。在本發明的場景中,討論將限于使用超文本標記語言(HTML)、可擴展標記語言(XML)、統一資源定位符(URL)和其他為那些熟悉萬維網的技術人員所熟悉的標準化協議的網頁。為了這次說明的目的,將會假定每個網絡元素或節點110包括一個通用目的計算機,但是特殊目的計算機和/或其他設備(例如,路由器、網橋、交換機及相似設備)也可能在多種實施例的場景中被使用。該通用目的計算機操作細節的說明在此僅簡要描述。在網絡120中,每個通用目的計算機110與一個或多個其他通用目的計算機110通信。一個或多個通用目的計算機110執行軟件指令,該等指令的執行使在此就該等多種實施例被說明的方法論、系統和技術生效。
通用目的計算機110被描繪為包括處理器111、輸入輸出接口 117和存儲器112。 處理器111分別與存儲器112和輸入輸出接口 117相互連接。輸入輸出接口 117適用于輔助與其他節點或網絡元素在網絡120中的通信。通用目的計算機110的存儲器112被描述為包括與應用113相關的數據及與網頁 114相關的數據。應該指出的是,雖然只有一個網頁被描述,多個網頁的實例能夠在通用目的計算機110的存儲器114中被支持。此外,應該指出的是,網頁在通用目的計算機110的存儲器中的存在不是實施該多種實施例的必要條件。應用113包括軟件指令,當其被處理器111執行時,執行在此就該等多種實施例被說明到的多種步驟。網頁114被描述成包括內容C、元數據MD、描述D和鏈接L。內容C可能包括任何文本、圖片或其他內容數據。元數據MD和描述D可能包括任何標準或非標準的與該網頁有關的信息,例如,在此被討論到的多種實施例。鏈接L包括,例示地,指向其他網頁的URL或其他類型的鏈接。服務提供節點130被描述為包含處理器131,輸入-輸出接口 137和存儲器132。 處理器131分別與存儲器132和輸入-輸出接口 137相互連接。輸入-輸出接口 137適用于輔助與其他節點或網絡元素在網絡120中的通信,例如上述通用目的計算機110。該服務提供節點包括,例示地,支持通過網絡120與多個節點通信的服務器和/或管理功能的節點。通常來說,任何服務器、客戶端或其它設備都能執行在此被描述到的該等多種實施例的多種功能。而且,多個服務器、客戶端和/或其他設備可能并行工作從而更快地執行該等各種功能。例如,一個裝置可能適用于更新內鏈列表,而另一個裝置適用于更新外鏈列表。當待處理的網頁數量增加時,額外的服務器可能被調用來用于更新任一列表。服務提供節點130的存儲器132被描述為包括與應用133相關的數據和與關鍵詞存儲數據庫139相關的數據。應用133包括軟件指令,當其被處理器111執行時,該軟件指令執行在此就該等多種實施例被說明的該等多種步驟。所述關鍵詞存儲數據庫139包括存儲了與一個或多個網頁相關的關鍵詞數據的數據庫。關鍵詞存儲數據庫139被描述為例示服務提供節點130的一個組成部分。然而,本領域技術人員應能理解,關鍵詞存儲數據庫 139就處理線路(例如服務提供節點130)而言,可能是一個與該等多種實施例統一運行的遠程數據庫。在一個實施例中,擴展數據庫140被提供以用于存儲與網頁相關的關鍵詞信肩、ο通常來說,在此就該等多種實施例被描述的方法,在服務提供節點132提取與網絡120中部分或(理想的)全部節點110中的網頁相關的關鍵詞數據中,被執行。因此,在多種實施例中,關鍵詞存儲數據庫139和/或數據庫140被用于存儲與每個網頁114相關的關鍵詞數據,網頁114被網絡120中的多個節點110支持或寄宿于其中。同樣地,在一個包括網絡管理系統(NMS)、網絡實施系統、服務提供節點或其他網絡或管理元素的實施例中執行軟件,以計算以下就多種實施例中被說明的多種參數。在此就多方面的附圖,討論該等實施例的硬件/軟件元素支持。圖2圖示性地描述了被鏈接的網頁之間的關鍵詞關系。具體地,圖2圖示性地描述了自有網頁210、多個內鏈網頁22(^220^22(^等直至220n(所有內鏈網頁表示為220), 及多個外鏈網頁23(^23(^23(^等直至230n(所有外鏈網頁表示為230)。自有網頁210包括被處理以確定關鍵詞分配的網頁。內鏈網頁220包括包含鏈接的網頁,該鏈接例如為超文本標記語言(HTML)、可擴展標記語言(XML)、超文本引用(href) 或其他鏈接或指向該自有頁面、尋址該自有頁面或將用戶重定向至該自有頁面的尋址機制。外鏈網頁230包括在該自有網頁中被指向的,或者,被HTML、XML、href或其他鏈接或尋址機制尋址的那些網頁。自有網頁210可能有與之相關的一個或多個相應關鍵詞,或沒有與之相關的相應關鍵詞。在圖2的描述中,自有頁面210有與之相關的一個關鍵詞的相應集合Dd]。頁面關鍵詞集合有與之相關的一個相應權重,被描述為權重《0。每個內鏈網頁220可能有與之相關的一個或多個相應關鍵詞,或沒有與之相關的相應關鍵詞。例如,內鏈網頁22(^有與之相關的相應關鍵詞集合&1,k2,...],內鏈網頁 2202有與之相關的相應關鍵詞集合&3,k4,...],內鏈網頁2203有與之相關的相應關鍵詞集合&2,k4,...],及內鏈網頁220n有與之相關的相應關鍵詞集合,該關鍵詞集合包括一個空集合(例如,無關鍵詞)。每個內鏈網頁關鍵詞集合有與之相關的相應權重w,被描述為從權重wl至wn。每個外鏈網頁230可能有與之相關的一個或多個相應關鍵詞,或沒有與之相關的相應關鍵詞。例如,外鏈網頁23(^有與之相關的相應關鍵詞集合&1,k2,...],外鏈網頁 2302有與之相關的相應空關鍵詞集合□,外鏈網頁2303有與之相關的相應關鍵詞集合&2, k4,...],及外鏈網頁MOn有與之相關的相應關鍵詞集合[kl, k3,···]。每個外鏈網頁關鍵詞集合有與之相關的相應權重《,被描述為權重w5至w8。為生成被分配給自有網頁210的關鍵詞集合,源自有網頁關鍵詞、內鏈網頁關鍵詞和外鏈網頁關鍵詞根據多種實施例被收集及處理,從而生成,例如,與該自有節點相關的關鍵詞的有序排序。對關鍵詞的該等收集及處理可能會針對多個自有節點中(例如內鏈節點或外鏈節點)的每個節點來被迭代執行,以使得該等額外的節點也相應包含按照有序排序排列的、被收集的/被處理的關鍵詞。該方法論可能包括一個連續處理過程,其中,與任何特定自有節點相關的關鍵詞或有序排序關鍵詞,根據與該自有節點的相關度進行不斷地改變和/或改進。例如,幾乎可以肯定,與任何特定自有網頁相關的內鏈網頁會因為更多 (或更少)網頁指向該特定自有網頁,而隨時間改變。所以,在多個實施例中,在此提出的該方法論提供了典型的為網頁分配關鍵詞集合方案,其中,該網頁被分配的關鍵詞集合可能會被不斷地改進和擴展。通常來說,網頁一般包含內容和非內容部分。該內容或非內容部分兩者中的任意一個,在本發明實施例的場景中,可能包含適用于作為關鍵詞的文本。在被降低復雜性的實施例中(例如,利用更少計算資源的那些實施例),僅被包含在網頁的非內容部分的文本是被包含在關鍵詞集合中的。在更復雜的實施例中(例如,更少涉及計算資源需求的那些實施例),被包含在網頁的內容部分的文本可能也被包含在與該網頁相關的關鍵詞集合中。圖3描繪了根據一個實施例的用于為網頁分配關鍵詞的方法流程圖。具體地,圖3 中的方法300適用于生成與一個或多個自有網頁相關的關鍵詞集合。當被需要時,圖3中的方法300可能會根據需要,為一個或多個網頁而被重復執行。在步驟310中,自有網頁關鍵詞被識別。即,被處理以用于關鍵詞分配的網頁中的關鍵詞被識別。在步驟320中,內鏈網頁關鍵詞被識別。即,包含指向被處理以用于關鍵詞分配的網頁的鏈接的網頁中的關鍵詞被識別。參照方框325,內鏈頁面的列表被有選擇地更新。所述更新可包含觸發搜索引擎、網絡爬蟲或其他機制以識別那些包含指向被處理的網頁的鏈接的網頁。例如,假設一個被表示為www. example, com的自有網頁將被處理,通過爬取網絡或采用搜索詞“link:WWW. example, com”并利用諸如雅虎或谷歌等搜索引擎,所有指向該自有網頁的網頁列表將被生成。該網頁的結果列表(被表示為內鏈列表)提供了與能夠由其中重新獲得關于自有網頁的內鏈關鍵詞數據的網頁相關的地址/識別信息。在一個實施例中,在該內鏈列表中的內鏈網頁是根據強度、相關度或其他排序范式有序排列的。在進一步的實施例中,僅來自預定義數量的已排序內鏈網頁中的關鍵詞被用于提供關鍵詞。在步驟330中,外鏈頁面關鍵詞被識別。即,被包含在被處理以用于關鍵詞分配的網頁中的鏈接指向的網頁中的關鍵詞被識別。外鏈列表可能通過分析該自有頁面的源文件 (例如,www. example, com)和搜集該頁面內的超文本引用(href)數據而被獲得,盡管與圖像頁面相關的超文本引用數據可能會由于該圖像頁面可能沒有任何有用文本內容,而在該外鏈列表中被忽略。參照方框335,外鏈頁面的列表(被表示為外鏈列表)被選擇性地更新。 所述更新可能包含檢查該自有網頁,從而判定是否有任何對外鏈的更改/更新發生。該外鏈列表提供了與能夠由其中重新獲得關于自有網頁的外鏈關鍵詞數據的網頁相關的尋址/ 識別信息。在一個實施例中,內鏈列表和外鏈列表中每個被鑒定的頁面被處理,以形成用于陳列的相應關鍵詞集合,例如,前述說明的、在圖2中圖示性地描繪的互相鏈接的網頁之間的關鍵詞關系。識別關鍵詞的實施例,其適用于在步驟310、320和330中使用,以下參照圖4對該實施例進行詳細說明。在步驟340中,為被識別的關鍵詞分配權重。多種權重技術可能會在本發明的場景中被使用。在一個實施例中,每個關鍵詞被分配相同的權重。在另一個實施例中,關鍵詞的權重響應該關鍵詞來源網頁的重要度來被改變。其他權重方案將會在以下被詳細描述。 在另一個實施例中,關鍵詞權重基于鏈接至網頁(例如,自有、內鏈、外鏈)的關鍵詞鏈接, 其中,不同鏈接可能與相同或不同的權重相關。在步驟350中,加權的關鍵詞集合為自有網頁而被形成。即,將與該自有網頁相關的加權的關鍵詞集合,利用來自所述自有頁面、內鏈頁面和外鏈頁面的加權關鍵詞,被形成。在步驟360中,與自有網頁相關的已加權關鍵詞集合按照要求被存儲和/或被處理。參照方框365,步驟360可能包括更新數據庫、為應用提供數據、形成有序排序的關鍵詞和/或其他處理/存儲操作。在以下參照圖5描述的一個實施例中,網頁的有序排序的關鍵詞,利用計數、唯一計數(Unique Count)和加權唯一計數啟發式函數(Weighted Unique Count heuristic functions)生成。該有序排序的關鍵詞的一個子集(例如,排序前M位的關鍵詞)接著被分配給該自有網頁。其他函數可能也能夠在多種實施例的場景中被采用。在步驟370中,需要作為自有頁面來被處理的下一頁面被選擇,且對于被選擇的新的自有網頁,方法300被重復執行。圖4描繪了一個在網頁中識別合適關鍵詞的方法流程圖。具體地,圖4的方法400適用于在圖3所示方法300的步驟310、320和330中使用。應當注意的是,雖然在此被說明的實施例描繪了在特定順序中產生的多種啟發式函數的應用,更多或更少的啟發式函數可能被調用,被調用的該啟發式函數的特定順序可能被改變,且對識別方法的其它更改能夠實現。方法400起始于步驟410,其中,與網頁相關的預定義關鍵詞被識別。參照方框 415,該等預定義關鍵詞可能包含位于標題(title)字段、方法關鍵詞(method keyword)字段、元描述(meta-description)字段和在該網頁中被處理的其他字段或標簽中的信息。如前所述,在多種實施例的場景中,來自于網頁的內容和非內容部分中的一者或兩者的、基于文本的數據被選擇性地用于提供關鍵詞數據。在步驟420中,潛在關鍵詞短語被提取。一個關鍵詞短語包含了能夠作為關鍵詞操作的多個相鄰的詞。若潛在關鍵詞短語的成分關鍵詞(component keywords)是可定義的,或在某些程度上有意義,那么,關鍵字成分形成了一個有效的關鍵詞短語。如果潛在關鍵詞短語的成分關鍵詞是不可定義的,或在關鍵詞短語的場景中是無效的,那么,成分關鍵詞不會形成有效的關鍵詞短語。參照方框425,關鍵詞短語可能包括被描繪的短語,其中一個或多個詞被逗號、標簽、分號、空白、空格或劃線分隔。在一個實施例中,其中,潛在關鍵詞短語的成分關鍵詞被第一分隔標識 (delineator)(例如,空格或空白)分隔,潛在關鍵詞短語群組被建立,其中,每個群組包括 N個相鄰的關鍵詞,其中,N包括一個大于一的整數。在該步驟中,多于一個大小的N可能被使用。因此,第一潛在關鍵詞短語群組可能通過將相鄰成分關鍵詞中的每一對合并,生成相應的潛在關鍵詞短語(例如,N = 2)。同樣地,第二潛在關鍵詞短語群組可能通過將每三個相鄰成分關鍵詞合并,生成相應的潛在關鍵詞短語(例如,N = 3)。在一個實施例中,其中,潛在關鍵詞短語的成分關鍵詞通過第二分隔標識(例如, 逗號)被分隔,在第二分隔標識的任何兩個實體之間的潛在關鍵詞被同時定義為一個潛在關鍵詞短語。在該實施例的細化中,在兩個第二分隔標識之間的成分關鍵詞被處理以形成一個或多個潛在關鍵詞短語群組,其中,每個群組包括如上所述的長度為N的關鍵詞短語。在步驟430中,在步驟420中被提取的該潛在關鍵詞短語被評估以形成包括只有有效的關鍵詞和關鍵詞短語的關鍵詞列表。參照方框435,該評估可能通過利用參照函數或網頁,例如由維基百科提供的網頁、字典或語法修正提供器、第三方評估器、關鍵詞或關鍵詞短語數據庫等,被執行。即,拼寫引擎、語法引擎和搜索引擎中的任一個可能被用于確定潛在獨特關鍵詞(unique keyword)是否代表有效的短語。該引擎或軟件能夠實現的功能可能來自第三方、獨立的應用等。步驟430針對于確定特定關鍵詞短語是否適用于在多種實施例的場景中作為關鍵詞來使用。無意義地、錯誤的和/或不允許的或不被贊成的關鍵詞和關鍵詞短語通常在網頁描述的場景中是無用的。作為一個實施例,如果N = 3且在步驟420中被提取的三個成分關鍵詞次形成潛在關鍵詞短語“new york times”、在維基百科中對序列“new york times”的搜索將會指出關鍵詞短語“new york times”是有效的。在步驟440中,任何停用詞和多余詞從關鍵詞列表中被去除。停用詞為作為關鍵詞不怎么有用的詞和/或短語,例如通用連接詞、介詞等。停用詞列表可能包括以下“一個 (a)、關于、以上、橫穿、之后、然后、再次、反對、全部、幾乎、單獨、沿著、已經、也、雖然、總是,是(am)、其中、之中、在之中、相當于、安培、一個(an)、和、另一個、任何、無論如何、任何人、 任何事情、無論怎樣、任何地方、是(are)、周圍、如、在、后面的、是(be)、變得、因為、變得、 變得、變得、是、之前、事先、之后,是(being)、之下、旁邊、除了、之間、超越、入賬、兩者都、 底部、但是、通過、打電話、可以、不可以、不可以、合、電腦、以、可以、不可以、哭、反、描述、細節、做、已經做、下、由于、期間、每個、例如、八、要么、十一、否則、在別處、空、足夠、等等、甚至、曾今、每一個、每個人,一切”等。多個停用詞可能在短語場景中具有相關性,例如,如果其形成相關短語的一部分,則該等停用詞不會被去除。在步驟450中,與網頁相關的被識別關鍵詞列表被提供,例如,觸發圖4中方法400 的操作的方法步驟(例如,圖3中的方法300的步驟310、320或330)。圖5描繪了一個為與網頁相關的關鍵詞排序的方法流程圖。具體地,圖5中的方法550適用于在圖3中的方法300的步驟360/365中使用。方法550預定利用一個或多個計數、唯一計數和/或加權唯一計數啟發式函數,生成在與網頁相關的關鍵詞列表中的M個最顯著關鍵詞的關鍵詞列表。其他啟發式函數在多種實施例的場景中可能也被利用。當在此所描述的、作為處理相同的關鍵詞數據集合的多種啟發式函數被提出時,應該注意的是, 其他函數可能被使用以對被減少的或其他被處理的關鍵詞數據集合進行操作。以下符號被使用n(i, j)為在與節點j相關的文檔中的關鍵詞ki出現的數量。u(i,j)被設置為1,如果關鍵詞ki出現在與節點j相關的文檔中;否則,其被設置為0。wj 是在自有頁面和節點j之間的鏈接的權重。當關鍵詞列表被接收到時(即,在圖3方法300的步驟360中,列表被提供),方法 500進入步驟510。在可選步驟520中,計數函數被應用于每個關鍵詞。參照方框525,計數函數C被下述關系所定義C(i, j) = n(i, j)D在可選步驟530中,唯一計數函數被應用于每個關鍵詞。參照方框535,唯一計數函數UC被下述關系所定義UC(i, j) = u(i, j)在可選步驟MO中,加權唯一計數函數被應用于每個關鍵詞。參照方框M5,該加權唯一計數函數UC被下述關系所定義WUC (i,j) = wj*u (i,j)。在步驟550中,對每個關鍵詞ki,使用計數、唯一計數和/或加權唯一計數啟發式函數,執行計算以獲得分數。在步驟560中,排序前M位的關鍵詞被選擇,以作為與一個被處理的網頁(例如, 一個自有網頁)相關的關鍵詞集合的成員。也就是說,接著,關鍵詞集合基于關鍵詞分數被分類,同時,排序前M位的關鍵詞被選擇,以作為自有節點的代表性關鍵詞集合。在可選步驟570中,對關鍵詞的排序,在前M位關鍵詞ki中,利用(參照方框575) 總和(Sum)、最大(Max)、投票(Vote)函數和/或其他綜合計分函數中的一個或多個,來進一步修正。通常來說,該等和/或其他綜合計分函數或啟發式函數可能被應用于由一個或多個啟發式函數處理的初始關鍵詞集合或關鍵詞集合。該總和、最大和投票綜合計分函數為已排序關鍵詞集合,通過如下啟發式函數排序處理,提供了額外的排序調整Sum(i) = rank (score (i, C)) +rank (score (i, UC));Max(i) = max (rank (score (i, C)), rank (score (i, UC)));禾口Vote (i) = majority vote of score (i,C) and score (i,UC)。在一個實施例中,上述說明的綜合計分函數為函數“SCOre(i,h)”使用如下公式
score(i, h) = a · h(i, self) + β · ^ h(i, j) + χ · Y4KiJ)
d嚴 Minksdj ^outHnks其中,在考量中,i代表關鍵詞,h是啟發式函數,a是為自有節點分配的權重(其可能與如上說明的相同或不同),β是為內鏈相關關鍵詞分配的權重,X是為外鏈相關關鍵詞分配的權重,且h(i,j)是與節點j相關的文檔中的關鍵詞i的啟發式函數結果。要注意的是,該公式預期為所有自有節點相關關鍵詞分配第一權重a,為所有內鏈相關關鍵詞分配第二權重β,且為所有外鏈關鍵詞分配第三權重X。然而,該公式可能會被更改,以使在自有、內鏈和/或外鏈關鍵詞集合中的不同關鍵詞可能被分配不同權重值。在一個實施例中,在相應的關鍵詞集合的場景中,關鍵詞的相對重要度或相對值利用啟發式函數中的一個或多個來確定。因此,示出較大的計數C、唯一計數UC和/或加權唯一計數WUC的關鍵詞,可能被視為其價值是比其他關鍵詞相對更加重要的。在一個實施例中,為關鍵詞分配的權重包括與在自有、內鏈和外鏈關鍵詞集合的每個集合中的該關鍵詞相關的啟發法總和。例如,如果詞“汽車”在自有頁面中出現5次, 在內鏈頁面中出現10次且在外鏈頁面中出現1次,則“汽車”被分配的權重為16(即, 5+10+1)。圖6描繪了一個適用于執行在此描述的功能的通用目的計算機的高級框圖。如圖6中所描繪的,系統600包含處理器元素602(例如,中央處理單元(CPU)),存儲器604, 例如隨機存取存儲器(RAM)和/或只讀存儲器(R0M),描述符號管理模塊(descriptor management module) 605,和多種輸入/輸出設備606 (例如,存儲設備,包括但不限制于,磁帶驅動器,軟盤驅動器,硬盤驅動器或光盤驅動器,接收器,發射器,揚聲器,顯示器,輸出端口,和用戶輸入設備(例如,鍵盤,小型鍵盤,鼠標及類似設備))。要注意的是,本發明可能會在軟件和/或軟件與硬件的組合體中被實施,例如,使用專用集成電路(ASIC),通用目的計算機或任何其他類似硬件設備。在一個實施例中,現有描述符號管理程序605可以被加載到存儲器604中,并被處理器602執行以實現上文所述功能。同樣地,本發明的描述符號管理程序605(包括相關的數據結構)可以被存儲到計算機可讀媒介或載體中,例如,RAM存儲器,磁或光驅動器或軟磁盤及類似設備。在此作為軟件方法被說明的一些步驟被預期能夠在硬件中實現,例如,作為與處理器配合從而執行各種方法步驟的電路。本發明的一部分可能被應用以作為計算機程序產品,其中,計算機指令,當其被計算機處理時,適應該計算機的操作,從而使本發明的方法和 /或技術被調用或被提供。調用本發明的方法的指令,可能被存儲在固定的或可移動的媒介中,通過廣播或其他信號承載媒質中的數據流被傳輸,和/或被存儲在根據該指令運行的計算設備的工作存儲器中。因此,一個實施例包括一個裝置,該裝置包括用于儲存軟件指令的存儲器和用于執行軟件指令的處理器,其中,當該軟件指令被該處理器執行時,觸發該裝置運行基于在此說明的多個實施例的、為網頁分配關鍵詞的方法。如在此所述的,為網頁分配關鍵詞是一個非常重要的問題,在用戶配置文件生成、 網址分類和過濾(如WebSense),搜索引擎(如谷歌),關鍵詞搜索(如AcKense)等的場景中尋找適用性。上述實施例為關鍵詞分配提供了新的方法、系統和設備,所述關鍵詞分配利用與多個網頁相關的數據、元數據等,從而為網頁分配了一個典型的關鍵詞集合。有利地,當僅僅頁面的元數據被分析而其內容被忽略時,該等實施例提供了一個相對輕量級權重(計算高效及存儲高效)的方法。由于關鍵詞不僅是從自有頁面中獲得,而且也從其“鄰居”頁面中獲得,因此本技術是可靠的。計算有效地實施例例如,根據本發明的一個實施例,凱利藍皮書(Kelley Blue Book )汽車評估網站頁面(www. kbb. com)被評估,從而生成了在下述表格1中以表格形式提供的關鍵詞分配數據。具體地,根據參照圖3-5的實施例來被處理的前10位(如,M = 10)的關鍵詞,參照下述表格1被提供。被多個處理過程使用的原始數據也在下述表格中被提供。在示例中使用的參數如下所示URL :www. kbb. com。權重自有=10 ;外鏈=2 ;內鏈=1。內鏈源雅虎(其也可為谷歌、必應(Bing)、服務提供商的爬蟲和/或其他搜索引擎或爬蟲)。排序結果的前10位關鍵詞(在本示例中超過239個),參照下表1被提供。
權利要求
1.一種為網頁分配關鍵詞的方法,包括識別與所述網頁相關的自有關鍵詞,所述自有關鍵詞包括從所述網頁中獲得的關鍵詞數據;識別與所述網頁相關的內鏈關鍵詞,所述內鏈關鍵詞包括從包含鏈接至所述網頁的鏈接的其他網頁中獲得的關鍵詞數據;識別與所述網頁相關的外鏈關鍵詞,所述外鏈關鍵詞包括從包含所述網頁鏈接至其他網頁的鏈接的所述其他網頁中獲得的關鍵詞數據;以及合并所述自有、內鏈和外鏈關鍵詞,以為所述網頁形成關鍵詞集合。
2.權利要求1的所述方法,還包括處理所述自有、內鏈和外鏈關鍵詞集合,以提供所述自有、內鏈和外鏈關鍵詞相應的有序排序集合。
3.權利要求2的所述方法,還包括利用一個或多個啟發式函數,確定所述自有、內鏈和外鏈關鍵詞集合中每個關鍵詞的相對重要度。
4.權利要求2的所述方法,還包括為所述自有、內鏈及外鏈關鍵詞分配權重;其中,所述合并步驟包括根據所述關鍵詞權重來合并所述自有、內鏈及外鏈關鍵詞。
5.權利要求1的所述方法,其中,被識別的關鍵詞數據包括來自標題字段、元關鍵詞字段和元描述字段之一個或多個的數據。
6.權利要求1的所述方法,還包括將任何在自有、內鏈、及外鏈關鍵詞列表中出現的,由第一分隔標識分隔的一個或多個詞,識別為潛在獨特關鍵詞;將代表有效短語的所述潛在獨特關鍵詞包含至為所述網頁設置的所述關鍵詞集合中, 其中,拼寫引擎、語法引擎和搜索引擎中的任一個被用于確定一個潛在獨特關鍵詞是否代表有效短語。
7.權利要求1的所述方法,還包括將任何在所述自有、內鏈、及外鏈關鍵詞列表中出現的N個相鄰的被空格分隔的詞,識別為潛在獨特關鍵詞,其中,N是一個大于一的整數;以及將代表有效短語的所述潛在獨特關鍵詞包含至為所述網頁設置的所述關鍵詞集合中。
8.權利要求3的所述方法,其中,所述內鏈和外鏈關鍵詞中的每個根據相應源網頁的排名來被分配權重,所述源網頁排名采用搜索引擎來被確定。
9.權利要求1的所述方法,其中,所述內鏈關鍵詞網頁通過采用網頁爬蟲和搜索引擎中的一個或多個來被識別。
10.設備,包括用于存儲軟件指令的存儲器和用于執行所述軟件指令的處理器,其中, 所述軟件指令,當被所述處理器執行時,觸發所述設備執行為網頁分配關鍵詞的方法,所述方法包括識別與所述網頁相關的自有關鍵詞,所述自有關鍵詞包括從所述網頁中獲得的關鍵詞數據;識別與所述網頁相關的內鏈關鍵詞,所述內鏈關鍵詞包括從包含鏈接至所述網頁的鏈接的其他網頁中獲得的關鍵詞數據;識別與所述網頁相關的外鏈關鍵詞,所述外鏈關鍵詞包括從包含所述網頁鏈接至其他網頁的鏈接的所述其他網頁中獲得的關鍵詞數據;合并所述自有、內鏈和外鏈關鍵詞,為所述網頁形成關鍵詞集合。
全文摘要
一種使用關鍵詞數據為網頁分配關鍵詞的方法、系統與設備,其中,該關鍵詞數據從網頁自身、包括指向該網頁的鏈接的網頁,以及,被在該網頁中的鏈接指向的網頁中獲得,其中,從多個網頁中獲得的該關鍵詞數據被處理,從而為該網頁提供相關的關鍵詞數據集合。
文檔編號G06F17/30GK102473190SQ201080034039
公開日2012年5月23日 申請日期2010年7月20日 優先權日2009年7月30日
發明者尹星煥, 沙立·慕克吉, 王利民, 穆拉里達蘭·薩姆帕思·柯迪阿蘭姆 申請人:阿爾卡特朗訊