專利名稱:跨Web圖傳播信號的制作方法
跨Web圖傳播信號
背景技術:
搜索引擎或搜索網站生成響應于捜索查詢的一組搜索結果。搜索引擎試圖選擇最敏感的文件、視頻、圖片和網頁以包括于搜索結果中。搜索引擎匹配查詢中的術語和與網頁相關聯的術語以確定網頁是否匹配捜索結果。搜索引擎然后可根據響應性來將匹配網頁排序并顯示最易于響應的捜索結果。
發明內容
提供此發明內容以便以簡化形式介紹概念的選擇,這些概念將在下面在具體實施方式
中進ー步描述。此發明內容不預期標識所要求保護的主題的關鍵特征或必要特征,也不預期孤立地用作確定所要求保護的主題的范圍的輔助。 本發明的實施例一般針對于跨web圖(網絡圖)傳播信號的方法。信號描述文件或另外地提供關于web圖中文件的有用信息。web圖為彼此相關的文件的集合。文件可通過鏈接、例如超鏈接而彼此相關。舉例而言,網頁可與通過超鏈接而連接的其他網頁相關。來自ー個文件的信息與相關文件的描述相關聯,在這個意義上,信號被傳播。該信息可能不宣接在目標文件中被發現。搜索引擎可使用這條信息來確定目標文件與捜索查詢相關。
將參看附圖在下文中詳細地描述本發明的實施例,在附圖中
圖I是適于實施本發明的實施例的示例性計算環境的方塊 圖2為根據本發明的實施例的適合于跨web圖傳播信號的計算系統架構的 圖3為說明根據本發明一實施例的文件之間關系的 圖4為說明根據本發明一實施例的文件索引內的內容的表;
圖5為說明根據本發明一實施例的在錨流(anchor stream)內的內容的表;
圖6為說明根據本發明一實施例的將來自相關文件的術語添加到文件的文件描述的方法的流程 圖7為說明根據本發明一實施例的將來自相關文件的術語與文件的文件描述相關聯的方法的流程圖;以及
圖8為說明根據本發明一實施例的使用錨流來呈現搜索結果的方法的流程圖,所述錨流通過在通過鏈接相關的文件之間傳播術語而生成。
具體實施例方式在本文中具體地描述了本發明實施例的主題以滿足法定要求。但是,描述本身不預期限制本專利的范圍。而是,發明人設想到所要求保護的主題也可結合其他現有或未來的技術以其他方式實施,以包括與本文所述的步驟不同的步驟或者相似于本文所述步驟的步驟組合。此外,盡管可在本文中使用術語“步驟”和/或“方塊”來表示所采用方法的不同要素,但這些術語不應理解為暗示本文所公開的各個步驟之間的任何特定次序,除非且除了當明確地描述了個別步驟的次序。本發明的實施例一般針對于跨web圖傳播信號的方法。信號描述文件或另外地提供關于web圖中文件的有用信息。web圖為彼此相關的文件的集合。文件可通過鏈接、例如超鏈接而彼此相關。舉例而言,網頁可與通過超鏈接連接的其他網頁相關。來自ー個文件的信息與相關文件的描述相關聯,在這個意義上,信號被傳播。該信息可能不在目標文件中被發現。搜索引擎可使用這條信息來確定目標文件與捜索查詢相關。因此,在一個實施例中,提供了一種或多種計算機可讀存儲介質,其具有實施于其上的計算機可執行的指令,計算機可執行的指令當由計算設備執行時執行將來自相關文件的術語添加到目標文件的文件描述的方法。該方法包括確定在相關文件中發現的術語不匹配過濾標準,其中匹配該過濾標準的術語未添加到目標文件的文件描述。目標文件的文件描述包括在與所述目標文件相關聯的多個信號流內的術語。該方法還包括計算該術語的相似性得分。相似性得分基于目標文件與相關文件之間的余弦相似性。該方法還包括基于相關文件的靜態排序來計算術語的來源可信度得分。靜態排序基于相關文件的獨立流行性得分。該方法還包括基于在鏈接中所用的術語與該術語之間的相似性來計算該術語 的確證得分。該方法還包括基于該術語當前是否與通過其他來源的文件描述相關聯來計算該術語的獨特性得分。該方法還包括基于相似性得分、來源可信度得分、確證得分和獨特性得分來計算該術語的術語得分。該方法還包括因為術語得分高于閾值得分,所以將術語與文件描述相關聯。在另ー實施例中,提供ー種將來自相關文件的術語與目標文件的文件描述相關聯的方法,其中相關文件與目標文件通過向前鏈接或向后鏈接關系而相關。文件描述用于確定目標文件是否應響應于查詢作為搜索結果而返回。該方法包括計算術語的相似性得分。相似性得分基于目標文件與相關文件之間的相似性。該方法還包括基于相關文件的靜態排序來計算術語的來源可信度得分。靜態排序基于相關文件的獨立流行性得分。該方法還包括基于用在從其他文件到相關文件的鏈接中的術語與該術語之間的相似性來計算該術語的確證得分。該方法還包括基于該術語當前是否與通過其他來源的文件描述相關聯來計算該術語的獨特性得分。該方法包括基于相似性得分、來源可信度得分、確證得分和獨特性得分的加權組合來計算該術語的術語得分。該方法還包括因為術語得分高于閾值得分,所以將該術語與文件描述相關聯。在一實施例中,提供了一種或多種計算機可讀存儲介質,其具有實施于其上的計算機可執行的指令,計算機可執行的指令當由計算設備執行時執行使用錨流呈現搜索結果的方法,所述錨流通過在由鏈接相關的文件之間傳播術語而生成。該方法包括接收由ー個或多個術語構成的捜索查詢。該方法還包括因為ー個或多個術語中的至少ー個術語與錨流中的目標文件相關聯,所以確定目標文件匹配捜索查詢。如在本申請中所用的,術語錨流指向前看的錨流或者向后看的錨流。錨流將不包括在目標文件中的術語與目標文件相關聯,因為這些術語包括在相關文件中且被確定與目標文件相關。相關文件鏈接到目標文件或者從目標文件鏈接。該方法還包括呈現所述目標文件為響應于搜索查詢的捜索結果。已經簡要地描述了本發明的實施例的概述,在下文中描述適用于實施本發明的實施例的示例性操作環境。示例性操作環境總體地參看附圖,且最初特別地參看圖1,示出了用于實施本發明的實施例的示例性操作環境且其一般地標注為計算設備100。計算設備100只是合適計算環境的ー個實例且不預期暗示對于本發明的使用或功能的范圍的任何限制。計算設備100也不應被理解為具有關于圖示的任一組件或組件組合的任何依賴或要求。本發明可以在由計算機或諸如服務器之類的其他機器執行的計算機代碼或機器可用指令(包括計算機可執行的指令,例如程序組件)的一般情形下描述。一般而言,包括例程,程序,對象,組件,數據結構等的程序組件指執行特定任務或實施特定抽象數據類型的代碼。本發明的實施例可以多種系統配置來實踐,包括通用計 算機、專業計算設備等。本發明的實施例也可在分布式計算環境中實踐,其中任務由通過通信網絡鏈接的遠程處理設備來執行。繼續參看圖1,計算設備100包括總線110,其直接地或間接地耦合以下設備存儲器112,一個或多個處理器114,ー個或多個呈現組件116,輸入/輸出(I/O)端ロ 118,I/O組件120和說明性電源122。總線110可表示一個或多個總線(諸如地址總線、數據總線或其組合)。盡管為了清楚起見,圖I的各種方塊以線示出,實際上描繪的各種組件并非如此清晰,且比喩性地,這些線將更準確地為灰色的且模糊的。舉例而言,可將諸如顯示設備之類的呈現組件考慮為I/O組件120t。而且,處理器具有存儲器。本發明人認識到,這是該技術的性質且重申圖I的圖解只是說明可結合本發明的一個或多個實施例使用的示例性計算設備。在諸如“工作姑”、“服務器”、“膝上型計算機”、“手持設備”等類別之間并無區別,因為這些全都在圖I的范圍內設想到且指“計算機”或“計算設備”。計算設備100通常包括多種計算機可讀存儲介質。舉例而言,計算機存儲介質可包括隨機存取存儲器(RAM)、只讀存儲器(ROM);電可擦除可編程只讀存儲器(EEPROM);閃存或其他存儲技術;致密盤只讀存儲器(CDROM)、數字通用盤(DVD)或其他光學或全息介質;磁盒、磁帶、磁盤存儲設備或其他磁性存儲設備;或可用于編碼所需信息且由計算設備100存取的任何其他介質。計算機可讀存儲介質可為非暫態的。存儲器112包括呈易失性和/或非易失性存儲器形式的計算機存儲介質。存儲器112是可移動的、不可移動的或其組合。示例性存儲器包括固態存儲器、硬驅動、光盤驅動等。計算設備100包括一個或多個處理器114,其從諸如總線110、存儲器112或I/O組件120的各種實體讀取數據。呈現組件(ー個或多個)116向用戶或其他設備呈現數據指示。示例性呈現組件116包括顯示設備、揚聲器、打印組件、振動組件等。I/O端ロ 118允許計算設備100在邏輯上耦合到包括I/O組件120的其他設備,其中的某些為內置的。說明性I/O組件120包括麥克風、碟形衛星天線、掃描儀、打印機、無線設備等。示例性系統架構
現轉至圖2,提供了根據本發明的實施例的適合于將來自相關文件的術語添加到目標文件的文件描述的示例性計算系統架構200。圖2中所示的計算系統架構200是ー個合適計算系統架構200的實例。計算系統架構200在相似于參考圖I所述的計算系統100的一個或多個計算設備上運行。計算系統架構200不應理解為具有有關本文所說明的任何單個模塊/組件或者模塊/組件的組合的任何依賴性或要求。計算系統架構200包括搜索站205。搜索站205 (替代地描述為搜索引擎)、搜索界面210、web圖數據存儲設備215、向前錨流組件220、向后錨流組件225、流存儲組件230和文件索引235。搜索站205提供對用戶提交的查詢做出響應的搜索結果。可通過導航至與搜索界面相關聯的URL而訪問搜索站205。搜索站205在用戶界面上顯示對搜索查詢做出響應的一個或多個搜索結果。搜索站205也可提供廣告和與搜索查詢有關的其他特征。搜索站205可包括網絡爬蟲(web crawler),其穿過ー個或多個計算機網絡且將遇到的文件編入目錄。這些文件可被編索引,以與搜索查詢進行比較。可在web圖中存儲文件之間的關系。文件之間的鏈接可為關系的基礎。搜索界面組件210生成界面,可由用戶通過該界面提交搜索查詢。搜索界面組件210還呈現捜索結果界面和/或其他捜索特征。捜索界面組件210可允許用戶設置偏好,修改用戶資料,登錄且另外地促進用戶與搜索站205之間的信息傳遞。在一實施例中,搜索界面210提供不同的類別或垂直(vertical),用戶可針對搜索進行選擇。舉例而言,捜索界面 210可允許用戶捜索旅游、購物信息、地圖、書籍或其他類別信息。通過選擇這些類別之一, 用戶可以限制捜索結果為符合所選類別的那些結果。web圖數據存儲設備215存儲ー個或多個web圖。web圖描述了文件之間的關系。這些關系通過鏈接而構建。如在全文中所用的那樣,被分析的個體文件被描述為目標文件。其他文件可鏈接到目標文件且目標文件可鏈接到其他文件。在某些情況下,個體文件可鏈接到目標文件且目標文件又可鏈接回到個體文件。在圖3中示出文件之間關系的視覺描
4
O現轉至圖3,在視覺上示出根據本發明的實施例的web圖300中的文件之間的關系。圖3說明了在目標文件310與其他文件之間的關系的簡單集合。文件的實際web圖可包含單個文件之間數千種關系。圖3中所示的簡單圖示不預期是限制的,僅為了說明在相關文件之間的關系的各方面。在一實施例中,web圖300描述了通過因特網公布的文件之間的關系。網頁是這樣的文件的實例。web圖300包括目標文件310。目標文件包括文本312、鏈接314、鏈接316和鏈接318。目標文件310可為網頁。鏈接314與鏈接本文“電子表格幫助”相關聯且鏈接到所鏈接的文件A 320。鏈接316與鏈接本文“數據庫幫助”相關聯且鏈接到所鏈接的文件B 322。鏈接318與鏈接本文“電子郵件幫助”相關聯且鏈接到所鏈接的文件C 324。鏈接314、316和318中的每ー個被描述為參考目標文件310向前的鏈接。目標文件310也通過向后鏈接與文件相關聯。向后鏈接可通過web圖300確定。目標文件310可以不包含指示一個或多個文件鏈接到目標文件310的信息。通過向后鏈接而鏈接到目標文件310的文件包括鏈接的文件D 326,鏈接的文件A 320和鏈接的文件E328。如可看出的那樣,單個文件(即,鏈接的文件A 320)可都通過向前鏈接和向后鏈接而鏈接到目標文件310。如將在隨后更詳細地描述,來自相關文件320、322和324的信息可與向前看的錨流內的目標文件310相關聯。來自相關文件326、320和328的信息可通過向后看的錨流而與目標文件310相關聯。返回至圖2,向前錨流組件220分析web圖且構建向前看的錨流。向前看的錨流包括多個術語。在錨流內的每個術語可與web圖內的一個或多個文件相關聯。向前錨流組件220使用多個標準來確定相關文件中的術語是否應與目標文件相關聯。同樣,相關文件為通過向前錨流的向前鏈接與目標文件相關聯的那些。用于確定術語是否應與目標文件相關聯的標準在圖6的描述內描述。向后錨流組件225構建向后看的錨流。除了來自通過向后關系與目標文件相關的文件的術語與目標文件相關聯,向后看的錨流相似于先前描述的向前看的錨流。用于將術語與基本文件相關聯的標準可相似于用于生成向前看的錨流的那些。在一個實施例中,在確定是否將術語與目標文件相關聯時給予不同標準的權重取決于構建向前看的錨流還是向后看的錨流而不同。流存儲組件230存儲向前看的錨流和向后看的錨流。如在本申請中所用的,術語錨流或者指向前看的錨流或者指向后看的錨流。附加的信號流可存儲于流存儲組件230中。額外信號流的實例包括內容信號流,標題詞信號流、元數據信號流、點擊信號流和垃圾信息排序(spam-rank)信號流。標題信號流將在文件標題中使用的術語與該文件相關聯。內容信號流將在文件內容內使用的術語與該文件相關聯。點擊流可將在搜索查詢內的詞與響應于被呈現而點擊的文件相關聯,呈現響應于捜索查詢。
文件索引235存儲關于包含于web圖內的文件的附加信息。在圖4中說明可包括于文件索引內的信息。現轉至圖4,說明了根據本發明的實施例的示例性文件索引400。示例性文件索引400包括文件名稱,文件I、文件2、文件3至文件N的列410。列420包括與文件相關聯的文件ID且列430包括與文件相關聯的文件地址或位置。這是簡化的文件索引且實際文件索引可包括附加信息,例如文件的
公開日期、作者和其他這樣的信息。現轉至圖5,說明了根據本發明的實施例的示例性信號流。信號流500包括術語510列和文件ID 520列。姆個術語與一個或多個文件ID相關聯。舉例而言,第一術語“電子表格” 512與第一組文件ID 522相關聯。第二術語514 “數據庫”與不同的多個文件ID524相關聯。第三術語516 “運動”與第三多個文件ID 526相關聯。搜索引擎可以使用信號流來匹配查詢中的術語與通過文件ID而與文件相關聯的術語。在一個實施例中,搜索引擎使用單個信號流來確定文件是否匹配查詢。換言之,在查詢內的詞語必須通過單個信號流與匹配文件相關聯。在另ー個實施例中,如果搜索查詢中的術語與信號流的ー個或多個中的文件相關聯,則確定文件與捜索查詢匹配。現轉至圖6,根據本發明的ー實施例,描述了流程圖,該流程圖說明了將來自相關文件的術語添加到目標文件的文件描述的方法600。如先前所述的那樣,目標文件為其他文件通過向前或向后鏈接與其相關的文件。文件之間的關系可通過分析包含文件的web圖來確定。在步驟610,確定在相關文件中發現的術語不匹配過濾標準。匹配過濾標準的術語不添加到文件描述。因此,確定在相關文件中發現的術語不匹配過濾標準這一事實意味著該術語克服了將與目標文件相關聯的第一個障礙。文件描述包括描述文件的多個信號。這些信號可存儲于ー個或多個信號流中。包括與該文件相關聯的術語的每個信號流可為文件描述的部分。在一個實施例中,過濾標準包括從信號流排除的常見詞語的列表。舉例而言,極為常見的詞語在確定目標文件的相關性方面可能沒用。從其他分析排除極其常見的詞語防止信號流充滿低價值術語。
在另ー實施例中,當目標文件鏈接到大于閾值數量的其他文件時,過濾標準從所有相關文件排除術語。當目標文件鏈接到大量其他文件時,在這些其他文件內發現的術語可能不向目標文件添加太多描述值。當確定出術語不匹配過濾標準時,進行進ー步分析來確定術語是否應添加到目標文件的文件描述。同樣,術語可通過將其包括于信號流中且將之與信號流內的目標文件相關聯而添加到目標文件的描述。在步驟620,對于該術語計算相似性得分。相似性得分可基于基本文件與相關文件之間的余弦相似性。余弦相似性通過計算描述術語或文件的向量之間的角的余弦來測量在術語或文件之間的相似性。當角小時,這指示向量指向相似方向且與向量相關聯的術語/文件相似。一般而言,文件之間的更大相似性暗示在相關文件中的術語更可能與目標文件相關。舉例而言,來自相似文件的術語可為描述目標文件中內容的另一方式。在步驟630,基于在到相關文件的鏈接中使用的術語與術語之間的相似性來計算該術語的確證得分。鏈接中的術語與該術語之間的強關系或相似性指示該術語與目標文件密切相關聯。在步驟640,基于術語當前是否與通過其他來源的文件描述相關聯來計算該術語的獨特性得分。其他來源可為其他信號流。在一個實施例中,當該術語在與該文件相關聯的所有信號流中獨特吋,那么該獨特性建議在文件描述中包括該術語。在文件描述中包括獨特術語可允許在目標文件另外地不與搜索查詢中的術語相關聯時將目標文件作為搜索結果而返回。在步驟650,基于相似性得分、來源可信度得分、確證得分和獨特性得分來計算術語的術語得分。在一個實施例中,在術語得分計算中,各種得分可不給予相等權重。在ー個實施例中,通過機器學習算法來確定給予不同得分的加權。機器學習算法可用人訓練數據來訓練,人訓練數據指示來自相關文件的特定術語是否實際上與目標文件相關。然后機器學習算法分析各種得分并將它們與產生術語與目標文件相關性的準確反映的加權相結合。在步驟660,因為術語得分高于閾值得分,所以將術語與文件描述相關聯。閾值得分可為靜態數。舉例而言,在I至10的規模,閾值得分可為8且術語得分高于8的任何術語然后與目標文件的文件描述相關聯。在另ー實施例中,閾值得分基于針對特定目標文件估計的術語總數是動態的。舉例而言,頂部20個術語可包括在目標文件的文件描述中。在此實例中,閾值得分將為排在第20個術語的得分。在此實例中,低于排在第20個術語的術語將不包括在文件描述中。現轉至圖7,描述了根據本發明的一實施例的將來自相關文件的術語與目標文件的文件描述相關聯的方法700。如先前所述的那樣,相關文件通過或者向前或者向后鏈接關系與目標文件相關。文件描述用于確定所述目標文件是否應響應于查詢而作為搜索結果返回。確定文件是否應響應于查詢而作為搜索結果的結果返回可為兩部分分析。第一部分可為確定目標文件是否匹配捜索查詢。分析的第二部分可為目標文件與捜索查詢的相關程度。不同的文件可比其他文件相關性更強。換言之,匹配捜索查詢的所有文件可能不只 是因為它們匹配捜索查詢而呈現。搜索引擎設法呈現最相關的的文件。文件描述可用于匹配確定和相關性確定這二者。
如先前所述的那樣,文件描述可包括多個信號流。特別地,信號流可包括向前錨定(anchoring)的信號流和向后錨定的信號流。向前錨定的信號流將來自向前相關文件的術語與目標文件相關聯。向后看錨流將來自鏈接到目標文件的文件的術語相關聯。如在本申請中所用的,術語錨流指向前看的錨流或者向后看的錨流。在步驟710,計算所述術語的相似性得分。相似性得分基于目標文件與鏈接文件之間的相似性。可通過計算這些文件的余弦相似性來確定這些文件之間的相似性。如先前所述的那樣,文件之間的相似性建議該術語應包括在文件描述中。在步驟720,基于相關文件的靜態排序來計算術語的來源可信度得分。靜態排序基于相關文件的獨立流行性得分。可基于鏈接到相關文件的其他頁的數量來生成相關文件的流行性得分。靜態排序和流行性得分也可基于到其他文件的通信量或 其他因素。在步驟730,基于在從其他文件到所鏈接到的文件的鏈接中使用的術語與該術語之間的相似性來計算該術語的確證得分。從其他文件到鏈接到的文件的鏈接涵蓋在目標文件上發現的到其他文件的鏈接和在其他文件上發現的到目標文件的鏈接。舉例而言,如果術語幫助在鏈接中使用且被評價的術語為“輔助”,那么這些術語之間的潛在相似性可得到高確證得分。在此用途中,高確證得分指示術語應包括在目標文件的描述中。在步驟740,基于術語當前是否與通過其他來源的文件描述相關聯來計算該術語的獨特性得分。參看圖6,先前已描述了獨特性得分。在步驟750,基于相似性得分、來源可信度得分、確證得分和獨特性得分的加權組合來計算該術語的術語得分。在步驟760,因為術語得分高于閾值得分,所以將該術語與文件描述相關聯。現轉至圖8,描述了根據本發明一實施例的使用錨流來呈現搜索結果的方法800,通過在通過鏈接相關的文件之間傳播術語而生成錨流。如先前所述的那樣,術語錨流指向前看的錨流或者向后看的錨流。在步驟810,接收搜索查詢。搜索查詢由ー個或多個術語構成。捜索查詢可通過搜索界面接收,捜索界面由搜索引擎通過萬維網呈現。在步驟820,因為搜索查詢中的一個或多個術語中的至少ー個術語與錨流中的目標文件相關聯,所以確定目標文件匹配捜索查詢。錨流可為向前看的錨流或者向后看的錨流。在一個實施例中,確定目標文件匹配捜索查詢所需的詞的閾值量全都通過錨流與目標文件相關聯。在另ー實施例中,確定目標文件匹配搜索查詢所需的至少ー個詞語通過錨流與目標文件相關聯且確定目標文件匹配搜索查詢所需的其他詞語與附加信號流中的目標文件相關聯。換言之,信號流可孤立地用于確定文件匹配捜索查詢或者它們可彼此組合使用。在一個實施例中,因為術語不包括在目標文件中且使用各種標準被確定與目標文件相關,所以錨流將術語與目標文件相關聯。如先前所述的那樣,相關文件通過到目標文件的鏈接或來自目標文件的鏈接而相關。在步驟830,呈現目標文件為響應于捜索查詢的捜索結果。說明性地而非限制性地描述了本發明的實施例。應了解某些特征和子組合是有用的且可在不參考其他特征和子組合的情況下采用。這由權利要求設想到且在權利要求的范圍內。
權利要求
1.ー種將來自相關文件的術語添加到目標文件的文件描述的方法,該方法包括 確定610在所述相關文件中發現的術語不匹配過濾標準,其中匹配所述過濾標準的術語未添加到目標文件的文件描述,其中所述目標文件的文件描述包括在與所述目標文件相關聯的多個信號流內的術語; 計算620所述術語的相似性得分,其中所述相似性得分基于所述目標文件與所述相關文件之間的余弦相似性; 基于所述相關文件的靜態排序來計算630所述術語的來源可信度得分,其中所述靜態排序基于所述相關文件的獨立流行性得分; 基于在鏈接中使用的術語與所述術語之間的相似性來計算640所述術語的確證得分;基于所述術語當前是否與通過其他來源的文件描述相關聯來計算650所述術語的獨特性得分; 基于所述相似性得分、來源可信度得分、所述確證得分和所述獨特性得分來計算660所述術語的術語得分;以及 因為所述術語得分高于閾值得分,所以將所述術語與所述文件描述相關聯670。
2.根據權利要求I所述的方法,其中,所述過濾標準包括被排除的常見詞語的列表。
3.根據權利要求I所述的方法,其中,當所述目標文件鏈接到大于閾值數量的其他文件吋,所述過濾標準從所有相關文件排除術語。
4.根據權利要求I所述的方法,其中,所述相似性得分也基于所述術語與在從文件到所述目標文件的鏈接中使用的一個或多個術語之間的相似性。
5.根據權利要求I所述的方法,其中,所述靜態排序基于所述相關文件的垃圾信息得分。
6.根據權利要求I所述的方法,其中,計算所述術語的術語得分還包括針對所述相似性得分、所述來源可信度得分、所述確證得分和所述獨特性得分中的每ー個使用加權因子。
7.根據權利要求I所述的方法,其中,通過對針對到文件的鏈接中的多個術語的每ー個計算的術語得分排序來確定所述閾值得分。
8.一種用于將來自相關文件的術語與目標文件的文件描述相關聯的方法,其中所述相關文件通過或者向前或者向后鏈接關系而與所述目標文件相關,且其中所述文件描述用于確定所述目標文件是否應響應于查詢作為搜索結果而返回,所述方法包括 計算710術語的相似性得分,其中所述相似性得分基于所述目標文件與相關文件之間的相似性; 基于所述相關文件的靜態排序來計算720所述術語的來源可信度得分,其中所述靜態排序基于所述相關文件的獨立流行性得分; 基于在從其他文件到所述相關文件的鏈接中使用的術語與所述術語之間的相似性來計算730所述術語的確證得分; 基于所述術語當前是否與通過其他來源的文件描述相關聯來計算740所述術語的獨特性得分; 基于所述相似性得分、來源可信度得分、所述確證得分和所述獨特性得分的加權組合來計算750所述術語的術語得分;以及 因為所述術語得分高于閾值得分,所以將所述術語與所述文件描述相關聯760。
9.根據權利要求8所述的方法,其中所述方法還包括確定在所述相關文件中發現的術語不匹配過濾標準,其中匹配所述過濾標準的術語未添加到所述文件描述,其中所述過濾標準包括被排除的常見詞語的列表。
10.根據權利要求8所述的方法,其中所述方法還包括使用機器學習算法生成所述術語得分的權重。
11.根據權利要求8所述的方法,其中使用余弦相似性來計算所述相似性得分。
12.根據權利要求8所述的方法,其中計算所述術語的術語得分還包括針對所述相似性得分、所述來源可信度得分、所述確證得分和所述獨特性得分中的每ー個使用加權因子。
13.ー種使用錨流呈現搜索結果的方法,所述錨流通過在由鏈接相關的文件之間傳播術語而生成,所述方法包括 接收810由ー個或多個術語構成的搜索查詢; 因為所述一個或多個術語中的至少ー個術語與錨流中的目標文件相關聯,所以確定820目標文件匹配所述搜索查詢;其中因為所述術語包括在相關文件中且被確定與所述目標文件相關,所以所述錨流將未包括在所述目標文件中的術語與所述目標文件相關聯,且其中所述相關文件鏈接到所述目標文件或者從所述目標文件鏈接;以及 呈現830所述目標文件為響應于所述搜索查詢的搜索結果。
14.根據權利要求13所述的方法,其中,因為所述一個或多個術語中的至少ー個術語與所述錨流中的目標文件相關聯而確定目標文件匹配所述搜索查詢還包括確定所述ー個或多個術語中的至少ー個術語與內容流中的所述目標文件相關聯,其中所述內容流將在所述目標文件的內容中發現的術語與所述目標文件相關聯。
15.根據權利要求13所述的方法,其中,所述錨流是向前看的錨流,所述向前看的錨流將來自從所述目標文件鏈接的不同文件的術語與所述目標文件相關聯。
16.一種或多種計算機可讀存儲介質,其具有實施于其上的計算機可執行的指令,所述計算機可執行的指令當由計算設備執行時執行權利要求1-15中任ー項的方法。
全文摘要
用于跨web圖傳播信號的方法的方法、系統和計算機可讀介質。信號描述文件或另外地提供關于web圖中文件的有用信息。web圖為通過鏈接、例如超鏈接而彼此相關的文件的集合。來自相關頁的信息與目標頁相關聯,即使該信息可能未直接在目標頁中找到,在這個意義上,信號被傳播。然后該信息可以被搜索引擎用來確定特定頁與搜索查詢相關。
文檔編號G06F17/30GK102693264SQ20121003789
公開日2012年9月26日 申請日期2012年2月20日 優先權日2011年2月18日
發明者B.米哈, H.D.M.杜亞特, S.穆圖克里什南, T.H.吉布斯, T.W.芬利, 戚德虎 申請人:微軟公司