專利名稱:根據結果與用戶查詢的相關性增強搜索索引的制作方法
技術領域:
本發明一般涉及搜索引擎和標引(indexing)方法。
背景技術:
搜索引擎眾所周知。它們是每個數據庫以及每個索引的一部分。數據庫一般把來自一個企業的信息保存到集合記錄(set records)中。索引是在多個位置找到的數據的逐條列舉。例如,Google.com和Altavista定期標引萬維網的網頁,以創建web索引。
Google.com已增強他們的搜索引擎,以便既查看網頁上的單詞,又查看指向該網頁的超鏈接(由其它人構成的)。出現在超鏈接(通常用藍色突出顯示)上的文本被稱為“錨點文本”,并和網頁一起保存在索引中。
現在參見圖1,圖1圖解說明了一小部分的簡化索引。在被標引的文檔或網頁中找到的每個術語列舉在第一列2中。與每個術語相關的是該術語的總的出現次數(列4),和出現在文檔中的何處(在標題中(列6),錨點文本中(列8)或者文本中(列10))。在列4、6、8或10的每個單元中,列舉文檔編號和出現次數。例如,下述被列舉為術語A的總的出現次數(doc#1,5000),(doc#4,6),(doc#67,90),(doc#1220,9)...
從而,術語A在文檔1中找到5000次,在文檔4中找到6次,在文檔67中找到90次,在文檔1220中找到9次。文檔1中的所有5000次出現在錨點文本(列8)中,而文檔4中的6次出現在兩個位置,4次出現在文本中,2次出現在標題中。
一些索引還列舉每個術語出現在文檔中的何處。從而,該項目可被列舉為(doc#,文檔編號內的字符)。這保持了初始文檔的結構,并且可在索引中形成另一列。索引還可包含術語如何出現在文本中的更詳細參考(例如黑體,加重,文本的顏色,文本的大小等)。每個這樣的參考可在索引中具有它自己的計數。
許多人已發現在網絡上查找東西容易,但是只有當用戶知道用于進行搜索的正確術語時才是如此。正確的術語是網頁的設計者所使用的那些術語。這使得找出非特定術語較為困難。例如,一個用戶到Amazon.com購買5歲男孩用的音樂玩具,但是該過程需要大量的搜索,才能找到所需的物品。只鍵入“music toy for 5 year old boy”產生供小男孩用的和關于小男孩的各種東西的列表,而不產生適當的玩具。但是,“Visit Our Musical Instruments Store”包括在該列表中。當被選擇時,顯現一批孩子的音樂玩具。這些音樂玩具都不合意,從而按下選擇“Other Musical Instruments”。該選擇較為有用,因為它包括“Marching Band Kit”,所需要的物品。
在另一例子中,用戶在查找“IR”(信息檢索)書。他在Google上搜索“IR book”。該搜索得到書籍的列表,但是列舉的書籍都不是其全名為Modern Information Retrieval的最新書籍。只有鍵入“moderninformation retrieval”時,才能檢索到最新的IR書。
發明內容
本發明的第一方面提供一種搜索系統,所述搜索系統包括一個搜索文檔的索引的搜索引擎和用至少一些用戶查詢增強索引的索引增強器。索引可包括在待標引的文檔中和至少在用于查找所述文檔的用戶查詢中找到的術語的列表,和至少列出這些術語在文檔和用戶查詢中的出現頻率的列表。
本發明的第二方面提供一種用至少一些用戶查詢增強文檔的索引的方法。所述方法由計算機程序實現,所述計算機程序包括由數據處理設備執行的程序代碼指令。
本發明的第三方面提供一種索引,所述索引包含在待標引的文檔中和至少在用于查找所述文檔的用戶查詢中找到的術語的列表,和這些術語在所述文檔和用戶查詢中的出現頻率的列表。
本發明的第四方面提供一種查詢索引,所述查詢索引包括在用戶查詢中找到的術語的列表,和所述術語被用于檢索的文檔的列表。
本發明的第五方面提供一種搜索系統,所述搜索系統包括發出用戶查詢的搜索客戶機,和搜索文檔的索引的搜索引擎,其中所述索引標引至少初始文本和描述與所述初始文本有關的某些內容的至少一個查詢。
在說明書的結束部分中特別指出和明確要求保護視為本發明的主題。但是,結合附圖,參考例證實施例的下述詳細說明,可關于操作組織和操作方法,以及發明目的,特征和優點,更好地理解本發明,其中圖1是一小部分的簡化的現有索引;圖2是圖解說明根據本發明構成和操作的搜索系統的方框圖;圖3是由圖2的系統產生的一小部分的簡化的增強索引;圖4是可用在圖2的系統中的簡化查詢索引。
要認識到為了舉例說明的簡明和清楚,附圖中所示的部件不必按比例繪制。例如,為了清楚起見,一些部件的尺寸可相對于其它部件被放大。此外,在認為適當的地方,附圖標記可在附圖中重復,以指示對應或者類似的部件。
具體實施例方式
在下面的詳細說明中,陳述了眾多的具體細節,以便徹底理解本發明。但是,本領域的技術人員明白可在沒有這些具體細節的情況下實踐本發明。在其它情況下,沒有說明公知的方法,過程和組件,以便不使本發明不分明。
申請人已認識到在用戶的查詢中存在和用戶如何看待他們正搜索的物品有關的大量信息。根據本發明的一個優選實施例,查詢單詞可被結合到索引中的信息中,從而增加描述物品(item)的方式。
例如在背景技術部分中,“Marching Band Toy”頁面將在索引中具有與之相關的單詞“music toy for 5 year old boy”,書籍ModernInformation Retrieval將具有與之相關的“IR book”,以致可能使用這些術語的其他搜索者會將這些物品視為其首次搜索的結果的一部分。
現在參見圖2,圖2圖解說明根據本發明構成和操作的搜索系統10。搜索系統10可包含搜索客戶機12,搜索引擎14和索引增強器16。
搜索客戶機12和搜索引擎14可以是處理多個文檔20的索引18的任何搜索客戶機和搜索引擎,例如本領域中已知的搜索客戶機和搜索引擎。搜索引擎12可把搜索請求發送給搜索引擎14,搜索引擎14又可以和搜索請求匹配的文檔20的排序列表的形式提供搜索結果。搜索客戶機12可隨后從列表中選擇文檔,或者可請求另一搜索。
標引的文檔可以是單個文檔、整個網站、不一定由一個人構成或者保存在相同域的一系列的鏈接網頁、或者具有指向其的網頁的所有部分(即,出現在指向該網頁的鏈接上的錨點文本,或者甚至環繞錨點文本并被認為引用(refer to)所指向的網頁的文本)的單個網頁。每個這樣的參考也可在索引中描述(例如,某一術語多少次表現為錨點文本)。
類似于任何索引,索引18可保存和每個術語相關的各種信息,例如其在文檔中的位置,其功能(例如,出現在標題中,出現在子標題中,作為主體文本,作為錨點文本等),它是否被強調(大寫,黑體,斜體,著色等),其出現頻率,出現之間的距離等。
根據本發明的一個優選實施例,索引增強器16可根據向搜索引擎14提交的用戶查詢,把術語和/或其它細節增加到索引18中,或者增加到任意文檔20中。索引增強器16可如下參考圖3所述那樣,或者按照任何其它方式,把術語增加到文檔本身中(作為元數據),或者增加到它們在索引18中的表示中。
例如,現在簡要參考的圖3圖解說明圖1的例證部分索引的例證增強形式,其中用黑體標記新的信息。增強的索引可具有和現有技術的索引相同的列2、4、6、8和10。它還具有保存查詢信息的列9。標題、錨點和文本列6、8和10中的信息沒有變化。變化的是總的出現次數列4中的信息。
例如,文檔1現在具有術語A的7000次出現,因為從用戶的查詢中增加了2000次。先前只具有術語A的文檔67現在還具有術語B的9000次出現,所有這9000次出現都在查詢中,如查詢列9中列舉的。多個單詞查詢被保存為完整的短語,或者可按照和文檔文本或與之相關的錨點文本相類似的方式保存近似信息。
當搜索引擎14可搜索增強的索引18時,它可使用增強的信息,根據與標引文檔相關的新的查詢術語輸出不同的搜索結果。從而,如果某人關于“toy for 5 year old”搜索增強索引,如背景技術中所述,那么搜索引擎14可返回對Marching Band Set的鏈接。類似地,如果某人關于“IR book”搜索增強索引,那么搜索引擎14可返回對所有書籍,包括最新的書籍的鏈接。
索引增強器16可包含用戶查詢處理器30,查詢排序器(ranker)32和索引增強器34。用戶查詢處理器30可分析由搜索引擎14產生的用戶的查詢和結果的日志文件。一些搜索引擎還記錄用戶的最終選擇,用戶查詢處理器30同樣可分析這些最終選擇。
用戶查詢處理器30可把用戶的查詢增加到文檔查詢索引40中,文檔查詢索引40可使每個查詢和它產生的文檔20相關聯。它還可使多搜索會話中的所有查詢與產生的所有文檔相關聯,或者只與每個查詢的排名在前的結果相關聯。另一方面,如果系統能夠告訴用戶注意哪些文檔作為搜索的結果,那么處理器30可使查詢只與查看或者點擊的文檔相關聯。可按照任何適當的方式(例如在預定的一段時間內,或者在登錄期內)定義會話。
在另一實施例中,如果用戶在查詢間瀏覽信息,而不是使用查詢的結果,那么查詢處理器30也可使查詢與瀏覽的文檔相關聯。只有當瀏覽的文檔可在初始索引中找到并且可用來把查詢加入它們之中時,這才是可行的。
可對在搜索會話結束時選擇的文檔給予額外的權重,因為該文檔通常是所需的內容。該文檔可與搜索的每個查詢相關聯,或者只與初始的搜索術語相關聯,因為初始的搜索術語通常是用戶的自然語言術語。另一方面或者另外,可對不同的查詢分配不同的權重,取決于它們與用戶的初始查詢有關的計時。
要認識到查詢術語可以是任何語言,而與初始文檔的語言無關。例如,如果用戶用德語查詢某物,什么也沒得到,隨后用英語查詢,找到某些內容,那么也可與英語文檔相關聯地增加德語單詞。
在一個備選實施例中,只有選擇的文檔和初始的搜索術語可被保存,因為選擇可能是對用戶的初始查詢的回答。另一方面,可要求用戶指出哪些搜索術語與他最終的選擇相關。
用戶查詢處理器30可和搜索引擎14一起工作,從而它可實時或半實時地接收搜索請求、結果和選擇。另一方面,如圖2中所示,用戶查詢處理器30可處理搜索引擎14產生的日志文件42。
可按照任何適當的方式組織文檔查詢索引40。一種例證方式可以是每個標引文檔具有一個查詢文檔44,每個查詢文檔44可列舉查詢和該特定查詢在日志文件中被使用了多少次。對于實時或半實時操作來說,查詢的頻率可被連續更新。類似地,當可以復查(review)多個日志文件42時,查詢的頻率可被更新。
現在簡要參考圖4,在圖中表示的另一實施例中,查詢索引40可列舉和文檔索引18中相同的術語,并且可列舉術語在與文檔相關的查詢中的出現頻率。
在適當的時間,可能希望增強文檔索引18。查詢排序器32可復查查詢索引40,以確定哪些查詢增加到文檔索引1中。可以采用任何適當的試探法。一種簡單的試探法是加入所述查詢,并利用它們的使用頻率對它們加權。其它試探法可涉及只選擇具有較大使用頻率的那些查詢。另一些試探法可包含消除任何“過時的”查詢。后一種試探法可要求用戶查詢處理器30把與每個查詢相關的時間戳記保存在索引40中。另一種試探法可涉及確定哪個術語“成熟”到足以充分并且永久地與文檔20相關聯。另一種試探法可涉及向術語分配權重,以致它們在索引18中表現為“不確定”,隨后把該權重附到術語上用于由搜索引擎14進行的排序計算。
索引增強器34類似于已知的索引更新器,因為它可復查索引和改變其中的信息。增強器34可獲得查詢排序器32產生的排序的查詢,并可在索引18中使它們與它們相關的文檔相關聯。索引增強器34可作為查詢列9或者按照任何其它適當的方式,把查詢增加到相關的錨點文本22中、增加到相關的文檔20中、增加到另外的文本部分24中。如果適宜的話,索引增強器34還可復查先前增加的查詢的時間戳記,更新公共查詢的任何時間戳記,和除去其時間戳記“陳舊”的任何查詢,這里所述“陳舊”可具有任何適當的定義。
索引增強器34可通過增加查詢和通過更新現有查詢的使用頻率和時間戳記,更新與每個文檔20相關聯的整個查詢列表。索引增強器34可按照任何適當的試探法對查詢排序。一種試探法可以是使用頻率。另一種可按照上面所述的時間戳記。
一旦索引增強器34完成,搜索引擎14就可用新的查詢搜索增強的索引18。
雖然這里舉例說明了本發明的一些特征,不過本領域的普通技術人員易于想到多種修改,替換,變化和等同物。于是,附加權利要求意圖覆蓋落入本發明精神范圍內的所有這種修改和變化。
權利要求
1.一種搜索系統,包括搜索文檔的索引的搜索引擎;和用至少一些用戶查詢增強所述索引的索引增強器。
2.按照權利要求1所述的系統,其中所述索引增強器包含使查詢與所述搜索引擎檢索的文檔相關聯的查詢處理器。
3.按照權利要求2所述的系統,其中所述查詢處理器包含確定哪些所述檢索的文檔與所述查詢相關聯的裝置,和確定哪些查詢與所述檢索的文檔相關聯的裝置。
4.按照權利要求3所述的系統,其中所述相關聯的查詢包含在會話中使用的一部分查詢。
5.按照權利要求3所述的系統,其中所述相關聯的查詢包含會話的第一查詢。
6.按照權利要求3所述的系統,其中所述確定的檢索文檔包含所述用戶選擇的文檔。
7.按照權利要求3所述的系統,其中所述確定的檢索文檔包含作為查詢的結果由所述用戶瀏覽的文檔。
8.按照權利要求3所述的系統,其中所述確定的檢索文檔包含從查詢產生的排序較高的文檔。
9.按照權利要求2所述的系統,其中所述用戶查詢的語言不同于所選文檔的語言。
10.按照權利要求1所述的系統,其中所述索引增強器包括對與文檔相關聯的查詢排序的查詢排序器。
11.按照權利要求10所述的系統,其中所述查詢排序器包括按照使用頻率對所述查詢排序的裝置。
12.按照權利要求10所述的系統,其中所述查詢排序器包括按照使用時間對所述查詢排序的裝置。
13.按照權利要求10所述的系統,其中所述索引增強器包含用至少一些所述排序的查詢增強所述索引的索引更新器。
14.按照權利要求13所述的系統,其中所述索引更新器包括濾出排序較低的查詢的裝置。
15.一種索引,包括在待標引的文檔中和至少在用于查找所述文檔的用戶查詢中找到的術語的列表;和至少列出這些術語在文檔和用戶查詢中的出現頻率的列表。
16.按照權利要求15所述的索引,其中所述用戶查詢包含在查找所選文檔的會話中使用的一部分查詢。
17.按照權利要求15所述的索引,其中所述用戶查詢包含查找所選文檔的會話的第一查詢。
18.按照權利要求15所述的索引,其中與查詢相關聯的文檔包含所述用戶選擇的文檔。
19.按照權利要求15所述的索引,其中與查詢相關聯的文檔包含作為查詢的結果由所述用戶瀏覽的文檔。
20.按照權利要求15所述的索引,其中與查詢相關聯的文檔包含從查詢產生的排序較高的文檔。
21.按照權利要求15所述的索引,其中所述用戶查詢的語言不同于所選文檔的語言。
22.一種查詢索引,包括在用戶查詢中找到的術語的列表;和所述術語被用于檢索的文檔的列表。
23.按照權利要求22所述的索引,其中所述用戶查詢包括在查找所選文檔的會話中使用的一部分查詢。
24.按照權利要求22所述的索引,其中所述用戶查詢包含查找所選文檔的會話的第一查詢。
25.按照權利要求22所述的索引,其中與查詢相關聯的文檔包含所述用戶選擇的文檔。
26.按照權利要求22所述的索引,其中與查詢相關聯的文檔包含作為查詢的結果由所述用戶瀏覽的文檔。
27.按照權利要求22所述的索引,其中與查詢相關聯的文檔包含從查詢產生的排序較高的文檔。
28.按照權利要求22所述的索引,其中所述用戶查詢的語言不同于所選文檔的語言。
29.一種搜索系統,所述搜索系統包括發出用戶查詢的搜索客戶機;和搜索文檔的索引的搜索引擎,其中所述索引標引至少初始文本和描述與所述初始文本有關的某些內容的至少一個查詢。
30.按照權利要求29所述的系統,其中所述索引包括在待標引的文檔中和至少在用于查找所述文檔的用戶查詢中找到的術語的列表;和至少列舉這些術語在所述文檔和用戶查詢中的出現頻率的列表。
31.按照權利要求30所述的系統,其中所述用戶查詢包括在查找所選文檔的會話中使用的一部分查詢。
32.按照權利要求30所述的系統,其中所述用戶查詢包含查找所選文檔的會話的第一查詢。
33.按照權利要求30所述的系統,其中與查詢相關聯的文檔包含所述用戶選擇的文檔。
34.按照權利要求30所述的系統,其中與查詢相關聯的文檔包含作為查詢的結果由所述用戶瀏覽的文檔。
35.按照權利要求30所述的系統,其中與查詢相關聯的文檔包含從查詢產生的排序較高的文檔。
36.按照權利要求30所述的系統,其中所述用戶查詢的語言不同于所選文檔的語言。
37.一種方法,包括用至少一些用戶查詢增強文檔的索引。
38.按照權利要求37所述的方法,其中所述增強包括使查詢與由搜索引擎檢索的文檔相關聯。
39.按照權利要求38所述的方法,其中所述增強包含確定哪些所述檢索的文檔與所述查詢相關聯,和確定哪些查詢與所述檢索的文檔相關聯。
40.按照權利要求38所述的方法,其中所述增強包括列舉查詢中的術語和該術語與文檔相關聯的次數。
41.按照權利要求38所述的方法,其中所述增強包括對與文檔相關聯的查詢排序。
42.按照權利要求41所述的方法,其中所述排序包括按照使用頻率對所述查詢排序。
43.按照權利要求41所述的方法,其中所述排序包括按照使用時間對所述查詢排序。
44.按照權利要求41所述的方法,其中所述增強包含用至少一些所述排序的查詢更新所述索引。
45.按照權利要求44所述的方法,其中所述更新包括濾出排序較低的查詢。
46.一種機器可讀的計算機產品,所述計算機產品包含可由機器執行,從而實現增強索引的方法步驟的指令的程序,所述方法包括用至少一些用戶查詢增強文檔的索引。
47.按照權利要求46所述的產品,其中所述增強包括使查詢與由搜索引擎檢索的文檔相關聯。
48.按照權利要求47所述的產品,其中所述增強包含確定哪些所述檢索的文檔與所述查詢相關聯,和確定哪些查詢與所述檢索的文檔相關聯。
49.按照權利要求47所述的產品,其中所述增強包括列舉查詢中的術語和該術語在查詢中的位置。
50.按照權利要求47所述的產品,其中所述增強包括列舉查詢中的術語和該術語與文檔相關聯的次數。
51.按照權利要求47所述的產品,其中所述增強包括對與文檔相關聯的查詢排序。
52.按照權利要求51所述的產品,其中所述排序包括按照使用頻率對所述查詢排序。
53.按照權利要求51所述的產品,其中所述排序包括按照使用時間對所述查詢排序。
54.按照權利要求51所述的產品,其中所述增強包含用至少一些所述排序的查詢更新所述索引。
55.按照權利要求54所述的產品,其中所述更新包括濾出排序較低的查詢。
全文摘要
搜索系統包括一個搜索文檔的索引的搜索引擎,和用至少一些用戶查詢增強索引的索引增強器。索引可包括在待標引的文檔中和至少在用于查找所述文檔的用戶查詢中找到的術語的列表,和至少列出這些術語在文檔和用戶查詢中的出現頻率的列表。
文檔編號G06F17/30GK1898667SQ200480038364
公開日2007年1月17日 申請日期2004年12月15日 優先權日2003年12月22日
發明者埃奈特·阿米塔 申請人:國際商業機器公司