專利名稱:信息檢索系統及其信息檢索方法
技術領域:
本發明涉及一種信息檢索系統和用于該系統的信息檢索方法,更具體地涉及檢索公開具體內容的網站的方法。
在這種情況下,因為檢索過程利用搜索引擎中輸入的關鍵字進行,用戶選擇關鍵字和規定檢索條件是有效檢索的關鍵點。利用用戶輸入關鍵字的檢索方法在日本專利2001-52014中公開。
但是,因為在檢索方法中使用用戶輸入的關鍵字,檢索結果依賴用戶選擇的關鍵字,所以存在這樣一個問題,即每個用戶獲得的檢索結果和獲得信息的步驟在每種情況下都不同。
根據本發明的信息檢索系統是一種檢索由超文本文件所表示內容的記錄網站的信息檢索系統,包括提取裝置,用于從外部規定的超文本文件中提取關鍵字;和檢索裝置,用于利用提取裝置提取的關鍵字檢索內容的記錄網站。
根據本發明的信息檢索方法是一種檢索由超文本文件所表示內容的記錄站點的信息檢索方法,包括從外部規定的超文本文件中提取關鍵字的步驟;和利用提取的關鍵字檢索內容的記錄網站的步驟。
也就是說,根據本發明的網站檢索系統(信息檢索系統)可以輕易地檢索到類似于用戶指定網站的網站。
在根據本發明的網站檢索系統中,用戶可以檢索到類似于指定網站的網站而不必輸入關鍵字。因此,可以不必煩惱關鍵字選擇的執行檢索過程。
根據本發明,可以省略輸入關鍵字的步驟,從而能夠利用裝有瀏覽器的小移動信息終端(例如,PDA(個人數字助理)等等)和手持電話機等等更容易地執行檢索,這些終端通常對輸入字符的裝置具有嚴格的限制。
在根據本發明的網站檢索系統中,關鍵字可以自動地從規定網站的HTML文件提取,控制信息也可以提取。在這種情況下,不僅可以考慮規定網站的內容,還可以考慮包含在用于規定網站的HTML(超文本標記語言)的控制信息,例如,標記的相似性等等。因此,相比較只使用關鍵字的情況,可以檢索到更相似的網站,從而更容易地執行檢索過程。
然后,本發明的實施方式將在下文參照附圖描述。
圖1是根據本發明第一個實施方式的網站檢索系統配置的方框圖。在圖1中,根據本發明第一實施方式的網站檢索系統包括用戶終端1和檢索服務器2,用戶終端1和檢索服務器2分別連接到互聯網100。網絡(WWW(全球網)的縮寫)網站(也稱為WWW服務器)6連接到互聯網100。
用戶終端1包括計算機,網絡瀏覽器10可以作為互聯網用戶(以下簡稱為用戶)的接口工作。網絡瀏覽器10主要提供用戶接口11的功能。用戶接口11包括超級文本標志語言(超文本標記語言)顯示裝置12、字符輸入裝置13、和檢索方法規定裝置14。用戶終端1不局限于個人計算機,而可以是裝載有瀏覽器的小的移動信息終端(例如,PDA(個人數字助理)等等)和手持電話機等等,只要可以操作網絡瀏覽器10。
URL(通用資源定位器)利用字符輸入裝置13輸入到網絡瀏覽器10。檢索方法規定裝置14提供一用戶接口,來使用根據本實施方式的檢索方法。
檢索服務器2處理來自網絡瀏覽器10的請求。檢索服務器2是一網站,例如裝有搜索引擎的門戶網站,包括相似網站檢索裝置3和索引表產生裝置4。
相似網站檢索裝置3提供實現根據本實施方式檢索方法的裝置,包括HTML文件獲得裝置31、還原密鑰提取裝置、檢索結果存儲裝置32和檢索結果顯示裝置33。
HTML文件獲得裝置31獲得來自互聯網100存在的網站6的HTML文件。HTML文件獲得裝置31在執行相似網站檢索時獲得URL規定的HTML文件,當索引表產生裝置4產生索引表時,利用機器人等等全面收集來自互聯網100網站6的HTML文件。
還原密鑰提取裝置5分析用戶指定URL所示HTML文件的內容和提取關鍵字作為還原密鑰。提取關鍵字的方法可以是由關鍵字提取裝置利用形態分析從HTML文件提取詞素(詞性)的方法,詞素可以是關鍵字,例如名詞等等。
當一名詞從HTML文件提取為關鍵字,通常考慮從HTML文件提取多個關鍵字。當提取多個關鍵字時,關鍵字集被用作還原密鑰。
還原密鑰提取裝置5包括檢測包含在HTML文件中的控制信息的裝置。根據本實施方式,它包括HTML標記信息提取裝置52,作為檢測控制信息的裝置。關于HTML標記的信息由HTML標記信息提取裝置52提取,HTML文件所用每個HTML標記的特征也被提取。
檢索結果存儲裝置32根據還原密鑰提取裝置5提取的還原密鑰檢索索引表,和存儲器檢索中獲得的檢索結果。檢索結果顯示裝置3 3改造保存在檢索結果存儲裝置32的檢索結果,以使用戶可以很容易看到檢索結果,然后輸出改造后的結果。當存在多個檢索結果時,多個HTML文件由計分裝置41排列,因此文件可以按順序顯示。當網絡瀏覽器10被用作顯示接口時,提供從HTML文件的檢索服務器輸出響應的功能。
索引表產生裝置4包括與相似網站檢索裝置3共享的還原密鑰提取裝置5,計分計算裝置41用于計算所提取HTML標記和關鍵字的分數,索引表存儲裝置42存儲已提取的索引和產生要求實現相似網站檢索的索引表。
作為相似網站檢索裝置3,還原密鑰提取裝置5提取HTML標記和關鍵字作為還原密鑰。計分裝置41計算表示已提取HTML標記和關鍵字優先級的分數和分別為HTML標記和關鍵字分配權值。也就是說,執行這樣的計算,即關鍵字和HTML標記越重要,分數越高,關鍵字和HTML標記越不重要,分配的分數越低。根據本實施方式,不規定計分方法。
分配給關鍵字和HTML標記的分數記錄在保存在存儲裝置42的索引表中。當執行檢索時,相似網站檢索裝置3參照索引表。
圖2是根據本發明第一個實施方式的產生網站檢索系統的索引表的過程流程圖。根據本發明第一實施方式的產生網站檢索系統中的索引表的處理將在下文參照圖1和2描述。為了實現根據本實施方式的檢索方法,應當預先產生索引表。
首先,HTML文件獲得裝置31全面收集要檢索網站6中的HTML文件(圖2的步驟S1)。HTML文件由HTML文件收集機器人收集,以便收集互聯網100中所有的文件。但是,在本實施方式中,不規定收集HTML文件的范圍。
還原密鑰提取裝置5的HTML標記信息提取裝置52從HTML文件獲得裝置31收集的每個HTML文件提取HTML標記,和獲得正使用的的標記信息(圖2所示的S3)。HTML標記利用腳本語言,例如Perl(實際提取和報告語言)等等提取。
然后,還原密鑰提取裝置5的關鍵字提取裝置51從HTML文件提取關鍵字作為還原密鑰(圖2所示的步驟S4)。在提取關鍵字中,通過自然語言過程,例如形態分析從HTML文件中提取詞素(一部分語音),例如名詞(詞組)等等。
因為一具體HTML標記規定的字符串,例如由充當文件摘要信息的TITLE標記封閉的字符串、顯示為用規定加強的大字符的字符串可以是重要的關鍵字,這種字符串可以提取為關鍵字。
計分裝置41為在步驟S3和S4提取的HTML標記和關鍵字計分,從提取的HTML標記和關鍵字選擇用作重要索引的還原密鑰的HTML標記和關鍵字(圖2所示的步驟S5)。因為在提取的HTML標記或與HTML文件內容無關的標記中存在調整布局和風格的標記,對已提取HTML標記和關鍵字執行這樣的處理,即HTML標記和關鍵字越重要,分配的分數越高,HTML標記和關鍵字越不重要,分配的分數越低。
在步驟S3和S4提取的HTML標記和關鍵字清楚地反映了它們所提取的HTML文件內容,當檢索HTML文件時可以是索引。此后,該索引表示從HTML文件提取的HTML標記和關鍵字。
索引表產生裝置4由在索引表中記錄在步驟S3到S5的過程中獲得的索引和HTML文件(圖2所示的步驟S6)之間的對應關系更新索引表,和對所有收集的HTML文件執行步驟S3到S5的過程(圖2所示的步驟S7)。
由HTML文件獲得裝置31收集的所有HTML文件在一循環過程重復上述的過程來處理。此外,已更新的索引表最終保存在索引表存儲裝置42。
作為本發明第一實施方式的變型,計分裝置41計算由還原密鑰提取裝置5提取的HTML標記和關鍵字的分數,而是只計算關鍵字的分數。在這種情況下,計分裝置41計算表示已提取關鍵字優先級的分數,和向每個關鍵字分配一權值。
也就是說,執行這樣的計算,即關鍵字越重要,分配的分數越高,關鍵字越不重要,分配的分數越低。提取的關鍵字清楚地反映它們所提取的HTML文件的內容和當檢索到HTML文件時可以是一個索引。該索引表示從HTML文件提取的關鍵字。
圖3是根據本發明第一個實施方式的網站檢索系統的相似網站檢索過程的流程圖。圖4表示圖1所示網絡瀏覽器10的顯示屏。圖5表示在圖4所示網絡瀏覽器10的顯示屏上URL的輸入的例子。參見圖1、圖3到圖5,根據本發明第一實施方式的網站檢索系統的相似網站檢索過程描述如下。在此過程中,從每個HTML文件提取的HTML標記和關鍵字被用作索引。
首先,假設用戶利用網絡瀏覽器10看到互聯網100的網站6(圖3所示的步驟S11)。此時,如果用戶發現最喜愛的網站,和執行相似網站檢索,以便檢索到類似于最喜愛網站的網站(圖3所示的步驟S12)。
下文描述的是當用戶喜歡公告牌系統(BBS)時執行的相似網站檢索,其中例如進行新產品,例如移動電話機的討論和試圖查找相似的網站。
當執行相似網站檢索時,網絡瀏覽器10將用戶規定的URL(最喜愛網站的URL)傳送到檢索服務器2(圖3所示的步驟S13)。此時,網絡瀏覽器10有必要預先存入要傳送請求的檢索服務器2的URL。
在根據本實施方式的網絡瀏覽器10中,假定已經合并插入式相似網站檢索。當合并插入時,例如如圖4所示,假設例如“執行相似網站檢索”的菜單可以增加到網絡瀏覽器10編輯菜單的列表。
通過選擇和執行“執行相似網站檢索”菜單,用戶指定的URL從網絡瀏覽器10傳送到檢索服務器2。當合并用于相似網站檢索的時,網絡瀏覽器10傳送HTTP(超文本傳輸協議)到檢索服務器2(獲得http//′IP address of retrieval server/cgi-bin/retrieval?url′URL to be retrieved′HTTP/1.0)如圖5所示。
一從網絡瀏覽器10收到圖5所示的請求,檢索服務器2由HTML文件獲得裝置31獲得由“要檢索的URL”規定的HTML文件(圖3所示的步驟S14)。
當檢索服務器2獲得指定的HTML文件時,它由HTML標記信息提取裝置52從獲得的HTML文件中提取HTML標記,和由關鍵字提取裝置提取的關鍵字(圖3所示的步驟S15)。
也就是說,HTML標記和關鍵字從用戶正在瀏覽的′討論移動電話機公告牌′的HTML文件中提取。在′討論移動電話機的公告牌′的HTML文件的情況下,期待提取的關鍵字是來自HTML標記的TITLE標記中的字符串的′公告牌′、來自HTML文件的內容的′新產品名稱′、′通信公司名稱′、′制造商名稱′、′價格′、′價值′、′功能′、′振鈴音′、′液晶′、′郵件′等等。
提取的關鍵字越多,可以提取的HTML文件的內容和主題(在這種情況下,用于討論移動電話機的公告牌)越多。利用關鍵字集作為還原密鑰,檢索可以開始,用于討論相似主題的BBS網站可以檢索。
保存在索引表存儲裝置42的索引表利用從HTML文件提取的HTML標記和關鍵字的還原密鑰檢索(圖3所示的步驟S16)。還原密鑰找到(應用)的檢索結果保存在檢索結果存儲裝置中。檢索結果是否找到(應用于)還原密鑰由還原密鑰是不是索引表中的索引確定。
例如,當′公告牌′、新產品名稱′、′通信公司名稱′、′制造商名稱′、′價格′、′價值′、′功能′、′令牌環′、′液晶′、′郵件′等等從′用于討論移動電話機′的HTML文件中提取為還原密鑰,它校驗該還原密鑰是否已經記錄為索引表中的索引。
如果當參照檢索結果存儲裝置32時沒有檢索結果(圖3所示的步驟S17),然后′沒有相似網站′顯示在網絡瀏覽器10上(圖3所示的步驟S19)。
如果檢索結果存儲裝置32中有一個以上的檢索結果(圖3所示的步驟S17),則檢索結果顯示裝置33向網絡瀏覽器10傳送檢索結果,該檢索結果顯示在上面(圖3所示的步驟S18)。
如果存在多個檢索結果,根據任何參考執行計分,檢索結果可以從最高分依次顯示。例如,計算可以這樣執行,即包含越多標記和關鍵字作為還原密鑰的檢索結果(相似網站)分數越高,此結果可以在檢索結果顯示裝置33顯示的越高。但是,根據本實施方式,不規定計分方法。
在上述的操作中,相似網站檢索可以在根據本實施方式的網站檢索系統中執行。
因此,因為用戶可以檢索到與用戶正在瀏覽的網站內容相似的網站(相似網站),所以可以輕易檢索到最喜愛的相似網站。
此外,因為相似網站檢索可以不必輸入任何關鍵字執行,所以當用戶請求檢索相似網站時用戶可以立即執行相似網站檢索。
另外,因為關鍵字由檢索服務器2自動提取,可以省略輸入關鍵字的麻煩操作,根據網站內容可以提取多個關鍵字。
另外,不僅自動提取關鍵字,而且考慮到用于網站的標記信息。可以檢索到更多的相似網站。
在上述本發明的實施方式中,標記信息提取為控制信息,但控制信息不局限于標記信息。例如可以提取表示字符位置或特征的控制信息。
圖6表示根據本發明第二實施方式的網站檢索系統中顯示屏的例子。在本發明的第一實施方式中,檢索到與正在顯示的網站內容相似的網站。但是,根據第二實施方式,如圖6所示,識別出錨點顯示(anchor-displayed)鏈接,根據鏈接目標的URL執行相似網站檢索。
圖7是根據本發明第二實施方式的網站檢索系統的操作流程圖。圖8表示根據本發明第二實施方式的網站檢索系統中顯示屏的另一個例子。參見圖6到8,描述了根據本發明第二實施方式的網站檢索系統的操作。根據本發明第二實施方式的網站檢索系統在結構上與圖1所示的網站檢索系統相同。
根據第二實施方式,假設附圖中未示出的鼠標被用作規定鏈接的指示設備,同時用戶利用網絡瀏覽器10觀看網站。當用戶利用網絡瀏覽器10瀏覽網站時,顯示在網絡瀏覽器10上的鼠標指針利用鼠標在網絡瀏覽器10上移動(圖7所示的步驟S21)。
此時,當不單擊鼠標右鍵時(圖7所示的步驟S22),鼠標指針繼續在網絡瀏覽器上移動直到按下鼠標右鍵。當單擊鼠標右鍵時(圖7所示的步驟S22),確定鼠標指針是否指向錨點顯示鏈接(圖7所示的步驟S23)。
如果鼠標指針指向錨點顯示鏈接,則圖6所示的′利用鏈接目標的URL執行相似網站檢索′通過按右鍵顯示在菜單上(圖7所示的步驟S27)。
當用戶選擇和確定′利用鏈接目標的URL執行相似網站檢索′時(圖7所示的步驟S28),相似網站檢索利用鏈接目標的URL執行(圖7所示的步驟S29)。
如果鼠標指針沒有指向錨點顯示鏈接,那就是說,如果它指向除錨點顯示鏈接之外的區域,則圖8所示的′執行相似網站檢索′通過按右鍵顯示在菜單上(圖7所示的步驟S24)。
當用戶選擇和確定′執行相似網站檢索′時(圖7所示的步驟S25),利用正在顯示的網站URL執行相似網站檢索(圖7所示的步驟S26)。
相似網站檢索方法與根據本發明第一實施方式的網站檢索系統方法相同。如果響應來自于檢索服務器2,則檢索結果顯示在網絡瀏覽器10上(圖7所示的步驟S30)。
圖9表示根據本發明第三實施方式的網站檢索系統中顯示屏的例子。在根據本發明第三實施方式的網站檢索系統的檢索方法中,當執行檢索時規定URL。因此,如果URL可以規定,則相似網站檢索可以立即執行。
因此,如圖9所示,當用戶選擇記錄在網絡瀏覽器10的書簽上的URL時,相似網站檢索能力可以通過按鼠標右鍵執行。相似網站檢索方法與根據本發明第一實施方式的網站檢索系統方法相同。
如上所述,本發明可以得到輕易發現類似于最喜愛網站的效果,而與每個用戶或在獲得信息的步驟中獲得的檢索結果沒有差別,即利用在網站檢索系統中從外部規定網站的HTML文件提取的關鍵字檢索網站,該網站檢索系統用于檢索公開了HTML文件所表示內容的網站。
權利要求
1.一種檢索由超文本文件所表示內容的記錄網站的信息檢索系統,包括提取裝置,用于從外部規定的超文本文件提取關鍵字;和檢索裝置,用于利用所述提取裝置提取的所述關鍵字檢索內容的記錄網站。
2.根據權利要求1的信息檢索系統,其中所述提取裝置從由包含在所述外部規定的超文本文件中的預定控制信息規定的字符串提取所述關鍵字。
3.根據權利要求1的信息檢索系統,進一步包括計算裝置,用于計算表示由所述提取裝置提取的所述關鍵字優先級的分數。
4.根據權利要求3的信息檢索系統,其中所述計算裝置從通過分配所述分數和分配預定權值到預定控制信息的所述提取關鍵字以及從控制信息規定的字符串提取的所述關鍵字選擇用作還原密鑰的關鍵字。
5.根據權利要求4的信息檢索系統,進一步包括存儲裝置,用于在組合所述關鍵字與被提取所述關鍵字的超文本文件之后存儲控制信息和由所述計算裝置計算所述分數的所述關鍵字,其中所述檢索裝置通過搜索所述存儲裝置檢索內容的記錄網站。
6.根據權利要求2的信息檢索系統,其中所述提取裝置提取包含在所述超文本文件的標記信息作為所述控制信息,和從標記信息規定的字符串提取所述關鍵字。
7.一種檢索由超文本文件所表示內容的記錄網站的信息檢索方法,包括步驟從外部規定的超文本文件中提取關鍵字;和利用所述提取的關鍵字檢索內容的記錄網站。
8.根據權利要求7的信息檢索方法,進一步包括計算表示所述提取關鍵字和包含在所述外部規定超文本文件的標記信息優先級分數的計算步驟。
9.根據權利要求8的信息檢索方法,其中所述計算步驟向更重要的HTML(超文本標記語言)標記和關鍵字分配更高分,較不重要的HTML標記和關鍵字分配較低的分數,因此還原密鑰可以選擇為重要的索引。
10.根據權利要求9的信息檢索方法,其中搜索存儲裝置,該存儲裝置存儲組合所述關鍵字與從中被提取的所說關鍵字已被檢索的HTML文件之后分配所述分數的所述HTML標記和所述關鍵字,因此可以檢索到內容的記錄網站。
全文摘要
為了提供能夠輕易地發現類似于用戶最喜愛網站的信息檢索系統,而與每個用戶和在獲得信息步驟獲得的檢索結果沒有差別。HTML文件獲得裝置從互聯網網站獲得HTML文件。還原密鑰提取裝置分析用戶指定URL所示HTML文件的內容和提取關鍵字作為還原密鑰。檢索結果存儲裝置根據提取的還原密鑰檢索索引表和存儲檢索結果。檢索結果顯示裝置改造檢索結果用于用戶看到和輸出結果。計分裝置計算HTML標記和關鍵字的分數。索引表存儲裝置存儲提取的索引。
文檔編號G06F17/30GK1417709SQ02149848
公開日2003年5月14日 申請日期2002年11月7日 優先權日2001年11月7日
發明者寺西俊裕 申請人:日本電氣株式會社