專利名稱::一種互聯網搜索引擎的搜索方法
技術領域:
:本發明涉及計算機網絡技術,特別是涉及一種互聯網搜索引擎的搜索方法。技術背景搜索引擎技術的發展是隨著電子技術不斷進步而形成的信息數字化和數據網絡化的必然產物。一個出色的搜索引擎能夠及時向用戶提供所需要的信息,而要做到這點就需要一個快速、優質、高效的搜索方法予以支持。Google搜索引擎依靠其PageRank機制及收斂算法一直處于該領域的領先地位。Google公司的搜索引擎最初是斯坦福大學的博士研究生SergeyBrin和LawrencePage實現的一個原型系統,現在已經發展成為互聯網上最好的搜索引擎之一。Google的體系結構類似于傳統的搜索引擎,它與傳統的搜索引擎最大的不同處在于對網頁進行了基于權威值的排序處理,使最重要的網頁出現在結果的最前面。Google通過PageRank元算法計算出網頁的PageRank值,從而決定網頁在結果集中的出現位置,PageRank值越高的網頁,在結果中出現的位置越靠前。相對于Google、Baidu等通用的搜索引擎,專業B2B(BusinesstoBusiness)垂直搜索所提供的B2B信息更加精準、更專業且更具深度;而相對于傳統的B2B門戶網站,專業B2B垂直搜索能夠提供更全面、更客觀、更多元化的信息內容。有鑒于此,專業B2B垂直搜索作為互聯網快速發展、細分的產物,正日益受到企業用戶的青睞,而這也奠定了電子商務B2B技術模式富于生命力的根基所在。與傳統搜索引擎類似,基于B2B電子商務的垂直搜索引擎需要返回的結果頁面是用戶所關心的信息。而對于電子商務應用搜索來講傳統搜索引擎的排名技術顯然已經不適用于B2B專業垂直搜索的需求,搜索頁面的結果排名不應去考慮鏈接到該頁面的超鏈接數量而更多是'那些與企業商務緊密聯系的專業信息。正是有上述的應用需求,基于產品質量算法的垂直搜索引擎方法被提出用來綜合評價搜索結果的質量,并在結果頁面進行排名,以提高用戶搜索質量并幫助海外采購商快速、精準地篩選優質供應商。基于互聯網的產品搜索服務需要將散布于互聯網上各個獨立網站上的產品與相關數據搜集起來,提供統一的檢索服務,因此產品數據的檢索功能對整體業務而言是非常重要的,檢索方法既要滿足產品數據的檢索這樣一個特定要求,又要具有很高的性能。基于互聯網的產品搜索服務是一種垂直搜索服務,對垂直搜索的領域有很強的限定性,需要針對領域相關的數據盡可能全面搜集,并提供集中深度的檢索,而一般的互聯網通用搜索方法不具有這樣的特點,因此兩者對搜索方法的要求是不一樣的。概括而言,垂直搜索領域的搜索方法要對所針對領域的數據具有格外的關注能力。具體到互聯網產品搜索業務來講,這樣的要求體現在兩個方面第一個方面是在檢索中要對產品數據區別對待,以體現領域限定性;第二個方面是要能處理關于產品的復雜的査詢,以滿足全面精確搜索的要求。另外,互聯網搜索業務需要面對的數據是海量的,并且需要應付大量并發的搜索,因此對整體搜索系統性能具有很高的要求。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是"專、精、深",且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。可以簡單的說成是搜索引擎領域的行業化分工。眾多專業性網站、行業網站獨立服務于互聯網的成功,恰恰證明了互聯網的格局應該是多方面的。通用搜索引擎的性質,決定了其不能滿足特殊領域、特殊人群的精準化信息需求服務。市場需求多元化決定了搜索引擎的服務模式必將出現細分,針對不同行業提供更加精確的行業服務模式。
發明內容本發明的目的在于提供一種適應互聯網垂直產品搜索的特點,實現高性能,高精度的搜索引擎的搜索方法。為達到上述目的,本發明提供的互聯網上基于知識庫的搜索方法通過含由下載器,產品知識庫服務器,產品網頁數據服務器,分詞器和索引器,索引數據庫,查詢器組成的搜索系統,執行產品數據的搜索,該方法的步驟包括對于互聯網上的產品原始網頁信息,通過下載器獲取產品網頁數據,依據產品知識庫服務器中的數據通過分詞器和索引器處理產品網頁并創建數據索引寫入索引數據庫,對應產品數據網頁寫入產品網頁數據服務器,通過査詢器輸入用戶査詢并依據產品知識庫服務器中的數據處理后生成查詢結果,所述依據產品知識庫服務器中的數據通過分詞器和索引器處理產品網頁數據包括如下步驟a.獲取原始網頁文本,b.根據產品知識庫服務器中的產品數據對網頁文本進行正向最長匹配,c.判斷步驟b中匹配是否成功,d.如果匹配成功,則將匹配項進行數據短語處理得到子串并進行排序,e.對步驟d中的每個子串計算相關性,并建立索引寫入索引數據庫,所述依據產品知識庫服務器中的數據通過查詢器輸入用戶査詢處理包括如下步驟-f.讀入用戶輸入的査詢串,g.對査詢串進行正向最大匹配,生成匹配項集合,h.對匹配項集合進行產品短語處理,生成子串集合并排序,按照每個子串相關性生成有效子串序列,i.對有效子串序列中的每個子串依次獲取與之匹配的網頁數據集合,并根據相關性大小排序輸出。本發明互聯網搜索引擎的搜索方法,所述產品知識庫服務器中的產品數據包括產品屬性數據和產品企業數據。本發明互聯網搜索引擎的搜索方法,所述依據產品知識庫服務器中的數據通過查詢器輸入用戶查詢處理步驟中的所述步驟h和步驟i中增加如下步驟j.對有效子串序列中每個元素確定準中心詞,k.如果準中心詞中存在介詞,則確定中心詞為最左介詞之前的詞,如果準中心詞中不存在介詞,則確定中心詞為最后一個詞,l.將中心詞和準中心詞生成擴展的子串序列作為所述步驟i中的有效子串序列。本發明互聯網搜索引擎的搜索方法,所述短語處理為按照產品詞的內部結構進行多重切分處理。本發明互聯網搜索引擎的搜索方法,所述排序為順序或倒序。本發明互聯網搜索引擎的搜索方法,所述子串索引排序方法是按照長的子串比短的子串重要,位置靠由的子串比位置靠左的子串重要的方法得出的。本發明所述互聯網搜索引擎的搜索方法,所述分詞器和索引器處理產品網頁數據處理步驟中的所述步驟e中所述子串相關性大小為WW*"")。本發明互聯網搜索引擎的搜索方法,所述依據產品知識庫服務器中的數據通過查詢器輸入用戶査詢處理步驟中的所述步驟h中的所述子串相關性為^^"/C")。本發明是為互聯網產品搜索業務中實現產品垂直搜索功能的搜索方法,利用產品知識庫服務器中與網上產品信息質量等全方位數據,適合互聯網產品檢索的特定要求;采用了兩階段的檢索和搜索架構,具有較高的檢索和搜索效率;在索引建立和動態響應檢索時都采用了產品短語處理技術,能處理較長的復雜檢索串,本發明的方法應用于互聯網B2B電子商務垂直搜索,綜合分析用戶提交以及網絡下載器所采集的數據,計算收集到的數據的產品質量等級值,并據此對搜索結果進行排序,使最重要的網頁出現在結果的最前面,提高了搜索的精準性以及搜索質量,使得搜索引擎更有利于用戶使用,得到滿意的檢索結果。下面將結合實施例參照附圖進行詳細說明,以對本發明的目的、特征和優點有深入的理解。圖1為本發明互聯網搜索引擎的搜索方法所涉及的系統原理示意圖;圖2為本發明互聯網搜索引擎的搜索方法的分詞器和索引器工作時進行產品短語處理的方法流程圖;圖3為本發明互聯網搜索引擎的搜索方法的查詢器動態響應時工作方法流程圖;圖4為本發明互聯網搜索引擎的搜索方法的一個具體實施例的網頁數據相關性示意圖;圖5為本發明互聯網搜索引擎的搜索方法的分詞器和索引器進行相關性判斷的方法流程圖;圖6為本發明互聯網搜索引擎的搜索方法的查詢器動態響應工作詳細方法流程圖。具體實施方式下面以實施例對技術方案做詳細說明。參照圖l,本發明互聯網搜索引擎的搜索方法所涉及系統由下載器,產品知識庫服務器,搜索引擎,產品網頁數據服務器組成。下載器負責網頁信息的獲取工作;產品知識庫服務器提供搜索引擎所需要的產品詞,產品屬性詞,產品分類詞以及其他所需要的相關產品信息數據;搜索引擎進一步的由索引創建模塊,索引數據庫,查詢輸入處理和結果生成模塊組成。搜索引擎中的索引創建模塊包括分詞器和索引器,分詞器和索引器一起使用,它們負責將獲取的網頁內容進行產品短語處理并自動進行標引,并按詞在網頁中出現的位置和頻率計算權值,然后將產品短語結果存入索引數據庫,整個網頁獲取工作和索引工作完成后更新整個索引數據庫和產品網頁數據服務器;查詢器首先對用戶輸入的信息進行產品短語處理,并檢索出所有包含檢索詞的記錄,通過計算網頁權重和級別對査詢記錄進行排序并進行集合運算,如并集、交集運算,最后從產品網頁數據服務器中提取各網頁的摘要信息反饋給査詢用戶。表1<table>tableseeoriginaldocumentpage8</column></row><table>表2:<table>tableseeoriginaldocumentpage8</column></row><table>表3:<table>tableseeoriginaldocumentpage9</column></row><table>更進一步的,產品知識庫服務器中提供了互聯網產品數據中涉及到的全方位的信息數據,具體而言,其可使用各種關于產品的描述性數據和在互聯網上發布產品的企業的各方面信息數據,以滿足關于產品數據網頁的高質量檢索的需求。分詞器和索引器根據下載器搜索而得的網頁數據生成相應的索引庫數據,并為體現產品數據的重要性而把關于產品的知識數據以較高權重(即產品知識數據的相關性)寫入索引庫數據,查詢器動態響應用戶檢索時根據在上述過程時已經計算好的產品知識數據的相關程度生成檢索結果,這樣的方法和系統設計提高了系統和搜索引擎的效率。在生成靜態檢索庫與動態響應用戶查詢時本發明都使用了產品短語處理技術,使得系統能處理較長的,復雜的查詢,以滿足全面、精確檢索的需求。參照圖1,分詞器和索引器(索引創建模塊)對下載的網頁數據編制索引,除了一般的順排、倒排等索引結構之外,這個模塊還根據產品知識庫服務器中的產品描述的信息數據對網頁中的產品描述數據進行了重點處理,以體現產品數據的重要性,并且避免在動態響應用戶查詢時進行復雜的運算。查詢器(査詢輸入處理/結果生成模塊)動態響應用戶的查詢,對査詢的輸入串做出處理,生成查詢結果返回用戶,檢索結果的依據是索引庫中的索引結構,反映的是以產品數據為核心網頁的相關性。除了網頁描述中產品數據的相關性之外,最終的排序結果的生成還參考了產品知識庫服務器中發布產品的企業信息、網頁中是否含有產品圖片、網頁中產品發布的時間的新舊程度等全面的信息,使得所獲得的結果能夠真正全面反映產品檢索結果的質量。其中,企業信息包括規模、歷史、組織機構等各項指標的評價所組成的靜態信息數據,企業的產品發布等互聯網上商務活動的活躍程度數據,以及客戶、業內專家的評價等數據組成。上述系統和方法是以網頁中產品數據的相關性為主導,兼顧對產品數據發布企業的數據評價相關性,以及其他各項數據的相關性,實現高效、全面、精確的檢索的搜索引擎系統和搜索方法。本發明的搜索引擎的搜索方法為了能夠對復雜的查詢輸入串做出有效的處理,在分詞器和索引器(索引創建模塊)和查詢器(查詢輸入處理/結果生成模塊)中都采用了產品短語處理方法并在分詞器和索引器(索引創建模塊)中采用了將產品知識數據融合進索引庫的方法。目前搜索引擎檢索相關性的計算的標準方法是計算査詢輸入與文檔之間的相關性,并按相關性的高低輸出排序結果。查詢輸入與文檔之間的相關性是實際上由組成査詢輸入的每個詞匯項與文檔之間的相關性計算的,即査詢輸入中的詞匯在文檔中的重要程度,或者說權重。因此,對什么樣的詞匯設置什么樣的權重在本發明搜索引擎的檢索系統中是十分關鍵的問題。目前某個詞匯項在文檔中的權重的標準計算法是TF/IDF計算方法,這是參考詞匯在文檔內的出現頻次以及在整個文檔集合中的分布情況的權重設置法,但是這樣的方法沒有體現產品數據的重要性,不能充分適應基于互聯網的基于產品搜索引擎檢索方法的需要。在本發明的搜索方法的檢索算法中,除了對一般的詞匯采用TF/IDF方法設置權重之外,利用產品知識數據,對產品數據采用了特殊的權重設置,以體現其特殊性。在搜索引擎方法中的檢索系統的范圍內,產品知識數據表現為產品詞以及該產品所具有的各項屬性詞,對產品數據的特殊處理也表現為對產品詞權重的設置。一個詞匯數據相對于一篇文檔(即網頁)的相關性衡量的基本依據是出現頻次,但是針對產品詞數據,則僅衡量本身的出現頻次是不夠的。產品具有大小尺寸、電器指數等各個方面的屬性數據,因此產品詞數據的相關性應該和它的屬性詞數據的相關性統一起來考慮。由于產品詞數據具有主導作用,因此屬性詞數據的相關性從屬于產品詞數據的相關性。一個產品詞^對一篇網頁的相關性及")定義為<formula>formulaseeoriginaldocumentpage10</formula>上式中,&…^為產品詞^的屬性詞,/為基于詞匯出現頻次的重要性函數,『Q,『1'"『"為各項的權重,可以調節設置。產品詞數據或者與產品相關的詞匯數據很多情況下不是一個單一的詞,而是復合詞甚至是短語,具有內部結構,如果不對這些內部結構做出處理,則難以處理較長的復雜查詢,不能提供全面的檢索結果,因此本發明采用了產品短語處理方法,在索引創建階段和動態響應査詢時都進行產品短語處理。產品短語處理指的是對具有內部結構的產品詞或者査詢輸入進行多重切分,并將產生的切分子串按照重要程度區分處理。切分產生的子串的重要程度排序的原則是長的子串比短的子串重要,位置靠右的子串比位置靠左的子串重要。在創建索引階段,子串的重要程度影響其對文檔的相關性,在動態相應階段切分產生的子串的重要程度影響檢索產生的排序。產品短語處理方法主要完成文本輸入串/文件的簡單切分、基于詞干還原的短語/子短語識別、子短語重要性排序,以及每個切分串的中心詞識別。參加圖2的本發明分詞器和索引器(索引創建模塊)工作方法流程圖,該方法首先讀入網頁數據,然后識別具有內部結構的最長產品詞數據,然后進行切分和排序,最后對切分子串和其他詞項數據建立索引并設置權重。參照圖3,本發明互聯網搜索引擎的搜索方法的查詢器動態響應階段的產品短語處理與分詞器和索引器(索引創建模塊)工作方法不同的是還包括中心詞數據的識別,中心詞數據是指查詢輸入串被修飾性成分所修飾的部分,或者是起到區別作用的成分,如在"MP3Glass"指的是具有"mp3"功能的眼鏡,其中中心詞是"Glass",但"mp3player"中中心詞應該是"mp3"。參見表l,表l為一個互聯網涉及MP3播放器產品信息數據的原始網頁,該網頁中含有下列信息數據"MP3Player","Size","Multi-Language","Memory","PowerSupply","DataRetention"。參見表2,表2為另一個互聯網上設計MP3播放器產品信息數據的原始網頁,該網頁中含有下列信息數據"MP3Player"。如果產品知識庫服務器中有如下關于"MP3Player"的各項屬性的描述"MP3Player":"Size","Multi-Language","PlayTime","Memory","PowerSupply","DataRetention"。上述兩個表中所顯示的網頁里都包含"MP3Player",但是根據知識庫服務器中的數據,第一個網頁中含有比較詳細的關于"MP3Player"各項屬性的說明,因此在索引創建階段,"MP3Player"這個詞匯項與這兩個網頁的相關性計算中,前一個網頁的相關性高,而后一個相關性小,如圖4中所表示的那樣(圖中相關性大小用箭頭的粗細表示)。再比如有如表3中所描述的網頁數據,網頁3中含有"lGB"。如果用戶的檢索輸入為"lgbmp3player",則經過產品短語處理,中心詞識別之后,將"Mp3player"識別為中心詞,之后相對于該檢索和上述三個網頁的檢索輸出網頁排序將變成為如表l所描述的網頁l,如表2所描述的網頁2,如表3所描述的網頁3。參照圖5的本發明互聯網搜索引擎的搜索方法的分詞器和索引器進行相關性判斷的方法流程圖;其對子串的排序按照長的子串比短的子串重要,位置靠右的子串比位置靠左的子串重要的方法進行,對相關性計算按照計算公式為)*/("),其中R(t)為前述公式,I(Il)為排序衰減函數,排序越靠后其值越小,n為排序中的序號。參照圖6的本發明互聯網搜索引擎的搜索方法的査詢器動態響應工作詳細方法流程圖。其中確定準中心詞和中心詞的過程可以使得本發明的搜索方法更加精確,但是省略這些步驟仍然會實現本發明的搜索引擎的基于數據短語處理和相關性基本技術手段實現的搜索方法。上述歩驟通過確定中心詞的判斷和增加方法,擴大了檢索子串序列,也就是提高了對產品網頁數據服務器中數據的搜索范圍。權利要求1.一種互聯網搜索引擎的搜索方法,該方法通過含由下載器,產品知識庫服務器,產品網頁數據服務器,分詞器和索引器,索引數據庫,查詢器組成的搜索系統,執行產品數據的搜索,其特征在于該方法的步驟包括對于互聯網上的產品原始網頁信息,通過下載器獲取產品網頁數據,依據產品知識庫服務器中的數據通過分詞器和索引器處理產品網頁并創建數據索引寫入索引數據庫,對應產品數據網頁寫入產品網頁數據服務器,通過查詢器輸入用戶查詢并依據產品知識庫服務器中的數據處理后生成查詢結果,所述依據產品知識庫服務器中的數據通過分詞器和索引器處理產品網頁數據包括如下步驟a.獲取原始網頁文本,b.根據產品知識庫服務器中的產品數據對網頁文本進行正向最長匹配,c.判斷步驟b中匹配是否成功,d.如果匹配成功,則將匹配項進行數據短語處理得到子串并進行排序,e.對步驟d中的每個子串計算相關性,并建立索引寫入索引數據庫,所述依據產品知識庫服務器中的數據通過查詢器輸入用戶查詢處理包括如下步驟f.讀入用戶輸入的查詢串,g.對查詢串進行正向最大匹配,生成匹配項集合,h.對匹配項集合進行產品短語處理,生成子串集合并排序,按照每個子串相關性生成有效子串序列,i.對有效子串序列中的每個子串依次獲取與之匹配的網頁數據集合,并根據相關性大小排序輸出。2.根據權利要求1所述互聯網搜索引擎的搜索方法,其特征在于,所述產品知識庫服務器中的產品數據包括產品屬性數據和產品企業數據。3.根據權利要求2所述互聯網搜索引擎的搜索方法,其特征在于,所述依據產品知識庫服務器中的數據通過査詢器輸入用戶查詢處理步驟中的所述步驟h和步驟i中增加如下步驟j.對有效子串序列中每個元素確定準中心詞,k.如果準中心詞中存在介詞,則確定中心詞為最左介詞之前的詞,如果準中心詞中不存在介詞,則確定中心詞為最后一個詞,l.將中心詞和準中心詞生成擴展的子串序列作為所述步驟i中的有效子串序列。4.根據權利要求3所述互聯網搜索引擎的搜索方法,其特征在于,所述短語處理為按照產品詞的內部結構進行多重切分處理。5.根據權利要求4所述互聯網搜索引擎的搜索方法,其特征在于,所述排序為順序或倒序。6.根據權利要求5所述互聯網搜索引擎的搜索方法,其特征在于,所述子串索引排序方法是按照長的子串比短的子串重要,位置靠由的子串比位置靠左的子串重要的方法得出的。7.根據權利要求1至6任一權利要求所述互聯網搜索引擎的搜索方法,其特征在于,所述分詞器和索引器處理產品網頁數據處理步驟中的所述步驟e中所述子串相關性大小為,*/(")。8.根據權利要求1至6任一權利要求所述互聯網搜索引擎的搜索方法,其特征在于,所述依據產品知識庫服務器中的數據通過査詢器輸入用戶査詢處理步驟中的所述步驟h中的所述子串相關性為及0)*7(")。全文摘要一種互聯網搜索引擎的搜索方法,該方法通過含由下載器,產品知識庫服務器,產品網頁數據服務器,分詞器和索引器,索引數據庫,查詢器組成的搜索系統,執行產品數據的搜索,該方法的步驟包括通過下載器獲取產品網頁數據,依據產品知識庫服務器中的數據通過分詞器和索引器進行產品短語處理處理,得到含有相關性數據的產品網頁并創建數據索引通過查詢器輸入用戶查詢并依據產品知識庫服務器中的數據進行產品短語處理并獲得相關性數據后生成查詢結果,該搜索方法主要用于B2B垂直搜索的產搜索引擎系統內。文檔編號G06F17/30GK101271464SQ20071017807公開日2008年9月24日申請日期2007年11月26日優先權日2007年11月26日發明者吳柏林,吳愛華,徐光美,李建鋒,雙王,苗宇楓,謙諶申請人:北京九城網絡軟件有限公司