專利名稱:摘要式網絡搜索引擎系統及其搜索方法與應用的制作方法
技術領域:
本發明屬于計算機信息處理領域,特別涉及一種摘要式網絡搜索引擎 系統及其搜索方法與應用。
背景技術:
近年來互聯網技術的飛速發展深刻的影響了人類的信息獲取和決策模 式。為了幫助用戶在互聯網上數以百億計的網頁中精確而迅速地獲得他們 所需的信息,傳統的搜索引擎公司,如百度、雅虎和谷歌等開發出有效的 搜索引擎并且贏得了可觀的商業利潤。然而,傳統的搜索引擎存在以下缺 陷 '
搜索結果為目錄式,即返回成千上萬個網頁標題和鏈接,而不是用 戶所需的答案。
搜索結果通常包含大量重復的網頁內容,用戶需要自己去分析、判
斷并排除這些重復的信息。
所需的答案往往分散在不同的網頁上,用戶需要自己將這些分散的
信息收集和總結。
對許多的熱門話題,除了使用搜索引擎以外,人們還可以從網上百科 全書,如百度百科、維基百科等,獲得準確翔實的信息。然而,這些百科 全書的內容都為手工編輯,而且對大多數的話題很難做到實時更新。
新的搜索引擎技術也層出不窮。各種優化排序的方法,比如申請號為
US5864845和US5864846的美國專利申請最早提出了 Meta Search的想法, 將多個搜索引擎的搜索結果以一定的方式整合起來,提供"最優"的排序 方案。典型的Meta Search類搜索引擎包括DogPile.com, A9.com, searchmash. com等。這些優化排序的方法更專注于在目錄式的基礎上如何 提高搜索結果的相關性,而不是如何解決上述缺陷。
在本發明之前,確有研究涉及到使用某些"摘要"形式來捕捉單個網 頁的信息。比如,申請號為US6581057的美國專利申請提出,在生成索引 的同時為每個網頁產生一個主題描述,并在網頁被回溯時顯示出來。更進
6一步地,申請號為US20020078019的美國專利申請對每個網頁產生兩級描 述 一個主題描述和一個更詳細的描述。圖形信息也被考慮跟每個相關網 頁關聯起來,比如Michael Wynblatt和Dan Benson的文章"Web Page Caricatures: Multimedia Summaries for WWW Documents"(工CMCS, 1998 年)中提到用網頁圖標,Allison Woodruff等的文章"Using Thumbnails to Search the Web" (CHFCS, 2001年)中提到用圖像小樣,以及申請號為 US6643641的美國專利申請提出的使用圖像快照。上述這些"摘要"形式都 只應用于單個網頁。
還有一些技術使用一個信息集合來代表多個相關網頁的內容。特別是 申請號為US20060155728的美國專利申請,提出可以把多個網址整理成一
個單一的特殊網址,當用戶點擊這個特殊網址時,它所代表的那些網頁將 被傳入瀏覽模塊中。然而,該技術并不涉及任何摘要形式。另有一類技術, 如申請號為US6862586的美國專利申請,使用聚類和主題詞來代表所有相 關網頁。在這種基于網頁聚類的搜索引擎,例如Clusty. com,的搜索結果 中網頁還是被排序并單獨呈現。本發明也使用了聚類技術,但主要是用于 生成子話題的摘要,而不是為生成網頁的聚類。
專利申請號為US6591261的美國專利申請提出根據網頁間的超鏈接來 確定相關網頁。用戶因此可以從一個網頁鏈接到它的相關網頁。但是,這 些相關網頁往往含有大量重復信息,并且沒有幫助用戶從大量的搜索結果 中解放出來。
總的來講,現有這些搜索引擎技術仍存在下面主要缺陷(1)傳統的 搜索引擎,也稱作"基于關鍵字的搜索引擎",是依靠關鍵字來匹配相關內 容。這種技術的瓶頸在于,單純依靠關鍵字匹配并不能真正理解內容的含 義。這也是為什么傳統搜索引擎的結果常常含有大量似是而非的無關網頁。 (2)傳統搜索引擎的另一大弊端是其索引方式頁面索引。用戶搜索的目 的是要相關內容或答案;而頁面索引只能提供大量網頁,用戶往往需要閱 讀多個網頁,并在搜索結果和頁面之間不停地切換,來自己判斷、整理和 總結相關內容。所以,現存的這些缺陷有待克服和解決。
發明內容
本發明的首要目的在于針對現有搜索引擎存在的的缺陷,致力于提供 給用戶更簡潔、更翔實、更相關、更人性化的搜索結果的摘要式網絡搜索
7引擎系統。
本發明的另一目的在于提供由上述系統實現的摘要式網絡搜索方法。 本發明的再一目的在于提供由上述系統實現的摘要式網絡搜索方法的 應用。
本發明的目的通過下述技術方案實現 一種摘要式網絡搜索引擎系統, 包括如下組成部分
(1) 接收用戶査詢請求和顯示摘要式搜索結果的用戶界面;
(2) 負責抓取網頁的網頁抓取模塊; 其特征在于還包括如下組成部分
(3) 對抓取的網頁進行深層次的語法和語義分析,并基于語法和語義 的分析結果建立語句索引的語句索引模塊;
(4) 從語句索引模塊中提取與用戶查詢請求相關的內容,將相關的內
容中進行聚類處理,對聚類處理的結果再進行摘要處理并產生摘要式搜索 結果的摘要式搜索模塊。
組成部分(3)中,所述的語句索引模塊,包括
(3.1) 從網絡抓取模塊抓取下來的網頁中提取有效網頁內容,即句法 正確的文字段落、圖像、視頻以及音頻信息的網頁內容過濾模塊;
(3.2) 對有效網頁內容中的文字段落進行語句劃分,并對每個語句進 行語法和語義分析及注釋的語法語義注釋模塊;
同時,語句索引模塊的特征還可包括
(3.3) 根據有效網頁內容的語法和語義分析結果,來識別語句的語義 是否重復的重復語句識別模塊;
(3.4) 根據有效網頁內容的語法和語義分析結果,來刪除語句非重要 成分的語句壓縮模塊;
(3.5) 建立基于語句(而不是網頁)的語句索引生成模塊;
(3.6) 以及將每個圖像、視頻和音頻信息同語句關聯起來的多媒體關 聯模塊。
(3.2)中,所述的語法語義注釋模塊包括語句劃分模塊、分詞模塊、 詞性分析模塊、語義成分分析模塊、實體抽取模塊、實體關系分析模塊和 情感分析模塊。
組成部分(4)中,所述的摘要式搜索模塊包括語句檢索模塊、語句聚 類模塊和摘要生成模塊;其特征包括
8語句檢索模塊從語句索引模塊中提取與用戶査詢請求相關的語句,簡 稱相關語句;
語句聚類模塊根據這些相關語句所描述的主題將相關語句進行分類,
每個類包含一個主題及描述該主題的所有相關語句;
摘要生成模塊對每個類所包含的相關語句進行摘要處理,生成摘要式 搜索結果;所述摘要式搜索結果,是指以下述一種或多種形式來概括和總 結相關內容段落、條目、表格和圖形。
所述段落或條目,由部分相關語句的部分語法和語義成分、以及與這 些相關語句關聯的圖像、視頻和音頻信息組成,這些圖像、視頻以及音頻 信息由所述的多媒體關聯模塊提供。
所述表格,由段落或條目中所包含的實體組成,這些實體由所述的實 體抽取模塊和實體關系分析模塊提供。
所述圖形,由段落或條目中所包含的數量型實體組成,這些數量型實 體由所述的實體抽取模塊和實體關系分析模塊提供。
組成部分(4)中,所述"與用戶查詢請求相關的內容",簡稱相關內 容,是指在段落索引模塊中索引的語法和語義的分析結果,并與用戶查詢 請求相關。這個相關內容包含文字、圖像、視頻以及音頻信息。
一種由上述系統實現的摘要式網絡搜索方法,其特征在于包括以下步 驟 .
(1) 抓取網絡上的網頁,并生成語句索引;
(2) 生成摘要式搜索結果;
步驟(1)中,所述生成語句索引,包括以下具體步驟
(1.1) 從抓取的網頁中提取有效網頁內容,即句法正確的文字段落、 圖像、視頻以及音頻信息;
(1.2) 對有效網頁內容的文字段落進行深層次的語法和語義分析,包 括語句劃分、分詞、詞性分析、語義成分分析、實體抽取、實體關系分析 和情感分析;
所述生成語句索引,其特征體現在以下步驟
(1.3) 識別重復語句,即把含有相同或相近語義成分的語句列為重復
語句;
(1.4) 壓縮語句,即刪除語句中非重要的語法和語義成分;
(1.5) 建立語句索引(而不是網頁索引);(1.6)將步驟(1)中提到的網頁中的每個圖像、視頻和音頻信息同該 網頁中的語句關聯起來;這種關聯性取決于下述方法之一或全部
(1.6.1) 圖像、視頻和音頻信息所附屬的文字性信息,即標題、文件 名、標簽等,同語句的相似性;
(1.6.2) 圖像和視頻內的物體及物體的行為,同語句所描述的事物的 相似性。
步驟(2)中,所述的生成摘要式搜索結果,其特征體現在以下步驟
(2.1) 語句檢索,即從語句索引中提取相關語句;
(2.2) 語句聚類分析,即根據這些相關語句所描述的主題將相關語句 進行分類,每個類包含一個主題及描述該主題的所有相關語句;
(2.3) 對每個類所包含的相關語句進行摘要處理,生成摘要式搜索結果。
步驟(2.3)中,所述的摘要處理,其特征體現在以下步驟
(2.3.1) 生成摘要式搜索結果段落或條目,包含以下步驟 (2.3丄1)在每個類所包含的相關語句中,按照所描述內容的時間、空
間、邏輯關系、語言表述習慣、語句的連貫性和可讀性,依次挑選出一組 語句;
(2.3丄2)刪除這組語句中重復的語句。重復語句識別方法如步驟(1.3)
所述;
(2.3丄3)根據語句間主題的相關性將這組語句劃分段落或條目; (2.3丄4)多媒體信息關聯,即提取與這組語句中每個語句所關聯的圖
像、視頻和音頻信息,并將這些信息插入到所關聯的語句的位置。語句與
圖像、視頻和音頻信息的關聯方法如步驟(1.6)所述。
(2.3.2) 生成摘要式搜索結果表格,即將步驟(2.3.1)所述的摘要式 搜索結果段落或條目所包含的實體,放在一個或多個表格中,同一類實體 為同一行或同一列。
(2.3.3) 生成摘要式搜索結果圖形,即將步驟(2.3.1)所述的摘要式 搜索結果段落或條目所包含的數量型實體,以一個或多個統計性圖形(包 括并且不限于柱狀圖、餅狀圖、折線圖、曲線圖和趨勢線圖)表示。
上述系統實現的摘要式網絡搜索方法的應用,其特征在于-系統將被配置成通用搜索引擎系統,為不依賴于特定領域的用戶查詢 請求提供摘要式搜索結果。系統將被配置成專業搜索引擎系統,即為不同專業領域用戶的査詢請 求提供不同形式和內容的摘要式搜索結果。
系統將被配置成為特定用戶或用戶群提供摘要式搜索服務的桌面系統 或遠程服務系統。上述的用戶或用戶群將以付費的方式獲得上述服務。
由于摘要式搜索結果簡明扼要的特征,系統將被配置成適用于手機等 移動通訊設備的信息搜索平臺。
本發明相對于現有技術具有如下的優點及有益效果不同于傳統的搜 索引擎,在收到用戶的査詢請求之后,摘要式網絡搜索引擎在對網絡上的 相關信息進行實時的綜合分析,剔除大量冗余的信息,并提煉歸納出一個 更易于用戶使用和理解的摘要文章。這種的摘要式的搜索結果會包含自動 產生的文字段落、條目、表格和圖形,并且會自動更新,而不依賴于人工 產生。與傳統的搜索引擎相比,本發明具有以下優點
返回的摘要式結果可讀性更好,更易于理解,包含更少不相關的信息。
自動將分散在不同頁面上的信息收集、分類和總結,并生成概括性的摘 要文章。
用戶能夠用更少的點擊找到他們想要的頁面。 一方面用戶能夠在摘要中
找到他們想要的結果,另一方面摘要里各語句的上下文信息能夠幫助用
戶更加自信準確地決策。
我們產生的摘要具有層次結構,包括一個針對用戶査詢的主摘要和一系
列針對相關話題的子摘要。它們能夠幫助用戶快速去除問題中的歧義,
縮小查詢范圍或重新組織查詢。
在摘要中自然地嵌入了多媒體信息,視頻,音頻和圖像等等。它比單純
的文本搜索界面更友好,包含的信息量也更大。
摘要式搜索更適合手機搜索,因為它可以把成千上萬相關網頁的內容以
摘要的形式簡潔地呈現給用戶,而且摘要的長短可由用戶指定。
在用戶査詢階段,摘要式搜索引擎和傳統的搜索引擎沒有區別用戶可
以輸入任何關鍵字。也就是說,當用戶從傳統搜索引擎轉換到摘要式搜
索時,沒有任何使用習慣上的改變,所以適用性較好。
圖1是本發明方框流程圖。
圖2是網頁內容過濾模塊的流程圖。
11圖3是語法語義注釋模塊的流程圖。 圖4是摘要生成模塊的流程圖。
圖5是一個摘要式搜索結果的例子。
具體實施例方式
下面結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實 施方式不限于此。
象其它搜索引擎一樣,本發明摘要式網絡搜索引擎系統也由三個部分
組成網頁抓取、索引和搜索,如圖1所示。
網頁抓取程序在網絡上獲取網頁。網頁抓取模塊10從開放目錄,比如
Open Directory Project (http:〃dmoz.org)中的網絡鏈接,以及其它預先準備 的網絡鏈接入手下載網頁ll。
索引部分由語句索引模塊來實現。語句索引模塊分析網頁11,并將分 析結果加入到語句索引19中,以供搜索部分來査詢。語句索引模塊包含以 下部分
1、 網頁內容過濾模塊12將網頁上的文字段落13及其它多媒體信息17, 如圖像、音頻和視頻等,通過下述步驟提取出來網頁內容分離模塊34將 JavaScript、 Applet、 CSS、字符和顏色設置等從網頁原代碼中分離出去;段 落和多媒體目標識別模塊36將剩余代碼中的文字段落13和多媒體信息17 提取出來;格式不符的段落,如太短或者沒有標點符號等,將被段落過濾 模塊38刪除。
2、 文字段落13通過語法語義注釋模塊14進行語法和語義的分析并聲 稱分析結果15。不同于傳統的搜索引擎的索引系統,我們搜索引擎的語法 語義注釋模塊14分析頁面中語句的語法和語義結構。首先,語句識別模塊 40將段落分割成語句。格式不符的語句,例如太短、沒有合適的標點符號 或首字母沒有大寫(針對某些語言)等,將會被語句過濾模塊42刪除。其 次,每個語句中的詞性和詞組分別由詞類標注模塊44和詞組識別模塊46 分析識別出來。詞類和詞組識別是自然語言處理中常見的任務,通常可以 通過一系列的語言規則實現。最后,每個語句的語言成分結構由語義規則 標識模塊48識別。語義規則標識模塊通常包括一系列的語言規則來識別主 語、謂語、賓語、定語、狀語、補語等語言成分。語法語義注釋模塊14最 終產生上述的分析結果15。
123、 分析結果15中的語義重復語句由重復語句識別模塊16識別出來。
重復語句識別模塊16可以識別含有相同主謂賓結構的語句。對于一組冗余 的語句,我們只將信息量最大的一個語句保留在索引19中,例如最長或詞 組最多的語句;另一種方法是保留所有的語句,由搜索子系統在生成摘要 是來決定選擇哪個語句。
4、 語句壓縮模塊18將分析結果15中的語句的不必要成分及符號刪除, 例如在某些情況下的時間狀語、連詞、括號中的部分。
5、 多媒體關聯模塊22將分析結果15中的每個語句與同一頁面中最相 關的多媒體目標(如果存在的話)聯系起來。相關性的衡量標準1)語句 和多媒體目標之間的距離;2)語句和多媒體目標的文字信息,例如標題、 名稱、標簽等,的相關性。
6、 語句索引生成模塊20將分析結果15中的語句及其壓縮結果加入到 索引19中。不同于傳統的索引方式,語句索引生成模塊20將對網頁中的 語句做索引,以便在搜索子系統中實現進一步的自然語言分析。
系統的搜索部分由摘要式搜索模塊實現。摘要式搜索模塊通過用戶截 面24接受用戶的査詢請求25后,語句檢索模塊26在數據庫中提取相關語 句27,然后由摘要生成模塊30分析相關語句27和相關多媒體信息17,并 生成摘要。
由于用戶的查詢通常概念模糊或不夠確切,相關語句27很可能包含諸 多話題。因此,我們通過語句聚類模塊28分析相關語句27中的常見詞組, 并根據這些詞組將相關語句27分類。每個詞組為一個類,類中的語句29 包含該詞組。用戶的査詢請求24也包含在常見詞組中,同時也是最終生成 的摘要的主話題。
摘要生成模塊30為每個類(即主話題或子話題)生成一個摘要。摘要 的生成步驟如下
1、第一句選擇模塊50選擇摘要的第一句話。選擇的優先權如下所示 (順序從高到低) 沒有介詞 有狀態系動詞
在原始網頁中是文章的第一句話 在原始網頁中是段落的第一句話
包含的信息量大(例如詞組多) 、 選定的語句要從保留的語句中刪除。
2、 下一句話從保留下來的語句中依次重復地選擇。語句連貫性檢測模
塊52計算已選的n個語句和保留下來的語句中的每一句話的連貫性,例如
相似的名詞詞組數目。語句所描述內容的時間、空間、邏輯關系、語言表
述習慣、介詞指代也將是重要的連貫性計算依據。下一句選擇模塊54挑選 連貫性最強的語句為下一句話。同時,與被選擇語句重復的語句將從保留 下來的語句中刪除。當一定量或所有的語句被選取后,這個重復過程將停 止。
3、 段落連貫性檢測模塊56根據語句間的連貫性將這些排好序的語句 55分成段落或條目,即摘要式搜索結果的文字部分31。
4、 提取與摘要式搜索結果的文字部分31中的每個語句相關聯的圖像、 視頻和音頻信息,并將這些信息插入到摘要式搜索結果的文字部分31中所 關聯的語句的位置。
5、 生成摘要式搜索結果中的表格,即將摘要式搜索結果的文字部分31 所包含的實體,放在一個或多個表格中,同一類實體為同一行或同一列。
10.3生成摘要式搜索結果的圖形,即將摘要式搜索結果的文字部分 31所包含的數量型實體,以一個或多個統計性圖形(包括并且不限于柱 狀圖、餅狀圖、折線圖、曲線圖和趨勢線圖)表示。
最后,摘要頁面生成模塊32為摘要式搜索結果生成頁面。摘要式搜索 結果中的每個語句包含原始網頁的鏈接。與每個語句相關的多媒體信息(如 果存在)也將顯示在該句話附近合適的位置。
圖5顯示了 "全球定位系統"在摘要式搜索引擎中的搜索結果。圖中 右欄為主話題"全球定位系統"的摘要;左欄上部為子話題列表,每個子 話題鏈接到該子話題的摘要頁。另一種搜索結果的表現形式為將所有話題 的摘要顯示在一個頁面上。
以上介紹的是摘要式搜索引擎的優選方案,顯然這些概念也可以有很 多不同的表現形式。
特別值得一提的是本專利實現的另一種形式是索答移動搜索平臺。在 這種情況下,摘要生成模塊30和摘要頁面生成模塊32允許用戶選擇摘要 式搜索結果的長度以適應移動設備上的小屏幕的限制。與傳統的返回多鏈 接的搜索引擎相比,以簡明扼要為特點的摘要搜索技術在移動搜索有著天 然的優勢。本發明除了能用于通用搜索之外,它的其他實現形式也包括索答技術
在各個特定領域的應用。在這種情況下,網頁抓取模塊io將只下載某個特
定領域的網頁。另外,語句聚類模塊28也將應用跟特定領域相關的本體或 詞典來識別跟此領域相關的名詞短語,并給出相應的處理。除此以外,取 決于特定領域的要求,生成的摘要式搜索結果也可能會以跟通用搜索完全 不一樣的形式呈現出來。
上述實施例為本發明較佳的實施方式,但本發明的實施方式并不受上 述實施例的限制,其他的任何未背離本發明的精神實質與原理下所作的改 變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發明 的保護范圍之內。
權利要求
1、一種摘要式網絡搜索引擎系統,包括如下組成部分(1)接收用戶查詢請求和顯示摘要式搜索結果的用戶界面;(2)負責抓取網頁的網頁抓取模塊;其特征在于還包括如下組成部分(3)對抓取的網頁進行深層次的語法和語義分析,并基于語法和語義的分析結果建立語句索引的語句索引模塊;(4)從語句索引模塊中提取與用戶查詢請求相關的內容,將相關的內容中進行聚類處理,對聚類處理的結果再進行摘要處理并產生摘要式搜索結果的摘要式搜索模塊。
2、 根據權利要求l所述的摘要式網絡搜索引擎系統,其特征在于組 成部分(3)中,所述的語句索引模塊,包括(3.1) 從網絡抓取模塊抓取下來的網頁中提取有效網頁內容,即句法 正確的文字段落、圖像、視頻以及音頻信息的網頁內容過濾模塊;(3.2) 對有效網頁內容中的文字段落進行語句劃分,并對每個語句進 行語法和語義分析及注釋的語法語義注釋模塊;(3.3) 根據有效網頁內容的語法和語義分析結果,來識別語句的語義 是否重復的重復語句識別模塊;(3.4) 根據有效網頁內容的語法和語義分析結果,來刪除語句非重要 成分的語句壓縮模塊;(3.5) 建立基于語句的語句索引生成模塊;(3.6) 以及將每個圖像、視頻和音頻信息同語句關聯起來的多媒體關 聯模塊。
3、 根據權利要求2所述的摘要式網絡搜索引擎系統,其特征在于 (3.2)中,所述的語法語義注釋模塊包括語句劃分模塊、分詞模塊、詞性分析模塊、語義成分分析模塊、實體抽取模塊、實體關系分析模塊和 情感分析模塊。
4、 根據權利要求1所述的摘要式網絡搜索引擎系統,其特征在于組成部分(4)中,所述的摘要式搜索模塊包括語句檢索模塊、語句聚類模塊 和摘要生成模塊;語句檢索模塊從語句索引模塊中提取與用戶查詢請求相關的語句,簡稱相關語句;語句聚類模塊根據這些相關語句所描述的主題將相關語句進行分類, 每個類包含一個主題及描述該主題的所有相關語句;摘要生成模塊對每個類所包含的相關語句進行摘要處理,生成摘要式 搜索結果;所述摘要式搜索結果,是指以下述一種或多種形式來概括和總 結相關內容段落、條目、表格和圖形;所述"與用戶查詢請求相關的內容",是指在段落索引模塊中索引的語 法和語義的分析結果,并與用戶査詢請求相關;這個相關內容包含文字、 圖像、視頻以及音頻信息。
5、 根據權利要求4所述的摘要式網絡搜索引擎系統,其特征在于所 述段落或條目,由部分相關語句的部分語法和語義成分、以及與這些相關 語句關聯的圖像、視頻和音頻信息組成,這些圖像、視頻以及音頻信息由 所述的多媒體關聯模塊提供;所述表格,由段落或條目中所包含的實體組成,這些實體由所述的實 體抽取模塊和實體關系分析模塊提供;所述圖形,由段落或條目中所包含的數量型實體組成,這些數量型實 體由所述的實體抽取模塊和實體關系分析模塊提供。
6、 一種摘要式網絡搜索方法,其特征在于包括以下步驟(1) 抓取網絡上的網頁,并生成語句索引;(2) 生成摘要式搜索結果;步驟(1)中,所述生成語句索引,包括以下具體步驟(1.1) 從抓取的網頁中提取有效網頁內容,即句法正確的文字段落、 圖像、視頻以及音頻信息;(1.2) 對有效網頁內容的文字段落進行深層次的語法和語義分析,包 括語句劃分、分詞、詞性分析、語義成分分析、實體抽取、實體關系分析 和情感分析;(1.3) 識別重復語句,即把含有相同或相近語義成分的語句列為重復語句;(1.4) 壓縮語句,即刪除語句中非重要的語法和語義成分;(1.5) 建立語句索引;(1.6) 將步驟(1)中提到的網頁中的每個圖像、視頻和音頻信息同該 網頁中的語句關聯起來;這種關聯性取決于下述方法之一或全部(1.6.1) 圖像、視頻和音頻信息所附屬的文字性信息,即標題、文件 名、標簽等,同語句的相似性;(1.6.2) 圖像和視頻內的物體及物體的行為,同語句所描述的事物的 相似性。
7、 根據權利要求6所述的摘要式網絡搜索方法,其特征在于步驟(2)中,所述的生成摘要式搜索結果,其特征體現在以下步驟(2.1) 語句檢索,即從語句索引中提取相關語句;(2.2) 語句聚類分析,即根據這些相關語句所描述的主題將相關語句 進行分類,每個類包含一個主題及描述該主題的所有相關語句;(2.3) 對每個類所包含的相關語句進行摘要處理,生成摘要式搜索結果。
8、 根據權利要求7所述的摘要式網絡搜索方法,其特征在于 步驟(2.3)中,所述的摘要處理包括以下步驟(2.3.1) 生成摘要式搜索結果段落或條目,具體包含以下步驟 (2.3丄1)在每個類所包含的相關語句中,按照所描述內容的時間、空間、邏輯關系、語言表述習慣、語句的連貫性和可讀性,依次挑選出一組 語句;(2.3丄2)刪除這組語句中重復的語句;(2.3丄3)根據語句間主題的相關性將這組語句劃分段落或條目; (2.3丄4)多媒體信息關聯,即提取與這組語句中每個語句所關聯的圖 像、視頻和音頻信息,并將這些信息插入到所關聯的語句的位置;(2.3.2) 生成摘要式搜索結果表格,即將步驟(2.3.1)所述的摘要式 搜索結果段落或條目所包含的實體,放在一個或多個表格中,同一類實體 為同一行或同一列;(2.3.3) 生成摘要式搜索結果圖形,即將步驟(2.3.1)所述的摘要式 搜索結果段落或條目所包含的數量型實體,以一個或多個統計性圖形,包 括并且不限于柱狀圖、餅狀圖、,折線圖、曲線圖和趨勢線圖表示。
9、 根據權利要求l一5任一項所述摘要式網絡搜索引擎系統實現的摘 要式網絡搜索方法的應用,其特征在于-系統被配置成通用搜索引擎系統,為不依賴于特定領域的用戶查詢請 求提供摘要式搜索結果;系統被配置成專業搜索引擎系統,即為不同專業領域用戶的査詢請求提供不同形式和內容的摘要式搜索結果;系統被配置成為特定用戶或用戶群提供摘要式搜索服務的桌面系統或 遠程服務系統。上述的用戶或用戶群將以付費的方式獲得上述服務;系統被配置成適用于手機等移動通訊設備的信息搜索平臺。
全文摘要
本發明提供一種摘要式網絡搜索引擎系統及其搜索方法與應用,其系統主要包括用戶界面、網頁抓取模塊、語句索引模塊、摘要式搜索模塊等;其搜索方法主要包括以下步驟(1)抓取網絡上的網頁,并生成語句索引;(2)生成摘要式搜索結果。本系統可應用為通用搜索引擎系統或專業搜索引擎系統,亦可配置成為特定用戶或用戶群提供摘要式搜索服務的桌面系統或遠程服務系統或配置成適用于手機等移動通訊設備的信息搜索平臺等。相對于現有技術,本發明可給用戶更簡潔、更翔實、更相關、更人性化的搜索結果。
文檔編號G06F17/30GK101452470SQ20081017085
公開日2009年6月10日 申請日期2008年10月17日 優先權日2007年10月18日
發明者徐亞波, 石忠民 申請人:石忠民;徐亞波