專利名稱:Web搜索中的圖像摘錄反饋方法
技術領域:
本發明涉及網頁處理裝置,特別涉及一種應用于Web搜索的圖像摘錄反饋方法。
背景技術:
隨著多媒體技術和互聯網絡的迅速發展,Web逐漸成為人們最重要和快捷的信息來源以及最常用的信息交互平臺。由于Web本身的信息量巨大并且內容復雜,用戶從互聯網上尋找信息非常困難,因此,設計有效的Web搜索技術成為一項重要的工作。在Web搜索過程中,在搜索引擎將搜索結果反饋給用戶后,用戶如果對搜索結果不滿意,通常就會根據搜索結果提供反饋,例如指明哪些結果是與搜索目標相關的,搜索引擎利用這些反饋信息再進行進一步搜索,以產生更好的搜索結果。目前的Web搜索中的用戶反饋技術只使用了網頁中的文字信息,而沒有利用網頁中大量存在的圖像信息。
發明內容
1、發明目的本發明的主要目的是針對目前Web搜索中的用戶反饋技術沒有很好地利用網頁中的圖像內容這一問題,提供一種同時利用文字信息與圖像信息的用戶反饋方法,通過有效地獲取用戶的信息需求輔助提高Web搜索的性能。
2、技術方案為實現本發明所述目的,本發明所述的一種適用于Web搜索中的圖像摘錄反饋方法,包括以下步驟(1)網頁處理裝置接受用戶提交的由關鍵詞組成的查詢,使用基于關鍵詞的Web搜索方法對Web進行搜索;(2)基于圖像摘錄進行反饋的方法精化用戶查詢;(3)最終返回用戶滿意的搜索結果。
其中基于圖像摘錄進行反饋的方法精化用戶查詢包括以下步驟(11)獲取用戶的查詢關鍵詞;(12)利用基于關鍵詞的Web搜索方法獲取相關的網頁;(13)從搜索到的相關網頁中生成網頁的文字摘要和圖像摘錄,并將這些信息提交給用戶,供用戶了解搜索結果;(14)用戶對搜索到的網頁進行判斷,如果網頁滿足用戶的需求,則轉至(16),整個過程結束;否則,轉至(15);(15)獲取用戶的反饋信息,生成新的查詢關鍵詞,轉至(12);(16)結束。
3、有益效果本發明所提供的方法同時使用網頁中的文字信息和網頁中大量存在的圖像信息,通過有效地獲取用戶的信息需求極大地輔助提高Web搜索的性能。
下面將結合附圖對最佳實施例進行詳細說明。
四
圖1是網頁處理裝置工作流程圖。
圖2是本發明方法的流程圖。
圖3是獲取文字摘要和圖像摘錄的流程圖。
圖4是獲取第一類圖像摘錄的流程圖。
圖5是獲取第二類圖像摘錄的流程圖。
圖6是獲取用戶反饋信息生成新的查詢關鍵詞的流程圖。
圖7是用戶選擇進行第一類反饋的流程圖。
圖8是用戶選擇進行第二類反饋的流程圖。
五具體實施例方式
如圖1所示,網頁處理裝置接受用戶提交的由關鍵詞組成的查詢,使用經典的基于關鍵詞的Web搜索技術對Web進行搜索。使用圖2中描述的基于圖像摘錄進行反饋的技術精化用戶查詢,最終返回用戶滿意的搜索結果。
本發明的技術如圖2所示。步驟10是初始動作。步驟11獲取用戶的查詢關鍵詞。步驟12利用經典的基于關鍵詞的Web搜索技術獲取相關的網頁。步驟13從搜索到的相關網頁中生成網頁的文字摘要和圖像摘錄,并將這些信息提交給用戶,供用戶了解搜索結果。文字摘要是指將網頁中的文本內容進行濃縮后所得到的能夠在一定程度上反映網頁內容的文字,經典的Web搜索技術就是利用文字摘要來向用戶反饋搜索結果。圖像摘錄是本專利所提出的技術,具體是指從網頁中獲取的與用戶查詢最相關的圖像,將這些圖像反饋給用戶將有助于用戶更快更準地了解搜索結果。步驟14用戶對搜索到的網頁進行判斷,如果網頁滿足用戶的需求,則轉至步驟16,整個過程結束;否則,轉至步驟15,獲取用戶的反饋信息,利用這些信息生成新的查詢關鍵詞,并將新的查詢關鍵詞提交給系統,轉至步驟12,重復以上過程。
圖3詳細描述了步驟13,即獲取網頁的文本摘要和圖像摘錄。步驟130是起始步驟。步驟131使用經典的生成文字摘要的方法生成網頁的文字摘要。步驟132生成第一類的圖像摘錄,這一類的圖像摘錄與網頁一一對應,用于輔助文字摘要展示網頁內容并用于之后的用戶反饋。步驟133生成第二類的圖像摘錄,該類的圖像摘錄用于之后的用戶的反饋。在Web搜索界面中,第一類圖像摘錄應該與對應網頁的文字摘要一起提交給用戶,而第二類圖像摘錄則不需要和文字摘要放在一起。步驟134結束。
圖4詳細描述了步驟132,即獲取第一類圖像摘錄。步驟1320是起始步驟。步驟1321將計數器i置為1。步驟1322判斷i是否大于搜索到的網頁的數目M。如果i大于M,轉至步驟1328,結束;否則轉至步驟1323。步驟1323利用經典的網頁分塊算法對第i個網頁進行分塊。步驟1324利用經典Web搜索技術中的重要性判別方法判斷各個分塊重要與否。步驟1325從至少包含一幅圖像的重要分塊中,選出與查詢關鍵詞最相似的分塊。這里采用經典的文字相似度度量方法來度量查詢關鍵詞與分塊的文字描述之間的相似度。步驟1326從最相似的分塊中選出最先出現的圖像作為第i個網頁的圖像摘錄。步驟1327將i加1,轉至步驟1322。
圖5詳細描述了步驟133,即獲取第二類圖像摘錄。步驟1330是起始步驟。步驟1331將集合IMG置空。步驟1332將計數器i置為1。步驟1333判斷i是否大于搜索到的網頁的數目M。如果i大于M,轉至步驟1338;否則轉至步驟1334。步驟1334對利用經典Web搜索技術中的網頁分塊方法對第i個網頁進行分塊。步驟1335利用經典Web搜索技術中的重要性判別方法判斷各個分塊重要與否。步驟1336將重要分塊中的圖像加入集合IMG。步驟1337將i加1,轉至步驟1333。步驟1338根據IMG中圖像的文字描述與查詢關鍵詞的相似程度對IMG中的圖像進行排序,選出最相似的j幅圖像作為第二類的圖像摘錄。這里的相似度度量采用經典的文字相似度度量方法。圖像的文字描述由三部分組成,圖像在HTML源碼中的ALT字段,圖像所在網頁的標題和圖像所在分塊的文字描述。步驟1339結束。
圖6詳細描述了步驟15,即獲取用戶的反饋信息,生成新的查詢關鍵詞以精化查詢。步驟150是起始步驟。步驟151,由用戶選擇進行哪一類的反饋。步驟152,用戶選擇進行第一類反饋,根據用戶的反饋信息生成新的查詢關鍵詞。第一類反饋是基于第一類的圖像摘錄完成的。在這一類的反饋中,用戶結合給出的文字摘要和圖像摘錄,判斷搜索到的網頁相關與否。步驟153,用戶選擇進行第二類反饋,根據用戶的反饋信息生成新的查詢關鍵詞。第二類反饋是基于第二類的圖像摘錄完成的。在這一類的反饋中,用戶直接判斷給出的圖像摘錄是否相關。步驟154結束。
圖7詳細介紹了步驟152,即在第一類反饋中生成新的查詢關鍵詞。步驟1520是起始步驟。步驟1521置集合TERM為空。步驟1522置計數器i為1。步驟1523判斷i是否小于用戶反饋的網頁的數目F。如果i大于F,轉至步驟1526;否則轉至步驟1524。步驟1524,將第i個網頁中出現的詞加入集合TERM(已出現在查詢關鍵詞中的除外)。步驟1525將計數器i加1,轉至步驟1523。步驟1526,根據公式(1)計算TERM中每個詞的分值,選擇分值最高的k個詞作為新增的查詢關鍵詞。公式(1)中,Score(t)是詞t的分值,rt是被用戶選擇為相關的網頁中包含t的數目,nt是搜索到的網頁中包含t的數目,R是被用戶選擇為相關的網頁的數目,N是搜索到的網頁的數目。步驟1527結束。
Score(t)=logrt/(R-rt)(nt-rt)/(N-nt-R+rt)×(rtR-nt-rtN-R)---(1)]]>圖8詳細介紹了步驟153,即在第二類反饋中生成新的查詢關鍵詞。步驟1530是起始步驟。步驟1531置集合TERM為空。步驟1532置計數器i為1。步驟1533判斷i是否小于用戶反饋的圖像的數目F。如果i大于F,轉至步驟1536;否則轉至步驟1534。步驟1534,將第i個圖像的文本描述中出現的詞加入集合TERM(已出現在查詢關鍵詞中的除外)。步驟1535將計數器i加1,轉至步驟1533。步驟1536,根據公式(1)計算TERM中每個詞的分值,選擇分值最高的k個詞作為新增的查詢關鍵詞。注意此時公式(1)中,rt是被用戶選擇為相關的圖像的文本描述中包含t的圖像的數目,nt是圖5集合IMG中的圖像的文本描述中包含t的圖像的數目,R是被用戶選擇為相關的圖像的數目,N是圖5集合IMG中的圖像的數目。
權利要求
1.一種Web搜索中的圖像摘錄反饋方法,其特征是該方法包括以下步驟(1)網頁處理裝置接受用戶提交的由關鍵詞組成的查詢,使用基于關鍵詞的Web搜索方法對Web進行搜索;(2)基于圖像摘錄進行反饋的方法精化用戶查詢;(3)最終返回用戶滿意的搜索結果。其中基于圖像摘錄進行反饋的方法精化用戶查詢包括以下步驟(11)獲取用戶的查詢關鍵詞;(12)利用基于關鍵詞的Web搜索方法獲取相關的網頁;(13)從搜索到的相關網頁中生成網頁的文字摘要和圖像摘錄,并將這些信息提交給用戶,供用戶了解搜索結果;(14)用戶對搜索到的網頁進行判斷,如果網頁滿足用戶的需求,則轉至(16),整個過程結束;否則,轉至(15);(15)獲取用戶的反饋信息,生成新的查詢關鍵詞,轉至(12);(16)結束。
2.根據權利要求1所述的Web搜索中的圖像摘錄反饋方法,其特征是(13)中獲取網頁的文本摘要和圖像摘錄包括以下步驟(131)使用已知的生成文字摘要的方法生成網頁的文字摘要;(132)生成第一類的圖像摘錄,這一類的圖像摘錄與網頁一一對應,用于輔助文字摘要展示網頁內容并用于之后的用戶反饋;(133)生成第二類的圖像摘錄,該類的圖像摘錄用于之后的用戶的反饋;(134)結束。
3.根據權利要求2所述的Web搜索中的圖像摘錄反饋方法,其特征是(132)中獲取第一類圖像摘錄包括以下步驟(1321)將計數器i置為1;(1322)判斷i是否大于搜索到的網頁的數目M,如果i大于M,轉至(1328),否則轉至(1323);(1323)利用已知的網頁分塊算法對第i個網頁進行分塊;(1324)利用Web搜索方法中的重要性判別方法判斷各個分塊重要與否;(1325)從至少包含一幅圖像的重要分塊中,選出與查詢關鍵詞最相似的分塊;(1326)從最相似的分塊中選出最先出現的圖像作為第i個網頁的圖像摘錄;(1327)將i加1,轉至步驟1322;(1328)結束。
4.根據權利要求2所述的Web搜索中的圖像摘錄反饋方法,其特征是(133)中獲取第二類圖像摘錄的步驟是(1331)將集合IMG置空;(1332)將計數器i置為1;(1333)判斷i是否大于搜索到的網頁的數目M,如果i大于M,轉至(1338);否則轉至(1334);(1334)利用Web搜索方法中的網頁分塊方法對第i個網頁進行分塊;(1335)利用Web搜索方法中的重要性判別方法判斷各個分塊重要與否;(1336)將重要分塊中的圖像加入集合IMG;(1337)將i加1,轉至(1333);(1338)根據IMG中圖像的文字描述與查詢關鍵詞的相似程度對IMG中的圖像進行排序,選出最相似的j幅圖像作為第二類的圖像摘錄;(1339)結束。
5.根據權利要求1所述的Web搜索中的圖像摘錄反饋方法,其特征是(15)中獲取用戶的反饋信息,生成新的查詢關鍵詞以精化查詢包括以下步驟;(151)由用戶選擇進行哪一類的反饋;(152)用戶選擇進行第一類反饋,根據用戶的反饋信息生成新的查詢關鍵詞;(153)用戶選擇進行第二類反饋;(154)結束。
6.根據權利要求5所述的Web搜索中的圖像摘錄反饋方法,其特征是(152)中在第一類反饋中生成新的查詢關鍵詞包括以下步驟(1521)置集合TERM為空;(1522)置計數器i為1;(1523)判斷i是否小于用戶反饋的網頁的數目F,如果i大于F,轉至(1526);否則轉至(1524);(1524)將第i個網頁中出現的詞加入集合TERM,已出現在查詢關鍵詞中的除外;(1525)將計數器i加1,轉至(1523);(1526)根據以下公式計算TERM中每個詞的分值,選擇分值最高的k個詞作為新增的查詢關鍵詞Score(t)=logrt/(R-rt)(nt-rt)/(N-nt-R+rt)×(rtR-nt-rtN-R)]]>式中,Score(t)是詞t的分值,rt是被用戶選擇為相關的網頁中包含t的數目,nt是搜索到的網頁中包含t的數目,R是被用戶選擇為相關的網頁的數目,N是搜索到的網頁的數目;(1527)結束。
7.根據權利要求5所述的Web搜索中的圖像摘錄反饋方法,其特征是(153)中在第二類反饋中生成新的查詢關鍵詞包括以下步驟(1531)置集合TERM為空;(1532)置計數器i為1;(1533)判斷i是否小于用戶反饋的圖像的數目F,如果i大于F,轉至(1536);否則轉至(1534);(1534)將第i個圖像的文本描述中出現的詞加入集合TERM,已出現在查詢關鍵詞中的除外;(1535)將計數器i加1,轉至(1533);(1536)根據以下公式計算TERM中每個詞的分值,選擇分值最高的k個詞作為新增的查詢關鍵詞Score(t)=logrt/(R-rt)(nt-rt)/(N-nt-R+rt)×(rtR-nt-rtN-R)]]>(1537)結束。
全文摘要
本發明公開了一種適用于Web搜索中的圖像摘錄反饋方法,包括以下步驟(1)網頁處理裝置接受用戶提交的由關鍵詞組成的查詢,使用基于關鍵詞的Web搜索方法對Web進行搜索;(2)基于圖像摘錄進行反饋的方法精化用戶查詢;(3)最終返回用戶滿意的搜索結果。本發明所提供的方法同時使用網頁中的文字信息和網頁中大量存在的圖像信息,通過有效地獲取用戶的信息需求極大地輔助提高Web搜索的性能。
文檔編號G06F17/30GK1845100SQ20061004031
公開日2006年10月11日 申請日期2006年5月15日 優先權日2006年5月15日
發明者周志華, 薛曉冰, 張仲非 申請人:南京大學