專利名稱::一種對博客文章進行排序的方法及系統的制作方法
技術領域:
:本發明涉及通信領域,更具體地說,涉及一種對博客文章進行排序的方法及系統。
背景技術:
:隨著互聯網的發展,網絡日志(Weblog,簡作Blog,中文即"博客,,)已成為一種常見的網絡服務。目前已有大量互聯網公司推出各自的博客搜索引擎,這些博客搜索引擎對檢索到的博客文章所采取的排序方法不盡相同,但都是通過對用戶輸入的檢索串進行計算處理,找到最相關的一組結果,返回給用戶,從而使用戶可以找到與自己期望最相關的博客文章。目前普遍存在的兩種排序方式是,按相關度排序和按時間排序,而比較典型的是按照相關度進行排序。按照相關度進行排序的具體過程是首先計算檢索串與各博客之間的相關性權值,包括數值相關性權值和文本相關性權值,一般是將檢索串分解成多個檢索詞,使得檢索串與博客的相關性分解為檢索詞與博客的相關性,從而根據相關性權值建立檢索串與博客文章之間的索引;當用戶進行檢索時,則根據用戶輸入的檢索串到建立的索引中進行搜索,并按照相關性權值的大小對各博客文章進行排序,最后將排序后的結果發送給用戶顯示。上述排序方法雖然能在一定程度上準確地為用戶提供博客文章的排序結果,但是存在的一個弊端是,往往會使得一些低質量文章的排序比較靠前。本專利將詞匯豐富、言之有物的博客文章定義為高質量文章,而將詞匯貧乏、大量語句重復的文章定義為低質量文章。一些低質量文章,其通篇或者局部只有幾個詞翻來覆去地出現,但在上述的排序方法中,這些文章卻能通過詞語的重復和堆砌而獲得較靠前的排序,這是一種典型的文本作弊現象。對于目前的大多數按照相關度進行排序的博客搜索引擎,其對博客文章的排序結果均無法排除上述文本作弊現象造成的影響。因此需要一種新的對博客文章進行排序的方法,避免文本作弊對排序結果的客觀準確性造成的影響,從而提高用戶的檢索質量
發明內容本發明的目的在于提供一種對博客文章進行排序的系統,旨在解決現有技術對博客文章進行排序時無法排除文本作弊的影響,使得用戶的檢索質量較低的問題。本發明的目的還在于提供一種對博客文章進行排序的方法,以更好地解決現有技術中存在的上述問題。為了實現發明目的,所述對博客文章進行排序的系統,包括客戶端、博客系統、根據檢索詞與博客文章之間的相關性權值建立索引的索引器、根據用戶輸入的檢索詞到索引器中查詢對應的博客文章并進行排序的檢索器,所述索引器包含一個文本作弊識別單元,用于在索引器計算檢索詞與博客文章之間的相關性權值時,對文本作弊的博客文章進行識別和降權處理。優選地,所述索引器還包括與文本作弊識別單元相連的文本相關性判定單元,及索引構建單元;所述文本相關性判定單元用于根據從博客系統提取的文本相關性因子,計算檢索詞與各博客文章的文本相關性權值,并將降權處理后的文本相關性權值送入索引構建單元;所述索引構建單元用于根據所述文本相關性權值構建索引。優選地,所述索引器還包括數值相關性判定單元、疊加計算單元;所述數值相關性判定單元用于根據從博客系統提取的數值相關性因子,計算檢索詞與各博客文章的數值相關性權值;所述疊加計算單元用于對所述數值相關性權值和文本相關性權值進行疊加計算,得到該檢索詞的綜合相關性權值,并送入索引構建單元;所述索引構建單元根據所述綜合相關性權值構建索引。優選地,所述^r索器進一步包括查詢單元和排序單元;所述查詢單元用于根據用戶輸入的檢索詞,從索引器已建立的索引中查詢該檢索詞與各博客文章之間的綜合相關性權值,并送入排序單元;所述排序單元根據所述綜合相關性權值的大小,對與檢索詞相關的各博客文章進行排序。優選地,所述系統還包括與客戶端及博客系統分別相連的代理器,其用于將客戶端發送的檢索串切分為多個檢索詞,并將所述檢索詞發送給檢索器。優選地,所述檢索器還包括復合相關性計算單元,與查詢單元及排序單元分別相連;所述復合相關性計算單元用于根據查詢單元獲取的各檢索詞與各博客文章之間的綜合相關性權值,計算所述4企索串與各博客文章之間的復合相關性權值,并送入排序單元;所述排序單元根據所述復合相關性權值,對與檢索串相關的各博客文章進行排序。為了更好地實現發明目的,所述對博客文章進行排序的方法,包括建立索引,及根據用戶的輸入進行查詢排序,所述建立索引的的步驟包括A.從博客系統提取相關性因子;B.根據所述相關性因子計算檢索詞與各博客文章的相關性權值,同時對文本作弊的博客文章進行識別和降權處理;C.根據降權后的相關性權值構建檢索詞與各博客文章之間的索引。優選地,所述步驟A中的相關性因子是指文本相關性因子,所述相關性權值則是指文本相關性權值。優選地,所述步驟A中的相關性因子包括數值相關性因子和文本相關性因子,所述相關性權值是指數值相關性權值與文本相關性權值疊加后的綜合相關性權值。優選地,所述步驟B中對文本作弊的博客文章進行識別和P條權處理的步驟進一步包括Bl.利用一個最大容量固定、長度可變的滑動窗口遍歷博客文章,并記錄滑動窗口所達到的最大長度,其中所述容量是指滑動窗口容納的不同詞匯的數量,長度是指滑動窗口內詞匯的總量;B2,遍歷結束時,將所述滑動窗口達到過的最大長度與一個閾值進行比較》若超過閾值則將該博客文章判定為文本作弊;B3.對所述博客文章的相關性權值進行降權處理。優選地,所述根據用戶的輸入進行查詢排序的步驟包括D.接收用戶輸入的檢索詞;E.根據所述檢索詞,從已建立的索引中查詢該檢索詞與各博客文章之間的相關性權值;F.根據所述相關性權值的大小對與檢索詞相關的各博客文章進行排序,并將排序結果反饋給用戶。優選地,所述4艮據用戶的輸入進行查詢排序的步驟包括D,.接收用戶輸入的檢索串,并將所述檢索串切分為多個檢索詞;E,.從已建立的索引中查詢各個檢索詞與各博客文章之間的相關性權值,并計算檢索串與博客文章之間的復合相關性權值;F,.根據所述復合相關性權值的大小對與檢索串相關的各博客文章進行排序,并將排序結果反饋給用戶。本發明在相關性權值的計算中對文本作弊的博客文章進行識別和處理,從而建立準確的索引并基于此索引對搜索到的博客文章進行排序,因此提高了排序的客觀準確性,保證了用戶的檢索質量。圖l是本發明中對博客文章進行排序的系統結構圖;圖2是本發明的一個實施例中索引器的結構圖;圖3是本發明的一個實施例中檢索器的結構圖;圖4是本發明在對博客文章進行排序的過程中建立索引的方法流程圖;圖5是本發明的一個實施例在對博客文章進行排序的過程中建立索引的方法流程圖;圖6是本發明在建立索引的過程中對文本作弊現象進行識別和處理的方法流程圖;圖7是本發明的一個實施例在圖4或圖5建立索引的過程中對文本作弊現象進行識別和處理的方法流程圖;圖8是本發明的一個實施例基于圖4或圖5中建立的索引對博客文章進行排序的方法流程圖;圖9是本發明的另一實施例基于圖4或圖5中建立的索引對博客文章進行排序的方法流程圖。具體實施方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。本發明基于建立的索引對博客文章進行排序,而建立索引是通過計算檢索詞與博客文章的相關性權值而進行的,本發明由于在相關性權值的計算中通過水貼識別算法識別出文本作弊的博客文章,并對其進行降權處理,因此可建立更為準確的索引,從而提高了基于此索引進行排序的客觀準確性,保證了用戶進行博客檢索的質量。圖l示出了本發明中對博客文章進行排序的系統結構,該系統包括博客系統100、索引器200、4全索器300、代理器400和客戶端500。應當說明的是,本發明所有圖示中各設備之間的連接關系是為了清楚闡釋其信息交互及控制過程的需要,因此應當視為邏輯上的連接關系,而不應僅限于物理連接。其中(1)博客系統100用于為用戶提供博客相關服務,包括對博客文章進行存儲和管理等,并在本發明中為索引器200提供相關性因子,包括文本相關性因子(例如,文本的分類、標題、正文、昵稱、空間名等),及數值相關性因子(例如,活躍度因子、轉載率因子、回復率因子、發表時間因子等)。該博客系統IOO的核心可為一個網站服務器,但是本發明并不限定其具體形式。(2)索引器200用于根據博客系統100中的數據建立索引,供檢索器300基于該索引對所搜索的博客文章進行排序。在一個實施例中,如圖2所示,該索引器200進一步包括數值相關性判定單元201、文本相關性判定單元202、文本作弊識別單元203、疊加計算單元204和索引構建單元205,其中數值相關性判定單元201用于根據從博客系統100提取的數值相關性因子,計算檢索詞與各博客文章的數值相關性權值;文本相關性判定單元202用于根據從博客系統100提取的文本相關性因子,計算檢索詞與各博客文章的文本相關性權值;文本作弊識別單元203用于在文本相關性判定單元202計算檢索詞與博客文章之間的文本相關性權值時,對文本作弊的博客文章進行識別和降權處理,并將降權處理后的文本相關性權值發送給文本相關性判定單元202;疊加計算單元204用于對前述的數值相關性權值和文本相關性權值進行疊加計算,得到該^r索詞的綜合相關性權值,并送入索引構建單元205;索引構建單元205根據該綜合相關性權值構建索引。在另一實施例中,該索引器200僅包括文本相關性判定單元202、文本作弊識別單元203和索引構建單元205,其中文本相關性判定單元202用于根據從博客系統1OO提取的文本相關性因子,計算檢索詞與各博客文章的文本相關性權值;文本作弊識別單元203用于識別文本作弊的博客文章,并對其文本相關性權進行轉發;索引構建單元205則根據接收到的文本相關性權值構建檢索詞與各博客文章之間的索引。由于本實施例雖然可以實現,但是由于構建索引的過程僅考慮文本相關性因子,索引的準確度不夠高,因此前一實施例中索引器200的結構在當前應用中更為廣泛和典型。(3)檢索器300根據用戶輸入的檢索詞進行查詢并對博客文章進行排序。在一個實施例中,如圖3所示,該檢索器300進一步包括查詢單元301、復合相關性計算單元302、排序單元303。在該實施例中,用戶最初輸入的是包含多個檢索詞的才企索串,由代理器400切分為檢索詞后送入檢索器300,;險索器300收到檢索詞后則進行處理,其中查詢單元301從索引器200已建立的索引中查詢各檢索詞與各博客文章之間的相關性權值(文本相關性權值,或綜合相關性權值),并送入排序單元;復合相關性計算單元302則才艮據各;f企索詞的相關性權值,計算檢索串與各博客文章之間的復合相關性權值,并送入排序單元303;排序單元303根據復合相關性權值,對與檢索串相關的各博客文章進行排序。在另一實施例中,該4企索器300僅包括查詢單元301、排序單元303,該實施例適用于用戶輸入檢索詞而非檢索串的情形,因此該實施例中檢索器300可與客戶端500直接相連并進行通信。其中查詢單元301根據用戶輸入的4企索詞,從索引器200已建立的索引中查詢該檢索詞與各博客文章之間的相關性權值(文本相關性權值,或綜合相關性權值),并送入排序單元303;排序單元303根據所收到的相關性權值的大小,對與檢索詞相關的各博客文章進行排序。應當說明的是,由于目前用戶大多輸入的都是包含多個檢索詞的檢索串,因此前一實施例中>^索器300的結構在當前應用中更為廣泛和典型。(4)代理器400用于接收客戶端500發送的沖企索串,并將4企索串切分為4企索詞,發送給檢索器300,以及將檢索器300檢索并排序后的結果轉發給客戶端500。在本發明的一個實施例中,如圖3所示的檢索器300的結構,在此情形下代理器400是本發明系統所必需的。(5)客戶端500中登錄有用戶,其接收用戶輸入的檢索詞或者檢索串若用戶輸入的是檢索詞,可直接將其發送給檢索器300,并在接收到4全索器300反饋的博客文章排序結果后,將排序結果繪制并顯示到用戶界面上;若用戶輸入的是檢索串,則須發送給代理器400進行切分,并在接收到代理器400反饋的博客文章排序結果后,將排序結果繪制并顯示到用戶界面上。客戶端500典型的可為各種能夠登錄互聯網的終端設備,例如個人計算機(PersonalComputer,PC)、個人數字助理(PersonalDigitalAssistant,PDA)、移動電話(MobilePhone,MP)等,因此本發明的保護范圍不應限定為某種特定類型的客戶端。圖4示出了本發明在對博客文章進行排序的過程中建立索引的方法流程,包括以下步驟在步驟S401中,索引器200從博客系統100中提取相關性因子,并對這些數據進行格式化。本發明中所稱的相關性因子,包括文本相關性因子(例如,文本的分類、標題、正文、昵稱、空間名等),及數值相關性因子(例如,活躍度因子、轉載率因子、回復率因子、發表時間因子等)。大部分的相關性因子的取值都映射到一個固定區間,例如0,100,小部分則為數據的原始值,這些相關性因子在索引器200構建索引時,將作為相關性權值計算時的輸入參數。在步驟S402中,索引器200計算檢索詞與各博客文章的相關性權值,同時對具有文本作弊現象的博客文章進行識別和降權處理。在一個實施例中,索引器200僅考慮文本相關性因子,其才艮據文本相關性因子計算檢索詞的文本相關性權值,并識別出文本作弊的博客文章,然后對檢索詞與該博客文章的文本相關性權值進行適當的降權處理,使其排得靠后一些。在另一實施例中,索引器200不僅考慮文本相關性因,還考慮了數值相關性因子,分別計算文本相關性權值和數值相關性權值,同時識別出文本作弊的博客文章,然后對檢索詞與該博客文章的文本相關性權值進行適當的降權處理,最后再將文本相關性權值和數值相關性權值進行疊加計算,得到綜合相關性權值。由此可知,前一實施例只是對文本相關性權值進行降權處理,而本實施例對文本相關性權值進行的降權處理實質上也對綜合相關性權值施加了作用。本實施例由于將數值相關因子也考慮了進來,因此進一步提高了數據的準確性。在步驟S403中,索引器200根據降權后的相關性權值構建檢索詞與各博客文章之間的索引。該索引記錄了各個檢索詞、與檢索詞對應的博客文章、檢索詞與博客文章之間的相關性權值,從而可在用戶輸入檢索詞進行搜索時,可按照索引中的數據對搜索到的博客文章進行排序,使用戶可以迅速找到最相關的博客文章。圖5示出了本發明的一個實施例在對博客文章進行排序的過程中建立索引的方法流程,該流程基于圖1及圖2所示的結構,具體包括在步驟S501中,索引器200從博客系統100中提取相關性因子,并對這些數據進行格式化。本發明中所稱的相關性因子,包括文本相關性因子(例如,文本的分類、標題、正文、昵稱、空間名等),及數值相關性因子(例如,活躍度因子、轉載率因子、回復率因子、發表時間因子等)。在步驟S502中,索引器200利用其數值相關性判定單元201計算檢索詞與各博客文章的數值相關性權值。在一個實施例中,數值相關性因子包括活躍度因子^。、轉載率因子『z^、回復率因子『朋、發表時間因子^r這四種,其中活躍度因子『w由博客系統IOO計算得出,取值范圍在0,100,其綜合考慮了博客個人空間的用戶登錄頻度、博客文章發表頻度等因素,是博客個人空間活躍程度的綜合衡量指標,活躍度越高,博客文章的排序結果優先度越高;轉載率因子『zx;是根據排重系統中得到的博客文章重復數計算得出,取值范圍在0,100,轉載率越高,博客文章的排序結果優先度越高;回復率因子W朋是根據博客文章的回復次數計算得出,取值范圍在0,100,回復率因子『朋越高,博客文章的排序結果優先度越高;發表時間因子『m是博客文章的發表時間,可采用UNIX時間來表示,越新發表的博客文章的排序結果優先度越高。數值相關性權值則由上面列出的所有相關性因子經過線型計算并歸一化得出,其取值范圍在區間0,1,其計算公式如下其中W為前面列出的所有相關性計算因子,義,.為對應的修正系數,用來增加或減小相關性因子的作用,可在對排序結果進行調整的過程中確定A的比較理想的取值,MAX—VALUE為該數值相關性權值的可能的最大取值。應當說明的是,上述計算公式只是一個示例,并不用以限定本發明的保護范圍,還可通過類似的公式進行計算。在步驟S503中,索引器200利用其文本相關性判定單元202計算檢索詞與各博客文章的文本相關性權值,并利用文本作弊識別單元203對文本作弊的博客文章進行降權處理。在本發明中,文本相關性因子也就是可用來檢索的文本字段。在一個實施例中,這些文本字段包括分類、標題、正文、昵稱、空間名這5個,每個字段有一個固定的權重值W和一個修正系數入,依次如下表所示字段名修正系數權重分類義C4標題『"正文Aco『"CO昵稱『空間名義zo『文本相關性權值的計算公式如下:<table>tableseeoriginaldocumentpage13</column></row><table>(2)其中,;l^十;l^+aco十義zo=1。應當說明的是,上述計算公式只是一個示例,并不用以限定本發明的保護范圍,還可通過類似的公式進行計算。當得到文本相關性一又值后,文本作弊識別單元203進一步識別具有文本作弊現象的博客文章,過程如圖6所示,包括S601,利用滑動窗口遍歷博客文章,并記錄該滑動窗口所達到的最大長度;S602,將活動窗口的最大長度與一個閾值進行比較,若超過閾值則將該博客文章判定為文本作弊;S603,對該博客文章的相關性權值進行適當的降權處理,例如可進行幅度調整,將文本相關性權值的大小修正為之前的60%。關于對文本作弊進行識別和處理的具體過程,將在圖7中進行詳細闡述。在步驟S504中,索引器200利用其疊加計算單元204對數值相關性權值和文本相關性權值進行疊加計算,得到綜合相關性權值。在一個實施例中,疊加計算公式如下力=義顧*+A國*『畫(3)其中,義婦、義m^分別是兩種相關性權值進行疊加時的修正系數,大小可以靈活調整,且義,+^鵬=1。應當說明的是,上述計算公式只是一個示例,并不用以限定本發明的保護范圍,還可通過類似的公式進行計算。在步驟S505中,索引器200利用其索引構建單元205根據綜合相關性權值并進行存儲,以供用戶搜索時的提取應用。圖7示出了本發明的一個實施例在建立索引的過程中采用水帖識別算法對文本作弊現象進行識別和處理的方法流程,該算法利用一個最大容量固定、長度可變的滑動窗口從左到右遍歷整篇文章,并記錄該窗口曾達到的最大長度。窗口的"容量,,定義為該窗口容納的不同的詞的個數,窗口的"長度"定義為窗口內詞的總個數,即左右邊界之間的距離,窗口總是盡量伸長(右邊界右移),只有在超過最大容量時才縮短(左邊界右移)。在窗口的容量固定時,詞匯貧乏的文章會擁有較長的窗口長度,因此,一篇博客文章的最大窗口長度越大,其越可能是存在文本作弊現象的低質量文章。在該算法中,設滑動窗口的容量為C,其最大值設定為Qnax;用一個C、C+1的遞增數組存放該滑動窗口內不同的詞,記錄為"窗口詞表";并設滑動窗口的長度為L,其閾值設定為LT。在步驟S701中,從博客文章中讀取第一個詞到滑動窗口,記錄容量C-l,長度L:1。在步驟S702中,判斷是否讀取到下一個詞若是,則執行S703;若否,則轉步驟S710。在步驟S703中,滑動窗口的右邊界右移,將讀取到的新詞包含在滑動窗口內。在步驟S704中,判斷該詞是否已存在于窗口詞表中若是,則執行步驟S705;若否,則執行步驟步驟S706。在步驟S705中,窗口詞表及容量C不變,長度L遞增,該步驟結束后轉步驟S702繼續讀取。在步驟S706中,該詞不存在于窗口詞表中,則將其加入窗口詞表,容量C遞增,長度L遞增。在步驟S707中,判斷窗口容量C是否超過最大值Cmax:若是,則執行步驟S708;若否,則轉步驟S702繼續讀取。在步驟S708中,窗口容量C是否超過最大值C纖,窗口的左邊界右移,窗口縮短至只包含最新讀取的詞。在步驟S709中,判斷該篇博客文章是否已遍歷完畢若是,則執行步驟S710;若否,則轉步驟S702繼續讀取。在步驟S710中,當博客文章遍歷完畢時,則根據記錄的滑動窗口最大長度,判斷該博客文章的重要性若滑動窗口最大長度大于閾值LT,則說明該博客文章存在文本作弊現象,需要對其文本相關性權值進行降權處理。圖8示出了本發明的一個實施例基于圖4或圖5中建立的索引對博客文章進行排序的方法流程,該實施例是用戶輸入檢索詞的情形,包括在步驟S801中,檢索器300接收到客戶端500中用戶輸入的檢索詞。在步驟S802中,檢索器300從索引器200已構建的索引中提取各檢索詞與博客文章的相關性權值,該相關性權值可能是文本相關性權值,也可能是文本相關性權值與數值相關性權值疊加后的綜合相關性權值。在步驟S803中,檢索器300根據相關性權值對搜索到的博客文章進行排序,并將排序結果反饋給客戶端500。圖9示出了本發明的另一實施例基于圖4或圖5中建立的索引對博客文章進行排序的方法流程,該實施例是用戶輸入檢索串的情形,具體包括在步驟S901中,代理器400將客戶端500中用戶輸入的檢索串切分為檢索詞,并送入^r索器300。在步驟S902中,檢索器300從索引器200構建的索引中提取各檢索詞與博客文章的相關性權值,該相關性權值可能是文本相關性權值,也可能是文本相關性權值與數值相關性權值疊加后的綜合相關性權值。在步驟S903中,檢索器300計算檢索串與博客文章的復合相關性權值。在本發明中,用戶輸入檢索串與博客文章的相關性,可認為是單個檢索詞與該博客文章的相關性的綜合結果,因此在一個實施例中,采用簡單相加后求平均值的模型來計算復合相關性權值。設對于檢索串Q,Q={qi,q2,……,qn},n為檢索串切分后的索引詞個數,d為一個檢索詞qn命中的所有博客文章,那么該檢索串Q與博客文章之間的復合相關性權值的計算公式為<formula>formulaseeoriginaldocumentpage15</formula>(4)n應當說明的是,上述計算公式只是一個示例,并不用以限定本發明的保護范圍,還可通過類似的公式進行計算。在步驟S904中,檢索器300根據復合相關性權值對搜索到的博客文章進行排序,并將排序結果送入代理器400。在步驟S905中,代理器400將排序結果轉發給客戶端500,并將排序結果顯示到用戶界面上。以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護范圍之內。權利要求1、一種對博客文章進行排序的系統,包括客戶端、博客系統、根據檢索詞與博客文章之間的相關性權值建立索引的索引器、根據用戶輸入的檢索詞到索引器中查詢索引并對博客文章進行排序的檢索器,其特征在于,所述索引器包含一個文本作弊識別單元,用于在索引器計算檢索詞與博客文章之間的相關性權值時,對文本作弊的博客文章進行識別和降權處理。2、根據權利要求l所述的對博客文章進行排序的系統,其特征在于,所述索引器還包括與文本作弊識別單元相連的文本相關性判定單元,及索引構建單元5所述文本相關性判定單元用于根據從博客系統提取的文本相關性因子,計算檢索詞與各博客文章的文本相關性權值,并將降權處理后的文本相關性權值送入索引構建單元;所述索引構建單元用于根據所述文本相關性權值構建索引。3、根據權利要求2所述的對博客文章進行排序的系統,其特征在于,所述索引器還包括數值相關性判定單元、疊加計算單元;所述數值相關性判定單元用于根據從博客系統提取的數值相關性因子,計算檢索詞與各博客文章的數值相關性權值;所述疊加計算單元用于對所述數值相關性權值和文本相關性權值進行疊加計算,得到該檢索詞的綜合相關性權值,并送入索引構建單元;所述索引構建單元根據所述綜合相關性權值構建索引。4、根據權利要求3所述的對博客文章進行排序的系統,其特征在于,所述檢索器進一步包括查詢單元和排序單元;所述查詢單元用于根據用戶輸入的檢索詞,從索引器已建立的索引中查詢該檢索詞與各博客文章之間的綜合相關性權值,并送入排序單元;所述排序單元根據所述綜合相關性權值的大小,對與檢索詞相關的各博客文章進行排序。5、根據權利要求4所述的對博客文章進行排序的系統,其特征在于,所述系統還包括與客戶端及博客系統分別相連的代理器,其用于將客戶端發送的檢索串切分為多個檢索詞,并將所述檢索詞發送給4企索器。6、根據權利要求5所述的對博客文章進行排序的系統,其特征在于,所述檢索器還包括復合相關性計算單元,與查詢單元及排序單元分別相連;所述復合相關性計算單元用于根據查詢單元獲取的各4企索詞與各博客文章之間的綜合相關性權值,計算所述檢索串與各博客文章之間的復合相關性權值,并送入排序單元;所述排序單元根據所述復合相關性權值,對與檢索串相關的各博客文章進行排序。7、一種對博客文章進行排序的方法,包括建立索引,及根據用戶的輸入進行查詢排序,其特征在于,所述建立索引的的步驟包括A.從博客系統提取相關性因子;B.根據所述相關性因子計算檢索詞與各博客文章的相關性權值,同時對文本作弊的博客文章進行識別和降權處理;C.根據降權后的相關性權值構建檢索詞與各博客文章之間的索引。8、根據權利要求7所述的對博客文章進行排序的方法,其特征在于,所述步驟A中的相關性因子是指文本相關性因子,所述相關性權值則是指文本相關性權值。9、根據權利要求7所述的對博客文章進行排序的方法,其特征在于,所述步驟A中的相關性因子包括數值相關性因子和文本相關性因子,所述相關性權值是指數值相關性權值與文本相關性權值疊加后的綜合相關性權值。10、根據權利要求7所述的對博客文章進行排序的方法,其特征在于,所述步驟B中對文本作弊的博客文章進行識別和降權處理的步驟進一步包括Bl.利用一個最大容量固定、長度可變的滑動窗口遍歷博客文章,并記錄滑動窗口所達到的最大長度,其中所述容量是指滑動窗口容納的不同詞匯的數量,長度是指滑動窗口內詞匯的總量;B2.遍歷結束時,將所述滑動窗口達到的最大長度與一個閾值進行比較,若超過閾值則將該博客文章判定為存在文本作弊;B3.對所述博客文章的相關性權值進行降權處理。11、根據權利要求7至10中任一權利要求所述的對博客文章進行排序的方法,其特征在于,所述根據用戶的輸入進行查詢排序的步驟包括D.接收用戶輸入的4企索詞;E.根據所述檢索詞,從已建立的索引中查詢該檢索詞與各博客文章之間的相關性權值;F.根據所述相關性權值的大小對與檢索詞相關的各博客文章進行排序,并將排序結果反饋給用戶。12、根據權利要求ll所述的對博客文章進行排序的方法,其特征在于,所述根據用戶的輸入進行查詢排序的步驟包括D,.接收用戶輸入的檢索串,并將所述檢索串切分為多個檢索詞;E,.從已建立的索引中查詢各個檢索詞與各博客文章之間的相關性權值,并計算檢索串與博客文章之間的復合相關性權值;F,.根據所述復合相關性權值的大小對與檢索串相關的各博客文章進行排序,并將排序結果反饋給用戶。全文摘要本發明涉及通信領域,提供了一種對博客文章進行排序的方法及系統。一種對博客文章進行排序的方法,包括建立索引,及根據用戶的輸入進行查詢排序,其特征在于,所述建立索引的步驟包括A.從博客系統提取相關性因子;B.根據所述相關性因子計算檢索詞與各博客文章的相關性權值,同時對文本作弊的博客文章進行識別和降權處理;C.根據降權后的相關性權值構建檢索詞與各博客文章之間的索引。本發明在相關性權值的計算中對文本作弊的博客文章進行識別和處理,從而建立準確的索引并基于此索引對搜索到的博客文章進行排序,因此提高了排序的客觀準確性,保證了用戶的檢索質量。文檔編號G06F17/30GK101127046SQ20071012362公開日2008年2月20日申請日期2007年9月25日優先權日2007年9月25日發明者亮董,謝海勸,邵榮防申請人:騰訊科技(深圳)有限公司