一種信息聚合方法及系統的制作方法
【技術領域】
[0001]本發明涉及信息聚合領域,尤其涉及一種信息聚合方法及系統。
【背景技術】
[0002]現有技術中,聚合網站會抓取多個不同網站的內容,聚合后提供給用戶使用。例如,視頻網站都會有各種類型視頻的排行榜,以便讓用戶了解最熱的視頻內容,而視頻網站一般都是通過每個視頻被觀看的次數(點擊數)排序,從而得出最熱視頻的排行榜,聚合網站則會將這些視頻網站的排行榜數據聚合在一起形成新的排行榜,提供給用戶使用。
[0003]但,以視頻網站為例,現有的聚合網站存在以下問題:因為抓取的是不同視頻網站的排行榜數據,而不同視頻網站的用戶數量大都不在一個基數,所以每個網站的視頻被觀看次數也大都不在一個基數,所以聚合網站若將各視頻網站的排行榜直接抓取過來使用,則無法反映出各視頻真實的熱度。
[0004]因此,現有技術還有待于改進和發展。
【發明內容】
[0005]鑒于上述現有技術的不足,本發明的目的在于提供一種信息聚合方法及系統,旨在解決現有的信息聚合方法無法真實反映信息的熱度的問題。
[0006]本發明的技術方案如下:
一種信息聚合方法,其中,包括步驟:
A、抓取多個網站的信息庫數據,并為每一網站配置一個權重值;
B、對各網站的信息庫數據進行去重處理,將各網站信息庫數據中相同內容的信息過濾,只保留其中一條權重值最聞的網站的?目息;
C、按信息庫中的信息排序將各網站去重處理之后的信息庫數據進行重新排列;
D、將各網站按照權重大小進行排序,然后按照網站排序依次從各網站的信息庫數據中抽取排列在前的信息,形成包含預定信息數量的聚合信息庫。
[0007]所述的信息聚合方法,其中,所述步驟D具體包括:
D1、預先設置聚合信息庫中的信息數量T ;
D2、計算需從每個網站的信息庫中抽取的平均信息數量X,Χ=Τ/Ν, N為網站的個數;
D3、判斷是否有信息庫數據中包含的信息數量小于X,當是時,轉入步驟D4,當否時,轉入步驟D5 ;
D4、按照網站排序逐條從各網站的信息庫數據中抽取排列在前的信息,并將輪空的信息庫剔除,然后繼續按照網站排序逐條從各網站抽取排列在前的信息,直至抽取到T條信息;
D5、按照網站排序逐條從各網站的信息庫數據中抽取排列在前的信息,直至抽取到T條信息;
D6、按照抽取的順序對T條信息進行排序,形成聚合信息庫。
[0008]所述的信息聚合方法,其中,所述網站為多媒體網站,所述信息為多媒體信息。
[0009]所述的信息聚合方法,其中,所述步驟A中,根據各網站的用戶數量為每一網站配置一權重值。
[0010]所述的信息聚合方法,其中,所述步驟B具體包括:
將各個網站信息庫數據中各條信息的名稱進行比較,將相同名稱的信息過濾掉,只保留其中一條權重值最聞的網站的彳目息。
[0011]所述的信息聚合方法,其中,所述步驟C中,在被去重的網站信息庫數據中,被過濾掉的信息依次由后面的信息補上,形成重新排列之后的信息庫。
[0012]—種信息聚合系統,其中,包括:
抓取模塊,用于抓取多個網站的信息庫數據,并為每一網站配置一個權重值;
去重模塊,用于對各網站的信息庫數據進行去重處理,將各網站信息庫數據中相同內容的信息過濾,只保留其中一條權重值最高的網站的信息;
重排模塊,用于按信息庫中的信息排序將各網站去重處理之后的網站信息庫數據進行重新排列;
聚合模塊,用于將各網站按照權重大小進行排序,然后按照網站排序依次從各網站的信息庫數據中抽取排列在前的信息,形成包含預定信息數量的聚合信息庫。
[0013]所述的信息聚合系統,其中,所述聚合模塊具體包括:
數量設置單元,用于預先設置聚合信息庫中的信息數量T ;
平均信息數量計算單元,用于計算需從每個網站的信息庫中抽取的平均信息數量X,X=T/N,N為網站的個數;
判斷單元,用于判斷是否有網站信息庫數據中包含的信息數量小于X,當是時,按照網站排序逐條從各網站的信息庫數據中抽取排列在前的信息,并將輪空的信息庫剔除,然后繼續按照網站排序逐條從各網站抽取排列在前的信息,直至抽取到T條信息,當否時,按照網站排序逐條從各網站的信息庫數據中抽取排列在前的信息,直至抽取到T條信息;
排序單元,用于按照抽取的順序對T條信息進行排序,形成聚合信息庫。
[0014]所述的信息聚合系統,其中,所述網站為多媒體網站,所述信息為多媒體信息。
[0015]所述的信息聚合系統,其中,所述去重模塊用于將各個網站信息庫數據中各條信息的名稱進行比較,將相同名稱的信息過濾掉,只保留其中一條權重值最高的網站的信息。
[0016]有益效果:本發明通過對各網站的信息庫數據進行去重處理,使得重復信息被剔除,并且為每一網站設置一權重值,按照權重大小從各網站抽取排列在前的信息,從而形成聚合信息庫,通過本發明的方法,信息聚合可更真實反映各條信息的熱度,并且結合了各網站的權重,將各網站信息庫的數據融合在一起,得出的數據更加真實、準確。
【附圖說明】
[0017]圖1為本發明一種信息聚合方法較佳實施例的流程圖。
[0018]圖2為圖1所示方法較佳實施例中步驟S104的具體流程圖。
[0019]圖3為本發明一種信息聚合系統較佳實施例的結構框圖。
[0020]圖4為圖3所示系統較佳實施例中聚合模塊的具體結構框圖。
【具體實施方式】
[0021]本發明提供一種信息聚合方法及系統,為使本發明的目的、技術方案及效果更加清楚、明確,以下對本發明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
[0022]請參閱圖1,圖1為本發明一種信息聚合方法較佳實施例的流程圖,如圖所示,其包括步驟:
5101、抓取多個網站的信息庫數據,并為每一網站配置一個權重值;
5102、對各網站的信息庫數據進行去重處理,將各網站信息庫數據中相同內容的信息過濾,只保留其中一條權重值最聞的網站的?目息;
5103、按信息庫中的信息排序將各網站去重處理之后的網站信息庫數據進行重新排列;
5104、將各網站按照權重大小進行排序,然后按照網站排序依次從各網站的信息庫數據中抽取排列在前的信息,形成包含預定信息數量的聚合信息庫。
[0023]在本實施例中,首先抓取多個網站的信息庫數據,本實施例中,所述的信息庫數據可以是各網站的排行榜數據,例如視頻網站的視頻排行榜,也可以是其他信息庫數據,例如視頻網站的各種類型的影片庫,例如喜劇片、戰爭片、科幻片、動作片等等類型的影片庫,在這些信息庫中都具有原有的排序。本發明的目的就是將各種網站的信息庫數據融合在一起,形成能夠真實反映熱度排行的聚合信息庫。本實施例主要以排行榜數據來舉例說明,顯然,對于其他類型的信息庫都可以采用本發明的方法來進行聚合