本發明涉及網絡數據處理技術領域,更具體地,涉及一種用于體育賽事的網絡數據獲取方法和系統。
背景技術:
在互聯網的大數據時代,人們逐漸擺脫了傳統的信息獲取方式,形成了通過互聯網來獲取信息的新的數據獲取形式。雖然互聯網使得信息采集和傳播的速度以及規模都達到了空前的水平,但是它同樣給人們的認知帶來了困惑,當通過人工的方式從互聯網上篩選數據并進行處理時,首先需要消耗大量的時間以及成本,其次人們很難在信息海洋中準確地獲取自己所需的信息,因此人們對數據收集和處理的準確性得不到保證。為了獲取有用的數據信息,已有一些公司和組織開發出搜索引擎等工具試圖幫助人們盡量容易的獲取所需要的數據,但是均存在數據獲取準確度低等問題。
現有體育賽事網絡數據獲取也存在同樣的問題,體育賽事網絡數據被上傳至各個站點,可能存在著大量的冗余數據,當用戶進行數據搜索時,這些數據在進入系統后會占用大量的系統資源,增加系統的處理負擔,而且有可能是無用的數據信息。
因此,提供一種用于體育賽事的網絡數據獲取方法和系統,解決現有技術中數據采集成本高,且準確性低的問題,是本領域亟待解決的問題。
技術實現要素:
有鑒于此,本發明提供了一種用于體育賽事的網絡數據獲取方法和系統,解決了現有技術中數據采集成本高,且準確性低的問題。
為了解決上述技術問題,本發明提出一種用于體育賽事的網絡數據獲取方法,包括:
接收網絡數據獲取請求,網絡數據獲取請求包括目標參數,目標參數包括體育賽事主題、關鍵詞列表及目標主題相關度;
將目標參數與存儲器中的歷史數據中的相應參數進行匹配,并計算網絡數據獲取請求與歷史數據之間的第一主題相關度;
若存儲器中的所有歷史數據的第一主題相關度均小于目標主題相關度,則從存儲器中提取至少一個歷史站點的統一資源定位符;
根據被提取的歷史站點向指定的網絡數據獲取器指定獲取任務;其中,指定的網絡數據獲取器對歷史站點的利用率大于利用率閾值,其中,利用率為網絡數據獲取器對歷史站點的爬取次數與歷史站點的總爬取次數的比值;
接收指定的網絡數據獲取器的獲取結果;
根據目標參數解析獲取結果,獲得解析參數,解析參數包括獲取結果主題和獲取結果關鍵詞列表;
將解析參數與目標參數進行匹配,計算獲取結果與網絡數據獲取請求之間的第二主題相關度;
將第二主題相關度與目標主題相關度進行比較;
若第二主題相關度大于或等于目標主題相關度,該獲取結果形成第一獲取結果,則將第一獲取結果發送至與網絡數據獲取請求相應的第一業務存儲器,其中存儲器包括第一業務存儲器;若第二主題相關度小于目標主題相關度,該獲取結果形成第二獲取結果,則將其中兩個第二獲取結果的解析參數進行匹配,形成兩個第二獲取結果之間的第三主題相關度;
將第三主題相關度與第一相關度閾值進行比較;
若第三主題相關度大于或等于第一相關度閾值,則將兩個第二獲取結果發送至與第二獲取結果相應的第二業務存儲器,其中存儲器包括第二業務存儲器。
進一步地,第一主題相關度、第二主題相關度以及第三主題相關度均采用simhash算法;
其中,網絡數據獲取方法還包括:
采用simhash算法獲得獲取結果之后,計算存儲器中的所有歷史數據的哈希值;
采用simhash算法獲得獲取結果的哈希值;
計算獲取結果的哈希值與歷史數據的哈希值差值的絕對值,獲得獲取結果與歷史數據之間的第四主題相關度;
將第四主題相關度與第二相關度閾值進行比較;
若第四主題相關度大于第二相關度閾值,則清除獲取結果;其中,第二相關度閾值大于第一相關度閾值。
進一步地,獲取任務包括獲取停止程序;
其中,網絡數據獲取方法還包括:
接收輸入站點及其站點描述;
將輸入站點的站點描述與歷史站點的站點描述進行比較;
若輸入站點的站點描述與歷史站點的站點描述不同,則將輸入站點發送至存儲器;
若未接收到指定的網絡數據獲取器的停止信息,則從存儲器中提取輸入站點的統一資源定位符;
向指定的網絡數據獲取器發送輸入站點的統一資源定位符。
進一步地,獲取任務包括獲取停止程序;
其中,網絡數據獲取方法還包括:
接收輸入站點及其站點描述;
將輸入站點的站點描述與歷史站點的站點描述進行比較;
若輸入站點的站點描述與歷史站點的站點描述不同,則將輸入站點發送至存儲器;
若所有的獲取結果的第二主題相關度均小于目標主題相關度,則從存儲器中提取輸入站點的統一資源定位符;
向指定的網絡數據獲取器發送輸入站點的統一資源定位符。
進一步地,還包括:
若至少一個獲取結果的第二主題相關度大于或等于目標主題相關度,則返回獲取成功結論;若所有的獲取結果的第二主題相關度均小于目標主題相關度,則返回獲取失敗結論;
計算預定時間間隔內每個歷史站點的獲取成功結論與獲取失敗結論的比值,形成歷史站點的成功率;
將歷史站點的成功率與歷史站點的成功率閾值進行比較;
若歷史站點的成功率小于歷史站點的成功率閾值,則返回故障信息;
接收歷史站點的修改后的站點描述;
將修改后的站點描述發送至存儲器。
本發明還提出了一種用于體育賽事的網絡數據獲取系統,包括請求接收模塊、歷史數據匹配模塊、歷史站點提取模塊、任務指定模塊以及結果接收模塊、解析模塊、解析參數匹配模塊、相關度比較模塊、獲取結果發送模塊,其中:
請求接收模塊,用于接收網絡數據獲取請求,網絡數據獲取請求包括目標參數,目標參數包括體育賽事主題、關鍵詞列表及目標主題相關度;
歷史數據匹配模塊,用于將目標參數與存儲器中的歷史數據中的相應參數進行匹配,并計算網絡數據獲取請求與歷史數據之間的第一主題相關度;
歷史站點提取模塊,用于:若存儲器中所有歷史數據的第一主題相關度均小于目標主題相關度,則從存儲器中提取至少一個歷史站點的統一資源定位符;
任務指定模塊,用于根據被提取的歷史站點向指定的網絡數據獲取器指定獲取任務;其中,指定的網絡數據獲取器對歷史站點的利用率大于利用率閾值,其中,利用率為網絡數據獲取器對歷史站點的爬取次數與歷史站點的總爬取次數的比值;
結果接收模塊,用于接收指定的網絡數據獲取器的獲取結果;
解析模塊,用于根據目標參數解析獲取結果,獲得解析參數,解析參數包括獲取結果主題和獲取結果關鍵詞列表;
解析參數匹配模塊,用于將解析參數與目標參數進行匹配,并計算獲取結果與網絡數據獲取請求之間的第二主題相關度;并且,若第二主題相關度小于目標主題相關度,該獲取結果形成第二獲取結果,則將其中兩個第二獲取結果的解析參數進行匹配,形成兩個第二獲取結果之間的第三主題相關度;
相關度比較模塊,用于將第二主題相關度與目標主題相關度進行比較;并且,將第三主題相關度與第一相關度閾值進行比較;
獲取結果發送模塊,用于:若第二主題相關度大于或等于目標主題相關度,該獲取結果形成第一獲取結果,則將第一獲取結果發送至與網絡數據獲取請求相應的第一業務存儲器,其中存儲器包括第一業務存儲器;并且,若第三主題相關度大于或等于第一相關度閾值,則將兩個第二獲取結果發送至與第二獲取結果相應的第二業務存儲器,其中存儲器包括第二業務存儲器。
進一步地,還包括哈希值計算模塊、哈希值比較模塊以及結果清除模塊;其中,
哈希值計算模塊,用于采用simhash算法獲得獲取結果之后,計算存儲器中的所有歷史數據的哈希值;采用simhash算法獲得獲取結果的哈希值;
哈希值比較模塊,用于計算獲取結果的哈希值與歷史數據的哈希值差值的絕對值,獲得獲取結果與歷史數據之間的第四主題相關度;
結果清除模塊,用于:若第四主題相關度大于第二相關度閾值,則清除獲取結果;其中,第二相關度閾值大于第一相關度閾值;
其中,相關度比較模塊還用于將第四主題相關度與第二相關度閾值進行比較。
進一步地,獲取任務包括獲取停止程序;
其中,網絡數據獲取系統還包括輸入站點接收模塊、站點描述比較模塊、輸入站點發送模塊、輸入站點提取模塊;其中,
輸入站點接收模塊,用于接收輸入站點及其站點描述;
站點描述比較模塊,用于將輸入站點的站點描述與歷史站點的站點描述進行比較;
輸入站點發送模塊,用于:若輸入站點的站點描述與歷史站點的站點描述不同,則將輸入站點發送至存儲器;
輸入站點提取模塊,用于:若未接收到指定的網絡數據獲取器的停止信息,則從存儲器中提取輸入站點的統一資源定位符;
其中,任務指定模塊還用于向指定的網絡數據獲取器發送輸入站點的統一資源定位符。
進一步地,獲取任務包括獲取停止程序;
其中,網絡數據獲取系統還包括輸入站點接收模塊、站點描述比較模塊、輸入站點發送模塊、輸入站點提取模塊;其中,
輸入站點接收模塊,用于接收輸入站點及其站點描述;
站點描述比較模塊,用于將輸入站點的站點描述與歷史站點的站點描述進行比較;
輸入站點發送模塊,用于:若輸入站點的站點描述與歷史站點的站點描述不同,則將輸入站點發送至存儲器;
輸入站點提取模塊,用于:若所有的獲取結果的第二主題相關度均小于目標主題相關度,則從存儲器中提取輸入站點的統一資源定位符;
其中,任務指定模塊還用于向指定的網絡數據獲取器發送輸入站點的統一資源定位符。
進一步地,還包括獲取結論返回模塊、成功率計算模塊、成功率比較模塊、故障信息返回模塊、站點描述接收模塊以及站點描述發送模塊;其中,
獲取結論返回模塊,用于:若至少一個獲取結果的第二主題相關度大于或等于目標主題相關度,則返回獲取成功結論;若所有的獲取結果的第二主題相關度均小于目標主題相關度,則返回獲取失敗結論;
成功率計算模塊,用于計算預定時間間隔內每個歷史站點的獲取成功結論與獲取失敗結論的比值,形成歷史站點的成功率;
成功率比較模塊,用于將歷史站點的成功率與歷史站點的成功率閾值進行比較;
故障信息返回模塊,用于:若歷史站點的成功率小于歷史站點的成功率閾值,則返回故障信息;
站點描述接收模塊,用于接收歷史站點的修改后的站點描述;
站點描述發送模塊,用于將修改后的站點描述發送至存儲器。
與現有技術相比,本發明的一種用于體育賽事的網絡數據獲取方法和系統,實現了如下的有益效果:
(1)本發明所述的用于體育賽事的網絡數據獲取方法和系統,首先判斷歷史數據中是否存在與網絡數據獲取請求匹配的數據,避免了有效數據的重復獲取,提高數據采集的效率;并且實時監控網絡數據獲取器所獲取的獲取結果,并判定獲取結果是否達到目標主題相關度,以獲取理想的獲取結果,并存儲于相應的業務存儲器中,方便用戶的隨時搜索和使用。
(2)本發明所述的用于體育賽事的網絡數據獲取方法和系統,實時監控存儲器中獲取數據之間的相關度,當獲取結果與歷史數據的相關度高于第二相關度閾值時,則將該獲取結果清除,避免占用存儲器的有限空間,達到去重的效果。
(3)本發明所述的用于體育賽事的網絡數據獲取方法和系統,引入輸入站點的設計,在對歷史站點進行數據獲取時,同時可對新的輸入站點進行判斷,經過相應的站點分析后,如果為有效站點,則將其納入相應存儲器中,可擴大存儲器對應站點的數據獲取范圍,提高數據獲取的成功率。
(4)本發明所述的用于體育賽事的網絡數據獲取方法和系統,實時監控各站點獲取結果的成功率,當歷史站點的成功率低于其成功率閾值時,系統自動解析該站點和修改站點描述,避免站點的更新導致的獲取失敗,以提高其獲取結果的成功率,有利于后續數據獲取的工作快捷有效的進行。
附圖說明
被結合在說明書中并構成說明書的一部分的附圖示出了本發明的實施例,并且連同其說明一起用于解釋本發明的原理。
圖1為本發明實施例1提供的一種用于體育賽事的網絡數據獲取方法的流程示意圖;
圖2為本發明實施例1提供的獲取結果篩選方法的流程示意圖;
圖3為本發明實施例1提供的修改站點描述的流程示意圖;
圖4為本發明實施例1提供的輸入站點提取的流程示意圖;
圖5為本發明實施例2提供的用于體育賽事的網絡數據獲取系統的構成示意圖;
圖6為本發明實施例3提供的用于體育賽事的網絡數據獲取系統的構成示意圖;
圖7為本發明實施例4提供的用于體育賽事的網絡數據獲取系統的構成示意圖;
圖8為本發明實施例5提供的用于體育賽事的網絡數據獲取系統的構成示意圖。
具體實施方式
現在將參照附圖來詳細描述本發明的各種示例性實施例。應注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數字表達式和數值不限制本發明的范圍。
以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發明及其應用或使用的任何限制。
對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為說明書的一部分。
在這里示出和討論的所有例子中,任何具體值應被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它例子可以具有不同的值。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。
實施例1
圖1為本發明實施例1提供的一種用于體育賽事的網絡數據獲取方法的流程示意圖,該方法包括如下步驟:
步驟101、接收網絡數據獲取請求,網絡數據獲取請求包括目標參數,目標參數包括體育賽事主題、關鍵詞列表及目標主題相關度。其中,關鍵詞列表如球隊名稱、球員姓名等。
步驟102、將目標參數與存儲器中的歷史數據中的相應參數進行匹配,并計算網絡數據獲取請求與歷史數據之間的第一主題相關度。
獲取網絡數據后均儲存于存儲器中,便于后期的隨時快速搜索使用。
步驟103、若存儲器中的所有歷史數據的第一主題相關度均小于目標主題相關度,則從存儲器中提取至少一個歷史站點的統一資源定位符。
當存儲器中的一個歷史數據的第一主題相關度大于或等于目標主題相關度時,則說明該歷史數據為與目標主題相匹配的數據,則無需執行該網絡數據獲取任務。
當存儲器中的所有歷史數據的第一主題相關度均小于目標主題相關度時,則說明存儲器的歷史數據中不存在與目標主題相匹配的歷史數據,則需要執行該網絡數據獲取任務。為了提高網絡數據獲取效率,可以優先選擇曾經獲得到該類網絡數據的歷史站點來獲取數據,因此從存儲器中提取至少一個歷史站點的統一資源定位符。
步驟104、根據被提取的歷史站點向指定的網絡數據獲取器指定獲取任務;其中,指定的網絡數據獲取器對歷史站點的利用率大于利用率閾值,其中,利用率為網絡數據獲取器對歷史站點的爬取次數與歷史站點的總爬取次數的比值。
當網絡數據獲取器對歷史站點的利用率大于利用率閾值時,說明該網絡獲取器的獲取參數與對歷史站點的匹配度較高,獲取效率較高,數據獲取的成功率較高。
步驟105、接收指定的網絡數據獲取器的獲取結果。
步驟106、根據目標參數解析獲取結果,獲得解析參數,解析參數包括獲取結果主題和獲取結果關鍵詞列表。
對網絡數據獲取器的獲取結果進行解析,便于將解析參數與目標參數進行匹配。
步驟107、將解析參數與目標參數進行匹配,計算獲取結果與網絡數據獲取請求之間的第二主題相關度。
將獲取結果的解析參數(結果主題和結果關鍵詞列表)與目標參數(體育賽事主題、關鍵詞列表及目標主題相關度)進行匹配,計算獲取結果與網絡數據獲取請求之間的第二主題相關度。
步驟108、將第二主題相關度與目標主題相關度進行比較。
步驟109、若第二主題相關度大于或等于目標主題相關度,該獲取結果形成第一獲取結果,則將第一獲取結果發送至與網絡數據獲取請求相應的第一業務存儲器,其中存儲器包括第一業務存儲器。
若第二主題相關度小于目標主題相關度,該獲取結果形成第二獲取結果,則將其中兩個第二獲取結果的解析參數進行匹配,形成兩個第二獲取結果之間的第三主題相關度。
當第二主題相關度大于或等于目標主題相關度,說明該獲取結果滿足目標參數的條件,可被獲取使用,因此將獲取結果形成第一獲取結果,同時將第一獲取結果發送至與網絡數據獲取請求相應的存儲器中的第一業務存儲器,可隨時被使用。
當第二主題相關度小于目標主題相關度,說明該獲取結果不滿足目標參數的條件,在此次網絡數據獲取中不可被使用,但是為了以后與之相關的數據進行獲取時,可以快速匹配,在這里將該獲取結果形成第二獲取結果,并將不同的第二獲取結果的解析參數進行匹配,形成兩個第二獲取結果之間的第三主題相關度。
步驟110、將第三主題相關度與第一相關度閾值進行比較。
步驟111、若第三主題相關度大于或等于第一相關度閾值,則將兩個第二獲取結果發送至與第二獲取結果相應的第二業務存儲器,其中存儲器包括第二業務存儲器。
若第三主題相關度大于或等于第一相關度閾值,說明這兩個第二獲取結果是相關數據,可歸為一類,為了便于后期數據匹配,將這兩個第二獲取結果發送至與第二獲取結果相應的存儲器中的第二業務存儲器。
通過實時監控網絡數據獲取器所獲取的獲取結果,并判定該獲取結果是否與目標參數匹配,以獲取理想的獲取結果,并存儲于相應的業務存儲器中,方便用戶的隨時搜索和使用。
在一些可選的實施例中,本實施例所示的第一主題相關度、第二主題相關度以及第三主題相關度均可采用simhash算法。
在一些可選的實施例中,當網絡數據獲取器獲取到相應獲取結果后,需要對獲取結果進行篩選處理,避免相似度較高的數據同時存儲在存儲器中。該實施例中,第一主題相關度、第二主題相關度以及第三主題相關度均采用simhash算法。
具體操作參見圖2提供的獲取結果篩選方法流程示意圖:
步驟112、采用simhash算法獲得獲取結果(第一獲取結果、第二獲取結果)之后,計算相應存儲器中的所有歷史數據的哈希值。
步驟113、采用simhash算法獲得獲取結果的哈希值。
步驟114、計算獲取結果的哈希值與歷史數據的哈希值差值的絕對值,獲得獲取結果與歷史數據之間的第四主題相關度。
步驟115、將第四主題相關度與第二相關度閾值進行比較。
步驟116、若第四主題相關度大于第二相關度閾值,則清除獲取結果;其中,第二相關度閾值大于第一相關度閾值。
通過實時監控存儲器中獲取數據之間的相關度,當獲取結果與歷史數據的相關度高于第二相關度閾值時,說明該獲取結果與歷史數據的相似度較高,則將該獲取結果清除,避免占用存儲器的有限空間,同時避免了后期有效數據的重復獲取,提高數據采集的效率。
在一些可選的實施例中,網絡數據獲取系統實時對各個站點的獲取成功率進行監控,以防站點更新。具體操作參見圖3提供的修改站點描述的流程示意圖:
步驟117、若至少一個獲取結果的第二主題相關度大于或等于目標主題相關度,則返回獲取成功結論;若所有的獲取結果的第二主題相關度均小于目標主題相關度,則返回獲取失敗結論。
步驟118、計算預定時間間隔內每個歷史站點的獲取成功結論與獲取失敗結論的比值,形成歷史站點的成功率。
步驟119、將歷史站點的成功率與歷史站點的成功率閾值進行比較。
步驟120、若歷史站點的成功率小于歷史站點的成功率閾值,則返回故障信息。
接收到故障信息說明該站點發生了變化,需要對該站點進行解析,獲得新的站點描述信息,對站點描述進行相應的修改,及時更新相應的獲取參數,以提高其獲取成功結論的成功率。
步驟121、接收歷史站點的修改后的站點描述。
步驟122、將修改后的站點描述發送至存儲器。
及時更新站點的描述信息和相應的網絡獲取器的獲取參數,避免站點更新帶來的網絡獲取失敗。
在一些可選的實施例中,網絡數據獲取方法還包括獲取停止程序。
在一些可選的實施例中,網絡獲取系統可隨時更新存儲器中的站點,以收集新的站點,提高網絡獲取的選擇。
具體步驟參見圖4提供的輸入站點提取的流程示意圖:
步驟401、接收輸入站點及其站點描述。
步驟402、將輸入站點的站點描述與歷史站點的站點描述進行比較。
步驟403、若輸入站點的站點描述與歷史站點的站點描述不同,則將輸入站點發送至存儲器。
若輸入站點的站點描述與歷史站點的站點描述不同,則說明輸入站點不屬于歷史站點。
步驟404、作為一個實施例,若未接收到指定的網絡數據獲取器的停止信息,則從存儲器中提取輸入站點的統一資源定位符。
如果網絡數據獲取器處于工作狀態(未反饋停止信息),則可以將該輸入站點發送給網絡獲取器進行網絡數據獲取。
步驟404、、作為另一個實施例,若所有的獲取結果的第二主題相關度均小于目標主題相關度,則從存儲器中提取輸入站點的統一資源定位符。
如果從存儲器的歷史站點中獲取的所有獲取結果的第二主題相關度均小于目標主題相關度,說明現有存儲器中的歷史站點中均獲取不到所需的獲取結果。此時,則從存儲器中提取輸入站點的統一資源定位符。
步驟405、向指定的網絡數據獲取器發送輸入站點的統一資源定位符。
將輸入站點的統一資源定位符傳送給指定的網絡數據獲取器,以供其連接輸入站點,從輸入站點中繼續獲取數據。
在對歷史站點進行數據獲取時,同時可將新的輸入站點作為獲取對象,可擴大數據獲取范圍,提高數據獲取的成功率。
實施例2
圖5為本發明實施例2提供的用于體育賽事的網絡數據獲取系統的構成圖;該網絡數據獲取系統50包括:請求接收模塊501、歷史數據匹配模塊502、歷史站點提取模塊503、任務指定模塊504、結果接收模塊505、解析模塊506、解析參數匹配模塊507、相關度比較模塊508以及獲取結果發送模塊509。
請求接收模塊501,用于接收網絡數據獲取請求,網絡數據獲取請求包括目標參數,目標參數包括體育賽事主題、關鍵詞列表及目標主題相關度,其中,關鍵詞列表如球隊名稱、球員姓名等;并將目標參數傳輸至歷史數據匹配模塊502。
歷史數據匹配模塊502與請求接收模塊501相連接,當接收到請求接收模塊501傳送的目標參數后,歷史數據匹配模塊502將目標參數與存儲器中的歷史數據中的相應參數進行匹配,并計算網絡數據獲取請求與歷史數據之間的第一主題相關度,并將計算得到的第一主題相關度結果發送至歷史站點提取模塊503。
歷史站點提取模塊503與歷史數據匹配模塊502相連接,接收到歷史數據匹配模塊502傳輸的第一主題相關度結果后,跟系統設定的目標主題相關度進行比較。
當存儲器中的一個歷史數據的第一主題相關度大于或等于目標主題相關度時,則說明該歷史數據為與目標主題相匹配的數據,則無需執行該網絡數據獲取任務;
當存儲器中所有歷史數據的第一主題相關度均小于目標主題相關度,則說明該存儲器中不存在與目標主題相匹配的歷史數據,則需要執行該網絡數據獲取任務。為了提高網絡數據獲取效率,可以優先選擇曾經獲得到該類網絡數據的歷史站點來獲取數據,因此歷史站點提取模塊503從存儲器中提取至少一個歷史站點的統一資源定位符,并將該歷史站點數據傳輸至任務指定模塊504。
任務指定模塊504與歷史站點提取模塊503和請求接收模塊501相連接,用于根據被提取的歷史站點向指定的網絡數據獲取器指定獲取任務;并將該任務分配情況傳輸至結果接收模塊505。
其中,指定的網絡數據獲取器對歷史站點的利用率大于利用率閾值,說明該網絡獲取器的獲取參數與對歷史站點的匹配度較高,獲取效率較高,數據獲取的成功率較高。
其中,利用率為網絡數據獲取器對歷史站點的爬取次數與歷史站點的總爬取次數的比值。
結果接收模塊505與網絡獲取器相連接,用于接收指定的網絡數據獲取器的獲取結果將獲取到的獲取結果傳輸至解析模塊506。
解析模塊506與結果接收模塊505相連接,當接收到結果接收模塊505傳送的獲取結果后,解析模塊506對網絡數據獲取器的獲取結果進行相應的解析,獲得解析參數,解析參數包括獲取結果主題和獲取結果關鍵詞列表,便于將解析參數與目標參數進行匹配;將該解析參數傳輸至解析參數匹配模塊507。
解析參數匹配模塊507與解析模塊506相連接,當接收到解析模塊506傳輸的解析參數后,解析參數匹配模塊507將解析參數與目標參數進行匹配,并計算獲取結果與網絡數據獲取請求之間的第二主題相關度;并且,若第二主題相關度小于目標主題相關度,說明該獲取結果不滿足目標參數的條件,在此次網絡數據獲取中不可被使用,但是為了以后與之相關的數據進行獲取時,可以快速匹配,在這里將該獲取結果形成第二獲取結果,則將其中兩個第二獲取結果的解析參數進行匹配,形成兩個第二獲取結果之間的第三主題相關度。系統將第二主題相關度和第三主題相關度的計算結果傳輸至相關度比較模塊508。
相關度比較模塊508與解析參數匹配模塊507相連接,當接收到解析參數匹配模塊507傳送的第二主題相關度和第三主題相關度的計算結果后,相關度比較模塊508將第二主題相關度與目標主題相關度進行比較;同時,將第三主題相關度與第一相關度閾值進行比較,并將比較結果傳輸至獲取結果發送模塊509。
獲取結果發送模塊509與相關度比較模塊508相連接,當接收到相關度比較模塊508傳送的第二主題相關度與目標主題相關度的比較結果以及第三主題相關度與第一相關度閾值的比較結果后,獲取結果發送模塊509對該結果進行分析。
若第二主題相關度大于或等于目標主題相關度,該獲取結果形成第一獲取結果,則將第一獲取結果發送至與網絡數據獲取請求相應的存儲器中的第一業務存儲器,可隨時被使用。
同時,若第三主題相關度大于或等于第一相關度閾值,則說明兩個第二獲取結果是相關數據,可歸為一類,為了便于后期數據匹配,將這兩個第二獲取結果發送至與第二獲取結果相應的存儲器中的第二業務存儲器。
實施例3
圖6為本發明實施例3提供的用于體育賽事的網絡數據獲取系統的構成示意圖;該網絡數據獲取系統50包括圖5所對應實施例中的請求接收模塊501、歷史數據匹配模塊502、歷史站點提取模塊503、任務指定模塊504、結果接收模塊505、解析模塊506、解析參數匹配模塊507、相關度比較模塊508以及獲取結果發送模塊509,進一步的,該網絡數據獲取系統50可以包括:哈希值計算模塊510、哈希值比較模塊511以及結果清除模塊512。
哈希值計算模塊510與存儲器中的各個業務存儲器(如第一業務存儲器、第二業務存儲器)相連接,獲取結果發送模塊509將第一獲取結果和第二獲取結果分別發送至對應的第一業務存儲器和第二業務存儲器后,哈希值計算模塊510用于采用simhash算法獲得相應獲取結果之后,分別計算對應存儲器中的歷史數據的哈希值;采用simhash算法獲得對應獲取結果的哈希值;系統將哈希值的計算結果傳輸至哈希值比較模塊511。
哈希值比較模塊511與哈希值計算模塊510相連接,當接收到哈希值計算模塊510傳送的哈希值計算結果后,哈希值比較模塊511分別計算相應獲取結果的哈希值與相應歷史數據的哈希值差值的絕對值,獲得獲取結果與歷史數據之間的第四主題相關度;系統將第四主題相關度傳輸至結果清除模塊512。
結果清除模塊512與哈希值比較模塊511相連接,當接收到哈希值比較模塊511傳送的第四主題相關度后,結果清除模塊512將第四主題相關度與第二相關度閾值進行比較,若第四主題相關度大于第二相關度閾值,則說明獲取結果與該歷史數據的相似度很高,為了避免占用存儲器的有限空間,則清除相應存儲器中的獲取結果;其中,第二相關度閾值大于第一相關度閾值。
實施例4
圖7為本發明實施例4提供的用于體育賽事的網絡數據獲取系統的構成示意圖;該網絡數據獲取系統50包括圖5所對應實施例中的請求接收模塊501、歷史數據匹配模塊502、歷史站點提取模塊503、任務指定模塊504、結果接收模塊505、解析模塊506、解析參數匹配模塊507、相關度比較模塊508、獲取結果發送模塊509。進一步的,該網絡數據獲取系統50可以包括:結論返回模塊513、成功率計算模塊514、成功率比較模塊515、故障信息返回模塊516、站點描述接收模塊517以及站點描述發送模塊518。
結論返回模塊513與相關度比較模塊508相連接,若至少一個獲取結果的第二主題相關度大于或等于目標主題相關度,則返回獲取成功結論;若所有的獲取結果的第二主題相關度均小于目標主題相關度,則返回獲取失敗結論;系統獲取的相應結論傳輸至成功率計算模塊514。
成功率計算模塊514與結論返回模塊513相連接,當接收到結論返回模塊513傳送的相應獲取結論后,成功率計算模塊514計算預定時間間隔內每個歷史站點的獲取成功結論與獲取失敗結論的比值,形成歷史站點的成功率;并將歷史站點的成功率傳輸至成功率比較模塊515。
成功率比較模塊515與成功率計算模塊514相連接,當接收到成功率計算模塊514傳送的歷史站點的成功率數據后,成功率比較模塊515將歷史站點的成功率與歷史站點的成功率閾值進行比較;并將該比較結果傳輸至故障信息返回模塊516。
故障信息返回模塊516與成功率比較模塊515相連接,用于:歷史站點的成功率小于歷史站點的成功率閾值,則返回故障信息,說明該站點發生了變化,需要對該站點進行解析,獲得新的站點描述信息,對站點描述進行相應的修改,及時更新相應的獲取參數,以提高其獲取成功結論的成功率;并將該故障信息傳輸至站點描述接收模塊517。
站點描述接收模塊517與故障信息返回模塊516相連接,當接收到故障信息返回模塊516反饋的故障信息后,系統對相應的站點進行解析,獲得站點的解析參數,更新系統對該站點的描述,以提高其獲取成功結論的成功率,站點描述接收模塊517對同時接收歷史站點的修改后的站點描述;并將修改后的站點描述傳輸至站點描述發送模塊518。
站點描述發送模塊518與站點描述接收模塊517相連接,當接收到站點描述接收模塊517傳送的修改后的站點描述后,站點描述發送模塊518及時更新站點的描述信息和相應的網絡獲取器的獲取參數,避免站點更新帶來的網絡獲取失敗,并將修改后的站點描述發送至該站點對應的存儲器中,以供后期正常使用。
實施例5
在一些可選的實施例中,網絡數據獲取方法還可以包括獲取停止程序。
在一些可選的實施例中,網絡獲取系統可隨時更新存儲器中的站點,以收集新的站點,提高網絡獲取的選擇。圖8為本發明實施例5提供的用于體育賽事的網絡數據獲取系統的構成示意圖;該網絡數據獲取系統50包括圖5所對應實施例中的請求接收模塊501、歷史數據匹配模塊502、歷史站點提取模塊503、任務指定模塊504、結果接收模塊505、解析模塊506、解析參數匹配模塊507、相關度比較模塊508、獲取結果發送模塊509。進一步的,該網絡數據獲取系統50可以包括:輸入站點接收模塊519、站點描述比較模塊520、輸入站點發送模塊521以及輸入站點提取模塊522。
輸入站點接收模塊519與存儲歷史站點的存儲器相連接。輸入站點接收模塊519接收輸入站點及其站點描述;并將該輸入站點及站點描述傳輸至站點描述比較模塊520。
站點描述比較模塊520與輸入站點接收模塊519相連接,當接收到輸入站點接收模塊519傳送的輸入站點及站點描述后,站點描述比較模塊520將輸入站點的站點描述與歷史站點的站點描述進行比較;并將比較結果傳輸至輸入站點發送模塊521。
輸入站點發送模塊521與站點描述比較模塊520相連接,當接收到站點描述比較模塊520傳送的輸入站點的站點描述與歷史站點的站點描述比較數據后,若輸入站點的站點描述與歷史站點的站點描述不同,則說明輸入站點不屬于歷史站點。輸入站點發送模塊521則將輸入站點發送至存儲站點的存儲器;同時將信息傳輸至輸入站點提取模塊522。
輸入站點提取模塊522與存儲站點的存儲器相連接,當輸入站點發送模塊521將輸入站點發送至存儲器后,若未接收到指定的網絡數據獲取器的停止信息或若所有的獲取結果的第二主題相關度均小于目標主題相關度,則輸入站點提取模塊522從存儲器中提取輸入站點的統一資源定位符;并將信息傳輸至任務指定模塊504。
任務指定模塊504接收到輸入站點提取模塊522提取到的輸入站點的統一資源定位符后,將輸入站點的統一資源定位符傳送給指定的網絡數據獲取器,以供其連接輸入站點,從輸入站點中繼續獲取數據。
通過上述實施例可知,本發明的用于體育賽事的網絡數據獲取方法和系統,達到了如下的有益效果:
(1)本發明所述的用于體育賽事的網絡數據獲取方法和系統,首先判斷歷史數據中是否存在與網絡數據獲取請求匹配的數據,避免了有效數據的重復獲取,提高數據采集的效率;并且實時監控網絡數據獲取器所獲取的獲取結果,并判定獲取結果是否達到目標主題相關度,以獲取理想的獲取結果,并存儲于相應的業務存儲器中,方便用戶的隨時搜索和使用。
(2)本發明所述的用于體育賽事的網絡數據獲取方法和系統,實時監控存儲器中獲取數據之間的相關度,當獲取結果與歷史數據的相關度高于第二相關度閾值時,則將該獲取結果清除,避免占用存儲器的有限空間,達到去重的效果。
(3)本發明所述的用于體育賽事的網絡數據獲取方法和系統,引入輸入站點的設計,在對歷史站點進行數據獲取時,同時可對新的輸入站點進行判斷,經過相應的站點分析后,如果為有效站點,則將其納入相應存儲器中,可擴大存儲器對應站點的數據獲取范圍,提高數據獲取的成功率。
(4)本發明所述的用于體育賽事的網絡數據獲取方法和系統,實時監控各站點獲取結果的成功率,當歷史站點的成功率低于其成功率閾值時,系統自動解析該站點和修改站點描述,避免站點的更新導致的獲取失敗,以提高其獲取結果的成功率,有利于后續數據獲取的工作快捷有效的進行。
雖然已經通過例子對本發明的一些特定實施例進行了詳細說明,但是本領域的技術人員應該理解,以上例子僅是為了進行說明,而不是為了限制本發明的范圍。本領域的技術人員應該理解,可在不脫離本發明的范圍和精神的情況下,對以上實施例進行修改。本發明的范圍由所附權利要求來限定。