流量數據中信息點的提取方法及裝置的制造方法
【技術領域】
[0001]本發明涉及大數據技術領域,尤其涉及一種流量數據中信息點的提取方法及裝置。
【背景技術】
[0002]在信息量爆炸的今天,用戶每天都在產生大量的流量信息,流量中存在豐富的有價值的數據,這些數據包含了大量的用戶信息,這些信息大部分是未被開發使用的,因此,提取這些信息具有十分重要的意義,這些可以被開發使用的數據被稱為信息點。
[0003]但是,目前提取流量?目息點,都是在基于已知的知識點的前提下進行提取的,這種提取流量中信息點的方式受限于對日常事務的認知程度,例如想要從流量數據中獲取某個對象的參數值,但是僅僅掌握該參數值是以數字10和11開頭的整數,那么利用該知識點從流量數據中探測,得到的信息點即該對象的參數值也都是以10和11開頭的值,但實際情況是,該參數值還存在大量以12開頭的值,可見,這種方式探測得到的信息量建立在對知識點的掌握程度上,挖掘到的信息量較少。
【發明內容】
[0004]本發明解決的技術問題是如何提高流量數據中信息點的獲取量。
[0005]為解決上述問題,本發明提供一種流量數據中信息點的提取方法,所述方法包括:
[0006]根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集;其中,所述URL包括關鍵字和鍵值;
[0007]從所述URL集中提取URL對應的所述關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表;
[0008]將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,從所述流量數據中獲取包含所述探測關鍵字的URL的鍵值,以獲得流量數據中的信息點。
[0009]可選地,所述根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集,包括:
[0010]將所述已知URL中的鍵值相關信息轉換成第一正則表達式;
[0011]使用所述第一正則表達式從所述流量數據中獲取包含所述鍵值的URL集。
[0012]可選地,所述流量數據中信息點的提取方法,還包括:
[0013]根據所述URL集中的每一組關鍵字,獲得對應的URL的域名和路徑,形成一條檢測規則,得到檢測規則庫;
[0014]根據所述檢測規則庫中的檢測規則,從所述流量數據中獲得所述檢測規則對應的鍵值,以得到流量數據中的信息點。
[0015]可選地,所述根據所述檢測規則庫中的檢測規則,從所述流量數據中獲得所述檢測規則對應的鍵值,包括:
[0016]將所述檢測規則轉換成第二正則表達式;
[0017]從所述流量數據中獲得所述檢測規則對應的鍵值,以獲得流量數據中的信息點。
[0018]可選地,所述流量數據中信息點的提取方法,還包括:將所述檢測規則庫中所述域名不同,且所述路徑、關鍵字和鍵值均相同的檢測規則進行合并。
[0019]本發明實施例還提供一種流量數據中信息點的提取裝置,所述裝置包括:
[0020]URL集獲取單元,適于根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集;其中,所述URL包括關鍵字和鍵值;
[0021]關鍵字字典表形成單元,適于從所述URL集中提取URL對應的所述關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表;
[0022]第一信息點獲取單元,適于將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,從所述流量數據中獲取包含所述探測關鍵字的URL的鍵值,以獲得流量數據中的信息點。
[0023]可選地,所述URL集獲取單元,適于將所述已知URL中的鍵值相關信息轉換成第一正則表達式,使用所述第一正則表達式從所述流量數據中獲取包含所述鍵值的URL集。
[0024]可選地,所述流量數據中信息點的提取裝置,還包括:
[0025]檢測規則形成單元,適于根據所述URL集中的每一組關鍵字,獲得對應的URL的域名和路徑,形成一條檢測規則,得到檢測規則庫;
[0026]第二信息點獲取單元,適于根據所述檢測規則庫中的檢測規則,從所述流量數據中獲得所述檢測規則對應的鍵值,以獲得流量數據中的信息點。
[0027]可選地,所述第二信息點獲取單元,適于:
[0028]將所述檢測規則轉換成第二正則表達式;
[0029]從所述流量數據中獲得所述檢測規則對應的鍵值,以得到流量數據中的信息點。
[0030]可選地,所述流量數據中信息點的提取裝置,還包括合并單元,適于將所述檢測規則庫中所述域名不同,且所述路徑、關鍵字和鍵值均相同的檢測規則進行合并。
[0031]與現有技術相比,本發明實施例的技術方案具有以下有益效果:
[0032]本發明實施例的技術方案通過根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集,從所述URL集中提取每條URL的關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表,將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,從所述流量數據中獲取包含所述探測關鍵字的URL的鍵值,以獲得流量數據中的信息點,從而實現了以較少的已知鍵值從流量中獲取較多的鍵值,所述鍵值即信息點,也即提高了信息點的獲取量。
[0033]進一步地,通過形成通用的檢測規則,可以使用檢測規則更快地檢測到流量數據中的信息點。
【附圖說明】
[0034]圖1是本發明實施例中的一種流量數據中信息點的提取方法的流程圖;
[0035]圖2是本發明實施例中的一種流量數據中信息點的提取方法的流程圖;
[0036]圖3是本發明實施例中的一種流量數據中信息點的提取裝置的結構示意圖。
【具體實施方式】
[0037]如前所述,目前提取流量信息點,是在已知需要提取的信息點的前提下在流量數據中提取出相應的信息,這種提取流量中信息點的方式受限于對日常事務的認知程度,獲得的信息量較少。
[0038]URL (Uniform Resource Locator,統一資源定位符)是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,流量數據中的URL包含了用戶的行為數據信息。
[0039]本發明實施例通過根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集,從所述URL集中提取每條URL的關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表,將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,從所述流量數據中獲取包含所述探測關鍵字的URL的鍵值,以獲得流量數據中的信息點,從而實現了以較少的已知鍵值從流量中獲取較多的鍵值,所述鍵值即信息點,也即提高了信息點的獲取量。
[0040]為使本發明的上述目的、特征和優點能夠更為明顯易懂,下面結合附圖對本發明的具體實施例做詳細的說明。
[0041]圖1是本發明實施例中的一種流量數據中信息點的提取方法的流程圖。如圖所示的流量數據中信息點的提取方法,可以包括:
[0042]步驟S101:根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集;其中,所述URL包括關鍵字和鍵值。
[0043]在本發明實施例中,所述關鍵字為URL中向動態網頁傳遞參數的參數名,所述鍵值為參數值。
[0044]具體實施中,所述根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集,可以包括:
[0045]將所述已知URL中的鍵值相關信息轉換成第一正則表達式;
[0046]使用所述第一正則表達式從所述流量數據中獲取包含所述鍵值的URL集。
[0047]例如,想要從流量中提取GPS坐標信息,可以選取一個已知的實例知識點作為所述已知URL中的鍵值相關信息,根據經驗,已知信息有:經瑋度的數值為浮點數,小數點后位數為4位或4位以上,且上海市的瑋度以31開頭,經度以121開頭。因此,可以將已知信息轉換為第一正則表達式,具體為Γ121\\.\\d+, ~31\\.\\d+,通過使用該第一正則表達式,可以從流量數據中獲取包含所述鍵值的URL集,即獲得以121或31開頭的經瑋度數據所對應的每條URL組成的所述URL集。
[0048]步驟S102:從所述URL集中提取URL對應的所述關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表。
[0049]在具體實施中,步驟S101獲得了由各條URL組成的URL集,每條URL對應一組關鍵字,通過提取所述每條URL所對應的一組關鍵字,形成關鍵字字典表。
[0050]例如,步驟S101中獲取的URL集的其中一條URL為:http:/diditaxi, com/mylocat1n.html ? lat = 31.123412&lon = 121.231241。
[0051]提取該條URL的一組關鍵字為(lat,1n)。同樣地,從所述URL集中的其他條URL也可以提取出關鍵字,這樣就形成了關鍵字字典表。
[0052]步驟S103:將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,從所述流量數據中獲取包含所述探測關鍵字的URL的鍵值,以獲得流量數據中的信息點。
[0053]在具體實施中,將所述關鍵字字典表中的每組關鍵字作為探測關鍵字,則可以從流量數據中探測到以所述探測關鍵字為參數名所對應的其他參數值。
[0054]本發明實施例將所掌握的信息量較少的實例來進行初次探測,以此獲得關鍵字形成關鍵字字典表,再通過將所述關鍵字字典表中的關鍵字回到流量中進行二次探測,則可以獲取以所述關鍵字為參數名的對應的其他鍵值,即參數值,從而獲得更多的信息點,相比現有技術,本發明實施例的技術方案實現了以較少的信息獲取流量數據中較多的信息點。
[0055]圖2是本發明實施例中的一種流量數據中信息點的提取方法的流程圖。如圖所示,流量數據中信息點的提取方法可以包括:
[0056]步驟S201:根據已知的URL中的鍵值相關信息從所述流量數據中獲取包含所述鍵值的URL集;其中,所述URL包括關鍵字和鍵值。
[0057]具體實施中,可以通過將所述已知URL中的鍵值相關信息轉換成第一正則表達式獲取包含所述鍵值的URL集。
[0058]步驟S202:從所述URL集中提取URL對應的所述關鍵字,每條URL對應一組關鍵字,得到關鍵字字典表。
[0