用戶行為數據的處理方法及裝置的制造方法
【專利說明】
【技術領域】
[0001]本發明涉及機器學習技術,尤其涉及一種用戶行為數據的處理方法及裝置。
【【背景技術】】
[0002]在機器學習中,可以利用大量已知的訓練樣本,構建分類模型即分類器,進而利用所構建的分類器對未知的數據進行評測。分類器可以應用在很多場景,例如,由于因網絡作弊而產生的垃圾頁面以及垃圾用戶行為數據越來越多,嚴重影響了搜索引擎的檢索效率和用戶體驗,因此,反作弊已經成為搜索引擎所面臨的最重要的挑戰之一,可以將利用已標注的正常數據和作弊數據,構建一個分類器,以對網絡數據進行識別。現有技術中,可以利用所構建的一個分類器,對用戶行為數據進行評測,以獲得分類結果。
[0003]然而,采用單一的分類器,其所評測的用戶行為數據的分類結果的準確率不高。
【
【發明內容】
】
[0004]本發明的多個方面提供一種用戶行為數據的處理方法及裝置,用以提高分類結果的準確率。
[0005]本發明的一方面,提供一種用戶行為數據的處理方法,包括:
[0006]根據用戶行為數據,獲取同一 IP地址的待評測的M個統計數據,M為大于或等于2的整數;
[0007]將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果;
[0008]根據所述每個分類器所輸出的評測結果,獲得所述IP地址的分類結果;
[0009]根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據。
[0010]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果,包括:
[0011]根據所述M個統計數據中指定統計數據所屬的分類區間,獲得與所述分類區間對應的一組分類器;
[0012]將所述M個統計數據中每個統計數據分別輸入該組分類器中對應的分類器,以獲得每個分類器所輸出的評測結果。
[0013]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據之后,還包括:
[0014]根據所述一次過濾的用戶行為數據,獲取同一用戶標識信息所對應的待評測的N個統計數據,N為大于或等于2的整數;
[0015]將所述N個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果;
[0016]根據所述每個分類器所輸出的評測結果,獲得同一用戶標識信息的分類結果;
[0017]根據所述同一用戶標識信息的分類結果,對所述一次過濾的用戶行為數據進行過濾處理,以獲得二次過濾的用戶行為數據。
[0018]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述同一用戶標識信息的分類結果,對所述一次過濾的用戶行為數據進行過濾處理,以獲得二次過濾的用戶行為數據之后,還包括:
[0019]獲得同一 IP地址的一次過濾的用戶行為數據中被過濾的用戶行為數據與該IP地址的一次過濾的用戶行為數據的比值;
[0020]若所述比值大于或等于預先設置的閾值,對該IP地址的一次過濾的用戶行為數據中沒有被過濾的用戶行為數據,進行刪除處理,以獲得三次過濾的用戶行為數據。
[0021]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據之后,還包括:
[0022]根據過濾的用戶行為數據,進行用戶行為分析,以獲得用戶行為特征。
[0023]本發明的另一方面,提供一種用戶行為數據的處理裝置,包括:
[0024]獲取單元,用于根據用戶行為數據,獲取同一 IP地址的待評測的M個統計數據,M為大于或等于2的整數;
[0025]分類單元,用于將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果;
[0026]處理單元,用于根據所述每個分類器所輸出的評測結果,獲得所述IP地址的分類結果;
[0027]過濾單元,用于根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據。
[0028]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述分類單元,具體用于
[0029]根據所述M個統計數據中指定統計數據所屬的分類區間,獲得與所述分類區間對應的一組分類器;以及
[0030]將所述M個統計數據中每個統計數據分別輸入該組分類器中對應的分類器,以獲得每個分類器所輸出的評測結果。
[0031]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,
[0032]所述獲取單元,還用于
[0033]根據所述一次過濾的用戶行為數據,獲取同一用戶標識信息所對應的待評測的N個統計數據,N為大于或等于2的整數;
[0034]所述分類單元,還用于
[0035]將所述N個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果;
[0036]所述處理單元,還用于
[0037]根據所述每個分類器所輸出的評測結果,獲得同一用戶標識信息的分類結果;
[0038]所述過濾單元,還用于
[0039]根據所述同一用戶標識信息的分類結果,對所述一次過濾的用戶行為數據進行過濾處理,以獲得二次過濾的用戶行為數據。
[0040]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述過濾單元,還用于
[0041]獲得同一 IP地址的一次過濾的用戶行為數據中被過濾的用戶行為數據與該IP地址的一次過濾的用戶行為數據的比值;以及
[0042]若所述比值大于或等于預先設置的閾值,對該IP地址的一次過濾的用戶行為數據中沒有被過濾的用戶行為數據,進行刪除處理,以獲得三次過濾的用戶行為數據。
[0043]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述裝置還包括分析單元,用于
[0044]根據過濾的用戶行為數據,進行用戶行為分析,以獲得用戶行為特征。
[0045]由上述技術方案可知,本發明實施例通過根據用戶行為數據,獲取同一 IP地址的待評測的M個統計數據,M為大于或等于2的整數,進而將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果,并根據所述每個分類器所輸出的評測結果,獲得所述IP地址的分類結果,使得能夠根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據,由于每個分類器是分別針對不同的統計數據,使得能夠充分利用每個分類器的分類能力得到用戶行為數據的分類結果,從而提高了分類結果的準確率。
[0046]另外,采用本發明提供的技術方案,使得用戶行為數據的分類結果不再單獨依賴于任何一個分類器的評測結果,而是綜合考慮M個分類器中每個分類器的評測結果,這樣,能夠有效提高分類結果的準確率。
[0047]另外,采用本發明提供的技術方案,通過從IP地址和用戶標識信息這兩個維度,對用戶行為數據進行過濾處理,能夠較為準確地刻畫用戶行為特征,能夠有效提高分類結果的準確率。
【【附圖說明】】
[0048]為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0049]圖1為本發明一實施例提供的用戶行為數據的處理方法的流程示意圖;
[0050]圖2為本發明另一實施例提供的用戶行為數據的處理裝置的結構示意圖;
[0051]圖3為本發明另一實施例提供的用戶行為數據的處理裝置的結構示意圖。
【【具體實施方式】】
[0052]為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的全部其他實施例,都屬于本發明保護的范圍。
[0053]另外,本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關系,表示可以存在三種關系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關聯對象是一種“或”的關系。
[0054]圖1為本發明一實施例提供的用戶行為數據的處理方法的流程示意圖,如圖1所不O
[0055]101、根據用戶行為數據,獲取同一 IP地址的待評測的M個統計數據,M為大于或等于2的整數。
[0056]102、將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果。
[0057]103、根據所述每個分類器所輸出的評測結果,獲得所述IP地址的分類結果。
[0058]104、根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據。
[0059]需要說明的是,101?104的執行主體可以為位于本地終端的應用,或者還可以為設置在位于本地終端的應用中的插件或軟件開發工具包(Software Development Kit,SDK)等功能單元,或者還可以為位于網絡側服務器中的分類引擎,或者還可以為位于網絡側的分布式系統,本實施例對此不進行特別限定。
[0060]可以理解的是,所述應用可以是安裝在終端上的本地程序(nativeApp),或者還可以是終端上的瀏覽器的一個網頁程序(webApp),本實施例對此不進行限定。
[0061]這樣,通過根據用戶行為數據,獲取同一 IP地址的待評測的M個統計數據,M為大于或等于2的整數,進而將所述M個統計數據中每個統計數據分別輸入對應的分類器,以獲得每個分類器所輸出的評測結果,并根據所述每個分類器所輸出的評測結果,獲得所述IP地址的分類結果,使得能夠根據所述IP地址的分類結果,對所述用戶行為數據進行過濾處理,以獲得一次過濾的用戶行為數據,由于每個分類器是分別針對不同的統計數據,使得能夠充分利用每個分類器的分類能力得到用戶行為數據的分類結果,從而提高了分類結果的準確率。
[0062]本實施例中,部署了多個不同的分類器,每個分類器都具有各自的分類策略,每個分類器的輸入參數為不同的統計數據,例如,分類器A的輸入參數為