用戶狀態單分類模型訓練方法和裝置的制造方法
【技術領域】
[0001] 本發明設及計算機信息處理技術領域,特別是設及一種用戶狀態單分類模型訓練 方法和裝置。
【背景技術】
[0002] 用戶狀態是一種具有階段性的用戶屬性的描述,比如用戶狀態可W是學生狀態、 育兒狀態、單身狀態等等。通過檢測用戶狀態,可W根據用戶狀態來提供差異性服務,比如 僅向具有特定用戶狀態的用戶推送信息或者提供服務,或者向具有和不具有特定用戶狀態 的用戶分別推送不同的信息或者提供不同的服務。
[0003] 目前存在一種比較簡單的檢測用戶狀態的方法,需要用戶自行設定自己的用戶狀 態并存儲下來,該樣在需要時便可W讀取用戶設定的用戶狀態W達到檢測用戶狀態的目 的。但是,該種檢測用戶狀態的方法需要用戶手工設定用戶狀態,需要用戶配合,操作繁瑣, 可行性低。
[0004] 目前還存在一種檢測用戶狀態的方法,需要事先建立一種打分用的數學模型,然 后記錄用戶一定時間范圍內的行為數據,通過分析行為數據而發現用戶與需檢測的用戶狀 態相關的信息,采用事先建立的數學模型對每個與用戶狀態相關的信息打分,把多個相關 的信息的分值相加得到總分值。通過將該總分值與預設的總分值闊值進行比較便可W判斷 用戶是否處具有某一用戶狀態。
[0005] 然而,目前用于檢測用戶狀態的數學模型,需要人工設定打分規則,人為因素影響 大。而且,通過打分的方式來檢測用戶狀態,泛化能力太弱,無法檢測到潛在用戶的用戶狀 態。該里所謂泛化能力(generalization油ility)是指機器學習算法對新鮮樣本的適應 能力。
【發明內容】
[0006] 基于此,有必要針對目前用于檢測用戶狀態的數學模型人為因素影響大,而且泛 化能力弱的問題,提供一種用戶狀態單分類模型訓練方法和裝置。
[0007] 一種用戶狀態單分類模型訓練方法,所述方法包括:
[000引獲取已知屬于指定用戶狀態類的至少兩個正訓練樣本;每個正訓練樣本具有至少 兩項用戶屬性信息;
[0009] 根據每個正訓練樣本的各項用戶屬性信息,提取每個正訓練樣本的樣本特征向 量;
[0010] 根據所述樣本特征向量來估計模型參數,并根據估計出的模型參數生成概率密度 函數模型;
[0011] 生成用戶狀態單分類模型,所述用戶狀態單分類模型包括用于接收輸入的特征向 量并計算出函數值的概率密度函數模型,還包括用于根據計算出的函數值運算出表示是否 屬于所述指定用戶狀態類的分類結果的分類判定模型。
[0012] 一種用戶狀態單分類模型訓練裝置,所述裝置包括:
[0013] 正訓練樣本獲取模塊,用于獲取已知屬于指定用戶狀態類的至少兩個正訓練樣 本;每個正訓練樣本具有至少兩項用戶屬性信息;
[0014] 樣本特征向量提取模塊,用于根據每個正訓練樣本的各項用戶屬性信息,提取每 個正訓練樣本的樣本特征向量;
[0015] 模型參數估計模塊,用于根據所述樣本特征向量來估計模型參數,并根據估計出 的模型參數生成概率密度函數模型;
[0016] 訓練執行模塊,用于生成用戶狀態單分類模型,所述用戶狀態單分類模型包括用 于接收輸入的特征向量并計算出函數值的概率密度函數模型,還包括用于根據計算出的函 數值運算出表示是否屬于所述指定用戶狀態類的分類結果的分類判定模型。
[0017] 上述用戶狀態單分類模型訓練方法和裝置,不同于常規的模式識別方法中采用的 正負兩種訓練樣本進行的訓練,而是由屬于指定用戶狀態類的多個正訓練樣本訓練獲得。 該樣相對于采用正負訓練樣本訓練獲得的分類模型,可W避免引入負訓練樣本造成的對分 類性能的影響,分類性能更好。而且,用戶狀態單分類模型訓練完成后,可W反映出用戶屬 性信息間存在的內在規律,人為因素影響很小,對于訓練樣本之外的實例具有很好的預測 能力,泛化能力強。
【附圖說明】
[0018] 圖1為一個實施例中用于實現用戶狀態單分類模型訓練方法的電子設備的內部 結構圖;
[0019] 圖2為一個實施例中用戶狀態單分類模型訓練方法的流程示意圖;
[0020] 圖3為一個實施例中均勻核函數的示意圖;
[0021] 圖4為一個實施例中正態核函數的示意圖;
[0022] 圖5為一個實施例中訓練樣本集中所有正訓練樣本的樣本特征向量分布示意圖;
[0023] 圖6為一個實施例中在圖5所示的樣本特征向量中尋找一個超球面W包圍樣本特 征向量的示意圖;
[0024] 圖7為一個實施例中利用如圖6所示的超球面進行分類的示意圖;
[0025] 圖8為一個實施例中檢測待檢測用戶標識所對應的用戶狀態的步驟的流程示意 圖;
[0026] 圖9為一個實施例中根據樣本特征向量來估計模型參數的步驟的流程示意圖;
[0027] 圖10為一個實施例中獲得模型參數的取值范圍的步驟的流程示意圖;
[002引圖11為另一個實施例中根據樣本特征向量來估計模型參數的步驟的流程示意 圖;
[0029] 圖12為一個實施例中計算輔助中間值的步驟的流程示意圖;
[0030] 圖13為一個實施例中用戶狀態單分類模型訓練裝置的結構框圖;
[0031] 圖14為另一個實施例中用戶狀態單分類模型訓練裝置的結構框圖;
[0032] 圖15為一個實施例中圖13中的模型參數估計模塊的結構框圖;
[0033] 圖16為再一個實施例中用戶狀態單分類模型訓練裝置的結構框圖;
[0034] 圖17為另一個實施例中圖13中的模型參數估計模塊的結構框圖;
[0035] 圖18為一個實施例中圖17中的輔助中間值計算模塊的結構框圖。
【具體實施方式】
[0036] 為了使本發明的目的、技術方案及優點更加清楚明白,W下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用W解釋本發明,并 不用于限定本發明。
[0037] 如圖1所示,在一個實施例中,提供了一種電子設備,該電子設備包括通過系統總 線連接的處理器、內存、存儲介質和網絡接口。其中,該電子設備的存儲介質存儲有操作系 統、數據庫,還存儲有一種用戶狀態單分類模型訓練裝置。該用戶狀態單分類模型訓練裝置 用于實現一種用戶狀態單分類模型訓練方法。該電子設備的處理器被配置為執行一種用戶 狀態單分類模型訓練方法。該電子設備可W是一個獨立的設備,或者可W是多個可互聯通 信的電子設備組成的電子設備群,用戶狀態單分類模型訓練裝置的各個功能模塊可W分別 部署在電子設備群中的各個電子設備上。該電子設備可W是臺式計算機。
[003引如圖2所示,在一個實施例中,提供了一種用戶狀態單分類模型訓練 方法,用于訓練生成一個用于檢測用戶狀態的用戶狀態單分類模型。單分類 (X)ne-Class-Classification)問題,也可稱為一分類問題,是指只知道某一類樣本的標記, 對未知類別的數據判斷是否屬于該類的問題。模型則是指數學模型,數學模型就是為了某 種目的,用字母、數字及其它數學符號建立起來的等式或不等式等描述客觀事物的特征及 其內在聯系的數學結構表達式。用戶狀態單分類模型則是指預先訓練獲得的用W判斷輸入 的特征向量是否屬于指定用戶狀態的一種數學模型。本實施例W該方法應用于上述圖1中 的電子設備來舉例說明。該方法具體包括如下步驟:
[0039] 步驟202,獲取已知屬于指定用戶狀態類的至少兩個正訓練樣本;每個正訓練樣 本具有至少兩項用戶屬性信息。
[0040] 具體地,獲取多個正訓練樣本W形成訓練樣本集,且每個正訓練樣本分別具有至 少兩項用戶屬性信息。為了保證訓練獲得的用戶狀態單分類模型的性能,用戶屬性信息優 選取10項W上。該里僅采用正訓練樣本,而正訓練樣本是指已知屬于指定用戶狀態類的訓 練樣本。
[0041] 指定用戶狀態則是預先定義的一種用戶狀態,本實施例主要W指定用戶狀態為育 兒狀態為例進行說明,相應的正訓練樣本則是已知屬于育兒狀態的用戶的各種用戶屬性信 息的集合。可W理解的是,可W根據實際需要設定不同的指定用戶狀態,比如可W是學生狀 態、單身狀態等等。每個正訓練樣本的各項用戶屬性信息均是與指定用戶狀態相關的。
[0042] 每個正訓練樣本的各項用戶屬性信息可W取自用戶年齡屬性、用戶性別屬性、用 戶學歷屬性、用戶收入屬性W及與指定用戶狀態相關的行為數據。其中與指定用戶狀態相 關的行為數據包括但不限于已加入的與指定用戶狀態相關的群組數量、社交網絡中與指定 用戶狀態相關的信息數量、與指定用戶狀態相關的信息的捜索次數、與指定用戶狀態相關 的網頁的點擊次數W及與指定用戶狀態相關的產品的捜索、瀏覽、收藏、下單和成交次數。
[0043] 舉例來說,當指定用戶狀態為育兒狀態時,則相應的與育兒狀態相關的行為數據 包括但不限于:已加入與育兒相關的群組數量、社交網絡中與育兒相關的信息數量、與育兒 相關的網頁的點擊次數、發起的與育兒相關的提問次數、育兒相關信息捜索次數、育兒相關 產品瀏覽次數、育兒相關產品捜索次數、育兒相關產品下單次數、育兒相關產品成交次數、 育兒相關產品收藏次數等。
[0044] 類似地,當指定用戶狀態為學生狀態時,則相應的與學生狀態相關的行為數據包 括但不限于;已加入與學習討論相關的群組數量、社交網絡中與學習相關的信息數量、與學 習相關的網頁的點擊次數、發起的與學習相關的提問次數、學習相關信息捜索次數、學習用 品捜索、瀏覽、收藏、下單和成交次數等。
[0045] 步驟204,根據每個正訓練樣本的各項用戶屬性信息,提取每個正訓練樣本的樣本 特征向量。
[0046] 每個正訓練樣本的各個用戶屬性信息中,部分用戶屬性信息的值是數值數據,該 種情況下就可W直接將該數值數據作為相應的樣本特征向量中對應的元素,比如育兒相關 產品瀏覽次數、育兒相關產品捜索次數等。
[0047] 每個正訓練樣本的各個用戶屬性信息中,還有部分用戶屬性信息的值不是數值數 據,而是存在幾種有限數量的可能情形,該種情況下就需要對該該部分用戶屬性信息進行 量化。具體可W將用戶屬性信息的幾種可能情形分別用不同的數值來表示,然后將用戶屬 性信息所量化的數值整體作為相應的樣本特征向量中對應的元素。
[0048] 比如用戶性別屬性存在男和女兩種情形,可W分別用1和2來表示男和女兩種可 能情形,則一個樣本特征向量