一種基于地理位置和興趣點信息的用戶細分方法
【專利摘要】本發明公開了一種基于地理位置和興趣點信息的用戶細分方法,具體包括如下步驟:步驟一、選擇訓練用戶,并將其興趣點信息轉化為文本形式;步驟二、構建用戶興趣點屬性字典;步驟三、LDA模型訓練;步驟四、預測且細分新用戶:(1)對于每一位新用戶,按照步驟二的方法構建該用戶的興趣點屬性字典;(2)按照步驟三的方法將該用戶的興趣點從文字格式轉化為BOW格式,再將BOW格式的訓練數據填入訓練好的LDA模型;(3)LDA 模型按照該用戶的興趣點輸出跟該用戶相關的各種主題標簽及其權重。通過用戶經常去到的地方將用戶進行細分。
【專利說明】一種基于地理位置和興趣點信息的用戶細分方法
【技術領域】
[0001] 本發明涉及數據處理【技術領域】,尤其涉及一種基于地理位置和興趣點信息的用戶 細分方法。
【背景技術】
[0002] 為了能夠提供個性化的市場營銷戰略,需要根據用戶的一些特征將用戶進行細 分。比如當需要將社交網絡上的用戶進行細分時,可以通過分析用戶所聽的音樂類型、喜歡 看的電影或者電視劇類型、瀏覽的網站類型、喜歡拍或者觀賞的照片、社交網絡上結交的朋 友類型以及喜歡閱讀的書籍類型。最終,我們能夠從社交網絡上搜尋到某個特定的用戶,例 如他們的愛好和私人信息。可以將用戶細分為(1)喜歡玩游戲的用戶;(2)喜歡聽音樂的 用戶;(3)喜歡看電影的用戶;(4)喜歡網上購物的用戶;(5)喜歡閱讀的用戶;(6)喜歡旅 行的用戶;(7)喜歡美食的用戶等等,這是根據用戶使用的軟件以及網頁瀏覽的習慣對用 戶進行細分。
[0003] 然而,當用戶沒有使用這些軟件或者沒有瀏覽網頁的時候,如何對這些用戶進行 細分則沒有有效的方法。
【發明內容】
[0004] 針對現有技術中的上述技術問題,本發明公開了一種基于地理位置和興趣點信息 的用戶細分方法。
[0005] 本發明的發明目的通過下述技術方案來實現:
[0006] 本發明公開了一種基于地理位置和興趣點信息的用戶細分方法,具體包括如下步 驟:
[0007] 步驟一、選擇一組用戶作為訓練用戶,根據其中每個用戶的地理位置得到其周邊 的興趣點信息,并將該興趣點信息轉化為文本形式;
[0008] 步驟二、構建用戶興趣點屬性字典:將所有訓練用戶的興趣點信息集合在用戶屬 性字典中;
[0009] 步驟三、LDA模型訓練:
[0010] (1)基于構建好的用戶屬性字典,創建一個代表整個訓練數據集的詞袋BOW ;
[0011] (2)利用創建好的詞袋,把所有訓練用戶的興趣點信息從文字格式轉換到BOW格 式;
[0012] (3)將BOW格式的訓練數據填入LDA模型來進行訓練;
[0013] 步驟四、預測且細分新用戶:
[0014] (1)對于每一位新用戶,按照步驟二的方法構建該用戶的興趣點屬性字典;
[0015] (2)按照步驟三的方法將該用戶的興趣點從文字格式轉化為BOW格式,再將BOW格 式的訓練數據填入訓練好的LDA模型;
[0016] (3) LDA模型按照該用戶的興趣點輸出跟該用戶相關的各種主題標簽及其權重。通 過用戶的可能渠道的興趣點將用戶進行細分。
[0017] 更進一步地,上述方法還包括移除訓練數據中興趣點出現次數少于5次的屬性。 這是因為出現頻率太低的興趣點不會對LDA模型的準確度有任何的幫助;相反,頻率低的 興趣點對模型的準確度是有害的。
[0018] 更進一步地,上述方法還包括移除訓練數據中出現頻率高于90%的興趣點信息。 這是因為出現頻率太高的興趣點不會對LDA模型的準確度有任何的幫助;相反,頻率高的 興趣點對模型的準確度是有害的。
[0019] 更進一步地,上述地理位置通過GPS定位得到。
[0020] 更進一步地,上述興趣點信息從定位數據對應的電子地圖中獲取。比如百度地圖。
[0021] 通過采用以上的技術方案,本發明的有益效果是:通過將客戶去過的地方來量化 的勾勒出用戶的類型,即所有客戶不再被看成簡單的數字,而是具有不同興趣點(標簽)的 個體。用用戶的興趣點來量化地勾勒出用戶的具體細節輪廓。采用本發明方法得出的對用 戶興趣點的詮釋在某些時候甚至能超過個體本人對自身的詮釋和了解。本發明可以將用戶 細分為個性化的群組,例如,喜歡運動的用戶、學生用戶以及喜歡購物的用戶的用戶;可以 用群組主題上類似的興趣點一起來構成主題上有聯系的群組;本發明還可以預測或者細分 新的(或者未預見的)用戶為各種主題。
【具體實施方式】
[0022] 為了使本發明的目的、技術方案及優點更加清楚明白,以下結合具體實施例,對本 發明進行進一步詳細的說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并 不用于限定本發明。
[0023] 本發明中,POI是興趣點(Point of Interest)的簡稱。POI是指大眾可能覺得有 用或感興趣的具體地點。POI在電子地圖中通常包含各大酒店、露營地點、加油站、商鋪、醫 院和現代GPS系統中可能出現的其他分類里涵蓋的地點。GPS系統中關注點的具體信息至 少會顯示POI的經煒度、地名和相關常見信息內容。其他涉及到的地點信息還可以包括海 拔高度或聯系電話等。因此,當知道一個GPS的定位坐標,就可以利用類似百度地圖這樣的 POI信息,就能搜索出設定區域內所有的興趣點信息。
[0024] LDA 算法,Latent Dirichlet Allocation(潛在主題抽取)算法,Latent Dirichlet Allocation (潛在主題抽取)或者LDA,是一種被應用在文本挖掘方面的機器學 習方法,通常目的在于從一個文檔集合中自動發現專題論題。簡而言之,LDA模型從一大堆 文檔集合中抽取一個預先確定數量的主題,而且該訓練模式可以被用來推斷其后任何文檔 的主題(不同的權重)。例如,一個文檔談論蘋果電腦和汽車,那么其推斷主題很可能即為 "電腦"和"汽車"。主題建模是指,將整個文檔集合細分成相關少數主題的詞并且作為主題 融合代表每個文檔。這樣,通過察看主題中的詞就可以解釋這個模型。
[0025] 其中的一個實施例
[0026] 本發明公開了一種基于地理位置和興趣點信息的用戶細分方法,具體包括如下步 驟:
[0027] 步驟一、選擇一組用戶作為訓練用戶,根據其中每個用戶的地理位置得到其周邊 的興趣點信息,并將該興趣點信息轉化為文本形式;
[0028] 步驟二、構建用戶興趣點屬性字典:將所有訓練用戶的興趣點信息集合在用戶屬 性字典中;
[0029] 步驟三、LDA模型訓練:
[0030] (1)基于構建好的用戶屬性字典,創建一個代表整個訓練數據集的詞袋BOW ;
[0031] (2)利用創建好的詞袋,把所有訓練用戶的興趣點信息從文字格式轉換到BOW格 式;
[0032] (3)將BOW格式的訓練數據填入LDA模型來進行訓練;
[0033] 步驟四、預測且細分新用戶:
[0034] (1)對于每一位新用戶,按照步驟二的方法構建該用戶的興趣點屬性字典;
[0035] (2)按照步驟三的方法將該用戶的興趣點從文字格式轉化為BOW格式,再將BOW格 式的訓練數據填入訓練好的LDA模型;
[0036] (3) LDA模型按照該用戶的興趣點輸出跟該用戶相關的各種主題標簽及其權重。
[0037] 該發明主要包括兩個大的步驟:構建模型和用戶細分,具體步驟如下:
[0038] 步驟一、構建基于地理位置和興趣點信息的潛在主題抽取模型LDA模型:步驟 S11.獲取用戶移動終端所在的地理位置,根據地理位置的定位數據得到對應電子地圖周邊 的興趣點信息,并將該興趣點信息轉化為文本形式;步驟S12.采用潛在主題抽取算法將該 文本形式的興趣點信息轉化為興趣點主題,得到潛在主題抽取模型;步驟S13.利用訓練數 據依次采用上述步驟Sll和S12訓練潛在主題抽取模型;
[0039] 步驟二、根據新用戶的地理位置和興趣點信息對新用戶進行細分:步驟S21.對于 新用戶,獲取該新用戶移動終端所在的地理位置,根據地理位置的定位數據得到對應電子 地圖周邊的興趣點信息,并將該興趣點信息轉化為文本形式;S22.將新用戶的文本形式的 興趣點信息填入訓練好的潛在主題抽取模型,潛在主題抽取模型按照該新用戶的興趣點信 息輸出跟該用戶相關的各種主題標簽及其權重;S23.根據新用戶的主題標簽及其權重對 該新用戶進行細分。
[0040] 本發明主要包括兩部分,第一,基于用戶的POI信息,利用LDA算法進行建模。第 二,如何運用訓練好的模型來預測并且細分用戶。
[0041] 第一部分:LDA模型訓練
[0042] LDA算法的核心在于將用戶興趣點的信息轉化為便于LDA使用的文本模式。
[0043] 首先建立用戶的興趣點信息。比如可以根據每一個用戶的GPS信息(當然,也不 限于采用GPS來進行地理位置信息的獲取)來提取POI信息,比如范圍可以是提取定位點 周邊直徑50米內(其范圍可以根據需要進行其他的設定)的POI數據,可以把每個POI的 名稱和種類的標簽首先進行利用(例如:名稱為XX飯店,類型位餐飲;名稱為XX學院,類型 為學校),然后將該這些信息都轉化為文字的格式,得到如下所示的文本形式。
[0044]
【權利要求】
1. 一種基于地理位置和興趣點信息的用戶細分方法,具體包括如下步驟: 步驟一、選擇一組用戶作為訓練用戶,根據其中每個用戶的地理位置得到其周邊的興 趣點信息,并將該興趣點信息轉化為文本形式; 步驟二、構建用戶興趣點屬性字典;將所有訓練用戶的興趣點信息集合在用戶屬性字 m巾. 步驟S、LDA模型訓練; (1) 基于構建好的用戶屬性字典,創建一個代表整個訓練數據集的詞袋BOW ; (2) 利用創建好的詞袋,把所有訓練用戶的興趣點信息從文字格式轉換到BOW格式; (3) 將BOW格式的訓練數據填入LDA模型來進行訓練; 步驟四、預測且細分新用戶: (1) 對于每一位新用戶,按照步驟二的方法構建該用戶的興趣點屬性字典; (2) 按照步驟S的方法將該用戶的興趣點從文字格式轉化為BOW格式,再將BOW格式的 訓練數據填入訓練好的LDA模型; (3) LDA模型按照該用戶的興趣點輸出跟該用戶相關的各種主題標簽及其權重。
2. 如權利要求1所述的基于地理位置和興趣點信息的用戶細分方法,其特征在于所述 方法還包括移除訓練數據中興趣點出現次數少于5次的屬性。
3. 如權利要求1或者2所述的基于地理位置和興趣點信息的用戶細分方法,其特征在 于所述方法還包括移除訓練數據中出現頻率高于90%的興趣點信息。
4. 如權利要求1或者2所述的基于地理位置和興趣點信息的用戶細分方法,其特征在 于所述地理位置通過G P S定位得到。
5. 如權利要求4所述的基于地理位置和興趣點信息的用戶細分方法,其特征在于所述 興趣點信息從定位數據對應的電子地圖中獲取。
【文檔編號】G06Q30/02GK104463633SQ201410799873
【公開日】2015年3月25日 申請日期:2014年12月19日 優先權日:2014年12月19日
【發明者】張一文 申請人:成都品果科技有限公司