應用分類模型構建方法、應用分類方法及系統的制作方法
【技術領域】
[0001] 本發明涉及一種應用分類模型構建方法及系統。
【背景技術】
[0002] 隨著手機等移動終端性能的提高和可下載的應用軟件規模的極速增長,用戶在選 擇應用時將面對更大的噪聲,如何有效的對大規模應用進行分類從而提高用戶的體驗成為 一個手機市場重要的技術手段。目前軟件在應用市場進行推廣,搜索,下載中,對于新應用 的分類使用人工逐個審核的方式對應用歸類,這樣的方法人力成本高,而且平均精度不高, 難以維護。
【發明內容】
[0003] 本發明的目的在于提供一種應用分類模型構建方法及系統,能夠有效降低人力成 本,提高平均分類精度。
[0004] 為解決上述問題,本發明提供一種應用分類模型構建方法,包括: 獲取不同應用提供商的多數據源的應用基礎分類數據作為訓練數據; 獲取訓練數據中每個應用的權限列表; 根據訓練數據中所有應用的權限列表構建一次匹配模型,所述一次匹配模型包括應用 的多個第一分類; 獲取訓練數據中每個應用的主題信息,根據訓練數據中所有應用的主題信息進行特征 選擇; 根據選擇的特征構建二次匹配模型,所述二次匹配模型包括應用的多個第二分類。
[0005] 進一步的,在上述方法中,獲取不同應用提供商的多數據源的應用基礎分類數據 作為訓練數據,包括: 獲取不同應用提供商的多數據源的每個應用的分類向量; 統計每個應用的分類向量中每個分類的出現頻次,由每個應用的分類向量中出現頻次 最高的分類作為該應用的應用基礎分類,當出現無法判斷分類的應用時將其從訓練數據集 中刪除。
[0006] 進一步的,在上述方法中,獲取訓練數據中每個應用的權限列表中,每個應用的權 限列表為根據該應用的權限生成的字典表向量。
[0007] 進一步的,在上述方法中,根據訓練數據中所有應用的權限列表構建一次匹配模 型,包括: 采用meanshift算法,并根據訓練數據中歸屬于同一分類的應用權限向量計算每個分 類的密度中心點。
[0008] 進一步的,在上述方法中,根據訓練數據中所有應用的主題信息進行特征選擇,包 括: 對每個應用的主題信息進行分詞,去除帶有噪聲信息的詞; 從所有應用的主題信息中剩余的未去除的詞中選擇特征詞; 根據選擇的特征詞生成多個分類,每個分類包括多個特征詞。
[0009] 進一步的,在上述方法中,對每個應用的主題信息進行分詞,去除帶有噪聲信息的 詞,包括: 對于中文的主題信息,采用中科院ICTCLAS算法來分詞并去除帶有噪聲信息的詞; 對于英文的主題信息,采用wordnet算法來分詞并去除帶有噪聲信息的詞。
[0010] 進一步的,在上述方法中,從所有應用的主題信息中剩余的未去除的詞中選擇特 征詞,包括: 采用CHI檢驗算法設定最小閥值,從所有應用的主題信息中剩余的未去除的詞中選擇 最小閥值以上的詞作為特征詞。
[0011] 進一步的,在上述方法中,根據選擇的特征構建二次匹配模型,包括:采用特征詞 維度平衡和貝葉斯分類器原理構建二次匹配模型。
[0012] 進一步的,在上述方法中,采用特征詞維度平衡和貝葉斯分類器原理構建二次匹 配模型,包括: 采用特征詞維度平衡原理,將特征詞的數量在同一量級的分類分別生成對應的貝葉斯 分類器,所有的貝葉斯分類器組合成二次匹配模型,每個貝葉斯分類器對應一個第二分類。
[0013] 進一步的,在上述方法中,根據選擇的特征構建二次匹配模型之后,還包括: 使用測試數據測試一次、二次匹配模型的準確率,并根據一次、二次匹配模型的準確 率來分別對一次、二次匹配模型的模型參數進行調整,得到調整參數后的一次、二次匹配模 型。
[0014] 根據本發明的另一面還提供一種應用分類方法,采用上述應用分類模型構建方法 構建的一次、二次匹配模型,所述應用分類方法,包括: 獲取待分類應用的權限列表; 采用一次匹配模型,并根據待分類應用的權限列表判斷待分類應用是否只屬于某個第 一分類, 若只屬于某個第一分類,則輸出所述待分類應用屬于某個第一分類的結果; 若不只屬于某個第一分類,則獲取所述待分類應用的主題信息,采用二次匹配模型, 并根據待分類應用的主題信息判斷待分類應用是否屬于某個第二分類,若屬于某個第二分 類,則輸出所述待分類應用屬于某個第二分類的結果;若不屬于某個第二分類,則進行人工 匹配并輸出待分類應用的分類結果。
[0015] 進一步的,在上述方法中,獲取所述待分類應用的主題信息,采用二次匹配模型, 并根據待分類應用的主題信息判斷待分類應用是否屬于某個第二分類,包括: 獲取所述待分類應用的主題信息; 對所述待分類應用的主題信息進行分詞,去除帶有噪聲信息的詞; 采用二次匹配模型,并根據待分類應用的主題信息中剩余的未去除的詞判斷待分類應 用是否屬于某個第二分類。
[0016] 進一步的,在上述方法中,采用一次匹配模型,并根據待分類應用的權限列表判斷 待分類應用是否只屬于某個第一分類,包括: 計算待分類應用的權限列表中的權限向量與每個第一分類的密度中心點的邊界距離, 當待分類應用的權限列表中的權限向量與某個第一分類的密度中心點的邊界距離大 于等于預設閥值時,則該待分類應用屬于該個第一分類; 當待分類應用的權限列表中的權限向量與某個第一分類的密度中心點的邊界距離小 于預設閥值時,或者當待分類應用的權限列表中的權限向量與某兩個或兩個以上第一分類 的密度中心點的邊界距離大于等于預設閥值時,則所述待分類應用不只屬于某個第一分 類。
[0017] 根據本發明的另一面,還提供一種應用分類模型構建系統,包括: 第一裝置,用于獲取不同應用提供商的多數據源的應用基礎分類數據作為訓練數據; 第二裝置,用于獲取訓練數據中每個應用的權限列表; 第三裝置,用于根據訓練數據中所有應用的權限列表構建一次匹配模型,所述一次匹 配模型包括應用的多個第一分類; 第四裝置,用于獲取訓練數據中每個應用的主題信息,根據訓練數據中所有應用的主 題信息進行特征選擇; 第五裝置,用于根據選擇的特征構建二次匹配模型,所述二次匹配模型包括應用的多 個第二分類。
[0018] 進一步的,在上述系統中,所述第一裝置,用于獲取不同應用提供商的多數據源的 每個應用的分類向量,統計每個應用的分類向量中每個分類的出現頻次,由每個應用的分 類向量中出現頻次最高的分類作為該應用的應用基礎分類,當出現無法判斷分類的應用時 將其從訓練數據集中刪除。
[0019] 進一步的,在上述系統中,所述第二裝置,用于每個應用的權限列表為根據該應用 的權限生成的字典表向量。
[0020] 進一步的,在上述系統中,所述第三裝置采用meanshift算法,并根據訓練數據中 歸屬于同一分類的應用權限向量計算每個分類的密度中心點。
[0021] 進一步的,在上述系統中,所述第四裝置,包括: 第四一模塊,用于對每個應用的主題信息進行分詞,去除帶有噪聲信息的詞; 第四二模塊,用于從所有應用的主題信息中剩余的未去除的詞中選擇特征詞; 第四三模塊,用于根據選擇的特征詞生成多個分類,每個分類包括多個特征詞。
[0022] 進一步的,在上述系統中,對于中文的主題信息,所述第四一模塊采用中科院 ICTCLAS算法來分詞并去除帶有噪聲信息的詞; 對于英文的主題信息,所述第四一模塊采用wordnet算法來分詞并去除帶有噪聲信息 的詞。
[0023] 進一步的,在上述系統中,所述第四二模塊采用CHI檢驗算法設定最小閥值,從所 有應用的主題信息中剩余的未去除的詞中選擇最小閥值以上的詞作為特征詞。
[0024] 進一步的,在上述系統中,所述第五裝置,用于對選擇的特征詞進行維度平衡,用 特征詞維