詞匯的獲取方法及裝置、推送方法及裝置的制造方法
【專利說明】
【技術領域】
[0001]本發明涉及互聯網應用技術領域,尤其涉及一種詞匯的獲取方法及裝置、推送方法及裝置。
【【背景技術】】
[0002]目前,輸入法詞庫包括終端本地預先下載的詞庫和線上的云詞庫,這樣,當用戶使用輸入法輸入詞匯時,可以為用戶提供豐富的候選詞匯,供用戶選擇。
[0003]現有技術中,每個用戶所使用的客戶端能夠獲取到的候選詞匯都是從輸入法詞庫獲取的,每個用戶的輸入法詞庫都是相同的;而且,輸入法詞庫量級的增長也無法滿足用戶的個性化輸入需求,30萬詞庫量級之后,詞庫擴容所帶來的首選率和覆蓋率的提升能力越來越有限。因此,現有技術中輸入法能夠提供的詞匯無法滿足用戶的個性化輸入需求,使得詞匯首選率和詞庫利用效率都比較低,從而導致輸入效率較低。
【
【發明內容】
】
[0004]有鑒于此,本發明實施例提供了一種詞匯的獲取方法及裝置、推送方法及裝置,用以解決輸入法詞匯無法滿足用戶的個性化輸入需求的問題。
[0005]本發明實施例的一方面,提供一種詞匯的獲取方法,包括:
[0006]獲取用戶的興趣分布信息;
[0007]生成個性化詞庫,所述個性化詞庫包含基礎詞匯和新詞;
[0008]根據所述用戶的興趣分布信息和所述個性化詞庫,獲得針對所述用戶的個性化詞匯。
[0009]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述生成個性化詞庫,包括:
[0010]根據已有詞庫,獲取所述基礎詞匯;
[0011]根據熱門詞匯和時效性詞匯,獲取所述新詞;
[0012]根據所述基礎詞匯和所述新詞,生成所述個性化詞庫。
[0013]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據熱門詞匯和時效性詞匯,獲取所述新詞之前,所述方法還包括:
[0014]獲取時效性的頁面內容;
[0015]對所述時效性的頁面內容進行切詞處理,以獲得至少一個候選詞匯;
[0016]根據用戶輸入詞匯歷史記錄和每個候選詞匯的標簽,對所述至少一個候選詞匯進行篩選,以獲得所述時效性詞匯。
[0017]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述用戶的興趣分布信息包括所述用戶的至少一個興趣標簽以及每個所述興趣標簽的權重值;所述根據所述用戶的興趣分布信息和所述個性化詞庫,獲得針對所述用戶的個性化詞匯,包括:
[0018]根據預設的詞匯總數和每個所述興趣標簽的權重值,確定每個所述興趣標簽對應的個性化詞匯數目;
[0019]根據每個所述興趣標簽和每個所述興趣標簽對應的個性化詞匯數目,從所述個性化詞庫獲得每個所述興趣標簽對應的個性化詞匯,以作為針對所述用戶的個性化詞匯。
[0020]本發明實施例的一方面,提供一種詞匯的推送方法,包括:
[0021]接收客戶端發送的詞匯版本信息和用戶標識;
[0022]根據所述詞匯版本信息和所述用戶標識,獲得針對使用所述客戶端的用戶的個性化詞匯;所述針對使用所述客戶端的用戶的個性化詞匯為利用所述的詞匯的獲取方法獲取的;
[0023]將針對使用所述客戶端的用戶的個性化詞匯推送給所述客戶端。
[0024]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述詞匯版本信息和所述用戶標識,獲得針對使用所述客戶端的用戶的個性化詞匯,包括:
[0025]根據所述用戶標識,獲得最新的詞匯版本信息;
[0026]將所述最新的詞匯版本信息與從所述客戶端接收的詞匯版本信息進行比較,若兩個詞匯版本信息不一致,根據所述用戶標識,獲得針對使用所述客戶端的用戶的個性化詞匯。
[0027]本發明實施例的一方面,提供一種詞匯的獲取裝置,包括:
[0028]興趣獲取單元,用于獲取用戶的興趣分布信息;
[0029]詞庫生成單元,用于生成個性化詞庫,所述個性化詞庫包含基礎詞匯和新詞;
[0030]詞匯獲取單元,用于根據所述用戶的興趣分布信息和所述個性化詞庫,獲得針對所述用戶的個性化詞匯。
[0031]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述詞庫生成單元,具體用于:
[0032]根據已有詞庫,獲取所述基礎詞匯;
[0033]根據熱門詞匯和時效性詞匯,獲取所述新詞;
[0034]根據所述基礎詞匯和所述新詞,生成所述個性化詞庫。
[0035]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述詞庫生成單元,還用于:
[0036]獲取時效性的頁面內容;
[0037]對所述時效性的頁面內容進行切詞處理,以獲得至少一個候選詞匯;
[0038]根據用戶輸入詞匯歷史記錄和每個候選詞匯的標簽,對所述至少一個候選詞匯進行篩選,以獲得所述時效性詞匯。
[0039]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述用戶的興趣分布信息包括所述用戶的至少一個興趣標簽以及每個所述興趣標簽的權重值;所述詞匯獲取單元,具體用于:
[0040]根據預設的詞匯總數和每個所述興趣標簽的權重值,確定每個所述興趣標簽對應的個性化詞匯數目;
[0041 ] 根據每個所述興趣標簽和每個所述興趣標簽對應的個性化詞匯數目,從所述個性化詞庫獲得每個所述興趣標簽對應的個性化詞匯,以作為針對所述用戶的個性化詞匯。
[0042]本發明實施例的一方面,提供一種詞匯的推送裝置,包括:
[0043]信息輸入單元,用于接收客戶端發送的詞匯版本信息和用戶標識;
[0044]詞匯處理單元,用于根據所述詞匯版本信息和所述用戶標識,獲得針對使用所述客戶端的用戶的個性化詞匯;所述針對使用所述客戶端的用戶的個性化詞匯為利用所述的詞匯的獲取裝置獲取的;
[0045]信息輸出單元,用于將針對使用所述客戶端的用戶的個性化詞匯推送給所述客戶端。
[0046]如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述詞匯處理單元,具體用于:
[0047]根據所述用戶標識,獲得最新的詞匯版本信息;
[0048]將所述最新的詞匯版本信息與從所述客戶端接收的詞匯版本信息進行比較,若兩個詞匯版本信息不一致,根據所述用戶標識,獲得針對使用所述客戶端的用戶的個性化詞匯。
[0049]由以上技術方案可以看出,本發明實施例具有以下有益效果:
[0050]本發明實施例提供的技術方案,能夠生成個性化詞庫,并根據用戶的興趣信息從個性化詞庫中獲取針對用戶的個性化詞匯,進一步可以輸出用戶的個性化詞匯,因此,實現了用戶詞匯的個性化獲取和推送,能夠滿足用戶的個性化輸入需求,解決現有技術中輸入法詞匯無法滿足用戶的個性化輸入需求的問題,從而能夠提高用戶輸入效率、詞庫首選率和覆蓋率。
【【附圖說明】】
[0051]為了更清楚地說明本發明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其它的附圖。
[0052]圖1是本發明實施例所提供的詞匯的獲取方法的流程示意圖;
[0053]圖2是本發明實施例所提供的獲得針對用戶的個性化詞條的示例圖;
[0054]圖3是本發明實施例所