提供的個性化詞庫的結構示例圖;
[0055]圖4是本發明實施例所提供的網頁中新聞熱搜詞的示例圖;
[0056]圖5是本發明實施例所提供的詞匯的推送方法的流程示意圖;
[0057]圖6是本發明實施例所提供的詞匯的獲取裝置的功能方塊圖;
[0058]圖7是本發明實施例所提供的詞匯的推送裝置的功能方塊圖。
【【具體實施方式】】
[0059]為了更好的理解本發明的技術方案,下面結合附圖對本發明實施例進行詳細描述。
[0060]應當明確,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
[0061]在本發明實施例中使用的術語是僅僅出于描述特定實施例的目的,而非旨在限制本發明。在本發明實施例和所附權利要求書中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。
[0062]應當理解,本文中使用的術語“和/或”僅僅是一種描述關聯對象的關聯關系,表示可以存在三種關系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關聯對象是一種“或”的關系。
[0063]取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應于確定”或“響應于檢測”。類似地,取決于語境,短語“如果確定”或“如果檢測(陳述的條件或事件)”可以被解釋成為“當確定時”或“響應于確定”或“當檢測(陳述的條件或事件)時”或“響應于檢測(陳述的條件或事件)”。
[0064]本發明實施例給出一種詞匯的獲取方法,請參考圖1,其為本發明實施例所提供的詞匯的獲取方法的流程示意圖,如圖所示,該方法包括以下步驟:
[0065]SlOl,獲取用戶的興趣分布信息。
[0066]具體的,本發明實施例中,為了獲得用戶的個性化詞匯,服務器需要先獲取用戶的興趣分布信息。
[0067]在一個具體的實現過程中,服務器可以利用現有的用戶標簽庫,從該用戶標簽庫,獲得每個用戶的興趣分布信息。
[0068]在一個具體的實現過程中,所述用戶的興趣分布信息可以包括但不限于:所述用戶的至少一個興趣標簽以及每個所述興趣標簽的權重值。
[0069]請參考圖2,其為本發明實施例所提供的獲得針對用戶的個性化詞條的示例圖,如圖所示,對于每個用戶都有對應的至少一個興趣標簽,圖2中的用戶具有三個標簽,即標簽1、標簽2和標簽3,每個標簽都有對應的權重值,圖2中的標簽I的權重值是0.7,標簽2的權重值是0.2,標簽3的權重值時0.1 ;可以理解的是,對于每個用戶而言,用戶的所有標簽的權重值之和等于I。
[0070]可以理解的是,用戶的興趣分部信息中,每個興趣標簽可以表示一種興趣類型,例如,汽車、美食、購物、足球、NBA、游戲、股票、音樂和小說等。用戶的興趣標簽的權重值越高,表示用戶對這類興趣類型越有興趣。
[0071 ] S102,生成個性化詞庫,所述個性化詞庫包含基礎詞匯和新詞。
[0072]具體的,本發明實施例中,生成個性化詞庫的方法可以包括但不限于:
[0073]首先,服務器根據已有詞庫,獲取所述基礎詞匯。然后,服務器根據熱門詞匯和時效性詞匯,獲取所述新詞。最后,服務器根據所述基礎詞匯和所述新詞,生成所述個性化詞庫。
[0074]請參考圖3,其為本發明實施例所提供的個性化詞庫的結構示例圖,如圖所示,現有技術中只有圖3中的基礎詞庫,本發明實施例所提供的技術方案,在已有的基礎詞庫的基礎上,服務器新生成個性化詞庫,該個性化詞庫可以包含基礎詞匯和新詞。
[0075]在一個具體的實現過程中,服務器可以從已有詞庫,如云輸入詞庫、分類詞庫、百科詞庫和神經語言程序學(Neuro-Linguistic Programming,NLP)詞庫中,獲取所述基礎詞匯。
[0076]在一個具體的實現過程中,很多網頁都有提供熱門詞匯,如圖4所示,某網頁提供了若干新聞熱搜詞,因此,服務器可以從互聯網的各個網頁中抓取當前的熱門詞匯,并用抓取到的熱門詞匯構成所述個性化詞庫。
[0077]舉例說明,獲取所述時效性詞匯的方法可以包括但不限于:
[0078]首先,服務器從網頁獲取時效性的頁面內容,如新聞內容、微博內容等。然后,服務器根據切詞詞典,對所述時效性的頁面內容進行切詞處理,以獲得至少一個候選詞匯。最后,服務器根據用戶輸入詞匯歷史記錄和每個候選詞匯的標簽,對所述至少一個候選詞匯進行篩選,以獲得所述時效性詞匯。
[0079]在一個具體的實現過程中,服務器可以預先對用戶輸入的詞匯進行記錄,以生成用戶輸入詞匯歷史記錄,然后利用用戶輸入詞匯歷史記錄對所述至少一個候選詞匯進行篩選,用以篩除干擾詞匯。
[0080]例如,可以根據預設的出現閾值,從用戶輸入詞匯歷史記錄中獲取大于該出現閾值的用戶輸入詞匯,然后獲取該用戶輸入詞匯與至少一個候選詞匯的交集,即在至少一個候選詞匯中保留屬于所述用戶輸入詞匯的候選詞匯。
[0081]例如,所述出現閾值可以等于3。
[0082]在一個具體的實現過程中,對于經過用戶輸入詞匯歷史記錄篩選后剩余的至少一個候選詞匯,需要根據每個候選詞匯的標簽進一步進行篩選,篩選后剩余的候選詞匯將作為本發明實施例中的所述時效性詞匯,用以構建個性化詞庫。
[0083]在一個具體的實現過程中,對于經過用戶輸入詞匯歷史記錄篩選后剩余的至少一個候選詞匯,可以將具有公有標簽的候選詞匯篩除。例如,候選詞條為“不得不”,體育類標簽中有該候選詞條,物理類標簽也有該候選詞條,則認為該候選詞條具有公有標簽,屬于通用詞匯,因此需要在體育類詞匯和物理類詞匯中都刪除該候選詞條。
[0084]需要說明的是,上述SlOl和S102的執行順序僅為一種實現方式,也可以將SlOl與S102的執行順序調換,并不影響本發明實施例技術方案的實現。
[0085]S103,根據所述用戶的興趣分布信息和所述個性化詞庫,獲得針對所述用戶的個性化詞匯。
[0086]具體的,舉例說明,本發明實施例中,在獲取到用戶的興趣分布信息,并生成所述個性化詞庫之后,就可以根據所述用戶的興趣分布信息和所述個性化詞庫,獲得針對所述用戶的個性化詞匯。其方法可以包括但不限于:
[0087]首先,根據預設的詞匯總數和每個所述興趣標簽的權重值,確定每個所述興趣標簽對應的個性化詞匯數目。然后,根據每個所述興趣標簽和每個所述興趣標簽對應的個性化詞匯數目,從所述個性化詞庫獲得每個所述興趣標簽對應的個性化詞匯,以作為針對所述用戶的個性化詞匯。
[0088]在一個具體的實現過程中,可以根據所述詞匯總數與每個所述興趣標簽的權重值的乘積,獲得每個所述興趣標簽對應的個性化詞匯數目。例如,如圖2所示,標簽I的權重值等于0.7,預設的詞匯總數為10000,則標簽I對應的個性化詞匯數目可以為7000個,以此類推,標簽2對應的個性化詞匯數目可以為2000,標簽3對應的個性化詞匯書目可以為1000
[0089]在一個具體的實現過程中,對于每個興趣標簽,在已經生成的個性化詞庫中,找到該興趣標簽下的所有個性化詞匯,然后根據個性化詞匯數目,從所有個性化詞匯中獲取權重值最高的相應數目的個性化詞匯,構成了該興趣標簽的個性化詞庫,所有興趣標簽的個性化詞匯就構成了針對該用戶的個性化詞匯。
[0090]例如,如圖2所示,根據標