本申請涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及信息推送方法和裝置。
背景技術:
隨著互聯網技術的發展,通過智能設備上所安裝的應用獲取資訊已經成為人們日常生活中的常見信息獲取方式。通常,需要向用戶個性化推薦其最感興趣的信息,以減少用戶在網絡上搜索所花的時間。
現有的方式通常是通過統計搜索數據結果中與搜索關鍵詞的共同出現的共現關鍵詞,繼而基于對共現的頻次較高的共現關鍵詞進行信息推送。然而,這種方法無法針對共現頻次較低的詞語進行分析,因而存在著信息推送的針對性較低的問題。
技術實現要素:
本申請實施例的目的在于提出一種改進的信息推送方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種信息推送方法,該方法包括:對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題;確定預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞;基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞;向用戶推送與主題和/或關聯關鍵詞對應的信息。
在一些實施例中,對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題,包括:對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞,并將關鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關鍵詞相對應的主題的概率;將關鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關鍵詞與至少一個第二候選主題中的各個第二候選主題的相似度;將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關鍵詞相對應的主題。
在一些實施例中,在對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題之前,該方法還包括生成主題概率分布模型的步驟,包括:對預設的多個文本進行解析,確定每一個文本的關鍵詞和主題,并建立該文本的關鍵詞和主題的對應關系;對所建立的對應關系進行統計,確定每一個關鍵詞和各個主題的對應關系的建立次數;基于所確定的每一個關鍵詞和各個主題的對應關系的建立次數,生成與所確定的每一個關鍵詞相對應的主題概率分布模型。
在一些實施例中,在對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題之前,該方法還包括生成泛化模型的步驟,包括:對預設的多個文本進行解析,生成各個文本的關鍵詞集合,并確定各個文本的主題;將相同主題的文本所對應的關鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關鍵詞集合;對于所確定的每一個主題,基于卡方檢驗方法,從與該主題相對應的關鍵詞集合中提取特征關鍵詞;基于機器學習方法,將與所確定的各個主題相對應的特征關鍵詞作為輸入,訓練得到泛化模型。
在一些實施例中,對預設的多個文本進行解析,生成各個文本的關鍵詞集合,并確定各個文本的主題,包括:對于預設的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關鍵詞集合;將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,主題模型用于表征文本與主題的對應關系。
在一些實施例中,在對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題之前,該方法還包括建立預置關鍵詞的關聯關系的步驟,包括:對歷史搜索數據和歷史瀏覽數據進行解析,確定第一關鍵詞和與每一個第一關鍵詞相關聯的至少一個第二關鍵詞;分別將第一關鍵詞、至少一個第二關鍵詞中的各個第二關鍵詞與預置關鍵詞集合中的各個預置關鍵詞進行相似度計算,將預置關鍵詞集合中的、與第一關鍵詞相似度最大的預置關鍵詞確定為第一預置關鍵詞,將預置關鍵詞集合中的、與各個第二關鍵詞相似度最大的預置關鍵詞分別確定為第二預置關鍵詞;分別建立第一預置關鍵詞與各個第二預置關鍵詞的關聯關系。
在一些實施例中,在分別建立第一預置關鍵詞與各個第二預置關鍵詞的關聯關系之后,該方法還包括:從歷史搜索數據和歷史瀏覽數據中統計第一預置關鍵詞與各個第二預置關鍵詞的共現次數;基于所確定的共現次數,確定第一預置關鍵詞到各個第二預置關鍵詞的轉移概率,其中,第一預置關鍵詞到每一個第二預置關鍵詞的轉移概率為第一預置關鍵詞與該第二預置關鍵詞的共現次數與所確定的各個共現次數的總和的比值。
在一些實施例中,基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞,包括:將所確定的預置關鍵詞作為目標第一預置關鍵詞,從所建立的關聯關系中,確定與目標第一預置關鍵詞相關聯的第二預置關鍵詞,并提取目標第一預置關鍵詞與相關聯的各個第二預置關鍵詞的轉移概率;將轉移概率大于預設概率的第二預置關鍵詞確定為與目標第一預置關鍵詞的相關聯的關聯關鍵詞。
在一些實施例中,在對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題之后,該方法還包括:將頁面內容的鏈接呈現在與主題相對應的網頁中。
第二方面,本申請實施例提供了一種信息推送裝置,該裝置包括:第一解析單元,配置用于對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題;第一確定單元,配置用于確定預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞;第二確定單元,配置用于基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞;推送單元,配置用于向用戶推送與主題和/或關聯關鍵詞對應的信息。
在一些實施例中,第一解析單元包括:第一輸入模塊,配置用于對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞,并將關鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關鍵詞相對應的主題的概率;第二輸入模塊,配置用于將關鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關鍵詞與至少一個第二候選主題中的各個第二候選主題的相似度;融合模塊,配置用于將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關鍵詞相對應的主題。
在一些實施例中,該裝置還包括:第二解析單元,配置用于對預設的多個文本進行解析,確定每一個文本的關鍵詞和主題,并建立該文本的關鍵詞和主題的對應關系;第一統計單元,配置用于對所建立的對應關系進行統計,確定每一個關鍵詞和各個主題的對應關系的建立次數;生成單元,配置用于基于所確定的每一個關鍵詞和各個主題的對應關系的建立次數,生成與所確定的每一個關鍵詞相對應的主題概率分布模型。
在一些實施例中,該裝置還包括:第三解析單元,配置用于對預設的多個文本進行解析,生成各個文本的關鍵詞集合,并確定各個文本的主題;合并單元,配置用于將相同主題的文本所對應的關鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關鍵詞集合;提取單元,配置用于對于所確定的每一個主題,基于卡方檢驗裝置,從與該主題相對應的關鍵詞集合中提取特征關鍵詞;訓練單元,配置用于基于機器學習方法,將與所確定的各個主題相對應的特征關鍵詞作為輸入,訓練得到泛化模型。
在一些實施例中,第三解析單元包括:分詞模塊,配置用于對于預設的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關鍵詞集合;第三輸入模塊,配置用于將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,主題模型用于表征文本與主題的對應關系。
在一些實施例中,該裝置還包括:第四解析單元,配置用于對歷史搜索數據和歷史瀏覽數據進行解析,確定第一關鍵詞和與每一個第一關鍵詞相關聯的至少一個第二關鍵詞;計算單元,配置用于分別將第一關鍵詞、至少一個第二關鍵詞中的各個第二關鍵詞與預置關鍵詞集合中的各個預置關鍵詞進行相似度計算,將預置關鍵詞集合中的、與第一關鍵詞相似度最大的預置關鍵詞確定為第一預置關鍵詞,將預置關鍵詞集合中的、與各個第二關鍵詞相似度最大的預置關鍵詞分別確定為第二預置關鍵詞;建立單元,配置用于分別建立第一預置關鍵詞與各個第二預置關鍵詞的關聯關系。
在一些實施例中,該裝置還包括:第二統計單元,配置用于從歷史搜索數據和歷史瀏覽數據中統計第一預置關鍵詞與各個第二預置關鍵詞的共現次數;第三確定單元,配置用于基于所確定的共現次數,確定第一預置關鍵詞到各個第二預置關鍵詞的轉移概率,其中,第一預置關鍵詞到每一個第二預置關鍵詞的轉移概率為第一預置關鍵詞與該第二預置關鍵詞的共現次數與所確定的各個共現次數的總和的比值。
在一些實施例中,第二確定單元包括:第一確定模塊,配置用于將所確定的預置關鍵詞作為目標第一預置關鍵詞,從所建立的關聯關系中,確定與目標第一預置關鍵詞相關聯的第二預置關鍵詞,并提取目標第一預置關鍵詞與相關聯的各個第二預置關鍵詞的轉移概率;第二確定模塊,配置用于將轉移概率大于預設概率的第二預置關鍵詞確定為與目標第一預置關鍵詞的相關聯的關聯關鍵詞。
在一些實施例中,該裝置還包括:呈現單元,配置用于將頁面內容的鏈接呈現在與主題相對應的網頁中。
第三方面,本申請實施例提供了一種服務器,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現如信息推送方法中任一實施例的方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如信息推送方法中任一實施例的方法。
本申請實施例提供的信息推送方法和裝置,通過對用戶瀏覽的頁面內容進行解析,以便提取關鍵詞并確定相應的主題,而后確定與該關鍵詞相匹配的預置關鍵詞,之后,基于預先建立的預置關鍵詞的關聯關系確定關聯關鍵詞,最后向用戶推送與主題和/或關聯關鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內容對應的主題和/或關聯關鍵詞相對應的信息,實現了富于針對性的信息推送。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統架構圖;
圖2是根據本申請的信息推送方法的一個實施例的流程圖;
圖3是根據本申請的信息推送方法的一個應用場景的示意圖;
圖4是根據本申請的信息推送方法的又一個實施例的流程圖;
圖5是根據本申請的信息推送裝置的一個實施例的結構示意圖;
圖6是適于用來實現本申請實施例的服務器的計算機系統的結構示意圖。
具體實施方式
下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發明相關的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
圖1示出了可以應用本申請的信息推送方法或信息推送裝置的示例性系統架構100。
如圖1所示,系統架構100可以包括終端設備101、102、103,網絡104和服務器105。網絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設備101、102、103通過網絡104與服務器105交互,以接收或發送消息等。終端設備101、102、103上可以安裝有各種通訊客戶端應用,例如網頁瀏覽器應用、新聞資訊類應用、購物類應用、搜索類應用、即時通信工具、郵箱客戶端、社交平臺軟件等。
終端設備101、102、103可以是具有顯示屏并且支持網頁瀏覽的各種電子設備,包括但不限于智能手機、平板電腦、膝上型便攜計算機和臺式計算機等等。
服務器105可以是提供各種服務的服務器,例如對終端設備101、102、103上顯示的頁面提供支持的后臺服務器。后臺服務器可以對用戶瀏覽的頁面內容進行解析等處理,并確定對應的主題、關聯關鍵詞等信息,并向用戶推送相關信息。
需要說明的是,本申請實施例所提供的信息推送方法一般由服務器105執行,相應地,信息推送裝置一般設置于服務器105中。
應該理解,圖1中的終端設備、網絡和服務器的數目僅僅是示意性的。根據實現需要,可以具有任意數目的終端設備、網絡和服務器。
繼續參考圖2,示出了根據本申請的信息推送方法的一個實施例的流程200。所述的信息推送方法,包括以下步驟:
步驟201,對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞并確定與關鍵詞相對應的主題。
在本實施例中,信息推送方法運行與其上的電子設備(例如圖1所示的服務器105)可以利用各種分析方法對用戶瀏覽的頁面內容進行解析,提取上述頁面內容的關鍵詞;而后確定與上述關鍵詞相對應的主題,其中,主題可以是用于表征上述頁面內容的類別的詞語,例如科技、體育、社會等。實踐中,用戶可以利用客戶端(例如圖1所示的終端設備101、102、103)所安裝的各種客戶端應用(例如瀏覽器、新聞資訊類應用、搜索類應用等)瀏覽頁面。
作為示例,上述電子設備可以基于預先訓練的深度神經網絡(deepneuralnetwork,dnn)提取上述頁面內容的關鍵詞。具體地,上述電子設備可以將上述頁面內容輸入至上述深度神經網絡中,將上述深度神經網絡所輸出的詞語確定為上述頁面內容的關鍵詞,其中,上述深度神經網絡可以用于表征文本與關鍵詞的對應關系。作為示例,上述深度神經網絡可以是基于大量的訓練樣本對任意的激活函數(例如,sigmoid函數、softplus函數、雙極性sigmoid函數等)進行有監督訓練后得到的,其中,訓練樣本中可以包含大量的文本和與每一個文本相對應的關鍵詞。
在確定上述文本內容的關鍵詞后,上述電子設備可以按照以下步驟確定與上述關鍵詞相對應的主題:上述電子設備可以首先將所提取的關鍵詞輸入至主題模型中;而后,將上述主題模型所輸出的主題確定為與上述關鍵詞相對應的主題。其中,上述主題模型可以用于表征文本與主題的對應關系。作為示例,上述主題模型可以是基于大量的訓練樣本對卷積神經網絡(convolutionalneuralnetwork,cnn)、支持向量機(supportvectormachine,svm)等現有的用于分類的模型進行有監督訓練后得到的,其中,訓練樣本中可以包含大量的文本和每一個文本信息的主題。
在本實施例的一些可選的實現方式中,上述電子設備可以通過以下步驟提取關鍵詞:第一步,上述電子設備可以利用各種分詞方法對上述頁面內容進行分詞。作為示例,上述分詞方法可以是基于統計的分詞方法。具體的,可以對上述頁面內容中的相鄰的各個字的組合的頻度進行統計,計算出字的組合出現的頻率。當上述概率高于預設概率閾值時,則判定上述組合構成了詞,從而實現對上述頁面內容的分詞。此外,上述分詞方法還可以是基于字符串匹配原理的分詞方法,利用字符串匹配原理將上述頁面內容和預置在上述電子設備中的機器詞典中的字符串進行匹配,其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、設立切分標注法、逐詞遍歷匹配法、正向最佳匹配法、逆向最佳匹配法等等。第二步,上述電子設備可以從分割所得到的詞中提取關鍵詞。作為示例,可以對分割所得到的詞進行重要性計算(例如采用詞頻-逆向文件頻率方法(tf-idf,termfrequency-inversedocumentfrequency)),基于重要性計算的結果確定重要性最高的預設數量(例如5個)的詞確定為關鍵詞。作為又一示例,上述電子設備中可以預先存儲關鍵詞列表,其中,上述關鍵詞列表中包括多個關鍵詞。上述電子設備將分割所得到的詞與上述關鍵詞列表中的關鍵詞進行字符串匹配,將匹配到的詞作為關鍵詞進行提取。
需要說明的是,上述電子設備還可以結合上述兩種方式確定上述頁面內容的關鍵詞。作為示例,可以融合上述方式所提取的關鍵詞,從融合后的關鍵詞中選取預設數量(例如5個)的關鍵詞作為上述頁面內容的關鍵詞。
在本實施例的一些可選的實現方式中,在確定上述文本內容的關鍵詞后,上述電子設備可以按照以下步驟確定與上述關鍵詞相對應的主題:上述電子設備可以首先將上述頁面內容輸入至預先訓練主題模型中;而后,將上述主題模型所輸出的主題確定為與上述關鍵詞相對應的主題。
步驟202,確定預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞。
在本實施例中,上述電子設備中可以預先存儲有由大量的預置關鍵詞構成的預置關鍵詞集合。上述電子設備可以通過字符串匹配的方式,將步驟201所提取的關鍵詞與上述預置關鍵詞集合中的預置關鍵詞進行匹配,確定上述預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞。
步驟203,基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞。
在本實施例中,上述電子設備中可以預先存儲有上述預置關鍵詞集合中的各個預置關鍵詞的關聯關系。作為示例,預置關鍵詞“籃球”與預置關鍵詞“足球”、“網球”相關聯。需要說明的是,預置關鍵詞的關聯關系可以是技術人員人工預先建立的,也可以是上述電子設備對大量的數據的統計后所預先建立的。上述電子設備可以基于上述預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞。作為示例,上述電子設備可以直接將與所確定的預置關鍵詞具有關聯關系的預置關鍵詞確定為與所確定的預置關鍵詞相關聯的關聯關鍵詞。
在本實施例的一些可選的實現方式中,上述預置關鍵詞的關聯關系可以通過以下步驟預先建立:第一步,上述電子設備可以對所存儲的歷史搜索數據和歷史瀏覽數據進行解析,確定第一關鍵詞和與每一個第一關鍵詞相關聯的至少一個第二關鍵詞。具體的,上述電子設備可以將歷史搜索數據中的搜索詞確定為第一關鍵詞,將用戶在利用該搜索詞進行搜索后所瀏覽的內容中的關鍵詞作為第二關鍵詞,或將用戶在在利用該搜索詞進行搜索后所瀏覽的內容過程中進行再次搜索時所使用的搜索詞確定為第二關鍵詞。其中,用戶在利用該搜索詞進行搜索后所瀏覽的內容中的提取關鍵詞的具體操作方法可以與步驟201所闡述的方式相同,在此不再贅述。第二步,上述電子設備可以分別將上述第一關鍵詞、上述至少一個第二關鍵詞中的各個第二關鍵詞與預置關鍵詞集合中的各個預置關鍵詞進行相似度計算,將上述預置關鍵詞集合中的、與上述第一關鍵詞相似度最大的預置關鍵詞確定為第一預置關鍵詞,將上述預置關鍵詞集合中的、與各個第二關鍵詞相似度最大的預置關鍵詞分別確定為第二預置關鍵詞。第三步,上述電子設備可以分別建立上述第一預置關鍵詞與各個第二預置關鍵詞的關聯關系,以生成上述預置關鍵詞集合中的預置關鍵詞的關聯關系。
在本實施例的一些可選的實現方式中,上述電子設備在上述建立上述第一預置關鍵詞與各個第二預置關鍵詞的關聯關系之后,還可以從上述歷史搜索數據和上述歷史瀏覽數據中統計上述第一預置關鍵詞與各個第二預置關鍵詞的共現次數。而后,可以基于所確定的共現次數,確定上述第一預置關鍵詞到各個第二預置關鍵詞的轉移概率,其中,上述第一預置關鍵詞到每一個第二預置關鍵詞的轉移概率為上述第一預置關鍵詞與該第二預置關鍵詞的共現次數與所確定的各個共現次數的總和的比值。
在本實施例的一些可選的實現方式中,上述電子設備可以按照以下步驟確定與步驟202所確定的預置關鍵詞相關聯的關聯關鍵詞:首先,可以將所確定的預置關鍵詞作為目標第一預置關鍵詞,從所建立的關聯關系中,確定與上述目標第一預置關鍵詞相關聯的第二預置關鍵詞,并提取上述目標第一預置關鍵詞與相關聯的各個第二預置關鍵詞的轉移概率;而后,將轉移概率大于預設概率的第二預置關鍵詞確定為與上述目標第一預置關鍵詞的相關聯的關聯關鍵詞。其中,上述預設概率可以是技術人員基于大量的統計而預先設定的概率。
步驟204,向用戶推送與主題和/或關聯關鍵詞對應的信息。
在本實施例中,上述電子設備可以首先檢索與上述主題和/或關聯關鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。作為示例,上述頁面內容的關鍵詞為“手機”和“處理器”,上述主題為“科技”,上述關聯關鍵詞為“平板電腦”和“便攜式計算機”,則上述電子設備可以“科技”和/或“平板電腦”和/或“便攜式計算機”為搜索詞進行檢索,并將檢索出的信息推送給上述用戶。
繼續參見圖3,圖3是根據本實施例的信息推送方法的應用場景的一個示意圖。在圖3的應用場景中,首先,用戶利用終端設備301進行頁面內容的瀏覽。而后,服務器302對用戶瀏覽的頁面內容解析,提取關鍵詞303和與關鍵詞303相對應的主題304。之后,服務器302從預置關鍵詞集合中確定與關鍵詞303相匹配的預置關鍵詞305,并基于預先建立的預置關鍵詞305的關聯關系確定關聯關鍵詞306。最后,服務器302將與主題304和/或關聯關鍵詞306相對應的信息307發送給終端設備301。
本申請的上述實施例提供的方法,通過對用戶瀏覽的頁面內容進行解析,以便提取關鍵詞并確定相應的主題,而后確定與該關鍵詞相匹配的預置關鍵詞,之后,基于預先建立的預置關鍵詞的關聯關系確定關聯關鍵詞,最后向用戶推送與主題和/或關聯關鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內容對應的主題和/或關聯關鍵詞相對應的信息,實現了富于針對性的信息推送。
進一步參考圖4,其示出了信息推送方法的又一個實施例的流程400。該信息推送方法的流程400,包括以下步驟:
步驟401,對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞,并將關鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關鍵詞相對應的主題的概率。
在本實施例中,信息推送方法運行與其上的電子設備(例如圖1所示的服務器105)可以首先利用各種方式對用戶瀏覽的頁面內容進行解析,提取頁面內容的關鍵詞。需要說明的是,此處提取關鍵詞的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。之后,上述電子設備可以將關鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和上述至少一個第一候選主題中的各個第一候選主題作為與關鍵詞相對應的主題的概率。其中,上述主題概率分布模型可以用于表征關鍵詞與對應主題的概率的對應關系。作為示例,上述主題概率模型可以是技術人員預先制定的、存儲有大量的關鍵詞與對應的主題的概率的對應關系表。
在本實施例的一些可選的實現方式中,上述主題概率分布模型還可以通過以下步驟生成:
首先,可以對預設的多個文本進行解析,確定每一個文本的關鍵詞和主題,并建立該文本的關鍵詞和主題的對應關系。例如,建立關鍵詞“手機”和主題“科技”的對應關系、建立關鍵詞“足球”和主題“體育”、主題“娛樂”的對應關系等。需要說明的是,確定上述多個文本中的各個文本的關鍵詞和主題的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。
之后,可以對所建立的對應關系進行統計,確定每一個關鍵詞和各個主題的對應關系的建立次數。例如,關鍵詞“足球”和主題“體育”的對應關系的建立次數為80次,關鍵詞“足球”和主題“娛樂”的對應關系的建立次數為20次等。
最后,可以基于所確定的每一個關鍵詞和各個主題的對應關系的建立次數,生成與所確定的每一個關鍵詞相對應的主題概率分布模型。對于每一個關鍵詞,與該關鍵詞相對應的主題概率分布模型可以用于表征與該關鍵詞對應的各個主題的概率。其中,該關鍵詞與所對應的每一個主題的概率為該關鍵詞與該主題的對應關系的建立次數與該關鍵詞與其所對應的各個主題的對應關系建立總次數的比值。作為示例,與關鍵詞“足球”存在對應關系的主題分別為主題“體育”和主題“娛樂”,與主題“體育”的對應關系的建立次數為80次,與主題“娛樂”的對應關系的建立次數為20次。則該關鍵詞“足球”對應主題“體育”的概率為80%,該關鍵詞“足球”對應主題“娛樂”的概率為20%。
在生成主題概率分布模型后,當將關鍵詞“足球”輸入到所生成的主題概率分布模型后,可以將該關鍵詞“足球”對應的主題“體育”和主題“娛樂”分別確定為第一候選主題,并將確定出第一候選主題“體育”作為與關鍵詞相對應的主題的概率為80%,第一候選主題“娛樂”作為與關鍵詞相對應的主題的概率為20%。
步驟402,將關鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關鍵詞與各個第二候選主題的相似度。
在本實施例中,上述電子設備可以將從上述頁面內容中提取的關鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和上述關鍵詞與所得到的各個第二候選主題的相似度。其中,上述泛化模型用于表征關鍵詞與對應的主題的相似度的對應關系。作為示例,上述泛化模型可以是技術人員預先制定的、存儲有大量的關鍵詞與對應的主題的相似度的對應關系表。
在本實施例的一些可選的實現方式中,上述泛化模型還可以通過以下步驟生成:
首先,可以對預設的多個文本進行解析,生成各個文本的關鍵詞集合,并確定各個文本的主題。具體地,首先,對于預設的多個文本中的每一個文本,可以對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關鍵詞集合;而后,可以將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,上述主題模型可以用于表征文本與主題的對應關系。需要說明的是,此處確定主題的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。
之后,將相同主題的文本所對應的關鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關鍵詞集合。
而后,對于所確定的每一個主題,可以基于卡方檢驗方法,從與該主題相對應的關鍵詞集合中提取特征關鍵詞。實踐中,卡方檢驗是通過觀察實際值與理論值的偏差來確定理論的正確與否的方法。通常,先假設兩個變量(例如某個關鍵詞和某個主題)是獨立的(即原假設),然后確定實際值與理論值的偏差程度,如果偏差足夠小,則認為誤差是很自然的樣本誤差,是測量手段不夠精確導致或者偶然發生的,上述兩個變量是獨立的,此時就接受原假設;如果偏差大到一定程度,則認為兩者實際上是相關的,即否定原假設。因此,可以利用卡方檢驗方式確定與每一個主題相關的關鍵詞,將所確定的相關的關鍵詞作為特征關鍵詞進行提取。需要說明的是,利用卡方檢驗方法進行特提取的方法是目前廣泛研究和應用的公知技術,在此不再贅述。
最后,可以基于機器學習方法,將與所確定的各個主題相對應的特征關鍵詞作為輸入,對樸素貝葉斯(naivebayesianmodel,nbm)、支持向量機等現有的用于基于相似度計算進行分類的模型進行訓練得到泛化模型。
步驟403,將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關鍵詞相對應的主題。
在本實施例中,上述電子設備可以將步驟401得到的至少一個第一候選主題與步驟402得到的至少一個第二候選主題進行各種方式的融合,確定與上述關鍵詞相對應的主題。作為示例,上述電子設備可以首先確定上述至少一個第一候選主題和上述至少一個第二候選主題中的相同主題,將分別得到的、相同主題對應的概率和相似度按預設的權重(例如均為0.5)進行加權求和,將加權求和后的數值確定為該相同主題作為與上述關鍵詞相對應的主題的概率;而后,可以將每一個與第一候選主題均不相同的第二候選主題對應的相似度確定為該第二候選主題作為與上述關鍵詞相對應的主題的概率;最后,可以按照概率從大到小的順序,對所得到的各個主題進行排序,以上述順序選取預設數量(例如2個)的主題作為與上述關鍵詞相對應的主題。
步驟404,確定預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞。
在本實施例中,上述電子設備中可以預先存儲有由大量的預置關鍵詞構成的預置關鍵詞集合。上述電子設備可以通過字符串匹配的方式,將所提取的關鍵詞與上述預置關鍵詞集合中的預置關鍵詞進行匹配,確定上述預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞。
步驟405,基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞。
在本實施例中,上述電子設備中可以預先存儲有上述預置關鍵詞集合中的各個預置關鍵詞的關聯關系。上述預置關鍵詞的關聯關系可以通過以下步驟預先建立:第一步,上述電子設備可以對所存儲的歷史搜索數據和歷史瀏覽數據進行解析,確定第一關鍵詞和與每一個第一關鍵詞相關聯的至少一個第二關鍵詞。第二步,可以分別將上述第一關鍵詞、上述至少一個第二關鍵詞中的各個第二關鍵詞與預置關鍵詞集合中的各個預置關鍵詞進行相似度計算,將上述預置關鍵詞集合中的、與上述第一關鍵詞相似度最大的預置關鍵詞確定為第一預置關鍵詞,將上述預置關鍵詞集合中的、與各個第二關鍵詞相似度最大的預置關鍵詞分別確定為第二預置關鍵詞。第三步,可以分別建立上述第一預置關鍵詞與各個第二預置關鍵詞的關聯關系,以生成上述預置關鍵詞集合中的預置關鍵詞的關聯關系。第四步,可以從上述歷史搜索數據和上述歷史瀏覽數據中統計上述第一預置關鍵詞與各個第二預置關鍵詞的共現次數。而后,可以基于所確定的共現次數,確定上述第一預置關鍵詞到各個第二預置關鍵詞的轉移概率,其中,上述第一預置關鍵詞到每一個第二預置關鍵詞的轉移概率為上述第一預置關鍵詞與該第二預置關鍵詞的共現次數與所確定的各個共現次數的總和的比值。
在本實施例中,上述電子設備可以按照以下步驟確定與步驟404所確定的預置關鍵詞相關聯的關聯關鍵詞:首先,可以將所確定的預置關鍵詞作為目標第一預置關鍵詞,從所建立的關聯關系中,確定與上述目標第一預置關鍵詞相關聯的第二預置關鍵詞,并提取上述目標第一預置關鍵詞與相關聯的各個第二預置關鍵詞的轉移概率;而后,將轉移概率大于預設概率的第二預置關鍵詞確定為與上述目標第一預置關鍵詞的相關聯的關聯關鍵詞。其中,上述預設概率可以是技術人員基于大量的統計而預先設定的概率。。
步驟406,向用戶推送與主題和/或關聯關鍵詞對應的信息。
在本實施例中,上述電子設備可以首先檢索與上述主題和/或關聯關鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。
需要說明的是,上述步驟404-步驟406的操作與上述步驟202-204的操作基本相同,在此不再贅述。
從圖4中可以看出,與圖2對應的實施例相比,本實施例中的信息推送方法的流程400突出了基于主題概率分布模型和泛化模型提取上述頁面內容的關鍵詞并確定與所提取的關鍵詞相對應的主題的步驟。由此,本實施例描述的方案可以結合不同的方式確定主題,提高了主題確定的準確性。
進一步參考圖5,作為對上述各圖所示方法的實現,本申請提供了一種信息推送裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。
如圖5所示,本實施例所述的信息推送裝置500包括:第一解析單元501,配置用于對用戶瀏覽的頁面內容進行解析,提取上述頁面內容的關鍵詞并確定與上述關鍵詞相對應的主題;第一確定單元502,配置用于確定預置關鍵詞集合中的、與上述關鍵詞相匹配的預置關鍵詞;第二確定單元503,配置用于基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞;推送單元504,配置用于向上述用戶推送與上述主題和/或上述關聯關鍵詞對應的信息。
在本實施例中,上述第一解析單元501可以利用各種分析方法對用戶瀏覽的頁面內容進行解析,提取上述頁面內容的關鍵詞;而后確定與上述關鍵詞相對應的主題。
在本實施例中,上述信息推送裝置500中可以預先存儲有由大量的預置關鍵詞構成的預置關鍵詞集合。上述第一確定單元502可以通過字符串匹配的方式,將所提取的關鍵詞與上述預置關鍵詞集合中的預置關鍵詞進行匹配,確定上述預置關鍵詞集合中的、與關鍵詞相匹配的預置關鍵詞。
在本實施例中,上述信息推送裝置500中可以預先存儲有上述預置關鍵詞集合中的各個預置關鍵詞的關聯關系。上述第二確定單元503可以基于上述預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞。
在本實施例中,上述推送單元504可以首先檢索與上述主題和/或關聯關鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。
在一些實施例中,上述第一解析單元可以包括第一輸入模塊、第二輸入模塊和融合模塊(圖中未示出)。其中,上述第一輸入模塊可以配置用于將上述關鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和上述至少一個第一候選主題中的各個第一候選主題作為與上述關鍵詞相對應的主題的概率。上述第二輸入模塊可以配置用于將上述關鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和上述關鍵詞與上述至少一個第二候選主題中的各個第二候選主題的相似度。上述融合模塊可以配置用于將上述至少一個第一候選主題和上述至少一個第二候選主題進行融合,確定與上述關鍵詞相對應的主題。
在本實施例的一些可選的實現方式中,上述信息推送裝置500還可以包括第二解析單元、第一統計單元和生成單元(圖中未示出)。其中,上述第二解析單元可以配置用于對預設的多個文本進行解析,確定每一個文本的關鍵詞和主題,并建立該文本的關鍵詞和主題的對應關系。上述第一統計單元可以配置用于對所建立的對應關系進行統計,確定每一個關鍵詞和各個主題的對應關系的建立次數。上述生成單元可以配置用于基于所確定的每一個關鍵詞和各個主題的對應關系的建立次數,生成與所確定的每一個關鍵詞相對應的主題概率分布模型。
在本實施例的一些可選的實現方式中,上述信息推送裝置500還可以包括第三解析單元、合并單元、提取單元和訓練單元(圖中未示出)。其中,上述第三解析單元可以配置用于對預設的多個文本進行解析,生成各個文本的關鍵詞集合,并確定各個文本的主題。上述合并單元可以配置用于將相同主題的文本所對應的關鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關鍵詞集合。上述提取單元可以配置用于對于所確定的每一個主題,基于卡方檢驗裝置,從與該主題相對應的關鍵詞集合中提取特征關鍵詞。上述訓練單元可以配置用于基于機器學習方法,將與所確定的各個主題相對應的特征關鍵詞作為輸入,訓練得到泛化模型。
在本實施例的一些可選的實現方式中,上述第三解析單元可以包括分詞模塊和第三輸入模塊(圖中未示出)。其中,上述分詞模塊可以配置用于對于預設的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關鍵詞集合。上述第三輸入模塊可以配置用于將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,上述主題模型用于表征文本與主題的對應關系。
在本實施例的一些可選的實現方式中,上述信息推送裝置500還可以包括第四解析單元、計算單元和建立單元(圖中未示出)。其中,上述第四解析單元可以配置用于對歷史搜索數據和歷史瀏覽數據進行解析,確定第一關鍵詞和與每一個第一關鍵詞相關聯的至少一個第二關鍵詞。上述計算單元可以配置用于分別將上述第一關鍵詞、上述至少一個第二關鍵詞中的各個第二關鍵詞與預置關鍵詞集合中的各個預置關鍵詞進行相似度計算,將上述預置關鍵詞集合中的、與上述第一關鍵詞相似度最大的預置關鍵詞確定為第一預置關鍵詞,將上述預置關鍵詞集合中的、與各個第二關鍵詞相似度最大的預置關鍵詞分別確定為第二預置關鍵詞。上述建立單元可以配置用于分別建立上述第一預置關鍵詞與各個第二預置關鍵詞的關聯關系。
在本實施例的一些可選的實現方式中,上述信息推送裝置500還可以包括第二統計單元和第三確定單元(圖中未示出)。其中,上述第二統計單元可以配置用于從上述歷史搜索數據和上述歷史瀏覽數據中統計上述第一預置關鍵詞與各個第二預置關鍵詞的共現次數。上述第三確定單元可以配置用于基于所確定的共現次數,確定上述第一預置關鍵詞到各個第二預置關鍵詞的轉移概率,其中,上述第一預置關鍵詞到每一個第二預置關鍵詞的轉移概率為上述第一預置關鍵詞與該第二預置關鍵詞的共現次數與所確定的各個共現次數的總和的比值。
在本實施例的一些可選的實現方式中,上述第二確定單元可以包括第一確定模塊和第二確定模塊(圖中未示出)。其中,上述第一確定模塊可以配置用于將所確定的預置關鍵詞作為目標第一預置關鍵詞,從所建立的關聯關系中,確定與上述目標第一預置關鍵詞相關聯的第二預置關鍵詞,并提取上述目標第一預置關鍵詞與相關聯的各個第二預置關鍵詞的轉移概率。上述第二確定模塊可以配置用于將轉移概率大于預設概率的第二預置關鍵詞確定為與上述目標第一預置關鍵詞的相關聯的關聯關鍵詞。
在本實施例的一些可選的實現方式中,上述信息推送裝置500還可以包括呈現單元(圖中未示出)。其中,上述呈現單元可以配置用于將上述頁面內容的鏈接呈現在與上述主題相對應的網頁中。
本申請的上述實施例提供的裝置,通過第一解析單元501對用戶瀏覽的頁面內容進行解析,以便提取關鍵詞并確定相應的主題,而后第一確定單元502確定與該關鍵詞相匹配的預置關鍵詞,之后,第二確定單元503基于預先建立的預置關鍵詞的關聯關系確定關聯關鍵詞,最后推送單元504向用戶推送與主題和/或關聯關鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內容對應的主題和/或關聯關鍵詞相對應的信息,實現了富于針對性的信息推送。
下面參考圖6,其示出了適于用來實現本申請實施例的服務器的計算機系統600的結構示意圖。圖6示出的服務器僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。
如圖6所示,計算機系統600包括中央處理單元(cpu)601,其可以根據存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執行各種適當的動作和處理。在ram603中,還存儲有系統600操作所需的各種程序和數據。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調制解調器等的網絡接口卡的通信部分609。通信部分609經由諸如因特網的網絡執行通信處理。驅動器610也根據需要連接至i/o接口605。可拆卸介質611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器610上,以便于從其上讀出的計算機程序根據需要被安裝入存儲部分608。
特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括承載在計算機可讀介質上的計算機程序,該計算機程序包含用于執行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網絡上被下載和安裝,和/或從可拆卸介質611被安裝。在該計算機程序被中央處理單元(cpu)601執行時,執行本申請的方法中限定的上述功能。需要說明的是,本申請所述的計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質或者是上述兩者的任意組合。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。而在本申請中,計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個接連地表示的方框實際上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現,也可以通過硬件的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括第一解析單元、第一確定單元、第二確定單元和推送單元。其中,這些單元的名稱在某種情況下并不構成對該單元本身的限定,例如,第一解析單元還可以被描述為“對用戶瀏覽的頁面內容進行解析的單元”。
作為另一方面,本申請還提供了一種計算機可讀介質,該計算機可讀介質可以是上述實施例中描述的裝置中所包含的;也可以是單獨存在,而未裝配入該裝置中。上述計算機可讀介質承載有一個或者多個程序,當上述一個或者多個程序被該裝置執行時,使得該裝置:對用戶瀏覽的頁面內容進行解析,提取該頁面內容的關鍵詞并確定與該關鍵詞相對應的主題;確定預置關鍵詞集合中的、與該關鍵詞相匹配的預置關鍵詞;基于預先建立的預置關鍵詞的關聯關系,確定與所確定的預置關鍵詞相關聯的關聯關鍵詞;向該用戶推送與該主題和/或該關聯關鍵詞對應的信息。
以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離上述發明構思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。