專利名稱:一種用于獲取相關關鍵詞信息的方法、裝置和計算機設備的制作方法
技術領域:
本發明涉及計算機網絡技術,尤其涉及一種用于獲取相關關鍵詞信息的方法、裝 置和計算機設備。
背景技術:
在現代互聯網技術中,如何根據來自用戶的搜索信息來提供符合用戶需求的搜索 結果,無疑十分重要。現有技術中所采用的一種技術方案為通過獲得與來自用戶的搜索信 息相關的相關關鍵詞,并根據該等相關關鍵詞來觸發其對應的搜索結果。因此,如何獲取與 搜索信息相關的相關關鍵詞,十分重要。現有技術中判斷文本信息相關度的方案多用于判斷大段文本內容的相似度,而來 自用戶的搜索信息多為短文本信息,判斷大段文本內容相似度的方案并不適用于判斷短文 本信息的相似度。并且,現有技術中相似度的判斷方式也多僅從語義上進行分析判斷,往往 不能準確反映用戶的意愿。
發明內容
本發明的目的是提供一種用于獲取相關關鍵詞信息的方法、裝置和計算機設備。根據本發明的一個方面,提供一種計算機實現的用于獲取與短文本信息相關的相 關關鍵詞信息的方法,其中,該方法包括以下步驟a獲取待處理的所述短文本信息及其對應的第一多維度特征信息;b獲取一個或多個關鍵詞信息及其對應的第二多維度特征信息;c根據所述第一及第二多維度特征信息,獲得所述短文本信息與所述一個或多個 關鍵詞信息之間的相關度信息;d基于預定規則,根據所述相關度信息及所述一個或多個關鍵詞信息,獲得與所述 短文本信息相關的相關關鍵詞信息。根據本發明的另一個方面,還提供了一種用于獲取與短文本信息相關的相關關鍵 詞信息的短文本處理裝置,其中,該短文本處理裝置包括第一獲取裝置、用于獲取待處理的所述短文本信息及其對應的第一多維度特征信 息;第二獲取裝置、用于獲取一個或多個關鍵詞信息及其對應的第二多維度特征信 息;相關度確定裝置、用于根據所述第一及第二多維度特征信息,獲得所述短文本信 息與所述一個或多個關鍵詞信息之間的相關度信息;關鍵詞確定裝置、用于基于預定規則,根據所述相關度信息及所述一個或多個關 鍵詞信息,獲得與所述短文本信息相關的相關關鍵詞信息。根據本發明的再一個方面,還提供了一種計算機設備,其中,該計算機設備包括上 述短文本處理裝置。
與現有技術相比,本發明具有以下優點1)本發明采用多種特征信息,綜合判斷 短文本信息與關鍵詞信息之間的相關度,從而避免了采用單一特征信息而造成的誤判,提 高了短文本信息與關鍵詞信息之間的匹配準確性;幻本發明采用多種相關度處理方式,分 別通過多種特征信息的多個相關度結果來綜合判斷,進一步減少了誤判的可能性,提高了 短文本信息與關鍵詞信息之間的匹配準確性;3)本發明結合語義分析及用戶意圖,綜合判 斷短文本信息與關鍵詞信息之間的相關度,從而去除雖語義相關,但并不符合用戶意圖的 關鍵詞,進而避免將該等不符合用戶意圖的關鍵詞所觸發的搜索結果展現給用戶。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它 特征、目的和優點將會變得更明顯圖1為本發明一個方面的用于獲取與短文本信息相關的相關關鍵詞信息的方法 流程圖;圖2為本發明一個優選實施例的用于獲取與短文本信息相關的相關關鍵詞信息 的方法流程圖;圖3為本發明另一優選實施例的用于獲取與短文本信息相關的相關關鍵詞信息 的方法流程圖;圖4為本發明一個方面的用于獲取與短文本信息相關的相關關鍵詞信息的短文 本處理裝置結構示意圖;圖5為本發明一個優選實施例獲取與短文本信息相關的相關關鍵詞信息的短文 本處理裝置結構示意圖;圖6為本發明另一優選實施例獲取與短文本信息相關的相關關鍵詞信息的短文 本處理裝置結構示意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結合附圖對本發明作進一步詳細描述。圖1為本發明一個方面的用于獲取與短文本信息相關的相關關鍵詞信息的方法 流程圖。其中,根據本發明的方法可通過計算機設備中的操作系統或處理控制芯片來完成, 為簡明起見,以下將所述操作系統或處理控制芯片統稱為短文本處理裝置。其中,該計算機 設備包括但不限于1)用戶設備;2)網絡設備。其中,所述用戶設備包括但不限于個人電 腦、智能手機、PDA等;所述網絡設備包括但不限于單個網絡服務器、多個網絡服務器組成 的服務器組或基于云計算(Cloud Computing)的由大量計算機或網絡服務器構成的云,其 中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟Sl中,短文本處理裝置獲取待處理的短文本信息及其對應的第一多維度 特征信息。其中,所述短文本信息包括但不限于1)來自用戶的輸入序列;2)計算機設備當前需要處理的信息等。
該短文本信息對應的第一多維度特征信息包括但不限于以下至少兩種特征信 息1)切詞特征信息,其包含對該短文本信息進行切詞后所得的特征信息;2)文本擴展特征信息,其包含對該短文本信息進行短文本擴展后所得的擴展特征 fn息;3) n-gram特征信息,其包含該短文本信息n-gram片段的特征信息;4)PLSA(Probabilistic latent semantic analysis)特征信息,其包含該短文本 信息的潛在語義主元(topic)信息,優選地,該特征信息以數字來表征該潛在語義主元;5)ESA(Explicit Semantic Analysis)特征信息,其包含該短文本信息的具有明 確語義概念的主元信息,優選地,該特征信息以數字來表征該具有明確語義概念的主元;6)PCA(Principal component analysis)特征信息,其包含該短文本信息的潛在 廣告主元信息,優選地,該特征信息以數字來表征該廣告主元。該短文本處理裝置獲取該待處理短文本信息的方法包括但不限于1)實時獲取 用戶直接輸入或經由其他設備或裝置輸入的輸入序列,或者,實時獲取計算機設備當前需 要處理的信息;2)獲取預存儲在所述計算機設備或其他設備中的需要進行處理的短文本 fn息ο該短文本處理裝置獲取該待處理短文本信息對應的第一多維度特征信息的方式 包括但不限于1)當獲得所述短文本信息后,對該短文本信息進行實時分析,來獲得所述 第一多維度特征信息;幻獲取預存儲在所述計算機設備或其他設備中的與該待處理短文 本信息對應的第一多維度特征信息。接著,在步驟S2中,短文本處理裝置獲取一個或多個關鍵詞信息及其對應的第二 多維度特征信息。其中,該第二多維度特征信息包括但不限于至少兩種特征信息,該特征信 息已在前述說明第一多維度特征信息時予以詳述,并以引用的方式包含于此,不再贅述。具體地,該短文本處理裝置獲取所述一個或多個關鍵詞信息及其對應的第二多維 度特征信息的方式包括但不限于1)根據該待處理短文本信息的第一多維度特征信息,在特征倒排索引庫中進行查 詢,以獲得該一個或多個關鍵詞信息及其對應的第二多維度特征信息,其中,所述特征倒排 索引庫為能夠根據特征信息來獲取關鍵詞信息的索引庫;例如,一個特征倒排索引庫的實施例如表1所示表 1
索引詞索引詞特征類別關鍵詞諾基亞切詞特征諾基亞手機、...諾基亞文本擴展特征信息5310、音樂手機、...手機_維修n-gram特征諾基亞手機維修、三星手機維修、...
權利要求
1.一種計算機實現的用于獲取與短文本信息相關的相關關鍵詞信息的方法,其中,該 方法包括以下步驟a獲取待處理的所述短文本信息及其對應的第一多維度特征信息; b獲取一個或多個關鍵詞信息及其對應的第二多維度特征信息; c根據所述第一及第二多維度特征信息,獲得所述短文本信息與所述一個或多個關鍵 詞信息之間的相關度信息;d基于預定規則,根據所述相關度信息及所述一個或多個關鍵詞信息,獲得與所述短文 本信息相關的相關關鍵詞信息。
2.根據權利要求1所述的方法,其中,所述步驟c包括以下步驟-基于一種或多種相關度處理方式,根據所述第一及第二多維度特征信息,獲得所述短 文本信息與所述關鍵詞信息之間的所有基本相關度值; -根據所述基本相關度值,獲得所述相關度信息;其中,所述基本相關度值表示所述第一及第二多維度特征信息所包含的任一種多種特 征信息在基于一種相關度處理方式下所得的相關度值。
3.根據權利要求1或2所述的方法,其中,所述相關度信息包括以下至少一項 -所述短文本信息與所述關鍵詞信息對應的總相關度值;-所述短文本信息與所述關鍵詞信息對應的基本相關度值;-通過對同一特征信息所對應的各個基本相關度值進行處理而獲得的特征相關度值; -通過對基于同一處理方式所得的各個基本相關度值進行處理而獲得的方式相關度值。
4.根據權利要求2或3所述的方法,其中,所述相關度處理方式包括以下至少一種 -歐式距離處理;-余弦相關度處理; -BM25相關度處理; -同義詞匹配處理。
5.根據權利要求2至4中任一項所述的方法,其中,所述預定規則包括基于以下至少一 項因素來確定所述相關關鍵詞信息-基于所述相關度信息的排序結果; -基于所述基本相關度值是否大于其對應的最小預定閾值; -基于所述總相關度值是否大于預定相關閾值。
6.根據權利要求1至5中任一項所述的方法,其中,所述步驟b包括以下步驟bl根據所述第一多維度特征所包含的各特征信息,在特征倒排索引庫中進行查詢,以 獲得與所述各特征信息相匹配的特征信息;b2獲取所述相匹配的特征信息對應的關鍵詞信息; b3獲取所述關鍵詞信息對應的第二多維度特征信息。
7.根據權利要求6所述的方法,其中,該方法還包括以下步驟 -獲取待處理的關鍵詞信息;-提取所述待處理關鍵詞信息的多維度特征信息;-根據所述關鍵詞信息及其對應的多維度特征信息,建立或更新所述特征倒排索引庫。
8.根據權利要求1至7中任一項所述的方法,其中,該方法還包括以下步驟 -根據所述短文本信息,獲取必要信息;-若所述關鍵詞信息中未包含所述必要信息,則判斷該關鍵詞信息與所述短文本信息 不相關。
9.根據權利要求1至8中任一項所述的方法,其中,所述第一及第二多維度特征信息均 包括以下至少兩種特征信息-切詞特征信息; -文本擴展特征信息; -n-gram特征信息; -PLSA特征信息; -ESA特征信息; -PCA特征信息。
10.根據權利要求1至9中任一項所述的方法,其中,該方法還包括以下步驟-根據所述短文本信息及其對應的相關關鍵詞信息,來建立或更新相關關鍵詞庫。
11.根據權利要求10所述的方法,其中,該方法還包括以下步驟-根據所述待處理的短文本信息,在所述相關關鍵詞庫中進行查詢匹配,以獲得與該待 處理的短文本信息相關的相關關鍵詞信息。
12.一種用于獲取與短文本信息相關的相關關鍵詞信息的短文本處理裝置,其中,該短 文本處理裝置包括第一獲取裝置、用于獲取待處理的所述短文本信息及其對應的第一多維度特征信息; 第二獲取裝置、用于獲取一個或多個關鍵詞信息及其對應的第二多維度特征信息; 相關度確定裝置、用于根據所述第一及第二多維度特征信息,獲得所述短文本信息與 所述一個或多個關鍵詞信息之間的相關度信息;關鍵詞確定裝置、用于基于預定規則,根據所述相關度信息及所述一個或多個關鍵詞 信息,獲得與所述短文本信息相關的相關關鍵詞信息。
13.根據權利要求12所述的短文本處理裝置,其中,所述相關度確定裝置包括第一子確定裝置、用于基于一種或多種相關度處理方式,根據所述第一及第二多維度 特征信息,獲得所述短文本信息與所述關鍵詞信息之間的所有基本相關度值; 第二子確定裝置、用于根據所述基本相關度值,獲得所述相關度信息; 其中,所述基本相關度值表示所述第一及第二多維度特征信息所包含的任一種多種特 征信息在基于一種相關度處理方式下所得的相關度值。
14.根據權利要求12或13所述的短文本處理裝置,其中,所述相關度信息包括以下至 少一項-所述短文本信息與所述關鍵詞信息對應的總相關度值; -所述短文本信息與所述關鍵詞信息對應的基本相關度值;-通過對同一特征信息所對應的各個基本相關度值進行處理而獲得的特征相關度值; -通過對基于同一處理方式所得的各個基本相關度值進行處理而獲得的方式相關度值。
15.根據權利要求13或14所述的短文本處理裝置,其中,所述相關度處理方式包括以下至少一種-歐式距離處理; -余弦相關度處理; -BM25相關度處理; -同義詞匹配處理。
16.根據權利要求13至15中任一項所述的短文本處理裝置,其中,所述預定規則包括 基于以下至少一項因素來確定所述相關關鍵詞信息-基于所述相關度信息的排序結果; -基于所述基本相關度值是否大于其對應的最小預定閾值; -基于所述總相關度值是否大于預定相關閾值。
17.根據權利要求12至16中任一項所述的短文本處理裝置,其中,所述第二獲取裝置 包括第一查詢裝置、用于根據所述第一多維度特征所包含的各特征信息,在特征倒排索引 庫中進行查詢,以獲得與所述各特征信息相匹配的特征信息;第一子獲取裝置、用于獲取所述相匹配的特征信息對應的關鍵詞信息; 第二子獲取裝置、用于獲取所述關鍵詞信息對應的第二多維度特征信息。
18.根據權利要求17所述的短文本處理裝置,其中,該短文本處理裝置還包括 第三獲取裝置、用于獲取待處理的關鍵詞信息;提取裝置、用于提取所述待處理關鍵詞信息的多維度特征信息; 第一更新裝置、用于根據所述關鍵詞信息及其對應的多維度特征信息,建立或更新所 述特征倒排索引庫。
19.根據權利要求12至18中任一項所述的短文本處理裝置,其中,該短文本處理裝置 還包括第四獲取裝置、用于根據所述短文本信息,獲取必要信息;判斷裝置、用于當所述關鍵詞信息中未包含所述必要信息,則判斷該關鍵詞信息與所 述短文本信息不相關。
20.根據權利要求12至19中任一項所述的短文本處理裝置,其中,所述第一及第二多 維度特征信息均包括以下至少兩種特征信息-切詞特征信息; -文本擴展特征信息; -n-gram特征信息; -PLSA特征信息; -ESA特征信息; -PCA特征信息。
21.根據權利要求12至20中任一項所述的短文本處理裝置,其中,該短文本處理裝置 還包括第二更新裝置、用于根據所述短文本信息及其對應的相關關鍵詞信息,來建立或更新 相關關鍵詞庫。
22.根據權利要求21所述的短文本處理裝置,其中,該短文本處理裝置還包括第二查詢裝置、用于根據所述待處理的短文本信息,在所述相關關鍵詞庫中進行查詢 匹配,以獲得與該待處理的短文本信息相關的相關關鍵詞信息。
23. 一種計算機設備,其中,該計算機設備包括權利要求12至22中至少一項所述的短 文本處理裝置。
全文摘要
一種計算機實現的用于獲取與短文本信息相關的相關關鍵詞信息的方法、裝置及計算機設備,其通過獲取待處理的所述短文本信息及其對應的第一多維度特征信息;及獲取一個或多個關鍵詞信息及其對應的第二多維度特征信息;并根據所述第一及第二多維度特征信息,獲得所述短文本信息與所述一個或多個關鍵詞信息之間的相關度信息;并基于預定規則,根據所述相關度信息及所述一個或多個關鍵詞信息,獲得與所述短文本信息相關的相關關鍵詞信息。與現有技術相比,本發明通過綜合多種特征信息及多種相似度處理方式,并結合合語義分析及用戶意圖,來獲取相關關鍵詞,從而減少了誤判的可能性,提高了短文本信息與關鍵詞信息之間的匹配準確性。
文檔編號G06F17/30GK102063469SQ20101057953
公開日2011年5月18日 申請日期2010年12月3日 優先權日2010年12月3日
發明者萬偉, 田 浩 申請人:百度在線網絡技術(北京)有限公司