一種搜索建議詞生成的方法以及裝置制造方法
【專利摘要】本發(fā)明公開了一種搜索建議詞生成的方法以及裝置,其中所述方法包括:接收搜索字符串;將所述搜索字符串映射為一個或多個第一分詞;獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞;依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞。本發(fā)明可以增強建議系統(tǒng)的召回能力,增強建議系統(tǒng)的時效性。
【專利說明】一種搜索建議詞生成的方法以及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理的【技術(shù)領(lǐng)域】,特別是涉及一種搜索建議詞生成的方法,以及,一種搜索建議詞生成的裝置。
【背景技術(shù)】
[0002]這些年全球最大的搜索引擎谷歌推出了搜索建議的服務(wù):即在用戶在輸入部分關(guān)鍵詞時搜索引擎馬上給出相關(guān)聯(lián)想詞。搜索建議可以大大減少用戶輸入成本、糾正輸入錯誤、進行輸入提示等,它的出現(xiàn)讓人們可以更快、更準(zhǔn)確的進行搜索,如今已被各大搜索引擎采用。
[0003]現(xiàn)有的搜索建議的實現(xiàn)主要通過以下機制:搜索引擎收集此用戶搜索歷史數(shù)據(jù)(主要是搜索關(guān)鍵詞和搜索次數(shù)),當(dāng)用戶在搜索框開始輸入時,搜索引擎會根據(jù)用戶已輸入部分在歷史搜索數(shù)據(jù)文件中進行相關(guān)性匹配,得到搜索建議,在進行除雜、排重等一系列處理后,并根據(jù)搜索熱度等因素對搜索建議詞進行排序。
[0004]另外一種機制是建立在以往群體用戶搜索歷史的基礎(chǔ)上的,即基于眾多搜索請求者的經(jīng)驗型建議:用戶得到的搜索建議是被最多人搜過的關(guān)鍵詞。因此,這幾種搜索建議機制有其天然的缺陷:首先時效性差:只有在很多人搜過、形成一定的數(shù)據(jù)積累后才可能被當(dāng)作搜索建議提供給他人;同時召回低:對某些搜索數(shù)量少的關(guān)鍵詞,搜索引擎一般不能給出建議。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種搜索建議詞生成的方法和相應(yīng)的一種搜索建議詞生成的裝置。
[0006]依據(jù)本發(fā)明的一個方面,提供了一種搜索建議詞生成的方法,包括:
[0007]接收搜索字符串;
[0008]將所述搜索字符串映射為一個或多個第一分詞;
[0009]獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞;
[0010]依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞。
[0011 ] 可選地,所述方法還包括:
[0012]推送所述一個或多個搜索建議詞。
[0013]可選地,所述獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞的步驟包括:
[0014]將抓取到的包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞,得到分詞列表;
[0015]將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞;
[0016]分別計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率;
[0017]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。[0018]可選地,所述將所述搜索字符串映射為一個或多個第一分詞的步驟包括:
[0019]提取所述搜索字符串所映射的一個第一分詞;
[0020]或者,
[0021]當(dāng)接收到的搜索字符串為復(fù)合詞時,將所述搜索字符串拆分為多個搜索子詞;
[0022]提取所述多個搜索子詞所映射的多個第一分詞。
[0023]可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率的步驟包括:
[0024]當(dāng)所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述預(yù)置索引表包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的所有第二分詞;
[0025]分別獲取每個預(yù)置索引表中各個第二分詞出現(xiàn)的次數(shù),以及所述索引表的記錄總數(shù);
[0026]分別計算所述第二分詞出現(xiàn)的次數(shù)與所述索引表的記錄總數(shù)的比值,得到所述第一分詞與各個第二分詞的同現(xiàn)率。
[0027]可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率的步驟包括:
[0028]當(dāng)所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,所述各個預(yù)置索引表中包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的第二分詞;
[0029]提取與所述多個第一分詞同時出現(xiàn)的第二分詞作為候選分詞;
[0030]分別計算各個索引表中所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個候選分詞出現(xiàn)的次數(shù)與所述索引表中的記錄總數(shù)的比值;
[0031]分別為所述多個第一分詞與所述各個候選分詞的同現(xiàn)率配置對應(yīng)的多個權(quán)重;
[0032]分別計算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率。
[0033]可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率的步驟包括:
[0034]當(dāng)所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,所述各個預(yù)置索引表中包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的第二分詞;
[0035]采用所述多個索引表確定主分詞,所述主分詞為記錄總數(shù)最多的索引表對應(yīng)的第一分詞;
[0036]計算所述主分詞與其對應(yīng)的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中的記錄總數(shù)的比值。
[0037]可選地,所述依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞的步驟包括:
[0038]為所述一個或多個關(guān)聯(lián)第二分詞配置權(quán)重;
[0039]按照所述權(quán)重對所述一個或多個關(guān)聯(lián)第二分詞進行排序;
[0040]依次組合所述排序的一個或多個關(guān)聯(lián)第二分詞與所述一個或多個第一分詞,生成一個或多個搜索建議詞。
[0041]可選地,所述為所述一個或多個關(guān)聯(lián)第二分詞配置權(quán)重的步驟包括:
[0042]獲取所述每個關(guān)聯(lián)第二分詞所屬的一個或多個網(wǎng)頁標(biāo)題對應(yīng)的網(wǎng)頁時效與網(wǎng)頁熱度;
[0043]按照所述網(wǎng)頁時效與所述網(wǎng)頁熱度為所述一個或多個關(guān)聯(lián)第二分詞配置權(quán)重。
[0044]可選地,所述推送所述一個或多個搜索建議詞的步驟包括:
[0045]將所述搜索建議詞按序插入預(yù)設(shè)的建議系統(tǒng)中,由所述建議系統(tǒng)推送所述搜索建議詞。
[0046]根據(jù)本發(fā)明的另一方面,提供了一種搜索建議詞生成的裝置,包括:
[0047]字符串接收模塊,適于接收搜索字符串;
[0048]第一分詞映射模塊,適于將所述搜索字符串映射為一個或多個第一分詞;
[0049]關(guān)聯(lián)第二分詞獲取模塊,適于獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞;
[0050]搜索建議詞生成模塊,適于依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞。
[0051]可選地,所述裝置還包括:
[0052]推送模塊,適于推送所述一個或多個搜索建議詞。
[0053]可選地,所述關(guān)聯(lián)第二分詞獲取模塊還適于:
[0054]將抓取到的包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞,得到分詞列表;
[0055]將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞;
[0056]分別計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率;
[0057]提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0058]可選地,所述第一分詞映射模塊還適于:
[0059]提取所述搜索字符串所映射的一個第一分詞;
[0060]或者,
[0061]當(dāng)接收到的搜索字符串為復(fù)合詞時,將所述搜索字符串拆分為多個搜索子詞;
[0062]提取所述多個搜索子詞所映射的多個第一分詞。
[0063]可選地,所述關(guān)聯(lián)第二分詞獲取模塊還適于:
[0064]當(dāng)所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述預(yù)置索引表包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的所有第二分詞;
[0065]分別獲取每個預(yù)置索引表中各個第二分詞出現(xiàn)的次數(shù),以及所述索引表的記錄總數(shù);
[0066]分別計算所述第二分詞出現(xiàn)的次數(shù)與所述索引表的記錄總數(shù)的比值,得到所述第一分詞與各個第二分詞的同現(xiàn)率。
[0067]可選地,所述關(guān)聯(lián)第二分詞獲取模塊還適于:
[0068]當(dāng)所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,所述各個預(yù)置索引表中包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的第二分詞;[0069]提取與所述多個第一分詞同時出現(xiàn)的第二分詞作為候選分詞;
[0070]分別計算各個索引表中所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個候選分詞出現(xiàn)的次數(shù)與所述索引表中的記錄總數(shù)的比值;
[0071]分別為所述多個第一分詞與所述各個候選分詞的同現(xiàn)率配置對應(yīng)的多個權(quán)重;
[0072]分別計算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率。
[0073]可選地,所述關(guān)聯(lián)第二分詞獲取模塊還適于:
[0074]當(dāng)所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應(yīng)的多個預(yù)置索引表;其中,所述各個預(yù)置索引表中包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的第二分詞;
[0075]采用所述多個索引表確定主分詞,所述主分詞為記錄總數(shù)最多的索引表對應(yīng)的第一分詞;
[0076]計算所述主分詞與其對應(yīng)的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中的記錄總數(shù)的比值。
[0077]可選地,所述搜索建議詞生成模塊還適于:
[0078]為所述一個或多個關(guān)聯(lián)第二分詞配置權(quán)重;
[0079]按照所述權(quán)重對所述一個或多個關(guān)聯(lián)第二分詞進行排序;
[0080]依次組合所述排序的一個或多個關(guān)聯(lián)第二分詞與所述一個或多個第一分詞,生成一個或多個搜索建議詞。
[0081 ] 可選地,所述搜索建議詞生成模塊還適于:
[0082]獲取所述每個關(guān)聯(lián)第二分詞所屬的一個或多個網(wǎng)頁標(biāo)題對應(yīng)的網(wǎng)頁時效與網(wǎng)頁熱度;
[0083]按照所述網(wǎng)頁時效與所述網(wǎng)頁熱度為所述一個或多個關(guān)聯(lián)第二分詞配置權(quán)重。
[0084]可選地,所述推送模塊還適于:
[0085]將所述搜索建議詞按序插入預(yù)設(shè)的建議系統(tǒng)中,由所述建議系統(tǒng)推送所述搜索建議詞。
[0086]在本發(fā)明實施例中,通過抓取內(nèi)容發(fā)布方的網(wǎng)頁信息產(chǎn)生搜索建議詞,彌補了以往搜索引擎根據(jù)用戶搜索歷史數(shù)據(jù)進行建議的不足。在當(dāng)今信息爆炸的時代,互聯(lián)網(wǎng)產(chǎn)生的內(nèi)容量和內(nèi)容范疇將遠遠超過用戶的搜索范疇,因此根據(jù)內(nèi)容發(fā)布方產(chǎn)生搜索建議的能力也大于基于用戶搜索歷史產(chǎn)生搜索建議的能力,因此采用本發(fā)明將有益于增強建議系統(tǒng)的召回能力,增強建議系統(tǒng)的時效性。
[0087]另外,本發(fā)明通過推送第一分詞和第二分詞的組合,用戶可以基于此組合直接進行更多層次的搜索,使用戶簡單搜索即可獲得更多的結(jié)果,無需多次提交搜索,從而減輕了訪問服務(wù)器的負(fù)擔(dān),減少了網(wǎng)絡(luò)資源的占用,并提升了用戶體驗。
[0088]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】[0089]通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0090]圖1示出了根據(jù)本發(fā)明一個實施例的一種搜索建議詞生成的方法實施例的步驟流程圖;
[0091]圖2示出了根據(jù)本發(fā)明一個實施例的一種搜索建議詞生成的裝置實施例的結(jié)構(gòu)框圖。
【具體實施方式】
[0092]下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0093]參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種搜索建議詞生成的方法實施例的步驟流程圖,具體可以包括以下步驟:
[0094]步驟101,接收搜索字符串;
[0095]在實現(xiàn)中,搜索字符串可以是用戶輸入的搜索信息,可以用于請求搜索與之相關(guān)的數(shù)據(jù)資源。本發(fā)明實施例中的搜索字符串為用戶已輸入的部分關(guān)鍵詞或全部關(guān)鍵詞,該關(guān)鍵詞可以是單詞,即包括一個語義獨立的詞,例如中秋、端午、國慶等等;該關(guān)鍵詞也可以是復(fù)合詞,即包括兩個或兩個以上語義獨立的詞,例如中秋月餅、端午粽子、國慶西藏旅游
坐坐寸寸ο
[0096]步驟102,將所述搜索字符串映射為一個或多個第一分詞;
[0097]在具體實現(xiàn)中,被映射的第一分詞可以是預(yù)先設(shè)置的熱點主題詞,可以用于計算不同分詞之間的同現(xiàn)率。
[0098]映射的規(guī)則也可以是預(yù)先設(shè)置的一個或多個,可以包括去除搜索字符串的臟詞、修飾詞、語氣助詞、寬泛詞等無實際意義的詞語;或者包括設(shè)定停止詞,即一些常見的詞,為拆分詞組時停止的標(biāo)準(zhǔn),例如的、我、你等等;還可以包括關(guān)聯(lián)關(guān)系的對應(yīng),將同一事物的多種表達對應(yīng)為一種表達,例如將八月十五、中秋節(jié)、月餅節(jié)等關(guān)聯(lián)為中秋;還可以包括其他映射規(guī)則,本發(fā)明實施例對此不加以限制。
[0099]英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一個學(xué)生,分詞的結(jié)果是:我、是、一個、學(xué)生。
[0100]下面介紹幾種分詞方法:
[0101]1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預(yù)置的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準(zhǔn)確率。[0102]2、基于特征掃描或標(biāo)志切分的分詞方法:是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而提高切分的準(zhǔn)確率。
[0103]3、基于理解的分詞方法:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。
[0104]4、基于統(tǒng)計的分詞方法:是指中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息,以及計算兩個漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典。
[0105]在本發(fā)明的一種優(yōu)選實施例中,所述步驟102可以包括如下子步驟:
[0106]子步驟S11,提取所述搜索字符串所映射的一個第一分詞;
[0107]對于搜索字符串為單詞的情形,可以按照預(yù)設(shè)的映射規(guī)則直接提取其對應(yīng)的第一分詞。當(dāng)然,該搜索字符串也可以與其映射的第一分詞是同一個詞,例如搜索字符串為“中秋”,映射的第一分詞也可以“中秋”。
[0108]在本發(fā)明的另一種優(yōu)選實施例中,所述步驟102可以包括如下子步驟:
[0109]子步驟S21,當(dāng)接收到的搜索字符串為復(fù)合詞時,將所述搜索字符串拆分為多個搜索子詞;
[0110]子步驟S22,提取所述多個搜索子詞所映射的多個第一分詞。
[0111]對于搜索字符串為復(fù)合詞的情形,可以先按照預(yù)設(shè)的映射規(guī)則對其進行分詞,得到搜索子詞,然后分別提取搜索子詞對應(yīng)的第一分詞。例如,接收到的搜索字符串為“中秋節(jié)月餅”,可以將其拆分為“中秋節(jié)”和“月餅”兩個搜索子詞,然后將“中秋節(jié)”映射為“中秋”,將“月餅”映射為“月餅”,得到“中秋”和“月餅”兩個第一分詞。
[0112]步驟103,獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞;
[0113]在本發(fā)明的一種優(yōu)選實施例中,所述步驟103可以包括如下子步驟:
[0114]子步驟S31,將抓取到的包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞,得到分詞列表;
[0115]子步驟S32,將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞;
[0116]子步驟S33,分別計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率;
[0117]子步驟S34,提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0118]具體而言,關(guān)聯(lián)第二分詞為與所述一個或多個第一分詞的同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞,所述第二分詞為包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞后除所述第一分詞外的一個或多個其余的分詞,所述同現(xiàn)率為所述一個或多個第一分詞與所述第二分詞同時出現(xiàn)在一個索引表中的概率,可以分為一個第一分詞與第二分詞的同現(xiàn)率,以及多個第一分詞與第二分詞的同現(xiàn)率。其中,所述預(yù)設(shè)閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況而設(shè)定的,本發(fā)明實施例對此不加以限制。
[0119]在本發(fā)明的一種優(yōu)選實施例中,當(dāng)所述第一分詞為一個時,所述子步驟S33可以包括如下子步驟:
[0120]子步驟S331,當(dāng)所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述預(yù)置索引表包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的所有第二分詞;
[0121]在具體實現(xiàn)中,所述預(yù)置索引表為預(yù)先生成的索引表,所述索引表可以通過如下方式生成:搜索引擎通過網(wǎng)頁爬蟲抓取互聯(lián)網(wǎng)中的網(wǎng)頁信息,所述網(wǎng)頁信息可以包括網(wǎng)頁標(biāo)題、關(guān)鍵詞keywords、網(wǎng)頁內(nèi)容、發(fā)布時間等,并將所述抓取的網(wǎng)頁信息建立索引庫;在索引庫中,對各個網(wǎng)頁標(biāo)題進行分詞,并將每個分詞作為第一分詞建立對應(yīng)的索引表,其中,該第一分詞索引表中可以存儲有第一分詞、包含所述第一分詞的各個網(wǎng)頁標(biāo)題、各網(wǎng)頁標(biāo)題中除所述第一分詞外的一個或多個其余第二分詞、以及與各網(wǎng)頁標(biāo)題相關(guān)的其他網(wǎng)頁信息。當(dāng)然,索引表中也可以只包含第一分詞以及對應(yīng)的第二分詞,本發(fā)明實施例對索引表的設(shè)置方式以及內(nèi)容、形式無需加以限制,例如,在抓取的網(wǎng)頁信息中,以“中秋”作為第一分詞的索引表可以表示如下:
[0122]
【權(quán)利要求】
1.一種搜索建議詞生成的方法,包括: 接收搜索字符串; 將所述搜索字符串映射為一個或多個第一分詞; 獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞; 依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞。
2.如權(quán)利要求1所述的方法,其特征在于,還包括: 推送所述一個或多個搜索建議詞。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞的步驟包括: 將抓取到的包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞,得到分詞列表; 將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞; 分別計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率; 提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
4.如權(quán)利要求1-3任一項所述的方法,其特征在于,所述將所述搜索字符串映射為一個或多個第一分詞的步驟包括: 提取所述搜索字符串所映射的一個第一分詞; 或者, 當(dāng)接收到的搜索字符串為復(fù)合詞時,將所述搜索字符串拆分為多個搜索子詞; 提取所述多個搜索子詞所映射的多個第一分詞。
5.如權(quán)利要求1-4任一項所述的方法,其特征在于,所述計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率的步驟包括: 當(dāng)所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述預(yù)置索引表包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的所有第二分詞; 分別獲取每個預(yù)置索引表中各個第二分詞出現(xiàn)的次數(shù),以及所述索引表的記錄總數(shù);分別計算所述第二分詞出現(xiàn)的次數(shù)與所述索引表的記錄總數(shù)的比值,得到所述第一分詞與各個第二分詞的同現(xiàn)率。
6.一種搜索建議詞生成的裝置,包括: 字符串接收模塊,適于接收搜索字符串; 第一分詞映射模塊,適于將所述搜索字符串映射為一個或多個第一分詞; 關(guān)聯(lián)第二分詞獲取模塊,適于獲取一個或多個與所述第一分詞相關(guān)聯(lián)的關(guān)聯(lián)第二分詞; 搜索建議詞生成模塊,適于依據(jù)所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞組合成一個或多個搜索建議詞。
7.如權(quán)利要求6所述的裝置,其特征在于,還包括: 推送模塊,適于推送所述一個或多個搜索建議詞。
8.如權(quán)利要求6或7所述的裝置,其特征在于,所述關(guān)聯(lián)第二分詞獲取模塊還適于: 將抓取到的包含所述第一分詞的多個網(wǎng)頁標(biāo)題進行分詞,得到分詞列表;將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞; 分別計算所述一個或多個第一分詞與所述第二分詞的同現(xiàn)率; 提取所述同現(xiàn)率高于預(yù)設(shè)閾值的第二分詞作為關(guān)聯(lián)第二分詞。
9.如權(quán)利要求6-8任一項所述的裝置,其特征在于,所述第一分詞映射模塊還適于: 提取所述搜索字符串所映射的一個第一分詞; 或者, 當(dāng)接收到的搜索字符串為復(fù)合詞時,將所述搜索字符串拆分為多個搜索子詞; 提取所述多個搜索子詞所映射的多個第一分詞。
10.如權(quán)利要求6-9任一項所述的裝置,其特征在于,所述關(guān)聯(lián)第二分詞獲取模塊還適于: 當(dāng)所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應(yīng)的預(yù)置索引表;其中,所述預(yù)置索引表包括所述第一分詞所屬的網(wǎng)頁標(biāo)題,以及,每個網(wǎng)頁標(biāo)題對應(yīng)的所有第二分詞; 分別獲取每個預(yù)置索引表中各個第二分詞出現(xiàn)的次數(shù),以及所述索引表的記錄總數(shù);分別計算所述第二分詞出現(xiàn)的次數(shù)與所述索引表的記錄總數(shù)的比值,得到所述第一分詞與各個第二分詞的同現(xiàn)率。
【文檔編號】G06F17/30GK103544266SQ201310485782
【公開日】2014年1月29日 申請日期:2013年10月16日 優(yōu)先權(quán)日:2013年10月16日
【發(fā)明者】崔代超 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司