搜索詞的糾錯(cuò)方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種搜索詞的糾錯(cuò)方法和裝置。其中,搜索詞的糾錯(cuò)方法包括:獲取搜索詞;拆分搜索詞,得到多個(gè)第一搜索詞片段;對(duì)第一搜索詞片段進(jìn)行糾錯(cuò),得到多個(gè)第二搜索詞片段;拼接多個(gè)第二搜索詞片段,得到候選結(jié)果;判斷候選結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù);以及在判斷出候選結(jié)果是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確定候選結(jié)果為對(duì)搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。通過(guò)本發(fā)明,解決了現(xiàn)有技術(shù)中搜索詞的查詢糾錯(cuò)方式因需要依賴大量用戶記錄而導(dǎo)致的覆蓋率較低的問(wèn)題,實(shí)現(xiàn)了可以不依賴用戶記錄對(duì)搜索詞的糾錯(cuò),進(jìn)而達(dá)到了提高對(duì)搜索詞進(jìn)行糾錯(cuò)的覆蓋率和獨(dú)立性的效果。
【專(zhuān)利說(shuō)明】搜索詞的糾錯(cuò)方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種搜索詞的糾錯(cuò)方法和裝置。
【背景技術(shù)】
[0002] 在用戶利用搜索詞進(jìn)行相關(guān)搜索時(shí),通常需要對(duì)用戶輸入的搜索詞進(jìn)行查詢糾 錯(cuò),現(xiàn)有技術(shù)中通常采用以下兩種方式進(jìn)行查詢糾錯(cuò):
[0003] 1)基于用戶會(huì)話(session)進(jìn)行查詢糾錯(cuò),該查詢糾錯(cuò)方式主要根據(jù)用戶搜索的 會(huì)話日志(session log),挖掘出用戶主動(dòng)改寫(xiě)的候選糾錯(cuò)對(duì),作為糾錯(cuò)后的搜索詞。
[0004] 2)基于大量用戶記錄的轉(zhuǎn)義概率糾錯(cuò):此種查詢糾錯(cuò)方式篩選點(diǎn)擊量比較高的 搜索日志作為正確的候選結(jié)果集,然后將搜索詞(query)進(jìn)行變換后,在候選集合中查找 最相近的作為正確的搜索詞。
[0005] 以上兩種進(jìn)行查詢糾錯(cuò)的方式,在對(duì)搜索詞進(jìn)行糾錯(cuò)過(guò)程中,存在以下缺點(diǎn):
[0006] 1)需要依賴大量的用戶記錄,在沒(méi)有大量用戶記錄做支持的情況下,將導(dǎo)致無(wú)法 對(duì)搜索詞進(jìn)行查詢糾錯(cuò);
[0007] 2)對(duì)于用戶意圖較為發(fā)散,大而全的情況,無(wú)法將用戶需求聚焦到一個(gè)領(lǐng)域。
[0008] 針對(duì)相關(guān)技術(shù)中搜索詞的查詢糾錯(cuò)方式因需要依賴大量用戶記錄而導(dǎo)致的覆蓋 率較低的問(wèn)題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實(shí)施例提供了一種搜索詞的糾錯(cuò)方法和裝置,以至少解決現(xiàn)有技術(shù)中搜索 詞的查詢糾錯(cuò)方式因需要依賴大量用戶記錄而導(dǎo)致的覆蓋率較低的技術(shù)問(wèn)題。
[0010] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種搜索詞的糾錯(cuò)方法。
[0011] 根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)方法包括:獲取搜索詞,其中,所述搜索詞為長(zhǎng) 尾關(guān)鍵詞;拆分所述搜索詞,得到多個(gè)第一搜索詞片段;對(duì)每個(gè)所述第一搜索詞片段進(jìn)行 糾錯(cuò),得到糾錯(cuò)后的多個(gè)第二搜索詞片段;拼接所述多個(gè)第二搜索詞片段,得到候選結(jié)果; 判斷所述候選結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)有多組 糾錯(cuò)后的關(guān)聯(lián)數(shù)據(jù);以及在判斷出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況 下,確定所述候選結(jié)果為對(duì)所述搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。
[0012] 根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種搜索詞的糾錯(cuò)裝置。
[0013] 根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)裝置包括:獲取單元,用于獲取搜索詞,其中, 所述搜索詞為長(zhǎng)尾關(guān)鍵詞;拆分單元,用于拆分所述搜索詞,得到多個(gè)第一搜索詞片段;糾 錯(cuò)單元,用于對(duì)每個(gè)所述第一搜索詞片段進(jìn)行糾錯(cuò),得到糾錯(cuò)后的多個(gè)第二搜索詞片段;拼 接單元,用于拼接所述多個(gè)第二搜索詞片段,得到候選結(jié)果;判斷單元,用于判斷所述候選 結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)有多組糾錯(cuò)后的關(guān)聯(lián) 數(shù)據(jù);以及確定單元,用于在判斷出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況 下,確定所述候選結(jié)果為對(duì)所述搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。
[0014] 在本發(fā)明實(shí)施例中,采用獲取搜索詞,其中,所述搜索詞為長(zhǎng)尾關(guān)鍵詞;拆分所述 搜索詞,得到多個(gè)第一搜索詞片段;對(duì)每個(gè)所述第一搜索詞片段進(jìn)行糾錯(cuò),得到糾錯(cuò)后的多 個(gè)第二搜索詞片段;拼接所述多個(gè)第二搜索詞片段,得到候選結(jié)果;判斷所述候選結(jié)果是 否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)有多組糾錯(cuò)后的關(guān)聯(lián)數(shù)據(jù);以 及在判斷出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確定所述候選結(jié)果為 對(duì)所述搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。通過(guò)對(duì)用戶輸入的搜索詞進(jìn)行獲取,將整串切分 成多個(gè)具有獨(dú)立含義的多個(gè)片段,對(duì)每個(gè)片段進(jìn)行糾錯(cuò)處理,再將每個(gè)片段的候選結(jié)果進(jìn) 行拼接,最后使用數(shù)據(jù)之間的關(guān)系對(duì)拼接的候選結(jié)果進(jìn)行驗(yàn)證,在驗(yàn)證成功的情況下,確定 拼接后的候選結(jié)果為對(duì)搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞,此種糾錯(cuò)方式不需要依賴用戶記 錄,在沒(méi)有大量用戶記錄做支持的情況下,仍然可以通過(guò)查詢關(guān)聯(lián)數(shù)據(jù)庫(kù)的方式對(duì)搜索詞 進(jìn)行查詢糾錯(cuò),解決了現(xiàn)有技術(shù)中搜索詞的查詢糾錯(cuò)方式因需要依賴大量用戶記錄而導(dǎo)致 的覆蓋率較低的問(wèn)題,實(shí)現(xiàn)了可以不依賴用戶記錄對(duì)搜索詞的糾錯(cuò),進(jìn)而達(dá)到了提高對(duì)搜 索詞進(jìn)行糾錯(cuò)的覆蓋率和獨(dú)立性的效果。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0015] 此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0016] 圖1是根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)方法的硬件環(huán)境圖;;
[0017] 圖2是根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)方法的流程圖;
[0018] 圖3是根據(jù)本發(fā)明又一實(shí)施例的搜索詞的糾錯(cuò)方法的流程圖;
[0019] 圖4是根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)裝置的示意圖;以及
[0020] 圖5是實(shí)施本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)方法的服務(wù)器的示意圖。
【具體實(shí)施方式】
[0021] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0022] 需要說(shuō)明的是,本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)"第一"、"第 二"等是用于區(qū)別類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用 的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限 于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn) 品或設(shè)備固有的其它步驟或單元。
[0023] 對(duì)本發(fā)明實(shí)施例中所涉及的技術(shù)術(shù)語(yǔ)做如下解釋?zhuān)?br>
[0024] 查詢糾錯(cuò)(Query Correct,簡(jiǎn)稱QC):將用戶輸入的錯(cuò)誤串修改為正確的表達(dá)方 式;
[0025] 資源:業(yè)務(wù)中的實(shí)體名,例如在音樂(lè)中:歌曲,歌手,MV,專(zhuān)輯等;在視頻中:影視 劇,導(dǎo)演,演員等;
[0026] 關(guān)聯(lián):資源對(duì)之間通過(guò)某種連接存在關(guān)系,例如:歌手A演唱了歌曲B,則A和B之 間有關(guān)聯(lián);演員C在某個(gè)影視劇D中的演員,則C和D存在關(guān)聯(lián);
[0027] 置信度:也稱為可靠度,或置信水平、置信系數(shù),即在抽樣對(duì)總體參數(shù)作出估計(jì)時(shí), 由于樣本的隨機(jī)性,其結(jié)論總是不確定的。因此,采用一種概率的陳述方法,也就是數(shù)理統(tǒng) 計(jì)中的區(qū)間估計(jì)法,即估計(jì)值與總體參數(shù)在一定允許的誤差范圍以內(nèi),其相應(yīng)的概率有多 大,這個(gè)相應(yīng)的概率稱作置信度;
[0028] 召回率"Recall Rate,也叫查全率)是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的 相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的 文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;
[0029] 目標(biāo)關(guān)鍵詞:是指經(jīng)過(guò)關(guān)鍵詞分析確定下來(lái)的網(wǎng)站"主打"關(guān)鍵詞,通俗地講指網(wǎng) 站產(chǎn)品和服務(wù)的目標(biāo)客戶可能用來(lái)搜索的關(guān)鍵詞;
[0030] 長(zhǎng)尾關(guān)鍵詞:網(wǎng)站上非目標(biāo)關(guān)鍵詞但也可以帶來(lái)搜索流量的關(guān)鍵詞,稱為長(zhǎng)尾關(guān) 鍵詞。長(zhǎng)尾關(guān)鍵詞的特征是比較長(zhǎng),往往是2-3個(gè)詞組成,甚至是短語(yǔ),存在于內(nèi)容頁(yè)面,除 了內(nèi)容頁(yè)的標(biāo)題,還存在于內(nèi)容中。例如,目標(biāo)關(guān)鍵詞是服裝,其長(zhǎng)尾關(guān)鍵詞可以是男士服 裝、冬裝、戶外運(yùn)動(dòng)裝等。
[0031] 實(shí)施例1
[0032] 根據(jù)本發(fā)明實(shí)施例,提供了一種可以通過(guò)本申請(qǐng)裝置實(shí)施例執(zhí)行的方法實(shí)施例, 需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系 統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處 的順序執(zhí)行所示出或描述的步驟。
[0033] 根據(jù)本發(fā)明實(shí)施例,提供了一種搜索詞的糾錯(cuò)方法。
[0034] 可選地,在本實(shí)施例中,上述搜索詞的糾錯(cuò)方法可以應(yīng)用于如圖1所示的客戶端 102和服務(wù)器104所構(gòu)成的硬件環(huán)境中。如圖1所示,客戶端102通過(guò)網(wǎng)絡(luò)與服務(wù)器104進(jìn) 行連接,上述網(wǎng)絡(luò)包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng),客戶端102可以是手機(jī)客戶端, 也可以是PC客戶端、筆記本客戶端或平板電腦客戶端。
[0035] 圖2是根據(jù)本發(fā)明實(shí)施例的搜索詞的糾錯(cuò)方法的流程圖,如圖2所示,該搜索詞的 糾錯(cuò)方法主要包括如下步驟S201至步驟S211 :
[0036] S201 :獲取搜索詞,其中,搜索詞為長(zhǎng)尾關(guān)鍵詞,具體地,在用戶利用客戶端102進(jìn) 行搜索時(shí),會(huì)通過(guò)客戶端102的人機(jī)交互界面輸入相關(guān)搜索串,該搜索串即為待糾錯(cuò)的搜 索詞。對(duì)待糾錯(cuò)的搜索詞的獲取,既可以通過(guò)監(jiān)測(cè)客戶端102的虛擬鍵盤(pán)或按鍵鍵盤(pán)獲得, 也可以通過(guò)監(jiān)測(cè)客戶端102的搜索詞接收空間獲得。
[0037] S203 :拆分步驟S201中獲取到的待糾錯(cuò)的搜索詞,得到多個(gè)第一搜索詞片段,即, 將待糾錯(cuò)的搜索詞切分成多個(gè)具有獨(dú)立含義的片段,拆分所得的第一搜索詞片段盡量保留 愿意,對(duì)于中英文混合的待糾錯(cuò)的搜索詞,將中文和英文分成不同的片段。
[0038] S205:對(duì)每個(gè)第一搜索詞片段進(jìn)行糾錯(cuò),得到糾錯(cuò)后的多個(gè)第二搜索詞片段,具體 地,可以采用拼音糾錯(cuò)算法對(duì)每個(gè)第一搜索詞片段進(jìn)行糾錯(cuò),也可以基于用戶會(huì)話對(duì)每個(gè) 第一搜索詞片段進(jìn)行糾錯(cuò),還可以按照編輯距離算法對(duì)每個(gè)第一搜索詞片段進(jìn)行糾錯(cuò),具 體的糾錯(cuò)處理方式與傳統(tǒng)的糾錯(cuò)處理方式相同,此處不再具體介紹。
[0039] S207:拼接多個(gè)第二搜索詞片段,得到候選結(jié)果,S卩,將對(duì)多個(gè)第一搜索詞片段進(jìn) 行糾錯(cuò)得到的多個(gè)第二搜索詞片段重新組合成新的搜索詞,確定該新的搜索詞為候選結(jié) 果。
[0040] S209:判斷候選結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)有 多組糾錯(cuò)后的關(guān)聯(lián)數(shù)據(jù),即,判斷重新組合的新的搜索詞是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的某一組關(guān) 聯(lián)數(shù)據(jù)。
[0041] S211 :在判斷出候選結(jié)果是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確定候選結(jié)果為 對(duì)搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。由于關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)的是一些已經(jīng)糾錯(cuò)后的關(guān)聯(lián)數(shù) 據(jù),所以,如果拼接后的候選結(jié)果是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),則說(shuō)明能夠通過(guò)候選結(jié)果準(zhǔn) 確地表示待糾錯(cuò)的搜索詞的真正搜索目的,因此,可以確定候選結(jié)果為對(duì)搜索詞進(jìn)行糾錯(cuò) 后的目標(biāo)搜索詞。
[0042] 本發(fā)明實(shí)施例所提供的搜索詞的糾錯(cuò)方法,通過(guò)對(duì)用戶輸入的搜索詞進(jìn)行獲取, 將整串切分成多個(gè)具有獨(dú)立含義的多個(gè)片段,對(duì)每個(gè)片段進(jìn)行糾錯(cuò)處理,再將每個(gè)片段的 候選結(jié)果進(jìn)行拼接,最后使用數(shù)據(jù)之間的關(guān)系對(duì)拼接的候選結(jié)果進(jìn)行驗(yàn)證,在驗(yàn)證成功的 情況下,確定拼接后的候選結(jié)果為對(duì)待糾錯(cuò)的搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞,此種糾錯(cuò) 方式不需要依賴用戶記錄,在沒(méi)有大量用戶記錄做支持的情況下,仍然可以通過(guò)查詢關(guān)聯(lián) 數(shù)據(jù)庫(kù)的方式對(duì)搜索詞進(jìn)行查詢糾錯(cuò),解決了現(xiàn)有技術(shù)中搜索詞的查詢糾錯(cuò)方式因需要依 賴大量用戶記錄而導(dǎo)致的覆蓋率較低的問(wèn)題,實(shí)現(xiàn)了可以不依賴用戶記錄對(duì)搜索詞的糾 錯(cuò),進(jìn)而達(dá)到了提高對(duì)搜索詞進(jìn)行糾錯(cuò)的覆蓋率和獨(dú)立性的效果。
[0043] 并且,采用將整串搜索詞切分成多個(gè)具有獨(dú)立含義的多個(gè)片段,對(duì)每個(gè)片段進(jìn)行 糾錯(cuò)的處理方式,實(shí)現(xiàn)了更加細(xì)致地對(duì)搜索詞進(jìn)行糾錯(cuò),對(duì)于之前認(rèn)為不需要糾錯(cuò)的,甚至 在人的直覺(jué)上都是正確的搜索詞,也可以進(jìn)行糾錯(cuò)處理,達(dá)到了提高召回率的效果。此外通 過(guò)利用對(duì)每個(gè)片段進(jìn)行糾錯(cuò),進(jìn)而對(duì)多個(gè)糾錯(cuò)后的片段進(jìn)行拼接得到候選結(jié)果,實(shí)現(xiàn)了最 大程度地給出一個(gè)正確無(wú)誤的目的搜索詞,使得最終確定出的目的搜索詞更為明確,達(dá)到 了提高搜索詞糾錯(cuò)的精確度。
[0044] 具體地,在本發(fā)明實(shí)施例中,既可以按照前向最大匹配方式拆分待糾錯(cuò)的搜索詞, 得到多個(gè)第一搜索詞片段,也可以按照后向最大匹配方式拆分待糾錯(cuò)的搜索詞,得到多個(gè) 第一搜索詞片段,其中,前向最大匹配方式用于按照第一順序拆分待糾錯(cuò)的搜索詞,第一順 序?yàn)榇m錯(cuò)的搜索詞的首字符至尾字符的順序,后向最大匹配方式則用于按照第二順序拆 分待糾錯(cuò)的搜索詞,第二順序?yàn)榇m錯(cuò)的搜索詞的尾字符至首字符的順序。舉例說(shuō)明如 下:
[0045] 按照前向最大匹配方式拆分待糾錯(cuò)的搜索詞就是,從前往后對(duì)待糾錯(cuò)的搜索詞進(jìn) 行取詞,然后去詞典查找有沒(méi)有,根據(jù)查找的反饋結(jié)果確定分詞是否成功,如果能夠從詞典 數(shù)據(jù)庫(kù)中查找到所取的詞,則分詞成功,無(wú)則減小這個(gè)詞,繼續(xù)去詞典查找。例如,對(duì)于"我 愛(ài)北京天安門(mén)"這個(gè)句子,首先取"我愛(ài)北京"(漢字最大詞長(zhǎng)一般是4個(gè)),去詞典中沒(méi) 找到,然后去掉"京",變?yōu)?我愛(ài)北",又沒(méi)找到,再去掉"北",變成"我愛(ài)",還沒(méi)找到,去掉 "愛(ài)",只剩下一個(gè)"我"了,那么"我"這個(gè)單字就是一個(gè)詞了,分好一個(gè)詞,繼續(xù)走,取"愛(ài)北 京天",繼續(xù)前面的步驟,得到"愛(ài)",繼續(xù)取"北京天安",這次得到的結(jié)果是"北京",向后移 動(dòng)兩個(gè)指針,繼續(xù)取"天安門(mén)",如果在詞典中找到了"天安門(mén)",分詞結(jié)束,分詞得到的結(jié)果 是"我"、"愛(ài)"、"北京"和"天安門(mén)"。
[0046] 按照后向最大匹配方式拆分待糾錯(cuò)的搜索詞與按照前向最大匹配方式拆分待糾 錯(cuò)的搜索詞是相反的過(guò)程,后者是從前往后對(duì)待糾錯(cuò)的搜索詞進(jìn)行取詞,前者則是從后往 前對(duì)待糾錯(cuò)的搜索詞進(jìn)行取詞。比如,對(duì)于"我愛(ài)北京天安門(mén)"這句話,先取"京天安門(mén)",詞 典中沒(méi)有找到,去掉"京",剩"天安門(mén)",找到,接下來(lái)取"我愛(ài)北京",繼續(xù)分詞,最后得到拆 分結(jié)果"我"、"愛(ài)"、"北京"和"天安門(mén)"。
[0047] 在本發(fā)明實(shí)施例中,通過(guò)利用前向最大匹配方式或后向最大匹配方式拆分待糾錯(cuò) 的搜索詞,得到多個(gè)第一搜索詞片段,實(shí)現(xiàn)對(duì)待糾錯(cuò)的搜索詞進(jìn)行快速的拆分,達(dá)到了提高 搜索詞的糾錯(cuò)速度,并且此種拆分方式具有拆分簡(jiǎn)單的優(yōu)點(diǎn),對(duì)搜索詞進(jìn)行拆分過(guò)程中消 耗系統(tǒng)內(nèi)存較少,達(dá)到了提1?運(yùn)行速度,進(jìn)而進(jìn)一步提1? 了搜索詞的糾錯(cuò)速度。
[0048] 在本發(fā)明實(shí)施例中,對(duì)于某個(gè)第一搜索詞片段而言,對(duì)它進(jìn)行糾錯(cuò)得到的第二搜 索詞片段可能是多個(gè),相應(yīng)地,對(duì)第二搜索詞片段進(jìn)行拼接,得到的候選結(jié)果即為多個(gè),例 如:
[0049]
【權(quán)利要求】
1. 一種搜索詞的糾錯(cuò)方法,其特征在于,包括: 獲取搜索詞; 拆分所述搜索詞,得到多個(gè)第一搜索詞片段; 對(duì)所述第一搜索詞片段進(jìn)行糾錯(cuò),得到多個(gè)第二搜索詞片段; 拼接所述多個(gè)第二搜索詞片段,得到候選結(jié)果; 判斷所述候選結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中存儲(chǔ)有 多組糾錯(cuò)后的關(guān)聯(lián)數(shù)據(jù);以及 在判斷出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確定所述候選結(jié)果 為對(duì)所述搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。
2. 根據(jù)權(quán)利要求1所述的糾錯(cuò)方法,其特征在于,拆分所述搜索詞,得到多個(gè)第一搜索 詞片段包括: 按照前向最大匹配方式拆分所述搜索詞,得到所述多個(gè)第一搜索詞片段,其中,所述前 向最大匹配方式用于按照第一順序拆分所述搜索詞,所述第一順序?yàn)樗鏊阉髟~的首字符 至尾字符的順序。
3. 根據(jù)權(quán)利要求1所述的糾錯(cuò)方法,其特征在于,拆分所述搜索詞,得到多個(gè)第一搜索 詞片段包括: 按照后向最大匹配方式拆分所述搜索詞,得到所述多個(gè)第一搜索詞片段,其中,所述后 向最大匹配方式用于按照第二順序拆分所述搜索詞,所述第二順序?yàn)樗鏊阉髟~的尾字符 至首字符的順序。
4. 根據(jù)權(quán)利要求1所述的糾錯(cuò)方法,其特征在于,所述候選結(jié)果的數(shù)量為多個(gè),在判斷 出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確定所述候選結(jié)果為對(duì)所述搜 索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞包括: 獲取每個(gè)所述候選結(jié)果的熱度,其中,所述熱度表示所述候選結(jié)果被確定為所述目標(biāo) 搜索詞的程度;以及 確定最高熱度所表示的候選結(jié)果所述目標(biāo)搜索詞。
5. 根據(jù)權(quán)利要求1所述的糾錯(cuò)方法,其特征在于,拼接所述多個(gè)第二搜索詞片段,得到 候選結(jié)果包括: 獲取所述多個(gè)第一搜索詞片段之間的相對(duì)先后順序,其中,所述相對(duì)先后順序?yàn)閷?duì)所 述搜索詞進(jìn)行拆分產(chǎn)生的順序;以及 按照所述相對(duì)先后順序拼接所述多個(gè)第二搜索詞片段,得到所述候選結(jié)果。
6. 根據(jù)權(quán)利要求1所述的糾錯(cuò)方法,其特征在于,在獲取搜索詞之前,所述糾錯(cuò)方法還 包括: 基于預(yù)設(shè)資源建立所述關(guān)聯(lián)數(shù)據(jù)庫(kù),其中,所述預(yù)設(shè)資源包括所述搜索詞的屬性。
7. 根據(jù)權(quán)利要求6所述的糾錯(cuò)方法,其特征在于,所述預(yù)設(shè)資源包括第一預(yù)設(shè)資源和 第二預(yù)設(shè)資源,基于預(yù)設(shè)資源建立所述關(guān)聯(lián)數(shù)據(jù)庫(kù)包括: 拆分所述第一預(yù)設(shè)資源中的字符串,得到多個(gè)第一候選串; 拆分所述第二預(yù)設(shè)資源中的字符串,得到多個(gè)第二候選串; 從所述多個(gè)第一候選串中提取第一目標(biāo)候選串,并從所述多個(gè)第二候選串中提取第二 目標(biāo)候選串,其中,所述第一目標(biāo)候選串和所述第二目標(biāo)候選串為具有關(guān)聯(lián)關(guān)系的候選串; 以及 將所述第一目標(biāo)候選串、所述第二目標(biāo)候選串和所述第一目標(biāo)候選串與所述第二目標(biāo) 候選串之間的關(guān)聯(lián)關(guān)系存儲(chǔ)為所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)。
8. 根據(jù)權(quán)利要求6所述的糾錯(cuò)方法,其特征在于,所述預(yù)設(shè)資源包括第一預(yù)設(shè)資源和 第二預(yù)設(shè)資源,基于預(yù)設(shè)資源建立所述關(guān)聯(lián)數(shù)據(jù)庫(kù)包括: 拆分所述第一預(yù)設(shè)資源中的字符串,得到多個(gè)第一候選串; 拆分所述第二預(yù)設(shè)資源中的字符串,得到多個(gè)第二候選串; 從所述多個(gè)第一候選串中提取第一目標(biāo)候選串,并從所述多個(gè)第二候選串中提取第 二目標(biāo)候選串,其中,所述第一目標(biāo)候選串和所述第二目標(biāo)候選串為具有關(guān)聯(lián)關(guān)系的候選 串; 拼接所述第一目標(biāo)候選串和所述第二目標(biāo)候選串;以及 確定所述第一目標(biāo)候選串和所述第二目標(biāo)候選串的拼接結(jié)果為所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的 關(guān)聯(lián)數(shù)據(jù)。
9. 一種搜索詞的糾錯(cuò)裝置,其特征在于,包括: 獲取單元,用于獲取搜索詞; 拆分單元,用于拆分所述搜索詞,得到多個(gè)第一搜索詞片段; 糾錯(cuò)單元,用于對(duì)所述第一搜索詞片段進(jìn)行糾錯(cuò),得到多個(gè)第二搜索詞片段; 拼接單元,用于拼接所述多個(gè)第二搜索詞片段,得到候選結(jié)果; 判斷單元,用于判斷所述候選結(jié)果是否是關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù),其中,所述關(guān)聯(lián)數(shù) 據(jù)庫(kù)中存儲(chǔ)有多組糾錯(cuò)后的關(guān)聯(lián)數(shù)據(jù);以及 確定單元,用于在判斷出所述候選結(jié)果是所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)的情況下,確 定所述候選結(jié)果為對(duì)所述搜索詞進(jìn)行糾錯(cuò)后的目標(biāo)搜索詞。
10. 根據(jù)權(quán)利要求9所述的糾錯(cuò)裝置,其特征在于,所述拆分單元包括: 第一拆分模塊,用于按照前向最大匹配方式拆分所述搜索詞,得到所述多個(gè)第一搜索 詞片段,其中,所述前向最大匹配方式用于按照第一順序拆分所述搜索詞,所述第一順序?yàn)?所述搜索詞的首字符至尾字符的順序。
11. 根據(jù)權(quán)利要求9所述的糾錯(cuò)裝置,其特征在于,所述拆分單元還包括: 第二拆分模塊,用于按照后向最大匹配方式拆分所述搜索詞,得到所述多個(gè)第一搜索 詞片段,其中,所述后向最大匹配方式用于按照第二順序拆分所述搜索詞,所述第二順序?yàn)?所述搜索詞的尾字符至首字符的順序。
12. 根據(jù)權(quán)利要求9所述的糾錯(cuò)裝置,其特征在于,所述候選結(jié)果的數(shù)量為多個(gè),所述 確定單元包括: 第一獲取模塊,用于獲取每個(gè)所述候選結(jié)果的熱度,其中,所述熱度表示所述候選結(jié)果 被確定為所述目標(biāo)搜索詞的程度;以及 第一確定模塊,用于確定最高熱度所表示的候選結(jié)果所述目標(biāo)搜索詞。
13. 根據(jù)權(quán)利要求9所述的糾錯(cuò)裝置,其特征在于,所述拼接單元包括: 第二獲取模塊,用于獲取所述多個(gè)第一搜索詞片段之間的相對(duì)先后順序,其中,所述相 對(duì)先后順序?yàn)閷?duì)所述搜索詞進(jìn)行拆分產(chǎn)生的順序;以及 第一拼接模塊,用于按照所述相對(duì)先后順序拼接所述多個(gè)第二搜索詞片段,得到所述 候選結(jié)果。
14. 根據(jù)權(quán)利要求9所述的糾錯(cuò)裝置,其特征在于,所述糾錯(cuò)裝置還包括: 建立單元,用于基于預(yù)設(shè)資源建立所述關(guān)聯(lián)數(shù)據(jù)庫(kù),其中,所述預(yù)設(shè)資源包括所述搜索 詞的屬性。
15. 根據(jù)權(quán)利要求14所述的糾錯(cuò)裝置,其特征在于,所述預(yù)設(shè)資源包括第一預(yù)設(shè)資源 和第二預(yù)設(shè)資源,所述建立單元包括: 第三拆分模塊,用于拆分所述第一預(yù)設(shè)資源中的字符串,得到多個(gè)第一候選串; 第四拆分模塊,用于拆分所述第二預(yù)設(shè)資源中的字符串,得到多個(gè)第二候選串; 第一提取模塊,用于從所述多個(gè)第一候選串中提取第一目標(biāo)候選串,并從所述多個(gè)第 二候選串中提取第二目標(biāo)候選串,其中,所述第一目標(biāo)候選串和所述第二目標(biāo)候選串為具 有關(guān)聯(lián)關(guān)系的候選串;以及 第一存儲(chǔ)模塊,用于將所述第一目標(biāo)候選串、所述第二目標(biāo)候選串和所述第一目標(biāo)候 選串與所述第二目標(biāo)候選串之間的關(guān)聯(lián)關(guān)系存儲(chǔ)為所述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)。
16. 根據(jù)權(quán)利要求14所述的糾錯(cuò)裝置,其特征在于,所述預(yù)設(shè)資源包括第一預(yù)設(shè)資源 和第二預(yù)設(shè)資源,所述建立單元包括: 第五拆分模塊,用于拆分所述第一預(yù)設(shè)資源中的字符串,得到多個(gè)第一候選串; 第六拆分模塊,用于拆分所述第二預(yù)設(shè)資源中的字符串,得到多個(gè)第二候選串; 第二提取模塊,用于從所述多個(gè)第一候選串中提取第一目標(biāo)候選串,并從所述多個(gè)第 二候選串中提取第二目標(biāo)候選串,其中,所述第一目標(biāo)候選串和所述第二目標(biāo)候選串為具 有關(guān)聯(lián)關(guān)系的候選串; 第二拼接模塊,用于拼接所述第一目標(biāo)候選串和所述第二目標(biāo)候選串;以及 第二確定模塊,用于確定所述第一目標(biāo)候選串和所述第二目標(biāo)候選串的拼接結(jié)果為所 述關(guān)聯(lián)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK104156454SQ201410406835
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年8月18日 優(yōu)先權(quán)日:2014年8月18日
【發(fā)明者】楊月奎, 張海龍, 肖立鵬, 黃玉蘭, 劉冰, 王剛, 王迪 申請(qǐng)人:騰訊科技(深圳)有限公司