專利名稱:一種文本檢索的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本檢索的方法及裝置,屬于網(wǎng)絡(luò)通訊技術(shù)領(lǐng)域。
背景技術(shù):
目前常用的文本檢索的方法有歸并查找的方法和位圖打點(diǎn)的方法,這兩種方法都是根 據(jù)各文本的編碼順序確定文本地址,且只建立了標(biāo)題索引和全文索引,并同時(shí)根據(jù)標(biāo)題索 引和全文索引進(jìn)行檢索,由于文本地址只是由編碼順序確定,導(dǎo)致在文本讀取不完全的情 況下,有些重要的文本沒(méi)有被檢索到,從而影響了檢索的準(zhǔn)確率,采用對(duì)標(biāo)題索引和全文 索引一起檢索的方式,導(dǎo)致檢索時(shí)間過(guò)長(zhǎng),從而影響了系統(tǒng)的檢索性能。
發(fā)明內(nèi)容
本發(fā)明提供了一種文本檢索的方法及裝置,以解決現(xiàn)有技術(shù)中存在在文本讀取不完全 的情況下,有些重要的文本不能被檢索到,同時(shí)采用標(biāo)題索引和全文索引一起檢索的方式, 導(dǎo)致檢索時(shí)間過(guò)長(zhǎng),從而影響了檢索的準(zhǔn)確率和系統(tǒng)的檢索性能的問(wèn)題,為此本發(fā)明采用 如下的技術(shù)方案
本發(fā)明實(shí)施例提供了一種文本檢索的方法,包括,
生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址,所述編碼信息用于指示文 本的順序;
根據(jù)生成的編碼信息和確定的文本地址建立索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文
索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位根據(jù)査詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞文本偏移地址位圖進(jìn)行過(guò)濾后檢索出
對(duì)應(yīng)文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索;若檢索的結(jié)果不滿足預(yù)定的要求,
則根據(jù)查詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢
索出對(duì)應(yīng)文本。
本發(fā)明實(shí)施例還提供了一種文本檢索的裝置,包括
文本地址確定模塊,用于生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址,所述編碼信息用于指示文本的順序;
索引項(xiàng)確定模塊,用于根據(jù)文本地址確定模塊生成的編碼信息和確定的文本地址建立 索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高 頻詞文本偏移地址位檢索模塊,用于根據(jù)查詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊中的標(biāo)題索引并根據(jù)超高頻詞文 本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索; 若檢索的結(jié)果不滿足預(yù)定的要求,則根據(jù)査詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊中的全文索引并 根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本。
綜上所述的一種文本檢索的方法及裝置,所述標(biāo)題索引,用于記錄標(biāo)題對(duì)應(yīng)文本的編 碼信息和文本地址;所述全文索引,用于記錄全文對(duì)應(yīng)文本的編碼信息和文本地址,所述 全文包括標(biāo)題和內(nèi)容;所述高頻詞標(biāo)題位圖,用于記錄各高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本的 編碼信息和文本地址;所述高頻詞全文位圖,用于記錄各高頻詞出現(xiàn)在全文的對(duì)應(yīng)文本的 編碼信息和文本地址;所述超高頻詞文本偏移地址位圖,用于記錄各超高頻詞出現(xiàn)在標(biāo)題 的對(duì)應(yīng)文本中占據(jù)文本地址最大的文本在標(biāo)題索引的文本地址中的偏移地址;所述高頻詞 表示文本覆蓋率在預(yù)定區(qū)間內(nèi)的詞,所述超高頻詞表示文本覆蓋率超過(guò)所述預(yù)定區(qū)間內(nèi)最 大值的詞。
本發(fā)明實(shí)施方式提供的技術(shù)方案在標(biāo)題索引和全文索引的基礎(chǔ)上增加了高頻詞標(biāo)題 位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖,在檢索的過(guò)程中先通過(guò)標(biāo)題索引和 超高頻詞文本偏移地址位圖檢索,當(dāng)檢索的結(jié)果不符合預(yù)定的要求時(shí)再通過(guò)全文索引、高 頻詞標(biāo)題位圖、高頻詞全文位圖進(jìn)行檢索,這樣能夠加快檢索的速度,從而提高了檢索的 準(zhǔn)確率和系統(tǒng)的檢索性能。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附 圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng) 域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的 附圖。
圖l是本發(fā)明實(shí)施例所述的一種文本檢索方法的流程示意圖;; 圖2是本發(fā)明實(shí)施例所述的根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址的流程示意圖; 圖3是本發(fā)明實(shí)施例所述的根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞文本偏移地 址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的流程示意圖;圖4是本發(fā)明實(shí)施例所述的根據(jù)査詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位圖和高
頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的流程示意圖5是本發(fā)明實(shí)施例所述的具體實(shí)施例一具體檢索過(guò)程的流程示意圖; 圖6是本發(fā)明實(shí)施例所述的一種文本檢索裝置的結(jié)構(gòu)示意圖; 圖7是本發(fā)明實(shí)施例所述的文本地址確定模塊1具體的結(jié)構(gòu)示意圖1; 圖8是本發(fā)明實(shí)施例所述的檢索模塊3具體的結(jié)構(gòu)示意圖9是本發(fā)明實(shí)施例所述的檢索模塊3達(dá)不到預(yù)定的要求時(shí)進(jìn)行檢索的具體結(jié)構(gòu)示意圖。
具體實(shí)施例方式
下面結(jié)合說(shuō)明書(shū)附圖來(lái)說(shuō)明本發(fā)明的具體實(shí)施方式
。本說(shuō)明書(shū)主要以本發(fā)明在即時(shí)通 信服務(wù)中的應(yīng)用作為最佳實(shí)施例,當(dāng)然,實(shí)際應(yīng)用中也可以用于網(wǎng)絡(luò)郵件服務(wù)系統(tǒng)、網(wǎng)絡(luò) 協(xié)同工作服務(wù)系統(tǒng)等其它互聯(lián)網(wǎng)服務(wù)系統(tǒng)。
在本發(fā)明實(shí)施方式提供的一種文本檢索方法的技術(shù)方案中,如圖1所示,首先,生成 編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址,所述編碼信息用于指示文本的順序; 然后,根據(jù)生成的編碼信息和確定的文本地址建立索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全 文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖;所述標(biāo)題索引, 用于記錄標(biāo)題對(duì)應(yīng)文本的編碼信息和文本地址;所述全文索引,用于記錄全文對(duì)應(yīng)文本的 編碼信息和文本地址,所述全文包括標(biāo)題和內(nèi)容;所述高頻詞標(biāo)題位圖,用于記錄各高頻 詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本的編碼信息和文本地址;所述高頻詞全文位圖,用于記錄各高頻 詞出現(xiàn)在全文的對(duì)應(yīng)文本的編碼信息和文本地址;所述超高頻詞文本偏移地址位圖,用于 記錄各超高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本中占據(jù)文本地址最大的文本在標(biāo)題索引的文本地 址中的偏移地址;所述高頻詞表示文本覆蓋率在預(yù)定區(qū)間內(nèi)的詞,所述預(yù)定的區(qū)間可以為 [50%, 80%],具體若查詢的語(yǔ)素的文本覆蓋率在50%到80%區(qū)間內(nèi),則所述査詢的語(yǔ)素可 認(rèn)為是高頻詞,所述超高頻詞表示文本覆蓋率超過(guò)所述預(yù)定區(qū)間內(nèi)最大值的詞;所述預(yù)定 區(qū)間內(nèi)最大值可以為80%,具體若查詢的語(yǔ)素的文本覆蓋率超過(guò)80%,則所述查詢的語(yǔ)素 可認(rèn)為是超高頻詞;最后,根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞文本偏移地址位 圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索;若檢索的結(jié) 果不滿足預(yù)定的要求,則根據(jù)査詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位圖和高頻詞全 文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,所述預(yù)定的要求,是根據(jù)對(duì)檢索結(jié)果的要求確定的,具體可以表示檢索到的文本包含了需要的文本,也可以表示檢索到的文本數(shù)大于預(yù)定值, 若查詢者只是想大概的查詢一下結(jié)果,并沒(méi)有很高的要求,則所述預(yù)定值可以小一些,比 如30或50,若查詢者要求精確度高,想全面的査詢,則所述預(yù)定值可以大一些,比如300 或500;所述預(yù)定的要求還可以表示滿足文本質(zhì)量等級(jí)的文本數(shù)大于特定閾值,所述文本 質(zhì)量等級(jí)是根據(jù)查詢的語(yǔ)素與檢索到的文本的匹配度確定的,所述特定閾值可以根據(jù)查詢 者的具體要求來(lái)確定,比如可以為50,也可以為IOO,若査詢者只是想大概的查詢一下結(jié) 果,并沒(méi)有很高的要求,則可以把査詢的語(yǔ)素與檢索到的文本的匹配度設(shè)置的小一些,比 如匹配度設(shè)置為30%或50%,若查詢者要求精確度高,想全面的查詢,則可以把査詢的語(yǔ) 素與檢索到的文本的匹配度設(shè)置的大一些,比如80%或90%。
進(jìn)一步地,如圖2所示,所述根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址的過(guò)程具體可以 為,首先,讀取文本庫(kù)中的一篇文本,解析文本中的字段,并生成分詞結(jié)果;然后,根據(jù) 生成的所述分詞結(jié)果,決定各字段的組合方式,確定當(dāng)前文本的權(quán)重并更新文本的相關(guān)性 權(quán)重,所述更新文本的相關(guān)性權(quán)重可以根據(jù)檢索過(guò)程中對(duì)文本相關(guān)性加權(quán)獲得,所述文本 相關(guān)性加權(quán)可以根據(jù)加權(quán)因子的重要性獲得文本的相關(guān)性權(quán)重,所述加權(quán)因子可以包括文 本修改時(shí)間、語(yǔ)素個(gè)數(shù)、語(yǔ)素排行、網(wǎng)頁(yè)的級(jí)別技術(shù)(PageRank)、外鏈個(gè)數(shù)和內(nèi)鏈個(gè)數(shù) 等;最后,重復(fù)上述過(guò)程直到讀取文本庫(kù)中所有生成編碼信息的文本,根據(jù)確定的文本的 權(quán)重和更新的文本的相關(guān)性權(quán)重確定文本地址。
在上述技術(shù)方案中,如圖3所示,所述根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞 文本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的具體過(guò)程可以為首先,確定查詢的語(yǔ)素 為單語(yǔ)素或多語(yǔ)素;所述語(yǔ)素是組成某意義的語(yǔ)法單位,所述單語(yǔ)素可以理解為單個(gè)字或 單個(gè)外語(yǔ)單詞,所述多語(yǔ)素可以理解為多個(gè)字或多個(gè)外語(yǔ)單詞,例如,"我"為單語(yǔ)素, "您好"為多語(yǔ)素,"hello"為單語(yǔ)素;"happy birthday"為多語(yǔ)素,然后,若查詢的語(yǔ) 素為單語(yǔ)素,則根據(jù)標(biāo)題索引確定所述語(yǔ)素覆蓋標(biāo)題對(duì)應(yīng)的編碼信息和文本地址,從而檢 索到相應(yīng)的文本。若查詢的語(yǔ)素為多語(yǔ)素且所述多語(yǔ)素中全部為中心詞,則先將所述語(yǔ)素 中低頻詞進(jìn)行歸并查找檢索到與所述低頻詞相應(yīng)的文本,所述歸并查找的具體過(guò)程可以 為,先根據(jù)標(biāo)題索引和全文索引分別確定各査詢語(yǔ)素所覆蓋的對(duì)應(yīng)文本地址,后將所述對(duì) 應(yīng)文本地址進(jìn)行歸并,例如,若將語(yǔ)素A、 B和C進(jìn)行歸并查找,則先根據(jù)標(biāo)題索引和全文 索引分別確定語(yǔ)素A、 B和C覆蓋的對(duì)應(yīng)文本地址,之后將所述對(duì)應(yīng)文本地址進(jìn)行歸并,語(yǔ) 素A覆蓋的對(duì)應(yīng)文本地址為一個(gè)歸并段,語(yǔ)素B覆蓋的對(duì)應(yīng)文本地址為一個(gè)歸并段,語(yǔ)素C 覆蓋的對(duì)應(yīng)文本地址為一個(gè)歸并段。歸并査找后再對(duì)所述語(yǔ)素中的超高頻詞根據(jù)標(biāo)題索引判斷所述超高頻詞是否命中檢索到的所述低頻詞相應(yīng)文本的標(biāo)題,若沒(méi)命中,則結(jié)束檢索; 若命中,則跳過(guò)所述低頻詞歸并査找時(shí)同一歸并段中超高頻詞文本偏移地址的對(duì)應(yīng)文本和 當(dāng)前文本之間檢索到的文本,讀取跳過(guò)后的文本直到所述超高頻詞沒(méi)有命中標(biāo)題為止,從 而獲得檢索到的文本,所述低頻詞表示文本覆蓋率小于所述預(yù)定區(qū)間內(nèi)最小值的詞,所述 中心詞又可稱為定位詞,可以表示多語(yǔ)素中緊緊圍繞著進(jìn)行論述的詞,例如,"你是個(gè)聰 明的人"這個(gè)多語(yǔ)素中"人"就是中心詞,聰明是非中心詞。
若查詢的語(yǔ)素為多語(yǔ)素且所述多語(yǔ)素中含有非中心詞,則先采用所述查詢的語(yǔ)素為多 語(yǔ)素且所述多語(yǔ)素中全部為中心詞的檢索方法進(jìn)行檢索,若檢索的結(jié)果滿足預(yù)定的要求, 則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定的要求,則對(duì)所述多語(yǔ)素中的中心詞進(jìn)行歸并査找, 若通過(guò)歸并查找獲得的文本與已查到的文本重疊,則所述重疊的文本為檢索到的文本,并 對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索到的文本。
在上述方案中,如圖4所示,所述根據(jù)查詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位 圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的具體過(guò)程可以為,首先,確定査詢的語(yǔ) 素為全低頻詞或高低頻詞或全高頻詞;然后,若查詢的語(yǔ)素為全低頻詞,則對(duì)所述語(yǔ)素中 的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本,所述位圖打點(diǎn)的具體過(guò)程為,將各低頻詞根據(jù)標(biāo) 題索引和全文索引檢索到的相應(yīng)文本依次打點(diǎn),直到所述低頻詞的文字個(gè)數(shù)與所打點(diǎn)數(shù)相 同,此低頻詞檢索完畢,重復(fù)上述過(guò)程直到語(yǔ)素中所有的低頻詞均檢索完畢,則將各低頻 詞檢索到的相應(yīng)文本合起來(lái)即為檢索到的文本。若查詢的語(yǔ)素為高低頻詞,則對(duì)所述語(yǔ)素 中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本,根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞 覆蓋標(biāo)題對(duì)應(yīng)的文本,若通過(guò)低頻詞獲得的文本與通過(guò)高頻詞獲得的文本重疊,則所述重 疊的文本為檢索到的文本,并對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索 到的文本。
若查詢的語(yǔ)素為全高頻詞,則首先根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋 標(biāo)題對(duì)應(yīng)的文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定 的要求,則繼續(xù)根據(jù)高頻詞全文位圖確定所述語(yǔ)素中的高頻詞覆蓋全文對(duì)應(yīng)的文本。
具體實(shí)施例一、本實(shí)施例以查詢的語(yǔ)素為"世界人民世界和平世界未來(lái)"為例根據(jù) 建好的索引項(xiàng)進(jìn)行檢索,具體的步驟如圖5所示,
步驟一、確定所査詢的語(yǔ)素為多語(yǔ)素,含有中心詞"世界"以及非中心詞"人民、和 平、未來(lái)";
歩驟二、若所述查詢的語(yǔ)素中"世界未來(lái)"是低頻詞,"世界人民"是高頻詞,"世界和平"是超高頻詞,則對(duì)"世界未來(lái)"進(jìn)行歸并查找檢索到相應(yīng)的文本;
步驟三、判斷"世界和平"根據(jù)標(biāo)題索引是否命中檢索到的文本的標(biāo)題,若沒(méi)命中, 則結(jié)束檢索,通過(guò)"世界未來(lái)"檢索到的相應(yīng)文本即為檢索結(jié)果;若命中,則執(zhí)行步驟四;
步驟四、跳過(guò)"世界未來(lái)"檢索時(shí)同一歸并段中"世界和平"對(duì)應(yīng)文本偏移地址的對(duì) 應(yīng)文本和當(dāng)前文本之間檢索到的文本,所述"世界和平"對(duì)應(yīng)文本偏移地址是根據(jù)超高頻 文本偏移地址位圖得到的,讀取跳過(guò)后的文本直到"世界和平"沒(méi)有命中檢索到的文本的 標(biāo)題為止,從而獲得相應(yīng)的文本;
步驟五、判斷獲得的相應(yīng)文本是否符合預(yù)定的要求,若檢索的結(jié)果滿足預(yù)定的要求, 則結(jié)束檢索;若檢索的結(jié)果不滿足預(yù)定的要求,則執(zhí)行步驟六;
步驟六、確定所述査詢的語(yǔ)素為高低頻詞,則將"世界未來(lái)"通過(guò)位圖打點(diǎn)檢索到相 應(yīng)的文本,根據(jù)高頻詞標(biāo)題位圖檢索到與"世界人民"相應(yīng)文本的編碼信息和文本地址, 從而檢索到相應(yīng)的文本;
步驟七、判斷通過(guò)"世界未來(lái)"檢索到的文本與通過(guò)"世界人民"檢索到的文本是否 重疊,若重疊,執(zhí)行歩驟八,若不重疊,則結(jié)束檢索,根據(jù)文本的權(quán)重顯示檢索到的文本;
歩驟八、所述重疊的文本即為檢索的最終文本,并將所述重疊的文本相關(guān)性加權(quán),從 而更新文本的相關(guān)性權(quán)重。
本發(fā)明實(shí)施例提供的一種文本檢索裝置的技術(shù)方案,如圖6所示,包括
文本地址確定模塊l,用于生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址, 所述編碼信息用于指示文本的順序;
索引項(xiàng)確定模塊2,用于根據(jù)文本地址確定模塊l生成的編碼信息和確定的文本地址建 立索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超 高頻詞文本偏移地址位圖;所述標(biāo)題索引,用于記錄標(biāo)題對(duì)應(yīng)文本的編碼信息和文本地址; 所述全文索引,用于記錄全文對(duì)應(yīng)文本的編碼信息和文本地址,所述全文包括標(biāo)題和內(nèi)容; 所述高頻詞標(biāo)題位圖,用于記錄各高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本的編碼信息和文本地址; 所述高頻詞全文位圖,用于記錄各高頻詞出現(xiàn)在全文的對(duì)應(yīng)文本的編碼信息和文本地址; 所述超高頻詞文本偏移地址位圖,用于記錄各超高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本中占據(jù)文本 地址最大的文本在標(biāo)題索引的文本地址中的偏移地址;所述高頻詞表示文本覆蓋率在預(yù)定 區(qū)間內(nèi)的詞,所述超高頻詞表示文本覆蓋率超過(guò)所述預(yù)定區(qū)間內(nèi)最大值的詞;
檢索模塊3,用于根據(jù)查詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊2中的標(biāo)題索引并根據(jù)超高頻詞 文本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢
1索;若檢索的結(jié)果不滿足預(yù)定的要求,則根據(jù)查詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊2中的全文 索弓I并根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本。
在上述技術(shù)方案中,如圖7所示,所述文本地址確定模塊l具體包括
分詞子模塊ll,用于讀取文本庫(kù)中的一篇文本,解析文本中的字段,并生成分詞結(jié)果;
權(quán)重確定子模塊12,用于根據(jù)分詞子模塊ll生成的所述分詞結(jié)果,決定各字段的組合 方式,確定當(dāng)前文本的權(quán)重并更新文本的相關(guān)性權(quán)重;
文本地址生成子模塊13,用于通過(guò)讀取文本庫(kù)中所有生成編碼信息的文本根據(jù)權(quán)重確 定子模塊12確定的文本的權(quán)重和更新的文本的相關(guān)性權(quán)重確定文本地址。
在上述技術(shù)方案中,如圖8所示,所述檢索模塊3包括
第一語(yǔ)素確定子模塊31,用于確定查詢的語(yǔ)素為單語(yǔ)素或多語(yǔ)素,若為單語(yǔ)素,則送 入單語(yǔ)素檢索子模塊,若為多語(yǔ)素,則送入多語(yǔ)素檢索子模塊;
所述單語(yǔ)素檢索子模塊32,用于將所述單語(yǔ)素根據(jù)標(biāo)題索引確定所述語(yǔ)素覆蓋標(biāo)題對(duì) 應(yīng)的編碼信息和文本地址,從而檢索到相應(yīng)的文本;
所述多語(yǔ)素檢索子模塊33,包括
判斷子模塊331,用于判斷所述多語(yǔ)素中是否全部為中心詞,若是,則送入中心詞檢 索子模塊332,若否,則送入非中心詞檢索子模塊333;
所述中心詞檢索子模塊332,用于先將所述語(yǔ)素中的低頻詞進(jìn)行歸并查找檢索到與所 述低頻詞相應(yīng)的文本,再對(duì)所述語(yǔ)素中的超高頻詞根據(jù)標(biāo)題索引判斷所述超高頻詞是否命 中檢索到的所述低頻詞相應(yīng)文本的標(biāo)題,若沒(méi)命中,則結(jié)束檢索;若命中,則跳過(guò)所述低 頻詞歸并查找時(shí)同 一歸并段中超高頻詞文本偏移地址的對(duì)應(yīng)文本和當(dāng)前文本之間檢索到 的文本,讀取跳過(guò)后的文本直到所述超高頻詞沒(méi)有命中標(biāo)題為止,所述低頻詞表示文本覆 蓋率小于所述預(yù)定區(qū)間內(nèi)最小值的詞;
所述非中心詞檢索子模塊333,用于先采用所述中心詞檢索子模塊332進(jìn)行檢索,若檢 索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定的要求,則對(duì)所述多語(yǔ) 素中的中心詞進(jìn)行歸并查找,若通過(guò)歸并查找獲得的文本與已查到的文本重疊,則所述重 疊的文本為檢索到的文本,并對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索 到的文本。
在上述技術(shù)方案中,如圖9所示,所述檢索模塊3還包括
第二語(yǔ)素確定子模塊34,用于確定査詢的語(yǔ)素為全低頻詞或高低頻詞或全高頻詞,若 為全低頻詞,送入全低頻詞檢索子模塊35;若為高低頻詞,則送入高低頻檢索子模塊36;若為全高頻詞,則送入全高頻詞檢索子模塊36;
全低頻詞檢索子模塊35,用于對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本;
高低頻詞檢索子模塊36,用于對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本, 根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋標(biāo)題對(duì)應(yīng)的文本,當(dāng)兩次獲得的文本重 疊時(shí),對(duì)所述重疊的文本相關(guān)性加權(quán);
全高頻詞檢索子模塊37,用于首先根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋 標(biāo)題對(duì)應(yīng)的文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定 的要求,則繼續(xù)根據(jù)高頻詞全文位圖確定所述語(yǔ)素中的高頻詞覆蓋全文對(duì)應(yīng)的文本。
在上述技術(shù)方案中,所述預(yù)定的要求,是根據(jù)對(duì)檢索結(jié)果的要求確定的,具體可以表 示檢索到的文本包含了需要的文本,也可以表示檢索到的文本數(shù)大于預(yù)定值,若査詢者只 是想大概的查詢一下結(jié)果,并沒(méi)有很高的要求,則所述預(yù)定值可以小一些,比如30或50, 若査詢者要求精確度高,想全面的査詢,則所述預(yù)定值可以大一些,比如300或500;所述 預(yù)定的要求還可以表示滿足文本質(zhì)量等級(jí)的文本數(shù)大于特定閾值,所述文本質(zhì)量等級(jí)是根 據(jù)查詢的語(yǔ)素與檢索到的文本的匹配度確定的,所述特定閾值可以根據(jù)查詢者的具體要求 來(lái)確定,比如可以為50,也可以為IOO,若查詢者只是想大概的查詢一下結(jié)果,并沒(méi)有很 高的要求,則可以把查詢的語(yǔ)素與檢索到的文本的匹配度設(shè)置的小一些,比如匹配度設(shè)置 為30%或50%,若査詢者要求精確度高,想全面的查詢,則可以把查詢的語(yǔ)素與檢索到的 文本的匹配度設(shè)置的大一些,比如80%或90%。
上述裝置中包含的各模塊的處理功能的具體實(shí)現(xiàn)方式在之前的方法實(shí)施例中已經(jīng)描 述,在此不再重復(fù)描述。
本發(fā)明實(shí)施例所述的一種文本檢索的方法及裝置,本發(fā)明實(shí)施方式提供的技術(shù)方案在 標(biāo)題索引和全文索引的基礎(chǔ)上增加了高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏 移地址位圖,在檢索的過(guò)程中先通過(guò)標(biāo)題索引和超高頻詞文本偏移地址位圖檢索,起到了 快速歸并的效果,提高了系統(tǒng)的性能,當(dāng)檢索的結(jié)果不符合預(yù)定的要求時(shí)再通過(guò)全文索引、 高頻詞標(biāo)題位圖、高頻詞全文位圖進(jìn)行檢索,在大幅度提高了系統(tǒng)性能的同時(shí),提高了好 結(jié)果的召回率,從而提高了檢索的準(zhǔn)確率和系統(tǒng)的準(zhǔn)確率和召回率,提高了用戶的體驗(yàn)。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都 應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍 為準(zhǔn)。
權(quán)利要求
1、一種文本檢索的方法,其特征在于,包括,生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址,所述編碼信息用于指示文本的順序;根據(jù)生成的編碼信息和確定的文本地址建立索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖;根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞文本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果不滿足預(yù)定的要求,則根據(jù)查詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本。
2、 根據(jù)權(quán)利要求l所述的方法,其特征在于,所述標(biāo)題索引、全文索引、高頻詞標(biāo)題 位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖具體為所述標(biāo)題索引,用于記錄標(biāo)題對(duì)應(yīng)文本的編碼信息和文本地址;所述全文索引,用于 記錄全文對(duì)應(yīng)文本的編碼信息和文本地址,所述全文包括標(biāo)題和內(nèi)容;所述高頻詞標(biāo)題位 圖,用于記錄各高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本的編碼信息和文本地址;所述高頻詞全文位 圖,用于記錄各高頻詞出現(xiàn)在全文的對(duì)應(yīng)文本的編碼信息和文本地址;所述超高頻詞文本 偏移地址位圖,用于記錄各超高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本中占據(jù)文本地址最大的文本在 標(biāo)題索引的文本地址中的偏移地址;所述高頻詞表示文本覆蓋率在預(yù)定區(qū)間內(nèi)的詞,所述 超高頻詞表示文本覆蓋率超過(guò)所述預(yù)定區(qū)間內(nèi)最大值的詞。
3、 根據(jù)權(quán)利要求l所述的方法,其特征在于,所述根據(jù)文本庫(kù)中的文本權(quán)重確定文本 地址的過(guò)程具體包括讀取文本庫(kù)中的一篇文本,解析文本中的字段,并生成分詞結(jié)果;根據(jù)生成的所述分詞結(jié)果,決定各字段的組合方式,確定當(dāng)前文本的權(quán)重并更新文本 的相關(guān)性權(quán)重;重復(fù)上述過(guò)程直到讀取文本庫(kù)中所有生成編碼信息的文本,根據(jù)確定的文本的權(quán)重和 更新的文本的相關(guān)性權(quán)重確定文本地址。
4、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根 據(jù)超高頻詞文本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的具體過(guò)程包括確定查詢的語(yǔ)素為單語(yǔ)素或多語(yǔ)素;若查詢的語(yǔ)素為單語(yǔ)素,則根據(jù)標(biāo)題索引確定所述語(yǔ)素覆蓋標(biāo)題對(duì)應(yīng)的編碼信息和文本地址,從而檢索到相應(yīng)的文本;若査詢的語(yǔ)素為多語(yǔ)素且所述多語(yǔ)素中全部為中心詞,則先將所述語(yǔ)素中低頻詞進(jìn)行 歸并查找檢索到與所述低頻詞對(duì)應(yīng)的文本,再對(duì)所述語(yǔ)素中的超高頻詞根據(jù)標(biāo)題索引判斷 所述超高頻詞是否命中檢索到的所述低頻詞對(duì)應(yīng)文本的標(biāo)題,若沒(méi)命中,則結(jié)束檢索;若 命中,則跳過(guò)所述低頻詞歸并査找時(shí)同一歸并段中超高頻詞文本偏移地址的對(duì)應(yīng)文本和當(dāng) 前文本之間檢索到的文本,讀取跳過(guò)后的文本直到所述超高頻詞沒(méi)有命中標(biāo)題為止,從而 獲得檢索到的文本,所述低頻詞表示文本覆蓋率小于所述預(yù)定區(qū)間內(nèi)最小值的詞;若査詢的語(yǔ)素為多語(yǔ)素且所述多語(yǔ)素中含有非中心詞,則先采用所述查詢的語(yǔ)素為多 語(yǔ)素且所述多語(yǔ)素中全部為中心詞的檢索方法進(jìn)行檢索,若檢索的結(jié)果滿足預(yù)定的要求, 則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定的要求,則對(duì)所述多語(yǔ)素中的中心詞進(jìn)行歸并查找, 若通過(guò)歸并查找獲得的文本與已查到的文本重疊,則所述重疊的文本為檢索到的文本,并 對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索到的文本。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)査詢的語(yǔ)素通過(guò)全文索引并根 據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本的具體過(guò)程為確定查詢的語(yǔ)素為全低頻詞或高低頻詞或全高頻詞;若查詢的語(yǔ)素為全低頻詞,則對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本; 若查詢的語(yǔ)素為高低頻詞,則對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本, 根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋標(biāo)題對(duì)應(yīng)的文本,若通過(guò)低頻詞獲得的 文本與通過(guò)高頻詞獲得的文本重疊,則所述重疊的文本為檢索到的文本,并對(duì)所述重疊的 文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索到的文本;若査詢的語(yǔ)素為全高頻詞,則首先根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋 標(biāo)題對(duì)應(yīng)的文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定 的要求,則繼續(xù)根據(jù)高頻詞全文位圖確定所述語(yǔ)素中的高頻詞覆蓋全文對(duì)應(yīng)的文本。
6、 根據(jù)權(quán)利要求1或2或4或5所述的方法,其特征在于,所述預(yù)定的要求,是根據(jù)對(duì) 檢索結(jié)果的要求確定的,具體包括檢索到的文本包含需要的文本,或檢索到的文本數(shù)大 于預(yù)定值,或滿足文本質(zhì)量等級(jí)的文本數(shù)大于特定閾值,所述文本質(zhì)量等級(jí)是根據(jù)查詢的 語(yǔ)素與檢索到的文本的匹配度確定的。
7、 一種文本檢索的裝置,其特征在于,包括文本地址確定模塊,用于生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址, 所述編碼信息用于指示文本的順序;索引項(xiàng)確定模塊,用于根據(jù)文本地址確定模塊生成的編碼信息和確定的文本地址建立 索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖;檢索模塊,用于根據(jù)查詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊中的標(biāo)題索引并根據(jù)超高頻詞文 本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果不滿足預(yù)定的要求,則根據(jù)查 詢的語(yǔ)素通過(guò)索引項(xiàng)確定模塊中的全文索引并根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn) 行過(guò)濾后檢索出對(duì)應(yīng)文本。
8、 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述索引項(xiàng)確定模塊中的標(biāo)題索引、全 文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖具體為-所述標(biāo)題索引,用于記錄標(biāo)題對(duì)應(yīng)文本的編碼信息和文本地址;所述全文索引,用于 記錄全文對(duì)應(yīng)文本的編碼信息和文本地址,所述全文包括標(biāo)題和內(nèi)容;所述高頻詞標(biāo)題位 圖,用于記錄各高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本的編碼信息和文本地址;所述高頻詞全文位 圖,用于記錄各高頻詞出現(xiàn)在全文的對(duì)應(yīng)文本的編碼信息和文本地址;所述超高頻詞文本 偏移地址位圖,用于記錄各超高頻詞出現(xiàn)在標(biāo)題的對(duì)應(yīng)文本中占據(jù)文本地址最大的文本在 標(biāo)題索引的文本地址中的偏移地址;所述高頻詞表示文本覆蓋率在預(yù)定區(qū)間內(nèi)的詞,所述 超高頻詞表示文本覆蓋率超過(guò)所述預(yù)定區(qū)間內(nèi)最大值的詞;
9、 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文本地址確定模塊具體包括 分詞子模塊,用于讀取文本庫(kù)中的一篇文本,解析文本中的字段,并生成分詞結(jié)果; 權(quán)重確定子模塊,用于根據(jù)分詞子模塊生成的所述分詞結(jié)果,決定各字段的組合方式,確定當(dāng)前文本的權(quán)重并更新文本的相關(guān)性權(quán)重;文本地址生成子模塊,用于通過(guò)讀取文本庫(kù)中所有生成編碼信息的文本根據(jù)權(quán)重確定 子模塊確定的文本的權(quán)重和更新的文本的相關(guān)性權(quán)重確定文本地址。
10、 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述檢索模塊包括 第一語(yǔ)素確定子模塊,用于確定查詢的語(yǔ)素為單語(yǔ)素或多語(yǔ)素,若為單語(yǔ)素,則送入單語(yǔ)素檢索子模塊,若為多語(yǔ)素,則送入多語(yǔ)素檢索子模塊;所述單語(yǔ)素檢索子模塊,用于將所述單語(yǔ)素根據(jù)標(biāo)題索引確定所述語(yǔ)素覆蓋標(biāo)題對(duì)應(yīng) 的編碼信息和文本地址,從而檢索到相應(yīng)的文本;所述多語(yǔ)素檢索子模塊,包括判斷子模塊,用于判斷所述多語(yǔ)素中是否全部為中心詞,若是,則送入中心詞檢索子 模塊,若否,則送入非中心詞檢索子模塊;所述中心詞檢索子模塊,用于先將所述語(yǔ)素中的低頻詞進(jìn)行歸并査找檢索到與所述低 頻詞相應(yīng)的文本,再對(duì)所述語(yǔ)素中的超高頻詞根據(jù)標(biāo)題索引判斷所述超高頻詞是否命中檢 索到的所述低頻詞相應(yīng)文本的標(biāo)題,若沒(méi)命中,則結(jié)束檢索;若命中,則跳過(guò)所述低頻詞 歸并査找時(shí)同一歸并段中超高頻詞文本偏移地址的對(duì)應(yīng)文本和當(dāng)前文本之間檢索到的文 本,讀取跳過(guò)后的文本直到所述超高頻詞沒(méi)有命中標(biāo)題為止,從而獲得檢索到的文本,所 述低頻詞表示文本覆蓋率小于所述預(yù)定區(qū)間內(nèi)最小值的詞;所述非中心詞檢索子模塊,用于先采用所述中心詞檢索子模塊進(jìn)行檢索,若檢索的結(jié) 果滿足預(yù)定的要求,則結(jié)束,若檢索的結(jié)果不滿足預(yù)定的要求,則對(duì)所述多語(yǔ)素中的中心 詞進(jìn)行歸并查找,若通過(guò)歸并査找獲得的文本與已査到的文本重疊,則所述重疊的文本為 檢索到的文本,并對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本的權(quán)重顯示檢索到的文本。
11、 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述檢索模塊還包括 第二語(yǔ)素確定子模塊,用于確定查詢的語(yǔ)素為全低頻詞或高低頻詞或全高頻詞,若為全低頻詞,送入全低頻詞檢索子模塊;若為高低頻詞,則送入高低頻檢索子模塊;若為全高頻詞,則送入全高頻詞檢索子模塊;全低頻詞檢索子模塊,用于對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本; 高低頻詞檢索子模塊,用于對(duì)所述語(yǔ)素中的低頻詞采用位圖打點(diǎn)檢索到對(duì)應(yīng)文本,根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋標(biāo)題對(duì)應(yīng)的文本,若通過(guò)低頻詞獲得的文本與通過(guò)高頻詞獲得的文本重疊,則所述重疊的文本為檢索到的文本,并對(duì)所述重疊的文本相關(guān)性加權(quán),否則根據(jù)文本權(quán)重顯示檢索到的文本;全高頻詞檢索子模塊,用于首先根據(jù)高頻詞標(biāo)題位圖確定所述語(yǔ)素中的高頻詞覆蓋標(biāo)題對(duì)應(yīng)的文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索,若檢索的結(jié)果不滿足預(yù)定的要求,則繼續(xù)根據(jù)高頻詞全文位圖確定所述語(yǔ)素中的高頻詞覆蓋全文對(duì)應(yīng)的文本。
12、 根據(jù)權(quán)利要求7或8或10或11所述的裝置,其特征在于,所述預(yù)定的要求,是根據(jù) 對(duì)檢索結(jié)果的要求確定的,具體包括檢索到的文本包含需要的文本,或檢索到的文本數(shù) 大于預(yù)定值,或滿足文本質(zhì)量等級(jí)的文本數(shù)大于特定閾值,所述文本質(zhì)量等級(jí)是根據(jù)查詢 的語(yǔ)素與檢索到的文本的匹配度確定的。
全文摘要
一種文本檢索的方法及裝置,首先,生成編碼信息,并根據(jù)文本庫(kù)中的文本權(quán)重確定文本地址,然后,根據(jù)生成的編碼信息和確定的文本地址建立索引項(xiàng),所述索引項(xiàng)包括標(biāo)題索引、全文索引、高頻詞標(biāo)題位圖、高頻詞全文位圖和超高頻詞文本偏移地址位圖,最后,根據(jù)查詢的語(yǔ)素通過(guò)標(biāo)題索引并根據(jù)超高頻詞文本偏移地址位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本,若檢索的結(jié)果滿足預(yù)定的要求,則結(jié)束檢索;若檢索的結(jié)果不滿足預(yù)定的要求,則根據(jù)查詢的語(yǔ)素通過(guò)全文索引并根據(jù)高頻詞標(biāo)題位圖和高頻詞全文位圖進(jìn)行過(guò)濾后檢索出對(duì)應(yīng)文本。本發(fā)明實(shí)施方式提供的技術(shù)方案能夠加快檢索的速度,從而提高了檢索的準(zhǔn)確率和系統(tǒng)的檢索性能。
文檔編號(hào)G06F17/30GK101599078SQ200910088750
公開(kāi)日2009年12月9日 申請(qǐng)日期2009年7月10日 優(yōu)先權(quán)日2009年7月10日
發(fā)明者哲 袁 申請(qǐng)人:騰訊科技(深圳)有限公司