專利名稱:一種智能檢索方法
技術領域:
本發明涉及信息檢索領域,尤其涉及一種智能檢索方法。
背景技術:
大量的文獻包括本科、碩士和博士畢業論文,如果將這些數據直接呈現給用戶,是 很難被用戶使用的。因為在海量的并且沒有任何索引信息的文獻數據庫中,用戶查找若干 篇所需要的文章,如同大海撈針。即使采用最細致的分類導航,用戶也只能在其所需領域中 逐篇文章地查找,刪掉要想解決一個技術問題或者查找專業知識,將不得不閱讀很多文章, 而這個閱讀查找過程是很低效的,有很多文章讀完了才知道并不是所需。為了能使用戶有效的利用知識信息,從文獻中提取出各類屬性信息,如會議名 稱、作者、學術方向等,將這些數據放入數據庫,然后對各類屬性信息建立索引,使用戶能夠 從各種角度,使用不同的屬性信息檢索數據。比如通過作者名字、文獻標題或者用戶感興趣 的學術關鍵詞查找,方便用戶快速定位到所需要的文獻。現有技術的技術方案根據詞典查找屬性,這里建立了一個檢索需求對應屬性的詞典,通過詞典能夠又 快又準的查到詞典中的檢索需求對應的屬性。這個模塊的作用主要就是將一些常見的檢索 需求,或者很難判斷的檢索需求及其所對應的屬性寫入到詞典,通過查詢詞典,能夠快速的 判斷檢索需求的屬性,如果該詞典里沒有檢索需求,那么可以做后續的一些名實體識別工作。屬性輸出,如果沒有找到屬性,那么可以在全文中檢索。現有技術的缺點1)數據庫面對的用戶是各行各業的科研技術人員,他們對我們的數據庫產品及其 檢索技術的熟悉程度是不同的,這樣就會導致產品的使用情況不好。比如用戶想查找“孫俊 句法分析”,用戶的本意是想找在“句法分析”領域,作者是“孫俊”的一些文獻資料,如果用 戶了解網絡出版總庫,那么會選擇作者檢索項,并輸入“孫俊”作為檢索詞,然后選擇全文或 者主題檢索項,寫下“句法分析”作為檢索詞,那么這樣檢索的結果將是比較準確的,雖然整 個操作過程有些繁瑣;相反,如果用戶不了解網絡出版總庫,很可能直接在全文檢索項中輸 入“孫俊句法分析”,這樣我們的產品就會去全文中找“孫俊”和“句法分析”,由于計算機并 不一定能識別“孫俊”是一個人名,很有可能會把它拆成兩個字來檢索,最后檢索的結果就 是全文中有“孫”、“俊”、“句法分析”的文章,這個結果就不能準確的滿足用戶需求。另外, 我們通過互聯網發布產品,也很難對各個用戶進行產品使用培訓,即使提供了產品使用說 明的免費下載,效果可能依然不好。這樣的結果就是產品足夠好,但是能用好的人不多。2)本系統擁有一個比較大的詞典,因此在系統運行時,會占用較大內存。并且隨著 總庫數據的更新,詞典必須也要隨之更新,以滿足新的檢索需求。而隨著詞典的擴大,系統 所占內存也會越來越大。3)需要一個熟悉總庫數據類型及詞典結構的人來維護詞典,維護人員需要及時了解總庫數據的更新,并對詞典進行更新以適應于新的數據。現有技術如專利號為“99816628. 6”的專利公開的技術為“將存儲有限態文法、 系統詞典、上下文語言模型以及一個或多個實體語言模型存儲到計算機存儲裝置中;計算 機利用存儲有限態文法和一個系統詞典產生用于一串表意字符的一個字網格,然后依賴于 一個上下文語言模型或一個或多個實體語言模型,所述計算機利用字網格通過確定所述表 意字符串中的單詞界限來產生分段的文本并依賴于上下文語言模型和所述一個或多個實 體語言模型,所述計算機利用所述字網格識別在所述表意字符串中的一個或多個命名的實 體。”該方法實施過程中必須利用分段器將字符串和名字文集分段成字串格式及建立上下 文和實體模型基于分類的語言模型提供特征提取,所以上述方法實現起來比較繁瑣,而且 在實施過程中很容易出現差錯。現有技術如專利號為“200380111056. 4”公開的技術內容為“一方面提供一種在一 模式詞典中誘導模式的方法,其中的模式詞典中包含有多個帶有其出現頻率的初始模式入 口,包括確定出該詞典中具有較低出現頻率的一個或多個初始模式入口 ;以及放松所確 定出的一個或多個初始模式入口中每一個入口的一個或多個限制從而拓寬所確定出的一 個或多個初始模式入口所涵蓋的范圍。另一方面提供一種識別并分類一文本中命名實體的 系統,其從文獻中提取特征,來識別內核裝置,通過隱藏馬爾可夫模式來對命名實體進行識 別并分類,回退訂模裝置,其通過限制松弛來回退定模從而處理一富特征空間中的數據稀 疏。現有的相關論文如“隱馬爾可夫模型在命名實體中的應用、一種松耦合的生物 醫學命名實體識別算法、一種基于位置概率模型中文人名識別方法、融合多特征的最大熵 漢語命名實體識別模型、基于最大熵模型的中文命名實體識別研究、基于小規模尾字特征 的中文命名實體識別研究、基于感知器的生物醫學命名識體邊界識別算法、基于單字提示 特征的中文命名實體識別快速算法”現有的對比論文實現起來比較繁瑣,而且還不容易實 現。
發明內容
為解決上述存在的問題與缺陷,本發明提供了一種智能檢索方法。所述技術方案 如下一種智能檢索方法,適用于任意數據庫的任意屬性的識別,其檢索方法包括根據用戶檢索需求,對其進行初始化處理;根據詞典查找所述檢索需求的屬性;根據檢索需求的字符類型與字符串的長度,判斷檢索需求可能存在的屬性;根據所述檢索需求可能存在的屬性判斷所述檢索需求具體存在的屬性;輸出根據檢索屬性得到的檢索結果。本發明提供的技術方案的有益效果是通過對用戶檢索需求中詞語或語句的分析,預測用戶查詢詞語或語句的屬性信 息,并根據詞語或語句不同的屬性信息進行分類查詢,返回更精確,用戶滿意度更高的檢索結果。
圖1是本發明檢索方法流程圖;圖2是本發明人名識別流程圖;圖3是本發明機構名識別流程圖;圖4是本發明基金名識別流程圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方 式作進一步地詳細描述本實施例提供了一種智能檢索方法,如圖1所示,該方法包括步驟10根據用戶檢索需求,對其進行初始化處理;檢索需求包括單個詞或多個詞或詞句,其初始化處理包括分詞,并過濾掉停用詞, 比如的,是。步驟20根據詞典查找所述檢索需求的屬性,如果找到,執行步驟50,否則執行步 驟30 ;步驟30根據檢索需求的字符類型與字符串的長度,判斷檢索需求可能存在的屬 性;可能存在的屬性識別包括CN號識別、專利號識別、ISBN識別、ISSN識別、基金識 別、機構名識別及人名識別,在一次查詢中并不要求所有的模塊全部都調用,根據初步分析 模塊的結果,選擇調用其中的一部分模塊來識別檢索需求。CN號識別、專利號識別、ISBN識 別和ISSN識別是根據各種號碼的定義規則來識別,而基金識別、機構名識別及人名識別是 根據機器學習的方法,利用概率統計原理識別檢索需求的屬性。步驟40根據所述檢索需求可能存在的屬性判斷所述檢索需求具體存在的屬性, 如果找到,執行步驟50,否則輸出全文查找;步驟50輸出根據檢索屬性得到的檢索結果;所述屬性有可能是按屬性字段查找或其它可查找的方式。如圖2所示,人名識別的具體流程包括步驟201對檢索需求中的詞語進行分詞。步驟202判斷每個詞是否是單姓、復姓或專有人名,若在姓氏詞典中,則記下姓氏 的概率;其姓氏計算的公式為
& 人名庫中作為姓氏的頻度+主詞典中作為姓氏的頻度⑴
C 人名庫中該字的總頻度+主詞典中該字的總頻度P(姓)為在人名庫和主詞典中每個字作為姓的概率,加入主詞典是為了使姓氏的 概率分布更接近于語料的真實分布。步驟203判斷姓氏后面的第一個分詞單元;如果為姓+單詞(非停用詞),則暫認為其為單字人名(當名只有一個字時),記 下單字名的概率,如果為姓+雙字詞,則把雙字詞拆分成姓+單字+單字的形式,按雙字人名計算概率,其中單字人名的概率公式為ρ(名I姓)=P(單字名)⑵其中P(名I姓)用P(單字名)表示,即在人名庫中每個字作為單字名的概率。步驟204判斷姓氏后面的第二個分詞單元;如果為姓+單字+單字(非停用詞),則查找雙字名首字和尾字的概率,其概率的 計算公司為
P2(名I姓)=^P(名首字)* P(名尾字)(3)P(名首字)為在人名庫中每個字作為雙字人名首字的概率,P(名尾字)為在人名 庫中每個字作為雙字人名尾字的概率。步驟205根據單字名與雙字名的類別,計算得到P (姓名);如果P (姓名)>閾值,則認為是人名,輸出;其中P (姓名)的公式為P(姓名)=P(姓)*p(名I姓)⑷為了計算P(名I姓),其公式(2)中的Pl(名I姓)與公式(3)中的P2(名|姓) 是公式(4)中P(名I姓)的兩種情況。其各類姓名的概率閾值1、兩字名姓+單字名如果P (姓名)>0.05,則判斷是姓名。例如,“王強”,王作為姓的概率為0.8,強 作為名的概率為0.6,其P (姓名)=P (姓)*P (名 I 姓)=P (王)*P (強)=0. 8*0. 6 = 0. 48 > 0. 05, 所以判定“王強”是人名。以下同理。2、三字名姓+雙字名首字+雙字名尾字,例如王文艷如果P (姓名)> 0. 18,則判斷是姓名。3)三字名,且名為一個詞姓+雙字名成詞,例如王文靜如果P (姓)> 0. 8且P (姓名)> 0. 3,則判斷是姓名。在人名識別流程之前還包括以下流程計算姓氏的概率;從人名庫中得到姓氏庫;統計人名庫中姓氏字作為姓的總詞頻(標記為/nr的詞 語),并與人名庫的詞頻合并;統計人名庫中姓氏字出現的總數;通過上述公式(1)計算在 人名庫和主詞典中姓氏的總概率。計算單字名的概率;從人名庫中得到單字名的名用字并統計單字名的頻率;建立人名庫中每個字到總 詞頻的倒排索引;通過上述公式(2)計算單字名的概率。計算雙字名的概率;從人名庫中得到雙字名的名用字,首字和尾字,并統計雙字名首字和尾字的詞頻; 根據人名庫的倒排索引,通過公式(3)計算雙字名首字尾字概率。綜上所述,人名的可能情況分為以下幾種姓+單字名、姓+雙字名首字+雙字名 尾字、姓+雙字名成詞、復姓、專有人名及外文和少數民族人名。其判斷的規則一般如下人 名結尾的常用停用詞的、了、等、是、與、對、說等;人名結尾的地名停用詞縣、鄉、市、省、鎮、莊、村、社、壩、店、寨、州、區、河、江、湖、海、溝;遇到以上停用詞和標點,如果是姓+停用 詞/標點,則認為不是人名,如果是姓+單字+停用詞/標點,則認為是單字人名;姓+稱 謂詞則不認為是人名,稱謂詞包括書記、總理、主席、部長、主任、廠長、科長、同志、司令、連 長、團長、先生、女士、教授級縣官等;特殊姓的后處理規則“萬”后接數量詞,則不是人名; 特殊姓的后處理規則“曾”后接副詞、動詞、數詞,則不是人名。例如曾一度,曾兩次,曾報 道等。上述人名識別還包括對外文人名的識別,其識別具體過程包括從現有外國人名 資源中提出外文名,進而統計外文名的字集,共672個字;在識別過程中,如果遇到分詞碎 片,則依次向后考察每個分詞碎片,記錄其中在外文人名字集中出現的字數;根據閾值判斷 是否是人名;根據處理規則得到最終識別結果。其外文人名的識別算法具體包括建立外 文人名字庫,對連續的分詞碎片,統計其中含有的外文人名用字個數,如果外文人名個數/ 碎片總數大于0. 8,且碎片數大于3,則認為可能是外文人名,同時結合邊界規則,確定最后 識別出的外文人名。其外文識別規則包括碎片是數詞、量詞、形容詞、副詞、介詞、動詞、標 點(不包括 一)時,不再外文人名字計數之內;人名結尾停用詞的、了、等、和、在、是、與、 對、說、縣、鄉、市、省、鎮、莊、村、社、壩、店、寨、州、區、河、江、湖、海、溝等;人名首字停用詞 和、在、之等。如圖3所示,機構名識別的具體流程包括步驟301對檢索需求中的詞語進行分詞。步驟302判斷每個詞是否符合機構名開始條件;其開始條件為在機構首詞詞典中,概率大于0. 1 ;詞長大于2,即非碎片,“第”字
除外;詞性不是動詞;其機構首詞概率的計算公式為
. 機構庫中作為機構首詞的次數+主詞典中作為機構出現的次數 (5) (^ ⑴—機構庫中該詞語出現的總次數+主詞典中該詞語出現的總次數如果符合,執行步驟303 ;如果不符合,判斷是否為其他可能存在的識別名。步驟303考察每個詞作為機構名中間詞和尾詞的概率;如果機構中間詞P(OrgInside) > P (OrgEnd),且不為停用詞,則合并當前詞到機 構名,并記錄概率;如果當前詞為數詞,且前一個詞為“第”,則合并當前詞到機構名,并記錄概率;如果機構尾詞P(OrgEnd)大于機構中間詞P (OrgInside),則掃描結束,當平均概 率> 0.4時,認為是機構名,輸出。上述機構中間詞和機構尾詞的概率計算公式為
ζνη ,」、詞語作為機構中間詞的次數(C^
物—=詞語出現的總次數(6 )
F “、詞語作為機構尾詞的次數(7、
P(0r_= i司語出現的總次數( )上述機構中間詞概率和機構尾詞概率的計算均在一級機構名范圍內。
其對機構名識別之前的流程還包括對機構庫中的機構名分級,在機構庫訓練語料中篩選出所有一級機構名。計算機構名的概率;在計算機構名的概率時,首先對一級機構分詞,分別得到機構首詞、機構中間詞和 機構尾詞并統計機構首詞、機構中間詞和機構尾詞的詞頻;然后統計一級機構名的總詞頻 分布;根據上述公式5、6和7分別計算機構首詞、機構中間詞和機構尾詞的概率分布。上述機構名識別的規則機構內部停用詞與、和、的、地、等、是、、(頓號),當在遇到機構尾詞之前遇到這 些詞時,結束結構名識別,認為此時的目標詞串不是機構名;在目標詞串內遇到“第” +數詞 (/m)無論概率大小,也認為其為機構名的內部詞;修改機構中間詞和機構尾詞詞典,使以 下詞語屬于尾詞的概率大于中間詞概率總廠、總公司、總工會、組織、銀行等;在機構尾詞 詞典中去掉人稱詞和地名,以減少歧義,例如主席、司令、院士等等。如圖4所示,基金名識別的具體流程包括步驟401對檢索需求中的詞語進行分詞。步驟402判斷每個詞語是否符合基金名的開始條件;其開始條件包括在基金首詞詞典中,概率大于0. 1,且每個詞的詞長大于2,即非 碎片;詞性不是動詞;有些基金專用詞語在分詞時為碎片,但對于基金識別很重要,因此在 此附加提出,包括十五、十一(五)等;如果符合所述條件,則執行步驟403 ;否則判斷是否 符合其他識別名。上述基金首詞的計算公式為
M—基金庫中作為基金首詞的次數+主詞典中作為機構出現的次數⑴ 基金庫中該詞語出現的總次數+主詞典中該詞語出現的總次數步驟403考察每個詞作為基金中間詞和尾詞的概率;如果基金中間詞的概率P(FundInside) > P (FundEnd),且不為停用詞,則合并當 前詞到基金名,并記錄概率;如果基金尾詞大于P(FundEnd) > P (FundInside)則掃描結束,當平均概率> 0. 4 時,認為是基金名,輸出。上述基金中間詞和基金尾詞概率的計算公式為
二詞語作為,金: 數(9 )
) 詞語出現的總次數
Αν ,詞語作為基金尾詞的次數
i司語出現的總次數(10)基金名識別之前的流程還包括計算基金名概率;在計算基金名概率時,首先對基金庫分詞,分別得到基金首詞、基金中間詞和基金 尾詞,并統計基金首詞、中間詞和尾詞的詞頻;統計基金名的總詞頻分布;根據上述公式8、
109和10分別計算基金首詞、基金中間詞和基金尾詞的概率。上述基金名識別的規則包括在開始識別時遇到標點"、“、《、(、(,以標點后的第一個詞作為基金首詞去查找概 率,同時該標點也要并入基金名中;基金名內部停用詞和、的、地、等、是、及、暨,如果在遇 到尾詞之前遇到這些詞,則結束基金名識別,認為此時的目標詞串不是基金名。ISBN 碼識別根據國際ISBN標準,識別輸入的字符串是否為正確的ISBN號。ISBN碼識別的規則包括10位的ISBN和13位的ISBN。10 位的 ISBN國際標準書號由十位數字組成,被三條短橫線分為四段,每一段都有不同的含 義。其中,第一個號碼段是地區號,又叫組號(Group Identifier),最短的是一位數字,最 長的達五位數字,大體上兼顧文種、國別和地區。第二段號碼是出版社代碼(Publisher Identifier),由其隸屬的國家或地區ISBN中心分配,允許取值范圍為2_5位數字。第三段 是書序號(Title Identifier),由出版社自己給出,而且每個出版社的書序號是定長的。最 短的一位,最長的六位。出版社的規模越大,出書越多,序號越長。第十位是電子計算機的 校驗碼(Check Digit)。固定一位,起止為0-10,10由X代替。四段數字之間應該用連字 符(_)連接(例如2-02-033598-0)。但是,有些圖書館集成系統不能自動分配連字符,圖 書館編目人員也對ISBN的分段方式不甚了解,所以人們經常在書目記錄中省略連字符(例 如2020335980)。標準書號的核對方法是加權法,即用10至2這9個數分別去乘標準書號 的前9位數,其乘積之和加上校驗碼再除以常數11,如能夠整除,則書號正確;否則,則書號 錯誤。13 位的 ISBN2007年1月1日起,全世界所有ISBN代理機構將只發布13位的ISBN。新的ISBN 實際上就是現在的EAN(歐洲物品號)。中國標準書號分為五部分EAN · UCC前綴號、組 區號、出版者號、出版序號、校驗碼,以人可識讀的格式顯示時,必須采用連字符分隔各部分 如ISBN 978-7-5076-0334-7。其中,EAN · UCC前綴是中國標準書號的第一部分。它是由 國際EAN -UCC物品編碼系統提供的3位數字,由國際ISBN中心向國際EAN組織申請獲得。 這組編碼是國際ISBN系統的組成部分。國際EAN已經提供的EAN -UCC前綴為978和979, 目前使用978,使用979的時間由國際ISBN中心決定。組區號是中國標準書號的第二部分。 中國的組區號是“7”;組區號由國際ISBN中心分配。在ISBN系統中,組區號代表國家、地區 或語言區。組區中的成員來自相同的語言區(例如組區號3 =德語區)或相近地域(例 如組區號982 =南太平洋地區)。組區號分為5檔。組區號長度可取1 5位數字。出版 者號是中國標準書號的第三部分,代表組區內具體的出版者。出版者號的最小長度是2位, 最大長度是7位,由出版者預期出版量決定。出版序號是中國標準書號的第四部分,它代表 一個具體出版者出版的具體出版物。出版序號的長度與出版者計劃出版量直接相關,最長 由6位數字組成。校驗碼是中國標準書號的最后一位,它采用模數10加權算法計算得出, 其值范圍應該為0-9。交驗算法用1分別乘ISBN中的奇數位,用3乘以偶數位,成績之和 如果能被10整除,則正確;否,則錯誤。以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
一種智能檢索方法,包括根據用戶檢索需求,對其進行初始化處理;根據詞典查找所述檢索需求的屬性;其特征在于,所述檢索方法適用于任意數據庫的任意屬性的識別,其檢索方法還包括根據檢索需求的字符類型與字符串的長度,判斷檢索需求可能存在的屬性;根據所述檢索需求可能存在的屬性判斷所述檢索需求具體存在的屬性;輸出根據檢索屬性得到的檢索結果。
2.根據權利要求1所述的智能檢索方法,其特征在于,所述檢索需求包括單個詞語或 多個詞語或短句。
3.根據權利要求1所述的智能檢索方法,其特征在于,所述檢索需求可能存在的屬性 包括CN號識別、專利號識別、ISBN識別、ISSN識別、基金識別、機構名識別及人名識別;所 述CN號識別、專利號識別、ISBN識別和ISSN識別是根據各種號碼的定義規則進行識別;所 述基金識別、機構名識別及人名識別利用概率統計識別屬性。
4.根據權利要求3所述的智能檢索方法,其特征在于,所述人名識別判斷一個字符串 是否是人名,包括中文人名識別和外文人名識別,其中中文人名識別的具體流程包括如果是多個詞時,進行分詞;判斷每個詞是單姓、復姓或專有人名,計算姓氏概率;判斷姓氏后面的第一個分詞單元為單字人名或雙字人名,計算單字人名與雙字人名的 概率,并比較單字名與雙字名概率的大小;判斷姓氏后面的第二個分詞單元,并根據其判斷結果計算名的概率; 根據判斷的姓名的不同類別,計算姓名的概率; 外文人名識別的流程包括建立外文人名字庫,對連續的分詞碎片,統計含有的外文人名用字個數; 通過外文人名用字個數與碎片總數的比較判斷出是否為外文人名。
5.根據權利要求4所述的智能檢索方法,其特征在于,所述人名識別之前還包括計算 人名庫中姓氏的概率、單字名的概率及雙字名的概率;所述姓氏概率的計算公式為m=人名庫中作為姓氏的頻度+主詞典中作為姓氏的頻度 ^人名庫中該字的總頻度+主詞典中該字的總頻度P(姓)為人名庫和主詞典中每個字作為姓的概率; 所述單字人名的概率計算公式 Pi (名I姓)=P(單字名) 所述雙字名的概率計算公式P2(名I姓)=^PC名首字)* P(名尾字) 比較Pl (名I姓)與P2(名I姓)的大小,取大著作為P(名I姓); 所述姓名概率的計算公式為 P(姓名)=P(姓)*P(名I姓)。
6.根據權利要求3所述的智能檢索方法,其特征在于,所述機構名識別判斷一個字符串是否為機構名,其具體識別流程包括對檢索需求中的多個詞語進行分詞,并判斷每個詞語是否符合機構名開始條件;2如果符合,計算每個詞作為機構中間詞和尾詞的概率; 根據中間詞和尾詞概率的大小,判斷是否為機構名; 如果是,記錄詞的概率。
7.根據權利要求6所述的智能檢索方法,其特征在于,在機構名識別流程之前還包括 以下步驟將提取訓練語料中的一級機構名;對一級機構分詞,分別得到機構首詞、機構中間詞和機構尾詞,并統計其機構首詞、機 構中間詞與機構尾詞的詞頻;統計一級機構名的總詞頻分布; 計算機構首詞、機構中間詞與機構尾詞的概率; 所述機構首詞P (OrgBegin)概率的計算公式為 ( .機構庫中作為機構首詞的次數+主詞典中作為機構出現的次數 (化構庫中該詞語出現的總次數+主詞典中該詞語出現的總次數 機構中間詞P(OrgInside)概率的計算公式為(二詞語作為機構中間詞的次數1 rgmi詞語出現的總次數^機構尾詞P (OrgEnd)概率的計算公式為p(n ^力詞語作為機構尾詞的次數 _ 、= 詞語出現的總次數 所述機構名的開始條件包括在機構首詞詞典中,概率大于0. 1 ;每個詞的詞長大于2, 即非碎片;詞性不是動詞。
8.根據權利要求3所述的智能檢索方法,其特征在于,所述基金名識別判斷一個字符 串是否是基金名,其具體識別流程包括對檢索需求中的詞語進行分詞,并判斷每個詞語是否符合基金名開始條件; 如果符合,考察每個詞作為基金中間詞和尾詞的概率; 根據中間詞和尾詞概率的大小,判斷是否為基金名; 如果是,記錄詞的概率。
9.根據權利要求8所述的智能檢索方法,其特征在于,基金名識別流程之前還包括以 下步驟根據語料統計得到每個詞語;對每個詞語分詞,分別得到基金首詞、基金中間詞和基金尾詞;統計基金首詞、基金中間詞和基金尾詞的詞頻;統計基金名的總詞頻分布;計算基金首詞、基金中間詞和基金尾詞的概率;所述基金首詞P (FimdBegin)概率的計算公式為. 基金庫中作為基金首詞的次數+主詞典中作為機構出現的次數 F^undBegin)=基金庫中該詞語出現的總次數+主詞典中該詞語出現的總次數基金中間詞P(FimdInside)概率的計算公式為基金尾詞P (FimdEnd)概率的計算公式為冗丄詞語作為基金尾詞的次數 尸(滅—=詞語出現的總次數所述基金名的開始條件為基金首詞詞典中,概率大于0. 1 ;每個詞的詞長大于2,即非 碎片;詞性不是動詞。
10.根據權利要求3所述的智能檢索方法,其特征在于,所述ISBN識別識別一個字符 串是否是ISBN碼,包括10位的ISBN碼與13位的ISBN碼。
全文摘要
本發明公開了一種智能檢索方法,該方法包括根據用戶檢索需求,對其進行初始化處理;根據詞典查找所述檢索需求的屬性;根據檢索需求的字符類型與字符串的長度,判斷檢索需求可能存在的屬性;根據所述檢索需求可能存在的屬性判斷所述檢索需求具體存在的屬性;輸出檢索需求的屬性。本發明通過對用戶檢索需求中詞語或語句的分析,預測用戶查詢詞語或語句的屬性信息,并根據詞語或語句不同的屬性信息進行分類查詢,返回更精確,用戶滿意度更高的檢索結果。
文檔編號G06F17/30GK101894160SQ20101023211
公開日2010年11月24日 申請日期2010年7月21日 優先權日2010年7月21日
發明者孫俊, 張振海, 王月穎, 趙紀元 申請人:同方知網(北京)技術有限公司