專利名稱:例句索引創建方法和裝置以及例句檢索方法和裝置的制作方法
例句索引創建方法和裝置以及例句檢索方法和裝置
技術領域:
本發明涉及計算機技術領域,特別涉及一種例句索引創建方法和裝置以及例句檢索方法和裝置。背景技木信息檢索是指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技木。信息檢索已經廣泛地應用于文獻、多媒體以及翻譯領域等。在現有信息檢索技術中存在ー種特殊的信息檢索例句檢索,即用于檢索包含某些關鍵詞的例句,例句檢索通常用于單語詞典中的例句展現或者翻譯技術中的例句展現。然而,現有例句檢索通常單純基于關鍵詞匹配進行檢索,例如,應用在單語詞典的例句展現中時,用戶輸入查詢請求(query)“計算機”,會將包含關鍵詞“計算機”的例句檢索出來。應用在中-英翻譯技術中時,當用戶輸入query “計算機”,會將包含“計算機”對應的英文的例句檢索出來,即檢索出包含“ computer”的例句。對于ー些基于語法的高級檢索,則無法實現。例如,用戶如果想要檢索“困難”作為名詞時有哪些例句,或者,想要檢索“提高”和“水平”搭配使用時有哪些例句,或者,想要檢索“蘋果”作為ー個電子品牌時有哪些例句等則無法實現。
發明內容本發明提供了一種例句索引創建方法和裝置以及例句檢索方法和裝置,從而實現基于語法的高級檢索。具體技術方案如下一種例句索引創建方法,分別針對例句庫中的各例句執行以下步驟A、對例句進行文本分析;B、根據文本分析的結果,創建該例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。其中,所述步驟A具體包括 Al、對所述例句進行分詞處理;A2、—#,— A21、A22、A23、A24 中的至少ー個A21、對分詞處理后得到的各詞語進行詞性標注;A22、對分詞處理后得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型;A23、對分詞處理后得到的各詞語進行句法分析,確定各詞語的句法角色;A24、將分詞處理后得到的各詞語進行兩兩組合;如果執行所述步驟A21,則所述步驟B具體包括逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;如果執行所述步驟A22,則所述步驟B具體包括逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引。如果執行所述步驟A23,則所述步驟B具體包括逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引。如果執行所述步驟A24,則所述步驟B具體包括將所述步驟A24得到的組合分別作為所述例句的索引。另外,該方法還包括將分詞處理后得到的各詞語分別作為所述例句的索引。其中,所述步驟A24具體包括基于句法分析確定分詞處理后得到的各詞語之間存在搭配關系的兩兩組合;其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。較優地,在所述步驟A24之前,或者,在所述步驟B之前,還包括基于預設的停用詞表對分詞處理后得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語。其中,所述例句庫為單語例句庫或者雙語例句庫。如果所述例句庫為雙語例句庫,則該方法還包括將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。更進ー步地,該方法還包括利用所述例句庫中各例句及例句對應的索引,通過倒排方式建立索引表;其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。如果針對雙語例句庫,則利用所述雙語例句庫中各雙語例句對及雙語例句對對應的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。所述索引表至少包括以下所列中的至少ー種“詞-詞性”索引表,其中的索引鍵為詞語及詞語對應的詞性的組合;“詞-NE類型”索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合;“詞-句法角色”索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及,“詞-詞”索引表,其中的索引鍵為詞語與詞語的組合。較優地,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表或“詞-詞”索引表中,索引鍵為ニ級索引鍵,具體為在索引鍵中相同的詞語歸納在一起作為第一級索引,所述“詞-詞性”索引表中第ー級索引對應的詞性作為第二級索引,所述“詞-NE類型”索引表中第一級索引對應的NE類型作為第二級索引,所述“詞-句法角色”索引表中第一級索引對應的句法角色作為第二級索引,所述“詞-詞”索引表中與第一級索引組合的另ー詞語作為第二級索引。ー種例句檢索方法,該方法包括
A、接收用戶的檢索請求query ;B、解析出所述query包含的查詢項,如果包含多個查詢項,則還解析出各查詢項之間的邏輯關系;C、利用解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果;D、如果所述query包含多個查詢項,則依據各查詢項之間的邏輯關系,對各查詢項對應的檢索結果進行整合處理,將整合處理后的檢索結果返回給所述用戶;如果所述query包含ー個查詢項,則將該查詢項對應的檢索結果返回給所述用戶;其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關系為交集或差集。其中,所述步驟C具體為
如果解析出的查詢項為詞語及該詞語對應的詞性的組合,則將該查詢項與“詞-詞性”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語及該詞語對應的NE類型的組合,則將該查詢項與“詞-NE類型”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語及該詞語對應的句法角色的組合,則將該查詢項與“詞-句法角色”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語與詞語的組合,則將該查詢項與“詞-詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。所述詞語與詞語之間的組合為存在基于句法分析的搭配關系的詞語與詞語的組合;其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。另外,解析出的查詢項還包括詞語;如果查詢項為詞語,則將該查詢項與“詞”索引表中的索引鍵進行匹配,將匹配的索弓I鍵對應的索引值作為該查詢項的檢索結果。所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表、“詞-詞”索引表中索引值、“詞”索引表中的索引值為例句或雙語例句對。較優地,如果某查詢項不是為差集的邏輯關系相鄰后端的查詢項,且該查詢項對應的檢索結果低于預設的最低檢索要求,則將該查詢項中的各詞語分別與所述“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。更進一歩地,在所述步驟E之前還包括 將所述整合處理后的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。具體地,所述檢索結果與所述query的匹配狀況F (Ri)為
m)=ん纖 ZSiRlJtem^Aword ^8(^wordk) +\+] ぺ,[+] ) +ん ぺ,[-] );
j=\た=Iw=ln=\
其中,入iteni、入WOTd、入[+]和入[_]為預設的權重參數,5 (Ri, itenij)為檢索結果Ri與第j個查詢項的匹配值,J為所述query包含的查詢項數目,5 (RijWordk)為檢索結果Ri與第k個詞語的匹配值,K為所述query中檢索所使用詞語的數目,8 (Ri, [+Jffl)為檢索結果Ri與第m個為交集的邏輯關系的匹配值,M為所述query中為交集的邏輯關系數目,8 (Ri,[-] )為檢索結果Ri與第n個為差集的邏輯關系的匹配值,N為所述query中為差集的邏輯關系數目。如果item」.為 Ri 的索引,5 (Ri, itenij)為 I,否則 5 (Ri, itenij)為 0 ;如果wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ;如果為交集的邏輯關系[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關系[_]n相鄰前端的查詢項為Ri的索引且相鄰后端的查詢項不是Ri的索引,則6 (Ri, [-] )為1,否則8 (Ri, [-]n)為O。一種例句索引創建裝置,該裝置包括文本分析単元和索引建立単元;所述文本分析単元,用于分別針對例句庫中的各例句進行文本分析;所述索引建立単元,用于根據所述文本分析単元的分析結果,創建各例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。其中,所述文本分析単元包括分詞處理子単元,還包括以下子単元中的至少ー個詞性標注子単元、NE識別子単元、句法分析子単元和搭配組合子単元;所述分詞處理子単元,用于對例句進行分詞處理;所述詞性標注子単元,用于對分詞處理后得到的各詞語進行詞性標注;所述NE識別子単元,用于對分詞處理后得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型;所述句法分析子単元,用于對分詞處理后得到的各詞語進行句法分析,確定各詞語的句法角色;所述搭配組合子単元,用于將分詞處理后得到的各詞語進行兩兩組合;所述索引建立単元根據所述詞性標注子単元的詞性標注結果,逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;或者,根據所述NE識別子単元的識別結果,逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引;或者,根據所述句法分析子単元的分析結果,逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引;或者,將所述搭配組合子単元得到的組合分別作為所述例句的索引。另外,所述索引建立単元,還用于將所述分詞處理子単元分詞處理后得到的各詞語分別作為所述例句的索引。所述搭配組合子単元具體基于句法分析確定分詞處理后得到的各詞語之間存在搭配關系的兩兩組合;其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。較優地,所述文本分析單元還包括詞語過濾子單元,用于基于預設的停用詞表,將所述分詞處理子単元分詞處理后得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語后,供所述搭配組合子単元進行組合,或者,供所述索引建立單元進行索引的建立。其中,所述例句庫為單語例句庫或者雙語例句庫。
如果所述例句庫為雙語例句庫,則所述索引建立單元將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
更進一歩地,該裝置還包括索引表建立単元,用于利用所述索引建立單元為例句庫中各例句建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。針對雙語例句庫,索引表建立単元,用于利用所述索引建立単元為雙語例句庫中各雙語例句對建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。其中,所述索引表包括以下所列中的至少ー種“詞-詞性”索引表,其中的索引鍵為詞語及詞語對應的詞性的組合;“詞-NE類型”索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合;“詞-句法角色”索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及,“詞-詞”索引表,其中的索引鍵為詞語與詞語的組合。較優地,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表或“詞-詞”索引表中,索引鍵為ニ級索引鍵,具體為在索引鍵中相同的詞語歸納在一起作為第一級索引,所述“詞-詞性”索引表中第ー級索引對應的詞性作為第二級索引,所述“詞-NE類型”索引表中第一級索引對應的NE類型作為第二級索引,所述“詞-句法角色”索引表中第一級索引對應的句法角色作為第二級索引,所述“詞-詞”索引表中與第一級索引組合的另ー詞語作為第二級索引。ー種例句檢索裝置,該裝置包括用戶側交互単元、請求解析単元、檢索處理單元和結果整合単元;所述用戶側交互単元,用于接收用戶的檢索請求query,將所述結果整合単元提供的檢索結果返回給所述用戶;所述請求解析單元,用于解析出所述query包含的查詢項,如果包含多個查詢項,則還解析出各查詢項之間的邏輯關系;所述檢索處理單元,用于利用所述請求解析単元解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果;所述結果整合單元,用于在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關系,對所述各查詢項對應的檢索結果進行整合處理,將整合處理后的檢索結果提供給所述用戶側交互単元;在所述請求解析單元解析出所述query包含一個查詢項時,將該查詢項對應的檢索結果提供給所述用戶側交互單元;其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關系為交集或差集。
如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的詞性的組合,則所述檢索處理單元將該查詢項與“詞-詞性”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的NE類型的組合,則所述檢索處理單元將該查 詢項與“詞-NE類型”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的句法角色的組合,則所述檢索處理單元將該查詢項與“詞-句法角色”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語與詞語的組合,則所述檢索處理單元將該查詢項與“詞-詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。所述詞語與詞語之間的組合為存在基于句法分析的搭配關系的詞語與詞語的組合;其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。另外,所述請求解析単元解析出的查詢項包括詞語;如果所述請求解析単元解析出的查詢項為詞語,則所述檢索處理單元將該查詢項與“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。其中,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表、“詞-詞”索引表中索引值、“詞”索引表中的索引值為例句或雙語例句對。較優地,該裝置還包括補充檢索単元,用于在某查詢項不是為差集的邏輯關系相鄰后端的查詢項,且該查詢項對應的檢索結果低于預設的最低檢索要求時,將該查詢項中的各詞語分別與所述“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。具體地,所述結果整合単元可以包括整合處理子單元,用于在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關系,對所述各查詢項對應的檢索結果進行整合處理;排序處理子單元,用于將整合處理后的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。所述檢索結果與所述query的匹配狀況F(Ri)為
權利要求
1.一種例句索引創建方法,其特征在于,分別針對例句庫中的各例句執行以下步驟 A、對例句進行文本分析; B、根據文本分析的結果,創建該例句所對應的索引; 其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。
2.根據權利要求I所述的方法,其特征在于,所述步驟A具體包括 Al、對所述例句進行分詞處理; 八2、執行步驟六21、六22、六23、六24中的至少ー個 A21、對分詞處理后得到的各詞語進行詞性標注; A22、對分詞處理后得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型; A23、對分詞處理后得到的各詞語進行句法分析,確定各詞語的句法角色; A24、將分詞處理后得到的各詞語進行兩兩組合; 如果執行所述步驟A21,則所述步驟B具體包括逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引; 如果執行所述步驟A22,則所述步驟B具體包括逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引。
如果執行所述步驟A23,則所述步驟B具體包括逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引。
如果執行所述步驟A24,則所述步驟B具體包括將所述步驟A24得到的組合分別作為所述例句的索引。
3.根據權利要求2所述的方法,其特征在于,該方法還包括將分詞處理后得到的各詞語分別作為所述例句的索引。
4.根據權利要求2所述的方法,其特征在于,所述步驟A24具體包括基于句法分析確定分詞處理后得到的各詞語之間存在搭配關系的兩兩組合; 其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。
5.根據權利要求2所述的方法,其特征在于,在所述步驟A24之前,或者,在所述步驟B之前,還包括 基于預設的停用詞表對分詞處理后得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語。
6.根據權利要求I所述的方法,其特征在于,所述例句庫為單語例句庫或者雙語例句庫。
7.根據權利要求6所述的方法,其特征在干,如果所述例句庫為雙語例句庫,則該方法還包括 將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
8.根據權利要求I所述的方法,其特征在于,該方法還包括 利用所述例句庫中各例句及例句對應的索引,通過倒排方式建立索引表;其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。
9.根據權利要求7所述的方法,其特征在于,該方法還包括 利用所述雙語例句庫中各雙語例句對及雙語例句對對應的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。
10.根據權利要求8或9所述的方法,其特征在于,所述索引表至少包括以下所列中的至少ー種 “詞-詞性”索引表,其中的索引鍵為詞語及詞語對應的詞性的組合; “詞-NE類型”索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合; “詞-句法角色”索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及, “詞-詞”索引表,其中的索引鍵為詞語與詞語的組合。
11.根據權利要求10所述的方法,其特征在于,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表或“詞-詞”索引表中,索引鍵為ニ級索引鍵,具體為 在索引鍵中相同的詞語歸納在一起作為第一級索引,所述“詞-詞性”索引表中第一級索引對應的詞性作為第二級索引,所述“詞-NE類型”索引表中第一級索引對應的NE類型作為第二級索引,所述“詞-句法角色”索引表中第一級索引對應的句法角色作為第二級索弓丨,所述“詞-詞”索引表中與第一級索引組合的另ー詞語作為第二級索引。
12.ー種例句檢索方法,其特征在于,該方法包括 A、接收用戶的檢索請求query; B、解析出所述query包含的查詢項,如果包含多個查詢項,貝U還解析出各查詢項之間的邏輯關系; C、利用解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果; D、如果所述query包含多個查詢項,則依據各查詢項之間的邏輯關系,對各查詢項對應的檢索結果進行整合處理,將整合處理后的檢索結果返回給所述用戶;如果所述query包含ー個查詢項,則將該查詢項對應的檢索結果返回給所述用戶; 其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關系為交集或差集。
13.根據權利要求12所述的方法,其特征在于,所述步驟C具體為 如果解析出的查詢項為詞語及該詞語對應的詞性的組合,則將該查詢項與“詞-詞性”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語及該詞語對應的NE類型的組合,則將該查詢項與“詞-NE類型”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語及該詞語對應的句法角色的組合,則將該查詢項與“詞-句法角色”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語與詞語的組合,則將該查詢項與“詞-詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
14.根據權利要求12所述的方法,其特征在于,所述詞語與詞語之間的組合為存在基于句法分析的搭配關系的詞語與詞語的組合; 其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。
15.根據權利要求12、13或14所述的方法,其特征在于,解析出的查詢項還包括詞語; 如果查詢項為詞語,則將該查詢項與“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
16.根據權利要求15所述的方法,其特征在于,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表、“詞-詞”索引表中索引值、“詞”索引表中的索引值為例句或雙語例句對。
17.根據權利要求15所述的方法,其特征在于,如果某查詢項不是為差集的邏輯關系相鄰后端的查詢項,且該查詢項對應的檢索結果低于預設的最低檢索要求,則將該查詢項中的各詞語分別與所述“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
18.根據權利要求12所述的方法,其特征在于,在所述步驟E之前還包括 將所述整合處理后的檢索結果進行排序,其中所述排序的依據包括以下所列之ー或組合 檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。
19.根據權利要求18所述的方法,其特征在于,所述檢索結果與所述query的匹配狀況F(Ri)為
20.根據權利要求19所述的方法,其特征在于,如果iten^為Ri的索引,8(Ri, Itemj)為 1,否則 8 (Ri, itenij)為 0 ;如果 wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ; 如果為交集的邏輯關系[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關系[_]n相鄰前端的查詢項為Ri的索引且相鄰后端的查詢項不是Ri 的索引,則 6 (Ri, [-] )為 1,否則 8 (Ri, [-]n)為 O。
21.一種例句索引創建裝置,其特征在于,該裝置包括文本分析単元和索引建立單元; 所述文本分析単元,用于分別針對例句庫中的各例句進行文本分析; 所述索引建立単元,用于根據所述文本分析単元的分析結果,創建各例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。
22.根據權利要求21所述的裝置,其特征在于,所述文本分析単元包括分詞處理子單元,還包括以下子単元中的至少ー個詞性標注子単元、NE識別子単元、句法分析子単元和搭配組合子単元; 所述分詞處理子単元,用于對例句進行分詞處理; 所述詞性標注子単元,用于對分詞處理后得到的各詞語進行詞性標注; 所述NE識別子単元,用于對分詞處理后得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型; 所述句法分析子単元,用于對分詞處理后得到的各詞語進行句法分析,確定各詞語的句法角色; 所述搭配組合子単元,用于將分詞處理后得到的各詞語進行兩兩組合; 所述索引建立単元根據所述詞性標注子単元的詞性標注結果,逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;或者,根據所述NE識別子単元的識別結果,逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引;或者,根據所述句法分析子単元的分析結果,逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引;或者,將所述搭配組合子単元得到的組合分別作為所述例句的索引。
23.根據權利要求22所述的裝置,其特征在于,所述索引建立単元,還用于將所述分詞處理子単元分詞處理后得到的各詞語分別作為所述例句的索引。
24.根據權利要求22所述的裝置,其特征在干,所述搭配組合子単元具體基于句法分析確定分詞處理后得到的各詞語之間存在搭配關系的兩兩組合; 其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。
25.根據權利要求22所述的裝置,其特征在于,所述文本分析單元還包括詞語過濾子単元,用于基于預設的停用詞表,將所述分詞處理子単元分詞處理后得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語后,供所述搭配組合子単元進行組合,或者,供所述索引建立單元進行索引的建立。
26.根據權利要求21所述的裝置,其特征在于,所述例句庫為單語例句庫或者雙語例句庫。
27.根據權利要求26所述的裝置,其特征在于,如果所述例句庫為雙語例句庫,則所述索引建立單元將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
28.根據權利要求21所述的裝置,其特征在于,該裝置還包括索引表建立単元,用于利用所述索引建立單元為例句庫中各例句建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。
29.根據權利要求27所述的裝置,其特征在于,該裝置還包括索引表建立単元,用于利用所述索引建立單元為雙語例句庫中各雙語例句對建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。
30.根據權利要求28或29所述的裝置,其特征在于,所述索引表包括以下所列中的至少一種 “詞-詞性”索引表,其中的索引鍵為詞語及詞語對應的詞性的組合; “詞-NE類型”索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合; “詞-句法角色”索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及, “詞-詞”索引表,其中的索引鍵為詞語與詞語的組合。
31.根據權利要求20所述的裝置,其特征在于,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表或“詞-詞”索引表中,索引鍵為ニ級索引鍵,具體為 在索引鍵中相同的詞語歸納在一起作為第一級索引,所述“詞-詞性”索引表中第一級索引對應的詞性作為第二級索引,所述“詞-NE類型”索引表中第一級索引對應的NE類型作為第二級索引,所述“詞-句法角色”索引表中第一級索引對應的句法角色作為第二級索弓丨,所述“詞-詞”索引表中與第一級索引組合的另ー詞語作為第二級索引。
32.—種例句檢索裝置,其特征在于,該裝置包括用戶側交互単元、請求解析単元、檢索處理單元和結果整合単元; 所述用戶側交互単元,用于接收用戶的檢索請求query,將所述結果整合単元提供的檢索結果返回給所述用戶; 所述請求解析單元,用于解析出所述query包含的查詢項,如果包含多個查詢項,貝Ij還解析出各查詢項之間的邏輯關系; 所述檢索處理單元,用于利用所述請求解析単元解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果; 所述結果整合單元,用于在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關系,對所述各查詢項對應的檢索結果進行整合處理,將整合處理后的檢索結果提供給所述用戶側交互単元;在所述請求解析單元解析出所述query包含一個查詢項時,將該查詢項對應的檢索結果提供給所述用戶側交互單元; 其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關系為交集或差集。
33.根據權利要求32所述的裝置,其特征在干,如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的詞性的組合,則所述檢索處理單元將該查詢項與“詞-詞性”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的NE類型的組合,則所述檢索處理單元將該查詢項與“詞-NE類型”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的句法角色的組合,則所述檢索處理單元將該查詢項與“詞-句法角色”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語與詞語的組合,則所述檢索處理單元將該查詢項與“詞-詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
34.根據權利要求32所述的裝置,其特征在于,所述詞語與詞語之間的組合為存在基于句法分析的搭配關系的詞語與詞語的組合; 其中所述搭配關系包括主謂關系、動賓關系、偏正關系、中補關系或者同位關系。
35.根據權利要求32、33或34所述的裝置,其特征在于,所述請求解析単元解析出的查詢項包括詞語; 如果所述請求解析単元解析出的查詢項為詞語,則所述檢索處理單元將該查詢項與“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
36.根據權利要求35所述的裝置,其特征在于,所述“詞-詞性”索引表、“詞-NE類型”索引表、“詞-句法角色”索引表、“詞-詞”索引表中索引值、“詞”索引表中的索引值為例句或雙語例句對。
37.根據權利要求35所述的裝置,其特征在于,該裝置還包括補充檢索単元,用于在某查詢項不是為差集的邏輯關系相鄰后端的查詢項,且該查詢項對應的檢索結果低于預設的最低檢索要求時,將該查詢項中的各詞語分別與所述“詞”索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
38.根據權利要求32所述的裝置,其特征在于,所述結果整合単元具體包括 整合處理子單元,用于在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關系,對所述各查詢項對應的檢索結果進行整合處理; 排序處理子單元,用于將整合處理后的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。
39.根據權利要求38所述的裝置,其特征在于,所述檢索結果與所述query的匹配狀況F(Ri)為
40.根據權利要求39所述的裝置,其特征在于,如果iten^為Ri的索引,S(Ri, Itemj)為 1,否則 8 (Ri, itenij)為 0 ;如果 wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ; 如果為交集的邏輯關系[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關系[_]n相鄰前端的查詢項為Ri的索引且相鄰后端的查詢項不是Ri 的索引,則 6 (Ri, [-] )為 1,否則 8 (Ri, [-]n)為 O。
全文摘要
本發明提供了一種例句索引創建方法和裝置以及例句檢索方法和裝置,通過對例句庫中的例句進行文本分析后,為例句建立特殊的索引,用戶在輸入基于語法的高級檢索時,對用戶輸入的檢索請求進行解析,利用解析出的查詢項,獲取各查詢項的檢索結果,并根據解析出的各查詢項之間的邏輯關系,對各查詢項的檢索結果進行整合處理。其中,上述建立的索引和查詢項為以下所列的至少一種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。通過本發明能夠實現基于語法的高級檢索,從而提高檢索效果。
文檔編號G06F17/27GK102654866SQ20111004984
公開日2012年9月5日 申請日期2011年3月2日 優先權日2011年3月2日
發明者吳華, 吳甜, 王海峰, 趙世奇 申請人:北京百度網訊科技有限公司