本發明涉及計算機,具體地涉及一種油氣領域信息檢索方法、一種油氣領域信息檢索裝置、一種電子設備和一種計算機可讀存儲介質。
背景技術:
1、在油氣領域,存在大量的行業知識和行業文檔組成的文檔庫,而對于油氣勘探開發工作者來說,查閱資料是日常工作的很重要的一環。在過去,基本只能通過關鍵詞檢索的來檢索文檔,有些對于模糊的概念沒有形成關鍵詞的,則難以得到想要的結果;對于文檔相似搜索的需求考慮的也比較少。
2、當前,油氣領域知識搜索更多是基于elastic?search(簡稱es)的關鍵詞搜索,將用戶輸入的關鍵詞進行切詞,然后直接放入es中,依據tf-idf技術或者bm25技術進行檢索。
3、當前的現有技術存在以下問題:基于關鍵詞的檢索不能夠更精確的理解用戶的意圖,也不能夠將對應的思維進行相似維度上的拓展,對于油氣領域的知識工作者來說,需要經過多次檢索,不斷調整關鍵詞才能搜索到真正需要的知識。
技術實現思路
1、本發明的目的是提供一種油氣領域信息檢索方法、裝置及電子設備,通過提供更智能的檢索方法,兼顧了關鍵詞檢索、語義拓展檢索和段落相似檢索,滿足油氣領域知識工作者的多樣化的語義檢索需求,縮短油氣領域知識工作者獲取油氣領域信息的檢索路徑。
2、為了實現上述目的,本發明實施例提供一種方法,所述方法包括:
3、獲取檢索文本,所述檢索文本用于表征用戶輸入的、與油氣領域相關的語句;
4、通過開源工具對所述檢索文本進行語法分析,得到分析結果,所述分析結果為所述檢索文本包含主謂關系或所述檢索文本不包含主謂關系;
5、通過第一模型,根據所述分析結果對應的檢索文本生成檢索文本向量,所述第一模型用于對所述檢索文本進行特征提取處理;
6、根據所述檢索文本向量以及預先設定的閾值,通過預先設置的第一向量庫進行余弦相似度檢索,得到返回文本;
7、若所述檢索文本包含主謂關系,則根據所述返回文本定位所述返回文本對應的技術文檔,得到目標檢索結果;若所述檢索文本不包含主謂關系,則通過預先設置的第一數據庫,根據所述返回文本、所述返回文本對應的檢索文本、預先設定的權重分配規則以及bm25評分規則,得到所述目標檢索結果。
8、具體的,在所述獲取檢索文本之前,所述方法還包括:
9、獲取技術文檔,所述技術文檔用于表征油氣領域的相關信息;
10、將所述技術文檔存儲至elasticsearch數據庫;
11、將所述技術文檔聚合成技術段落,將所述技術文檔與所述技術段落之間的映射關系存儲至關系型數據庫中;
12、通過fasttext模型,根據所述技術文檔中的關鍵詞生成第一原始向量;
13、通過transformers模型,根據所述技術段落生成第二原始向量;
14、獲取所述第一向量庫,所述第一向量庫用于存儲所述第一原始向量和所述第二原始向量。
15、具體的,所述分析結果為所述檢索文本包含主謂關系,所述第一模型為sbert模型;
16、所述通過第一模型,根據所述分析結果對應的檢索文本生成檢索文本向量,包括:
17、通過所述sbert模型,根據所述分析結果對應的檢索文本生成所述檢索文本向量。
18、具體的,所述分析結果為所述檢索文本不包含主謂關系,所述第一模型為關鍵詞向量化模型;
19、所述通過第一模型,根據所述分析結果對應的檢索文本生成檢索文本向量,包括:
20、通過所述關鍵詞向量化模型,根據所述分析結果對應的檢索文本生成所述檢索文本向量。
21、具體的,所述第一向量庫為段落向量庫,所述根據所述檢索文本向量以及預先設定的閾值,通過預先設置的第一向量庫進行余弦相似度檢索,得到返回文本,包括:
22、根據所述檢索文本向量,通過所述段落向量庫進行余弦相似度檢索,得到第一返回段落向量;
23、根據所述閾值,對所述第一返回段落向量進行過濾處理,得到第二返回段落向量;
24、根據所述第二返回段落向量得到對應的所述返回文本。
25、具體的,所述第一向量庫為關鍵詞向量庫,所述根據所述檢索文本向量以及預先設定的閾值,通過預先設置的第一向量庫進行余弦相似度檢索,得到返回文本,包括:
26、根據所述檢索文本向量,通過所述關鍵詞向量庫進行余弦相似度檢索,得到第一返回關鍵詞向量;
27、根據所述閾值,對所述第一返回關鍵詞向量進行過濾處理,得到第二返回關鍵詞向量;
28、根據所述第二返回關鍵詞向量得到對應的所述返回文本。
29、具體的,所述第一數據庫為所述elasticsearch數據庫,所述若所述檢索文本不包含主謂關系,則通過預先設置的第一數據庫,根據所述返回文本、所述返回文本對應的檢索文本、預先設定的權重分配規則以及bm25評分規則,得到所述目標檢索結果,包括:
30、將所述返回文本以及所述返回文本對應的檢索文本返回至所述elasticsearch數據庫中進行檢索,得到目標返回結果;
31、通過所述權重分配規則以及bm25評分規則對所述目標返回結果進行轉化處理,得到所述目標檢索結果。
32、另一方面,本發明實施例提供一種裝置,所述裝置包括:
33、檢索文本獲取單元,用于獲取檢索文本,所述檢索文本用于表征用戶輸入的、與油氣領域相關的語句;
34、語法分析單元,用于通過開源工具對所述檢索文本進行語法分析,得到分析結果,所述分析結果為所述檢索文本包含主謂關系或所述檢索文本不包含主謂關系;
35、特征提取單元,用于通過第一模型,根據所述分析結果對應的檢索文本生成檢索文本向量,所述第一模型用于對所述檢索文本進行特征提取處理;
36、返回文本獲取單元,用于根據所述檢索文本向量以及預先設定的閾值,通過預先設置的第一向量庫進行余弦相似度檢索,得到返回文本;
37、目標檢索結果獲取單元,用于若所述檢索文本包含主謂關系,則根據所述返回文本定位所述返回文本對應的技術文檔,得到目標檢索結果;若所述檢索文本不包含主謂關系,則通過預先設置的第一數據庫,根據所述返回文本、所述返回文本對應的檢索文本、預先設定的權重分配規則以及bm25評分規則,得到所述目標檢索結果。
38、再一方面,本發明實施例提供一種電子設備,該電子設備包括:
39、至少一個處理器;
40、存儲器,與所述至少一個處理器連接;
41、其中,所述存儲器存儲有能被所述至少一個處理器執行的指令,所述至少一個處理器通過執行所述存儲器存儲的指令,所述至少一個處理器通過執行所述存儲器存儲的指令實現前述的方法。
42、又一方面,本發明實施例提供一種計算機可讀存儲介質,存儲有計算機指令,當所述計算機指令在計算機上運行時,使得計算機執行前述的方法。
43、本發明提供了更智能的檢索方法,兼顧關鍵詞檢索、語義拓展檢索和段落相似檢索,滿足油氣領域知識工作者的多樣化的語義檢索需求,縮短油氣領域知識工作者獲取油氣領域信息的檢索路徑。
44、本發明實施例的其它特征和優點將在隨后的具體實施方式部分予以詳細說明。