本發明涉及人工智能,尤其涉及一種基于生成式人工智能的科技情報感知與獲取方法及系統。
背景技術:
1、長期以來,科技情報為科學研究、技術創新、產業發展、社會進步、管理決策發揮著重要的支撐作用,充分體現了“耳目、尖兵、參謀”的核心價值。要在日趨激烈的競跑中攻克系列關鍵、瓶頸技術,搶占技術高地,離不開科技情報工作持續深入的跟進支撐。
2、傳統的情報獲取存在著海量開源情報數據帶來的信息過載,大量有預見性價值但模糊零碎的“弱信號”情報難以發現的問題,仍然需要依靠研究機構或咨詢專家的業務經驗與研究能力去獲取有效的情報信息,這樣方式不僅效率較低,并且所獲取到的信息存在準確性與完整性較差的問題。
3、上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
技術實現思路
1、本發明的主要目的在于提供一種基于生成式人工智能的科技情報感知與獲取方法及系統,旨在解決現有技術獲取信息的效率較低且準確性與完整性較差的技術問題。
2、為實現上述目的,本發明提供了一種基于生成式人工智能的科技情報感知與獲取方法,所述基于生成式人工智能的科技情報感知與獲取方法包括以下步驟:
3、基于情報感知獲取初始科技情報數據;
4、對所述初始科技情報數據進行數據清洗,得到參考科技情報數據;
5、識別所述參考科技情報數據中所有的實體指稱項;
6、利用生成式人工智能模型基于所述實體指稱項獲取候選實體;
7、根據所述候選實體確定目標實體;
8、構建所述目標實體與科技情報知識庫之間的關聯,以得到目標科技情報數據。
9、可選地,所述基于情報感知獲取初始科技情報數據,包括:
10、發送信息提取請求,以獲取與科技情報關聯的期刊頁面的統一資源定位符;
11、基于所述統一資源定位符從所述期刊頁面中提取相應的字段,并判斷是否存在剩余未獲取的統一資源定位符;
12、若不存在,則對提取到的所有字段進行格式化處理并存入數據庫中,以得到初始科技情報數據。
13、可選地,所述對所述初始科技情報數據進行數據清洗,得到參考科技情報數據,包括:
14、對所述初始科技情報數據進行歸一化處理,得到處理后的科技情報數據;
15、對所述處理后的科技情報數據進行真詞、同音詞以及短文誤解檢測與修復;
16、計算檢測與修復后的科技情報數據的綜合準確性分數;
17、若所述綜合準確性分數未達到預設分數,則返回執行所述對所述處理后的科技情報數據進行真詞、同音詞以及短文誤解檢測與修復;
18、若所述綜合準確性分數達到預設分數,則將檢測與修復后的科技情報數據作為參考科技情報數據。
19、可選地,所述利用生成式人工智能模型基于所述實體指稱項獲取候選實體,包括:
20、通過生成式人工智能模型獲取實體指稱項對應的各個實體之間的關系;
21、根據所述各個實體之間的關系構建鄰接矩陣;
22、根據所述鄰接矩陣、所述生成式人工智能模型的系數矩陣、偏置向量以及預設激活函數確定候選實體的嵌入表示;
23、基于所述候選實體的嵌入表示獲取候選實體。
24、可選地,所述基于所述候選實體的嵌入表示獲取候選實體,包括:
25、獲取實體指稱項的上下文特征;
26、在同一維度下分別構建所述上下文特征的特征向量和所述候選實體的嵌入表示對應的向量;
27、將同一維度下的所述上下文特征的特征向量和所述候選實體的嵌入表示對應的向量進行向量拼接,得到候選實體向量;
28、根據所述候選實體向量獲取候選實體。
29、可選地,所述根據所述候選實體確定目標實體,包括:
30、將所述候選實體與預設條目進行鏈接;
31、比較候選實體與已鏈接條目對應實體之間的上下文特征;
32、基于比較結果對所述候選實體進行消歧;
33、根據消歧后的候選實體確定目標實體。
34、可選地,所述根據消歧后的候選實體確定目標實體,包括:
35、利用預設分類器確定消歧后的候選實體與預測實體之間的相似度;
36、根據所述相似度進行相似度評分;
37、將相似度評分最大的消歧后的候選實體作為目標實體。
38、此外,為實現上述目的,本發明還提出一種基于生成式人工智能的科技情報感知與獲取系統,所述基于生成式人工智能的科技情報感知與獲取系統包括:
39、采集模塊,用于基于情報感知獲取初始科技情報數據;
40、清洗模塊,用于對所述初始科技情報數據進行數據清洗,得到參考科技情報數據;
41、識別模塊,用于識別所述參考科技情報數據中所有的實體指稱項;
42、構建模塊,用于利用生成式人工智能模型基于所述實體指稱項獲取候選實體;
43、篩選模塊,用于根據所述候選實體確定目標實體;
44、處理模塊,用于構建所述目標實體與科技情報知識庫之間的關聯,以得到目標科技情報數據。
45、可選地,所述采集模塊,還用于發送信息提取請求,以獲取與科技情報關聯的期刊頁面的統一資源定位符;
46、基于所述統一資源定位符從所述期刊頁面中提取相應的字段,并判斷是否存在剩余未獲取的統一資源定位符;
47、若不存在,則對提取到的所有字段進行格式化處理并存入數據庫中,以得到初始科技情報數據。
48、可選地,所述清洗模塊,還用于對所述初始科技情報數據進行歸一化處理,得到處理后的科技情報數據;
49、對所述處理后的科技情報數據進行真詞、同音詞以及短文誤解檢測與修復;
50、計算檢測與修復后的科技情報數據的綜合準確性分數;
51、若所述綜合準確性分數未達到預設分數,則返回執行所述對所述處理后的科技情報數據進行真詞、同音詞以及短文誤解檢測與修復;
52、若所述綜合準確性分數達到預設分數,則將檢測與修復后的科技情報數據作為參考科技情報數據。
53、本發明通過基于情報感知獲取初始科技情報數據;對所述初始科技情報數據進行數據清洗,得到參考科技情報數據;識別所述參考科技情報數據中所有的實體指稱項;利用生成式人工智能模型基于所述實體指稱項獲取候選實體;根據所述候選實體確定目標實體;構建所述目標實體與科技情報知識庫之間的關聯,以得到目標科技情報數據,通過上述方式,能夠應對任意網站布局和結構的變化,有效地從多種網站結構中提取信息,提升科技情報數據的獲取效率,同時利用生成式人工智能模型進一步保證科技情報數據的準確性與完整性。
1.一種基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述基于生成式人工智能的科技情報感知與獲取方法包括:
2.如權利要求1所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述基于情報感知獲取初始科技情報數據,包括:
3.如權利要求1所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述對所述初始科技情報數據進行數據清洗,得到參考科技情報數據,包括:
4.如權利要求1所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述利用生成式人工智能模型基于所述實體指稱項獲取候選實體,包括:
5.如權利要求4所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述基于所述候選實體的嵌入表示獲取候選實體,包括:
6.如權利要求1所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述根據所述候選實體確定目標實體,包括:
7.如權利要求6所述的基于生成式人工智能的科技情報感知與獲取方法,其特征在于,所述根據消歧后的候選實體確定目標實體,包括:
8.一種基于生成式人工智能的科技情報感知與獲取系統,其特征在于,所述基于生成式人工智能的科技情報感知與獲取系統:
9.如權利要求8所述的基于生成式人工智能的科技情報感知與獲取系統,其特征在于,所述采集模塊,還用于發送信息提取請求,以獲取與科技情報關聯的期刊頁面的統一資源定位符;
10.如權利要求8所述的基于生成式人工智能的科技情報感知與獲取系統,其特征在于,所述清洗模塊,還用于對所述初始科技情報數據進行歸一化處理,得到處理后的科技情報數據;