本發明涉及人工智能大語言模型,具體為一種基于大模型和向量數據庫的醫藥行業藥物發現和功能預測方法及系統。
背景技術:
1、在當今的生物醫藥領域,藥物發現和功能預測是極其重要且充滿挑戰的課題。隨著生物技術的發展,藥物分子數據量急劇膨脹,數據結構日益復雜,這給藥物發現帶來了巨大的計算成本和時間成本。
2、此外,由于藥物分子的多樣性和復雜性,傳統的藥物篩選方法很容易丟失潛在的藥物分子,這不僅降低了藥物發現的效率,也限制了新藥研發的進程。
技術實現思路
1、本發明的目的在于提供一種基于大模型和向量數據庫的醫藥行業藥物發現和功能預測方法及系統,以解決上述背景技術中提出的問題。
2、為實現上述目的,本發明提供如下技術方案:一種基于大模型和向量數據庫的醫藥行業藥物發現和功能預測方法,所述方法包括以下步驟:
3、信息整合抽取,使用大模型結合信息抽取的prompt對藥物數據庫中的已知信息進行信息抽取;
4、llm提取藥物信息,利用大模型結合信息提取的prompt對提取到的藥物分子信息進行關鍵信息提取和整理,形成統一的格式;
5、分子指紋計算及milvus數據庫構建,將提取到的藥物化學分子式作為模型的輸入,通過藥物信息深度學習模型計算每個藥物化學分子式對應的分子指紋,并將其存儲到向量數據庫中;
6、藥物篩選以及功能推測,將待篩選的藥物活性片段或先導化合物進行分子指紋的計算,通過向量數據庫篩選與之分子指紋相似度最高的藥物分子,輸入大模型進行功能預測。
7、優選的,信息整合抽取的具體操作包括:
8、大模型負責抽取藥物的其他關鍵信息,包括但不限于藥物命名、種類、作用機制、藥效學信息以及不良反應,信息的抽取和整合,形成了結構化數據,為后續的分子指紋計算和功能預測提供了全面的數據支持。
9、優選的,llm提取藥物信息的具體操作包括:
10、通過結合大型神經網絡模型和信息提取的提示,對獲取到的藥物分子信息進行關鍵信息的提取和整理;在關鍵信息的提取過程中,模型+prompt關注以下幾個方面:藥物命名、藥物種類、藥物作用、藥效搭配以及不量反應;在信息提取的過程中,設計留空機制,即未提取到的信息將不會被強行賦予一個值,而是保持為空,以避免引入錯誤的數據;所有成功提取的信息將被整合和歸納,形成一種統一的格式。
11、優選的,分子指紋計算及milvus數據庫構建的具體操作包括:
12、將提取到的藥物化學分子式作為輸入,將復雜的化學分子式轉換成分子指紋,生成的分子指紋不僅是對藥物化學結構的一種緊湊表示,而且因其獨特的性質,非常適合用于計算分析和比較,將分子指紋存儲在了高性能的向量數據庫milvus中,在milvus數據庫中,分子指紋字段被特別設置為向量字段,允許數據庫以優化的方式存儲和處理這些位向量數據;對分子指紋字段進行了索引建立。
13、優選的,藥物篩選以及功能推測的具體操作包括:
14、待篩選的藥物活性片段或先導化合物經過分子指紋計算后,通過向量數據庫milvus進行篩選,選擇與之分子指紋相似度最高的藥物分子;利用milvus數據庫的強大功能,通過計算待篩選化合物分子指紋與其他已知藥物分子指紋之間的相似度來篩選出最相關的藥物分子;通過比較兩個集合之間的交集和并集的大小來評估它們的相似性,確定最相似的藥物分子,將這些信息,包括待篩選化合物的分子指紋和相關信息,以及相似度最高的藥物分子的所有已知信息,輸入到大模型中,對數據進行推理和綜合分析,模型預測待篩選藥物可能的功能、藥性以及潛在的不良反應。
15、一種基于大模型和向量數據庫的醫藥行業藥物發現和功能預測系統,所述系統由信息整合抽取模塊、llm提取藥物信息模塊、分子指紋計算及milvus數據庫構建模塊、藥物篩選以及功能推測模塊組成;
16、信息整合抽取模塊,使用大模型結合信息抽取的prompt對藥物數據庫中的已知信息進行信息抽取;
17、llm提取藥物信息模塊,利用大模型結合信息提取的prompt對提取到的藥物分子信息進行關鍵信息提取和整理,形成統一的格式;
18、分子指紋計算及milvus數據庫構建模塊,將提取到的藥物化學分子式作為模型的輸入,通過藥物信息深度學習模型計算每個藥物化學分子式對應的分子指紋,并將其存儲到向量數據庫中;
19、藥物篩選以及功能推測模塊,將待篩選的藥物活性片段或先導化合物進行分子指紋的計算,通過向量數據庫篩選與之分子指紋相似度最高的藥物分子,輸入大模型進行功能預測。
20、優選的,所述信息整合抽取模塊,大模型負責抽取藥物的其他關鍵信息,包括但不限于藥物命名、種類、作用機制、藥效學信息以及不良反應,信息的抽取和整合,形成了結構化數據,為后續的分子指紋計算和功能預測提供了全面的數據支持。
21、優選的,所述llm提取藥物信息模塊,通過結合大型神經網絡模型和信息提取的提示,對獲取到的藥物分子信息進行關鍵信息的提取和整理;在關鍵信息的提取過程中,模型+prompt關注以下幾個方面:藥物命名、藥物種類、藥物作用、藥效搭配以及不量反應;在信息提取的過程中,設計留空機制,即未提取到的信息將不會被強行賦予一個值,而是保持為空,以避免引入錯誤的數據;所有成功提取的信息將被整合和歸納,形成一種統一的格式。
22、優選的,所述分子指紋計算及milvus數據庫構建模塊,將提取到的藥物化學分子式作為輸入,將復雜的化學分子式轉換成分子指紋,生成的分子指紋不僅是對藥物化學結構的一種緊湊表示,而且因其獨特的性質,非常適合用于計算分析和比較,將分子指紋存儲在了高性能的向量數據庫milvus中,在milvus數據庫中,分子指紋字段被特別設置為向量字段,允許數據庫以優化的方式存儲和處理這些位向量數據;對分子指紋字段進行了索引建立。
23、優選的,所述藥物篩選以及功能推測模塊,待篩選的藥物活性片段或先導化合物經過分子指紋計算后,通過向量數據庫milvus進行篩選,選擇與之分子指紋相似度最高的藥物分子;利用milvus數據庫的強大功能,通過計算待篩選化合物分子指紋與其他已知藥物分子指紋之間的相似度來篩選出最相關的藥物分子;通過比較兩個集合之間的交集和并集的大小來評估它們的相似性,確定最相似的藥物分子,將這些信息,包括待篩選化合物的分子指紋和相關信息,以及相似度最高的藥物分子的所有已知信息,輸入到大模型中,對數據進行推理和綜合分析,模型預測待篩選藥物可能的功能、藥性以及潛在的不良反應。
24、與現有技術相比,本發明的有益效果是:
25、本發明提出的基于大模型和向量數據庫的醫藥行業藥物發現和功能預測方法及系統,利用大模型和向量數據庫的結合,可以快速而準確地發現具有潛在藥用價值的化合物,這加快了藥物研發的速度;通過大模型的推理和總結,可以預測待篩選藥物的功能、藥性以及可能的不良反應,這有助于在早期篩選階段就發現潛在的問題,并減少后續實驗的成本和時間;通過信息抽取和整理,將藥物數據庫中的信息進行系統化、結構化,有助于研究人員更好地理解和利用這些信息;利用分子指紋技術和向量數據庫,可以高效地進行藥物分子的相似性搜索,從而找到與待篩選藥物相似的潛在候選化合物,為藥物設計提供了更多選擇;通過向量數據庫的篩選機制,能夠快速地從大量化合物中找到與待篩選藥物相似度最高的候選化合物,從而節省大量的計算資源和時間成本。