本發明涉及汽車故障診斷,具體涉及一種基于知識圖譜的大語言模型車輛故障原因分析方法及系統。
背景技術:
1、傳統方法解決汽車故障原因分析需要車主發現車輛問題后查閱車輛維修手冊,或返回汽車修理廠由專業汽修人員對汽車問題進行定位,并給出具體原因,整個故障原因診斷流程不僅繁瑣而且需要汽車維修專業知識支撐,會對車主造成不好的用車體驗。近年來,隨著智能網聯汽車行業發展,智能化車機語音交互技術實現了車主通過語音方式進行人機對話,獲取相關用車知識、維修保養建議等功能。但智能車機語音交互技術依賴于內置的車輛信息知識庫。對于知識庫沒有覆蓋的知識仍無法給出準確且具體的回答。基于語音交互技術的車輛故障原因分析知識服務、對話問答等應用仍需要繼續發展。
2、1998年語義網(semantic?web)概念被正式提出。它基于圖和鏈接的組織方式為全球信息網上的文檔添加“元數據”,使整個互聯網成為一個通用的信息交換媒介。2012年google基于語義網中的一些理念進行商業化實現,其提出的知識圖譜概念沿用至今(knowledge?graph)。知識圖譜是結構化的語義知識庫,用于以符號化形式描述物理世界中的概念及其相互關系,其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體之間通過關系相互聯結,構成網狀的知識結構。知識圖譜廣泛應用于知識問答、搜索引擎、語言理解、決策分析等領域。
3、大語言模型是一種由包含數百億及以上參數的深度神經網絡構建的語言模型,通常使用自監督學習方法通過大量無標注文本進行訓練。2018年以來,google、openai、百度、華為等公司和研究機構相繼發布了gpt、llama、文心一言等多種大語言模型。特別是2022年11月chatgpt的出現再次點燃了人工智能發展的熱潮。大語言模型已經成為自然語言處理領域不可或缺的基石,在系統交互、對話問答、摘要、翻譯等領域廣泛應用。
4、盡管大語言模型已有許多成功應用,但由于訓練時缺乏汽車維修故障相關知識,它們仍無法直接應用于汽車故障原因分析領域。具體來說,大語言模型會因為沒有學習到車輛故障原因而生成具有錯誤事實的表述。
技術實現思路
1、本發明所要解決的技術問題是針對現有技術的不足而提供一種基于知識圖譜的大語言模型車輛故障原因分析方法及系統,本發明提供的方法通過構建車輛的維修故障知識圖譜,將維修故障知識圖譜與大語言模型相結合,能夠對于車輛故障原因做出準確回答。
2、為實現上述目的,按照本發明的一個方面,提供了一種基于知識圖譜的大語言模型車輛故障原因分析方法,包括:
3、獲取用戶問題文本內容,對所述用戶問題文本內容進行數據清洗和分詞操作,得到清洗后的文本內容;
4、提取所述清洗后的文本內容中的用戶描述的故障實體與故障現象,將所述用戶描述的故障實體與所述用戶描述的故障現象拼接成故障實體-現象對;
5、將所述故障實體-現象對與預設的維修故障知識圖譜中的實體進行對齊,得到對齊后的故障實體-現象對;
6、根據所述對齊后的故障實體-現象對在所述維修故障知識圖譜中進行檢索,根據檢索結果獲取匹配到的故障實體-現象-原因三元組;
7、構造提示詞模板,將所述匹配到的故障實體-現象-原因三元組與所述構造提示詞模板進行拼接,再與所述用戶問題文本內容結合形成車輛故障原因提示詞;
8、將所述車輛故障原因提示詞輸入到訓練好的大語言模型進行推理總結,輸出回復用戶的最終結果。
9、上述方法還包括:以所述維修故障知識圖譜為本地數據庫對大語言模型進行微調訓練,得到訓練好的大語言模型。
10、上述方案中,所述大語言模型包括chatglm3-6b。
11、上述方案中,所述的維修故障知識圖譜通過以下方式得到:獲取車輛維修手冊和車輛維修工單,對所述車輛維修手冊和所述車輛維修工單中的故障現象描述與原因進行梳理得到故障實體-現象-原因三元組,根據所述故障實體-現象-原因三元組構建維修故障知識圖譜數據集,將所述維修故障知識圖譜數據集傳輸到neo4j數據庫中構建維修故障知識圖譜。
12、具體地,上述方案中的所述的維修故障知識圖譜通過以下方式構建:
13、對所述車輛維修手冊和所述車輛維修工單中的故障現象描述與原因進行梳理,通過歸納其中的故障描述,以故障零件、現象描述、故障原因為主要類型,并以所述故障實體-現象-原因三元組格式整理車輛維修故障原因構建所述維修故障知識圖譜數據集,基于所述維修故障知識圖譜數據集,通過python調用py2neo庫連接neo4j數據庫,構造數據庫語句自動在所述neo4j數據庫中構建維修故障知識圖譜。
14、上述方案中,所述的故障實體-現象對,具體通過以下方式得到:
15、通過lstm-crf算法的word?embedding層生成所述清洗后的文本內容中每個詞的向量表示;
16、經過所述lstm-crf算法的lstm層,利用所述每個詞的上下文信息提取出字符級別的語義特征向量,接著將得到的所述語義特征向量與對應詞向量表示進行拼接并輸入到所述lstm-crf算法的crf層;
17、所述crf層會對拼接得到的特征向量進行建模,并對所述清洗后的文本內容中的故障實體與故障現象進行標注;
18、將標注出的所述故障實體與所述故障現象按照“故障實體→故障現象”的格式進行拼接,得到故障實體-現象對。
19、上述方案中,所述清洗后的文本內容,具體通過以下方式得到:
20、去除所述用戶問題文本內容的所有空格;
21、將所述用戶問題文本內容中的繁體字轉化為簡體字;
22、去除所述用戶問題文本內容中無法識別的特殊符號;
23、將所述用戶問題文本內容中字符長度小于3的無意義文本進行刪除,得到清洗后的文本內容。
24、上述方案中,所述對齊后的故障實體-現象對,具體通過以下方式得到:
25、將所述用戶描述的故障實體與所述維修故障知識圖譜中的故障實體詞典中每個實體進行字符串匹配,計算兩個故障實體字符串的字符相同個數與所述維修故障知識圖譜中的實體字符個數的字符數量比值,選擇所述字符數量比值最高的所述用戶描述的故障實體與所述維修故障知識圖譜中的實體進行對齊,得到對齊后的故障實體-現象對。
26、上述方案中,在所述維修故障知識圖譜中進行檢索,包括:使用關鍵詞查詢方法進行檢索。
27、上述方案中,所述構造提示詞模板包括人工預先編寫好的用戶描述意圖的文字內容。
28、按照本發明的另一方面,提供一種基于知識圖譜的大語言模型車輛故障原因分析系統,包括:
29、獲取模塊,用于獲取用戶問題文本內容;
30、清洗模塊,用于對所述用戶問題文本內容進行數據清洗和分詞操作,得到清洗后的文本內容;
31、提取模塊,用于提取所述清洗后的文本內容中的用戶描述的故障實體與故障現象,將所述用戶描述的故障實體與所述用戶描述的故障現象拼接成故障實體-現象對;
32、對齊模塊,用于將所述故障實體-現象對與所述維修故障知識圖譜中的實體進行對齊,得到對齊后的故障實體-現象對;
33、檢索模塊,用于根據所述對齊后的故障實體-現象對在所述維修故障知識圖譜中進行檢索,根據檢索結果獲取匹配到的故障實體-現象-原因三元組;
34、拼接模板,用于將所述匹配到的故障實體-現象-原因三元組與所述構造提示詞模板進行拼接,再與所述用戶問題文本內容結合形成車輛故障原因提示詞;
35、輸出模塊,用于將所述車輛故障原因提示詞輸入到訓練好的大語言模型進行推理總結,輸出回復用戶的最終結果。
36、總體而言,通過本發明所構思的以上技術方案與現有技術相比,能夠取得下列有益效果:
37、(1)本發明提供了一種基于知識圖譜的大語言模型車輛故障原因分析方法,該方法通過構建車輛的維修故障知識圖譜,將維修故障知識圖譜與大語言模型相結合,實現了車輛故障原因分析的知識問答功能,能夠對于車輛故障原因做出準確回答。
38、(2)本發明提供的一種基于知識圖譜的大語言模型車輛故障原因分析方法,能夠實現通過更新維修故障知識圖譜來更新大語言模型對最新車輛故障問題知識的獲取能力,能夠避免重復訓練大語言模型,大大節約資源。