本發明屬于計算機圖像處理,具體涉及一種手腕脈診點定位方法。
背景技術:
1、脈診為中醫師常用的診斷病情的方法之一,中醫師通過將手指按壓于病患的手腕寸、關、尺位置,覺察病患的脈象,判斷病情。然而,傳統脈診面臨的問題包括:中醫師們對病情的判斷存在較多的主觀臆測,對同樣的病情可能有不一樣的判斷、手指施加的壓力會造成病患本身的脈象受到影響,導致中醫師判斷的病情存在偏差、病患的脈象數據沒有有效地儲存,影響對日后的病情判斷等。隨著資訊時代的來臨,脈診的客觀化發展成為中醫領域的新興研究方向之一,且近年人工智能的蓬勃發展,為脈診的客觀化發展開拓了嶄新的方向。
2、隨著硬件性能的提升與深度學習的理論優化,越來越多人工智能相關的應用出現,包括高精度的定位關鍵點、高精度的物件檢測、高精度的圖像識別等。許多研究者開發出脈診儀模擬中醫師進行脈診,通過各式的傳感器定位脈診點并獲取脈象信息。在脈診儀模擬中醫脈診的過程中,精準地定位手腕脈診點是個至關重要的步驟,目前精度較高的方法為基于深度學習的手腕脈診點定位,但目前尚面臨著精度不足的問題,本發明的目的在于提供一種基于三維卷積神經網絡與時序注意力模塊的手腕關鍵點定位方法。
技術實現思路
1、本發明的目的在于提供一種基于紅外視頻數據與深度學習的手腕脈診點定位方法,實現以小規模的紅外視頻數據集,即能快速且精準地定位手腕脈診點位置。
2、本發明提供的基于紅外視頻數據與深度學習的手腕脈診點定位方法,基本步驟為:首先,基于紅外視頻數據集,標注“寸、關、尺”關鍵點的二維坐標,作為深度學習模型的監督信息;其次,構建深度學習模型,其以resnet-18作為基線架構,主要包括殘差模塊與最大池化層。殘差模塊用于提取手腕特征,最大池化層用于降低數據維度,最后通過全連接層輸出手腕脈診點的二維坐標。最后,將待測的手腕視頻數據作為已訓練完成的深度學習模型的輸入,預測得到手腕脈診點的位置。
3、本發明提出的基于紅外視頻數據與深度學習的手腕脈診點定位方法,具體步驟如下:
4、(1)采集紅外視頻數據集,構建“寸、關、尺”關鍵點的二維坐標,作為監督信息;
5、(2)構建深度學習網絡;
6、所述深度學習模型以resnet-18作為基線架構,并將resnet-18中的二維卷積層、二維最大池化層、二維批歸一化層等,以三維卷積層、三維最大池化層、三維批歸一化層等作置換。resnet-18由多個殘差模塊與最大池化層所組成,殘差模塊用于提取數據的特征,最大池化層用于降低特征圖大小,使模型的參數量維持在硬件所能負載的范圍內,降低過擬合的現象發生。每個殘差模塊由兩個3×3卷積層與跳躍連接支路所組成,且在每個卷積層后加入批歸一化層與relu激活函數層。其中,卷積層用于提取手腕視頻數據的特征;跳躍連接用于解決深度學習模型的梯度消失問題;批歸一化層用于加快模型收斂的速度;relu激活函數層用于讓模型具有非線性擬合能力,解決復雜的數據擬合問題。此外,在殘差模塊的基礎上,使用時序注意力模塊,使模型專注于信息重要的視頻幀上;具體地,將時序注意力模塊的輸出與殘差模塊中第二個卷積層的特征圖做相乘。所述時序注意力模塊由展平層、lstm層、sigmoid激活函數層所組成,展平層用于將輸入特征圖展平為一維向量,作為lstm層的輸入;lstm層用于提取輸入向量的特征,并建模輸入向量中的時序關系;sigmoid激活函數層用于將lstm層的輸出轉換為概率分布。
7、(3)訓練深度學習網絡;
8、將采集的紅外視頻數據集劃分為訓練集、驗證集、測試集;訓練集用來訓練深度學習模型,使其擬合數據分布;驗證集用于對訓練過程中的深度學習模型的泛化性做驗證,記錄泛化性最好的模型;測試集用于對已訓練完成的深度學習模型做性能測試,以此衡量深度學習模型的性能;
9、(4)利用訓練完成的深度學習模型,直接回歸出“寸、關、尺”關鍵點在視頻中的位置。
10、進一步地,步驟(1)中所述紅外視頻數據,具體過程如下:
11、基于紅外視頻數據集,通過中醫師對紅外視頻中的“寸、關、尺”進行標注,以此作為深度學習模型的監督信息。
12、進一步地,步驟(3)中所述的紅外視頻數據集劃分為訓練集、驗證集、測試集,具體為:
13、對于步驟(1)中所述的紅外視頻數據集進行劃分,其中70%作為訓練集;20%作為驗證集;10%作為測試集。
14、進一步地,步驟(3)所述訓練深度學習模型,包括:
15、首先設置模型超參數:
16、批大小(batch?size):批次較大能使模型收斂地較快,但是需考慮顯存大小;
17、學習率(learning?rate):學習率會影響模型參數更新的速度,較大的學習率可能會使模型無法收斂至極值,較小的學習率可能會使得模型收斂的速度較慢;
18、迭代次數(epoch):對整個訓練集完整訓練的次數;
19、然后對模型進行訓練,采用均方根誤差(rmse)損失函數作為模型性能的衡量標準:
20、
21、其中,v表示真實坐標,表示模型預測坐標。該損失函數的物理意義為真實坐標與模型預測的坐標之間的歐式距離。模型通過反向傳播的梯度,以優化器根據梯度進行參數更新,使模型預測的坐標更接近真實坐標。訓練過程中,包含訓練損失與驗證損失,如兩者以相同的趨勢減小,說明模型的預測能力正逐漸提升,當兩者不再減小,說明模型已經收斂,訓練結束。
22、步驟(4)中所述用已訓練完成的模型,對采集的手腕視頻數據預測脈診點的位置,具體流程為:
23、(1)首先通過紅外攝像機對手腕進行視頻拍攝;
24、(2)將手腕視頻作為模型輸入,直接回歸出手腕脈診點的坐標位置。
25、與現有的基于深度學習方法的手腕脈診點定位相比,本發明的有益效果為:
26、以小規模的紅外視頻數據集,就能快速且精準地定位手腕脈診點位置。
1.一種基于紅外視頻與深度學習的手腕脈診點定位方法,其特征在于,具體步驟如下:
2.根據權利要求1所述的手腕脈診點定位方法,其特征在于,步驟(1)中所述構建“寸、關、尺”關鍵點的二維坐標,是通過中醫師對紅外視頻中的“寸、關、尺”進行標注,以此作為深度學習模型的監督信息。
3.根據權利要求1所述的手腕脈診點定位方法,其特征在于,步驟(3)中所述的紅外視頻數據集劃分為訓練集、驗證集、測試集,具體為:對于步驟(1)中所述的紅外視頻數據集進行劃分,其中70%作為訓練集;20%作為驗證集;10%作為測試集。
4.根據權利要求3所述的手腕脈診點定位方法,其特征在于,步驟(3)所述訓練深度學習模型,包括:
5.根據權利要求4所述的手腕脈診點定位方法,其特征在于,步驟(4)中所述用訓練完成的模型,對采集的手腕視頻數據預測脈診點的位置,具體流程為: