醫學數據處理方法
【技術領域】
[0001] 本申請涉及醫學數據挖掘領域,更具體地涉及疾病治療方式與病人特征的關系挖 掘方法。
【背景技術】
[0002] 在疾病發現、治療的過程中,醫生根據病人的不同特征進行相應的診斷。因此,發 現病人特征與治療方式之間的關系可以對醫生選擇合適的藥物和治療方式有指導作用。現 有的相關分析方法通常將病人信息與治療方式依次進行進行簡單的假設檢驗,并且缺少自 動化的實現方式。因此,期待可以自動地在批量病人中得到治療方式與病人特征的關系的 方法。
【發明內容】
[0003] 為解決現有技術中存在的上述問題,本申請的實施方式提出了一種醫學數據處理 方法,包括步驟S1:將關于多個病人的醫學數據分為病人特征數據和治療數據,并將該特征 數據和治療數據分別通過歸一化轉換成矩陣;步驟S2:利用分級聚類從治療數據中找出具 有相似治療方式的病人;步驟S3:針對每一類病人獲得共同的治療方式;以及步驟S4:針對 每一類病人獲得共同的特征,并對每一類病人,關聯此類病人對應的治療方式和特征,得到 治療方式和病人特征的對應關系。
【附圖說明】
[0004] 圖1示出了根據本發明的實施方式的醫學數據處理的方法的示意流程圖。
【具體實施方式】
[0005] 下面結合附圖對本發明的實施方式進行詳細描述。
[0006] 圖1示出了根據本發明的實施方式的醫學數據處理方法的示意流程圖。參考圖1, 在本發明的實施方式中,提供了醫學數據處理方法,該方法可以包括:
[0007] 步驟S1:將收集的關于多個病人的醫學數據分為病人特征數據和治療數據,并將 該特征數據和治療數據分別通過歸一化轉換成矩陣。在本申請中,所述的醫學數據主要可 以分為兩類。第一類為病人特征數據,例如患者基本信息、治療前臨床檢查信息、治療前尿 常規信息、治療前生化信息、治療前生命體征等。第二類為治療數據,例如用藥信息、治療方 式等。數據歸一化例如,特征"性別"可根據男、女轉為_1、1;特征"陽性"可以根據值轉為〇、 1;用藥信息可根據是否用此藥轉為1、〇等。
[0008] 本步驟輸入可以為收集的病人數據,包括病人特征數據和治療數據。輸出可以為 病人特征矩陣和治療矩陣,病人特征矩陣行為特征,列為病人,值為原始記錄經過轉化后的 取值。治療矩陣行為治療信息,列為病人,值為原始記錄經過轉化后的取值。
[0009] 在本發明的實施方式中,步驟S1可以包括:
[0010] 步驟S1-1:將醫學數據分為病人特征數據和治療數據。病人特征數據可以為治療 前病人信息,例如患者基本信息、治療前臨床檢查信息、治療前尿常規信息、治療前生化信 息、治療前生命體征等。治療數據可以例如為用藥信息、治療方式等。
[0011] 步驟S1-2:將病人特征數據離散化、數值化。可以將病人特征數據分為離散型、連 續型。對于離散型取值的因素,可以例如將數值轉化為離散值1、2···。而對于連續型取值的 因素,保留數值。
[0012] 步驟S1-3:將離散化和數值化后的病人特征數據歸一化。將病人特征數據按照下 式(1)歸一化,從而得到病人特征矩陣X。式(1)中,X為病人特征數據, Xl表示第i個病人的特 征數據,Xmax表示病人特征數據的最大值,Xmin表示病人特征數據的最小值。
[0014]該病人特征矩陣X例如如下式所示,行為因素,列為病人,每一個值是一個數值。該 式中,f表示特征,共有η個特征,p個病人。Xlj表示第j個病人的第i個特征的取值。
[0016] 步驟S1-4:將治療數據離散化、數值化。可以將治療數據分為離散型、連續型。對于 離散型取值的因素,可以例如將數值轉化為離散值1、2···。對于連續型取值的因素,保留數 值。
[0017] 步驟S1-5:將離散化和數值化后的治療數據歸一化。將治療數據按照下式(3)歸一 化,從而得到病人治療矩陣Y。式(3)中,y為治療數據, yi表示第i個病人的治療數據,ymax表 示病人治療數據的最大值,ymin表示病人治療數據的最小值。
[0019]病人治療矩陣Y例如如下式所示,行為治療信息,列為病人,每一個值是一個數值。 式中,t表示治療信息,共有m個特征,p個病人。yij表示第j個病人的第i個治療信息的取值。
[0021]步驟S2:治療方式聚類:利用分級聚類從治療數據中找出具有相似治療方式的病 人。本步驟輸入可以為病人治療矩陣Y,輸出可以為病人分類。這里治療方式聚類可以是指 利用分級聚類從治療數據中找出具有相似治療方式的病人。治療數據的形式可以為患疾病 人及其對應的治療信息。對于每一個病人,這些治療信息可以形成向量。對治療信息維度進 行分級聚類,選擇類別N,將病人分成N個類別。每一類病人具有相似的治療方式。
[0022]具體來說,步驟S2可以包括:
[0023]步驟S2-1:根據下式(4)計算病人治療方式向量兩兩的歐式距離。設… ymi)為病人i對應的治療方式向量,式(4)中,Dij表不向量的歐式距1?,yai表不第i個病人的 第a個治療信息的取值,yaj表示第j個病人的第a個治療信息的取值,共有m個特征,p個病人。
[0025]步驟S2-2:將p個病人劃分為p類,即每一類只含有一個病人,按照下式(5)計算類 間距離。式(5)中,Pi表示第i個病人對應的治療方式向量,匕表示第j個病人對應治療方式向 量,DC表示類間距離,C表示類別,DC rs表示類別Cr和類別Cs的類間距離。
[0027] 步驟S2-3:合并兩個距離最小的類別。
[0028] 步驟S2-4:重復步驟S2-3,直至最后一個病人被合并,形成分級聚類結果。
[0029]步驟S2-5:選擇類別數N,將病人分為N類(N為正整數)。
[0030]步驟S3:獲得共同治療方式:針對每一類病人獲得共同的治療方式。本步驟輸入可 以為病人分類、治療矩陣Y,輸出可以為病人分類對應的治療方式。該獲得共同治療方式可 以是指對每一類病人尋找共同的治療方式。對多類(例如N類)病人的每一類,將當前研究類 作為正樣本,隨機地從剩下的N-1類中挑選等樣本量的負樣本。對每一個治療方式,利用t假 設檢驗獲得顯著的治療方式。經過本步驟,得到每一類病人具有的共同治療方式。
[0031] 具體地,該步驟S3可以包括:
[0032]步驟S3-1:將N類病人的當前研究類作為正樣本,隨機地從剩下的N-1類中挑選等 樣本量的負樣本。
[0033]步驟S3-2:保留治療矩陣Y中與正樣本包含的病人相關聯的列,刪除治療矩陣Y中 的其余列,以形成矩陣A;保留治療矩陣Y中與負樣本包含的病人相關聯的列,刪除治療矩陣 Y中的其余列,以形成矩陣B。
[0034]步驟S3-3:針對每一個治療方式,對矩陣A和B進行t假設檢驗。選擇統計顯著性〈 0.01的治療方式作為當前研究類病人的共同治療方式。
[0035] 步驟S3-4:對N類病人的每一類,重復步驟S3-1到步驟S3-3,得到每類病人對應的 治療方式。
[0036]步驟S4:針對每一類病人獲得共同的特征。本步驟輸入可以為病人分類、特征矩陣 X,輸出可以為病人分類對應的特征。獲得共同特征是指對每一類病人尋找共同的特征。例 如對N類病人的每一類,將當前研究類作為正樣本,隨機的從剩下的N-ι類中挑選等樣本量 的負樣本。對每一個病人特征,利用t假設檢驗獲得顯著的特征。經過本步驟,得到每一類病 人具有的共同特征,結合每一類病人具有的共同治療方式,得到顯著的治療方式與病人特 征對應關系。
[0037] 具體地,該步驟S4可以包括:
[0038]步驟S4-1:將N類病人的當前研究類作為正樣本,隨機地從剩下的N-1類中挑選等 樣本量的負樣本。
[0039]步驟S4-2:保留特征矩陣X中與正樣本包含的病人相關聯的列,刪除特征矩陣X中 的其余列,以形成矩陣A';保留特征矩陣Y中與負樣本包含的病人相關聯的列,刪除特征矩 陣Y中的其余列,以形成矩陣B '。
[0040]步驟S4-3:對每一個特征,對矩陣A'和B'進行t假設檢驗。選擇統計顯著性〈0.01的 特征作為當前研究類病人的共同特征。
[0041] 步驟S4-4:對N類病人的每一類,重復步驟S4-1到步驟S4-3,得到每類病人對應的 特征。
[0042]步驟S4-5:對N類病人的每一類,關聯此類病人對應的治療方式和特征,得到治療 方式和病人特征的對應關系。
[0043] 可選地,步驟S4可以包括步驟S4-6:采用計算機顯示相關的治療方式和病人特征。
[0044] 步驟S5:調整參數以獲得相關的治療方式和病人特征。經過步驟S1到S4,如果沒有 滿足條件的治療方式和病人特征,可采用此步驟來獲得。這里參數調整是指如