使用個性化的預測模型識別并評級個體層面的風險因子的制作方法
【專利摘要】實施例涉及識別個體層面的風險因子的方法。該方法包括從人口數據識別風險目標的一組全局風險因子,并且基于該組全局風險因子來從人口數據中識別成員,該成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性。該方法基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、人口數據中的成員,訓練風險目標的個性化預測模型。該方法基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。
【專利說明】
使用個性化的預測模型識別并評級個體層面的風險因子
技術領域
[0001]本公開總的涉及特定的疾病狀態的風險因子。更具體地,本公開涉及用于使用個性化的預測模型識別并評級個體層面的風險因子的系統和方法。
【背景技術】
[0002]預測建模經常用在臨床以及醫療保健研究。例如,預測建模已經成功應用到病發的早期檢測以及更好的個性化護理。預測建模中的常規方式是構建使用所有可用的訓練數據的單一的“全局”預測模型,然后其用于計算個體患者的風險分數并識別人口廣泛風險因子。在個體化醫藥領域的近期研究中顯示出患者人群趨向于異質性(heterogeneous)。相應地,每個患者具有獨特的特性,因此目標化的、患者特定的預測、建議和治療是有幫助的。
【發明內容】
[0003]本發明的實施例涉及識別個體層面的風險因子的計算機實現方法。該方法包括由至少一個處理器電路從一組人口數據識別至少一個風險目標的一組全局風險因子。該方法還包括由至少一個處理器電路至少部分基于該組全局風險因子來從該組人口數據中識別至少一個成員,其中所述至少一個成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性。該方法還包括由至少一個處理器至少部分基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、該組人口數據中的至少一個成員,訓練至少一個風險目標的至少一個個性化預測模型。該方法還包括由至少一個處理器至少部分基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。
[0004]實施例還涉及用于識別個體層面的風險因子的計算機程序產品。該計算機程序產品包括在其中體現了程序指令的計算機可讀存儲介質,其中計算機可讀存儲介質本質上不是短暫的信號。該程序指令可由至少一個處理器電路讀取以使該至少一個處理器電路執行以下方法,包括:從一組人口數據識別至少一個風險目標的一組全局風險因子。該方法還包括至少部分基于該組全局風險因子來從該組人口數據中識別至少一個成員,其中所述至少一個成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性。該方法還包括至少部分基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、該組人口數據中的至少一個成員,訓練至少一個風險目標的至少一個個性化預測模型。該方法還包括至少部分基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。
[0005]實施例進一步涉及用于識別個體層面的風險因子的計算機系統。該計算機系統包括至少一個處理器電路,配置來從一組人口數據中識別至少一個風險目標的一組全局風險因子。該系統進一步包括至少一個處理器電路,配置來至少部分基于該組全局風險因子來從該組人口數據中識別至少一個成員,其中所述至少一個成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性。該系統還包括至少一個處理器,配置來至少部分基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、該組人口數據中的至少一個成員,訓練至少一個風險目標的至少一個個性化預測模型。該系統還包括至少一個處理器,配置來至少部分基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。
[0006]通過這里描述的技術實現附加的特征以及優點。這里詳細描述了其它實施例和方面。為了更好地理解,請參照具體描述以及附圖。
【附圖說明】
[0007]在所附的權利要求中特別指出并毫無疑義地聲明了本公開的主題。通過結合下面的附圖,上述以及其它特征和優點將在下面的詳細描述中變得更加清楚。
[0008]圖1描述圖解根據一個多個實施例的系統的不意圖;
[0009]圖2描述圖解圖1所示的系統的更具體的實現的示意圖;
[0010]圖3描述能夠實現本公開的一個或多個實施例的示例性計算機系統;
[0011 ]圖4描述圖解根據一個多個實施例的方法的流程圖;
[0012]圖5描述圖解全局風險因子的示例的示意圖,其中從關于所有訓練患者訓練的邏輯回歸模型確定該全局風險因子;
[0013]圖6描述圖解根據一個或多個實施例確定的個體化風險因子的示例的示意圖;
[0014]圖7描述圖解根據一個或多個實施例的個體化邏輯回歸分類器的性能的示意圖;
[0015]圖8描述根據一個或多個實施例的計算機程序產品。
[0016]在附圖以及下面的公開實施例的詳細說明中,向附圖中示出的各種元件設置三或四位附圖標記。每個附圖標記的最左側的數字對應于第一次圖解其元件的圖。
【具體實施方式】
[0017]將參照附圖描述本公開的各個實施例。在不背離本公開的范圍的情況下可以設計出替代實施例。應當注意,在下面的描述和附圖中的元件之間詳細闡述了各個實施例。除非另行說明,這些連接可以是直接或間接的,并且本公開不意欲在這方面進行限定。因此實體間的耦合可以指直接或間接連接。
[0018]如之前在這里說明的那樣,預測建模已經成功地應用到病發的早期檢測以及更好的個性化護理。預測建模是賦予數學技術的集合的名稱,這類數學技術具有找到目標、響應或“因變量(dependent)”以及可變預測符或“自變量(independent)”之間的數學關系的共同目標,并且具有測量那些預測符的未來值并將其插入數學關系來預測目標變量的未來值的目標。由于這些關系在實踐中是不完美的,因此希望對預測的不確定性給予一些度量。例如可以向預測區間賦予置信度(如,95%)。處理中的另一任務是建模。通常可用的潛在預測符變量可被分類為三組:那些不太可能影響響應的變量、那些幾乎確定影響響應并因此注定包含在預測方程中的那些變量、以及那些在中間的、可能或可能不影響響應的變量。在同時期的患者診斷方法中,預測建模中的途徑是使用所有的可用訓練數據建立單一的“全局”預測模型,然后該預測模型用于計算個體患者的風險分數并且識別人口廣泛風險因子。近來在個性化醫療領域中的研究表明患者人群趨向于異質性。相應地,每個患者具有獨特的特性,因此目標化的、患者特定的預測、建議、推薦和治療是有幫助的。
[0019]因此,本公開涉及用于使用個性化的預測模型識別并評級個體層面的風險因子的系統和方法。本公開的一個或多個實施例針對每個患者提供患者特定的或‘個性化’的預測模型。由于使用來自患者以及來自臨床類似的患者的信息構建所公開的模型,因此針對個體的患者定制該模型。由于所公開的個性化預測模型是針對具體的患者動態訓練的,因此這樣的個性化預測模型可以利用最相關的患者信息,并可能產生更準確的風險評價(如,分數)并識別更相關和信息量更大的患者特定的風險因子。
[0020]現在詳細參照附圖,其中相同的附圖標記指代相同的元件。圖1描述圖解根據一個或多個實施例的系統100的示意圖。如圖所配置或排列,系統100包括訓練患者數據102、個體患者數據104、預測模型106和個體風險因子108。訓練患者數據102從大量患者(如,數千)獲取,并且包括用于訓練的風險目標標簽。訓練患者數據102包括電子醫學記錄(如,診斷、實驗室、藥物治療、操作等等)、調查問卷數據、遺傳學、活動/飲食跟蹤數據等等。與訓練患者數據相對,個體患者數據104從感興趣的患者處獲得。個體患者數據104包括電子醫學記錄(如,診斷、實驗室、藥物治療、操作等等)、調查問卷數據、遺傳學等等。
[0021]訓練患者數據102和個體患者數據104被輸入到預測模型106,該預測模型106包括多種類型的預測模型(決策樹、邏輯回歸、貝葉斯網絡、隨機森林等等)。預測模型106在類似的患者群上訓練,并且用于提供在病例和對照(cases and control)之間區分的重要的風險因子的更強的評估。因此,預測模型106選擇并評級個體的患者特定的風險來產生個體的風險因子108。
[0022]圖2描述圖解系統100A的示意圖,其為圖1所示的系統100的更詳細的實現。更具體地,在系統100A中,預測模型106被實現為全局風險因子選擇模塊202、類似患者識別模塊204、個性化預測模型訓練模塊206以及個體風險因子選擇和評級模塊208。全局風險因子選擇模塊202使用訓練患者數據來識別特定的風險目標(如,心力衰竭、糖尿病、慢性阻塞性肺病等等)的全局風險因子。可以使用具有不同的區分度量標準的標準特征選擇方式(如,過濾、包覆、嵌入、集合等等)。類似患者表示模塊204從訓練患者數據集中將臨床類似的病例和對照患者群識別為個體目標患者。可以使用基于全局風險因子的多種不同的距離或相似性測量方式,包括但不限于基于規則的相似性限制、目標獨立測量方式(諸如,歐幾里得、馬哈拉諾比斯、曼哈頓距離等等)或者目標特定(度量學習)測量方式,上述測量方式在類似訓練患者數據集上訓練。識別類似患者的附加細節公開在Wang F1Sun J,Li T1Anerousis N的、名稱為〃Two Heads Better Than One:Metric+Active Learning and itsApplicat1ns for IT Service Classificat1n,"ICDM,09(2009),p.1022-7的出版物中,其完整公開通過引用合并在此。
[0023]個性化預測模型訓練模塊206使用類似患者群中的病例和對照來針對風險目標訓練多個不同的預測模型分類器(邏輯回歸、決策樹、貝葉斯網絡、支持向量模型、隨機森林)。個體風險因子選擇和評級模塊208基于從訓練過的模型賦予每個風險因子的權重獲取的可用性評價(如,分數)通過重新評級全局風險因子來選擇個體患者風險因子。例如,這些可以是邏輯回歸分類器中的β(ΒΕΤΑ)系數和P值,和/或決策樹和隨機森林分類器中的變量重要度分數。
[0024]圖3圖解用于顯示實現本公開的一個或多個實施例的基于計算機的信息處理系統300的示例的高級方框圖。雖然顯示了一個示例性計算機系統300,但是計算機系統300包括通信路徑326,該通信路徑326將計算機系統300連接到附加的系統(未示出),并且可以包括諸如因特網、內部網之類的一個或多個廣域網(WAN)和/或局域網(LAN)和/或無線通信網絡。計算機系統300和附加系統經由通信路徑326進行通信,以例如,在它們之間通信數據。
[0025]計算機系統300包括諸如處理器302之類的一個或多個處理器。處理器302連接到通信基礎結構304(如,通信總線、交換條(cross-over bar)或網絡)。計算機系統300可以包括顯示接口 306,其將圖形、文字和其他數據從通信基本結構304(或從未示出的幀緩沖器)轉發以在顯示單元308上顯示。計算機系統300還包括主存儲器310,優選為隨機存取存儲器(RAM),并且還可以包括次級存儲器312。次級存儲器312可以包括,例如,硬盤驅動器314和/或可拆卸存儲驅動器316(例如,其代表軟盤驅動器、磁帶驅動器或光盤驅動器)。可拆卸存儲驅動器316以本領域技術人員熟知的方式從可拆卸存儲單元讀取數據或向其寫入數據。例如,可拆卸存儲單元318代表軟盤、壓縮盤、磁帶、光盤等等,上述可拆卸存儲單元318由可拆卸存儲驅動器316讀取或寫入。可以理解,可拆卸存儲單元318包括在其上存儲了計算機軟件和/或數據的計算機可讀介質。
[0026]在替代的實施例中,次級存儲器312可以包括允許計算機程序或其它指令被加載到計算機系統的其它類似裝置。例如,這樣的裝置可以包括可拆卸存儲單元320和接口 322。這樣的裝置的實例可以包括程序包和包接口(如,視頻游戲設備中的接口)、可拆卸存儲條(如,EPROM或PR0M)和相關插口以及其它可拆卸存儲單元320和允許軟件和數據從可拆卸存儲單元320發送到計算機系統300的接口 322。
[0027]計算機系統300還可以包括通信接口324。通信接口 324允許軟件和數據在計算機系統和外部設備之間發送。通信接口324的示例可以包括調制解調器、網絡接口(如,以太網卡)、通信端口或PCM-CIA插槽和卡等等。經由通信接口 324發送的軟件和數據以信號的形式,其可以是例如能夠由通信接口 324接收的電、電磁、光學或其它信號。這些信號經由通信路徑(如,信道)326被提供給通信接口 324。通信路徑326承載信號,并且可以使用線或線纜、光纖、電話線、蜂窩電話鏈路、RF鏈路和/或其它通信信道實現。
[0028]在本公開中,術語“計算機程序介質”、“計算機可用介質”和“計算機可讀介質”總地用于指代諸如主存儲器310、次級存儲器312、可拆卸存儲驅動器316以及安裝在硬盤驅動器314中的硬盤。計算機程序(還稱為計算機控制邏輯)存儲在主存儲器310和/或次級存儲器312中。還可以經由通信接口 324接收計算機程序。在運行時,這樣的計算機程序使計算機系統執行這里討論的本公開的特征。特別地,在運行時,計算機程序使處理器302執行計算機系統的特征。相應地,這樣的計算機程序代表計算機系統的控制器。
[0029]圖4描述圖解根據一個或多個實施例的方法400的流程圖。方法400在方框402開始,該步驟收集從大量患者(如,數千)獲取的訓練患者數據并包括用于訓練的風險目標標簽。訓練患者數據包括電子醫學記錄(如,診斷、實驗室、藥物治療、操作等等)、調查問卷數據、遺傳學、活動/飲食跟蹤數據等等。方法400還從方框404開始,該步驟收集個體患者數據,個體患者數據包括電子醫學記錄(如,診斷、實驗室、藥物治療、操作等等)、調查問卷數據、遺傳學、活動/飲食跟蹤數據等等。方框406從訓練患者數據中識別風險目標的一組全局風險因子。方框408使用所識別的該組全局風險因子連同個體患者數據,以至少部分基于全局風險因子,使用可訓練的相似性度量來針對個體患者識別臨床類似患者群。因此,實際上,方框408從訓練患者數據中識別與感興趣的個體患者類似的訓練患者。方框410至少部分基于類似的患者群以及全局風險因子來針對風險目標訓練一個或多個個性化預測模型。因此,方框410建立將僅使用被確定為與特定的患者類似的患者的數據來針對特定的患者預測特定的病發的風險的模型。方框412檢查(look at)在方框410訓練的模型。在方框410訓練的模型包括該模型認為對于評價特定的患者的風險非常重要的一組風險因子(其通常為全局風險因子的子集),其采用加權因子的一些形式來識別給定風險因子的重要性。方框412至少部分基于通過組合由訓練的預測模型賦予每個風險因子的權重而確定的可用性評價(如,分數),通過方框410中的個性化預測模型訓練,通過重新評級全局風險因子來識別被認為是重要的風險因子。在一個或多個實施例中,方框412可以確定每個訓練的個性化預測模型中該組風險因子的貢獻度,并且將所訓練的個性化預測模型組合為組合分數。方框414輸出在方框412演化出來的個體風險因子。
[0030 ]圖5圖解可從系統100 (如圖1和2所示)和/或方法400 (如圖4所示)的應用得出的全局風險因子簡檔500。橫跨橫軸的是特征(或風險因子),而橫跨縱軸的是與每個特征相關聯的值。在演化全局風險因子簡檔500中,應用了過濾器,該過濾器包括過濾具有低的統計學顯著性的特征的過濾器,例如,排除了具有高P值(如,P值>0.05)的特征。在應用過濾器之后,可以在全局風險因子簡檔500上繪制特征,從該簡檔已經識別了最重要的特征。在全局風險因子簡檔500中所識別的最相關的風險因子的示例被標注出來(如,HCC 312,ICD9790.6 等等)。
[0031 ]圖6圖解可從系統100 (如圖1和2所示)和/或方法400 (如圖4所示)的應用得出的個性化風險因子簡檔600、600A ο針對兩個患者LRl和LR2示出了個性化風險因子簡檔,然而,應當理解的是可以針對多個個體患者演化和圖形地比較個性化風險因子簡檔。不參照每個個性化風險因子簡檔,橫跨橫軸的是特征(或風險因子),而橫跨縱軸的是與每個特征相關聯的值。在演化個性化風險因子簡檔600、600A中,應用了過濾器,該過濾器包括過濾具有低的統計學顯著性的特征的過濾器,例如,排除了具有高P值(如,P值>0.05)的任意特征。在應用過濾器之后,可以在個性化風險因子簡檔600上繪制特征,從該簡檔已經識別了最重要的特征。在個性化風險因子簡檔600中所識別的最相關的風險因子的示例被標注出來(如,HCC076,HCC066 等等)。
[0032]將描述一個或多個實施例的示例性實現以便進一步說明本公開。本公開沿多個維度擴展個性化預測模型的調查和分析,包括使用可訓練的相似性度量來找出臨床上類似的患者,通過分析訓練的個性化模型的參數來創建個性化風險因子簡檔,以及聚集風險因子簡檔來幫助分析患者特定的風險因子的特性以及分布。從匿名的縱向醫療索賠數據庫(其由300000個以上的患者的四年數據組成)構建15038個患者的患者群。具有最近兩年中的糖尿病診斷但是前兩年未被診斷患糖尿病的7519個患者被識別為新發病例(incidentcases)。基于年齡(+/-5歲)、性別以及初級護理醫師(導致7519個對照患者在四年內未診斷出糖尿病),將每個病例與匹配的對照患者配對。在本示例中使用頭兩年中的患者的診斷信息、用藥醫囑、醫療操作和實驗室測試。
[0033]基于患者的縱向數據產生針對每個患者的特征向量表達式。該數據可以被看作時間上的多個事件序列(如,患者可以具有不同日期的高血壓的多個診斷)。為了將這樣的事件序列轉換為特征變量(或風險因子),指定了觀察窗(如,頭兩年)。然后,在窗口內的相同特征的所有事件被合計在單一的或很小的一組值中。合計功能可以產生類似計數和平均的簡單的特征值,或考慮時間的信息的復雜特征值(如,趨勢和時間變化)。在該示例中,使用基本的合計功能,例如用于分類的變量(如,診斷、藥物治療和操作)的計數以及用于數字變量(實驗室測試)的均值。這導致8500個以上的唯一的特征變量。為了減少特征空間的大小,使用信息增益測量執行特征選擇來選擇每個特征類型的主要特征,例如50個診斷、50個操作、15次藥物治療和15個實驗室測試,總計130個特征。
[0034]個性化預測建模涉及以下處理步驟:接收新的測試患者;使用患者相似性測量從訓練集中識別K個類似患者的群;使用來自測試患者以及K個類似患者的群的信息選擇特征的子集;使用類似的患者群訓練個性化的預測模型;使用訓練的個性化預測模型針對新的測試患者計算風險值;以及分析所訓練的個性化預測模型來創建個性化風險簡檔。
[0035]可以使用多種不同的相似性測量來從訓練集識別患者群,該患者群與測試患者臨床上最相似。通常,相似性測量至少部分基于該組全局風險因子,識別來自該組人口數據(其具有感興趣的個體的至少一個臨床特點的預定范圍內的至少一個臨床特點)的至少一個成員。該組人口數據包括,但不限于診斷、實驗室結果、藥物治療、操作、住院記錄、調查問卷的回答、遺傳學信息、微生物數據和自跟蹤體動數據。在本示例中,使用了稱為局部監控的度量學習(Locally Supervised Metric Learning,LSML)的可訓練相似性測量,其可針對特定的目標條件定制。(見Wang F,Sun J,Li T,Anerousis N.,〃Two Heads Better ThanOne: Metric + Active Learning and its Applicat1ns for IT ServiceClassificat1n,〃Ninth IEEE Internat1nal Conference on Data Mining,(2009)ICDMp.1022-7)。由于不同的臨床場景有可能要求不同的患者相似性測量,因此可訓練度量是非常重要的。例如,相對于一個疾病目標(如,糖尿病)相互類似的兩個病人可能對于不同的疾病目標(如,肺癌)是完全不同的。對于所有的目標條件,靜態的相似性測量(如,歐幾里得或馬哈拉諾比斯)的使用可能不是最優的。在本示例中,針對糖尿病發目標訓練LSML相似性測量,然后將其用于找出臨床上類似的患者。將其與基于歐幾里得距離測量選擇患者以及隨機選擇進行比較。
[0036]從訓練集中僅使用K個最相似的患者可以減少用于訓練個性化預測模型的數據變量的數量。通過選擇初始特征的子集減少特征向量的維度可以有助于對其補償。可以使用多種途徑來進行,包括使用信息增益或Fisher分數對類似的患者訓練群執行常規的特征選擇。在本示例中,使用簡單的過濾探試,使得所選擇的特征由測試患者特征向量中出現的特征連同在K個最相似的患者中的兩個或多個特征向量中出現的所有特征的聯合組成。這里,目的是確保能只有能夠影響測試患者的特征被包括進來。
[0037]對于每個患者,基于LSML相似性測量,使用來自與目標患者臨床上類似的病例和對照患者的數據動態地訓練邏輯回歸(LR)預測模型。然后個性化預測模型用于計算該患者的分數(糖尿病發的風險)。使用十倍交叉驗證執行預測建模實驗,并且使用標準AUC(R0C曲線下面積)度量來測量性能。報告AUC和95%置信區間。
[0038]在訓練之后,分析預測模型中的參數來識別由模型獲取的重要風險因子,并且用于針對由模型代表的患者創建“風險因子簡檔”。針對邏輯回歸模型,針對每個特征的貝塔系數獲取該特征的單位變化的對數優勢(log odds)中的變化。除了系數值之外,可以通過計算瓦爾德統計(wald statistic)以及對應的P值來評價系數的重要性。重要的風險因子是具有統計重要的、大幅度的系數的特征。這些所選擇的特征的貝塔系數值可被用于創建風險因子簡檔。對于全局預測模型,可以僅獲取單一的“人口廣泛”的風險因子簡檔。針對個性化的預測模型,針對每個患者獲取風險因子簡檔,而這導致大量的簡檔。在這種情況下,可以獨立地檢查風險簡檔以及風險簡檔跨患者人口的分布。個體簡檔的探索和比較允許準確地找到患者間的風險因子的差異。簡檔的分布的檢查提供它們的行為和關系的全局視角。可以支持個體比較和全局分布分析二者的一種可擴展的方式是對風險簡檔執行合成分層聚類(agglomerative hierarchical clustering)。聚類結果的分析可以提供簡檔的特征和分布的洞察。可以針對不同的患者評價風險因子的相似性和差異。此外,可以關于個性化模型識別的共同風險因子,發現患者人口中的任意結構關系。
[0039]在圖7中顯示了作為最接近相鄰訓練患者的數量的函數的、根據AUC的個性化邏輯回歸分類器的性能。存在與四個不同配置對應的四條曲線。此外,還顯示的全局邏輯回歸模型(~)的性能以供參考。首先,作為基線,K個隨機選擇的患者被用于訓練個性化模型(O)。隨著訓練患者的增加,性能穩定地向全局模型性能增加。由于對于諸如邏輯回歸之類的參數模型來說,針對模型參數需要足夠的數據來進行核實的訓練,因此這樣情況是可預見的。其次,代替隨機選擇患者,歐幾里得距離度量用于選擇K個最類似的患者U)。對于固定數量的訓練患者,基于相似性的選擇始終優于隨機選擇。此外,性能開始在3000個訓練患者之后持平,而這暗示使用更多的不同患者的增益很小。第三,LSML相似性度量被用于選擇用于訓練的K個最類似的患者(Δ )。對于K的所有值,使用定制訓練的相似性測量的性能要優于使用靜態測量。第四,使用之前描述的過濾途徑減少特征向量的維度(O)。這減少模型的訓練數據需求,并且導致明顯的性能改善,特別是對更小的K值。再次,在性能針對大于2000的K值持平時,使用更多的不同訓練患者的邊際效益遞減。個性化模型的性能在K=100時可與全局模型相比較(AUC: 0.611,95 % Cl: 0.605-0.617),并且在更大的K值上好于全局模型(AUC:0.624,95%C1:0.617-0.631 在K = 2000時)。
[0040]為了方便患者特定的風險因子的特性和分布的分析,可以對個性化風險因子簡檔執行合成分層聚類(使用歐幾里得距離測量)。例如,可以構建分層的熱圖繪制,其顯示多達500個隨機選擇的患者的、由個性化模型識別的頂部風險因子。患者特定的風險因子簡檔(如,熱圖中的列)沿橫軸聚類。沿縱軸聚類個體風險因子。可以選擇熱圖中的顏色以與患者風險簡檔中的風險因子分數值(如,β系數值)對應。風險因子簡檔簇的分析顯示一些患者共享非常類似的風險因子,并且被一起分組到相同的簇中,而其他患者具有非常不同且幾乎不重疊的風險因子并且屬于簇樹中相互遠離的組。具有特定風險因子簡檔的患者具有一致的高風險分數(其可被顯示為沿橫軸底部的豎條)。例如,在他們的風險簡檔中具有“操作:CPT:83086[糖化血紅蛋白測試]”以及“實驗室:血紅蛋白alc/全血紅蛋白”的高值的患者具有比低值的患者更高的風險分數。針對每個患者的個性化風險因子還可以與全局模型獲取的風險因子不同。實際上,未由全局模型獲取的大量風險因子可以在個性化模型中被識別為有用的預測符。沿縱軸的風險因子簇可以用于識別具有跨患者的、高共同出現率的高風險因子組。圖6描述個性化風險簡檔600的一個示例,其形成一列分層的熱圖,其顯示由多個隨機選擇的患者的個性化預測模型識別的頂部風險因子。
[0041]因此,可以從上述描述和圖示中看出本公開的一個或多個實施例提供技術特征以及有益效果。對于給定的個體患者,使用患者相似性來動態地確定用于風險目標的病例和對照訓練患者的唯一組(類似的患者群)。針對類似患者群訓練多種類型的預測模型(決策樹、邏輯回歸、貝葉斯網絡、隨機森林等等),并將其用于提供在病例和對照之間區分的重要的風險因子的更強健的評估。基于通過將不同訓練的個性化預測模型分配給每個風險因子的權重組合而確定的可用性分數來選擇和評級個體患者特定的風險。
[0042]因此,根據本公開的一個或多個實施例的、使用來自與調查患者臨床上類似的患者的更小數據組訓練的患者特定的個性化預測模型可以比使用所示的訓練數據訓練的全局預測模型更好地運行。與靜態訓練的全局模型不同,個性化模型是動態訓練的,并且可以利用患者記錄中可用的最相關的信息。可以分析個性化預測模型來識別對于個體患者重要的風險因子,并且可以用于創建個性化的風險因子簡檔。風險簡檔的簇分析顯示具有類似風險的患者的不同組以及個體和全局風險因子之間的差別。一旦識別,可以利用患者特定的風險因子來支持更好的目標化治療、定制的治療方案以及其它個性化的藥物應用。因此,可以改善實現所公開的一個或多個實施例的計算機系統的操作。
[0043]現在參照圖8,顯示了根據實施例的計算機程序產品800,其包括計算機可讀存儲介質802以及程序指令804。
[0044]本發明可以是系統、方法和/或計算機程序產品。計算機程序產品可以包括計算機可讀存儲介質,其上載有用于使處理器實現本發明的各個方面的計算機可讀程序指令。
[0045]計算機可讀存儲介質可以是可以保持和存儲由指令執行設備使用的指令的有形設備。計算機可讀存儲介質例如可以是一一但不限于一一電存儲設備、磁存儲設備、光存儲設備、電磁存儲設備、半導體存儲設備或者上述的任意合適的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、靜態隨機存取存儲器(SRAM)、便攜式壓縮盤只讀存儲器(CD-ROM)、數字多功能盤(DVD)、記憶棒、軟盤、機械編碼設備、例如其上存儲有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這里所使用的計算機可讀存儲介質不被解釋為瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈沖)、或者通過電線傳輸的電信號。
[0046]這里所描述的計算機可讀程序指令可以從計算機可讀存儲介質下載到各個計算/處理設備,或者通過網絡、例如因特網、局域網、廣域網和/或無線網下載到外部計算機或外部存儲設備。網絡可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火墻、交換機、網關計算機和/或邊緣服務器。每個計算/處理設備中的網絡適配卡或者網絡接口從網絡接收計算機可讀程序指令,并轉發該計算機可讀程序指令,以供存儲在各個計算/處理設備中的計算機可讀存儲介質中。
[0047]用于執行本發明操作的計算機程序指令可以是匯編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼,所述編程語言包括面向對象的編程語言一諸如Smalltalk、C++等,以及常規的過程式編程語言一諸如“C”語言或類似的編程語言。計算機可讀程序指令可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡一包括局域網(LAN)或廣域網(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。在一些實施例中,通過利用計算機可讀程序指令的狀態信息來個性化定制電子電路,例如可編程邏輯電路、現場可編程門陣列(FPGA)或可編程邏輯陣列(PLA),該電子電路可以執行計算機可讀程序指令,從而實現本發明的各個方面。
[0048]這里參照根據本發明實施例的方法、裝置(系統)和計算機程序產品的流程圖和/或框圖描述了本發明的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機可讀程序指令實現。
[0049]這些計算機可讀程序指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,使得這些指令在通過計算機或其它可編程數據處理裝置的處理器執行時,產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些計算機可讀程序指令存儲在計算機可讀存儲介質中,這些指令使得計算機、可編程數據處理裝置和/或其他設備以特定方式工作,從而,存儲有指令的計算機可讀介質則包括一個制造品,其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
[0050]也可以把計算機可讀程序指令加載到計算機、其它可編程數據處理裝置、或其它設備上,使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟,以產生計算機實現的過程,從而使得在計算機、其它可編程數據處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。
[0051]附圖中的流程圖和框圖顯示了根據本發明的多個實施例的系統、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或指令的一部分,所述模塊、程序段或指令的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。
[0052]這里使用的術語是僅用于描述特定實施例的目的,并且不意欲限制本公開。如這里使用的那樣,除非上下文明確指出,單數形式意欲涵蓋復數形式。將理解術語“包括”在說明書中使用時,指代所陳述的特征、整數、步驟、操作、元件和/或組成部分的存在,但是不排除附加的一個或多個特征、整數、步驟、操作、元件和/或它們的組合的存在。
[0053]在權利要求中的對應的結構、材料、行為以及所有裝置或步驟加功能元件的等效物意欲涵蓋用于與具體聲明的其它聲明的元件執行功能的任何結構、材料或動作。為了圖示和說明的目的呈現了本公開的描述,但是不意欲是排他的或限制到所公開的形式。在不背離本公開的范圍和精神的前提下,本領域技術人員可以進行多種修改和變形。選擇并描述實施例以便最好地解釋本公開的原理和實際應用,并且使本領域技術人員理解本公開的各個實施例,并且可以進行各種修改以適合特殊使用。
[0054]本領域技術人員將理解,現在或將來可以進行各種改進和提高,其落入權利要求的保護范圍內。
【主權項】
1.一種識別個體層面的風險因子的計算機實現方法,該方法包括: 由至少一個處理器電路從一組人口數據識別至少一個風險目標的一組全局風險因子;由至少一個處理器電路至少部分基于該組全局風險因子來從該組人口數據中識別至少一個成員,其中所述至少一個成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性; 由至少一個處理器至少部分基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、該組人口數據中的至少一個成員,訓練至少一個風險目標的至少一個個性化預測模型; 由至少一個處理器至少部分基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。2.如權利要求1所述的方法,其中所述相關性評價包括代表所述子集與所述感興趣的個體的相關性等級的分數。3.如權利要求1所述的方法,其中從所述人口數據識別至少一個成員包括使用利用所述人口數據訓練的目標特定的度量學習測量。4.如權利要求1所述的方法,其中從所述人口數據識別至少一個成員包括分別識別病例和對照個體并歸并他們。5.如權利要求1所述的方法,其中訓練至少一個個性化預測模型包括至少一個下列統計分類方法: 邏輯回歸; 決策樹; 隨機森林;以及 貝葉斯網絡。6.如權利要求1所述的方法,其中所述確定包括確定該組風險因子在至少一個訓練的個性化模型的每一個中的至少一個貢獻度,并且將所述至少一個貢獻度組合為復合分數。7.如權利要求1所述的方法,其中該組人口數據包括以下至少一種:診斷、實驗室結果、藥物治療、操作、住院記錄、調查問卷的回答、遺傳學信息、微生物數據和自跟蹤體動數據。8.—種用于識別個體層面的風險因子的計算機系統,該系統包括: 至少一個處理器電路,配置來從一組人口數據中識別至少一個風險目標的一組全局風險因子; 所述至少一個處理器電路,進一步配置來至少部分基于該組全局風險因子來從該組人口數據中識別至少一個成員,其中所述至少一個成員具有感興趣的個體的至少一種臨床特性的預定范圍內的至少一種臨床特性; 所述至少一個處理器,進一步配置來至少部分基于該組全局風險因子以及具有預定范圍內的至少一種臨床特性的、該組人口數據中的至少一個成員,訓練至少一個風險目標的至少一個個性化預測模型;以及 所述至少一個處理器,進一步配置來至少部分基于感興趣的個體的該組全局風險因子中的每一個的相關性評價,確定該組全局風險因子的子集,其中所述子集包括感興趣的個體的一組個體風險因子。9.如權利要求8所述的系統,其中所述相關性評價包括代表所述子集與所述感興趣的個體的相關性等級的分數。10.如權利要求8所述的系統,其中從所述人口數據識別至少一個成員包括使用利用所述人口數據訓練的目標特定的度量學習測量。11.如權利要求8所述的系統,其中從所述人口數據識別至少一個成員包括分別識別病例和對照個體并歸并他們。12.如權利要求8所述的系統,其中訓練至少一個個性化預測模型包括至少一個下列統計分類方法: 邏輯回歸; 決策樹; 隨機森林;以及 貝葉斯網絡。13.如權利要求8所述的系統,其中所述全局風險因子的子集的確定包括確定該組風險因子在至少一個訓練的個性化模型的每一個中的至少一個貢獻度,并且將所述至少一個貢獻度組合為復合分數。
【文檔編號】G06F19/00GK106021843SQ201610169189
【公開日】2016年10月12日
【申請日】2016年3月23日
【發明人】胡建英, K.恩格, 王飛
【申請人】國際商業機器公司