專利名稱:用來預測未來健康的系統的制作方法
技術領域:
本發明涉及用于預測一個體的未來健康的基于計算機的系統和方法。具體地說,本發明通過從大量被試總體中獲得縱向數據,從而得到大量生物標識,以統計方法來選擇預測生物標識,并根據所選擇的生物標識確定和評定適當的多元計算函數,從而來預測一個體的未來健康狀況。
可以想象,如果可以足夠準確、長遠地預測一個體的未來健康出現問題,則與等待疾病實際發作然后處理該癥狀相比,可以增加防止個體未來健康出現問題的機會。目前,醫學研究基金中的絕大多數用于提高診斷和治療疾病的方法,而不是用于發現可在任何典型可見的疾病癥狀出現之前減少疾病危險性的預防性測定方法。盡管對疾病治療的重視可大大地推動醫療科技的進步,從而使對所存在的疾病的診斷以及在診斷之后對疾病的治療技術和方法得以大大提高,診斷和治療方式增多,但這種進步仍會導致治療的費用日益增加。這些費用對個人和整個社會來說其結果是驚人的財政花費。這一驚人的費用導致公眾壓力增加,從而需更好的途徑來減少醫療費用。
這樣,除了個體由于被預先告知將來某種疾病發作的可能性高,從而可采取預防措施而受益之外,還可能使整個社會和/或國家的整個醫療費用大大地降低。
迄今為止,想要預測一個體的未來健康狀況本身存在兩個問題(1)這些預測是不嚴密的,因為它們依據的數據庫是從相對較少,即由幾百或幾千個被試者組成的研究樣本中得到的,以及(2)這些預測需從樣本平均值(和其它參數)中推斷出個體情況。這種推斷在可靠地評估特定個體的危險性時存在很大問題,甚至在特定個體屬于某一特定疾病的高危人群時也同樣。這是一個事實,其部分是由于一般采用的統計程序均設計成參照總體平均值,而不是對總體中的個體進行判斷。
為了獲得定量預測,“個體未來健康”應表示為在特定時間框架內發生的特定事件。兩個例子為(a)持續五年時間內心肌梗塞的發生,(b)下一年個體的死亡。對這些事件的預測實際上必然是概率性的。
在本文的上下文中,兩種類型的概率是重要的。事件的先驗概率是在事件發生或未發生這一事實之前的事件概率。事件的后驗概率是事件出現之后,即事件發生或未發生之后的事件概率。顯然,如果事件發生,則事件的后驗概率為1;如果事件未發生,則后驗概率為0。先驗概率和后驗概率之間的區別是值得注意的。
事件在后來的年月或其它時間間隔內發生的先驗概率可能是重要的信息。對事件概率的了解可改變行為,換句話說,人采取的行動(行為)可依賴于事件的先驗概率。這一原理可通過考慮兩個極端的情況得到自身驗證。幾乎可以確信,人們在以下兩種情況下可呈現不同的行為(采取不同的行動)被告知來年的死亡概率是(a)0.9999,或(b)0.0001。
事件的先驗概率取決于在判斷概率的該時間段可以使用的信息。為了說明這一點,來看看下面的假想“游戲”。從所有美國居民中隨機選出一個健在的人,然后跟蹤他一年的時間。在年終調查該人的生存狀態(活著或死亡)。“事件”為“該人在這一年內死亡”。年終時事件或者發生(人死亡),或者未發生(人活著),其后驗概率分別為1和0。在選擇跟蹤的人前,可利用美國死亡率統計來估計該人在這一年將死亡的先驗概率。這一概率可通過p=d/N來計算,其中N為在危險組中的總人數(這里為在年初時活著的美國人群中的總人數),d為在危險組中死亡的總人數。例如,1993年的數據為(近似)d=2,268,000,N=257,932,000,則事件的先驗概率約為p=0.0088。[數據來自Microsoft Bookshelf 1995 Almanac,文章題目為“Vital Statistices,Annual Report for the Year1993(Provisional Statisties),Deaths”以及國家健康統計中心公布的Vital Statistics of the United States。]在該游戲中,事件的先驗概率基于很小的信息量,簡單地說,跟蹤的人可能是危險組中的一員,該信息包括來自活著的所有人和在選擇期間的美國居民的信息。
上述危險組(從中隨機選擇被試者)的其它信息包含被試者的其它信息和事件先驗概率的變更。例如,繼續基于1993年數據的“游戲”·如果危險組為美國男性組,即如果在選擇前已知被試者為男性,則事件先驗概率約為p=0.0093,它高于性別不詳或不確定的情況約為6%。·如果危險組為年齡在75~84歲的美國男性組,即如果在選擇前已知被試者為年齡在75-84之間的男性,則事件先驗概率約為p=0.0772,或約為年齡不詳或不確定的男性的情況的8.3倍。
這些例子表明,一般的原理是事件的先驗概率取決于評估概率期間的可用信息。先驗概率最精確的判斷一般是根據所有可用信息得到的判斷。
先驗概率的十分精確計算可能并不能保證得到特定的結果這就是說,特定人體的先驗概率可能不十分接近后驗概率。考慮上述的極端情況,即一特定個體在來年死亡的先驗概率為0.0001。盡管他生存的可能性很高,但不能擔保對該“游戲”中的所有個體來說,每10,000人中有約9,999人在該年將活著,后驗概率為0(該值接近于為0.0001的先驗概率),而每10,000人中有約1人將死亡,后驗概率為1,該值與先驗概率完全不同。為了進一步說明該原理,下面來看一個投擲硬幣的事件,該事件中“頭像面”出現的先驗概率精確地為0.5。“頭像面”的后驗概率或者為0,或者為1,但不可能十分接近于0.5。因此,一個體的先驗概率不應認為近似于該個體的后驗概率。但是,如果由非常多的個體來“玩游戲”,則后驗概率的平均值(也是事件發生的個體百分比)將十分接近先驗概率。
在一些情況下,個人可通過在具有不同先驗概率的組間“移動”而改變先驗概率。例如,流行病學家已指出,若一個中年男性美國居民,總膽固醇水平很高,包括具有較高的低密度脂蛋白,與膽固醇水平低得多的對照個體相比,他在未來五年中死于心肌梗塞的先驗概率較高。臨床試驗表明,如果高膽固醇的人可在總體上降低他的膽固醇水平,即“移動”到膽固醇低得多的“組”中,則他大大降低了其在未來五年中死于心肌梗塞的先驗概率。
在后面的段落和章節中,將采用“危險率”一詞來代替詞組“一特定事件在特定時間框架內的先驗概率”。這對應于在統計學中將“危險率”定義為預期損失,其中如果事件發生,則損失函數的值為1,如果事件不發生,則值為0。
前述內容說明的原理是,不同的信息量導致不同的先驗概率。一個已知很多情況(即具有許多已知特性的一些小亞總體)的人的危險率可能與已知很少特性的大亞總體的危險率十分不同。但是仍有另一個問題使人懷疑對總體的傳統科學探索研究,從而確定個體疾病危險率的能力。這個問題的產生歸因于對疾病發生的一般過于簡單的了解,特別是對不斷變性的疾病,如癌癥、心血管疾病、糖尿病等的了解。這就是說,出于種種原因,一種傾向是相信這些疾病或者可以通過開一個單一的藥劑組分處方來得到控制,或者通過單一的組成部分得到臨床指征。例如,人們被建議適當減少對脂肪的攝入可控制乳腺癌;增加特定飲食中的纖維成分可控制結腸癌;對血液中膽固醇含量的測定可得到心臟病的臨床指征;而胃癌的臨床指征是血液中維生素C水平很低。這些過于簡單的觀點往往被證實不能恰當地確定疾病的發生,特別是對一個個體而言。需要考慮的疑惑很多,以至于無法指出從總體數據推斷出總體中個體情況的最大困難是什么。僅對成千上萬數量中單一一個組成部分,而不是對可能發生的百萬種組成部分進行試驗和調查,將伴隨大量不確定成分,特別是當企圖從這些數據中推斷出個體疾病危險率時。
現在存在雙重困難(a)將針對實驗個體的總體得出的數據推斷到隨機選出的個體上,以及(b)依據單一的指征或病因事件來嚴格地折衷推算出隨機選出的個體的未來疾病危險。如果能夠更可靠地確定一個體的某一特定疾病的危險率,則進而可以為該個體提供信息,這樣可以給他或她更多的忠告,使其決定自己的個人行為。實質上,對個體來說,預測未來健康的更可靠的方法將成為個人內在化地了解他自己的健康狀況的非常強有力的手段,使其更有效地保持良好的身體。
此外,對于由于他們屬于某種類型(每個個體類型與一特定疾病如心臟病高度相關)而判定他們對一特定疾病來說具有高危險性的個體來說,目前可用的方法論一般不能使人定量預測一特定的個體何時將得病或該疾病變得致命,從而足夠可靠或可信度很高地促進個體在未來的時間內采取有效的步驟來顯著地減少危險率。因此,人們期望有一種不僅能夠可靠地預測在特定時期內出現特定健康問題的有效的具有通用用途的工具,而且期望該工具能夠根據這種預測來監視防范措施。
本發明涉及提供一種用于判斷一個體被試者未來疾病危險率的工具,從而使該個體更有效地預防疾病而不是治療疾病。
更具體地說,本發明提供一種用于為選出的個體定量預測多種疾病危險率的通用工具,其中這些疾病在未來基本上具有很高的發病概率。這種預測比現有可用的方法有更大的可靠性。
特別是,本發明涉及提供一種基于計算機的方法和裝置,該方法與裝置提供一種為特定個體判斷未來健康危險率,并用于監視預防措施,以便該特定個體減少健康危險率的進行性系統。
本發明確定一組包括概率信息的所選生物標識,這樣將得到個體在特定時間段或年齡間隔內的特定生物學狀況,并采用這些生物標識的交叉和/或縱向值來估算人體的危險率。
更具體地說,本發明涉及用于預測個體未來健康的基于計算機的系統,包括(a)一個包括一個處理器的計算機,該處理器含有從被試總體的個體成員中縱向采集到的生物標識值的數據庫,所述成員的亞總體D確定為在特定時間段或年齡間隔內已獲得特定生物狀況,而亞總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;以及(b)一個計算機程序,包括以下步驟(1)從所述生物標識中選擇生物標識子集,判別屬于亞總體D和D的成員,其中生物標識子集的選擇依據被試總體的個體成員的生物標識值的分布;以及(2)采用所選生物標識的分布來進行統計過程,這樣可用于(i)將被測總體的成員分類成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的亞總體PD,或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的亞總體PD;或(ii)對被試總體的每個成員進行定量判斷,推算得到特定時間段或年齡間隔內特定生物狀況的概率。
本發明尤其是涉及一種用于預測一個個體的未來健康的基于計算機的系統,該系統包括(a)一個包括一處理器的計算機,該處理器包含一個個體的多個生物標識值;以及(b)一個包括為所述多個生物標識值提供統計過程的步驟的計算機程序,這樣(i)將所述個體分類成或者為在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率,或者為在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率;或(ii)對被試總體的每個成員進行定量判斷,推算在特定時間段或年齡間隔內獲得特定生物狀況的概率;其中所述統計過程是基于(1)從被試總體的個體成員中采集縱向得到的生物標識值的數據庫,所述成員的亞總體D確定為在特定時間段或年齡間隔內已獲得特定生物狀況,而亞總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;(2)從所述生物標識中選擇生物標識子集,判別屬于亞總體D和D的成員,其中生物標識子集的選擇依據被試總體的個體成員的生物標識值的分布;以及(3)采用所選生物標識的分布來進展統計過程。
對本領域技術人員來說,在下面對發明的詳細公開說明將更清楚地展現出本發明的其它目的和優點。
圖1表示依據判斷得到的線性判別函數值的經驗分布函數(“EDF”),分別針對實例中D組(實線)和D組(虛線)。
圖2示出了實例中D組和D組基于最小隨機對象效應指征值的線性判別函數值的經驗分布函數(“EDF”)。
下面將詳細描述本發明的特定優選實施例。可以理解,這些實施例將作為示范性的例子,而本發明并不受其限定。
本發明依據這樣一種理論,即個體健康總的來說受范圍很寬的生理和生化參數的綜合的相互作用的影響,這些參數涉及營養、毒理學、遺傳、激素、病毒、感染性、人體測量、生活方式以及其它可能描繪出該個體的異常生理學和病理學狀態的狀態。基于這種理論,本發明涉及提供一種用于預測未來健康的實踐性系統,該系統采用多元統計分析技術,通過將一個體的一組生物標識值與從大量被試總體的一組大量的個體生物標識值中縱向獲得的數據庫進行統計學比較,能夠定量預測該個體的未來健康。這里所用的“生物標識”一詞指的是任何可影響或涉及診斷或預測一個體健康的生物指征。這里所用的“縱向”一詞指的是生物標識值是在一時間段內,特別是在至少兩次測量事件內周期性獲得的這一事實。
縱向評估的頻率和持續時間可以變化。例如,一些生物標識可每年評估,評估周期范圍為從2年這樣的短期至整個生存時期這樣的長期。在一些情況下,例如在推斷新生兒時,生物標識的評估可更頻繁一些,例如每天、每星期或每月一次。縱向評估的時機可以是“非規律性周期”的,即在不相等的時間間隔內發生。一個體的一系列縱向評估可以是“完全的”(即從所有預定評估和所有預定生物標識中得到的數據是實際得到的、有用的數據)或者是“未完全的”(即就某些方式而言,數據是未完成的)。一個體的生物標識既可以是交叉抽樣的,即在同一時間點上,采樣又可以是縱向的。本發明可以對個體數據,即包括上述任何一種或所有所述特性的交叉抽樣或縱向的、規則或不規則周期得到的、完全的或未完全的數據進行所需的統計分析。
用于判斷未來健康的研究系統能夠根據特定時間段內的特定生物狀況來對個體的概率進行定量估算。定量概率估算是采用本發明的統計分析程序來計算的。該研究系統一般可用于對未來一、二、三、五年或最終達15至20年或更多年進行未來生物狀況的預測。盡管該研究系統一般在一特定疾病通常可觀察到或檢測到指征很久之前使用,但該研究系統也可用于預測相對較短時間周期內的未來健康,如僅為幾個月或幾周,或甚至更短。
盡管包括在被試總體內的成員個數無上限,例如最終可包括幾百萬的被試成員,但典型的被試總體最初可包括很少的成員。可采用近似統計抽樣技術來從很多一般總體中選擇被試總體,從而提高數據采集的可靠性。
在典型的實施例中,本發明涉及基于計算機的系統,該系統采用一系列的統計分析步驟來產生數學統計函數,這些函數可用于根據特定時間段或年齡間隔內的特定生物狀況來估算個體的危險率,并斷定個體處于高危險率中。在該研究方法的階段I之前,可用被試者可隨機確定為訓練樣本或評定樣本;在階段I至III對訓練樣本中的數據進行處理,階段IV對評定樣本中的數據進行處理。階段I為篩選階段,采用相關分析、邏輯回歸、混合模型和其它分析選擇出一個大的、具有可能對危險率估算有用的信息的生物標識子集。
階段II為參數估算階段,采用混合線性模型來估算期望值向量,并構造候選生物標識的協變矩陣參數,甚至在未完全數據和/或不規則周期縱向數據的情況下也同樣。階段III為生物標識選擇和危險率判斷階段,采用判別分析方法學和邏輯回歸來選擇含信息量的生物標識(確切地說,包括縱向判斷),估算判別函數系數,并采用一反相累積分分布函數和邏輯回歸來估算每個個體的危險率。階段IV為評定階段,采用評定樣品來對判別過程的錯誤分類率進行無偏差估算。
盡管在前面的段落中出現的統計過程的單個步驟在統計文獻中有描述,但可以相信,這些單個的步驟沒有如這里所述的那樣組合在一個單一的總過程中。特別是,隨后過程的傳統形式例如在下述文獻中有描述Encyclopedia of Statisticai Sciences,Samuel Kotz,Normal L.Johnson和Campbell B.Read編輯,1985年由Jhon Wiley& Sons出版,以及這里引證的其它文獻(a)相關分析(第2卷第193-204頁),(b)邏輯回歸分析(第5卷,第128-133頁),(c)混合模型分析(第3卷第137-141頁,文章題目為“Fixed-,Random-,andMixed-Effect Models”),(d)判別分析(第2卷第389-397頁)。本發明可采用這些過程的傳統形式或之后可能發展和發表的新型形式。
相關分析是統計方法中用于估算兩個或多個變量之間線性相關程度的詞匯。這里所用的相關包括各種類型的相關,包括(但不限于)Pearson積矩相關、Spearman’sρ、Kendall’sτ、Fisher-YatesγF以及其它等。
邏輯回歸是統計方法中的一個詞匯,包括邏輯-線性模型,用于分析被觀察的非獨立變量(可以是比例或比率)和一組解釋性變量之間的關系。這里所用的邏輯回歸(或其它邏輯-線性模型)主要用于分析,其中非獨立變量為二進制輸出,代表一個體的成員屬性處于兩個互補(非交疊)研究對象組中之一內一組為在特定時間段或年齡間隔內將獲得特定疾病或狀況(有時在這里稱為“特定生物狀況”),另一組為在特定時間段或年齡間隔內將不獲得特定疾病或狀況。在這種情況下,解釋性變量典型地為生物標識或生物標識函數。
混合模型分析是統計方法中的一個詞匯,用于分析相關的非獨立變量(多元測量或觀察、一個變量的縱向測量/觀察以及/或縱向多元測量/觀察)和可包括協變量如年齡、分類變量(代表組內成員屬性)等“獨立變量”之間關系的期望值;也可以用于分析代表相關的測量/觀察內協變性的結構和參數。詞“混合模型”包括固定效應模型、隨機效應模型和混合效應模型。混合模型在期望值模型和/或協變性模型中可具有線性或非線性的結構。混合模型分析一般包括對期望值參數(通常表示為β)和協變矩陣參數(通常的形式為∑=ZΔZ’+V,其中Δ和V為未知參數的矩陣)的估算。混合模型分析還可包括對個別研究對象的隨機對象效應(通常表示為以dk代表第k個被試者)的預測和所謂“最佳線性無偏差預測”(或“BLUPs”)。混合模型分析一般包括測試期望值參數和/或協變參數的假定值和建立參數的可靠程度范圍的過程。
特別是,判別分析方法學涉及用于展開判別函數的統計分析方法和技術,該函數用于依據多元觀察對象(例如一研究對象的生物標識值的向量)的值確定其應屬于兩個互補(非交疊)的研究對象組(例如在特定時間段或年齡間隔內將獲得特定疾病或狀況的一個組和在特定時間段或年齡間隔內將不獲得特定疾病或狀況的一個組)之中的哪一個。另外,判別函數可以指作為基礎來計算屬于給定組內的給定觀察對象的概率估算值的函數。對本發明來說,感興趣的觀察對象一般包括從大量被試總體的每個成員中或從單個的被試對象中獲得的若干生物標識值。本發明的判別函數利用這些生物標識值的分布,針對確定為感興趣的每個生物標識展開。這種分布描繪成具有每個生物標識值的被試總體中各個成員的總數對生物標識值本身的關系圖。這樣,本發明采用了使用基于個體生物標識值的分布的統計過程,這些生物標識值是從被試總體的單個成員的每個生物標識中獲得的,更清楚地說,例如從不同被試總體中獲得不同生物標識,進而從得到的平均生物標識值中獲得的。
“判別函數”一詞的含義是指用于將觀察對象(標量或向量)分類成兩組或更多組的幾種不同類型的函數或過程之一,包括(但不限于)線性判別函數、二次判別函數、非線性判別函數以及各種類型的所謂優化判別函數。
本發明基于計算機的系統包括一個具有一處理器的計算機,該處理器能夠運行一個或一組計算機程序(后面簡稱為“計算機程序”),所述計算機程序的步驟用于在本發明的各種步驟和階段中執行所需計算和數據處理。處理器可以是微處理器、個人計算機、主計算機系統,或總的來說是任何能夠執行程序的數字計算機,其中所執行的程序為進行所需的計算和數據處理。處理器一般包括一中央處理單元、一隨機存取存儲器(RAM)、只讀存儲器(ROM)、一個或多個用于在各種元件中傳輸數據的總線或通道、一個或多個顯示裝置(如“監視器”)、一個或多個輸入-輸出裝置(如軟盤驅動器、硬盤驅動器、打印機等)以及用于控制輸入-輸出裝置和/或顯示裝置和/或將這些裝置連接到總線/通道上的適配器。一具體的處理器可包括所有這些元件,或僅包括這些元件的一部分。
計算機程序可存儲在ROM或一個磁盤或一組磁盤中,或存儲在任何可用于儲存和分配計算機程序的有形媒體中。
計算機程序能夠為分析的各種階段和步驟根據截面的和/或縱向的多元生物標識數據執行計算。
生物標識數據最好從具有足夠多的樣本的被試總體中采集到,這樣得到兩年或三年時間內感興趣的特定生物狀況的成員總數足夠多,從而能夠采用判別分析方法學來對特定生物狀況進行有意義的處理。由于本發明的一個特征是涉及提供一種采用相同的數據庫來進行預測的裝置,其中這種預測是根據從一年至兩年內死亡的主要的、基本的任何原因中得到的任何主要疾病和/或死亡概率進行的,所以被試總體最好大到足以用來為研究系統提供任何一種或多種常見疾病和死亡基本原因,其中所有感興趣的死亡的總和至少約為60%,更優選的是至少約為75%。感興趣的死亡這里定義為那些從病理學上說的自然死亡,有別于由事故、被殺或自殺引起的死亡。
例如,采用疾病控制與預防中心(每月生命統計報告,增補,卷44,第7號,1996年2月26日)提供的數據可以看出,與病理原因導致死亡的總原始死亡率約為880/100,000相比,所有病理原因導致死亡中多于75%可以由下述基本死亡原因來統計具有原始死亡率的惡性腫瘤(ICD 140-208)區別于與年齡相關的死亡率,為205.6/100,000;主要心血管疾病(ICD 390-448)為367.8/100,000;慢性阻塞性肺病(ICD 490-496)為39.2/100,000;以及糖尿病(ICD 250)為20.9/100,000。實際上從中已可看出,這些疾病體現出主要的飲食和生活方式影響,與飲食和生活方式狀況的變化有關,由各種可解釋、可測量的生物標識顯現。
本發明的新型特征之一是,所述基于計算機的系統和裝置可用于通過比較個體的生物標識值的分布圖和從大量的被試總體中獲得的大量生物標識值,從而確定一特定個體患有這些主要疾病中任何一種的危險率。由于已知這些主要疾病具有許多可反映在這些生物標識值中的共同因素,因此本基于計算機的系統可用來同時判斷患這些主要疾病的危險率。例如,已知總血清膽固醇是與許多這些疾病相關的生物標識。通過監視作為重要預測因素的一特定疾病或根本死因的每個生物標識值分布,并結合其它重要的生物標識預測因素,采用本發明比較所述分布和被試總體,一個體研究對象可十分準確、定量地被告知,對該特定個體而言哪種疾病的危險性最大。
本發明的特殊特征是,在一特定疾病的典型癥狀顯現出來之前即為患一特定疾病的危險率最大的那些個體提供在未來的特定時間段或年齡間隔內患該疾病的定量概率。得到這些信息后,由于已知這些疾病與飲食和生活方式狀況相關,該個體接下來可進行行為的改變,從而減少所確定的疾病的危險率。
另外,在越來越長的時間段內采到數量越來越多的研究對象的越來越多的數據之后,可以將每種主要疾病和死因劃分得越來越細,并且本發明的方法學中包括的較少的相似疾病和根本死因可重新定義。例如,不同類型的癌癥可用下述詞匯來細分,例如肝癌、肺癌、胃癌、前列腺癌等。這樣,本發明的基于計算機的系統提供一種包括其劃分不斷增大的總體的裝置,從而預測每個個體在特定時間段內得或不得由特定病理學導致的疾病的定量危險率,其中該疾病被越來越細地限定。
從被試總體中采到的生物標識數據中的一組綜合的生物標識最好盡可能多地包括各種各樣的生物標識,這些生物標識被認為或確信與最共同的疾病或病理學導致的死亡的根本原因相關。另外,可包括從生物功能的每個已知和基本上可接受的遺傳學、生理學和生化領域中得到的有代表性的生物標識集。其它的生物標識例如最好包括所有可從生物樣本中測到的那些生物標識,其中該生物樣本可以儲存,以便在樣品采集很久之后用于分析。
生物樣本最好包括血樣和尿樣,但其它生物樣本也可包括在采集的樣本之中。例如也可采集的樣本有唾液、頭發、趾甲和指甲、糞便、呼出氣體等。這些生物樣本一般是基本上從被試總體的每個成員中獲得的。但在一些情況下,對特定的生物標識子集來說,可僅從總體的特定子集中獲得。
在采集生物樣本的同時一般也得到與被試總體每個成員有關的營養習慣和生活方式。與營養習慣和生活方式有關的生物標識可包括的內容例如如表1所示。盡管這里采用列于表1中的營養和生活方式生物標識來展現與營養習慣和生活方式有關的生物標識類型,但應該明白該表不排除落在本發明保護范圍之內的營養和生活方式生物標識。呈現重要營養定論的生物標識以及臨床和感染的生物標識也可由其它因素,例如營養的攝取確定。這樣,顯示于表9中的類別描述(例如血清生物標識、尿液生物標識、調查表等)是可選擇來描述獲得的生物標識值的類別的示例。對于在一段時間內可變化的營養和生活方式生物標識來說,最好每次采集和記錄被試總體中每個成員的生物樣本。
表1 可用在本方法中預測未來健康的生物標識的說明表單血清生物標識總膽固醇* 維生素A1*HDL膽固醇* 維生素A1混合蛋白*LDL膽固醇* 抗壞血酸*載脂蛋白b* 鐵*載脂蛋白A1*鉀*甘油三酸脂*鎂*脂類過氧化物(丙二醛等效物TBA)* 總的磷*α胡蘿卜素(脂蛋白載體修正)*無機磷*β胡蘿卜素(脂蛋白載體修正)*硒*γ胡蘿卜素(脂蛋白載體修正)*鋅*ζ胡蘿卜素(脂蛋白載體修正)*鐵蛋白*α隱黃素(脂蛋白載體修正)* 總的鐵結合能力β隱黃素(脂蛋白載體修正)* 空腹葡萄糖*雞油菌黃質(脂蛋白載體修正)* 尿素氮*番茄紅素(脂蛋白載體修正)* 尿酸*黃體素(脂蛋白載體修正)* 前白蛋白*脫水黃體素(脂蛋白載體修正)* 白蛋白*鏈孢紅素(脂蛋白載體修正)* 總蛋白質*六氫番茄紅素(脂蛋白載體修正)* 膽紅素*Phytoene(脂蛋白載體修正)* 甲狀腺刺激激素T3*α生育酚(脂蛋白載體修正)* 甲狀腺刺激激素T4*γ生育酚(脂蛋白載體修正)* 可替寧黃曲霉素-白蛋白加合物 雙單體γ亞油酸(203n6)*乙型肝炎核心抗體(HbcAb) 花生烯酸(204n6)*乙型肝炎表面抗原(GhsAg+) 二十碳五烯酸(205n3)*白色念珠菌抗體二十二碳四烯酸(224n6)*Epstein-Barr病毒抗體 鯡油酸(225n3)*二型皰疹病毒抗體 二十二碳六烯酸(226n3)*人類乳頭狀瘤病毒抗體 總飽和脂肪酸(160,180,幽門螺桿菌抗體200,220,240)*雌二醇(E2)(用于女性周期調節)* 總單一不飽和脂肪酸(141,性激素結合球蛋白* 161,181n9,201,241)*催乳激素(用于女性周期調節)* 總n3聚合不飽和脂肪酸(183n3,睪酮(用于女性周期調節)* 205n3,225n3,226n3)*血紅蛋白* 總n6聚合不飽和脂肪酸(183n6,肉豆蔻酸(140)* 202n6,203n6,204n6,224n6)*棕櫚酸(160)*總n3聚合不飽和脂肪酸/總n6聚不硬脂酸(180)*飽和脂肪酸(183n3,205n3,花生酸(200)*225n3,226n3/183n6,202n6,20榆樹酸(220)*3n6,204n6,224n6)*二十四酸(240)*肉豆蔻腦酸(140)*十六碳烯酸(161) 總聚合不飽和脂肪酸(182n6,18油酸(181n9)* 3n3,183n6,202n6,203n6,204n6,鱈油酸(201)* 205n3,224n6,225n3,226n3)*順芥子酸(221n9)* 總聚合不飽和脂肪酸/飽和脂肪酸二十四酸(241)*(182n6,183n3,183n6,202n6,203亞油(182n6)* n6,204n6,205n3,224n6,225n3,22亞油酸(183n3)*6n3/160,180,200,220,240)*γ亞油(183n6)*[約10-30個遺傳標識,取決于所調查的疾病]二十碳二烯酸(202n6)*尿樣生物標識Mg*乳清酸核苷 Mn*Cl* Na*Mg* Se*Na* Zn*肌酸酐 總生育酚(修正脂類攝取)容積總視黃醛衍生物*NO3總類胡蘿卜素*黃曲霉毒素(AF)M1硫胺*AF N7鳥嘌呤核黃素*AF P1煙酸*AF Q1維生素C*黃曲霉素[約30種不同類型的食物]*8-脫氧鳥苷 [約30種不同的脂肪酸]*食物中的營養攝取(從調查表中得到)血紅細胞總蛋白質* RBC谷胱甘肽還原酶*動物蛋白質* RBC過氧化氫酶*植物蛋白質* RBC過氧化物岐化酶*魚蛋白質*脂類* 人體測量參數“可溶”碳水化物* 身高*總食物纖維*體重*總卡路里*從脂類中攝取的卡路里比率* *表示生物標識是決定膽固醇*營養狀況的重要成分Ca*P*Fe*K*對期望得到生物標識值的生物樣本進行分析,以確定該生物樣本中每個元素的生物標識值。應該明白,生物樣本中任何可能發現和測量的成分均在本發明的范圍之內。例如包括可以從血樣中測到的遺傳學生物標識以及在任何其它合適的生物樣本中可測到的生物標識。
由于本發明的其它特征是確定用于預測疾病和死亡的新的一組生物標識,因此生物標識組可包括以前不知道是否對預測特定疾病或特定死因具有統計學意義的生物標識。這樣,由于從原理上說可使用的生物標識的總數是基本不受限制的,因此實際所用的生物標識數目一般來說僅出于對實際經濟能力和方法學考慮的限制。
由于本發明的其它特征是提供一種用于預測在未來的特定時間段或年齡間隔內特定生物狀況的基于計算機的系統,因此生物標識值的總數可限定在僅是那些對預測單一的特定生物狀況來說具有統計意義的生物標識值。這樣,當打算將本系統典型地用作一般目的的工具,最終主要來預測和監視基本上作為所有主要類型的疾病和根本死因時,這里公開的所用方法學也可以一次針對一種疾病和死因。
在采樣之后,可以立即對生物樣本進行分析,也可以將樣本儲存以備后來的分析。由于希望可以在相對較短的時間內采到大量的樣本,并且在一般情況下不安排立即進行即時分析,因此樣本最好儲存起來以備后來進行分析。由于樣本一般均儲存相當一段時間,因此樣本一般均冷凍。樣本在保持樣本完整性的情況下儲存和運輸。該技術例如在Chen,J.,Campbell,T.C.,Li,J.,和Peto,R.等人的題目為“中國的飲食、生活方式和死亡率”(65個中國鄉村特點研究,牛津,英國;Ithaca,紐約;北京,中國;牛津大學出版社;Cornell大學出版社;人民醫學出版社,1990)中有描述。
采用身體上的樣本如生物樣本是特別優選的,因為選擇這種樣本對采用已確立的、經濟有效的技術來采集、儲存和分析豐富的縱向得到的生物標識數據來說提供了可實際操作的手段。最好是針對被試總體在經過的一段時間內,至少是5-10年,最優選的是15-20年或更長的時間內進行生物樣本的采集,這樣產生的數據質量能夠不斷地提高概率預測的可靠性。
由于本系統的可靠性最終是由采到的生物標識數據的質量來決定的,因此需采用適合的測量,以確保數據來自所有方面,具有整體性。例如當關心生物標識的穩定性時,需要考慮和采取適當的措施來計算在一段時間內可能會影響或引起生物標識值品質降低的因素。
另外,當本公開的內容一般涉及從身體上的樣本中獲得生物標識數據(其中所述身體上的樣本是從被試總體的成員或一個被試對象中獲得的),并且生物標識數據是從每個被試個體生存的飲食和生活方式中提取出來的時,從任何來源中獲得生物標識數據的使用均落在本發明的精神和保護范圍內。例如,本方法還可包括采用從電生理測量技術如腦電圖(EEG)數據、心電圖(ECG)數據、放射成象(D光)數據、核磁共振圖象(MRI)等中獲得的醫學診斷數據,并且或僅使用一部分數據,或最好是混合使用從生物樣本和生存的飲食以及生活方式中縱向獲得的生物標識數據。
由于被試總體最好是在一些年中受監視,因此可以期望,從該被試總體中觀察到的死亡率將代表基本上所有人群。對被試總體中的每種疾病的死亡率來說,個體被確定,并且記錄根本死因。最好是采用已有的編碼系統,例如已建立的疾病的國際統計學分類和涉及的健康問題(ICD-10)(日內瓦,世界衛生組織,1992-c1994,第10版)。其它可采用的編碼系統也在本發明的范圍和精神之內。
采用一有效的系統來確定被試總體的成員何時得病或具有特定生物狀況,并且也可以采集死亡率,另外采集被試總體的生物標識和死亡率數據。
生物標識值的數據庫最好包括每個個體的信息(記錄有生物標識和生物標識樣本采集和記錄時的時間和年齡)、實際信息(通過對個體的監視而記錄的每種疾病事件、醫療情況、醫療病理學情況或死亡等),包括診斷和事件發生的時間。如果可能的話,數據庫包括判斷每個事件前、判斷過程中和判斷之后的生物標識值。
由于本發明的一個方面涉及在不知生物標識是否對預測未來的特定疾病子集或根本死因子集具有統計意義之前即確定,因此應盡可能多地監視生物標識。在有代表性的實施例中,從被試總體的每個成員中獲得約200個生物標識值,當然對可用于進行基于計算機的統計分析方法學來說,生物標識的數目基本上沒有上限。
由于本發明涉及提供一種用于預測在特定時間段或年齡間隔內出現特定生物狀況的實用和可靠的系統,因此被試總體的每個成員生物標識值基本上全部是在至少兩個不同的時間段內采到的。更優選的是,為了得到傾向于隨時間變化的信息,全部采集至少在三個時間段內進行,最優選的是,生物標識值的采集是在實際可行的條件下盡可能長的時間周期內進行的。
在本發明的另一方面中,基于的理論是一個人的個體生物標識值的比率或該比率的變化對預測未來健康來說,比任何給定的生物標識值的實際值更重要,而判別函數一般是采用基本上全部的生物標識值來確定的。由于一般認為,從實際的原因出發,在每次進行試驗時不可能期望從被試總體的每個成員中獲得全部生物標識值組,因此本發明的統計分析研究方法包括以統計學的有效方式可靠地計算非全部數據的方法。
本發明的又一方面不僅提供定量判斷未來特定疾病的危險率的手段,還提供一種用于定義和確定一個人在未來中得所有病的危險率最低的那些生物狀況的可用工具。因此“特定生物狀況”一詞在本發明中意味著包括所有健康范圍,從最強健的健康到最嚴重的疾病。這樣,本發明涉及提供一種用于監視和預測未來健康(從最健康到最不健康)的系統。
盡管在特殊地區中,從被試總體中得到的結果可用于預測總體人群的未來健康,這樣在對相同總體人群中個體的未來健康進行預測時將不必從該總體人群中選擇被試總體。但這種限制不是必須的,因為已知,對于其所得的疾病占有概率具有他們家鄉區域的特性的個體的總體來說,當他們遷移至其人群具有不同疾病組的占有概率的新區域時,他們將得的疾病具有遷移到的新區域的特性。這一點將隨著時間的推移與取得新地區的飲食和生活方式狀況一致。這就是說,在不考慮遺傳特性的條件下,世界上的所有人種和種族傾向于得相同的普通疾病,而這些疾病對每個人種和種族來說可能是獨特的。
本發明的特定特征之一是該系統能夠在未來健康問題通常被診斷出之前預測未來健康將發生問題。通過采用研究對象的判別分析方法來分析從大量被試總體中采集到的數據庫,可具有估算特定定量概率地預測特定個體在未來發生特定健康問題的時間。另外,本發明提供一種用于預測特定健康問題的系統,隨著時間的越來越長,從越來越大的被試總體中采集的數據越來越多,該系統的可靠性越來越強。
一般針對每個生物標識對生物樣本進行分析,從而得到期望的定量值。出于經濟和方便的原因,并且由于可以采集到大量的樣本,開始可僅對已診斷出得病或在樣本已采集的時間段內死亡的個體進行樣本分析,同時隨機選擇被試總體中的剩余部分。例如,如果所調查的被試總體的每年死亡率在每年2-3%的范圍內,則具有300,000成員的被試總體中的死亡人數為6000-9000,其中有意義的死亡數目是由主要的根本死因引起的。
本發明的另一特征之一是包括如下步驟等到相當數目的死亡在被試總體中出現,隨后選擇那些個體作為初始確定生物標識值的個體。另外,仍舊生存的被試成員可從被試總體的剩余部分中選擇。為了在需要經濟控制和需要獲得足夠大量的成員以得到有統計意義的結果之間達到平衡,本系統提供一種限制分析測量花費的實際方法,即為了最少的花費中僅需要那些將提供最多信息的樣本。當然,隨著被試總體中發生死亡的成員越來越多,在該時間段內將對越來越多的樣本數目進行分析。但是,從建立越來越可靠的定量預測未來健康的系統來說,獲得的數據值將或多或少地相應于采集額外生物標識值的花費。這一點是本發明許多特殊特征中另一個與現有系統不一樣的地方。這種延遲樣本分析的技術允許推遲花費,直到得到的結果趨于具有較大的實際值為止。
在選擇用于分析的樣本時,可采用公知的研究方法來確定生物標識值。由于要分析的樣本數量很大,并且每個樣本均需測量大量的生物標識值,如果不是全部也是大多數測量一般采用多通道分析儀,例如由Boehringen Mannheim Corp.of Indianapolis,IN制造的BMD/Hitachi Model 747-100。這種分析儀可設計成采用總樣本中的相對較少量樣本同時地測量所選大量生物標識組的生物標識值。例如,所采集的血量一般約為15毫升,而每次分析測量僅需10-30微升。類似地,所采集的尿量一般約為50毫升,而用于分析的量約為100微升。其它生物樣本也可以采用適當的較小量。
由于在代表性實施例中可采用可物理保存的生物樣本,并且由于僅需要采用相對較少量的分析樣本用于任意選擇時間段的測量,因此一般在采集樣本很久之后才對可從給定樣本中檢測到的任何生物標識進行有效的研究分析。例如,盡管可以初始即采用所述系統來分析什么是目前確信的更有效的生物標識,但該系統也很容易適合于包括其它目前仍不能確定是否對預測未來健康很重要的生物標識。從原理上說,在時間充裕和經濟允許的情況下,每個從保留的生物樣本中可檢測到的生物標識均可最終被測量。
盡管希望得到被試總體中每個成員的基本上全部的生物標識值,但實現起來一般十分困難,特別是當樣本是從地區性分布很寬的人群基礎中縱向采到的時。采用傳統的統計分析方法學,即一般放棄不完全的數據組,并且根本放棄不用,這樣,最終覆蓋初始被試總體大部分的大量數據將被放棄。這樣做的結果可能是大量的數據資源被浪費,并且由剩余部分產生的結果質量嚴重下降。本基于計算機的系統包括的一個特征是,提供了一種通過采用統計學可檢驗的技術來填補“丟失值”,從而基本上采用所有采集到的數據的裝置。這是方法學中特別有用的方面,與現有技術的研究相比,它基于從地區分布很寬的被試總體的大量被試成員中采集大量數據。對從大量不同的被試總體中采集廣泛的數據特別來說,有望從具有代表整個人類實踐的,范圍很寬的不同的飲食和生活方式活動的成員中獲得生物標識值。
出于描述本發明的目的,這里對下述術語進行說明“特定生物狀況”例如可指下列情況中的任一種· 例如,按疾病的國際統計學分類和相關的健康(上冊)分類的一種特定疾病(例如糖尿病);· 一種特定醫學或健康狀況或癥狀(例如高血壓,如一般由生物標識或生物標識組值與通常分布的偏差來定義);· 一種特定醫學事件和它的后遺癥(例如局部缺血的發作和后來的死亡或未死亡以及與發作有關的部分麻痹和相關的狀況;心肌梗塞和后來的死亡或未死亡以及與MI有關的狀況);· 任何原因引起的夭折(夭折的年齡早于計劃第一次從人的性別和年齡判定的平均死亡年齡);· 特定年齡段的死亡;· 根據具有或得到特定生物標識值組,為特定生物標識組新定義的種類。
“獲得”或“發作”特定生物狀況指的是一種情況,其中一個人在給定判斷的時刻不具有特定生物狀況,但他后來遭受該特定生物狀況,在這種情況下,該人被稱之為已“獲得”該特定生物狀況,而“發作”定義為該人出現“獲得”該特定生物狀況時的事件。
對特定生物狀況和對不具有或還未具有特定生物狀況的人的總體來說,有兩種如下描述的互補的亞總體,定義為D組和D組· D組為將在特定時間框架內獲得特定生物狀況的人的亞總體。這里所用的“特定時間框架”可指特定時間間隔(例如“下一個五年”),指特定年齡間隔(例如“在65至70歲之間),或指相似的特定時間或年齡間隔。· D組為將在特定時間框架內不獲得特定生物狀況的人的亞總體。
這些研究對象的亞總體的部分特征是具有大量(盡可能大)生物標識的特定的數據縱向模式。“縱向模式”不僅包括生物標識的“值或組織濃度”,還包括值的變化。如果已經知道代表亞總體部分特征的生物標識縱向模式,并且具有一特定人的所需數據,則根據該人將屬于D組還是D組可將其分類到兩互補組的一組中· PD組該組的人在特定時間框架開始時被預測為在特定時間框架內將獲得特定生物狀況,即屬于D組。這些人被描述成具有指示性高概率在特定時間框架內獲得特定生物狀況。· PD組該組的人在特定時間框架開始時被預測為在特定時間框架內將不獲得特定生物狀況,即屬于D組。這些人被描述成具有指示性低概率在特定時間框架內獲得特定生物狀況。
“指示性高概率”的量值可在一定范圍內變化,從具有低于很少百分比的概率,甚至低于1%或更少至高到10%、20%、50%,或甚至更高一些,這取決于特定生物狀況。例如,可觀察到由于抽煙而使患肺癌的危險率增高,其中抽煙是許多重要的、首推的可避免危險之一,盡管實際由抽煙引起的危險率的幾倍增長仍使在未來的15-20年或更多年中患肺癌的概率仍在5-10%之間。在許多情況下,對系統預測的每種特定生物狀況來說,可以定量確定其指示性概率。“指示性低概率”可簡單確定為不在獲得特定生物狀況的高危險組內,或者說,該詞可另外確定為一具體值。
當被試總體中從統計學來講足夠多的成員被確定為屬于D組或D組后,可采用研究對象方法學將D組成員的生物標識值與D組的成員相比,從而確定一統計過程來將成員分類歸屬于PD組或PD組,或對被試總體的每個成員估算在特定時間段或年齡間隔內獲得特定生物狀況的概率,即估算屬于PD組或屬于PD組的概率。在本發明代表性實施例中,將成員分類歸屬于PD組或PD組的統計過程將采取后面描述的判別分析過程的形式,該過程可稱為“判別過程”。“從統計學來講足夠多”可定義為用于分析中的生物標識總數量和其生物標識值是有效的時被試成員的總數量,其中每個總數量應大到對象方法學中所用的計算過程是成功收斂的。
判別過程具有兩個相關的誤差率(1)假陽性比例,即將來的研究對象將被分類到PD組,而其實際上屬于D組的比例。
(2)假陰性比例,即將來的研究對象將被分類到PD組,而其實際上屬于D組的比例。本發明的代表性實施例將結合方法學獲得這兩種誤差率的精確估算。
本發明的代表性實施例由三個階段組成,每個階段具有多個步驟。這三個階段是階段I 建立判定方法學和選擇考慮對象的生物標識。
階段II 將候選生物標識壓縮成一組具有判別能力、能夠對協變性結構和預測值進行混合模型估算的所選生物標識。
階段III 采用估算裝置和預測值計算判別函數,針對每個研究對象計算邏輯預測值;估算判別函數的誤差率。每個階段具有多個步驟。在一個階段中,一些步驟組是迭代的;這就是說,一特定步驟組可重復數次,直到取得特定結果。下面段落中將描述這些階段的代表性實施例和它們的步驟。
階段I 建立判定方法學和選擇考慮對象的生物標識下述步驟將出現在本發明代表性實施例中。
步驟1選擇用于估算過程誤差率的方法學方法學可結合任何統計學中適合估算誤差率的方法。許多可用方法中的兩個方法是訓練樣本/評定樣本方法和二次抽樣(或稱“再抽樣”)方法。
訓練樣本/評定樣本方法在訓練樣本/評定樣本研究中,被試總體被隨機分成兩個子集,這里定義為“訓練樣本”和“評定樣本”。每個研究對象(被試總體成員)被認定或者為“訓練樣本”,或者為“評定樣本”。訓練樣本中的研究對象的數據用于統計分析,得到判別過程的分類和估算過程的概率。評價樣本中的研究對象的數據用于估算判別過程的誤差率和概率估算的分布。
二次抽樣方法“二次抽樣”指的是統計方法中的分類,包括摺刀法和自展法,可用于產生偏差較小的誤差率估算。在二次抽樣方法中,所有研究對象的數據均用于統計分析中,產生判別過程的分類和/或估算概率的分布。采用所有的數據產生的判別過程和/或概率的估算過程好于在訓練樣本/評定樣本研究中產生的判別過程和/或概率的估算過程,特別是(1)如果被試總體不是很大,或(2)即使被試總體很大,但獲得生物狀況的先驗概率較小。在本發明的內容中,二次抽樣方法計算精確。
步驟2選擇“訓練樣本”,即用于統計分析、以產生判別過程/概率估算過程的被試總體子集以及選擇作為互補子集的“評定樣本”如果采用二次抽樣方法,則所有研究對象的數據均用于統計分析中,產生判別過程的分類和/或概率分布估算。在這種情況下,“訓練樣本”為整個被試總體。
如果采用訓練樣本/評定樣本方法,訓練樣本將近似包含被試總體的特定百分比。在許多情況下,訓練樣本的百分比將為50%;但也采用其它比例。評定樣本將包含所有未包括在訓練樣本中的研究對象。
將研究對象隨機確認為訓練樣本一般依據研究對象的年齡層來進行的。研究對象的年齡被分級成適當的間隔一個年齡組層由年齡落在特定年齡間隔內的研究對象組成。間隔的選擇為使每個層中的研究對象數量適合于統計分析。在一個年齡組層中,研究對象將被隨機確認為訓練樣本或評定樣本。隨機性被建立以近似地實現訓練樣本中研究對象的特定比例。例如,如果訓練樣本確定為包括75%的被試總體,則在每個年齡組層中,近似75%的研究對象將隨機確認為訓練樣本。例如,如果一個年齡組層確定為“65歲≤年齡<70歲”,則在該年齡層中近似75%的研究對象將被隨機確認為訓練樣本。
評定樣本(如果有的話)由不在訓練樣本中的所有被試總體的研究對象組成。
步驟3編輯作為基本判別因素的基本生物標識表該步驟的目標是編輯所有適當的、潛在的有用生物標識,這些生物標識將稱為基本生物標識。在代表性實施例中,基本生物標識表將包括被試總體中研究對象所有記錄的、定量的個人特征。該表將包括不隨時間改變的特征(例如出生日期)或隨時間變化的特征,如體重或從血或尿中判定的實驗數據。非定量特征,例如研究對象喜歡的顏色等將排除在外。
一些列在步驟3中的潛在生物標識對判別無用。該階段的剩余步驟編輯有一組步驟3中列舉的潛在生物標識中的“候選生物標識”。每個候選生物標識將被選擇,因為從早先的研究/知識或訓練樣本數據的定量證據中得到信息,生物標識對判別來說有潛在作用。在每一步驟中,作為候選被選中的生物標識從潛在生物標識表中被移去而移入候選生物標識組。將選中的候選生物標識從潛在生物標識表中移去的原因是一旦生物標識作為候選被選中,它不必再被考慮;它已經“制成表”。在程序最后,所有未選中的潛在生物標識將從進一步的考慮中刪去,僅有候選生物標識將作為后來分析的研究對象。
步驟4通過包括基于早先研究和經驗確定而有把握相信這些生物標識與特定生物狀況相關的任何潛在生物標識來初始化候選生物標識該步驟的目的是利用先前的信息,即對特定生物狀況的判別來說是重要的潛在的信息的生物標識。例如,如果特定生物狀況是在特定時間段內患冠狀心臟病(CHD),則早先的研究表明,血清膽固醇、收縮壓、葡萄糖耐受不良或吸煙(僅少量)與CHD發作有關,應從潛在生物標識表中拷貝至候選生物標識表中。
可依賴任何可靠的信息來源或“有意義的猜測”來選擇已知或相信與特定生物狀況相關的生物標識子集。盡管初始選擇的生物標識的確定對最終根據的用于判別選擇確定的子集來說不是決定性的,但初始的對最終由該系統確定為對預測特寫生物狀況有最大的統計意義的生物標識選擇,將有助于提供更快地收斂至憑經驗而確定的子集。換言之,初始選擇越有意義,收斂的速度越快。
步驟5將“有統計意義的”、與步驟4中“已知重要的”生物標識相關的任何潛在生物標識增加到候選生物標識表中訓練樣本的數據用于計算每個預先確定的候選生物標識(為“已知重要的”生物標識)和每個潛在生物標識之間的相關系數。可采用任何統計學中有效的相關系數。
該步驟的目標是判定可作為很好的判別因素的生物標識。“已知重要的”生物標識的相關性與“已知重要的”生物標識本身相比可以是更好的判別因素。至少,已知重要的生物標識的相關性應包括在初始分析中。
如果特定生物狀況(例如高血壓)實際上是由一個或多個生物標識值確定的,則確定用生物標識將是“已知重要的”生物標識,并且可能已被移至步驟4中列出的候選生物標識表中。在該步驟中,確定用生物標識將被移至候選生物標識表中。
這里所用的“統計學意義”僅作為一種工具用于判定“可能重要”和“可能不重要”之間的相關性。在一代表性實施例中,將計算代表潛在生物標識和候選生物標識之間相關性的傳統p值。如果p小于一些特定值,例如p<0.05或p<0.01,則將潛在生物標識移至候選生物標識表中。
步驟6對每個潛在生物標識進行邏輯回歸模型的擬合,對作為非獨立(Y)變量的特定生物狀況和年齡采用二進制指示變量,而潛在生物標識作為獨立(D)變量。將每個在邏輯回歸模型中有“統計學意義”的潛在生物標識添加到候選生物標識表中該步驟的目的是在考慮年齡影響(線性)的前提下選擇那些作為候選生物標識的潛在生物標識,這些潛在生物標識與獲得特定生物狀況的概率有關。結合研究對象的年齡,邏輯模型作為潛在生物標識值的函數表達了獲得特定生物狀況的概率。
生物標識的選中(或未選中)依據邏輯回歸模型中代表生物標識斜率的邊際p值。如上面關于相關性的說明,“統計學意義”在這里僅作為一個工具用于判定“可能重要”和“可能不重要”判別因素之間的關系。在代表性實施例中,傳統的p值將用于計算潛在生物標識的斜率。如果p小于一些特定值,例如p<0.05或p<0.01,則潛在生物標識移至候選生物標識表中。
步驟7判斷每個縱向估計的潛在生物標識,采用通用線性的混合模型(“MixMod”)來估計生物標識值的縱向趨勢是否與獲得特定生物狀況有關。每個具有統計意義的縱向趨勢的潛在生物標識被移至候選生物標識表中該步驟的目標是認定具有縱向趨勢、與獲得特定生物狀況的概率有關的生物標識(而不是那些早先發展成候選生物標識狀態)。
在本發明典型實施例中,每個模型將如下產生。在MixMod中的非獨立(Y)變量包含潛在生物標識的縱向值。用于達到固定效果的獨立(X)變量是(1)用于表示特定生物狀況的二進制指示變量,(2)年齡或其它相關的縱向metameter如從一些有關的事件開始的時間、被試數目等,以及(3)用于特定生物狀況的二進制變量和縱向metameter之間的相互作用。模型的隨機效應部分包括隨機研究對象增量與總體回歸線的相交,以及在一些情況下與縱向metameter相關的隨機斜率。當包括兩個或更多個隨機效應時,隨機效應的協變矩陣一般不能建立。年齡或其它相關的縱向metameter均包括在模型中的原因與步驟6中一樣。
如果對應于任何X變量(除年齡之外)的系數具有統計意義,則潛在生物標識移至候選生物標識表中。在步驟6中關于統計意義的討論在此適用。
在步驟4-7的最后,所有的潛在生物標識均經過檢查,并且每個具有可用作為判別因素的歷史性或定量證據的生物標識已移至候選生物標識表中。
階段II 將候選生物標識壓縮成一組具有判別能力、能夠對協變性結構和預測值進行混合模型估算的所選生物標識背景 現有的判別分析方法學一般需要對D組(i=1)和D組(i=2)兩組生物標識(以及其它變量如年齡和人口統計)分布的平均向量μi、協變矩陣∑i進行相對精確的估算。μi簡單地估算成樣本平均(向量),∑i簡單地估算成樣本協變矩陣,不允許針對重要的相伴變量(或“協變量”)進行平均調節,并且不允許輕易地包括對相同研究對象的重復測量。另外,現有的判別分析一般是基于“事件刪除”過程如果一個研究對象有任何丟失數據,則該研究對象的所有數據將從分析中刪去。
在一個向量Y中,對一個研究對象給定平均向量μi、協變矩陣∑i以及生物標識(和相關數據)的估算,該傳統的判別函數(如果∑1=∑2為線性,如果∑1≠∑2為二元方程)僅僅從Y、μ1、μ2、∑1和∑2中評估。僅針對特殊研究對象的特定信息包含在向量Y中。
占階段II中較大部分的混合模型過程采用通用線性混合模型(MixMod)針對所有μ1、μ2、∑1和∑2建立模型;判別函數采用這些參數的模型估算,而不是如傳統那樣采用未模型化估算的參數,從而改善了傳統的過程。這種MixMod過程如下所述對傳統的判別分析進行了重要改進·采用混合模型對參數進行了估算,這樣·采用了所有可用數據,即未采用事件刪除;·支持相應于估算的協變矩陣∑i的調節進行的估算的期望值(μi)的協變調節,并且·支持對相同研究對象采用重復測量(例如每年的訪問)。·該混合模型過程采用個體隨機效應的基于模型的估算和“BLUPs”(“最佳線性非偏差預測”),除了采用總體平均值μi的估算之外或替代之,這樣可明顯地增加判別函數的判別能力。
階段II過程的綜述階段I的結果是,每個候選生物標識作為判別因素將對歷史或定量事件有作用。但是候選生物標識之間有明顯的相關性。通常一個生物標識當從其本身考慮時可能有辨識能力,當它與其它生物標識一起被使用時作出的貢獻可能是不重要的。另外,生物標識的數值范圍可以是很寬的。
研究過程的階段II的目的是(1)重新換算生物標識值,這樣所有被重新換算的生物標識的標準偏差均在相同的數量級內(0<標準偏差<1)。(2)將候選生物標識表的可能較長的壓縮至數量較少的“選中生物標識”,該選中生物標識中每一個的判別能量對該組來說貢獻明顯。(3)采用E[Y]=Xβ形式的線性模型確定(重新換算的)生物標識值的向量Y的期望值結構,并且估算β和未知參數的向量。(4)采用∑=ZΔZ’+V形式的模型確定(重新換算的)生物標識值的向量Y的協變矩陣結構,并且估算矩陣Δ和V中的協變參數。(5)估算隨機研究對象效應向量dik,并計算第k個研究對象的預測值向量Yki(p),好像該研究對象來自特定生物狀況組的第i個;i=1對應于D組,而i=2對應于D組。
在本發明代表性實施例中,該階段的步驟1執行一次,以便重新換算生物標識數據并將該數據安置到一數據向量(或數據組的一變量)中。步驟2和3反復執行,直到選擇的生物標識組已選擇完畢,并且上面列出的估算已計算完畢。步驟4通過為協變矩陣選擇適當的模型而精選用于判別中的混合模型和參數估算。
步驟1準備一個數據組,其中一個變量“RespScal”包含所有研究對象的所有候選生物標識的換算值(包括縱向測量)分別對每個生物標識進行換算。每個生物標識值除以該生物標識的樣本標準偏差。這樣,每個生物標識的換算值的標準偏差為1.00。在本發明代表性實施例中,生物標識值的一個變量可取名為“RespScal”(響應換算的簡稱)。RespScal的樣本標準偏差也近似于1.00。該換算有利于后來的混合模型計算中迭代過程的收斂。
步驟1僅執行一次。開始時,所有的候選生物標識均具有在RespScal內的數據,并且被考慮為是選中生物標識組的成員。在步驟2-3中將從選中生物標識中移去非判別生物標識。
步驟2采用下列技術規范來擬合通用線性混合模型(MixMod),獲得參數矩陣β、Δ和V的估算,獲得每個研究對象的隨機對象效應dik和每個研究對象的“預測值”Yik(mini)和Yik(avg)的估算,好像該研究對象在每個特定生物狀況組(i=1,2)中在本發明代表性實施例中,MixMod的技術規范如下非獨立(X)變量RespScal;獨立(Y)變量和它們的系數(β)
“生物狀況狀態”一種代表特定生物狀況狀態的指示性變量(分類變量);如果Y的對應元素包含關于D組中研究對象的信息,則生物狀況狀態=1,否則生物狀況狀態=0。
生物標識的指示性變量(分類變量);生物狀況狀態×生物標識的指示性變量(分類變量);年齡(以周歲為單位,中點近似為研究對象的整個平均年齡;連續變量);隨機效應變量(Zk)和隨機系數(效應,dik)研究對象×生物標識的指示性變量(Zk部分)和相應隨機效應(相交增量;dik部分);在對研究對象的多次訪問中,特定生物標識的隨機對象效應是恒定的,其中多次訪問產生對該研究對象的生物標識的反復測量之間的相關性。
注意該模型假設E[dik]=0;V[dik]=Δ。
生物標識隨機錯誤項εkbv的向量εkb的協變矩陣Vk=V(εkb)為第k個研究對象在第b個被換算的候選生物標識的第v次縱向判定。該協變矩陣對第k個研究對象的每個生物標識的每次縱向判定來說具有一行和一列。注意,該模型也假設E[εkb]=0。
εkbv的主要解釋是“隨機測量錯誤項”,代表從一次到另一次判定過程中,換算的候選生物標識關于研究對象k的值的依賴于年齡的平均值換算的變量。在這種解釋中,時常有理由假設εkbv的值是同方差的和不相關的,即如果(k,b,v)≠(k’,b’,v’),則Cov(εkbv,εk’b’v’)=0。如果Y元素按k(研究對象的編號),b(生物標識編號)和v(“訪問”或判斷次數或研究對象的年齡)被分類,則在許多情況下,Vk的合理的模型為Vk=BlockDiag(Vkb)=BlockDiag(Vk1,Vk2……),其中Vkb=λbI,而λb=V(εkbv),表示第b個候選生物標識的換算值的測量錯誤偏差,其中假設所有研究對象(k)和所有判定(v)的偏差是一樣的。
注意,RespScal的換算暗示著每個偏差λb將小于1.00。偏差小于1.00在的程度取決于擬合效果的大小(R2高導致估算的偏差較小)和隨機效應偏差的大小(Δ的對角線元素)。
注意,上面Zk,dk,Vk=B1ockDiag(Vkb)和Vkb=λbI的結合為∑ik產生高結構化的、延伸的混合對稱模型∑ik。為了說明這一點,在一個例子中,當將相同的協變量參數提供給D組和D組時,令dk=[dkb]=[dk1,dk2,……]’為第k個研究對象和第b個換算的生物標識的隨機效應的向量,令V(dk)=Δ=[Δbb’],其中Δbb’=Cov(dkb,dkb’),而b和b’代表可能不同的換算的生物標識,令Zk包含換算生物標識的指示性變量,并且令Vkb=λbI,則∑k=ZkΔZ’k+Vk=[∑k,bb’],其中∑k,bb=ΔbbJ+λbI=對換算的生物標識b的多次測量的協變矩陣,∑k,bb=Δbb’J=在相同場合或不同場合判定的換算的生物標識b和b’的協變性。(方陣J的每個元素等于1)。
對混合模型的擬合過程產生下述估算模型的參數β、Δ和Vk的參數。如果假設對兩個生物狀況狀態組來說模型具有不同的協變性,則模型產生對Δi和Vik中的協變參數的不同估算;每個研究對象的數據向量的期望值μik(研究對象k在生物狀況狀態組i中);每個研究對象的數據向量的期望值μI’k,好像研究對象在其它響應組(i’)中;每個研究對象的隨機研究效果,在研究對象的實際處理組(i)中時為dik,而假設研究對象在其它響應組(i’)中時為di’k;每個研究對象的“預測值”,在研究對象的實際處理組(i)中時為Yik(p),而假設研究對象在其它響應組(i’)中時為Yi’k(p);研究對象的協變矩陣∑k。如果假設對兩個生物狀況狀態組來說模型具有不同的協變性,則模型產生對協變矩陣∑k的不同估算;。
步驟3刪除具有最不明顯判別能量的生物標識并重新擬合混合模型將被有效判別的生物標識應具有大量的(有統計意義的)生物狀況狀態×生物標識擬合效果。相反,大生物標識主要效果在此不相關大生物標識主要效果----表明生物標識平均值之間的不同----可簡單上升,因為生物標識是不同類型的變量,具有不同的平均值(在重新換算軸上)。然而,大量生物狀況狀態×生物標識效果表明,生物狀況狀態=0(D組)時的生物標識平均值與生物狀況狀態=1(D組)時的生物標識平均值明顯不同。這種不同對判別過程來說應作出重要的貢獻。
如果每個目前選中的生物標識具有有統計意義的生物狀況狀態×生物標識擬合的效果,則步驟3完成,我們移向步驟4。如果一個或多個目前選中的生物標識具有無統計意義的生物狀況狀態×生物標識擬合效果,則具有最少統計意義(最大的p值)的生物狀況狀態×生物標識擬合效果的生物標識被從數據向量Y中移去,我們返回至步驟2中。在該步驟中,MixMod被擬合以減少數據向量。
在逐步回歸的情況下,在步驟3中提供的策略是“反向判別”過程的模擬。另一方法是提供一種“向前選擇”的模擬,其中開始時數據向量和模型中僅包括數量很少的清晰有效的判別(生物標識),而在每個后來的步驟中增加更多的生物標識。
步驟4確定協變參數矩陣Δi和Vik的結構判別分析方法學對每個生物狀況狀態組D和D分別采用了生物標識的期望值和生物標識(其中一些生物標識可縱向判定)的協變矩陣。我們記得,包括可能的縱向判斷的選中生物標識表在步驟3中已確定。如上所述,MixMod對應于假設,從而導出協變矩陣的下述結構∑ik=ZikΔikZ’ik+Vik,其中i代表生物狀況狀態組(D組i=1,D組i=2),k代表研究對象。另外,可建立在分析中可利用的協變參數矩陣Δi和Vik,特別是當∑ik特別大,即當有許多生物標識和/或一個或多個生物標識具有許多縱向評估時。
步驟4的目的是確定用于階段III的判別分析中的協變參數矩陣Δi和Vik。對大的、結構化的協變參數矩陣的估算比對未結構化的協變參數矩陣的估算趨向于更精確。對Δi和/或Vik更精確的估算導致對∑ik=ZikΔiZ’ik+Vik更精確的估算,從而對β、dik和Yik(p)以及判別函數值的估算也更精確。
∑ik的整個結構應考慮到下述類型的協變性/相關性類型ADB在相同時刻點判斷的不同生物標識之間的協變性/相關性;類型ALESB單個生物標識的縱向判斷之間的協變性/相關性;類型BTBEL縱向判斷的兩生物標識之間的協變性/相關性,即任意一對生物標識之間的協變性/相關性,其中一個生物標識在一時刻判斷,另一個生物標識在另一時刻判斷。在本發明的代表性實施例中,在上述步驟2中描述的結構或這種結構的延伸是很有用的。
在本發明的代表性實施例中,Tangen,Catherine M.和Helms,Ronald W.在1996年出席Spring Meeting of the IntermationalBiometric Society,Eastern North American Region,RichmondVirginia,March,1996時發表的“A case study of the analysisof multivariate longitudinal data using mixed(random effects)models”中描述的技術可用于對縱向多元數據的協變性/相關性進行研究。選擇協變模型一般需要擬合一定數據的MixMod,一般采用相同的期望值模型和不同的協變模型。可采用Log Likelihood統計(假設在一般分布的基礎下)來比較模型。也可以采用Ronald W.Helms在North Carolina大學研究的技術,例如Grady.J.J和Helms.R.W.(1995)的“Model Selection Techniques for the covarianceMatrix for Incomplete Longitdinal Data”’(醫學統計,14,1397-1416)中描述的技術來以圖示地比較協變結構。
階段III 采用估算裝置和預測值計算判別函數,針對每個研究對象計算邏輯預測值;估算判別函數的誤差率。
背景 階段III的目的是“預測”研究對象將屬于哪個“總體”或組中,D組或D組· D組將在特定時間框架內獲得特定生物狀況的人的亞總體。
· D組將在特定時間框架內不獲得特定生物狀況的人的亞總體。
通過將一研究對象放入下述兩組中而對該研究對象進行分類· PD組該組的人在特定時間框架開始時被預測為在特定時間框架內將獲得特定生物狀況,即表現為屬于D組。這些人被描述成具有指示性高概率在特定時間框架內獲得特定生物狀況。
· PD組該組的人在特定時間框架開始時被預測為在特定時間框架內將不獲得特定生物狀況,即表現為屬于D組。這些人被描述成具有指示性低概率在特定時間框架內獲得特定生物狀況。
該階段的第二目的是估算一研究對象將屬于D組和D組的概率。
實現第一目的的技術——將一研究對象分類至兩組中——采用的判別過程是對傳統判別分析的修飾變型。對研究對象將屬于研究對象將獲得特定生物狀況的組中的概率的估算是對傳統邏輯回歸的修飾變型中獲得的,(1)采用判別函數值來進行回歸計算,以及(2)采用判別變量來進行回歸計算。
在階段II的背景中已描述,現有的判別分析方法學一般采用對兩組的生物標識分布的平均向量μi、協變矩陣∑i進行樸素估算。另外,現有的判別分析一般基于“事件刪除”過程如果一研究對象具有任何丟失數據,則該研究對象的全部數據從分析中刪除。
在階段II中描述的混合模型采用通用線性混合模型(MixMod)對所有μ1、μ2、∑1和∑2進行模式型化,從而改善了傳統過程;在判別函數中采用這些參數的模型化估算,而不是采用傳統的、簡單的未模型化估算。混合模型的應用允許本發明過程對傳統的判別分析做出下述重要改進采用全部變量數據,即不采用事件刪除來估算參數。該過程支持估算的期望值(μi)相應于估算的協變矩陣∑i的調節而調節。并且該過程支持對相同研究對象進行反復測量(例如每年的訪問)的應用。
也許更重要的是,采用混合模型允許現有的過程使用個體隨機效果的基于模型的估算和“BLUPs”(“最佳線性無偏差預測”),該過程可增加到對總體平均值μi的估算中或替代之,這樣可明顯增加判別函數的判別能力。
根據多元標準狀態理論,目前的判別形式從形式上說與傳統的判別相同。一些符號是有用的令fi表示組i中一研究對象的判別變量的向量Y分布的密度函數,判斷采用的是估算μi和∑i,i=1表示屬于D或PD組,i=2表示屬于D或PD組;pi表示一研究對象將來自i組的先驗概率,i=1為來自D組,i=2為來自D組。pi的值通常從歷史數據或其它研究中得知。如果pi的值為未知,則該研究對象在兩組中的概率可用于估算pi。
然后,如果Ln[f1(Y)/f2(Y)]>Ln[p1/p2],則未知組(具有判別函數值的向量Y)的研究對象將被分入組1(PD組),否則分入組2(PD組)。
在階段II中,將決定是否能夠有理由假設上述兩個組具有相等的協變矩陣∑1=∑2=∑。在那種情況下,目前的判別過程簡化成采用下述形式的線性判別函數D(Y)=[Y-1/2(μ1+μ2)]’∑-1(μ1-μ2)-Ln[p2/p1]這里μi和∑i由下面討論的“適當”估算代替。比較D(Y)是否為0,如果在階段II中認定∑1≠∑2,判別過程簡化為采用下述形式的二次判別函數Q(Y)=1/2ln(|∑2|/|∑1|)-1/2(Y-μ1)’∑1-1(Y-μ1)+1/2(Y-μ2)’∑2-1(Y-μ2)-Ln[p2/p1]這里μi和∑i由下面討論的“適當”估算代替。比較D(Y)是否為0。
在上述兩種之一的情況下,“適當”估算來自階段II中的混合模型過程,并且可包括或不包括隨機研究對象效果。
階段III過程下面描述階段III過程的步驟。假設數據是來自一個或多個“新”研究對象,其中該研究對象的組的成員關系為未知的,并且未用在階段II的混合模型計算中。在步驟1-2中,我們在一個時刻考慮一個研究對象。一些符號是有用的。令i=1代表屬于D組或PD組,i=2代表屬于D組或PD組。令Y表示一個新研究對象的判別變量值的向量。Y中的元素如階段II中的RespScal一樣換算。
Xi表示用于階段II最終的混合模型中的獨立變量值的矩陣,好像該研究對象在組i中,其中i=1,2。注意Pi的行對應于Y的行(元素)。
Zi表示用于最終階段II的混合模型中的隨機效應變量值的矩陣,好像該研究對象在組i中,其中i=1,2。注意Zi的行對應于Y的行。
表示組i中(其中i=1,2)隨機效應的估算的協變矩陣,來自階段II中最終的混合模型。注意在許多情況下,混合模型簡化為隨機效應中的單個協變量,即Δ^1=Δ^2=Δ^]]>Vi表示組i中(其中i=1,2)隨機剩余部分或“錯誤項”的估算的協變矩陣,來自階段II中最終的混合模型。注意在許多情況下,混合模型簡化為隨機效應中的單個協變矩陣,即V^1=V^2=V^]]>Σ^1=Z1Δ^iZ1'+V^1]]>表示來自階段II中最終的混合模型的估算的協變矩陣Y,好像新研究對象來自組i中,其中i=1,2。注意在許多情況下,混合模型簡化為隨機效應中的單個協變矩陣,即Σ^1=Σ^2=Σ^]]>步驟1采用階段II的混合模型結果,將所有研究對象分類至評定樣本中,并估算多個候選判別過程的誤差率,采用估算的隨機對象效應的各種混合,其中一次基于“估算的值”,其它基于“預測值”。具有最低估算誤差率的過程為選定過程,稱之“顯然最可靠的過程”如果將原始研究總體分成“訓練樣本”和“評定樣本”,下面采用評定樣本;否則采用訓練樣本作為評定樣本。分別估算評定樣本中每個研究對象的下述量,好像該研究對象來自每個組Y^1=X1β,^]]>的“估算值”,好像該研究對象來自組i,其中i=1,2。d^1=Δ^1Z1'Σ^i-1(Y-X1β^),]]>該研究對象的隨機對象效應的估算,好象該研究對象來自組i,其中i=1,2。如果d^1'Δ^1-1d^1≤d^2'Δ^2-1d^2;]]>d^min=d^1]]>否則d^=d^2·d^min]]>可認為是d1和d2的“最小值”,或“(整個組的)最小隨機對象效應”估算。d^avg=(d^1+d^2)/2·d^avg]]>可認為是
和
的“平均值”,或“(整個組的)平均隨機對象效應”估算。Yi(min)=Xiβ^+Zid^min,]]>該研究對象的“預測值”,好像該研究對象來自組i,其中i=1,2,但采用“最小”隨機對象效應估算。Yi(avg)=Xiβ^+Zid^avg,]]>該研究對象的“預測值”,好像該研究對象來自組i,其中i=1,2,但采用“平均”隨機對象效應估算。
在上面和下面情況中,i=1表示為D組或PD組,i=2表示為D組或PD組。
根據估算值Y1分類· 如果在階段II中決定∑1=∑2=∑,判斷線性判別函數D(Y)(上面已述),由
代替μi,用
代替∑。如果D(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。· 如果在階段II中決定∑1≠∑2,判斷二次判別函數Q(Y)(上面已述),由
代替μi,用
代替∑,i=1,2。如果Q(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。
根據“最小”隨機對象效應和預測的值Yi(mini)分類· 如果在階段II中決定∑1=∑2=∑,判斷線性判別函數D(Y)(上面已述),由Yi(mini)代替μi,用
代替∑。如果D(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。· 如果在階段II中決定∑1≠∑2,判斷二次判別函數Q(Y)(上面已述),由Yi(mini)代替μi,用
代替∑,i=1,2。如果Q(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。根據“平均”隨機對象效應和預測的值Yi(avg)分類· 如果在階段II中決定∑1=∑2=∑,判斷線性判別函數D(Y)(上面已述),由Yi(avg)代替μi,用
代替∑。如果D(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。· 如果在階段II中決定∑1≠∑2,判斷二次判別函數Q(Y)(上面已述),由Yi(avg)代替μi,用
代替∑i,i=1,2。如果Q(Y)≥0,則將研究對象定在組1(PD組)中,否則將研究對象定在組2(PD組)中。
在每個位于評定樣本(如上定義)中的研究對象被分類之后,對三個過程中的每一個計算與下面類似的2×2表(根據估算的值或根據預測的值)表1
另外,分別為根據估算的值分類和根據預測的值分類計算Ni-=Ni1+Ni2rFP=N12/N1-=假陽性誤差率=假陽性分類比例rFN=N21/N2+-=假陰性 誤差率=假陰性分類比例rtol=(N12+N21)/(N1-+N2+)=總誤差率=錯誤分類比例在本發明的典型實施例中,我們將比較分類過程的三種類型,即一種類型是基于估算的值
,一種是基于“最小”預測值Yi(mini),以及最后一種是基于“平均”預測值Yi(avg)來確定“明顯最可靠的過程”。在該選擇程序中一些要考慮的是· 如果假陰性分類與假陽性分類相比具有實質上更嚴重的影響,則選擇假陽性誤差率rFN較小的過程。這種情況可以發生在例如D組是由屬于將在特定的五年內遭受心肌梗死(“MI”)的年齡組中的人構成的亞總體時。假陰性分類沒能對具有高MI概率的人提出警告,將比假陽性分類(警告低概率的人他們將具有高MI概率)產生更嚴重的結果。· 相反,如果假陽性分類與假陰性分類相比具有更嚴重的影響,則選擇假陽性誤差率rFP小的過程。· 當沒有先驗理由來決定是假陰性分類還是假陽性分類更嚴重一些時,選擇總誤差率rtol較小的過程。
所選的明顯最可靠的過程用于將研究對象分類至PD組或PD組兩組中。
步驟2采用兩種類型的邏輯回歸來對一個新研究對象將屬于每個組的概率估算值進行計算訓練樣本的數據用于擬合邏輯回歸模型,該模型中每個研究對象的判別函數(如果為線性,該函數為D(Y);如果為二次方程,函數為Q(Y))的值將作為獨立(“X”)變量,而生物狀況狀態(D組中表征成員關系的指示性變量)將作為非獨立(“Y”)變量。該模型與反邏輯變換一起用于針對每個研究對象對他將屬于D組的概率進行估算。
在一獨立計算中,訓練樣本的數據用于擬合邏輯回歸模型,其中生物標識與最終的混合模型協變量(X中的變量)一起合并為獨立(“X”)變量和生物狀況狀態(D組中表征成員關系的指示性變量)作為非獨立(“Y”)變量。在除了獲得通常的邏輯回歸模型估算之外,模型還與反邏輯變換一起用于針對每個研究對象對他將屬于D組的概率進行估算。當采用縱向數據時,模型用于估算研究對象將在特定周期的最后屬于D組的概率。我們可采用普遍的估算公式來逼近邏輯連接函數,從而調節一研究對象中多個二項式結果間的相關性。
從這兩個模型中獲得的預測概率可提供令人感興趣的判別函數值的解釋。
盡管對確定用于本發明的判別函數來說,本算法是優選方案,但可以理解,提供該算法僅為了展示本發明的優選實施例,任何情況下都不表示本發明限定于這里描述的算法中的步驟和子步驟。例如,可以理解,在判別分析方法學的領域中存在有其它類型的判別函數,例如稱作“最佳判別”的判別函數,和其它類型的回歸,例如非線性混合模型等,這些函數也可采用,均落在本發明的范圍和精神之內。
這里將結合特定的代表性實施例來詳細描述本發明,其中的材料、裝置和程序步驟應理解為僅用于展現本發明的例子。特別是,本發明不打算受這里特別引用的統計方法、材料、條件、程序參數、裝置等的限制。優選實施例的例子附表和附圖表示一個采用本發明的方法和裝置進行示范性數據分析的結果。
用于該例中作為基礎的數據從一數據庫中獲得,該數據庫包括在每年的數據采集中患鐮狀紅細胞的病人的數據。一些病人具有連續三次訪問的數據。但由于病人一般不可能每年必須參與,因此數據庫中包括許多僅有一次或兩次每年的訪問數據可利用的病人。這里采用的數據庫信息包括人口學數據、臨床化學數據和血液學數據。
感興趣的特定生物狀況疾病或痛苦在該例中為發生需要住院的疼痛危象。在每一次的每年訪問中,研究對象被詢問(并檢查記錄以確定)他是否在前一年中有需要住院的疼痛危象。宣稱在任一次訪問(任一年)中有因疼痛危象而住院的每個研究對象為“疾病”組(D組)的成員;所有其它的研究對象為PD組的成員。
每當研究對象在前一年中有需要住院的疼痛危象時,在因疼痛危象而住院之后的同一年中或以后的年中采集的所有的數據從分析中刪除。這樣是在模仿其結果為死亡或出現慢性的、不能治愈的疾病時用的過程。記錄研究對象所屬D組中成員關系的變量(例如有無疾病,是否受折磨等)稱之為“疾病狀態”變量。
下面是采用鐮狀紅細胞數據的統計分析過程的一個例子。出于保密的原因,該例中所用的數據是人工擬出的,而不是來自真實的研究或來自真實研究對象。但該數據與對真實研究對象的研究中可以獲得的數據類似。階段I 建立判定方法學和選擇考慮對象的生物標識。步驟1選擇用于估算過程誤差率的方法學步驟2選擇“訓練樣本”,即用于統計分析,以產生判別過程/概率估算過程的被試總體子集以及選擇作為互補子集的“評定樣本”該例中選擇訓練樣本/評定樣本方法。將病人隨機定為屬于兩樣本之一。訓練樣本用于產生判別函數;評定樣本用于判斷判別函數的精確度。
訓練樣本包括來自481個研究對象的641個“每年”評估信息,或每個研究對象約1.3個每年評估信息。但即使研究對象經過訪問也不是所有的生物標識經評定過。例如在一個極端的例子中,僅80個研究對象的僅88個直接膽紅素值(變量L_DBILI)可用。
步驟3編輯作為潛在判別因素的潛在生物標識表在這種情況下,血壓、所有可用的人口學數據、臨床化學數據和血液學數據可用作潛在判別因素。潛在生物標識列于表2中。
步驟4通過包含基于早先研究和經驗確定與特定生物狀況相關的任何潛在生物標識來初始化候選生物標識組在該例中,血小板計數(或“血小板”)作為對疾病狀態——因疼痛危象而住院——來說“已知的”生物標識而被抽取出。
步驟5將“有統計意義的”、與步驟4中“已知重要的”生物標識相關的任何潛在生物標識增加到候選生物標識表中從步驟2中選擇與“已知重要的”的生物標識相關連的生物標識——血小板。表3標為“相關性W/血小板”的列示出了這些相關性的概要。“p”列示出了與血小板相關的p值。根據Pearson產品動量相關系數的邊緣p值選擇生物標識。在該例中,要求p<0.01時以便選擇。“p<cv”列中呈現“是”字表明,這些生物標識作為具有與血小板“明顯”相關的結果而變為候選生物標識。
步驟6對每個潛在生物標識進行邏輯回歸模型的擬合,對作為非獨立(Y)變量的特定生物狀況采用二進制指示變量,而年齡和潛在生物標識作為獨立(X)變量。將每個在邏輯回歸模型中有“統計學意義”的潛在生物標識添加到候選生物標識表中將疾病狀態作為非獨立(Y)變量,將年齡和生物標識聯合作為獨立(X)變量來對每個生物標識進行邏輯回歸模型的擬合。在這種情況下,評定如何好地描述由于疼痛危象導致住院的概率的邏輯模型由該生物標識和研究對象的年齡描述。大致來說,如果生物標識和研究對象將獲得特定生物狀況的概率之間無關系,則該生物標識的回歸系數或斜率在邏輯回歸中將近似于0;不為0表示兩者有關系。表3的標為“邏輯回歸”的列示出了邏輯回歸結果的概要。“p”列示出了生物標識回歸系數的p值。根據邏輯回歸模型中生物標識的斜率的邊緣p值來選擇生物標識。在該例中,要求p<0.01以便選擇。“p<cv”列中呈現“是”字表明,這些生物標識作為“有效的”邏輯回歸系數的結果而變為候選生物標識。應注意,這些生物標識中的一些也與血小板明顯相關并且在計算邏輯回歸之前已是候選生物標識了。
步驟7判斷每個縱向估計的潛在生物標識,采用通用線性混合模型(“Mix Mod”)來估計生物標識值的縱向趨勢是否與獲得特定生物狀況有關。每個具有統計意義的縱向趨勢的潛在生物標識被移至候選生物標識表中對每個生物標識進行混合模型的擬合,采用生物標識的縱向值作為非獨立(Y)變量,而年齡、疾病狀態和訪問次數×疾病狀態作為獨立(X)變量,并且采用模型的隨機效應(Z)部分中的對象效應。(訪問次數和疾病狀態是“分類變量”;相應的系數對相交來說是遞增的。反之,年齡是一個連續變量,它的系數是一個斜率。)混合模型的隨機效應部分與對相同研究對象的縱向測量之間的相關性是一致的。模型允許多次訪問(縱向評估)不同的研究對象。
如果或疾病狀態的“主要效果”或三次訪問次數×疾病狀態相互作用的系數的子向量在具有統計意義的情況下不等于0(p<0.01),則可選該生物標識。一個有效的疾病狀態“主要效果”可表明,D組中研究對象的生物標識值的平均值不同于PD組中研究對象的平均值。三次訪問次數×疾病狀態相互作用的系數的子向量可表明,在D組中的研究對象的生物標識值的時間趨勢與在P組中研究對象的時間趨勢不同。在具有明顯的主效果或相互作用兩種情況之一的情況下,結果可表明生物標識是有潛在作用的判別因素,應移至候選生物標識表中。混合模型的結果顯示在表3中標為“混合模型”的列中。主要效果和相互作用的分別效果的顯示格式類似于相關和邏輯回歸的結果的顯示格式。
在步驟4-7的最后,所有的潛在生物標識已經檢查,并且具有歷史或作為判別因素具有定量判據的生物標識已移入候選生物標識表中。表3中標為“選中”的列中,“是”字表明該生物標識為候選生物標識。
階段II 將候選生物標識壓縮成一組具有判別能力、能夠對協變結構和預測值進行混合模型估算的所選生物標識。
步驟1準備一個數據組,其中一個變量“RespScal”包含所有研究對象的所有候選生物標識的換算值(包括縱向測量)該例中執行這一步驟,但結果未示出。但應注意,當將所有不同生物標識的所有值放入一向量Y列中時,向量可包含大量的元素。
步驟2采用下列技術規范來擬合通用線性混合模型(MixMod),獲得參數矩陣β、Δ和V的估算,獲得每個研究對象的隨機對象效應dik和每個研究對象的“預測值”Yik(mini)和Yik(avg)的估算,好像該研究對象在每個特定生物狀況組(i=1,2)中步驟3刪除具有最不明顯判別能量的生物標識并重新擬合混合模型步驟2-3迭代重復,直到模型中的所有生物標識具有統計意義。在一個例子的這種描述中的感興趣保留空間內,僅討論步驟2-3的迭代的最后結果。步驟2-3將生物標識的數量減至15,而年齡作為擬合效應的協變量。
該例中混合模型的基本信息在表4中給出。481個病人(每個病人最多三次訪問)中的值為有用數據。注意,分析中顯然不采用具有大量觀察值數據。缺少Y值時產生人為觀察值,以迫使軟件計算所需的預測值。缺少Y值時的人為觀察值不影響參數的判別或隨機對象效應的預測。
表5給出了對混合模型的擬合效果的估算。每個生物標識的p值(例如“L-BUN”的p值)為假設試驗的p值,即假設該生物標識的平均值與所有生物標識的整個平均相同。事實上是我們對這些p值是否明顯不感興趣,而是期望一個生物標識值的平均值不同于另一個生物標識值的平均值。
在表5中,每個“生物標識×GROUP IA”相互作用的p值(例如“ALBUMIN XGROUP IA”的p值)是一個假設試驗的p值,即假設D組中生物標識的平均值明顯地與P組中的生物標識的平均值不同。有效的值(例如p<0.05)表明該生物標識應是良好的判別因素。在表5中顯示的最終模型中的所有相互作用是有統計意義的(全部p<0.05)。令年齡始終保留在模型中,即使其p值無意義。
在表6中示出了第447個研究對象的研究對象序號、生物標識、疾病狀態(“組”)、特定訪問的觀察值和預測值。該研究對象位于D組中(“是否為D組?”=否;注意,“是否為D組?”=是時,“RESPSCAL”列不存在),但我們將對兩組給出預測值。還應注意,該研究對象在訪問次數為2時沒有生物標識MCH或MCHC的數據,但我們具有該研究對象訪問次數為2時MCH和MCHC的基于模型的預測值。
在逐步回歸的情況下,在步驟2-3中提供的策略是“反向消除”過程的模擬。另一方法是提供一種“向前選擇”的模擬,其中開始時模型中僅包括兩個(或數量很少的)的清晰有效的判別(生物標識),而在每個后來的步驟中增加更多的生物標識。
步驟4確定協變參數矩陣Δp和Vik的結構如上所述,∑ik的整個結構考慮協變性/相關性的三種類型類型ADB在相同時刻點判斷的不同生物標識之間的協變性/相關性;類型ALESB單個生物標識的縱向判斷之間的協變性/相關性;類型BTBEL縱向判斷的兩生物標識之間的協變性/相關性,即任兩對生物標識之間的協變性/相關性,其中一個生物標識在一時刻判斷,另一個生物標識在另一時刻判斷。在該例中,最終獲得下面的結構D組和D組的相同的隨機效應協變參數矩陣,即Δ1=Δ2=Δ,以及Δ具有復合對稱結構,對i≠j而言,Δii=0.6669,Δij=0.0097。
類型ADB的協變性出現在矩陣V中(D組和D組情況相同),并具有復合的對稱結構,對i≠j而言,vii=0.3267,vij=0.0151。
有必要對即將出現的鐮狀紅細胞給出這種協變結構。
表7示出了Δ和V的估算值。隨機對象效果的協變矩陣Δ的估算值在表中的上方。表中的行和列對應于用于該模型中的15個生物標識;列具有標記。
在研究對象內或在訪問錯誤內的協變矩陣V的估算值在表中的下方。與Δ一樣,表中的行和列對應于用于該模型中的15個生物標識。V具有復合對稱結構,對換算數據來說是合理的。
階段III 采用估算裝置和預測值計算判別函數,針對每個研究對象計算預測值;估算判別函數的誤差率。
步驟1采用階段II的混合模型結果,將所有研究對象分至評定樣本中,并估算多個候選判別過程的誤差率,采用估算的隨機對象效應的各種混合,其中一次基于“估算的值”,其它基于“預測值”。具有最低估算誤差率的過程為選定過程,稱之“顯然最可靠的過程”現在的過程是采用混合模型的結果,將其提供給鐮狀紅細胞數據。由于協變參數矩陣經模型化,對D組和D組來說是相等的,因此每個判別均是線性判別。對訓練樣本(這里作為評定樣本使用)中的每個研究對象進行判別,確定每個研究對象是屬于PD組還是屬于PD組。
表8示出了根據估算值對研究對象的線性判別函數的評估。在D組(疾病狀態=“否”的組)的179個研究對象中,100個(56%)被判別正確分入PD組中,79個(44%)錯誤地分入PD中。在D組(疾病狀態=“是”的組)的262個研究對象中,188(72%)個被正確地分入PD組中,74個(28%)被錯誤地分入PD組中。總計441個研究對象中,288個研究對象(65%)被正確分類,35%被分錯。
表9示出了采用最小隨機對象效應,根據預測值對研究對象的線性判別函數的評估。表9與表8相似。預測判別使P組內的判別略有改善,但D組中的結果略有變差。總的來說誤差率近似相同。
在前面的段落中和在表8-9中顯示的分類/錯誤分類統計是最樂觀的偏置,這就是說,表提供了比實際出現的情況中更有利的錯誤分類估算,因為訓練樣本既用于導出判別函數又用于評估它。采用評估樣本來評估判別函數將產生對錯誤分類率的無偏置估算。重復采樣技術如摺刀法或自展法在仍采用訓練樣本中的數據時可產生偏差較小的估算。
步驟2采用兩種類型的邏輯回歸來對一個新研究對象將屬于每個組的概率估算值進行計算對每個判別函數來說,采用兩種類型的邏輯回歸來擬合訓練樣本。在兩種邏輯回歸中,疾病狀態指征是非獨立(“Y”)變量。在第一種邏輯回歸中,基于估算的判別函數值作為獨立(“X”)變量使用。在第二種邏輯回歸中,基于預測的判別函數值作為獨立(“X”)變量使用。在第三種邏輯回歸中,用于判別函數中的生物標識與用于混合模型的擬合效應部分的協變量一起合并作為獨立“(X”)變量,而疾病狀態指征是非獨立(“Y”)變量。從邏輯回歸模型中獲得的估算用于對每個研究對象計算其屬于疾病組(疾病狀態為“是”)的概率。邏輯回歸計算的結果未顯示在表中。
圖1示出了D組(實線)和D組(虛線)線性判別函數值(基于估算值)的經驗分布函數(“EDF”)。為了繪制曲線圖,研究對象的數據由疾病組排序(在組中按D(Y)值的升序排列)。在該段中繪出數據點。EDF值開始為0(在第一個研究對象的數據繪出之前),之后針對每個研究對象以1/n增加,其中n為該組中研究對象的數量。這樣,對每個組來說,EDF從0攀升至1。在圖1中,實際情況是D組的EDF移到左側的D組EDF,表明D組比D組趨向于具有低分。
我們可以看出,D組中約72%的研究對象具有的D(Y)值小于0(分離點在PD組和PD組之間),而D組中約44%的研究對象的EDF值在0的左邊。組的EDF線在LDF=0的陡峭程度接近于垂直線表明,許多研究對象是在“邊緣線”上的,很難對其分類。這是有可能的,因為如果后來的一些年時可利用的話,在D組中(這些數據中)的一些研究對象將在接下來的一些年內具有疼痛危象,可能“轉”至D組。
圖2示出了D組(實線)和D組(虛線)最小隨機對象線性判別函數值的經驗分布函數(“EDF”)。結果和說明與圖1相似。陡峭但在LDF=0附近圖2組的EDF線比圖1更陡峭,進一步強調了這樣的事實,即許多研究對象是處于邊緣線上的。
這些圖顯示出在上面進行統計時,判別過程有效地對最終必將因疼痛危象住院的研究對象進行分類,但在該例中受有用數據的限制,該過程對將不這樣住院的亞組效果較差。
表2.對鐮狀紅細胞數據的潛在生物標識的說明
表4.混和模型信息整個模型特性
表5擬合效應系數的估算和相應的統計
表6.第447號研究對象的預測值和有關統計
表7.從Proc混和對協變矩陣的估算
本頁空白
表8.采用估算值對判別過程的鑒定
rtol=153/441=35%
表9.采用預測值對判別過程的鑒
rtol=155/441=35%
權利要求
1.一種用于預測個體未來健康的基于計算機的系統,包括(a)一個含有處理器的計算機,該處理器包含有從被試總體的個體成員中縱向得到的生物標識值數據庫,所述成員的子總體D確定為在特定時間段或年齡間隔內已獲得特定生物狀況,子總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;以及(b)一個計算機程序,包括的步驟用于(1)從所述生物標識中選擇生物標識子集,以便判別屬于子總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(2)采用所選生物標識的分布來進展統計過程,這樣可用于(i)將被測總體的成員分級成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的子總體PD,或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的子總體PD;或(ii)對每個被試總體成員進行定量判斷,推算在特定時間段或年齡間隔內獲得特定生物狀況的概率。
2.如權利要求1的基于計算機的系統,其中統計過程包括一判別函數,該函數采用子總體D和D內生物標識值分布的估算平均向量和估算協方差矩陣。
3.如權利要求2的基于計算機的系統,其中所選生物標識的分布參數的估算是通過采用通用線性混合模型擬合來自被試總體的生物標識數據而獲得的。
4.如權利要求2的基于計算機的系統,其中(a)估算平均向量是以期望值參數或協變值的向量值函數為模型構造的;或(b)估算協方差矩陣是以協變參數或協變值的矩陣值函數為模型構造的。
5.如權利要求4的基于計算機的系統,其中所選生物標識的分布參數的估算是通過采用通用線性混合模型擬合來自被試總體的生物標識數據而獲得的。
6.如權利要求4的基于計算機的系統,其中估算的平均向量或概率包括對被分類的成員或被估算概率的成員的隨機受試效果向量的真實值的估算。
7.如權利要求6的基于計算機的系統,其中所選生物標識的分布參數的估算是通過采用通用線性混合模型擬合來自被試總體的生物標識數據而獲得的。
8.一種用于預測個體未來健康的基于計算機的系統,包括(a)一個含有處理器的計算機,該處理器包含有從被試總體的個體成員中縱向得到的生物標識值數據庫,所述成員的子總體D確定為在特定時間段或年齡間隔內已獲得特定生物狀況,子總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;以及(b)一個計算機程序,包括的步驟用于(1)從所述生物標識中選擇生物標識子集,以便判別屬于子總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(2)采用所選生物標識的分布來進展統計過程,這樣可用于(i)將被測總體的成員分級成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的子總體PD,或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的子總體PD;或(ii)對每個被試總體成員進行定量判斷,推算得到特定時間段或年齡間隔內特定生物狀況的概率;其中統計過程包括一判別函數,該函數采用子總體D和D內生物標識值分布的估算平均向量和估算協方差矩陣。
9.如權利要求8的基于計算機的系統,其中所選生物標識的分布參數的估算是通過采用通用線性混合模型擬合來自被試總體的生物標識數據而獲得的。
10.如權利要求9的基于計算機的系統,其中(a)估算平均向量是以期望值參數或協變值的向量值函數為模型構造的;或(b)估算協方差矩陣是以協變參數或協變值的矩陣值函數為模型構造的。
11.如權利要求10的基于計算機的系統,其中估算的平均向量或概率包括對被分類的成員或被估算概率的成員的隨機受試效果向量的真實值的估算。
12.一種預測個體健康的方法,包括從一個體中采集多個生物標識,其中所述生物標識值的至少一個是通過實際測量生物標識值獲得的;以及對所述多個生物標識值實施統計過程,這樣(i)將被測總體的成員分類成或者為在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率,或者為在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率;或(ii)對每個被試總體成員進行定量判斷,估算在特定時間段或年齡間隔內獲得特定生物狀況的概率;其中所述統計過程是基于(1)采集從被試總體的個體成員中縱向得到的生物標識值數據庫,所述成員的子總體D確定為已在特定時間段或年齡間隔內得到特定生物狀況,子總體D確定為在特定時間段或年齡間隔內未得到特定生物狀況;(2)從所述生物標識中選擇生物標識子集,以便判別屬于子總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(3)采用所選生物標識的分布來進展統計過程。
13.如權利要求12的方法,其中所述生物標識值的至少一個是從生物樣本中獲得的。
14.如權利要求13的方法,其中所述生物樣本為血液樣本或尿液樣本。
15.一種用于預測個體未來健康的基于計算機的系統,包括(a)一個含有處理器的計算機,該處理器包含有來自一個體的多個生物標識值;以及(b)一個計算機程序,包括用于對所述多個生物標識值實施統計過程的步驟,這樣(i)將被測總體的成員分類成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的子總體PD,或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的子總體PD;或(ii)對每個被試總體成員進行定量判斷,推算在特定時間段或年齡間隔內獲得特定生物狀況的概率;其中所述統計過程是基于(1)采集從被試總體的個體成員中縱向得到的生物標識值數據庫,所述成員的子總體D確定為已在特定時間段或年齡間隔內得到特定生物狀況,子總體D確定為未在特定時間段或年齡間隔內得到特定生物狀況;(2)從所述生物標識中選擇生物標識子集,以便判別屬于子總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(3)采用所選生物標識的分布來進展統計過程。
16.如權利要求15的基于計算機的系統,其中所述個體的多個生物標識值包括縱向得到的生物標識值。
17.如權利要求15的基于計算機的系統,其中特定生物狀況是在特定時間段或年齡間隔內由特定根本死因引起的死亡。
18.如權利要求15的基于計算機的系統,其中特定生物狀況是在特定時間段或年齡間隔內的特定疾病。
19.如權利要求15的基于計算機的系統,其中特定時間段是至少兩年的時間段。
20.如權利要求15的基于計算機的系統,其中特定時間段是至少三年的時間段。
21.一種用于判斷個體將由特定根本死因引起死亡的危險率的方法,包括從個體中采集多個生物標識值,其中所述生物標識值的至少一個是通過實際測量的生物標識值來獲得的;以及對所述多個生物標識值實施統計過程,以使確定所述個體是否屬于在一特定時間段或年齡間隔內具有預測的高死亡概率,所述死亡由在特定時間段或年齡間隔內總計至少占被試總體總死亡的60%的任何一種根本死因引起。
22.一種判斷個體呈現良好健康狀況的方法,包括從個體中采集多個生物標識值,其中所述生物標識值的至少一個是通過實際測量的生物標識值來獲得的;以及對所述多個生物標識值實施統計過程,以便確定所述個體是否屬于在一特定時間段或年齡間隔內具有預測的不會死亡的概率,其中所述死亡由在特定時間段或年齡間隔內總計至少占被試總體總死亡的60%的任何一種根本死因引起。
23.一種用于判斷個體由特定根本死因引起未來死亡的概率的基于計算機的系統,包括(a)一個包括一處理器的計算機,該處理器包含一個體的多個生物標識值;以及(b)一計算機程序,該程序包括的步驟用于對所述生物標識值實施統計過程,這樣確定所述個體是否屬于在一特定時間段或年齡間隔內具有預測的死亡率,其中所述死亡由在特定時間段或年齡間隔內總計至少占被試總體總死亡的60%的任何一種根本死因引起。
24.一種用于判斷個體呈現良好健康狀況的基于計算機的系統,包括一個包括一處理器的計算機,該處理器包含一個體的多個生物標識值;以及一計算機程序,該程序包括的步驟用于對所述生物標識值實施統計過程,這樣確定所述個體是否屬于在一特定時間段或年齡間隔內具有預測的不會死亡的概率,其中所述死亡由在特定時間段或年齡間隔內總計至少占被試總體總死亡至少60%的任何一種根本死因引起。
25.一種用于判斷個體的未來健康問題危險率的裝置,包括(a)一種用于儲存一個體的多個生物標識值的儲存裝置;以及(b)一種與該儲存裝置連接的處理器,該處理器的程序為(1)從該儲存裝置中接收所述多個生物標識值;以及(2)對所述多個生物標識值實施統計過程,以便(i)將被測總體的成員分類成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的子總體PD,或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的子總體PD;或(ii)對每個被試總體成員進行定量判斷,推算在特定時間段或年齡間隔內獲得特定生物狀況的概率;其中所述統計過程是基于(1)采集從被試總體的個體成員中縱向得到的生物標識值數據庫,所述成員的子總體D確定為在特定時間段或年齡間隔內已獲得特定生物狀況,子總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;(2)從所述生物標識中選擇生物標識子集,以便判別屬于子總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(3)采用所選生物標識的分布來進展統計過程。
全文摘要
本發明公開了一種用于預測個體未來健康狀況的基于計算機的系統,該系統包括:(a)一個含有處理器的計算機,包含有從被試總體的個體成員中得到的縱向采集的生物標識值數據庫,所述成員的亞總體D確定為在特定時間段或年齡間隔內獲得特定生物狀況,亞總體D確定為在特定時間段或年齡間隔內未獲得特定生物狀況;以及(b)一個計算機程序,包括如下步驟:(1)從所述生物標識中選擇生物標識子集,以便判別屬于亞總體D和D的成員,其中生物標識子集的選擇基于被試總體個體成員的生物標識值的分布;以及(2)采用所選生物標識的分布來進展統計過程,這樣可用于:(i)將被測總體的成員分類成或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性高概率的亞總體PD;或者屬于在特定時間段或年齡間隔內獲得特定生物狀況具有指示性低概率的亞總體PD;或(ii)對每個被試總體成員進行定量判斷,推算在特定時間段或年齡間隔內獲得特定生物狀況的概率。
文檔編號G06Q50/00GK1268033SQ98804057
公開日2000年9月27日 申請日期1998年2月10日 優先權日1997年2月14日
發明者T·C·坎貝爾, R·W·赫爾姆斯, L·托馬斯科 申請人:拜奧馬爾國際公司