專利名稱::選擇適配體的方法選擇適配體的方法本發明涉及適配體(aptamer)領域。具體地,本發明涉及產生適配體文庫和用于蛋白質組學的蛋白質-特異性適配體的方法,如蛋白質生物標志物鑒定。適配體是短的聚合物,通常為核酸(DNA、RNA、PNA),其形成明確的三維形狀,使它們可以結合靶分子,其結合方式在概念上與抗體相似。適配體組合了小分子和抗體的最優性質,包括高特異性和親和性、化學穩定性、低免疫原性,和靶向蛋白質-蛋白質相互作用的能力。除了高特異性之外,適配體與它們的靶物之間具有非常高的親和性。通常,針對蛋白質產生的適配體在皮摩爾至低納摩爾范圍內有親和性。與單克隆抗體相反,適配體由化學合成,而不是生物表達,提供顯著的成本優勢(8,9)。適配體通常通過稱為“通過指數富集的配體系統進化(SystematicEvolutionofLigandsbyExponentialenrichment)”(SELEX)的體外進化過程產生,所述過程在美國申請No.07/536,428、美國專利No.5,475,096和美國專利No.5,270,163中描述。SELEX過程包括從候選寡核苷酸的混合物選擇,和結合、區分與擴增的逐步迭代(iteration),使用同樣常用的選擇方案進行,以實際上實現任何期望標準的結合親和性和選擇性。從核酸混合物開始,優選包括隨機化序列的區段,SELEX過程包括下述步驟在有利于結合的條件下用混合物接觸靶物,從已經與靶分子特異性結合的那些核酸中區分出未結合核酸,離解核酸_靶物復合物,擴增從核酸_靶物復合物離解的核酸以獲得富含配體的核酸混合物,然后重復結合、區分、離解和擴增的步驟,按需要進行多次循環,從而獲得僅對靶物分子具有最高結合親和性的序列。候選寡核苷酸可以包括序列中固定或已知的基序。如果使用完全隨機的序列,候選群體中選擇性適配體的發現將完全依賴于機遇。實際上,寡核苷酸序列越隨機,必須依賴于序列對于研究中靶物的選擇性的可能性就越大(11,12,13)。對于最基本的形式,SELEX過程可以通過下述系列步驟限定1)制備不同序列的核酸的候選混合物。候選混合物通常包括固定序列的區域(即,每個候選混合物的成員在相同位置包含相同序列)和隨機化序列的區域。選擇固定序列區域以(a)輔助下述擴增步驟,(b)模擬已知可結合靶物的序列,或(c)增加候選混合物中核酸的指定結構排列的濃度。隨機化序列可以是全部隨機化的(即,在任何位置找到某個堿基的可能性是四分之一)或者僅是部分隨機化的(例如,可以選擇在任何位置找到某個堿基的可能性為0-100%的任何水平)。2)在有利于于靶物和候選混合物成員之間結合的條件下將候選混合物與選擇的靶物接觸。在這種環境中,靶物和候選混合物的核酸之間的相互作用可以認為是在靶物和對于靶物具有最強親和性的那些核酸之間形成核酸_靶物對。3)將對于靶物具有最高親和性的核酸從那些對于靶物具有較低親和性的核酸中區分出來。因為在候選混合物中只存在極少量對應于最高親和性核酸的序列(并且可能只有一個分子的核酸),所以通常理想的是設定區分標準,使區分過程中保留候選混合物中大量的核酸(約5-50%)。4)然后擴增在區分過程中由于對靶物具有相對較高親和性而選擇的那些核酸,以產生新的候選混合物,其富含對于靶物具有相對較高親和性的核酸。5)通過重復上面的區分和擴增步驟,新形成的候選混合物包含的弱結合序列越來越少,并且核酸與靶物的平均親和性程度將逐漸增加。考慮極端情況,SELEX過程將產生包含一個或少量唯一核酸的候選混合物,所述核酸代表來自對靶物分子具有最高親和性的原始候選混合物的那些核酸(11,13)。在產生適配體文庫時一個主要的問題是可能的搜索空間的絕對尺度(sheersize)。例如,可以有上百或上千的可能的寡核苷酸序列,其可以對于單個蛋白質具有選擇性和特異性,但是人們從何處開始尋找最佳序列呢?術語“搜索空間”涵蓋聚合單元(如核苷酸)能發生在指定長度的適配體分子中所有可能的或容許的變型。因為在任一次只能研究有限數目的序列,所以候選文庫可以僅抽樣指定長度的可能核苷酸序列的可能搜索空間的一部分。例如,有包含四個堿基單位(DNA/RNA的核苷酸)的IO24個可能的40聚物。因此,來自生物樣品的通常蛋白質空間的適配體搜索空間(對于40聚物核酸),假定這包含一萬個不同的蛋白質,以102°1(+/-10倍因子)的適配體候選聚合物與蛋白質的比例存在。對于60聚物為IO321。即使只有IOki分之一的序列強“適配”,仍然留有針對待研究蛋白質的IO221的適配體,以找到一個強適配序列。然而,對于任何指定的蛋白質,可能有大量的品質各異的適配體。因此SELEX依賴于合適的序列存在于所研究的初始候選混合物中的機會。然后方法指數性收斂于所選混合物中可用的最佳解上。在候選文庫的設計過程中,可以利用潛在合適序列的一些在先知識,例如給序列賦予特定的2D或3D結構的序列,以確保過程不完全由機會決定。即便如此,SELEX提供的解極不可能提供問題的最佳解,即針對具體蛋白質的最佳適配體。因此,SELEX過程傾向于使用單個表達和分離的蛋白質靶物,其經得起結合選擇,并且可以通過幾輪朝收斂于小適配體集合或單個適配體的擴增而摸索進行。過程通過指數和迭代選擇而從指定序列集合中發現針對分離的蛋白質的“最佳”適配體。在當前已發表的方案中,使用經常只有lxl(T2°的潛在序列搜索空間(8),盡管可以理解的是,某些堿基序列基序作為適配體的可能性遠大于其它序列。盡管如此,目前的適配體搜索不可能從匯集物(pool)中找到全局性最適適配子。而且,搜索的結果非常依賴于初始匯集物的多樣性。在大多數目前的SELEX方案中,適配體必須在候選適配體的初始搜索匯集物中。還極可能的是,考慮到目前為止進行的小搜索,而在全部適配體空間中,每個蛋白質都可能具有廣譜的可能的適配體。因為SELEX方案是指數性的,并且因為推定的適配體通常必須存在于初始文庫中,所以SELEX難于選擇同時針對多個蛋白質靶物的適配體,或者針對掩蓋在其它蛋白質的背景中的一個蛋白質靶物的適配體。SELEX也不能如通常文獻中目前所要求的篩選全部IO15個候選適配體序列。這是因為通常在商品DNA/RNA合成儀上進行的文庫合成,不能將質量控制在驗證文庫多樣性所需的水平。還極可能的是,文庫中的一些適配體退火(粘附)至其它序列上,由于合成過程中的偏差,一些適配體在化學計量上不能充分代表群體。很多適配體將折疊成三級結構的分布,一些有活性,其它的沒有活性。由于其相對稀釋度,很多將簡單地永遠不會再有機會與靶物蛋白質結合。因此事實上不可能針對蛋白質篩選IO15個候選的適配體,而且因此搜索甚至比認為的更局限,并且依賴于產生隨機序列的設備的程序編制。已經描述了SELEX方案上的一些變化,嘗試通過向進化適配體中引入隨機變化而避開這些局限(7)。從另一種方式來看,SELEX本質上是計算機演算法的物理體外實施方案。演算法是一種近似方法,用于幫助解決“足夠好”的答案就已足夠的問題。在本文這種情況下,問題是從過大而難于搜索的有限搜索空間中找到最佳解。演算法是計算機方法,其使用試錯法接近計算難題的解。從另一種方式來說,演算方法或過程首先僅以在一些目標背景中解決問題的近似方法開始,然后使用來自解的效果的反饋改進其自身性能,并因此朝更好的解移動。SELEX針對靶物程序對隨機產生的候選適配體序列進行基本搜索,根據其在測定法中的存活率評價每個候選序列得到的結果是否成功,然后在另一輪重新選擇前擴增存活序列。最后,來自初始文庫的最強的候選序列,即那些以最高的親和性結合靶物蛋白質的序列,在程序的隨后輪次中變得更加富集。因此SELEX過程是在計算機過程的實驗室中進行的,以發現對待研究蛋白質具有最高結合親和性的聚合物(或核酸)。如果適配體和蛋白質的所有物理化學性質,和其行為的原因已知,那么SELEX程序可以完全而確定地進行計算機建模。過程可以用不夠完美的知識近似化(17)。已經發表了更明確地使用生物分子解決計算機問題的其它實例(1,2,3,4,5)。本發明人已經了解,為了解決本問題并改善SELEX提供的搜索能力和解,需要智能方法來搜索適配體搜索空間,并找到最優解來解決由蛋白質組中存在的大量蛋白質和針對每個蛋白的極大量可能的候選適配體而呈現出來的問題的規模。已經用計算機清楚描述了作為搜索具有大量可能解的復雜問題的答案的手段的候選解群體的進化生長(14,15,16),并且最佳地概括在所謂的遺傳算法中,這是特定類型的進化搜索演算法。遺傳算法是基于自然選擇和自然遺傳的機制的搜索算法復制、突變、重組、自然選擇和適者生存。它們將在編碼的候選解代表例如串結構中的適者生存,與結構化但隨機化的信息交換相組合。這使人們可以用人類搜索的一些創新的鑒別力(flair)來形成搜索算法。待研究的最優化問題的候選解起到群中人工生物(個體)的作用。然后在重復應用上述運算符突變、交換復制和選擇之后,發生群的進化。在每一代中,使用字節(bit)和舊的或先前群中最適的部分(pieces),產生新的人工生物集合(字串或二元編碼)。對臨時產生的新部分進行嘗試,看是否獲得好的量度。遺傳算法有效地利用了歷史信息,推斷具有期望的性能改善的新搜索點(14)。在這些方案中,編碼了搜索問題,每個可能的解用數字或字母的鏈、序列或串表示。這種編碼僅是為了便于進行演算法。經常用類比將這些數字或字母的鏈、序列或串描述為“基因組”。因此每個人工個體解具有自己的基因組。雖然產生了大的候選解初始群體(基因組),但是群體只代表能窮盡編碼的可能的候選解總數中非常小的部分。這些演算法通常配置于從搜索空間尋求近似答案,所述搜索空間過大,難于窮盡搜索。將“適合性函數”或“目標函數”f用于每個可能的解s或候選群的成員。這個函數是對個體解與最優解性質接近程度的評價。f(S)值高暗示S是好解。通常地,隨機產生的候選解s的初始群體包括第一代。將適合性函數f應用于候選解和任何隨后的后代中。在選擇中,用朝向更高適合性的偏差選擇下一代s的父母。只有“適合的”個體,如通過適合性函數f和應用截止點(例如上四分位數(upperquartile))所測定的,被選擇進入第二輪突變(其基因組的隨機改變)并與其它高分值個體交換它們的“基因組”的部分(重組或復制)。用于此的方法需要其“基因組”單元的算法從一種可能性變為另一種,并且需要產生任何兩個適合的基因組之間的隨機點產生基因組的前綴和后綴組合。因此,除了原始的父母解,還產生第二代子解。將此更詳細地表述為,父母通過拷貝用重組和/或突變而復制。復制是個體候選物或串根據其適合性函數f而拷貝的過程。這表示具有更高適合性值的候選物具有更高的將一個或多個后代分布到下一代的可能性,并且它們的一些內部編碼性質將轉移給它們的后代。這種運算符,f,是自然選擇(達爾文的適者生存)在候選物中的人工版本。一旦選擇了候選物用于復制,就制備候選物的確切的復制品。這個候選物然后進入交配匯集物,其為暫時的新群,用于進一步的通用運算符作用。重組作用于兩個選擇的親代(候選物),并且得到一個或兩個子代(新候選序列)。復制后,通過兩個步驟可進行簡單的交換。首先,新候選物的成員或交配匯集物中的子代隨機交配。第二,每對新的候選物進行交換以產生另外兩個新的候選物。在一個候選物上進行突變并產生新的候選物。需要突變是因為,即使復制和交換可有效地搜索并重組現有概念,但是有時會變得過于強烈而丟失了一些潛在的有用遺傳材料。在人工系統中,突變運算符可以進行保護,不發生如此不可挽回的損失。因此,突變是對于重要概念過早損失的保險策略。總之,這些運算符產生后代(新的候選物集合),并得到一些任意群體尺度的、多樣但相似的個體候選物解(基因組)的新集合。評估這種新集合的適合性,保留最佳解以復制并再次突變。這些新候選物與舊候選物競爭在下一代中的位置(適者生存)。進行這樣的過程,直至群體的集體適合性達到穩定的平臺階段。這經常意味著有幾個個體是搜索的合理解,并且它們經常具有一些共同的性質。因此候選解的群體,它們本身經過編碼,能朝滿足指定的“適合”標準的解集收斂。得到的個體的群體在組成上可與初始群體的共同之處很少。這樣迭代的次數和考慮到達穩定和高適合性候選解群體所需概率的次數相對較小,并且遠小于窮盡式搜索。因此,遺傳算法允許迭代搜索問題的解或解集,所述問題所處空間過大,難于一次搜索完全。待解決的問題首先在候選解的集合中編碼,并且對每個可能的解應用適合性函數。然后可以鑒定最佳解。然后演算法產生多樣但相似的“子代”群,其帶有其親代的性質。然后重新應用適合性問題并重復過程。因此,考慮到最佳解依賴于適合性函數的穩健性(robustness),人們首先從解的隨機近似開始進行搜索,并且算法允許群朝解的最優集合移動。雖然對于指定的問題可以有幾個同樣好的解,但是遺傳算法的長處(strength)在于,在正確的條件下,這些算法易于找到一些或全部的這些同樣好的解。考慮到這點,本發明包括SELEX的改進。用另一種方式表述為,本發明涉及應用計算機演算法改善SELEX。為此,本發明包括遺傳算法的物理實施方案。事實上,在一個方面,本發明包括使用遺傳算法范例(paradigm)在候選適配體序列的設計中指導聚合序列進化。用另一種方式看,本發明包括鑒定針對至少一個靶分子的一個或多個適配體的方法,方法包括SELEX并且特征在于該方法進一步包括使用候選適配體序列的適合性指導序列朝每個靶分子的最適序列方向進化。具體地,本發明包括用于鑒定針對至少一個靶分子的一個或多個適配體的方法,方法包括a)選擇可以結合靶分子的候選適配體序列;b)為結合序列分配每個序列的適配潛力的量度(適合性函數);c)通過隨機或定向改變成一些或全部序列而進行進化,產生候選序列的新混合物;和d)用新產生的候選適配體匯集物重復步驟a)至C),直至候選匯集物的集合適配潛力到達平臺,其中存在于最終匯集物中的序列是靶分子的最優適配體。更具體地,方法包括a)用候選聚合物序列的匯集物接觸至少一個靶分子;b)從那些已特異性與靶物分子結合的序列中區分出未結合序列;c)離解序列_靶物復合物,獲得富含配體的序列混合物;d)為步驟C)中獲得的每個序列分配序列適配潛力的量度(適合性函數);e)使用步驟d)的量度確定富含配體的混合物的適配潛力;f)使用步驟e)中獲得的信息,允許步驟C)中獲得的一些或全部序列進化,以產生新的序列混合物;和g)用新產生的候選適配體匯集物重復步驟a)至f),直至候選匯集物的集合適配潛力到達平臺,其中最終匯集物中存在的序列是針對至少一個靶分子的最優適配體。因此,本發明的方法允許鑒定靶物的選擇性適配體,事實上基本是最佳適配體。適配體本身的候選多核苷酸序列代表搜索空間中的可能解,搜索空間是所有可能的適配體(并且隱含它們的序列)。序列進化的使用允許可能解的群體朝最優解的方向移動。因此,最終匯集物中的序列無需,并且事實上,極不可能存在于初始搜索匯集物中。此外,通過允許匯集物中候選物的進化,與SELEX相比,獲得最佳解(適配體)的成功機會更高,因為SELEX研究的是可能解的固定群體。術語進化包括選擇過程的迭代之間的序列的復制、重組、交換和突變。進化可以是隨機的、經過設計的或它們的組合。應該注意的是,因為區分一個多核苷酸適配體與另一個的唯一一點是其序列,因此適配體的性質必須在其序列中編碼。適配潛力的分配是通過對每個序列特異性的一個或多個測量或計算性質而進行的。例如,適配潛力可以基于序列在富含配體的混合物中的豐度,與前面的迭代或對照相比較的相對豐度。定量可以與適配潛力的其它量度組合。這些量度通常來自序列本身和序列所賦予的性質,如二級或三級結構預測、疏水性、與已知適配體的相似性等。數學上組合或集合這些量度的復合量度也是合適的。某些常用序列基序的潛力也可以用于估計序列的適配潛力。根據其測量的統計學或序列性質(或其它)而確定候選序列的相對或絕對適配潛力的方法稱作“適合性函數”。這與進化搜索演算法領域中技術人員的標準術語一致(14)。也存在其它術語表示相同的概念,如“目標函數”。以非技術的方式表述,這是候選適配體潛力的目標量度,通常是數值分數(numericalscore)。本發明的特點是允許高度適配的個體進行小的、隨機的組成改變,如序列的單一變化,和序列的交換重組,從而產生更強候選適配體序列的新匯集物。允許序列進化的顯著優勢是允許產生初始候選匯集物中可能不存在的序列和基序,因此增強鑒定靶蛋白最適適配體的可能性。方法的另一個顯著優勢是它只是“最適”候選物,其允許彼此重組并進行突變,因此產生推定更適合的新適配體序列的子代群體。本發明的方案和SELEX的根本區別是SELEX不容易在待研究的序列中引入突變或變化。事實上,突變發生的唯一方法是在由PCR擴增已結合序列時的擴增步驟中出現事故。然而,這樣的突變可能太罕見而不能影響過程,即待研究序列群體的總體組成。而且,SELEX不能使或者允許適配體種類之間的序列重組或交換,也稱作“重組或復制”,也不能使或者允許理性介入而改變適配體序列。此外,SELEX方案不允許評估序列,例如它們作為適配體的“適合性”,和在各選擇輪次之間理性操作。理性介入的實例可以是確保在任何迭代時的所有適配體序列都包含特定的序列基序。在突變和重組之后可能不是這樣的情況。因此理性介入可以作為過濾器或對隨機性的限制。重要的是,這可以提高選擇過程的效率,因為它使例如已知蛋白結合基序的在先知識建構于待研究群體中并得以保持。這使人可以在未完全確定其結果的情況下指導并限制進化。在進一步的實例中,通過監測序列匯集物在每次迭代時的多樣性,可以促使群體平行地找到針對幾個蛋白質的幾個解(適配體)。這可以通過鑒定、監測和指導整個群體中不同序列的幾個子群的進化而完成。這對于SELEX是不可能的,因為不同于所提出的發明,SELEX不允許將過程的每次迭代時的已結合適配體定量,也不使用這個信息來產生干擾并以正面影響總體結果的方式確定適配體匯集物各次迭代之間的每個序列。所謂的“下一代”多核苷酸測序技術要求將DNA或RNA的個體分子或其它多核苷酸序列分離到表面如珠或芯片上,從而產生序列的單分子陣列。陣列的表面密度使每個分子都可以單獨解析,例如通過光學顯微鏡。多核苷酸分子在陣列上的測序允許對序列進行“數字”即絕對計數,并且因此,指導陣列上存在的序列的定量。在一些技術中,一旦經過排布而使來自每個序列的信號增強和/或清晰,就可以克隆性(clonal)擴增序列。盡管如此,通過計數陣列上序列的出現次數而不是由每個擴增子產生的信號而獲得定量。合適的測序和定量技術的實例可以在公開文獻如WO00/006770和Branton等(21)中找到。在所提出的發明中,通過使用大量并行DNA測序如“第二代”、“下一代”或“第三代”DNA測序儀中實施的那些技術,可實現對候選適配體序列的操作。大量并行測序的使用允許平行定量并測序富含配體的候選適配體,從而同時提供有關來自它們的豐度的適合性量度和源自它們的序列的其它適合性量度的信息。應了解的是,如果給出大量并行測序儀的性能,那么這種方案將顯著減少實驗時間和在所提出的方案下發現適配體的成本。因此,理性介入(或人指導)的另一個實例是,已經檢驗并計數待研究的適配體序列,注意到測序儀本身效率的缺陷是對某些序列的代表性不夠。這可以通過使之后群體的組成具有偏好性而彌補。因此,在優選的實施方案中,通過將步驟C)中獲得的每個序列定量而測定適配潛力。理想地,使用序列的單分子陣列或相似設備進行定量,所述設備能以大量并行的方式測序并計數單個分子。具體地,進行足以鑒定陣列上每個序列的測序或部分測序,連同每個序列的計數,以實現定量。或者,序列可以在無性陣列上定量,其中將每個序列排布在表面上之后進行擴增。用這種方式,可以計數陣列上的主要適合性量度,代表指定候選適配體序列在待研究群體中的頻率。一旦獲得了主要適合性,源自每個候選適配體的核苷酸序列或分子組成和在定量過程中獲得的生物信息數據,如相似基序或二級結構,可另外用于深度探討富含配體的序列并進一步獲得適合性標準。這些計算的但依賴于組成的性質隨后可通過將它們建構于其中、使它們具有偏好或消除它們而用于下一輪候選適配體文庫的進化產生中。本發明利用目前可用的技術的能力以大量并行方式分離和定量個體序列并使靈敏度低至單分子。它還允許對序列的復雜和多樣的群體進行研究。在針對單個蛋白篩選時,發現在已結合部分更豐富的候選適配體序列將比只結合一個拷貝的序列適合性更高,因為方法搜索的是粘附(結合)于待研究蛋白的候選適配體序列。這是定義適配體的主要性質。在針對蛋白質的復雜混合物篩選時,鑒定適配子需要源自定量過程的其它統計學性質。大量并行測序的優勢是允許計數每個序列并由此定量。這與例如抗體測定法相反,在抗體測定法中分辨率不可能如此之高。因此,可以使用適配子和其它測量、計算或由它們的序列產生的歷史統計,并組合成“適合性函數”。這使得可以在分子水平物理進行比SELEX實施的更為復雜和更成功的進化搜索演算法。在計算域中具備如此復雜的演算法,它本身能衍生這樣的“適合性函數”并用于改善待研究重要分子群體隨后的迭代,而不是給出的“適合性”量度本身的細節。應了解的是,本發明將允許進行很多探索研究,從而允許了解適配體的最優常見“適合性”性質或者得到背景特異性“適合性”量度,例如對于某些類型的蛋白質。因為建立了關于候選序列和基序的信息,所以可以在后面的候選匯集物或新匯集物中嵌入具體特點的知識,用于鑒定針對相關或相似蛋白質的適配體。同樣地,發現無效的序列和基序可以肯定地從候選匯集物中排除。而且,如果需要對于不同的蛋白質具有選擇性的適配體,則可以肯定地從候選匯集物排除針對已知蛋白質的已知適配體序列。這可以幫助確保發現的適配體更有可能對于這個蛋白質有特異性,這是有用的適配體的主要要求。或者,如果選擇提供針對特定家族蛋白質的選擇性和特異性的序列和/或基序,那么可以將這些序列和/或基序嵌入在候選適配體匯集物中,然后使用所述適配體匯集物鑒定對于這些蛋白質亞型具有選擇性的適配體。所有這些優勢都是通過具適配體序列的知識、它們的相對“適合性”,以及源自它們的序列或在選擇性方案下它們的定量行為的其它可計算性質而驅動的。遺傳算法使用的算法編碼方案反映本發明的實際組成本質。這些算法通過進行重復改變的字母或數字(或字節)的類比,如交換重組和選擇/擴增,將搜索問題編碼入“基因組”,盡管是在計算機的存儲器中進行。按照本發明,使用待研究的實際分子進行這些過程。分子,在這種情況下是多核苷酸序列,本身將可能的解編碼到搜索中,并評估它們的性質,如對于蛋白質的粘附性(由定量證明),其還編碼進它們的序列中,從而驅動方法(15)。因此,本發明是遺傳算法的物理實施方案。這可以通過使用大量并行DNA/RNA測序以及適配體可為其適配性質編碼入它們的序列中的分離的聚合分子的事實而進行。更清楚地,使用大量并行測序使得可執行優化的半理性/半隨機進化搜索策略,用于鑒定對于蛋白質靶物或多個蛋白質靶物具有特異性的適配體。例如,可以優先選擇已顯示對與待研究蛋白質相似的蛋白質有效的已知序列基序,作為初始文庫產生和適合性選擇的一部分。用這種方法,過程內在并有利地朝高質量或“適合”解的方向偏移,所述解包含這些基序,這些基序也可以是任何解所必備的。然而,文庫產生和隨后基序的突變改變中足夠的隨機性可以用于確保發現與待研究蛋白質結合的新的但相似的序列。可以設計適合性函數,使得可以選擇與已經發現與先前的蛋白相似但足夠不同的序列,確保選擇合適適配體的成功和特異性。這還可以促進針對很多蛋白質的敏感和特異性適配體的目錄隨時間的積累。針對一個蛋白而不是另一個進行操作的不同適配體的這樣的“不重疊”亞群可以隨后同時用于平行地探尋和測量幾個蛋白質。因為大量并行測序允許多重化,所以可以產生針對多于一個蛋白質的適配體文庫并同時篩選。相似地,本發明允許平行地針對單個或多個蛋白質靶物選擇很多高質量但不同的適配體(在序列水平)。此外,因為大量并行測序可以將每種序列種類定量,并且每種物質能代表單個蛋白質,所以本文所提出的方法使用基因組學延伸蛋白質組學的力量和動力學范圍。在本發明的特定實施方案中,篩選經過設計的、隨機的或半設計序列的多樣文庫,并針對源自生物材料例如血清或血漿的折疊蛋白質體外集合進行選擇。應了解的是,序列文庫可以通過任何方法產生。除去或洗脫不結合蛋白質的序列。為此,多種已知的選項是可用的。例如,單個蛋白質或復合蛋白樣品可以固定化在固體支撐體上。可以進行嚴緊洗滌,去除未結合和結合較弱的序列。另一個選擇是使用蛋白質靶物上序列(光適配體)的可逆交聯。從蛋白質宿主去除剩余的已結合序列,并操作大量并行測序儀,在其中測序并計數。作為大量并行測序的具體實例,將已結合序列隨機排布在表面如磁珠或芯片上。任選地循環擴增序列,在表面或個體磁珠上以離散的χ和y坐標得到無性單鏈分子的組。然后合適的DNA測序儀進行逐步化學處理,其由允許每個循環確定每個互補序列上的一個堿基或者監控堿基實時并入的試劑組成。照明和成像系統使這個過程可以照相,從而可獲得初始候選物的序列。不管測序技術的細節如何,建立反映每個已結合候選序列的互補序列。通常這些技術能以多至75個堿基對的長度測序超出4000萬-3億DNA片段,并且隨著技術的進步,這些數字正在迅速增長。這個過程目前從樣品制備到測序結果輸出需要少于1至3天,并且這些時間尺度正在縮短。應了解的是,可以使用落入“下一代多核苷酸測序”范疇內的其它大量并行方法,并且本發明不限于所提供的具體實例。“下一代多核苷酸測序”是通常用于描述2004年以來出現的DNA/RNA測序平臺的術語。2008年以來,具有改進性質的另一代測序平臺現在稱作“第三代”。它們共有的性質是它們使用來自舊技術的不同測序化學,其基于“Sanger”測序。新平臺使用新的化學,并且通常通量非常高,成本則低得多。這已經通過使測序反應以非常高的程度并行化的能力而實現。新平臺通常,但不是唯一地,通過合成或鏈延伸(建立)而進行,不像Sanger方法,其通過切掉堿基(降解)而工作。此外,新平臺針對少量單個或無性分子操作,不像Sanger方法,其DNA測序儀分子與堿基測定的比例非常高。還應了解的是,盡管參照DNA測序,但是也可以使用用RNA或PNA(肽核酸)的DNA測序技術。因此,參照下一代測序儀或測序包括DNA、RNA和PNA,以及所有基于核酸的聚合物的其它化學變體和適用于本發明的方法中的類似物。所有新測序技術,無論是“下一代”還是“第三代”,都能以大量并行和高效的方式對個體分子或它們的無性拷貝測序。使用“序列計數”,即定量復雜生物樣品(如miRNA)中序列的絕對或相對豐度,已經建立成熟,并且針對這些下一代或大量并行平臺進行了描述(18)。在有效的大量并行測序平臺上,與初始候選物互補的衍生序列應高度精確,并且包括很少的顯著系統化序列背景偏差(如果有的話),如不能解析均聚物和回文序列或其它包含強結構元件的基序。在一些平臺上,這已經通過將大的復雜基因組(包含這些基序)重新測序而建立。本發明的方法可以在單個分離蛋白上進行。或者,方法可以在已知存在于蛋白質混合物中的單個蛋白上進行。然而,遺傳算法的一個長處是可以從更大的群體進化得到子群。這通過以不同的標準亞選擇而實現。因此,在進一步的可選方案中,方法還允許同時研究混合物中的很多蛋白。這可以通過使用下一代DNA測序技術而實現,因為這種技術允許多重化。在針對多個蛋白搜索候選適配體時,可以監控候選物不同群體的出現。然后將序列群組合并在本發明中常用的方案下并行發展。例如,可以針對單個蛋白的不同區域鑒定有差異的適配體。應了解的是,任一次研究的群數將受到靶分子以及測序陣列的動力學范圍的限制。本發明的方法可以用于研究單個靶物或蛋白質(例如,從凝膠切下的蛋白質),但是特別適用于分析靶物混合物,包括復雜蛋白質混合物。術語“蛋白質的混合物”或“蛋白質混合物”通常指兩個或多個蛋白質的混合物,例如,包含所述兩個或多個不同蛋白質或其同等型的組合物。在優選的實施方案中,本文待分析的蛋白質混合物可以包括多于約10,優選多于約50,甚至更優選多于約100,更優選多于約500個不同的蛋白質,如,例如,多于約1000或多于約5000個不同的蛋白質。示例性復雜蛋白質混合物可包括而不限于存在于生物樣品或其部分中的所有或部分蛋白質。如本文所使用的,術語“生物樣品”或“樣品”通常指獲得自生物來源的,未純化或純化形式的材料。通過實例并且無限制地,樣品可以獲得自病毒,例如,原核或真核宿主的病毒;原核細胞,例如,細菌或古細菌,例如,自由生長或浮游的原核生物或菌落或包含原核生物的生物膜;真核細胞或其細胞器,包括獲得自體內或原位或體外培養的真核細胞;真核組織或生物體,例如,獲得自真核組織或生物體的包含細胞或無細胞的樣品;真核細胞可以包括原生生物,例如,原生動物或藻類,真菌,例如,酵母或霉菌,植物和動物,例如,哺乳動物、人或非人哺乳動物。因此生物材料可以包括,例如,細胞、組織、生物體,或其提取物。生物樣品可以優選地從其生物來源,例如,從動物如哺乳動物、人或非人哺乳動物通過合適的方法移出,如,不限于,尿液、唾液、痰、精液、乳汁、粘液、汗液、糞便等收集或吸取,血液、腦脊液、間質液、視流體(玻璃狀)或滑液的抽取,或者通過組織切片、切除等。生物樣品可以進一步劃分,以分離或富集其中待使用的部分,用于獲得蛋白質進行本發明中的分析。通過實例并且無限制地,可以彼此分隔多種組織類型;可以從樣品,例如使用FACS分選、抗體淘選、激光-捕捉分離等,分離特定的細胞類型或細胞表型;細胞可以與間質液分開,例如,血液細胞可以分離自血漿或血清;等等。樣品可以直接應用本發明的方法,或者可以在使用前處理、提取或純化至各種程度。樣品可以來自健康受試者或患有病癥、癥狀、疾病或感染的受試者。例如,無限制地,受試者可以是健康動物,例如,人或非人哺乳動物,或動物,例如,人或非人哺乳動物,其患有癌癥、炎性疾病、自免疫疾病、代謝疾病、CNS疾病、眼病、心臟疾病、肺病、肝病、腸胃疾病、神經退行性疾病、遺傳疾病、傳染性疾病或病毒性感染,或其它小病(ailment)。優選地,可以處理來自生物樣品的蛋白質混合物,從中去除高豐度蛋白質,以提高蛋白質組分析的靈敏度和性能。通過實例,哺乳動物樣品如人血清或血漿樣品可以包括豐度蛋白,特別是,白蛋白、IgG、抗胰蛋白酶、IgA、轉鐵蛋白、觸珠蛋白和纖維蛋白原,其可以優選如此從樣品中去除。用于去除豐度蛋白的方法和系統已知,如,例如,免疫親和去除,并且經常可由商業提供,例如,來自AgilentTechnologies(SantaClara,California)的多親和去除系統(MARS-7,MARS-14)。盡管本發明有特定的應用來鑒定對于蛋白質特異性的適配體,但是應了解的是,本發明還有研究其它分子的應用,如代謝物和潛在的小分子和生物治療劑。上述方法以通過測序將適配體序列定量為重點。為了產生對單個蛋白特異性的適配體文庫,無需專門研究適配體序列,直至文庫完成。因此,方法可以進一步包括只獲得適配體序列最終匯集物的序列。本發明的顯著優勢是需要的材料量少——皮摩爾或者甚至毫微微摩爾。如果使用四個堿基,A、C、G和T,制備40聚物DNA適配體序列,則可提供1.2xl024種組合。因此,1摩爾(6.2xl023)最好的情況下只能包含全部可能序列的5%,并且這種制備物重量將超過Ikgo1皮摩爾將包含約IxlO11個分子,所以Iml皮摩爾唯一的適配體將包含IxlO8個分子。如果將40聚物中的17個堿基對固定,即作為“基序”,剩下23個可變的和/或隨機的堿基對,因為1皮摩爾將包含高達約70個拷貝數的各個可能的序列,所以I-IOml皮摩爾溶液應包含每個序列的拷貝數在1和約10之間。因此,在靈敏度方面,定量設備(即大量并行測序儀)能并且應該超過針對蛋白質的適配體的親和性和未修飾生物樣品中大多數蛋白質的天然濃度。下一代測序設備,如Illumina所銷售的,通常在其表面上有330x8的成像區域,在所述表面上可能在每個成像區域干凈地提取25000個左右的序列。因此,目前,每張芯片每次運行可能研究約IxlO8個40聚物序列。因此,技術應允許11觀察溶液中的皮摩爾適配體。因此技術的動力學范圍跨越天然樣品中蛋白質的動力學范圍。這些測序技術的性能不斷隨時間而改善。—旦已經設計了對于特定蛋白有特異性的適配體文庫或群,可以使用適配體的序列建立針對特異性蛋白質的適配體群的結構、功能和結合特性的理性知識,或者反之亦然。從而可以用于深入研究蛋白質,并改善適配體文庫的其它參數和/或特點。這些改善可以在初始文庫產生期間和/或在所提方案下迭代選擇各輪次期間應用。事實上,過一段時間,將建立已鑒定適配體和蛋白質之間的序列/結構關系,并可以用作初始適配體文庫設計的輸入,探索具有不同基序的適配體空間的不同和其它部分。也可以使用這些信息評價與初始目的蛋白具有相似結構的蛋白。用這種方式,已經發現某些類別蛋白質的適配體,可以通過使用根據相同類別的蛋白質的在先知識而理性選擇的起始適配體文庫,探索和研究相似的蛋白質。對于一個蛋白質的文庫序列或者特定域的知識,也可以用于輔助根據假設或已證明和測量的性質,進行對于相關蛋白質和蛋白質家族其它成員的適配體匯集物的設計,相似的適配體序列與相似的蛋白質表面結合。還可以挖掘棄去的適配體序列獲得信息。例如,這些序列的統計和計算性質(例如結構)可以用于鑒別弱適配體的常規性質。這些信息在設計初始適配體文庫時提供有用的知識,能在序列水平快捷地限制初始文庫的隨機性。在可選的實施方案中,中間步驟可以從生物信息學檢查適配體標簽(序列)并理性改善,因此確保群體朝多樣但高度特異性的標簽方向進化。生物信息學數據包括產生特定二級和三級結構的序列,和候選物和蛋白之間存在互補性的序列。如前所概述的,對于指定的適配體序列和其它生物數據如蛋白質家族、折疊域等,可以將性質計算、匯總、關聯并保存。可以使用這些生物信息學性質改善初始文庫的產生。它們還可以用作候選適配體序列各輪次選擇之間的部分“適合性函數”,以塑造并改善每階段的群性質。血液中的蛋白是鑒定疾病狀態和藥物治療的標志物的特定靶物。廣泛認為血液中蛋白質的量和/或構型與這些狀態統計相關,其比內在的天然多變性更重要。血液和其它體液是特定的靶物,因為它們在液體環境中影響組織,傳遞重要蛋白并且能在治療咨詢期間使用相對低廉而直接的過程獲得,用于測試。然而,血液中蛋白的濃度具有非常大的范圍,少量蛋白質占所有蛋白質的超過99.9%,并且剩余的分布從皮克到毫克每毫升(19)。因此,豐度較高的小蛋白質群遮蓋了蛋白混合物中同樣存在的重要但罕見的蛋白質。本發明的方法還允許針對存在于生物樣品中的豐度很低或極低的蛋白質,鑒定其適配體。因此,在進一步的實施方案中,方法進一步包括去除在迭代早期(第一和/或第二)和/或其它輪次發現的豐度非常高的候選物。假設測序陣列的“槽(slots)”數量有限,如果不是全部槽,高豐度候選物也將占據大多數槽,從而遮蓋任何豐度較小的候選物,并且提供研究中蛋白質的動力學范圍草圖。通過以絕對或相對概念,從測序匯集物去除豐度極高的候選物,然后可以不再研究對高豐度蛋白質有特異性的候選物,并且有效地忽略復雜混合物中這種特定的蛋白質群,即使蛋白質仍然存在于混合物中。將針對一個高豐度蛋白的適合序列去除將揭示另一個高豐度候選物,或者將揭示針對豐度較低靶物的候選物。這是理性介入的另一個實例,傾向于朝豐度更低的蛋白質發現適配體序列。在適合性函數中還需要其它平衡選擇,如在相同迭代的副本之間推定低豐度適配體的低變異性,和/或某些已知序列基序的優先性。這將幫助確保從非特異性或隨機序列的背景噪音中選擇低豐度但“適合”的序列。這個額外步驟的優勢是可以避免對蛋白質混合物進行操作而去除豐度非常高而且常見的蛋白。用這種方式,蛋白質混合物更真實地基于天然樣品并且,通過干擾,源自混合物的蛋白質的任何有關信息更可能更精確地反映每個蛋白質的天然狀態。使用蛋白質天然狀態具有更多優勢,還可以允許選擇對進行化學修飾或其它自然中常見的翻譯后修飾的蛋白質具有特異性的適配體。豐度很高的候選適配體可以簡單忽略或者可以從匯集物中消減或去除群。例如,可以通過在包含與豐度序列互補的探針的固體支撐體上雜交而實現去除。去除也可以是理性介入的實例,其中通過對DNA合成儀適當編程而從隨后的迭代中排除特定的候選物,產生具有所有期望性質的新序列匯集物,所述性質干擾“適合性”,與高豐度蛋白質結合的序列除外。然后在包含本發明的通常方案下,在后面的選擇輪次中繼續處理新匯集物。然后可以集中于并使用來自第一步驟的僅有最小豐度候選物的一組序列。因此,測序儀的定量能力可以集中在非常低豐度的候選物上和,以代理的方式(byproxy),集中在蛋白質混合物中存在的低豐度蛋白質上。這是當前用常規基于MS(質譜儀)的技術或SELEX所不可能實現的。高豐度候選物的迭代消減允許研究豐度更低的候選物。為了確保任何結合都是選擇性的,并且不純粹是偶然,候選物可以加入已知量的已知適配體序列,并且針對蛋白質混合物運行序列,包括以已知量存在的已知適配體可結合的蛋白質。可選地或此外,多個副本之間的低變異性意味著待研究的候選物極可能與蛋白質結合(粘附)。因此,本發明的方法解決蛋白質組的主要問題之一,S卩如何應對與處理高豐度蛋白。這通過理性地排除與這些蛋白結合的候選物而實現。在后面輪次的測定和選擇中忽略這些蛋白質。突變/交換過程可能引起與高豐度蛋白質結合的一些候選物再次出現,但是這些序列也能如前所述在每次過程迭代時理性消除。仔細選擇低豐度候選物,其具有強序列性質和迭代間定量測定的低變異性,使得可能的與低豐度蛋白特異性和選擇性結合的適配體群(或子集)收斂。在進一步的實施方案中,通過計數候選物并與對照群比較,還可以監控每次迭代中候選物的豐度范圍。這可以進一步用于改善基于適合性的選擇。一個實例是,在第一輪選擇期間,將所選序列的群與初始未選擇文庫中存在的序列比較。序列組成和某些序列的統計學出現率中顯著的變化(可能證明一些模型)可以說明相對成功性。如果前幾輪選擇沒有產生組成與初始群顯著不同的候選物匯集物,那么可以判斷匯集物和實驗失敗。應了解的是,一旦已經通過本發明的方法鑒定了一個候選適配體序列或文庫,必須證實序列為適配體。這可以通過針對相同來源樣品或多個不同樣品之間的多個拷貝候選物的復制結合和定量而實現。如果樣品之間的重復性較差或變異較高,那么候選物不可能對于一個靶物有特異性。用于這種驗證的合適的方法在共同提出的歐洲申請No.07020049.8中描述。本發明現在將進一步通過非限定性實例描述。實施例1在這個實施例中,為了與SELEX比較,搜索針對溶液中可能存在或固定化的單個蛋白的適配體集合。以基序或模式代表多核苷酸序列如DNA或RNA的群。例如,序列GGCT和CCGA可以用一種模式GGC(A/T)表示,其中“/”表示“或”。存在IUPAC單字母編碼的復雜集合來代表序列模式,其可代表具有突出共性的序列的多樣性(20)。在這個實施例中,選擇DNA適配體基序,并使用已知技術合成半隨機文庫(11)。這稱作“候選文庫”。文庫的多樣性可以在能合成的任何范圍內。在這個實施例中,使用理性在先知識,通過自相似性和退火,偏好性選擇具有某些二級結構的DNA序列。也構建了相同長度的純隨機序列的對照文庫。這稱作“隨機文庫”。然后在所選條件下,針對單個蛋白質選擇兩個文庫,使未結合的適配體序列可以如常規SELEX方案所實施的棄去。在將適配體與蛋白質分開后,將存活的適配體DNA序列,即與蛋白質結合的那些序列,排布在具有合適的解析度和動力學范圍的下一代DNA測序儀上。重復這個過程,以提高所得測量結果的統計學顯著性。將陣列上的每個分子測序并計數,鑒定并計數存在于存活文庫中的適配體。陣列上存在的序列數代表分子在初始群中的比例,與正常的統計學取樣過程一致。測量的精確性和任何統計學取樣問題,特別是對于較罕見的適配體,可以通過測量與每個文庫副本的變異而確定。進行了所選適配體和初始未選擇文庫的第一次迭代之間的差異性比較。這也可以評估文庫合成的成功性和效率/多樣性。相似地,進行適配體的純隨機文庫和其未選擇副本之間的差異性分析。如果選擇的/揭示的半隨機文庫與未揭示/隨機文庫之間沒有顯著性差別,那么可以得出結論,適配體選擇不合適,并且文庫不被看好。此時可以暫停對這個文庫的試驗,并在序列水平合成具有不同性質的另一個文庫。如果在第一次迭代后,候選文庫與未揭示候選文庫和/或隨機文庫有足夠的差別,那么可以進一步使用并開發所述文庫。由任何大小的初始適配體匯集物,在陣列上將IO7-IO9個適配體中的樣品測序。未來一代測序儀的動力學范圍將更高。給定初始候選文庫多樣性和前面步驟中測序和計數(和對照)的結果,可以在第一次迭代后評估適配體基序的質量。如前所述,如果看好文庫,可以發展適配體群,或者可選地,產生新的初始候選基序文庫。例如,如果存活適配體的分布和變異與由對照測得的初始文庫非常不同,那么這種文庫用于繼續發展是有利的。第一次迭代提供來自實驗條件和對照的數據表1<table>tableseeoriginaldocumentpage16</column></row><table>*由DNA序列本身得到的任何隨機性質**相對于對照的任何顯著的定量測量在表1中,可以計算每個適配體序列,其數量和變異性,源自序列的生物信息學性質,如二級結構,和通過前述“適合性函數”得到的序列適合性總體量度。在使用中,表有上千或上萬的條目,每行針對一個唯一的適配體序列。列包含該適配體序列的合計量度。所示表僅用于說明目的。在遺傳算法的文獻中已經詳細描述了由多重分值計算適合性(14,15),并可計算(僅為舉例)涉及多重概率的貝葉斯組合。可以根據序列的測定豐度或序列本身(和任何可得到的性質)使用適合性的任何經過適當計算的量度。在表1中提供的簡化實例中,基序GCT是顯然有利的,并且通過相對于對照的數量,特別地顯示GCTG是特別有利的。用這種方式,通過應用適合性量度,可以將每個候選適配體序列匯總,并評估其作為適配體的潛力。使用以適合性量度獲得的分值評估指定的候選物是否能存活進入下一次迭代,并且還可用于確定是否允許序列復制(交換)或進行可改變其序列組成的突變過程。應用這些過程后,在初始序列之外可以衍生其它新的適配體序列。副本之間的低變異性也可以是統計學的實例,證明指定基序或序列對于蛋白的特異性。因此實驗測定的副本可以用于改善表1中所舉例的得到的統計學量度。本發明的關鍵方面是通過實驗和學習可以得到合適的統計學。在這個階段所收集的信息的基礎上,根據來自第一代結果的測量統計學、生物信息學和理性分析,可以產生新的合成適配體群。在這個實施例中,并且僅為闡述,不同于SELEX中使用的常規擴增,而是在DNA合成儀上重新合成文庫。這種重新合成可以包括將得自適合性序列匯總的基序的交換組合進行編程,如表1中所示,和在某些位置而不是其它位置的新序列中的某種程度的隨機突變。用這種方式,可以在早期迭代中將適配體群中的序列多樣性維持在適當多樣的水平。按照常規遺傳過程,隨后的新群,其源自先前群的最適個體(表1),也稱為“適合”或“更適合”。隨著群代適合性收斂,群多樣性中的干擾將降低。通過使用理性設計、突變和交換過程,早期群中候選適配體的多樣性也可以維持。這將確保最終解不遭遇過早的“局部最小”或這種算法的其它文獻記錄實施方案中所述的其它停止搜索的條件(15)。現在用待研究蛋白與新候選文庫(Iith)結合。洗脫存活和已結合的適配體,并重新排布在測序儀上,并且重復上面的通常評估過程。候選文庫的先前測序迭代(n-1)可以作為對新群繼續進行測序和計數的對照,并且用當前迭代(η)產生的結果表取代表1中的值。可以看到某些序列迅速成為主導,這反映了它們相對于上次迭代(n-1)的豐度和變異性,以及當前迭代的副本之間的變異。同樣地,可能見不到這種趨勢。在后面的境況中,可以增加“突變”(合成期間對適配體的隨機改變)的次數,以加速待研究序列群的進化和多樣性。不管怎樣,必要和需要時,可以追蹤并優化群朝解的穩定集合即適配體漸近收斂。這種理論還確保群朝適合性和組成的穩定平臺階段上升的速度最大。進行候選適配體群的迭代,直至獲得候選解(適配體)的穩定群。在后面的迭代中,一旦某些序列基序的主導性變得明顯,就需要或期望在迭代之間擴增序列,而不是重新合成序列。或者,可使用交替輪次的合成和擴增。得到的序列可能是待研究蛋白的強適配體,并且期望可以找到幾個同樣可行的適配體。每個可行的適配體可以或者可以不在序列水平上有結構差異。一旦已經鑒定了一個或多個合適的適配體,那么適配體可以進行化學修飾,例如使用核苷酸類似物,以增加穩定性和其它期望的性質。然后可以使用相同或其它過程重新篩選群,以證實每個適配體的特異性和其它性質。因此,對于給定的蛋白質,可以建立表現為該蛋白的適配體的序列文庫。更重要的是,因為迭代期間已經允許隨機和在理性指導下改變序列組成,所以可以找到強解群,其不必存在于初始候選適配體文庫中。實施例2盡管上述實例涉及針對單個已知蛋白的適配體文庫的產生,但是也可以針對已知蛋白質的混合物在體外使用所述過程。這是因為可能的適配體與蛋白質的比例如此之高。在這種情況下,序列(和隱含地結構)水平上基序的多樣性是重要的。多樣但具有功能的序列的早期群因此是本發明的重要特性。在這個實施例中,分離了幾個已知蛋白用于適配體選擇。方法如實施例1中進行,只是為了同時選擇和管理幾個候選適配體文庫。這通過將適配體文庫組合在一個候選文庫中,或者首先從一個足夠多樣候選文庫開始以涵蓋所有待研究蛋白的適配體。根據實施例1中所述方法進行,除了在早期迭代后將適配體以遺傳算法中已描述的方式組合或簇集在一起(16),以產生表1中所示的幾個概念性表格。在實施例1中,可以基于“簇集”或其它方法,使用表1中呈現的測量性質進行組合。在這種情況下,進行選擇之間的介入以維持概念上不同的表格_代表適配體的子群-其在概念上是待研究蛋白混合物的代表。在最簡單的實施方案中,這是多重化的形式。在選擇過程末期,將獲得對待研究混合物中蛋白質有特異性的適配體。在這種情況下,可能不知道哪個適配體子集與哪個蛋白結合。這可以稍后使用其它實驗技術解決,或者可以不是必需的。在后一種情況下,可能產生并使用針對已知蛋白的“匿名”適配體,只要適配體和蛋白一起使用。或者,可以使用對某些蛋白質結構的某些適配體序列基序的特異性在先知識,暗示哪個適配體與哪個蛋白匹配。在實施例1和2中,應以額外的步驟證明已鑒定的適配體對選擇所針對的給定蛋白質的特異性。這個額外步驟也可以使用下一代測序,通過適配體接觸包含其所針對的已知量蛋白的復雜生物樣品而完成。適配體的測量不應受到對樣品中存在的蛋白質非特異性結合(而不是針對蛋白質所選擇的)的干擾。這可以使用通過排布和測序已揭示適配體的作用產生的計數統計學而測試。實施例3理想地,適配體對其各自蛋白的特異性建構于選擇/產生過程中。這對于SELEX方案和針對單個蛋白或小子集的方案是不可能的。在這個實施例中,方法如實施例1中所述進行。然而,在這個實施例中,適配體文庫接觸天然的復雜生物樣品。這個實驗高度可重復。首先,可以見到陣列上具有非常高代表性的適配體。一些或全部這些具有高代表性的適配體也可以在副本之間具有高度的變異。在前一種情況下,可以合理地得出結論,適配體結合高豐度蛋白。如果它們的變異性很高,可以合理地得出結論,適配體缺乏特異性。在下一輪合成中,排除這些高豐度或變異性的適配體。然后如實施例1中所述進行本發明的方法,直至測序陣列包含相對代表性較低(可能針對一些對照)并且副本之間變異性非常低的序列多樣集合。在這種情況下,已經有效地排除了結合樣品中高豐度蛋白的適配體和/或具有低特異性的適配體。可以單獨或者組合使用隨后的適配體,以使用已知蛋白質的混合物重復如實施例2中所述的方法。已鑒定的適配體序列可以提供“基序”,用于產生較簡單實例中所需的半隨機文庫。用這種方式,文庫將經過靈敏度和特異性的預過濾-基于抗體的方法失敗的常見原因。在另外的步驟中,群可以一同(enmasse)處理,以使用實施例2中的常用方案鑒定針對低豐度蛋白的大量適配體。在這種情況下,適配體結合的蛋白是未知的。蛋白的鑒定將在另外的步驟中使用其它技術闡明。然而,概念上可能可以開發針對未知低豐度蛋白的一組“匿名”適配體探針。由于之后可以用于測定很多樣品中的這些蛋白,所以不會限制它們的應用。適配體現在代理這些蛋白,并且因此能測定樣品之間的統計學顯著的不同適配體(即蛋白),即發現生物標志物。完成這項工作,并且擁有合適的適配體后,隨后可以提取適配體并用于鑒定其代理的蛋白。用這種方式,可能發現針對匿名低豐度蛋白的復雜混合物的適配體,將它們用于生物標志物發現,找到顯著的適配體并由此鑒定蛋白作為最后一步,而不是像目前現有技術狀況那樣首先鑒定蛋白。參考文獻1.“Aprogrammablebiomolecularcomputingmachinewithbacterialphenotypeoutput."KossoyΕ,LavidN,Soreni-HarariΜ,ShohamY,KeinanΕ.Chembiochem.2007JuI23;8(11)1255-60.2.“DNAmoleculeprovidesacomputingmachinewithbothdataandfuel."BenensonY,AdarR,Paz-ElizurT,LivnehZ,ShapiroE.ProcNatlAcadSciUSA.2003Mar4;100(5)2191-63."Solvingsatisfiabilityproblemsusinganovelmicroarray-basedDNAcomputer.“LinCH,ChengHP,YangCB,YangCN.Biosystems.2007JuI-Aug;90(1)242-524."DNAcomputingusingsing1e-moleculehybridizationdetection."SchmidtKA,HenkelCV,RozenbergG,SpainkHP.NucleicAcidsRes.2004Sep23;32(17):4962_85."FastparallelmolecularalgorithmsforDNA-basedcomputationfactoringintegers."ChangWL,GuoM,HoMS.IEEETransNanobioscience.2005Jun;4(2)149-636."FunctionalRNAmicroarraysforhigh-throughputscreeningofantiproteinaptamers."CollettJR,ChoEJ,LeeJF,LevyM,HoodAJ,WanC,EllingtonAD.AnalBiochem.2005Mar1;338(1):113_237."Nucleicacidevolutionandminimizationbynonhomologousrandomrecombination.“BittkerJA,LeBV,LiuDR.NatBiotechnol.20020ct;20(10)1024-98."Aptamerscomeofage-atlast".BunkaDH,StockleyPG.NatRevMicrobiol.2006Aug;4(8):588_969."Aptamers:moleculartoolsforanalyticalapplications."MairalT,CengizOzalpV,LozanoSanchezP,MirM,KatakisI,0'sullivanCK.AnalBioanalChem.2007Jun2110."Aptamersastoolsfortargetvalidation.BlankM,BlindM.CurrOpinChemBiol.2005Aug;9(4):336_4211.“MethodsdevelopedforSELEX.GopinathSC.AnalBioanalChem.2007Jan;387(1):171-8212."Aptamers-basedassaysfordiagnostics,environmentalandfoodanalysis.“TombelliS,MinunniΜ,MasciniΜ.BiomolEng.2007Jun;24(2)191-20013.〃SELEX-A(Revolutionarymethodtogeneratehigh-affinitynucleicacidligands.“StoltenburgR,ReinemannC,StrehlitzB.BiomolEng.20070ct;24(4)381-40314.“GeneticAlgorithmsinSearch,Optimization,andMachineLearning.“Goldberg,D.E.,Addison-Wesley,USA,1989.15.“GeneticAlgorithms+DataStructures=EvolutionPrograms.“Michalewicz,Z.第3片反,Springer,1996.16.”EvolutionAlgorithmsinCombinatorialOptimization,”H.MDuhlenbein,Μ.Gorges-Schleuter,禾口0.KrDamer,.ParallelComputing,7,(1988),65-88.17.“ComplexSELEXagainsttargetmixture:stochasticcomputermodel,simulation,andanalysis“.ChenCK.ComputMethodsProgramsBiomed.2007Sep;87(3)189-20018〃ElucidationoftheSmallRNAComponentoftheTranscriptome.〃Lu等Science2September2005:1567-1569·19QianW.J.等,MoICellProt(2006)5(10)1727-174420http://www.chem.qmul.ac.uk/iubmb/misc/naseq.html21〃Thepotentialandchallengesofnanoporesequencing/rBranton等NatureBiotechnology(2008)261146-115權利要求用于鑒定針對至少一個靶分子的一個或多個適配體的方法,所述方法包括a)用至少一個靶分子接觸候選聚合物序列的匯集物;b)從已特異性結合至靶分子的那些序列中區分出未結合序列;c)離解序列-靶物復合物,以獲得富含配體的序列混合物;d)為步驟c)中獲得的每個序列分配該序列的適配體潛力的量度(適合性函數);e)使用步驟d)的量度以確定所述富含配體的混合物的適配潛力;f)使用步驟e)中獲得的信息,允許步驟c)中獲得的一些或全部序列發生進化,以產生序列的新混合物;和g)用新產生的候選適配體匯集物重復步驟a)至f),直至候選物匯集物的合計適配潛力達到平臺,其中最終匯集物中存在的序列是所述至少一個靶分子的最優適配體。2.根據權利要求1的方法,其中所述至少一個靶分子是蛋白質。3.根據權利要求2的方法,其中所述至少一個靶分子是單個分離的蛋白。4.根據權利要求1、權利要求2或權利要求3的方法,其中所述一個或每個靶分子的身份已知。5.根據權利要求2或權利要求4的方法,其中在蛋白質混合物中研究多個蛋白質。6.根據權利要求5的方法,其中所述至少一個蛋白質是存在于蛋白質混合物中的已知蛋白質。7.根據權利要求5或權利要求6的方法,其中所述蛋白質混合物源自生物樣品。8.根據權利要求7的方法,其中所述生物樣品是體液。9.根據權利要求8的方法,其中所述體液是血液或者來自血液。10.根據權利要求9的方法,其中所述體液是血清或血漿。11.根據權利要求1至10中任一項的方法,其中所述聚合物序列是多核苷酸。12.根據權利要求11的方法,其中所述多核苷酸序列是DNA、RNA、PNA(肽核酸),或者它們的變體或組合。113.根據權利要求1至12中任一項的方法,其中所述聚合物為30聚物-60聚物。14.根據權利要求13的方法,其中所述聚合物為40聚物。115.根據權利要求1至14中任一項的方法,其中通過將富含配體的混合物中候選序列定量而測量適配潛力。16.根據權利要求15的方法,其中通過對每個候選序列的至少部分測序而進行定量。17.根據權利要求16的方法,其中在單分子陣列或克隆性單分子陣列上進行測序。18.根據權利要求1至17中任一項的方法,所述方法進一步包括將所述富含配體的混合物中的序列在步驟d)前排布在表面上。19.根據權利要求18的方法,其中所述方法進一步包括擴增已排布的序列。20.根據權利要求1至19中任一項的方法,其中所述適配潛力的量度進一步包括一個或多個測量的、計算的或生物信息學的性質。21.根據權利要求20的方法,其中所述生物信息學的性質包括二級結構預測、三級結構預測、自相似性、信息復雜度、與已知適配體序列的相似性、序列基序或它們的組合。22.根據權利要求1至21中任一項的方法,其中將在與研究中的候選序列群體比較時具有統計學顯著性的適配潛力的富含配體序列從步驟d)和e)推進到步驟f)。23.根據權利要求1至21中任一項的方法,其中將具有落入平均或較高百分位范圍內的適配潛力的富含配體序列從步驟d)和e)推進到步驟f)。24.根據權利要求1至23中任一項的方法,其中從候選匯集物去除具有統計學不顯著的適配潛力的富含配體序列。25.根據權利要求1至24中任一項的方法,其中從候選匯集物洗脫并棄去非結合的候選序列。26.根據權利要求1至25中任一項的方法,其中所述方法進一步包括從候選匯集物去除數量占優的序列。27.根據權利要求1至26中任一項的方法,其中所述方法進一步包括獲得最終匯集物中存在的候選適配體的全長序列。28.根據權利要求1至27中任一項的方法,其中使用具有高適配潛力的序列或者源自這些序列的基序,設計新的候選適配體匯集物。29.根據權利要求1至28中任一項的方法,其中使用具有高適配潛力的序列和/或基序影響顯示高適配潛力的序列的隨機變化和/或重組。30.根據權利要求1至29中任一項的方法,其中所述方法進一步包括修飾候選序列以增加穩定性和/或結合潛力。全文摘要本發明是用于鑒定針對至少一個靶分子的一個或多個適配體的方法,該方法包括選擇可以與靶分子結合的候選適配體序列,為已結合序列分配每個序列的適配潛力量度(適合性函數),允許一些或全部序列發生進化以產生候選序列的新混合物,并用新產生的候選適配體匯集物重復方法,直至候選匯集物的合計適配潛力到達平臺,其中最終匯集物中存在的序列是靶分子的最優適配體。文檔編號C12Q1/68GK101835904SQ200880112854公開日2010年9月15日申請日期2008年10月22日優先權日2007年10月22日發明者克利夫·G·布朗申請人:普羅諾塔股份有限公司