專利名稱:基于納米通道單分子檢測系統的數據處理方法
技術領域:
本發明涉及納米通道(Nanopore)技術領域,特別是一種基于納米通道單分子檢測系統的數據處理方法,具體地說,是一種將納米通道單分子檢測系統所獲得的海量復雜數據進行快速讀取、分類、統計并形成圖譜的數據處理方法。
背景技術:
納米通道(Nanopore)技術是一種結合生物物理、分子生物學以及生物傳感器等學科于一體的新型納米檢測技術。目前,在大多數實驗室用于完成納米通道(Nanopore)數據采集與記錄的是膜片鉗(Patch Clamp)技術。該技術是一種通過微電極與細胞膜之間形成緊密接觸的方法,采用電壓鉗或電流鉗技術記錄生物膜上離子通道的電活動(即記錄生物膜上離子通道的微電流信號變化)的微電極技術。實驗信號通過Axopatch系列膜片鉗放大器輸入到Digidata系列數模轉換器中,由成熟的商業軟件Pclamp中的“單通道模式”對微電流進行數據記錄和分析。在該技術中,事件(Event)是單通道數據記錄與分析的基本元素,通過分析事件的電流幅度與持續時間,實驗者便可得到被檢測物質的結構、大小等信肩、O納米通道單分子檢測技術是一種根據分子在電場驅動下穿過納米尺寸孔道時產生的特征信號,從而研究在單分子水平上的生物分子個體行為的分析方法。該方法能在單分子水平上直接地獲取和分析生物大分子的結構(包括構象變化)、分子間的相互作用、分子動力學行為、分子反應機理等,推進生物學、化學等進入縱深發展,也是當今科學發展的重大趨勢之一。這樣的一種納米通道單分子檢測系統,一般會包括用于采集所述納米通道中微電流數據的數據采集裝置、用于處理所述微電流數據的數據處理裝置以及數據顯示裝置等,有些還會包括數據過濾裝置、數據顯示裝置、數據存儲與檢索裝置等等。納米通道單分子檢測技術具有裝置小巧、簡單,無需擴增、無需標記,快速,廉價等優點。由于納米通道單分子技術是捕獲單個分子的信息,所以其時間分辨率可達4微秒,電流分辨率可達100飛安,通常每秒鐘記錄25,000個數據,每分鐘數據量可達百兆。由于每個電流阻斷信號反映的是每一個獨立分子通過納米通道的狀態,因此實驗所獲得的電流阻斷信號形態復雜多變。納米通道單分子技術的數據處理是基于統計學原理,即需要對1000個以上的獨立事件進行統計分析,進而繪制統計圖譜,建立單個分子行為模式。傳統的數據處理方法是以人工方式讀取每個獨立信號的起始時間、阻斷電流和阻斷時間,并根據各信號形態對其進行分類。數據處理過程中,阻斷信號中電流細微的變化往往就是反應分子具體的運動狀態的關鍵,對于區分分子構型和研究分子間相互作用十分重要。現有技術中的Clampfit等軟件無法識別信號中細微電流變化并且無法實現復雜信號的阻斷電流及阻斷時間讀取。此外,實驗環境中的電磁信號、儀器本身噪音、臺面微小震動和生物孔對磷脂雙分子層膜的碰撞等都會對實驗數據形成干擾,從而影響電流分辨。現有技術的基于納米通道的單分子檢測系統,往往會產生數據采集量過大、無效數據過多、數據信號形態復雜多變、數據處理 手段繁瑣且耗時較多等問題,這些問題阻礙了納米通道單分子檢測技術從科學研究到實際應用的快速轉化。
發明內容
本發明的目的在于,提供一種基于納米通道單分子檢測系統的數據處理方法,有效解決了現有技術中納米通道的單分子檢測技術在數據處理中出現的具有數據量大、信號形態復雜多變、處理手段繁瑣、耗時較多等問題。為實現上述目的,本發明提供如下技術方案:一種基于納米通道單分子檢測系統的數據處理方法,包括如下步驟:SI)依次獲取所述納米通道中對應離散時間點的電流數據;S2)分段處理所述電流數據,將所述電流數據分成兩個以上數據段;S3)從每一數據段中獲取對應該數據段的事件信號;S4)識別所述事件信號 的類型;S5)獲取對應所述事件信號的事件信息;S6)導出所述事件信息,形成文本文件;S7)統計所述事件信息,形成事件信息數據庫;S8)根據所述事件信息數據庫繪制并輸出事件分布統計圖。所述分段處理,包括如下步驟:S21)保存彼此對應的所述離散時間點、所述電流數據至一電流矩陣M中;S22)初始化所述電流矩陣M ;確定突躍系數Y,使得所述突躍系數Y為大于或等于3且小于或等于8的一定值;確定分段計數標記i等于1,使得第I段的起始時間點為P1 ;其中i為自然數;S23)在所述電流矩陣M中,預處理從Pi開始的N個時間點所對應的電流數據;計算所述N個時間點所對應的電流數據的均值作為第i段的基線電流值Ii,計算所述N個時間點所對應的電流數據的平均誤差作為第i段的電流平均誤差e i ;其中N為自然數;S24)計算第i段上突躍閾值Tui及第i段下突躍閾值Tdi ;其中,所述突躍閾值TuiS對應第i段的基線電流值Ii加上電流平均誤差Si與突躍系數Y的乘積,SPTui=I^eiX y ;所述突躍閾值TdiS對應第i段的基線電流值Ii減去電流平均誤差^與突躍系數Y的乘積,即Tdi=I1- EiX y ;S25)在所述電流矩陣M中,依次比較從時間點Pi開始的每一時間點所對應的電流數據與第i段的突躍閾值Ti ;當某一時間點對應的電流數據值大于上突躍閾值Tui或小于下突躍閾值Tdi,執行步驟S26);S26)暫停步驟S25)所述的比較,并對該時間點進行突躍判定;若該時間點之后的N個起始時間點相對應的電流數據的電流平均值大于所述上突躍閾值Tui或小于所述下突躍閾值Tdi,確定該時間點為突躍點,將此突躍點作為后一段數據的起始點Pi+1,確定相鄰的兩個段起始點Pi與Pi+1之間的數據為第i段;將第i段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣Mi中;將i的值加1,返回步驟S23);若該時間點之后的N個起始時間點相對應的電流數據的電流平均值小于或等于所述上突躍閾值Tui并大于或等于所述下突躍閾值Tdi,繼續進行步驟S25)所述的比較,當比較進行到最后一時間點時,將最后一時間點與最后的一起始點Pk之間的電流數據定義為第k段,將第k段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣中Mk。所述電流矩陣包括一列時間數據和一列電流數據。所述從每一數據段中獲取對應該數據段的事件信號,包括如下步驟:S31)計算所述數據段中電流數據的電流閾值Tci ;所述電流閾值Tci為對應第i段的基線電流值Ii減去電流平均誤差^的0倍;其中,電流閾值系數P大于或等于1.2且小于或等于1.6 ;S32)生成事件信號;依次比較所述數據段中每一電流數據與電流閾值Tci,取出所有小于電流閾值Tci的電流數據及其對應的時間點,并根據時間點的連續性將這些電流數據分塊存放,每一塊數據即為一個信號;S33)校正所述事件信號;對每一信號及該信號兩端延伸0.01 0.1ms的時間范圍內的數據進行求導;導數最小值處即為信號電流減小的趨勢最大處,向前尋找導數為該最小值0.1 0.4倍值的時間點為信號的初始點;導數最大值點處即為信號電流增加趨勢最大處,向后尋找導數為該最大值0.1 0.4倍值的點即為信號的結束點;單獨存放校正后的信號數據;S34)剔除所述事件信號中的噪聲信號;在信號兩端延伸0.01 0.1ms的時間范圍內,比較信號電流最大值與相應的基線電流之差是否大于信號電流最小值與相應的基線電流之差的絕對值,若是,確定對應該電流最大值的信號為電磁噪聲,剔除該噪聲信號。所述識別所述事件信號的類型,包括如下步驟:S41)將所述事件信號 進行濾波處理;S42)提取所述事件信號的特征點;S43)根據所述特征點對所述事件信號進行歸類處理。所述事件信息包括所述事件信號各部分的阻斷電流和/或阻斷時間。所述文本文件包括導出信號類型、阻斷電流、阻斷時間、基線電流或始末位置中的任一種或兩種以上。統計所述事件信息,包括如下步驟:S71)使用者設定時間統計的bin值;S72)統計獲得兩個以上阻斷時間事件發生頻率的分布;S73)使用者設定時間與電流統計的bin值;S74)統計獲得兩個以上阻斷電流在所述阻斷時間分布的頻率。所述事件分布統計圖,包括事件阻斷時間分布統計圖、事件阻斷電流對阻斷時間的分布統計圖以及事件信號疊加圖。本發明的優點在于,提供一種基于納米通道單分子檢測系統的數據處理方法,能夠對復雜龐大的實驗數據進行快速讀取、處理、分類、統計并形成圖譜,通過此技術所得到的數據為電流的離散時間序列,有較大的高斯白噪聲背景。被測物碰撞或通過孔道表現在電流一段時間內的減少,為獲取每個事件所引起的電流減小持續時間與減小量等信息以備統計分析使用,需從背景中提取事件發生過程中電流變化的數據作為響應信號。本發明有較快的數據處理速度與較高準確度,解決了處理納米通道內單分子技術大量復雜數據的問題;本發明適用于處理此技術中各種不同環境與檢測條件下得到的數據,可靈活設定處理系統的各項參數以滿足分析目的;本發明實現了對不同類型信號的分類,便于從數據中挖掘更多信息,對納米通道單分子技術的應用與發展有重大的積極意義。
圖1為本發明中一種基于納米通道單分子檢測系統的數據處理方法的流程圖;圖2為本發明中分段處理過程的流程圖;圖3為本發明中從每一數據段中獲取對應該數據段的事件信號過程的流程圖;圖4為本發明中識別事件信號類型的過程的流程圖;圖5為本發明中統計事件信息的過程的流程圖.
具體實施例方式以下結合附圖詳細說明本發明的具體實施方式
,使本領域的技術人員更清楚地理解如何實踐本發明。應當理解,盡管結合其優選的具體實施方案描述了本發明,但這些實施方案擬闡述,而不是限制本發明的范圍。實施例1如圖1所示,圖中包括一種基于納米通道單分子檢測系統的數據處理方法,具體地說,是一種用于分析a -Hemolysin蛋白納米通道檢測DNA所得電流數據的信號處理分析方法,包括如下步驟:SI)依次采集對應離散時間點的電流數據。在人機交互界面中,點擊“載入數據”按鈕,在彈出框中選擇數據位置,系統便自動將所需分析的數據載入。每一載入數據包括一時間點及與該時間點對應的電流數據。在預覽模塊中,所有載入數據以電流-時間圖顯示出來;
·
在實施例1中,采集對應離散時間點的電流數據量為10000個數據點。S2)將所述電流數據進行分段處理,形成兩個以上數據段。如圖2所示,所述分段處理,包括如下步驟:S21)保存彼此對應的所述離散時間點、所述電流數據至一電流矩陣M中,所述電流矩陣包括一列時間數據和一列電流數據;S22)初始化所述電流矩陣M ;確定突躍系數Y,使得所述突躍系數Y為大于或等于3且小于或等于8的一定值;確定分段計數標記i等于1,使得第I段的起始時間點為P1 ;其中i為自然數;S23)在所述電流矩陣M中,預處理從Pi開始的N個時間點所對應的電流數據;計算所述N個時間點所對應的電流數據的均值作為第i段的基線電流值Ii,計算所述N個時間點所對應的電流數據的平均誤差作為第i段的電流平均誤差e i ;其中N為自然數;S24)計算第i段上突躍閾值Tui及第i段下突躍閾值Tdi ;其中,所述突躍閾值TuiS對應第i段的基線電流值Ii加上電流平均誤差Si與突躍系數Y的乘積,SPTui=I^eiX y ;所述突躍閾值TdiS對應第i段的基線電流值Ii減去電流平均誤差^與突躍系數Y的乘積,即Tdi=I1- EiX y ;S25)在所述電流矩陣M中,依次比較從時間點Pi開始的每一時間點所對應的電流數據與第i段的突躍閾值Ti ;當某一時間點對應的電流數據值大于上突躍閾值Tui或小于下突躍閾值Tdi,執行步驟S26);
S26)暫停步驟S25)所述的比較,并對該時間點進行突躍判定;若該時間點之后的N個起始時間點相對應的電流數據的電流平均值大于所述上突躍閾值Tui或小于所述下突躍閾值Tdi,確定該時間點為突躍點,將此突躍點作為后一段數據的起始點Pi+1,確定相鄰的兩個段起始點Pi與Pi+1之間的數據為第i段;將第i段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣Mi中;將i的值加1,返回步驟S23);若該時間點之后的N個起始時間點相對應的電流數據的電流平均值小于或等于所述上突躍閾值Tui并大于或等于所述下突躍閾值Tdi,繼續進行步驟S25)所述的比較,當比較進行到最后一時間點時,將最后一時間點與最后的一起始點Pk之間的電流數據定義為第k段,將第k段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣中Mk。在實施例1中,Y =4,設i等于1,P1等于I ;計算第i個上突躍閾值Tui和下突躍閾值Tdi ;從數據中Pi開始,逐點搜索電流值大于上突躍閾值Tui或小于下突躍閾值Tdi的點;一旦搜索到符合這種條件的點,則暫停搜索,計算此點之后10000個點的電流平均值,若此平均值不大于上突躍閾值Tui或不小于下突躍閾值Tdi則繼續搜索;若結果相反,則將此點作為下一個起始點PwJfPi到Pi+1間的數據分為一段,單獨存放在一個矩陣中,并記錄其基線電流Ii,令i值加I ;繼續從此突躍點開始重復之前的搜索;當搜索到數據結尾時停止,將最后一個起始點Pk至結尾這部分數據分為一段。S3)從每一數據段中獲取對應該數據段的事件信號。如圖3所示,所述從每一數據段中獲取對應該數據段的事件信號,包括如下步驟:S31)計算所述數據段中電流數據的電流閾值Tci ;所述電流閾值Tci為對應第i段的基線電流值Ii減去電流平均誤差^的0倍;其中,電流閾值系數P大于或等于1.2且小于或等于1.6。實施例1中,3等于1.4。
·
S32)生成事件信號;依次比較所述數據段中每一電流數據與電流閾值Tci,取出所有小于電流閾值Tci的電流數據及其對應的時間點,并根據時間點的連續性將這些電流數據分塊存放,每一塊數據即為一個信號。實施例1中,將所有所在段基線電流與電流值之差小于Ti的點取出,并根據時間連續性將這些點分塊存放。S33)校正所述事件信號;對每一信號及該信號兩端延伸0.01 0.1ms的時間范圍內的數據進行求導;導數最小值處即為信號電流減小的趨勢最大處,向前尋找導數為該最小值0.1 0.4倍值的時間點為信號的初始點;導數最大值點處即為信號電流增加趨勢最大處,向后尋找導數為該最大值0.1 0.4倍值的點即為信號的結束點;單獨存放校正后的信號數據。實施例1中,分別對每個信號及其兩端30個數據點范圍內的數據進行求導,獲取導數最小值處,并向前尋找導數為此最小值0.25倍值的點為信號初始點;類似地,獲取導數最大值處,向后尋找導數為此最大值0.25倍值的點為信號結束點。S34)剔除所述事件信號中的噪聲信號;在信號兩端延伸0.01 0.1ms的時間范圍內,比較信號電流最大值與相應的基線電流之差是否大于信號電流最小值與相應的基線電流之差的絕對值,若是,確定對應該電流最大值的信號為電磁噪聲,剔除該噪聲信號。實施例1中,在信號電流數據兩端100個數據點范圍內比較最大電流值與基線電流之差是否大于最小電流值與基線電流之差的絕對值,若是,則為電磁噪聲,將此信號剔除。S4)識別所述事件信號的類型。如圖4所示,所述識別所述事件信號的類型,包括如下步驟:S41)將所述事件信號進行濾波處理;S42)提取所述事件信號的特征點;S43)根據所述特征點對所述事件信號進行歸類處理。實施例1中,DNA通過蛋白通道信號類型識別,其步驟如下:(I)采用dbl小波基對信號電流數據進行小波分解,分解層次為3層;(2)提取第3層的低頻系數,即為濾波后數據,對濾波后的數據進行求導,提取導數絕對值小于0.1的點作為特征點;(3)根據特征點的電流大小和特征點的數量將信號歸類為“尖峰型”,“長阻斷型”,“階梯型”和“W型”。S5)獲取對應所述事件信號的事件信息。所述事件信息包括所述事件信號各部分的阻斷電流和/或阻斷時間。
實施例1中,分別計算已識別的信號前后3000個點的電流平均值,即為基線電流;“尖峰型”信號阻斷電流為電流最小值與基線電流差的絕對值;“長阻斷型”信號阻斷電流為電流平均值與基線電流差的絕對值;“階梯型”和“W型”信號取各個特征點處的電流值和基線電流值之差的絕對值作為阻斷電流,因此可以獲得多個阻斷電流信息;三種信號類型的阻斷時間都取始末點時間之差的絕對值。S6)導出所述事件信息,形成文本文件。所述文本文件包括導出信號類型、阻斷電流、阻斷時間、基線電流或始末位置中的任一種或兩種以上。實施例1中,導出上述步驟所得各個信號的信號類型、阻斷電流、阻斷時間、基線電流、始末位置等信息為文本文件或excel文件。S7)統計所述事件信息,形成事件信息數據庫。如圖5所示,統計所述事件信息,包括如下步驟:S71)使用者設定時間統計的bin值;S72)統計獲得兩個以上阻斷時間事件發生頻率的分布;S73)使用者設定時間與電流統計的bin值;S74)統計獲得兩個以上阻斷電流在所述阻斷時間分布的頻率。實施例1中,首先設定時間以0.0lms為單位分割,統計得出不同阻斷時間事件發生頻率分布;然后設定時間以0.0lms為單位分割與電流以IOpA為單位分割,統計得到不同阻斷電流在各時間頻率分布。S8)根據所述事件信息數據庫繪制事件分布統計圖并將其輸出。所述事件分布統計圖,包括事件阻斷時間分布統計圖、事件阻斷電流對阻斷時間的分布統計圖以及事件信號疊加圖。實施例1中,阻斷時間分布統計圖是根據阻斷時間分布統計結果繪制出的柱狀圖;阻斷電流對阻斷時間的分布統計圖是根據阻斷電流對阻斷時間的分布統計繪制出的地形圖。
實施例1采用以基線電流為參考水平,設定電流閾值篩選信號數據。由于在多孔或陣列孔實驗條件下,基線電流會在孔道堵塞時發生階躍式變化,因而在獲取事件信號時應采用不同的基線電流參考,即對數據分段后處理。由于直接設置閾值的方法會使獲得的事件信號失真,丟失信號始末位置部分數據,故還需采用修正方法以獲得完整信號。再對所獲得的事件信號采取識別操作,得到信號類型,并根據信號類型提取信號的有用信息,數據導出、數據統計、圖形輸出操作將信號信息進一步處理,提取被測物的有用信息。被測物碰撞或通過孔道表現在電流一段時間內的減少,為獲取每個事件所引起的電流減小持續時間與減小量等信息以備統計分析使用,需從背景中提取事件發生過程中電流變化的數據作為響應信號。本發明有較快的數據處理速度與較高準確度,解決了處理納米通道內單分子技術大量復雜數據的問題;本發明適用于處理此技術中各種不同環境與檢測條件下得到的數據,可靈活設定處理系統的各項參數以滿足分析目的;本發明實現了對不同類型信號的分類,便于從數據中挖掘更多信息,對納米通道單分子技術的應用與發展有重大的積極意義。實施例2如圖1所示, 實施例2包括一種基于納米通道單分子檢測系統的數據處理方法,具體地說,是一種用于分析固體納米通道檢測納米顆粒所得電流數據的信號處理分析方法,包括如下步驟:SI)依次采集對應離散時間點的電流數據。在人機交互界面中,點擊“載入數據”按鈕,在彈出框中選擇數據位置,系統便自動將所需分析的數據載入。每一載入數據包括一時間點及與該時間點對應的電流數據。在預覽模塊中,所有載入數據以電流-時間圖顯示出來。在實施例2中,采集對應離散時間點的電流數據量為15000個數據點。S2)將所述電流數據進行分段處理,形成兩個以上數據段。如圖2所示,所述分段處理,包括如下步驟:S21)保存彼此對應的所述離散時間點、所述電流數據至一電流矩陣M中;S22)初始化所述電流矩陣M ;確定突躍系數Y,使得所述突躍系數Y為大于或等于3且小于或等于8的一定值;確定分段計數標記i等于1,使得第I段的起始時間點為P1 ;其中i為自然數;S23)在所述電流矩陣M中,預處理從Pi開始的N個時間點所對應的電流數據;計算所述N個時間點所對應的電流數據的均值作為第i段的基線電流值Ii,計算所述N個時間點所對應的電流數據的平均誤差作為第i段的電流平均誤差e i ;其中N為自然數;S24)計算第i段上突躍閾值Tui及第i段下突躍閾值Tdi ;其中,所述突躍閾值TuiS對應第i段的基線電流值Ii加上電流平均誤差Si與突躍系數Y的乘積,SPTui=I^eiX y ;所述突躍閾值TdiS對應第i段的基線電流值Ii減去電流平均誤差^與突躍系數Y的乘積,即Tdi=I1- EiX y ;S25)在所述電流矩陣M中,依次比較從時間點Pi開始的每一時間點所對應的電流數據與第i段的突躍閾值Ti ;當某一時間點對應的電流數據值大于上突躍閾值Tui或小于下突躍閾值Tdi,執行步驟S26);S26)暫停步驟S25)所述的比較,并對該時間點進行突躍判定;若該時間點之后的N個起始時間點相對應的電流數據的電流平均值大于所述上突躍閾值Tui或小于所述下突躍閾值Tdi,確定該時間點為突躍點,將此突躍點作為后一段數據的起始點Pi+1,確定相鄰的兩個段起始點Pi與Pi+1之間的數據為第i段;將第i段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣Mi中;將i的值加1,返回步驟S23);若該時間點之后的N個起始時間點相對應的電流數據的電流平均值小于或等于所述上突躍閾值Tui并大于或等于所述下突躍閾值Tdi,繼續進行步驟S25)所述的比較,當比較進行到最后一時間點時,將最后一時間點與最后的一起始點Pk之間的電流數據定義為第k段,將第k段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣中Mk。在實施例2中,Y =6,設i等于1,P1等于I ;計算第i個上突躍閾值Tui和下突躍閾值Tdi ;從數據中Pi開始,逐點搜索電流值大于上突躍閾值Tui或小于下突躍閾值Tdi的點;一旦搜索到符合這種條件的點,則暫停搜索,計算此點之后15000個點的電流平均值,若此平均值不大于上突躍閾值Tui或不小于下突躍閾值Tdi則繼續搜索;若結果相反,則將此點作為下一個起始點PwJfPi到Pi+1間的數據分為一段,單獨存放在一個矩陣中,并記錄其基線電流Ii,令i值加I ;繼續從此突躍點開始重復之前的搜索;當搜索到數據結尾時停止,將最后一個起始點Pk至結尾這部分數據分為一段。S3)從每一數據段中獲取對應該數據段的事件信號。如圖3所示,從每一數據段中獲取對應該數據段的事件信號,包括如下步驟:S31)計算所述數據段中電流數據的電流閾值Tci ;所述電流閾值Tci為對應第i段的基線電流值Ii減去電流平均誤差^的0倍;其中,電流閾值系數P大于或等于1.2且小于或等于1.6。實施例2中,@等于1.6。S32)生成事件信號 ;依次比較所述數據段中每一電流數據與電流閾值Tci,取出所有小于電流閾值Tci的電流數據及其對應的時間點,并根據時間點的連續性將這些電流數據分塊存放,每一塊數據即為一個信號。實施例2中,將所有所在段基線電流與電流值之差小于Ti的點取出,并根據時間連續性將這些點分塊存放。S33)校正所述事件信號;對每一信號及該信號兩端延伸0.01 0.1ms的時間范圍內的數據進行求導;導數最小值處即為信號電流減小的趨勢最大處,向前尋找導數為該最小值0.1 0.4倍值的時間點為信號的初始點;導數最大值點處即為信號電流增加趨勢最大處,向后尋找導數為該最大值0.1 0.4倍值的點即為信號的結束點;單獨存放校正后的信號數據。實施例2中,分別對每個信號及其兩端50個數據點范圍內的數據進行求導,獲取導數最小值處,并向前尋找導數為此最小值0.25倍值的點為信號初始點;類似地,獲取導數最大值處,向后尋找導數為此最大值0.25倍值的點為信號結束點。S34)剔除所述事件信號中的噪聲信號;在信號兩端延伸0.01 0.1ms的時間范圍內,比較信號電流最大值與相應的基線電流之差是否大于信號電流最小值與相應的基線電流之差的絕對值,若是,確定對應該電流最大值的信號為電磁噪聲,剔除該噪聲信號。實施例2中,在信號電流數據兩端100個數據點范圍內比較最大電流值與基線電流之差是否大于最小電流值與基線電流之差的絕對值,若是則為電磁噪聲,將此信號剔除。
S4)識別所述事件信號的類型。如圖4所示,所述識別所述事件信號的類型,包括如下步驟:S41)將所述事件信號進行濾波處理;S42)提取所述事件信號的特征點;S43)根據所述特征點對所述事件信號進行歸類處理。實施例2中,DNA通過蛋白通道信號類型識別,其步驟如下:(I)采用dbl小波基對信號電流數據進行小波分解,分解層次為3層;(2)提取第3層的低頻系數,即為濾波后數據,對濾波后的數據進行求導,提取導數絕對值小于0.1的點作為特征點;(3)根據特征點的電流大小和特征點的數量將信號歸類為“尖峰型”,“長阻斷型”,“階梯型”和“W型”。S5)獲取對應所述事件信號的事件信息。所述事件信息包括所述事件信號各部分的阻斷電流和/或阻斷時間。實施例2中,分別計算已識別的信號前后3000個點的電流平均值,即為基線電流;“尖峰型”信號阻斷電流為電流最小值與基線電流差的絕對值;“長阻斷型”信號阻斷電流為電流平均值與基線電流差的絕對值;“階梯型”和“W型”信號取各個特征點處的電流值和基線電流值之差的絕對值作為阻斷電流,因此可以獲得多個阻斷電流信息;三種信號類型的阻斷時間都取始末點時間之差的絕對值。S6)導出所述事件信息,形成文本文件。所述文本文件包括導出信號類型、阻斷電流、阻斷時間、基線電流或始末位置`中的任一種或兩種以上。實施例2中,導出上述步驟所得各個信號的信號類型、阻斷電流、阻斷時間、基線電流、始末位置等信息為文本文件或excel文件。S7)統計所述事件信息,形成事件信息數據庫。如圖5所示,統計所述事件信息,包括如下步驟:S71)使用者設定時間統計的bin值;S72)統計獲得兩個以上阻斷時間事件發生頻率的分布;S73)使用者設定時間與電流統計的bin值;S74)統計獲得兩個以上阻斷電流在所述阻斷時間分布的頻率。實施例2中,首先設定時間以0.0lms為單位分割,統計得出不同阻斷時間事件發生頻率分布;然后設定時間以0.0lms為單位分割與電流以IOpA為單位分割,統計得到不同阻斷電流在各時間頻率分布。S8)根據所述事件信息數據庫繪制事件分布統計圖并將其輸出。所述事件分布統計圖,包括事件阻斷時間分布統計圖、事件阻斷電流對阻斷時間的分布統計圖以及事件信號疊加圖。實施例2中,阻斷時間分布統計圖是根據阻斷時間分布統計結果繪制出的柱狀圖;阻斷電流對阻斷時間的分布統計圖是根據阻斷電流對阻斷時間的分布統計繪制出的地形圖。實施例2采用以基線電流為參考水平,設定電流閾值篩選信號數據。由于在多孔或陣列孔實驗條件下,基線電流會在孔道堵塞時發生階躍式變化,因而在獲取事件信號時應采用不同的基線電流參考,即對數據分段后處理。由于直接設置閾值的方法會使獲得的事件信號失真,丟失信號始末位置部分數據,故還需采用修正方法以獲得完整信號。再對所獲得的事件信號采取識別操作,得到信號類型,并根據信號類型提取信號的有用信息,數據導出、數據統計、圖形輸出操作將信號信息進一步處理,提取被測物的有用信息。被測物碰撞或通過孔道表現在電流一段時間內的減少,為獲取每個事件所引起的電流減小持續時間與減小量等信息以備統計分析使用,需從背景中提取事件發生過程中電流變化的數據作為響應信號。本發明有較快的數據處理速度與較高準確度,解決了處理納米通道內單分子技術大量復雜數據的問題;本發明適用于處理此技術中各種不同環境與檢測條件下得到的數據,可靈活設定處理系統的各項參數以滿足分析目的;本發明實現了對不同類型信號的分類,便于從數據中挖掘更多信息,對納米通道單分子技術的應用與發展有重大的積極意義。以上所述僅是本發明的優選實施方式,應當指出,對于本技術領域的普通技術人員,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的 保護范圍。
權利要求
1.一種基于納米通道單分子檢測系統的數據處理方法,其特征在于,包括如下步驟: 51)依次獲取所述納米通道中對應離散時間點的電流數據; 52)分段處理所述電流數據,將所述電流數據分成兩個以上數據段; 53)從每一數據段中獲取對應該數據段的事件信號; 54)識別所述事件信號的類型; 55)獲取對應所述事件信號的事件信息; 56)導出所述事件信息,形成文本文件; 57)統計所述事件信息,形成事件信息數據庫; 58)根據所述事件信息數據庫繪制并輸出事件分布統計圖。
2.如權利要求1所述的數據處理方法,其特征在于,所述分段處理,包括如下步驟: 521)保存彼此對應的所述離散時間點、所述電流數據至一電流矩陣M中; 522)初始化所述電流矩陣M;確定突躍系數Y,使得所述突躍系數Y為大于或等于3且小于或等于8的一定值;確定分段計數標記i等于1,使得第I段的起始時間點為P1 ;其中i為自然數; 523)在所述電流矩陣M中,預處理從Pi開始的N個時間點所對應的電流數據;計算所述N個時間點所對應的電流數據的均值作為第i段的基線電流值Ii,計算所述N個時間點所對應的電流數據的平均誤差作為第i段的電流平均誤差e i ;其中N為自然數; 524)計算第i段上突躍閾值Tui及第i段下突躍閾值Tdi;其中,所述突躍閾值Tui為對應第i段的基線電流值Ii加上電流平均誤差Si與突躍系數Y的乘積,g卩Tui=Ii+^iX Y ;所述突躍閾值TdiS對應第i段的基線電流值Ii減去電流平均誤差Si與突躍系數Y的乘積,即 Tdi=I1- EiXy ; 525)在所述電流矩陣M中,依次比較從時間點Pi開始的每一時間點所對應的電流數據與第i段的突躍閾值Ti ;當某一時間點對應的電流數據值大于上突躍閾值Tui或小于下突躍閾值Tdi,執行步驟S26); 526)暫停步驟S25)所述的比較,并對該時間點進行突躍判定;若該時間點之后的N個起始時間點相對應的電流數據的電流平均值大于所述上突躍閾值Tui或小于所述下突躍閾值Tdi,確定該時間點為突躍點,將此突躍點作為后一段數據的起始點Pi+1,確定相鄰的兩個段起始點Pi與Pi+1之間的數據為第i段;將第i段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣Mi中;將i的值加1,返回步驟S23);若該時間點之后的N個起始時間點相對應的電流數據的電流平均值小于或等于所述上突躍閾值Tui并大于或等于所述下突躍閾值Tdi,繼續進行步驟S25)所述的比較,當比較進行到最后一時間點時,將最后一時間點與最后的一起始點Pk之間的電流數據定義為第k段,將第k段中彼此對應的所述離散時間點、所述電流數據保存至一電流矩陣中Mk。
3.如權利要求2所述的數據處理方法,其特征在于,所述電流矩陣包括一列時間數據和一列電流數據。
4.如權利要求1所述的數據處理方法,其特征在于,所述從每一數據段中獲取對應該數據段的事件信號,包括如下步驟: S31)計算所述數據段中電流數據的電流閾值Tci ;所述電流閾值Tci為對應第i段的基線電流值Ii減去電流平均誤差^的0倍;其中,電流閾值系數P大于或等于1.2且小于或等于1.6 ; 532)生成事件信號;依次比較所述數據段中每一電流數據與電流閾值Tci,取出所有小于電流閾值Tci的電流數據及其對應的時間點,并根據時間點的連續性將這些電流數據分塊存放,每一塊數據即為一個信號; 533)校正所述事件信號;對每一信號及該信號兩端延伸0.01 0.1ms的時間范圍內的數據進行求導;導數最小值處即為信號電流減小的趨勢最大處,向前尋找導數為該最小值0.1 0.4倍值的時間點為信號的初始點;導數最大值點處即為信號電流增加趨勢最大處,向后尋找導數為該最大值0.1 0.4倍值的點即為信號的結束點;單獨存放校正后的信號數據; 534)剔除所述事件信號中的噪聲信號;在信號兩端延伸0.01 0.1ms的時間范圍內,比較信號電流最大值與相應的基線電流之差是否大于信號電流最小值與相應的基線電流之差的絕對值,若是,確定對應該電流最大值的信號為電磁噪聲,剔除該噪聲信號。
5.如權利要求1所述的數據處理方法,其特征在于,所述識別所述事件信號的類型,包括如下步驟: 541)將所述事件信號進行濾波處理; 542)提取所述事件信號的特征點; 543)根據所述特征點對所述事件信號進行歸類處理。
6.如權利要求1所述的數據處理方法,其特征在于,所述事件信息包括所述事件信號各部分的阻斷電流和/或阻斷時間。
7.如權利要求1 所述的數據處理方法,其特征在于,所述文本文件包括導出信號類型、阻斷電流、阻斷時間、基線電流或始末位置中的任一種或兩種以上。
8.如權利要求1所述的數據處理方法,其特征在于,統計所述事件信息,包括如下步驟: 571)使用者設定時間統計的bin值; 572)統計獲得兩個以上阻斷時間事件發生頻率的分布; 573)使用者設定時間與電流統計的bin值; 574)統計獲得兩個以上阻斷電流在所述阻斷時間分布的頻率。
9.如權利要求1所述的數據處理方法,其特征在于,所述事件分布統計圖,包括事件阻斷時間分布統計圖、事件阻斷電流對阻斷時間的分布統計圖以及事件信號疊加圖。
全文摘要
本發明提供一種基于納米通道單分子檢測系統的數據處理方法,包括如下步驟依次獲取所述納米通道中對應離散時間點的電流數據;分段處理所述電流數據,將所述電流數據分成兩個以上數據段;從每一數據段中獲取對應該數據段的事件信號;識別所述事件信號的類型;獲取對應所述事件信號的事件信息;導出所述事件信息,形成文本文件;統計所述事件信息,形成事件信息數據庫;根據所述事件信息數據庫繪制并輸出事件分布統計圖。本發明的優點在于,能夠對復雜龐大的實驗數據進行快速讀取、處理、分類、統計并形成圖譜,通過此技術所得到的數據為電流的離散時間序列,有較大的高斯白噪聲背景。
文檔編號G06F17/30GK103246698SQ20131010849
公開日2013年8月14日 申請日期2013年3月29日 優先權日2013年3月29日
發明者龍億濤, 李大偉, 顧震, 薩拉·里亞茲, 張星, 孟福娜 申請人:華東理工大學