用于多個分子信號的數據處理方法和裝置的制造方法
【專利摘要】本發明提出了用于多個分子信號的數據處理方法。該方法計算任意不同的分子簇A與分子簇B的熒光信號之間的混雜系數C(A←B)和C(B←A),用于衡量所述分子簇A和分子簇B的熒光信號相互混雜的嚴重程度,進而,可以干預、減少不同分子簇間相互混雜的干擾,以提高分子識別技術的辨識精度。
【專利說明】
用于多個分子信號的數據處理方法和裝置
技術領域
[0001] 本發明涉及分子測序的數據處理領域,具體來說,涉及一種數據處理方法和裝置。
【背景技術】
[0002] Illumina公司的基因序列合成的測序技術和基于該技術的測序平臺被廣泛使用 的,已最成功的第二代基因測序技術之一。它首先將短的單鏈DNA分子隨機固定在芯片表 面上,然后通過復制形成包含相同序列的單鏈分子簇。每一輪測序中,通過加入帶有不同 英光標記的可逆終止子基團的四種單核巧酸,分子簇的互補鏈生長且僅每一輪生長一個堿 基。之后分別在不同頻率的激光光譜上對芯片表面進行拍照。每個頻道主要對應一種英光。 在拍照完成后,再將終止子基團洗去,W進行下一輪測序。送樣,通過對分子簇進行定位,然 后提取同一個分子簇每輪測序的英光信號,并根據英光信號的不同類型確定每輪測序識別 出的堿基,進而完成對送一分子簇包含序列的測序。送一技術被應用在GA,Hiseq和Miseq 等平臺上。關于送一技術的更詳細的內容及現有相關數據處理技術,可參見文獻Bentley etc, 2008 ;Li&Speed, 1999 ;Massin曲am&Gol血an, 2012 ;怖iteford etc, 2009 等。
[0003] 但是該技術還存在諸多不足。除光譜串色和相位失相W外,還包括下述問題;首 先,由于測序儀精度限制,不同照片中的景物有從小于一個像素到數十甚至上百像素的位 移和輕微的拉伸現象。同時,分子簇不發光的郝些位置也存在較小的非零、隨機的光強背景 值。更為麻煩的是,由于序列片斷的分子是隨機落在芯片上的,因此形成的分子簇可能離得 較近,送時每張照片中送些離得較近的分子簇的信號將混雜在一起相互影響(如圖1A、圖 1B、圖1C和圖2,圖1A是現有技術測得的一輪測序一個頻道的圖片的局部示意圖,顯示了離 得較近的分子簇;圖1B是經過光譜串色和相位失相的校正后兩個離得較近的分子簇信號 部分測序輪的示意圖,此圖中第二個分子簇對第一個分子簇信號產生相鄰分子簇混雜,并 導致第一個分子簇的第13個堿基被錯誤辨識;圖1C是相鄰分子簇信號混雜的示意圖;圖 2是兩個離得較近的分子簇的定位和產生信號混雜的示意圖,當兩個分子簇離得較近時,根 據英光信號最大值確定的兩個分子簇的位置會相互靠近,同時產生信號混雜)。如圖2所 示,離得較近的分子簇的坐標位置的確定也有可能存在偏差。
[0004] 針對上述相關技術中的難題,目前尚未提出有效的解決方案。
[0005] W下是對本領域的相關術語的解釋:
[0006] 分子簇:英文名稱為Cluster,指分子測序過程中特定分子的集合,該集合內包含 具有相同序列的分子,并且送些分子之間的平均距離小于不同分子簇的分子之間的平均距 離。
[0007] 巧IJ序:測序的目的為識別分子簇內分子的序列。所述分子的序列指所述分子中特 定位置的分子基本元件的類型。W DNA分子測序為例,其序列為DNA分子中特定片斷的每 個堿基的類型。
[0008] 英光信號;英文名稱為fluorescence intensity,指通過預定測量方式得到的, 分子簇內分子英光標記受激發發出的光強,亦稱作英光強度。
[0009] 信號混雜;無英文名稱,指任一分子簇的英光信號中出現的來源于其它分子簇英 光標記的英光信號。
[0010] 頻道;英文名稱為channel,對某一狀態下的分子簇英光標記進行測量時,每種測 量方式稱為一個頻道。
[0011] 測序輪:英文名稱為cycle, W不同測量方式對分子英光標記進行測量時,對一種 狀態的測量過程為一個測序輪。
[0012] 光譜串色,英文名稱為laser-crossta化或spectra-crossta化,指某種類型的基 團對應的英光標記在超過一個頻道中引起英光信號不為零的現象。
[0013] 相位失相,英文名稱為地asing,指特定位置的基團對應的英光標記在超過一個 測序輪中引起英光信號不為零的現象。
[0014] 分子簇定位,英文名稱為template generation,指確定圖像中的哪些坐標存在符 合預定條件的分子簇。
【發明內容】
[0015] 針對相關技術中存在的難題,尤其是離得較近的分子簇的信號會混雜在一起相互 影響,本發明提出一種用于多個分子的測序數據的處理方法。
[0016] 該方法的內容包括:
[0017] (1)計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數 C (A ^ B),用于衡量所述分子簇A的英光信號中所述分子簇B的混雜的嚴重程度。
[0018] (2)利用計算出的混雜系數,對分子簇英光信號進行處理。
[0019] 本發明的意義在于;本發明提出的數據處理方法通過計算不同分子簇英光信號之 間的混雜系數,有效的衡量了所述不同分子簇英光信號之間的干擾或混雜的嚴重程度。進 而,能夠在進行分子測序時通過對離得較近的分子簇信號進行處理,并將處理結果用于分 子序列識別和輸出序列識別的相關信息,W極大提升分子識別技術的辨識精度。現有技術 使用圖像去模糊化的方法減少分子簇英光信號混雜,但部分英光信號的混雜程度不符合模 糊化方法使用的核函數模式,致使分子簇的英光信號中仍殘留一定程度的混雜,影響序列 識別的精度。本發明有效彌補了現有技術中的送一不足。
[0020] 本發明提出的數據處理方法的技術路線包括:
[0021] (1)計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數 C (A ^ B),所述C (A ^ B)用于衡量分子簇A的英光信號中來源于分子簇B的混雜的嚴重程 度,其值為E(A^B) 與E度^B) 的比,其中,所述E(A^B) 為所述分子簇A的英光信號中 屬于分子簇B中分子英光標記的英光信號,所述E度^ B)為所述分子簇B的英光信號中屬 于所述分子簇6中分子英光標記的英光信號。通過下述公式計算所述"4^8):
[0022] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[002引其中,h(c)是預先設定的單調非減函數,用于控制過大的混雜系數對序列識別精 度的影響,Ια和I e為分子簇A和分子簇B在預先指定的測序輪和測序頻道的英光信號,
:用于衡量輸入英光信號中混雜的嚴重程度。其中η為測序輪的數量, 對測序輪數j,r,為預先設定的函數,W ,為根據所有分子簇在第j輪測序中的英光信號計算 出的標量或是預先設定的常數。輸入信號中的高的混雜使f(I)的值變大,因此計算出的 混雜系數使分子簇A的英光信號進行信號混雜的校正后其混雜程度減小。
[0024] 計算a r g J?) + /;(c))時,通過使用分位數法求f(iA-cIe)+h(c)的導 函數零點的方法完成。
[0025] (2)根據所述混雜系數對對所述分子簇英光信號進行處理,W完成分子簇中分子 的序列的識別和序列識別相關信息的計算。
[0026] 其中,對所述分子簇英光信號進行處理包括,對分子簇英光信號中的信號混雜進 行校正,校正方法包括:
[0027] 通過下述公式計算所述分子簇的沒有信號混雜的英光信號所組成的矩陣Ii:
[002引 C · Ii= I 0;
[0029] 其中在所述矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應 一個測序輪中一個頻道的所有分子簇的英光信號;所述C為由各個分子簇之間的混雜系數 所組成的矩陣;所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣,在矩陣I。中, 每行的元素對應一個分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分 子簇的英光信號。
[0030] 對所述分子簇英光信號進行處理還包括對校正過信號混雜的分子簇英光信號進 行后續處理,W完成分子序列的識別。
[0031] (3)為了更容易計算分子簇間的混雜系數,本方法在計算不同分子簇的英光信號 之間的混雜系數之前采用預定方式對輸入數據進行處理,所述預定方式包括W下至少之
[0032] 校正光譜串色、校正相位失相、對原始圖像數據進行預處理生成所述分子簇英光 信號。
[0033] 對原始圖像數據進行預處理生成所述分子簇英光信號時,本方法包括下述步驟:
[0034] 移除背景光,正規化,生成對準模版,分子簇定位和提取分子簇英光信號。
[0035] 其中,所述生成對準模板步驟包括:
[0036] 對準存在光譜串色的頻道的圖像,并校正所述對準的圖像的光譜串色;
[0037] 將各個所述校正過光譜串色的圖像中相同位置的像素的亮度進行比較,保留所述 相同位置中亮度最大的值,生成對準模板。
[0038] 所述生成對準模板步驟中,將不同圖像(或圖像同對準模板)對準的方法包括:
[0039] 選取需要對準的兩幅圖像中預定坐標范圍和預定數量的區域,將其中一幅圖像的 所選區域進行位移操作;
[0040] 對兩幅圖像的預定坐標范圍的區域,搜索其中一幅圖像所述區域的整點坐標的位 移,并將所述區域與另一幅圖像中所述區域的最大相關對應的位移坐標作為初始點,通過 BFGS或其他求解非約束最優化問題的算法定位位移。
[0041] 所述分子簇定位步驟包括:
[0042] 對校正過光譜串色的圖像進行定位操作,所述定位操作包括:
[0043] 查找所述校正過光譜串色的圖像中的亮點,并通過目標亮點及所述目標亮點周圍 的多個亮點的英光信號,分別在兩個方向上擬合拋物線,并計算所述拋物線的對稱軸W確 定所述目標亮點的坐標;
[0044] 通過不存在鄰居的亮點的坐標均值計算各個亮點所對應的分子簇的坐標,其中所 述不存在鄰居的亮點為一個包含亮點的單位像素內的亮點,且在所述包含亮點的單位像素 的周圍兩個單位像素范圍內不存在除自身所包含的亮點外,其他同頻道同測序輪的亮點。
[0045] 根據本發明的另一方面,提供了 一種數據處理裝置。
[0046] 該裝置包括:
[0047] 計算混雜系數模塊,用于計算不同分子簇的英光信號之間的混雜系數。其中,任意 分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數C (A ^ B)用于衡量所述 分子簇B對所述分子簇A的英光信號產生的混雜的嚴重程度。
[0048] 該裝置還可W包括,處理模塊,用于通過所述混雜系數對分子簇英光信號進行處 理,W完成分子序列的識別。
[0049] 該裝置還可W包括,預處理模塊,用于在計算不同分子簇的英光信號之間的混雜 系數之前采用預定方式對輸入數據進行處理。
[0050] 其中,計算混雜系數模塊進一步用于計算如下的混雜系數;對任意分子簇A和符 合預定條件的分子簇8,所述混雜系數"4^8)為E(A^B) 與E度^B)的比,其中,所 述E (A ^ B)為所述分子簇A的英光信號中來源于分子簇B的英光標記的英光信號,所述 E@ ^ B)為所述分子簇6的英光信號中來源于所述分子簇6中分子英光標記的英光信號。
[0051] 計算混雜系數模塊進一步用于通過下述公式計算所述C(A ^ B):
[0052] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0053] 其中,h(c)是預先設定的單調非減函數,Ια和I e為分子簇A和分子簇B在預先指 定的測序輪和測序頻道的英光信號,
其中η為測序輪的數量,對測序輪 數j,r,為預先設定的函數,W ,為根據所有分子簇在第j輪測序中的英光信號計算出的標量 或是預先設定的常數,其中j > 1。
[0054] 處理模塊可進一步包括校正單元,用于對分子簇英光信號中的信號混雜進行校 正,校正方法包括:
[00巧]通過下述公式計算所述分子簇的沒有信號混雜的英光信號所組成的矩陣:
[005引 C · Ii= I 0;
[0057] 其中在所述矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應 一個測序輪中一個頻道的所有分子簇的英光信號;所述C為由各個分子簇之間的混雜系數 所組成的矩陣;所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣,在矩陣I。中, 每行的元素對應一個分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分 子簇的英光信號。
[0058] 處理模塊可進一步包括下游處理單元,用于對校正過信號混雜的分子簇英光信號 進行后續處理,W完成分子序列的識別。
[0059] 其中,預處理模塊包括圖像處理單元和預處理單元,圖像處理單元用于當輸入數 據為測序得到的圖像時,對圖像進行處理W生成分子簇英光信號,預處理單元用于對分子 簇英光信號進行處理W符合計算混雜系數所需的條件。
[0060] 其中,圖像處理單元進一步用于采用本發明的方法,對測序得到的圖像進行W下 操作W生成分子簇英光信號:移除背景光,正規化,生成對準模版,分子簇定位和提取分子 簇英光信號。
[0061] 其中,圖像處理單元包括校正子單元和定位子單元:
[0062] 所述校對單元用于校正存在光譜串色的頻道對應的圖像的光譜串色;
[0063] 所述定位子單元用于對所述校正過光譜串色的圖像進行分子簇定位操作。
【附圖說明】
[0064] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例中所 需要使用的附圖進行簡單的介紹。顯而易見地,下面描述中的附圖僅僅符合本發明的一些 實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W根據送些附 圖獲得其他實施例對應的附圖。
[0065] 圖1A是現有技術測得的一輪測序一個頻道的圖片的局部示意圖;
[0066] 圖1B是經過光譜串色和相位失相的校正后兩個離得較近的分子簇信號部分測序 輪的示意圖,此圖中第二個分子簇對第一個分子簇信號產生相鄰分子簇混雜,并導致第一 個分子簇的第13個堿基被錯誤辨識;
[0067] 圖1C是Η個分子簇之間發生信號混雜的示意圖;
[0068] 圖2是離得較近的分子簇對分子簇定位產生影響的示意圖;
[0069] 圖3是根據本發明實施例的數據處理方法的流程示意圖;
[0070] 圖4是根據本發明實施例的數據處理方法的步驟流程的示意圖;
[0071] 圖5是根據本發明實施例的數據處理結果示意圖;
[0072] 圖6是根據本發明實施例的數據處理裝置的結構示意圖。
【具體實施方式】
[0073] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本發明保護的 范圍。
[0074] 在實現本發明的過程中發明人發現,在現有的分子測序的技術中方案中,部分基 于測序儀器提供的分子簇的英光信號來進行(送一數據被存儲在擴展名為CIF的文件或未 壓縮的TXT文檔中)。送一格式的文件主要包括每個分子簇每輪測序在每個頻道上的英光 信號。由于測序儀器提供的數據已扔掉因距離過近而被混雜得較嚴重的分子簇,因此目前 的方法對混雜的信號均沒有太好的辦法去處理,而是采用穩健性的方法盡力減少小部分混 雜帶來的影響。
[0075] 根據本發明的實施例,提供了一種數據處理方法,主要應用于分子測序中。該方法 通過計算任一分子簇與符合預定條件的另一分子簇間的混雜系數,并將計算出的混雜系數 應用于分子序列的識別,從而克服信號混雜對序列識別準確度的影響。
[007引如圖3所示,根據本發明實施例的數據處理方法包括:
[0077] 步驟S2,計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系 數,任意分子簇A和符合預定條件的分子簇B的混雜系數C (A ^ B)用于衡量分子簇A中來 源于分子簇B的混雜的嚴重程度。發明人發現,對任一分子簇A和在A的英光信號中具有 混雜的分子簇B,在任意測序輪和頻道中,分子簇B在A中的混雜與分子簇B自身的英光信 號的比值近似不變,因此,發明人在實施例中使用該比值作為混雜系數"4^8)的值。發 明人還發現,只有距離較近的分子簇會存在相互混雜的現象。因此只計算任意分子簇與和 它距離不超過預定像素值的其它分子簇之間的混雜系數。同時,由于可W通過預處理,使沒 有混雜的分子簇的英光信號僅在與其序列對應的頻道中存在較大數值,而在其余頻道中近 似為〇,因此使用下述公式計算混雜系數"4^8):;
[0078] C(A ^ B) = ar卵inc(f (Ia-cIb)+1i(c));
[0079] 其中,h(c)是預先設定的單調非減函數,Ια和I e為分子簇A和分子簇B在預先指 定的測序輪和測序頻道的英光信號,
其中η為測序輪的數量,對測序輪 數j,r,為預先設定的函數,用于計算測序輪j中混雜的嚴重程度,W ,為根據所有分子簇在 第j輪測序中的英光信號計算出的標量或是預先設定的常數,為計算混雜系數時測序輪j 的權重,C為預定區間內的實數。
[0080] 對通過實施例的預處理方式進行預處理的英光信號,r,可W為如下形式:
[0081]
[0082] 其中,r為頻道的數量,1化k)為輸入英光信號在第j個測序輪、第k個頻道中的 數值。
[0083] 在通過上述公式計算混雜系數時,argmin。(f (Ia-cIb) +h (C))可通過使用分位數法 求f(lA-cIe)+h(c)的導函數零點的方法得到。
[0084] 步驟S3,根據混雜系數對不同分子簇的英光信號進行處理。
[0085] 在實施例中,發明人通過該混雜系數校正分子簇英光信號中的信號混雜。使用的 校正方式為,通過下述公式計算分子簇的沒有信號混雜的英光信號所組成的矩陣Ii:
[008引 C · Ii= I 0;
[0087] 其中在矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應一個 測序輪中一個頻道的所有分子簇的英光信號;C為由各個分子簇之間的混雜系數所組成的 矩陣;I。為需要進行校正的分子簇英光信號所組成的矩陣,在矩陣I。中,每行的元素對應一 個分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0088] 在通過混雜系數校正分子簇英光信號中的信號混雜后,還可W采用預定方式對校 正過信號混雜的分子簇英光信號進行后續的處理W完成序列的識別和相關信息的計算。
[0089] 另外,在計算不同分子簇的英光信號之間的混雜系數之前,根據使用的計算混雜 系數的方法和輸入數據的特征,還需要對輸入數據進行相應的預處理操作,包括:
[0090] 步驟S1,在計算不同分子簇的英光信號之間的混雜系數之前,采用預定校正方式 對分子簇英光信號進行校正,預定校正方式包括W下至少之一:
[0091] 步驟S121,校正光譜串色;
[009引步驟S122,校正相位失相;
[0093] 步驟S11,對原始圖像數據進行預處理生成分子簇英光信號。
[0094] 其中,對原始圖像數據進行預處理生成分子簇英光信號包括:
[0095] 步驟Sill,讀取原始圖像數據,進行正規化,具體作法為:
[0096] 根據前k輪的測序圖像數據計算不同頻道中的圖像的各個位置的英光強度尺 度,其中k > 1,具體的,查找圖像中的亮點,其中亮點為在同一幅圖像中,根據預先設定的 規則篩選出的像素,且篩選出的像素的英光強度超過其周圍像素的英光強度;
[0097] 將圖像的平面區域分割成多個不重疊的區域,并在每個頻道中計算前k輪測序 中,圖像中每個區域所包含的亮點的英光強度的中位數;
[0098] 根據預定規則移除圖像中目標區域預定范圍內的不符合預定規則的區域中的亮 占. ;、、、?
[0099] 通過最小二乘的方法使用圖像中剩余區域中計算出的亮點的中位數擬合出高次 曲面,并根據高次曲面計算在圖像中剩余區域的英光強度尺度,其中,高次曲面的曲面次數 與圖像中的區域數量成正比。
[0100] 將圖像各像素的光強值除W當前測序頻道對應位置的英光強度尺度。
[0101] 此外,對原始圖像數據進行預處理生成分子簇英光信號進一步包括:
[0102] 步驟S112,計算原始圖像數據的背景光,并移除背景光;
[0103] 步驟S113,生成對準模版,具體步驟為:首先對準預定測序輪中存在光譜串色的 頻道,然后校正存在光譜串色的頻道的圖像的光譜串色,將各個校正過光譜串色的圖像中 相同位置的像素的英光信號進行比較,保留相同位置中英光信號最大的值,生成對準模板。 對準任意兩幅圖像的步驟為,選取需要對準的兩幅校正過光譜串色的圖像中坐標相同的區 域,將其中一幅圖像的所選區域進行位移操作;搜索所選區域的整點坐標的位移,并將最大 相關對應的位移坐標作為初始點,通過BFGS或其他求解非約束最優化問題的算法定位位 移。
[0104] 步驟S114,在對準的圖像上進行分子簇定位操作。
[0105] 具體的,在對準的圖像上校正光譜串色,然后查找校正過光譜串色的圖像中的亮 點,并通過目標亮點及目標亮點周圍像素的英光信號,分別在兩個方向上擬合拋物線,并計 算拋物線的對稱軸,將對稱軸作為目標亮點的坐標;
[0106] 通過不存在鄰居的亮點的坐標均值計算各個亮點所對應的分子簇的坐標,其中不 存在鄰居的亮點為滿足如下條件亮點:在包含亮點的單位像素的周圍兩個單位像素范圍內 不存在除自身所包含的亮點外,其他同頻道同測序輪的亮點。
[0107] 步驟S115,提取分子簇英光信號。具體方法為,通過將各幅圖像同對準模版對準, 計算各個分子簇在各幅圖像中的位置,W獲取各個分子簇的英光信號。
[0108] 其中,預處理操作步驟S1還可包括:
[0109] 步驟S123,在對分子簇英光信號校正完光譜串色后再對分子簇英光信號進行相 鄰基團干擾校正,其中相鄰基團干擾為分子簇在前一個位置的基團類別對它后繼基團的英 光信號產生的不同干擾的現象。
[0110] 具體的,在校正完光譜串色后,對任意基團類別a和類別b,對第L測序輪的所有 類別為a類型的分子簇,計算第L+1測序輪的所有類別為b類型的分子簇對應的頻道上的 分子英光強度的平均數或中位數,得到第L測序輪中a類型的英光標記對第L+1測序輪中 b類型的英光信號產生干擾時,b類型的英光標記的平均尺度,其中L > 1 ;
[0111] 對任意測序輪M,其中Μ > 2,根據第M-1輪辨識出的序列類別,將第Μ輪的每個頻 道上的分子簇的英光信號除W受第M-1輪辨識出的類別的干擾下當前頻道的英光標記的 平均尺度。
[0112] 本發明的上述方法適用于任意兩個分子簇的英光信號之間具有任意特征的混雜 系數,上述方法通過混雜系數降低信號混雜的干擾,提高了分子簇序列辨識的準確率。
[0113] 根據本發明的實施例本發明還提供了一種數據處理裝置,該裝置可W應用于分子 識別領域,用于使用上述本發明的方法更準確的完成對分子序列的辨識。
[0114] 如圖6所示,該裝置包括:
[0115] 計算混雜系數模塊D2,用于計算不同分子簇的英光信號之間的混雜系數。其中,任 意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數C(A ^ B)用于衡量分 子簇B對分子簇A的英光信號產生的混雜的嚴重程度。
[0116] 處理模塊D3,用于通過混雜系數對分子簇英光信號進行處理,W完成分子序列的 識別。
[0117] 該裝置還可W包括,預處理模塊D1,用于在計算不同分子簇的英光信號之間的混 雜系數之前采用預定方式對輸入數據進行處理。
[0118] 其中,計算混雜系數模塊D2進一步用于計算如下的混雜系數;對任意分子簇A和 符合預定條件的分子簇B,混雜系數C (A ^ B)為E (A ^ B)與E度^ B)的比,其中,E (A ^ B) 為分子簇A的英光信號中來源于分子簇B的英光標記的英光信號,E度^ B)為分子簇B的 英光信號中來源于分子簇B中分子英光標記的英光信號。
[0119] 計算混雜系數模塊02進一步用于通過下述公式計算"4^8):
[0120] C(A ^ B) = ar卵inc(f (lA-clB)+hk));
[0121] 其中,h(c)是預先設定的單調非減函數,Ια和I e為分子簇A和分子簇B在預先指 定的測序輪和測序頻道的英光信號,
其中η為測序輪的數量,對測序輪 數j,r,為預先設定的函數,W ,為根據所有分子簇在第j輪測序中的英光信號計算出的標量 或是預先設定的常數,其中j > 1,C為預定區間內的實數。
[0122] 處理模塊D3可進一步包括校正單元D31,用于對分子簇英光信號中的信號混雜進 行校正,校正方法包括:
[0123] 通過下述公式計算校正過信號混雜的不同分子簇的英光信號所組成的矩陣Ii:
[0124] C · Ii= I 0;
[01巧]其中在矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應一個 測序輪中一個頻道的所有分子簇的英光信號;C為由各個分子簇之間的混雜系數所組成的 矩陣;I。需要進行校正的分子簇英光信號所組成的矩陣,在矩陣I。中,每行的元素對應一個 分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分子簇的英光信號。
[0126] 處理模塊D3可進一步包括下游處理單元D32,用于對校正過信號混雜的分子簇英 光信號進行后續處理,進而可完成分子序列的識別。
[0127] 其中,預處理模塊D1包括圖像處理單元D11和預處理單元D12,圖像處理單元用于 當輸入數據為測序得到的圖像時,對圖像進行處理W生成分子簇英光信號,預處理單元用 于對分子簇英光信號進行處理W符合計算混雜系數所需的條件。
[012引其中,圖像處理單元D11進一步用于采用本發明的方法,對測序得到的圖像進行 w下操作w生成分子簇英光信號:移除背景光,正規化,生成對準模版,分子簇定位和提取 分子簇英光信號。
[0129] 其中,圖像處理單元D11包括校正子單元DC和定位子單元D114 :
[0130] 校對單元DC用于校正存在光譜串色的頻道對應的圖像的光譜串色;
[0131] 定位子單元D114用于對校正過光譜串色的圖像進行分子簇定位操作。
[0132] 該裝置的不同模塊可通過不同的硬件或軟件及其組合實現。該裝置可配置多個相 同功能的子單元,通過將任務分配給送些子單元同時處理W加快數據處理速度。例如,可通 過0PENMP將模塊D2中計算各混雜系數的部分并行化,或將計算各混雜系數的部分在GPU、 FPGA或DSP上實現從而可同時處理多個計算混雜系數的請求,也可通過同時配置多個該裝 置的實例W加快數據處理速度。
[0133] 為了更好的理解本發明的方案構成,下面將W-具體的實施例進行闡述,實施例 將本發明應用于DNA分子的測序,通過對輸入數據進行處理,提高了測序精度。應當注意的 是,下述實施例的大標題只是表達該標題所闡述的內容,但是對于本發明的技術方案的實 現順序并不限定。同樣的,實施例中的步驟只代表本發明的技術方案的一種可行實現,通過 調整步驟的順序而對測序結果無實質性的正面影響的實現并不超出本發明的技術方案的 范圍。
[0134] 圖4示出了本發明實施例的數據處理方法的示意性流程圖。
[0135] 一、數據的預處理和確定每個分子簇的位置:
[0136] 不同頻道間平均信號峰值在不同區域上的變化存在差異,如果不對它進行處理, 則不同區域的光譜串色矩陣將會不一致,因而用估計出的光譜串色矩陣對串色進行校正 時,偏差將會出現,從而對結果產生影響。然而由于信號峰值受分子簇中分子數量等因素影 響,估計出的子區域的平均信號強度方差較大,因此本發明采用前四輪的測序數據對其進 行估計,并用多項式擬合的方法對估計值進行平滑化。
[0137] 本步驟的流程如下:
[013引步驟S111,首先讀入圖像數據,然后用前四輪的數據估計不同頻道中圖像各個位 置的光強尺度。
[0139] 送一估計步驟如下:
[0140] S1111.找出每幅圖像中的亮點。一個像素被看作為一個亮點;如果它的光強值比 周圍8個像素都大并且光強值超過送幅圖光強的均值加上標準差的四分之一。
[0141] S1112.將整個區域切割成小正方形,在每個頻道中,對每個小正方形,計算前四輪 數據落在該正方形內亮點光強的中位數。將中位數看作該小正方形的尺度估計。
[0142] S1113.移除郝些與周圍正方形光強尺度估計值偏離過遠的估計值。一個估計值被 認為偏離過遠:如果它的值與周圍至多8個鄰居的均值的差大于鄰居中最大值與最小值的 差。
[0143] S1114.在每個頻道中,對剩余的估計值,用最小二乘擬合出高次曲面,并將曲面在 每個像素處的值作為光強尺度的估計。曲面的次數取決于每幅圖中正方形的數量。
[0144] 然后估計讀入數據的背景光,并將送一背景光減去,然后將每個像素都除W對應 頻道的光強尺度。
[0145] 步驟S112,估計背景光的方法如下:
[0146] S1121.將每幅圖分成小正方形。使用小正方形中所有光強值的第k小的點作為該 小正方形背景光的估計。
[0147] S1122.移除郝些與周圍正方形背景光估計值偏離過遠的估計值。"偏離過遠"的 定義同光強尺度估計中的定義。
[014引S1123.使用周圍鄰居的背景光估計的均值代替被移除的估計值。
[0149] S1124.使用雙線性插值計算每個像素的背景光。
[0150] 接下來生成對準模版并對準前五輪圖片:
[0151] 對準圖片的基礎是芯片不同照片中發光的地方均為分子簇所在位置。因此對準的 照片存在相關性,從而可W通過使用求最大相關的辦法找到照片位移量。然而由于同一輪 的A,C頻道照片發光的位置,G,T頻道不會發光,因此兩者無法直接對準。同時由于不同頻 道間的照片同一分子簇的位置不一定同時發光,因此相關性較弱,為實現高精度的對準,需 設法加強此相關性,因此本發明通過求最大值生成模版來提高對準精度。
[0152] 在對準過程中,涉及到非整數像素時,光強值通過先后在X軸和y軸方向作分段Η 次插值估計得到。步驟S113,生成對準模版并對準前五輪圖片的方法如下:
[0153] S1131.通過步驟S11R將每輪C頻道的圖片與A頻道對準。估計A,C頻道間的光 譜串色。校正對準圖片的串色,然后通過對每兩幅A和C圖片按像素取最大值生成對應測 序輪的AC頻道模版,即將每幅圖片相同位置的光強相比較,保留其中取值最大的,從而生 成對準模板。
[0154] S1132.將第二輪的模版同第一輪的模版對準。將第四輪的模版同第Η輪對準。用 對準的第一輪和第二輪模版每個像素的最大值生成模版一,用第Η和第四輪的模版生成模 版二。將模版二同模版一對準。
[0155] S1133.將前兩輪的G和Τ頻道圖片同模版二對準,將其它剩余的圖片同模版一對 準。
[0156] 步驟S11R,將兩幅圖片對準的算法如下:
[0157] S11R1.將兩幅圖片正中間的小塊兒對準。對準的標準是送時兩圖之間的相關值最 大。首先搜索整格點的位移,然后將最大相關對應的位移作為初始點用BFGS方法搜索更精 確的位移。
[015引 S11R2. W兩幅圖片正中間的小正方形的位移為初始點,分別通過最大化相關的方 法搜索位于兩幅圖片四角附近的小正方形之間的位移。
[0159] S11R3.將兩幅圖間的坐標差異看作仿射變換,使用Robust回歸分別計算X軸方向 和y軸方向變換從而計算出兩幅圖間的仿射變換。
[0160] 最后識別各個分子簇的位置,計算每個分子簇在各頻道對應的光強尺度。
[0161] 步驟S114,識別分子簇的步驟如下:
[0162] S1141.通過步驟SC估計光譜串色。并校正光譜串色。校正方法為,將每個像素四 個頻道的光強值看作四維向量,然后左乘估計出串色矩陣的逆。
[0163] S1142.找到每幅圖中的亮點。使用亮點中必和它上下左右共5個光強值通過分別 在兩個方向上擬合拋物線并計算拋物線對稱軸的方法確定更精確的亮點坐標。一個像素點 被確定為亮點:如果它的光強值比周圍8個相鄰像素的光強值都大并且它的光強值超過 根據整幅圖片確定的某一閥值。
[0164] S1143.將每個像素看作一個格子,把找到的亮點放到送些格子中去。如果兩個相 鄰格子滿足:在每一輪中至多存在一個頻道有亮點,則將兩個格子合并。合并指的是將包含 的亮點總光強值低的格子中的亮點移到另一格子中去。
[0165] S1144.刪除連同周圍格子中所有亮點光強值總和過低的格子。刪除在五輪測序中 光強值過大且光強無明顯變化的格子。刪除與鄰近格子相比,包含亮點光強均值過低的格 子。
[0166] S1145.將剩下的所有包含光點的格子看作分子簇。使用包含的與鄰近格子位于不 同頻道的光點的坐標均值作為該分子簇的坐標。
[0167] 步驟SC,估計m個頻道間光譜串色的方法如下:
[0168] SCI.正規化每個頻道使不同頻道上的方差相同。將輸入看作m維向量構成的總 體。
[0169] SC2. W四個頻道上的單位向量為初始點,對所有輸入向量做k = m的k-means聚 類。聚類時用到的距離定義為d(x, y) = 1-COS < X, y >
[0170] SC3.計算每一類在每個頻道上的中位數,從而得到每一類向量的估計。用送些向 量構成正規化后數據的串色矩陣。
[0171] SC4.根據正規化的信息計算正規化前的串色矩陣。
[0172] 二、步驟S115,提取分子簇英光信號
[0173] 本步驟的流程如下:
[0174] 對讀入的每幅圖像,首先通過S112,去除其背景光,然后通過S11R計算它與模版 對準所需變換。之后根據仿射變換計算出每個分子簇在送幅圖上的坐標。使用插值算法計 算出每個分子簇的光強,再將送一光強除W對應頻道對應分子簇的平均尺度。相關算法上 述內容已經介紹過或可根據敘述直接實現,在此不再賞述。
[0Π 5] H、步驟S12,分子簇英光信號的預處理
[0176] CIF文件中每個分子簇包含一系列離散數字,共η行4列,每個數字表示一個測序 輪一個頻道上的光強。在處理光譜串色和相位失相時,對第i個分子簇進行描述的如下的 概率模型被廣泛接受:
[0177] Ii= λ iPSiMT+N+ε 1
[0178] 送里Ii表示CIF文件中記錄的光強值,S 1表示該分子簇的堿基序列,它和11 一樣, 是η行4列的矩陣,每行只有一個元素為1,其余Η個元素均為0,1所在的位置對應該行表 示的測序輪中該分子簇的堿基類別。Ρ是ηΧη的相位矩陣,其中第j行第1列的元素表示 第1個位置的堿基在第j輪測序中發光的概率。而Μ是4X4的光譜串色矩陣,第j行第1 列的元素表示第1種堿基在第j個頻道的英光強度。ε 1則是η行4列的白噪聲矩陣,代表 測量誤差。
[0179] 本步驟的流程如下:
[0180] 步驟S121,估計并校正光譜串色,具體步驟為:
[0181] 步驟S1211,使用SC估計串色矩陣,步驟S1212,校正光譜串色。
[0182] 步驟S122,全計并校正相位失相。具體步驟為:
[0183] 步驟S1221,估計相位矩陣。使用此相位矩陣作為初值,然后通過迭代加權最小二 乘算法估計更精確的包含相位和光譜串色現象的4mX4m矩陣。送里m指測序輪數。
[0184] 步驟S1222,使用新的矩陣校正英光信號。
[0185] 步驟S123,校正相鄰堿基干擾現象,校正送一現象的步驟如下:
[0186] 步驟S1231.根據每個分子簇每個測序輪最大的光強值確定其堿基類別。
[0187] 步驟S1232.使用前四輪的數據,計算當前一輪為某一種堿基時,本輪每種堿基在 對應頻道上的光強的中位值。
[0188] 步驟S1233.對每個分子簇每一輪數據,根據上一輪辨識出的堿基類別,將本輪每 個頻道數據分別除W對應的光強中位值。然后重新完成本輪的辨識。
[0189] 其中,步驟S12可替換為:
[0190] 步驟S12R,使用現有的其它方法完成對分子簇英光信號中除信號混雜W外的其 它問題進行校正。
[0191] 四、步驟S2,校正分子簇間的信號混雜
[0192] 本步驟依賴于模型:
[0193]
[0194] 其中Μ是光譜串色矩陣,P是相位矩陣,兩者定義在步驟S12中給出;C是信號混雜 矩陣,其兩個維度的長度均等于分子簇的數量;ξ是觀測誤差構成的Η維數組,S是由序列 構成的非0即1的Η維狀態數組,代表所有分子簇的序列,0為提取的光強構成的Η維數組, W上Η個Η維數組Η個維度的長度分別為分子簇的數量、測序輪的數量和頻道的數量。Μ、Ρ 的具體意義不再賞述,C中第i行第1列的元素表示第1個分子簇的英光標記在第i個分子 簇的CIF數據中的發光情況,記作混雜系數C α ^ 1),或Cii。Η _4將Η中固定除第r維外 另兩維下標,遍歷第r維得到的向量左乘矩陣A得到新數組中對應位置的向量。送一運算滿 足的性質包括同維運算時的相合性(簽化4 ),:不同維運算時的 可交換性(Η ?,. ^S 二 Η 及 J ),可逆性(對可逆的 A,Η ?,. = Η] )等。而通過使用送一運算的可交換性(即先算哪個維度再算哪個維度結果不變),可W得 到:
[0195]
[019引其中務1,: I是校正了光譜串色和相位問題的數 據。因此可W先進行其它現象的校正再估計出分子簇相互混雜C,并通過求解 巧@2: P@3 M)?i投二0或直接計算0句完成對混雜的校正。
[0197] 在估計信號混雜矩陣時,可W通過建立衡量分子簇信號質量的目標函數,然后優 化送一函數的方法確定兩個分子簇間的混雜系數,從而估計出混雜矩陣、求解模型方程W 移除混雜。具體地,首先設定混雜矩陣對角線的元素均為1,而離得較遠的分子簇間不存在 相互混雜(值為0)。而對近距離的分子簇之間,W分子簇1和分子簇2為例,使用如下兩分 子簇模型:
[019 引
[0199] 通過變形得到:
[0200] Ii= C 1212+(1-。12。21) Si+( ξ i_Ci2 ξ 2)
[020。 送里ξ 1-Ci2 ξ 2期望為0,而S 1在除對應第1個分子簇的堿基類別外的頻道中值 為0。因此可W找到第1個分子簇各位置堿基類別,然后移除對應的頻道,在剩下的頻道中 完成對Ci2的估計,送一估計可通過建立目標函數并求其極值實現。而在校正分子簇信號相 互混雜時,較大的混雜系數會為四個頻道的光強數據帶來額外精度損失,因此,需要在目標 函數中引入對大混雜系數的懲罰。而注意到在分子簇1各個堿基對應頻道W外的頻道上,
時它的期望值均為0,所W可選擇形如g(l,2) (t) =f(Ii-tl2)+h(t)的 目標函數,其中h(t)是單調增的函數而函數f可寫作如下的形式:
i 是對第j輪測序精度的度量,而函數r,衡量第j輪信號的被混雜的嚴重程度。
[0202] 通過使用加權LAD方法完成對混雜比例的估計,假設Ii -中每輪測序最大的 信號所在的頻道對應分子簇1該位置的堿基類別,同時令h(t)取線性函數,則可得到目標 函數:
[020引 g(l,。(t) = f (Ii-tl2)+ut
[0204] 其中的u為根據權重或分子簇英光信號的觀測誤差計算得到的正常數,函數f定 義如下:
[0205]
[0206] 它代表對輸入信號純凈程度的衡量。通過對目標函數的優化,可W得到各混雜系 數的估計算法。
[0207] 步驟S2的方法如下:
[020引在完成初步的除相互混雜之外問題的校正后,進行下述工作。假設每次需要處理 的圖片中包含η個分子簇。
[0209] 步驟S21,進行預處理工作,計算出計算混雜系數時所需的參數,步驟如下:
[0210] S211.對每個分子簇,取出每一測序輪中并非為最大信號的其它Η個信號值,計算 送些信號的中位值,然后通過中位值估計方差。 C ,
[0211] S212.對每一輪測序j,計算W二一。C為任意正常數,其值不影響計算結果;(67 σ '1 為前一步估計出的第j輪測序時的方差。
[0212] S213.對參數ink (事先給定,在0.5到0.8的范圍內,送一值越高則測序精度略微 提高但序列重復率增加,越低則相反),計算
[0213] 步驟S214,建立空的稀疏矩陣S。將分子簇編號賦值給一個與圖片大小相同的數 組中與分子簇位置對應的元素。對每個分子簇,通過數組找到與之距離不超過一定像素的 所有分子簇,然后估計送些分子簇對它的混雜。
[0214] 步驟S22,對任意分子簇i和與其距離小于預定常數的分子簇j,估計混雜系數 C(i^如,即(3。。估計方法如下:
[0215] S211.如果i = j,則將Cii賦值為1 ;否則進行下面的步驟。
[0216] S212.定義
。送里 0 = 0.001,
Ii和I,分別為分子簇i和分子簇j校正過其 它混雜后的光強。將變量1設為0, r設為1,然后進行下一步工作。
[0217] S213.計算g(0. 61+0. 4r),若其值大于t虹,則將1的值改變為0. 61+0. 4r,否則將 r的值改變為0. 61+0. 4r,然后如果I l-r| > 0. 001,則重復本步驟,否則進行下面的步驟。
[0218] S214.將 1 賦值給 Ci j。
[0219] 其中,步驟S2對不同混雜系數的估計可并行完成。送一并行可通過GPU編程,多 核CPU或FPGA實現。
[0220] 四、步驟S3,進行后續處理
[0221] 本步驟包括:
[0222] 步驟S31,在完成步驟S2得到C的估計后,對未做任何處理的輸入的分子簇英光信 號,或通過步驟S115得到的分子簇英光信號0,求解CD = 0得到校正過相互混雜的光強D
[0223] 步驟S32,對校正過分子簇信號相互混雜的光強數據重復步驟S12, W進行光譜串 色、相位失相等的校正操作。
[0224] 步驟S33,對每個分子簇的每一輪數據,根據最大光強值所在頻道確定對應位置的 堿基類別。根據分子簇信號的純度確定其質量值。輸出堿基類別和質量值。
[0225] 其中,步驟S2和S31可通過如下方式完成:
[0226] 步驟S2P,將分子簇坐標所在的平面區域通過預定方式進行分割,對每一子區域, 選取子區域包含的所有分子簇和與該子區域的距離不超過預定數值的所有分子簇,對選取 的分子簇執行步驟S2和步驟S31,然后將該子區域包含的分子簇的計算結果作為所述校正 過信號混雜的光強。對每一子區域的操作可并行完成,步驟S211到S213可W對每一子區 域分別執行也可先于步驟S2P執行。
[0227] 其中,步驟S31和步驟S32可替換為:
[022引步驟S3R1,對步驟S123得到的分子簇英光信號I,求解CS= I得到可直接用于進 行辨識堿基的信號。
[0229] 步驟S32和步驟S33可替換為:
[0230] 步驟S3R2,輸出D,使用第Η方工具,如AYB (Massin曲am&Goldman, 2012)等完成測 序。
[0231] 發明人采用本發明的技術方案對分子簇測序的英光信號數據進行了仿真測試,女口 圖5所示;圖5是根據本發明實施例的數據處理結果示意圖,其中橫軸表示離最近分子簇的 距離,縱軸表示數量,黑色部分(CACC improved PF reads)為采用本發明實施例后對測序 精度的提高。X軸坐標代表離最近分子簇中必的距離。左側長條為通過本發明處理數據后 完美匹配序列比例,中間的是通過本發明的方案但不校正分子簇信號相互混雜的結果,右 側為識別出的分子簇的總數量。可見,離最近分子簇距離在1到3個像素的送部分分子簇 的映射正確率提高最顯著。
[0232] 同時,發明人制作了應用本發明技術方案的軟件。該軟件可W輸入測序圖像數據 或分子簇英光信號數據,通過計算混雜系數,完成對信號混雜的校正,并輸出校正了信號混 雜的分子簇英光信號或序列識別結果及質量值。根據本發明的技術方案,軟件分為預處理 模塊、計算混雜系數模塊和處理模塊,分別用于對輸入數據的預處理、計算混雜系數和根據 混雜數據對輸入數據進行后續處理。預處理模塊分為圖像處理單元和預處理單元,圖像處 理單元用于處理輸入數據為測序圖像的情形,預處理單元用于完成對數據的預處理使之符 合計算混雜系數的條件。軟件的具體內容如上述步驟所示,不再賞述。該軟件的一個版本 通過C++代碼編譯實現,該軟件的另一個版本通過Matl油程序實現。軟件的各部分步驟通 過0PENMP實現并行處理,加快了執行速度。
[0233] 綜上所述,借助于本發明的上述技術方案,通過對鄰近分子簇間的信號混雜的自 適應的校正,從而可W更準確地完成對分子序列的辨識。此外,本發明還可W讀入原始圖片 數據或分子簇英光信號數據,并輸出校正過信號混雜的分子簇英光信號數據,或輸出最終 的有質量評估的分子序列,本技術可直接應用于處理采用橋式擴增技術的DNA測序儀器產 生的數據,并可應用于處理其他辨識多個分子的結構或序列的裝置產生的數據。
[0234] W上所述僅為本發明的較佳實施例而已,并不用W限制本發明,凡在本發明的精 神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內,并 且本工作得到了國家自然科學基金委員會重大研究計劃培育項目91130008的資助。
[0235] 參考文獻
[0236] Anastasi, C. (2008). Accurate whole human genome sequencing using reversible terminator chemistry. Nature, 456(7218), 53-59.
[0237] Bentley, D. R. , Balasubramanian, S. , Swerdlow, H. P. , Smith, G. P. , Milton, J. , Brown, C. G. ,. . . &
[0238] Li, L. , feSpeed, T. P. (1999). An estimate of the crosstalk matrix in four-dye fluorescence-based DNA sequencing. Electrophoresis, 20(7), 1433-1442.
[023引 Massin曲am, T. , &Goldman, N. (2012). All Your Base : a fast and accurate probabilistic approach to base calling. Genome Biol, 13, R13.
[0240] Whiteford, N. , Skelly, T. , Curtis, C. , Ritchie, M. E. , Liihi·, A. , Zaranek, A. W. , . . . &Brown, C. (2009). Swift:primary data analysis for the Illumina Solexa sequencing platform. Bioinformatics, 25(17), 2194-2199。
【主權項】
1. 一種用于多個分子信號的數據處理方法,其特征包括: 計算任意分子簇A與符合預定條件的分子簇B的英光信號之間的混雜系數C(A ^ B); 根據所述混雜系數,對不同分子簇的英光信號進行處理; 其中對任意所述分子簇A和符合預定條件的所述分子簇B,所述C (A ^ B)用于衡量所 述分子簇A的英光信號中來源于所述分子簇B的混雜的嚴重程度,所述混雜是指所述分子 簇A的英光信號中出現的所述分子簇B中英光標記的英光信號;分子簇為特定分子的集合, 該集合內包含具有相同序列的分子,并且送些分子之間的平均距離小于不同分子簇的分子 之間的平均距離;對任意所述分子簇A,其英光信號指通過預定方式得到的、可用于對所述 分子簇A包含分子的序列或子序列進行識別的數據;分子的序列為分子中預定的一個或多 個位置的分子基本元件的類型。2. 根據權利要求1的所述方法,其特征在于,所述根據所述混雜系數對不同分子簇的 英光信號進行處理,包括: 通過所述混雜系數校正所述不同分子簇的英光信號中的信號混雜; 其中,所述信號混雜是指任意分子簇的英光信號中出現屬于其他分子簇中分子英光標 記的英光信號。3. 根據權利要求1的所述方法,其特征在于,對任意所述分子簇A和所述分子簇B,所 述混雜系數C(A ^ B)為E(A^B)與£度^B)的比,其中,所述E(A^B)為所述分子簇A 的英光信號中來源于所述分子簇B的英光標記的英光信號,所述E度^ B)為所述分子簇B 的英光信號中來源于所述分子簇B中分子英光標記的英光信號。4. 根據權利要求1的所述方法,其特征在于,通過下述公式計算所述混雜系數 C(A-B): 0(八戶8)=日1'卵;[]1。江(14-。1[5)+11(。)); 其中,h (C)為預先設定的單調非減函數,Ia和I e分別表示所述分子簇A和所述分子簇 B在預先指定的測序輪和測序頻道的英光信號其中n為測序輪的數 量,對測序輪數j,r,為預先設定的函數,W ,為根據所有分子簇在第j輪測序中的英光信號 計算出的標量或是預先設定的常數,C為預定區間內的實數。5. 根據權利要求4的所述方法,其特征在于,argminc(f(lA-cIe)+h(c))通過使用分位 數法求f (lA-cIe)+h(c)的導函數零點的方法得到。6. 根據權利要求2的所述方法,其特征在于,所述通過所述混雜系數校正所述不同分 子簇的英光信號中的信號混雜包括: 通過下述公式計算校正過信號混雜的所述不同分子簇的英光信號所組成的矩陣Ii: C- Ii= I 0; 其中在所述矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應一個 測序輪中一個頻道的所有分子簇的英光信號;C為由各個分子簇之間的混雜系數所組成的 矩陣;I。為需要進行所述校正的分子簇的英光信號所組成的矩陣,在所述矩陣I。中,每行的 元素對應一個分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分子簇的 英光信號。7. 根據權利要求1的所述方法,其特征在于,在計算所述不同分子簇的英光信號之間 的混雜系數之前進一步包括: 采用預定方式對輸入數據進行處理,所述預定方式包括W下至少之一: 校正光譜串色、校正相位失相、對原始圖像數據進行預處理生成分子簇的英光信號。8. 根據權利要求7的所述方法,其特征在于,對所述原始圖像數據進行預處理生成分 子簇的英光信號,包括: 校正存在光譜串色的頻道對應的圖像的光譜串色; 對所述校正過光譜串色的圖像進行分子簇定位操作, 其中,所述分子簇定位操作是指確定圖像中符合預定條件的分子簇,W及確定所述符 合預定條件的分子簇的坐標。9. 根據權利要求2的所述方法,其特征在于,所述根據所述混雜系數對不同分子簇的 英光信號進行處理,進一步包括: 通過校正過信號混雜的分子簇英光信號對分子簇中分子的序列進行識別。10. -種用于多個分子信號的數據處理裝置,其特征在于,包括: 計算混雜系數模塊,用于計算任意分子簇A與符合預定條件的分子簇B的英光信號之 間的混雜系數"4 ^B); 處理模塊,用于根據所述混雜系數對不同分子簇的英光信號進行處理; 其中對任意所述分子簇A和符合預定條件的所述分子簇B,所述C (A ^ B)用于衡量所 述分子簇A的英光信號中來源于所述分子簇B的混雜的嚴重程度,所述混雜是指所述分子 簇A的英光信號中出現的所述分子簇B中英光標記的英光信號;分子簇為特定分子的集合, 該集合內包含具有相同序列的分子,并且送些分子之間的平均距離小于不同分子簇的分子 之間的平均距離;對任意所述分子簇A,其英光信號指通過預定方式得到的、可用于對所述 分子簇A包含分子的序列或子序列進行識別的數據;分子的序列為分子中預定的一個或多 個位置的分子基本元件的類型。11. 根據權利要求10的所述裝置,其特征在于,所述處理模塊包括:校正單元,用于通 過所述混雜系數校正所述不同分子簇的英光信號中的信號混雜, 其中,所述信號混雜為任意分子簇的英光信號中出現屬于其他分子簇中分子英光標記 的英光信號。12. 根據權利要求10的所述裝置,其特征在于,所述混雜系數C (A ^ B)為E (A ^ B)與 E度^ B)的比,其中,所述E (A ^ B)為所述分子簇A的英光信號中屬于所述分子簇B中分 子英光標記的英光信號,所述E度^ B)為所述分子簇B的英光信號中屬于所述分子簇B中 分子英光標記的英光信號。13. 根據權利要求10的所述裝置,其特征在于,所述計算混雜系數模塊進一步用于,通 過下述公式計算所述混雜系數C (A ^ B): 0(八戶8)=日1'卵;[]1。江(14-。1[5)+11(。)); 其中,h (C)為預先設定的單調非減函數,Ia和I e為分子簇A和分子簇B在預先指定的 測序輪和測序頻道的英光信號,其中n為測序輪的數量,對測序輪數 j,r,為預先設定的函數,W ,為根據所有分子簇在第j輪測序中的英光信號計算出的標量或 是預先設定的常數,C為預定區間內的實數。14. 根據權利要求13的所述裝置,其特征在于,argmine(f (Ia-CIb)+h(c))通過使用分 位數法求f (lA-cIe)+h(c)的導函數零點的方法得到。15. 根據權利要求11的所述裝置,其特征在于,所述校正單元進一步用于,通過下述公 式計算校正過信號混雜的所述不同分子簇的英光信號所組成的矩陣Ii: C* Ii= 1〇; 其中在所述矩陣Ii中,每行的元素對應一個分子簇的英光信號,每列的元素對應一個 測序輪中一個頻道的所有分子簇的英光信號;所述C為由各個分子簇之間的混雜系數所組 成的矩陣;所述I。為需要進行所述校正的分子簇英光信號所組成的矩陣,在所述矩陣I。中, 每行的元素對應一個分子簇的英光信號,每列的元素對應一個測序輪中一個頻道的所有分 子簇的英光信號。16. 根據權利要求10的所述裝置,其特征在于,進一步包括: 預處理模塊,用于在計算所述不同分子簇的英光信號之間的混雜系數之前,采用預定 方式對輸入數據進行處理,所述預定方式包括W下至少之一: 校正光譜串色、校正相位失相、對原始圖像數據進行預處理生成分子簇的英光信號。17. 根據權利要求16的所述裝置,其特征在于,所述預處理模塊進一步包括: 圖像處理單元,用于對原始圖像數據進行預處理生成所述分子簇的英光信號;W及所 述圖像處理單元進一步包括: 校正子單元,用于校正存在光譜串色的頻道對應的圖像的光譜串色; 定位子單元,用于對所述校正過光譜串色的圖像進行分子簇定位操作, 其中,所述分子簇定位操作是指確定圖像中符合預定條件的分子簇,W及確定所述符 合預定條件的分子簇的坐標。18. 根據權利要求11的所述裝置,其特征在于,所述處理模塊進一步包括: 下游處理單元,用于根據所述校正單元校正過信號混雜的分子簇英光信號對分子簇中 分子的序列進行識別。
【文檔編號】G01N21/64GK105989248SQ201510061908
【公開日】2016年10月5日
【申請日】2015年2月5日
【發明人】李雷, 王博, 萬林
【申請人】中國科學院數學與系統科學研究院