專利名稱:毒素檢測系統和方法
技術領域:
本發明通常涉及毒素檢測,并且更具體地涉及一種開發用于基于從生物傳感器提 供的數據檢測毒素,尤其是在飲用水中的毒素的模型的系統和方法。
背景技術:
市政供水的純度一直是公民和其主管部門的相對高度優先考慮的事情。最近,雖 然不幸,關于有害化合物有目的的引入到市政供水已引起了關注。響應于這些關注,各種團 體,包括各種政府團體,已經開展計劃來開發檢測水中存在有害化合物的能力。各種發起者已經圍繞基于生物的傳感器諸如電細胞基質阻抗傳感器(ECIS)進行 開發。不幸的是,當暴露在相對低濃度的某些化合物時,ECIS的響應在統計上不能與暴露 到干凈水中顯著地區分。結果,尤其在相對低濃度值水平下,現有已知的用于處理來自ECIS 的數據的方法不能提供足夠高的靈敏度和足夠低的假陽性率。因此,需要用于檢測水中毒素的系統和方法,在暴露后盡早具有相對高的靈敏度 和低的假陽性率。本發明至少解決這一需要。
發明內容
在一示意性實施例中,一種對于在水中存在一種或多種毒素生成通用二元分類器 (generic binary classifier)的方法包括從多個標準化先驗(a priori)數據集中提取特 征,所述標準化先驗數據集包括一個或多個控制數據集和多個處理數據集。所述一個或多 個控制數據集表示對其中沒有毒素的水的電細胞基質阻抗傳感器(ECIS)響應,并且多個 處理數據集的每個表示對其中具有毒素的水的ECIS響應。利用提取的特征訓練多個分類 器算法,并且從每個訓練的分類器算法產生多個分類模型。評價每個分類模型,并基于每個 分類模型的評價選擇其子集。所選擇的分類模型的子集被提供作為通用二元分類器。在另一示意性實施例中,一種制造水中毒素檢測系統的方法,包括從多個標準化 先驗數據集中提取特征,所述標準化先驗數據集包括一個或多個控制數據集和多個處理 數據集。所述一個或多個控制數據集表示對其中沒有毒素的水的電細胞基質阻抗傳感器 (ECIS)響應,并且多個處理數據集的每個表示對其中具有毒素的水的ECIS響應。利用提取 的特征訓練多個分類器算法,并且從每個訓練的分類器算法產生多個分類模型。評價每個 分類模型,并基于每個分類模型的評價選擇其子集。處理器隨后被配置為運行至少所選擇 的分類模型的子集,并且ECIS被耦合至所述處理器。仍在另外一示意性實施例中,水中毒素檢測系統包括電細胞基質阻抗傳感器 (ECIS)和處理器。所述ECIS適于接收水流并配置為提供ECIS數據。所述處理器被耦合以
4接收ECIS數據并且實施通用二元分類器。所述通用二元分類器被配置為響應于ECIS數據 而確定水中是否存在毒素。由所述處理器實施的所述通用二元分類器是通過從多個標準化 先驗數據集中提取特征生成的,所述標準化先驗數據集包括一個或多個控制數據集和多個 處理數據集。所述一個或多個控制數據集表示對其中沒有毒素的水的電細胞基質阻抗傳感 器(ECIS)響應,并且多個處理數據集的每個表示對其中具有毒素的水的ECIS響應。利用 提取的特征訓練多個分類器算法,并且從每個訓練的分類器算法產生多個分類模型。評價 每個分類模型,并基于每個分類模型的評價選擇其子集。所選擇的分類模型的子集被提供 作為通用二元分類器。進一步,結合附圖和前面的背景技術,所述方法和系統的其它期望的特征和特性 將從隨后的詳細說明和所附的權利要求而變得明顯。
以下將結合下面的附圖描述本發明,其中相同的數字表示相同的部件,其中圖1描繪了根據本發明示意性實施例的水中毒素檢測系統的功能方塊圖;圖2以流程圖的形式描繪了用于產生由圖1的處理器實施的通用二元分類器的全 部過程;圖3以流程圖的形式描繪了預處理方法的示意性實施例;圖4以流程圖的形式描繪了特征提取過程的示意性實施例;圖5和6分別描述了圖4的用于控制數據集和處理數據集的特征提取過程的示意 性結果;圖7描繪了對于圖5和6示意性結果在早期時間段的局部結構的特寫(closeup) 表不;圖8以流程圖的形式描繪了示意性的構建和評估過程;和圖9以流程圖的形式描繪了通用分類器可以實施的過程。
具體實施例方式以下的詳細說明實質上僅僅是示意性的并且不意圖限定本發明或本發明的應用 和使用。另外,不意圖受在前面背景技術或下面的詳細說明中出現的任何理論的約束。另外應注意的是本發明的實施例可按照功能方塊圖表和各種處理步驟來描述。應 該意識到此類功能方塊可以多種不同形式的硬件,固件和/或配置為執行各種功能的軟件 部件實現。例如,本發明可以采用各種集成電路部件,例如儲存器元件,數字信號處理元件, 查找表等等,其可在一個或多個微處理器或其他控制設備的控制下執行多種功能。此類通 用技術對于本領域技術人員是公知的并且在此不再詳細描述。然而,應該理解所示出的示 意性過程可以包括額外的或更少的步驟或在更大的處理方案的情況下執行。另外,附圖或 說明書中出現的各種方法并不解釋為限制其中可以執行單獨的處理步驟的順序。應該意識 到在此所示和所述的特定實施方式是本發明的示例性說明及其最佳方式,并非意圖以任何 方式在其它方面限定本發明的范圍。首先參照圖1,描繪了水中毒素檢測系統100的示意性實施例,包括生物傳感器 102和處理器104。所述生物傳感器102優選的是電細胞基質阻抗傳感器(ECIS)。所述ECIS 102適于接收水流并被配置為提供ECIS數據。如通常所知的,ECIS包括相對小的電 極,所述電極具有在其表面上生長的細胞。由于其膜的絕緣特性,所述細胞響應于各種物理 現象中的變化而表現為阻抗變化。這些現象之一就是存在各種化合物。因此,從所述ECIS 傳感器102提供的ECIS數據表示響應于流過其的水中的毒素化合物濃度的變化的阻抗變 化。處理器104被耦合以從ECIS傳感器102接收ECIS數據,并且實施通用二元分類 器106。所述通用二元分類器106被配置為響應于ECIS數據確定水中是否存在毒素。由所 述處理器104實施的通用二元分類器106以相對高的靈敏度和相對低的假陽性率確定水中 存在或不存在一種或多種毒素。如此處所使用的,假陽性表示當一種毒素實際上不存在時 確定存在該毒素。根據即刻將要解釋的過程產生所述通用二元分類器106。然而,做此之前,需要注 意處理器104可以使用多種已知的通用微處理器和/或響應于程序指令工作的應用特定處 理器的任何一個或多個來實施。可以意識到處理器104可使用各種其他的電路而不僅僅是 可編程處理器來實施。例如,數字邏輯電路和模擬信號處理電路也可被使用。現在轉向圖2,以流程圖的方式描繪由處理器104實施的用于產生通用二元分類 器106的全部過程,并且現在將進行解釋。在如此做的過程中,應該理解的是下面段落中 的夾注指的是圖2中相同編號的流程方塊和全部順序參考的流程圖。如圖2描繪的,全部 過程200通過預處理原始先驗ECIS數據集(202)以產生標準化先驗數據集開始。隨后, 從所述標準化先驗數據集中提取特征(204),并且這些提取的特征用于訓練多個分類器算 法(206)。從訓練的分類器算法產生多個分類模型(208)。然后評估所述分類模型,并且基 于所述評估選擇分類模型的子集(212)。選擇的分類模型的子集用于實施通用二元分類器 106。現在將更詳細地描述這些處理步驟(202-212)中的每一個。在圖3描繪了如何實施原始先驗ECIS數據集的預處理(202)的示意性實施例。被 優選地首先執行的該過程(202),準備原始先驗ECIS數據集用于隨后的處理。在描述該過 程之前,需要注意原始先驗ECIS數據集包括來自各種實驗運行的一個或多個(優選多個) 控制數據集和多個處理數據集。所述控制數據集包括表示對其中沒有毒素的水的ECIS響 應的數據,并且多個處理數據集包括表示對其中具有毒素的水的ECIS響應的數據。通過取回每個原始先驗ECIS數據集(302)開始預處理(202),并確定原始先驗 ECIS數據集中的哪些是控制數據集(304)。那些為控制數據集的數據集被合并(306),然 后被標準化和校準(alighed)以用于隨后的處理(308)。應注意的是至少在所描繪的實 施例中,通用二元分類器106被實現為單一的、統一的毒素檢測模型以用于其中化學污染 物未知的環境中的普遍適用性。因此,所有處理數據集,無論化是合物種類或濃度,被組合 為單一的“類(class)”。這就是為什么類似于控制數據集一樣,將所有的處理數據集合并 (312),然后標準化和校準以用于隨后的處理(314)。然而可以意識到在一些實施例中,處理 數據集可根據特定的毒素和/或作為未知毒素單獨地分類。在此類實施例中,可通過毒素 類型(如果已知)和/或作為未知毒素單獨地預處理處理數據集。如圖3進一步所描繪的, 如果需要或期望,標準化的和校準的先驗ECIS數據集可以被保存為XML格式的文件(316, 318)。在任何情況下,標準化和校準的先驗ECIS數據集可以隨后被提供給在圖4中所描繪 的并且現在將被詳細描述的特征提取過程(204)。
6
從標準化和校準的先驗ECIS數據集中提取特征開始于首先加載標準化和校準 的先驗ECIS數據集(402)。隨后,如果需要,截斷加載的一個或多個ECIS數據集的時間 歷程(time histories) (404),從而使得每個ECIS數據集包含相同數目的數據點(data points) 0這其中保證了共同的采樣速率,并且還檢查了一致的時間單位。在ECIS數據集 被時間截斷以用于一致性之后,根據類型將ECIS數據集分類并且然后集合(aggregated) (406)。更具體地,每個ECIS數據集被分類為控制數據集,用于特定毒素的數據集,用于多 個毒素的數據集或用于未知毒素的數據集。然后根據分類將已分類的數據集集合到結構 中。結構內的集合數據被劃分成兩類(408),在此被稱作控制類(例如,不存在毒素) 和處理類(存在毒素)。然后,從劃分的數據中提取特征(412),并被優選地以屬性相關文 件格式(ARFF)保存在合適的文件中(414)。ARFF格式是優選的因為其與機器學習的某些 開發源程序庫的兼容性。在進一步處理之前,應該注意由于具有預處理過程(202),處理數 據集可根據特定(和/或未知)毒素被單獨地處理。進一步可以意識到提取的特定特征和所使用的特征提取算法可以變化。然而,在 特定的優選實施例中,使用時間序列特征提取算法的符號表示。根據該方法,在時間序列 的連續段(如,“時間倉(temporal bins) ”)構建幅度數據的局部直方圖。累積在這些時 間倉中的計數被用來表示規定時間段內的局部結構。如果該局部結構包括足夠的信息,則 所述結構可被用來訓練圖形識別算法(patternrecognition algorithm)。然后所訓練的 算法可用于預測隨后數據的類(如,存在毒素或不存在毒素)。該類型的特征提取算法的 實例被公開在標題為"A SymbolicRepresentation of Time Series, With Implications for Streaming Algorithms”的公開中,作者是J. Lin等,并且被公開在加利福尼亞(2003), 圣地亞哥,關于數據開采和知識開發的研究措施的第8屆ACM SIGMOD研討會會報中 (Proceedings of the 8thACM SIGMOD Workshop on Research Issues in Data Mining and KnowledgeDiscover, San Diego, CA(2003)) 此公開的全部在此通過參考而被引入。作為上述特征提取算法的例子,參考圖5和6,其分別描繪了用于控制數據集和處 理數據集的示意性結果。在圖5和6中,數據集被劃分成五個鄰近的時間序列段。矩形區 502,602表示用于聚集(assemble)局部結構直方圖的符號,線和點504,604為下面的時間 序列的標準化值。本發明人發現如圖7并排所示的早期時間段具有足夠不同的局部結構使 得在控制和暴露數據之間進行區分,從而促進了水中毒素的早期檢測。用于產生通用二元分類器106的分類器算法的訓練(206),分類模型的生成(208) 和分類模型的評估和選擇(212)在圖8中以流程圖的形式被描述作為單個構建與評估過程 800的一部分。所述構建與評估過程800訓練分類器算法(206),產生分類模型(208),并評 估和選擇分類模型(212)。所述選擇的分類模型為那些對控制數據集表現出相對低的FPR 性能(例如,FI^R <0.1%)的分類模型。所選的分類模型在此處被稱作被用作通用二分元 類器106的分類模型的子集。如圖8進一步所描繪的,儲存所選的分類模型(802)。可以意 識到用于實現該過程800的分類算法可有許多且是可變的。在一特定優選實施方案中,使 用了三個分類算法。這些是表決感知器(Voted Perceptron)算法,貝葉斯網絡(Bayesian Network)算法和支持向量機(Support Vector Machine)算法。產生的所述通用二元分類器106評估未知的ECIS數據來確定流過ECIS傳感器102的水中是否存在毒素。通用分類器106實施的過程900的實施例被描繪在圖9中并且 現在參照其進行描述。通用二元分類器106接收從ECIS 102提供的ECIS數據(902),并從 其中提取特征(904)。然后通用二元分類器106選擇模型的子集之一(906)并將提取的特 征應用到模型(908)。重復這些在前的步驟(908)直到提取的特征被應用到模型子集的每 一個模型(912)。在將提取的特征應用到每個模型后,確定每個模型的共識(consensus) (914)。更 具體地,利用每個模型的結果和預先確定的檢測閾值執實施簡單的表決方案。基于所確定 的共識,確定關于是否將ECIS數據分類為表示存在毒素或不存在毒素(916)。應該注意,如 果大量的模型指示存在毒素,則ECIS數據被分類表示存在毒素,否則數據被重新分類為表 示沒有毒素。在此描述的用于檢測水中毒素的系統和方法,在暴露后盡早具有相對高的靈敏度 和低的假陽性率。盡管在本發明的前述的詳細說明中公開了至少一個示意性實施例,然而應該意識 到還存在大量的變型。也應該意識到示意性實施例或多個示意性實施例僅是舉例,并不意 圖以任何方式限定本發明的范圍、應用或結構。而是,前述詳細說明為對于本領域技術人員 提供了用于實施本發明的示意性實施例的便利路線圖。可以理解的是可以在示意性實施例 中所描述的元件的功能和布置中作出各種改變而不偏離在附加權利要求書中所提出的本 發明的范圍。
權利要求
一種對于在水中存在一種或多種毒素生成通用二元分類器(106)的方法,包括以下步驟從多個標準化先驗數據集中提取特征(204),所述標準化先驗數據集包括一個或多個控制數據集和多個處理數據集,所述一個或多個控制數據集表示對其中沒有毒素的水的電細胞基質阻抗傳感器(ECIS)響應,所述多個處理數據集的每個表示對其中具有毒素的水的ECIS響應;利用提取的特征訓練多個分類器算法(206);從每個訓練的分類器算法產生多個分類模型(208);評價每個分類模型(208),并基于每個分類模型的評價(208)選擇其子集;提供所選擇的分類模型的子集(212)作為通用二元分類器(106)。
2.如權利要求1所述的方法,進一步包括預處理一個或多個原始先驗控制數據集和多個先驗原始處理數據集以由此產生多個 標準化先驗數據集。
3.如權利要求1所述的方法,其中提取特征的步驟基于時間序列算法的符號表示。
4.如權利要求1所述的方法,其中評價每個分類模型(208)的步驟包括 確定每個分類模型的假陽性率(FPR);和比較確定的FPR和預先確定的FPR閾值。
5.如權利要求4所述的方法,進一步包括如果確定的FPR小于預先確定的FPR閾值則 選擇分類模型作為所述子集的一部分。
6.如權利要求1所述的方法,其中評價每個分類模型的步驟包括 確定每個分類模型的真陽性率(TPR);和比較確定的Tra和預先確定的TPR閾值。
7.如權利要求6所述的方法,進一步包括如果確定的IPR大于預先確定的TPR閾值則 選擇分類模型作為所述子集的一部分。
8.一種水中毒素檢測系統(100),包括電細胞基質阻抗傳感器(ECIS) (102),所述電細胞基質阻抗傳感器適于接收水流并配 置為提供ECIS數據;和處理器(104),所述處理器被耦合以接收ECIS數據并且配置為實施通用二元分類器, 所述通用二元分類器(106)被配置為響應于ECIS數據而確定水中是否存在毒素,其中所述 通用二元分類器(106)通過以下生成從多個標準化先驗數據集中提取特征,所述標準化先驗數據集包括一個或多個控制數 據集和多個處理數據集,所述一個或多個控制數據集表示對其中沒有毒素的水的電細胞基 質阻抗傳感器(ECIS)響應,所述多個處理數據集的每個表示對其中具有毒素的水的ECIS 響應,利用提取的特征訓練多個分類器算法, 從每個訓練的分類器算法產生多個分類模型, 評價每個分類模型,并基于每個分類模型的評價選擇其子集, 提供所選擇的分類模型的子集被提供作為通用二元分類器。
9.如權利要求15所述的系統,其中所述通用二元分類器(106)將接收的ECIS提供給每個選擇的分類模型的子集;和基于來自所有選擇的分類模型的子集的輸出確定水中是否存在毒素。
全文摘要
本發明涉及毒素檢測系統和方法。提供了一種對于在水中存在一種或多種毒素生成通用二元分類器(106)的系統和方法。從多個標準化先驗數據集中提取特征(204),所述標準化先驗數據集包括一個或多個控制數據集和多個處理數據集,所述一個或多個控制數據集表示對其中沒有毒素的水的電細胞基質阻抗傳感器(ECIS)響應,所述多個處理數據集的每個表示對其中具有毒素的水的ECIS響應。利用提取的特征訓練多個分類器算法(206),并且從每個訓練的分類器算法產生多個分類模型(208)。評價每個分類模型(208),并基于每個分類模型的評價(208)選擇其子集。所選擇的分類模型的子集(212)被提供作為通用二元分類器(106)。
文檔編號G01N27/02GK101963590SQ201010214050
公開日2011年2月2日 申請日期2010年5月21日 優先權日2009年7月22日
發明者J·博克 申請人:霍尼韋爾國際公司