專利名稱:用于包括禽流感病毒檢測的數據分析和特征識別的方法和系統的制作方法
技術領域:
本發明在各種實施例中一般涉及數據分析領域,尤其涉及數字數據中的模 式和對象識別。
背景技術:
隨著計算機和計算機化技術的增長使用,數字表示的信息量已變得很龐 大。對這些大量數字數據的分析一般涉及己知模式的識別。
在許多情形中,起源于數字形式的信息最終通過人的人工審閱來分析,通 常需要大量的訓練。例如,醫療圖像分析典型地需要高水平的專家。為了使人 們與大量數據互動,信息典型地被轉換成視覺的、聽覺的或人類可覺察到的其 它表示形式。然而,在將數字數據從其原始形式轉換成方便的輸出形式的過程 期間,某些信息可能被丟失。數據通常在分析之前被處理和濾波以便展示,導 致從原始數據丟失有效信息。例如,超聲、地震以及聲納信號等數據最初都是 基于聲音的。其中每一個的數據被典型地處理成圖形形式用于顯示,但該處理 通常出于人們的可讀性而犧牲了基本的意義和細節。
雖然人們可被訓練以分析許多不同類型的數據,但人工手動分析一般比自 動化系統更昂貴。此外,錯誤通常由于人類感知和注意廣度的限制而被引入。 這些數據通常包含比人類感官能辨別的更多的細節,并且重復導致錯誤是公知 的。
為解決這些人力分析缺點,許多自動模式識別系統己被開發出來。然而,這些解決方案中的大多數都是高度因數據而異的。模式識別系統能夠處置的輸 入通常被設計為固定和有限的。在多數系統是根據在具體形態上使用來設計的
基礎上,許多系統固有地受設計限制。例如,醫療圖像分析系統在X光或MR
成像上表現良好,但對地震數據表現很差。反之亦然。評價數據的系統緊密地 與其被設計成要評價的特定數據源相耦合。因此,對寬范圍系統的改進是非常
困難的。
在每個系統內,模式和特征識別是處理密集的。例如,圖像分析一般使用 復雜的算法以找到形狀,要求數千個算法被處理。發現、開發以及實現每個算 法的時間導致在部署和改進該系統方面增加了延遲。
由此,在自動模式識別系統領域中仍有相當大的改進余地。
此外,大多數專家預測,在常規實踐下,禽流感未能被足夠快速地檢測出 來以防止會在今后幾年中襲擊世界的流感流行。當前,沒有對禽、其它動物或 人類快速篩選的方法。在流行的情況下,當前方法會要求大量有病理學專長的 人力來檢査血液或其它流體樣本以檢測和跟蹤禽流感。如此大量的有病理學專 長的人力是不能獲得的。
因此需要自動的禽流感病毒檢測系統和方法。
發明概述
此系統被設計成并不被任何具體形態或被開發該系統的那些人的有限知 識所限定。本發明提供一種自動化模式識別和對象檢測系統,該系統能為數據 內容使用最小數目的算法被快速開發和改進以完全地區別數據中的細節,同時 減少對人工分析的需要。本發明包括無需其適應特定應用、環境、或數據內容 就能在數據中識別模式和檢測對象的數據分析系統。該系統評價天然形式的數 據,其獨立于表示形式或處理后的數據形式。
在本發明的一方面,該系統分析來自全部數據類型內的任何或所有形態的 數據。示例數據形態包括成像、聲學、氣味、觸覺以及尚未發現的形態。在成 像范圍內,應用在藥學、國土安全、自然資源、農業、食品科學、氣象學、空 間、軍事、數字版權管理及其他領域中時存在靜止和移動圖像。在聲學范圍內, 應用在藥學、國土安全、軍事、自然資源、地質學、空間、數字版權管理及其他領域中時存在單個和多個信道音頻聲音、超聲波連續流、地震、聲納。其他 數字數據流的示例包括雷達、氣味、觸覺、金融市場和統計數據、機械壓力、 環境數據、味道、和聲學、化學分析、電推動、文本及其他。某些數據形態可 以是其他形態的組合,諸如有聲音的視頻或諸如對同一樣品采納不同類型的多
個圖像的單個形態的多種形式,例如互相關的MRI和CT成像;組合的SAR、 拍照和IR成像。在共同系統中作出的改進使所有形態都受益。
在本發明的其他方面,該系統使用相對較小數目的簡單算法,這些算法捕 捉數據元素之間更基礎的關系以標識數據內的特征和對象。此組有限算法可在 每種形態和多種形態中快速實現。
在本發明的再其他方面,該系統提供在天然數據的全分辨率上操作的自動
化系統。結果以及時方式產生,減輕了初步人工分析的乏味并且提醒操作員檢
査需要注意的數據組。
在本發明的其他方面,一種方法包括接收對應于第一生物樣品第一方面的
第一數據組,使用在對應于己知包含禽流感病毒的第二生物樣品一方面的第二 數據組上處理的第一系列算法的結果來分析第一數據組,通過在第一數據組上 運行第二系列算法為第一數據組生成算法值高速緩存,通過將該算法值高速緩 存與第一系列算法的結果進行比較生成匹配結果,以及基于所生成的匹配結果 執行處理動作。
在本發明的再其他方面,該系統包括用于對生物樣品中的禽流感病毒進行 數據分析和檢測的系統。
以下參照下列附圖來詳細描述本發明的優選和替換實施例。 圖1示出本發明的一個實施例的概覽;
圖2示出用于執行數據分析和特征識別系統的示例系統; 圖3示出用于使用數據分析和特征識別系統的示例方法; 圖4示出用于創建數據存儲的示例方法; 圖5示出用于創建已知特征的示例方法;
圖6示出用于通過訓練或不訓練修改突觸網絡的示例方法;絡; 絡; 絡;
圖7示出用于生成算法值高速緩存的示例方法; 圖8示出用于訓練已知特征的示例方法;
圖9示出用于從正和負訓練值組創建訓練路徑集合的示例方法; 圖10示出用于從訓練路徑集合移除負訓練值組的示例方法; 圖11示出用于從訓練路徑創建突觸路徑的示例方法; 圖12示出用于將突觸葉與已知特征相關聯的示例方法; 圖13示出用于不訓練已知特征的示例方法;
圖14示出用于使用一組算法值來檢索突觸網絡中的突觸葉的示例方法;
圖15示出用于將突觸葉與已知特征斷開關聯的示例方法;
圖16示出用于標識已知特征的示例方法;
圖17示出用于確定是否已找到已知特征的示例方法;
圖18示出用于評價群集和閾值檢測的示例方法;
圖19示出用于評價閾值檢測的示例方法;
圖20示出用于評價群集檢測的示例方法;
圖21示出用于處理對某區域標識出的已知特征的示例方法;
圖22示出用于執行已知特征動作的示例方法;
圖23示出灰度圖像數據的示例10 X 10像素陣列;
圖24示出包含均值算法的輸出的示例10x 10陣列;
圖25示出包含中值算法的輸出的示例10 X 10陣列;
圖26示出包含值展距算法的輸出的示例10 X 10陣列;
圖27示出包含標準偏差算法的輸出的示例10 x 10陣列;
圖28示出包含使用圖24-27中計算出的值的單條突觸路徑的示例突觸網
圖29示出包含使用圖24-27中計算出的值的兩條突觸路徑的示例突觸網
圖30示出包含使用圖24-27中計算出的值的許多突觸路徑的示例突觸網
圖31示出來自圖30的添加有下一條突觸路徑的示例突觸網絡,示出突觸 網絡可如何分支;圖32示出包含所有使用圖24-27中計算出的值的突觸路徑的示例突觸網
絡;
圖33示出結果得到具有多個已知特征的突觸葉的突觸路徑;
圖34示出一系列用于6 x 6灰度圖像的陣列;
圖35示出在設置數據存儲時的介紹屏幕的屏幕截圖36示出輸入一組初始值的屏幕截圖37示出展開的子形態組合框的屏幕截圖38示出一系列用于添加可任選的描述性參數的文本框的屏幕截圖39示出選擇目標數據區域形狀和為該形狀選擇一組算法的屏幕截圖40示出以前選擇的數據存儲性質的概覽的屏幕截圖41示出圖40中顯示的概述的延續-,
圖42示出完成數據存儲的創建之后的示例應用的屏幕截圖; 圖43示出灰毗鄰像素目標數據區域的算法的屏幕截圖; 圖44示出"創建或編輯已知特征"向導的屏幕截圖; 圖45示出為已知特征選擇名稱和檢測方法的屏幕截圖46示出來自圖45的展開的組合框的屏幕截圖47示出用于已知特征的訓練計數值的屏幕截圖48示出用于已知特征的群集范圍值的屏幕截圖49示出已知特征的動作值的屏幕截圖50示出以前選擇的己知特征性質的概覽的屏幕截圖51示出具有所選擇的感興趣地區的森林圖像的屏幕截圖52示出訓練向導介紹屏幕的屏幕截圖53示出從數據存儲中選擇森林作為已知特征的屏幕截圖54示出選擇區域訓練選項的屏幕截圖55示出以前選擇的訓練性質的概覽的屏幕截圖56示出訓練結果的屏幕截圖57示出有森林區域的圖像的屏幕截圖58示出訓練圖57中的圖像的結果的屏幕截圖59示出用于已知特征處理的向導的屏幕截圖;圖60示出用戶可能想處理的已知特征列表的屏幕截圖; 圖61示出已知特征的有效性值的屏幕截圖62示出對于單個處理運行可任選忽略的訓練計數值的屏幕截圖; 圖63示出對于單個處理運行可任選忽略的群集值的屏幕截圖; 圖64示出以前選擇的處理性質的概覽的屏幕截圖; 圖65示出處理結果的屏幕截圖66示出用綠色層顯示系統標識為森林的像素的圖像的屏幕截圖67示出有森林層的復合圖像的屏幕截圖68示出為森林已知特征處理的第二圖像的屏幕截圖69示出用綠色層顯示系統標識為己知特征森林的像素的圖像的屏幕截
圖70示出有森林層的復合圖像的屏幕截圖71示出選擇了水面的圖像的屏幕截圖72示出使用以前選擇的水面的訓練結果的屏幕截圖73示出有森林和水面兩者的圖像的屏幕截圖74示出以前選擇的處理性質的概覽的屏幕截圖75示出處理結果的屏幕截圖76示出水面層的屏幕截圖77示出有森林層和水面層兩者的復合圖像的屏幕截圖78是根據本發明實施例形成的對禽流感病毒進行數據分析和檢測的系 統的框圖;以及
圖79和80例示說明處理前和處理后的病毒的圖像。
優選實施例的詳細描述
雖然參考諸如圖像數據和音頻數據等的具體數據類型來描述數據分析和 特征識別系統的下列實施例和示例中的幾個,但本發明并非被限定于對這些數 據類型的分析。本文中描述的系統和方法可用于識別數據組或可在可量化數據 存儲中表示的任何其它信息集合中的離散特征。
本文中描述的數據分析和特征識別系統的實施例一般涉及數字數據流的分析和組織以學習和重復識別數據內的模式和對象。數字數據流可以是模擬源 到數字形式的轉換。在某些實施例中,系統使用的數據組織結構涉及用于描述 所定義對象的要素的互連數據字段的網絡(本文中稱為"突觸網絡")。
在例如圖1中所示的一個實施例中,數據分析和特征識別系統被配置成接 受包含已知和預先標識的特征"X" 81 (例如,已知模式、形狀或對象)的源
數據組80。該系統被一般配置成使得用戶能夠"訓練"(82)該系統識別該已 知特征"X"。此訓練通過執行多個算法以分析(83)表示特征"X"的數據 從而標識定義該特征的特性的多組值來完成。定義特征"X"的幾組值隨后存 儲(84)在本文中稱為"突觸網絡"85的組織性結構中,其由通過多條"突觸 路徑"互連的多個"突觸葉"組成。
一旦對于已知特征該系統已被訓練,可向系統展示包含一組未知特征87 的新數據組86。該系統可被配置成接受用戶請求88以使用相同的多個算法來 分析(89)該新數據組的選擇部分,并將結果與突觸網絡85中存儲的信息進 行比較(卯)以標識該新數據組中包含的任何己知特征(諸如特征"X"、或 任何以前訓練過的其他特征)。 一旦在新數據組中找到已知特征,該系統就可 通知(91)用戶已知特征已被標識的事實和/或該系統就可向用戶展示(92)已 知特征的表示(例如,以圖形圖像的形式、可聽到的聲音、或任何其它形式)。
如本文中所使用的,術語"數據存儲"表達其本意,并且在本文中一般用 于指至少能夠暫時存儲數據的任何軟件或硬件單元。在幾個實施例中,本文所 稱的數據存儲包含由多個突觸網絡表示的多個已知特征,每個突觸網絡包含由 突觸路徑聯結的多個突觸葉,如以下進一步例示說明的。
如本文中所使用的,術語"目標數據元素"(TDE)指被使用算法來評估 特性的給定介質中較大數據組的離散部分。目標數據元素可以是適合特定類型 的數據的任何尺寸。例如,在一組圖形數據中,TDE可由單個像素組成,或其 可包括局部化的像素群或任何其它離散像素群。在幾個實施例中,不管其大小, TDE是在移動到下一個TDE之前在單個離散步驟中被評價的"點"。
如本文中所使用的,"目標數據區域"(TDA)是緊圍著目標數據元素的 數據的集合。TDA的尺寸和形狀取決于被評價的數據或介質的類型可變化。 TDA的尺寸和形狀定義可用于算法執行的計算的數據點。如本文中所使用的,使用術語"已知特征"來指表示在訓練期間已知在特 定數據組中存在的條目、對象、模式、或其它可離散定義的信息片段的數據元 素。在處理時,系統為一個或以上以前定義過的已知特征搜索新數據組。
如本文中所使用的,術語"突觸網絡"是指在有根的固定深度樹的實現中 用于存儲關于離散特征、模式、對象或其他已知數據組的信息的組織性結構。 突觸網絡有利地允許關于已知特征的信息被很快添加,并允許未知數據組被很 快評價以標識其中包含的任何已知特征。
如本文中所使用的,術語"突觸葉" 一般是指表示由用于到達葉的一組算 法值標識出的多個已知特征的突觸網絡中的終端節點。
如本文中所使用的,術語"突觸路徑"是指來自所有這些算法的多個值。 突觸路徑被用于基于對目標數據元素的計算到達突觸葉。
如本文中所使用的,"訓練事件"是通過創建或更新突觸路徑和突觸葉將 多個算法值與已知特征相關聯的過程。
如本文中所使用的,術語"算法"表達其本意,并且不限于指結果得到離 散"值"的任何系列可重復步驟。例如,算法包括任何數學計算。在幾個實施 例中,對與以前定義的目標數據區域相關的目標數據元素執行各種算法以產生 單個有意義的值。
如本文中所使用的,術語"命中檢測"是指基于將處理期間遭遇的突觸路 徑與對某已知特征訓練過的任何路徑相匹配來確定該已知特征是否存在于測 試數據組中的方法。
如本文中所使用的,術語"群集檢測"是指基于命中檢測和對目標數據元 素的預定義"群集距離"內指定數目的附加命中的檢測兩者來確定已知特征是 否存在于測試數據組中的方法。
如本文中所使用的,術語"群集距離"是指一個或以上用于評價目標數據 元素的用戶定義的距離規格。群集距離可指實際物理距離,或可表示離散數據 元素之間的數學關系。
如本文中所使用的,術語"閾值檢測"是指基于命中檢測和命中檢測中使 用的突觸路徑作為已知特征己被訓練的次數兩者來確定該已知特征是否存在 于測試數據組中的方法。如本文中所使用的,術語"正訓練值組"是指在被訓練成用戶定義的已知 特征的數據區域中的幾組算法值。
如本文中所使用的,術語"負訓練值組"是指在被訓練為用戶定義的已知 特征的數據的區域外的幾組算法值。
如本文中所使用的,術語"區域訓練"是指在訓練事件中使用的過程,其 中在正訓練值組中找到的每組算法值都被用于為該已知特征生成突觸路徑。
如本文中所使用的,術語"相對調整的訓練"是指在訓練事件中使用的過 程,其中在負訓練值組中找到的每組算法值使正訓練值組內找到的一組匹配算 法值無效。隨后可使用其余正訓練值組為該已知特征生成突觸路徑。
如本文中所使用的,術語"絕對調整的訓練"是指在訓練事件中使用的過 程,其中在負訓練值組中找到的每組算法值使正訓練值組內找到的算法值匹配
的所有組無效。隨后可使用其余正訓練值組為該己知特征生成突觸路徑。
如本文中所使用的,術語"形態"以其本意使用,并且一般是指可被處理
的數字數據的各種不同形式或格式中的一種。例如,圖像數據表示一種形態, 而音頻數據表示另一種形態。除描述符合一種或以上人類感知形態的數據類型 外,該術語還旨在涵蓋與人類感知可能只有很少或沒有關系的數據類型和格 式。例如,金融數據、人口統計數據和文學數據在本文中使用時也表示該術語 意義內的形態。
如本文中所使用的,術語"子形態"是指形態的子分類。在某些實施例中, 子形態是指用于數據的能夠影響如何處理該數據的應用或源之一。例如,X光 和衛星攝像是成像的子形態。來自不同廠商(諸如通用電氣或西門子)的用于 產生X光圖像的系統在其將被描述成不同子形態的數據格式方面明顯不同。
圖2示出用于執行數據分析和特征識別系統的示例系統100。在一個實施
例中,系統100包括單個計算機101。在替換實施例中,系統100包括與多個 其它計算機103通信的計算機101。在替換實施例中,計算機101被連接到多 個計算機103、服務器104、數據存儲106和/或諸如內聯網或因特網等的網絡 108。在又一替換實施例中,可使用服務器排、無線設備、蜂窩電話和/或另一 數據輸入設備來代替計算機101。在一個實施例中,數據存儲106存儲數據分 析和特征識別數據存儲。該數據存儲可本地存儲在計算機101上或存儲在任何遠程位置但可被計算機101檢索。在一個實施例中,應用程序由服務器104或
計算機101運行,其隨后創建該數據存儲。計算機101或服務器104可包括訓 練已知特征的應用程序。例如,計算機101或服務器104可包括標識數字介質 中以前定義的已知特征的應用程序。在一個實施例中,該介質是圖像數據中的 一個或以上像素或聲音記錄中的一個或以上樣本。
圖3示出根據本發明的實施例形成的方法。在框112處,創建數據存儲, 其將在以下圖4和5中更詳細地描述。在框114中,訓練已知特征。以下關于 圖6-15更詳細地描述該訓練。在框116處,標識出已知特征,其將在圖16-20 中更詳細地描述。在框118處,執行已知特征動作,其將在圖20中進一步例 示說明。
圖4示出用于創建數據存儲的示例方法(框112)。該方法(框112)在 框120處通過指派多個數據存儲性質開始。在一個實施例中,數據存儲性質包 括形態和子形態。在每個形態內,有多個子形態。在一個實施例中,在框122 處創建已知特征,其將在圖5中進一步例示說明。在一個實施例中,在框124 處指派目標數據區域。在一個實施例中,選擇目標數據區域。對于成像形態的 一個示例目標數據區域是圍繞目標像素的近鄰和遠鄰像素的模式。在一個實施 例中,在框126處選擇目標數據區域算法。在框128處,將數據存儲106保存 到計算機101或網絡108。框120、 122以及124與126的組合可按任何次序執 行。
圖5示出用于創建已知特征的示例方法(框122)。在框140處,用戶輸 入已知特征的名稱。在一個實施例中,在框142處,用戶向該已知特征指派一 種用于檢測的方法。在一個實施例中,該檢測方法可被選擇為命中檢測。在一 個實施例中,可使用群集檢測。在一個實施例中,可使用閾值檢測。在一個實 施例中,可使用群集和閾值檢測。在一個實施例中,在框144處,可為通知找 到已知特征的方法選取處理動作。在一個實施例中,用戶可不選擇動作,執行 系統聲音、或涂抹多個像素。框140、 142和144可按任何次序執行。
圖6示出用于通過訓練或不訓練修改突觸網絡的示例方法(框114)。在 一個實施例中,該方法在框150處以生成算法值高速緩存開始,其在圖7中進 一步描述。在一個實施例中,該方法在框152處當用戶選擇已知包含要被訓練的特征的數據區域時開始。在框153處,檢索正訓練值組。在一個實施例中,
在框154處,作出關于用戶是否正在執行經調整的訓練的判定。如果是,則在 框156處,檢索負訓練值組。在一個實施例中,在框158處作出關于用戶是否 正在訓練或不訓練已知特征的判定。如果在訓練,則在框159處訓練該己知特 征,其將在圖8中進一步例示說明。在一個實施例中,在框160處,向用戶給 出顯示被添加和更新的獨特突觸路徑的數目的報告。如果不在訓練,則不訓練 己知特征,其將在圖13中進一步解釋。在一個實施例中,在框162處,向用 戶報告被移除的獨特突觸路徑的數目。框150和152可按任何次序執行。框153 以及154與156的組合可按任何次序執行。
在某些境況下,用戶能夠很好地調諧感興趣地區的限制可能導致某些正訓 練值組實際上包含用戶知曉其不是他/她希望訓練的數據部分。這些情形由經調 整的訓練來處置,其可由用戶選擇。靜止圖像中感興趣地區之外的這一區域經 常是用戶不想作為已知特征來訓練的背景或普通區域。通過標識負訓練值組, 來自感興趣地區(正訓練值組)內的實際上不是用戶希望作為己知特征來訓練 的特征的那些算法值組可被移除。
圖7示出用于生成算法值高速緩存的示例方法(框150)。在一個實施例 中,算法值高速緩存由存儲以前選擇的算法的數字結果的陣列組成。該方法(框 150)在框170處以該方法檢索數據中的第一個TDE開始。在框176處,在 TDE的TDA上計算算法值。在框180處,將該算法值存儲在該TDE的算法值 高速緩存中。在框174處,作出該數據中是否有更多TDE可用的判定。如果 是假,則在框172處,完成該算法高速緩存。如果為真,則在框178處,檢索 下一個TDE并且處理返回到框176。
圖8示出用于訓練已知特征的示例方法159。方法159在框190處開始, 在此檢索已知特征用于訓練并且建立訓練突觸路徑陣列。在框192處,從正和 負訓練值組發展出訓練突觸路徑陣列。在框194處,創建并遵循新突觸路徑。 在框196處,將突觸路徑與已知特征相關聯,其將在圖12中進一步解釋。在 框202處,作出關于訓練路徑陣列中是否有更多條目的判定。如果是,則返回 至框194。如果否,則在一個實施例中,更新訓練計數。在一個實施例中,在 框200處,分序突觸葉。在框204處,該方法(框159)完成。框190和192可按任何次序執行。
圖9示出用于從正和負訓練值組開發訓練突出路徑陣列的示例方法(框
192)。在框210處,檢索訓練類型以及正和負訓練值組。在框212處,將正 訓練值組指派給訓練陣列。在框214處,作出關于用戶是否正在執行經調整的 訓練的判定。如果是,則在框216處,從訓練陣列中移除負訓練值組,其將在 圖10中進一步解釋。在框218處,開發訓練突觸路徑完成。
圖10示出用于執行調整訓練的示例方法(框216)。在一個實施例中, 相對和/或絕對調整訓練都是可用的。在框220處,從各負訓練值組之一中選擇 突觸路徑。在框222處,作出訓練類型是否是絕對調整訓練的判定。如果是, 則在框226處,從訓練陣列中移除與當前突觸路徑匹配的所有突觸路徑。如果 否,則在框228處,從訓練陣列中移除與當前突觸路徑匹配的一條突觸路徑。 在框230處,選擇下一條突觸路徑,并且如果不再有突觸路徑,則在框218處, 該方法返回到圖9,即框216。
圖11示出用于創建和跟隨突觸路徑的示例方法(框194)。在框240處, 該過程將當前節點設置到突觸網絡的根節點。在框242處,選擇突觸路徑中的 算法值。在框244處,作出關于當前節點對于當前算法值是否有下一個節點鏈 接的判定。如果是,則在框248處將當前節點設置到該下一個節點。如果否, 則在框246處創建新節點;用當前算法值將當前節點鏈接到該新節點。在框248 處,當前節點被設置到該下一個節點。在框250處,選擇下一個算法值。在框 252處,結果所得突觸葉被返回給圖8中的框194。
圖12示出用于將突觸路徑與已知特征相關聯的示例方法(框196)。在 框260處,將當前突觸葉設置到從圖11返回到圖7的框194的突觸葉。在框 266處,作出關于當前突觸葉是否包含被訓練的已知特征的索引值的判定。如 果是,則在框268處更新當前突觸葉命中計數。如果否,則在框270處,作出 關于當前突觸葉是否具有下一個突觸葉的判定。如果是,則在框276處將當前 突觸葉設置到該下一個突觸葉。如果否,則在框272處,創建包含被訓練已知 特征的索引的新突觸葉,并將其鏈接到當前突觸葉。在框280處,該過程返回 到圖7中的框196。
圖13示出用于不訓練已知特征的示例方法(框161)。在框320處,檢索不訓練的已知特征和多個正訓練值組。在框322處,選擇當前值組。在框324 處,跟隨該當前正訓練值組的突觸路徑。在框326處,測試該突觸路徑看其是 否存在。如果是,則在框328處將該突觸路徑與已知特征斷開關聯。如果否, 則在框330處前進到下一組正訓練值。 一旦所有正訓練值組已被評價,則在框 332處,返回到圖6中的框161。
圖14示出用于跟隨突觸路徑以基于一組算法值來標識葉的示例方法(框 324)。在框340處,將當前節點設置到突觸網絡的根節點。在框342處,為 用于當前節點的算法從突觸路徑中選擇算法值。在框344處,作出關于當前節 點對于當前算法值是否有下一個節點鏈接的判定。如果是,則在框346處將當 前節點設置到該下一個節點。在框348處,選擇下一個算法值。如果不再有算 法值,則在框350處,在突觸路徑結束處返回突觸葉。如果否,則在框352處, 該突觸路徑不存在。該過程返回至圖13的框324。
圖15示出用于將突觸路徑與已知特征斷開關聯的示例方法(框328)。 在框360處,將當前突觸葉設置到由圖14返回到框324的突觸葉。在框362 處作出關于當前突觸葉是否包含該已知特征的索引值的判定。如果是,則在框 364處移除該葉。如果否,則在框365處作出關于當前突觸葉是否具有下一個 葉的判定。如果是,則將當前突觸葉設置到該下一個葉并且該過程被重復。如 果否,則該過程在框370處返回到圖13中的框328。
圖16示出用于標識己知特征的示例方法(框116)。在一個實施例中, 在框390處生成算法值高速緩存。(參見圖7)在框392處,在當前數據中選 擇一個區域。在框393處,選擇第一個TDE。在框394處,作出該TDE是否 在所選擇區域中的判定。如果是,則在框398處,如果可用就從算法值高速緩 存中檢索該TDE的算法值;如果不可用,就為該TDE計算算法值。在框400 處,用這些算法值來査詢數據存儲。(參見圖14)在框404處作出對于這些算 法值的路徑是否存在的判定。如果是,則在框406處確定該匹配是否是已知特 征的命中,其在圖17中進一步解釋。如果否,則在框402處檢索下一個TDE。 如果從框394為否,則在框396處返回標識出的已知特征。框390和392可按 任何次序執行。
圖17示出用于確定巳知特征是否是葉命中的示例方法(框406)。在框420處,對于為該葉找到的已知特征中的每一個執行下列處理。在框426處, 檢査該特征看是否有用戶選擇它用于標識。如果是,則在框428處,檢查該特 征看命中方法是否被設置為命中檢測。如果在框428處為否,則在框434處, 檢查該特征看命中檢測方法是否被設置為閾值。如果在框434處為否,則在框 440處,檢査該已知特征看已知特征命中方法是否被設置為群集化。如果在框 428處為是,則在框430處,將該已知特征添加到為當前一組算法值標識的特 征列表中。如果從框434為是,則在框436處針對閾值命中檢查該已知特征, 其在圖19中進一步解釋。如果從框400為是,則在框442處執行對群集化命 中的檢査,其在圖20中進一步解釋。如果從框440為否,則在框444處系統 檢查群集化和閾值命中,其在圖18中進一步解釋。在框436、 442和444處, 對于命中返回的數據或為真或為假。在框438處,分析該返回值以確定在此位 置是否有命中。如果是,則在框430處,將該已知特征添加到當前一組算法值 的已標識特征列表中。如果否,則在一個實施例中,在框424處確定該方法是 否僅處理最顯著的已知特征。如果是,則該方法完成;如果否,則在框422或 框426處,檢査是否有與當前葉相關聯的附加已知特征。如果是,則前進到框 420;如果否,則該方法現在完成并且通過框432返回至圖16中的框406。
圖18示出用于檢查群集化和閾值命中的示例方法(框444)。在框450 處,該方法執行對閾值命中的檢查。在框452處,檢査是否找到閾值命中。如 果否,則該方法前進到框459。如果是,則該方法前進至框454。在框454處, 該方法執行對群集化命中的檢査。在框456處,檢查是否找到群集化命中。如 果否,則該方法前進到框459。如果是,則該方法前進至框458。在框458處, 在閾值和群集化處理中檢測到命中,且因此將真返回給圖17中的框444。在框 459處,在閾值或群集化處理之一中未檢測到命中,且因此將假返回給圖17 中的框444。框450和452以及454與456的組合可按任何次序執行。
圖19示出用于檢查閾值命中的示例方法(框436)。在框460處,系統 檢測看是否設置了處理閾值。如果是,則在框462處,作出對突觸葉的已知特 征命中計數是否在處理最小值與最大值之間的判定。如果是,則在框468處返 回真;如果否,則在框466處返回假。如果從框460為否,則在框464處檢查 該已知特征以確定對突觸葉的命中計數是否在已知特征最小值與最大值之間。如果是,則在框468處返回真;如果否,則在框466處返回假。
圖20示出用于檢査群集化命中的示例方法(框442)。在框470處,系 統檢測看是否設置了處理群集距離。如果否,則在框472處,該方法用已知特 征群集距離執行群集化檢査。如果是,則在框474處,用處理群集化距離來執 行群集化檢査。隨后在框476處,作出檢査看是否找到群集。如果是,則在框 478處返回真。如果否,則在框480處返回假。
圖21示出用于處理對某區域標識出的已知特征的示例方法(框118)。在框 492處,檢索在所選擇區域中的第一個TDE。在框496處,檢査該TDE以確 定其是否在該所選擇區域之內。如果否,則處理動作完成。如果是,則在框500 處檢索對該TDE標識出的特征列表。在框501處,對該特征列表執行動作。 這一旦完成,就在框502處檢索下一個TDE。
圖22示出一個實施例中用于對已知特征列表執行動作的示例方法(框 501)。該方法(框501)在框503處開始。在框503處,將當前已知特征設置 到TDE列表中的第一個已知特征。在框504處,檢査已知特征動作以確定該 動作是否為聲音。設置已知特征動作曾在圖5中例示說明。如果是,則在框506 處,系統確定該聲音以前是否已被播放過至少一次。如果從框506為否,則在 框508處播放由己知特征動作數據指定的聲音。如果從框504為否,則在框510 處檢查該已知特征動作以確定其是否為涂抹。如果是,則按照該已知特征動作 數據設置該TDE的圖像色彩。在框511處,作出檢査看TDE列表中是否存在 更多己知特征。如果是,則將當前已知特征設置到下一個已知特征(框515), 并且該方法在框504處繼續。如果否,則該方法在框513處返回。其他實施例 需要的附加動作或動作組合是可能的。這些動作可按任何次序來檢査和執行。
圖23是10 x 10像素圖像的示例陣列600。像素的X坐標由諸行604中的 數字來表示。像素的Y坐標由諸列602中的數字來表示。在一個實施例中,陣 列600內示出的數字是該10 x IO像素圖像的原始灰度值。示出的數字是使用 包括圍繞目標像素的八個像素的毗鄰像素TDA使用預先選擇的算法來操縱的 數字。在此示例中,選取的算法為均值、中值、值展距和標準偏差。進一步, 圖24-34示出圖3中描述的訓練已知特征的示例。
圖24示出對毗鄰像素TDA使用均值算法的10 x 10像素圖像的示例陣列605。如陣列605中所示,第一行和最后一行609被打上了陰影,并且第一列 和最后一列607被打上了陰影。這些區域被打上陰影是因為它們不包含必要的 劃界像素。第一個有效像素——所有側都被另一像素界定的第一個像素——是 (2,2),并且該算法結果所得為153。結果153將在圖28開始被進一步使用。
圖25示出對毗鄰像素TDA使用中值算法的該10 x 10像素圖像的示例陣 列610。該算法為第一個有效像素結果所得為159。結果159將在圖28開始被 進一步使用。
圖26示出對毗鄰像素TDA使用值展距算法的該10 x 10像素圖像的示例 陣列620。該算法為第一個有效像素結果所得為217。結果217將在圖28開始
被進一步使用。
圖27示出使用標準偏差算法的該10 x 10像素圖像的示例陣列630。該算 法為第一個有效像素結果所得為64。結果64將在圖28開始被進一步使用。
圖28示出在一個實施例中包含根據圖24-27中計算出的第一有效像素值 形成的單條突觸路徑的示例突觸網絡640。為153的第一值(642)來自第一算 法(縮寫為ALG)(圖24像素2, 2處)。因此,642顯示153,計數l。計 數1表示在訓練期間第一算法具有結果153的次數。第二節點644示出第二算 法(圖25像素2, 2處)為159的結果。因此,644顯示159,計數1。第三節 點646示出第三算法(圖26像素2, 2處)為217的結果。因此,646顯示217, 計數1。第四節點648示出第四算法(圖27像素2, 2處)為64的結果。因此, 648顯示64,計數l。隨后此突觸路徑通向包含已知特征(縮寫為KF) 1的突 觸葉。這是首次此突觸路徑已被創建,且因此計數也為1,參見框650。在此 示例中,突觸葉640是該突觸網絡中的第一突觸葉。
圖29示出在一個實施例中包含使用圖24-27中計算出的值的兩條突觸路 徑的示例突觸網絡660。突觸葉664曾在圖28中示出和描述。突觸葉666表示 來自圖24-27中所示每個表的像素(2, 3)的算法值。因此,在分析兩個像素之后, 有兩條不同的標識同一 己知特征的突觸路徑。
圖30示出在一個實施例中使用圖24-27中計算出的值的示例突觸網絡 670。從圖24-27中所示各表計算出的值表示像素(2,2)到(3,4)。這些值在各行 內從左到右被采納。在計算中的此時,來自第一算法的值沒有重復;因此,對于每個計算的像素,全新的突觸路徑和新的突觸葉被添加到該突觸網絡。
圖31示出在一個實施例中使用圖24-27中計算出的值的示例突觸網絡 720。在突觸網絡720中,有在722處示出的重復值。第一算法值151在(2, 8) 和(3,5)兩處找到,因此將該位置處的計數增大到等于2。在722處,該突觸路 徑分裂,因為從第二算法檢索到不同值。對該組值生成新突觸路徑的一部分和 新突觸葉。
圖32示出在一個實施例中使用圖24-27中計算出的值的示例突觸網絡 730。此示例示出在732、 734和736處第一算法值重復的更被填充的突觸網絡 730。這些重復顯示出在突觸網絡中的任何節點都可形成新分支并且將形成新 突觸路徑。如節點732中所示,有三個仍得到同一己知特征的分歧結果。圖32 進一步演示訓練已知特征之后被完全填充的突觸網絡可能看起來像什么的圖 形表示。
圖33示出結果得到具有多個已知特征742的突觸葉的突觸路徑740。當 多個已知特征與突觸路徑相關聯時,這些特征被存儲在按特征的命中計數來排 序的分序列表中。最經常與突觸模式相關聯的已知特征在該列表中首先出現, 后面是按命中計數降序排列的其他已知特征。在平局的情形中,第一個與該突 觸路徑相關聯的已知特征將首先出現。
圖34示出一系列對于6x6黑白圖像的陣列。該頁面頂部的陣列示出該圖 像中所有像素的亮度值。下一陣列680示出向頂陣列應用毗鄰像素TDA的均 值算法的結果。陣列690示出向頂陣列應用毗鄰像素TDA之后中值算法的結 果。陣列700示出向頂陣列應用毗鄰像素TDA之后值展距算法的結果。陣列 710示出向頂陣列應用毗鄰像素TDA之后標準偏差算法的結果。作為示例, 陣列680-710的結果被應用到圖32中的突觸網絡。來自陣列680的(2, 2)中所 示的結果所得值為164。現在參考圖32,在圖32中的突觸網絡732處的第一 節點中找到值164。接下來,使用在(2,2)處找到的值——值152,圖32中顯示 跟隨164的下一個節點為152。因此,前兩個值沿著己知突觸路徑。沿著此突 觸路徑并且陣列700和710中(2, 2)處的值表明在像素(2, 2)處,該突觸網絡中 被訓練的已知特征存在匹配。
在圖35-37中,屏幕截圖表示界面的一個示例;存在無限的替換。圖35是在設置數據存儲時的介紹屏幕的屏幕截圖800。這顯示向導802 的介紹,其將引導用戶通過此應用中的各步驟來創建和/或編輯數據存儲。此圖 中還示出一系列選項卡804。這些選項卡示出用戶在該向導內的位置。右上角 是提供關閉和退出向導802的能力的按鈕。在該屏幕截圖的底部是執行取消的 選項按鈕808、執行回退的選項按鈕810、執行到下一步的選項按鈕812以及 執行完成的選項按鈕814。以上描述的一般布局是在大多數屏幕截圖中盛行的。
圖36是示出輸入定義數據存儲的初始值的屏幕截圖。選擇選項卡"必需" 804,示出在此應用中必要的一組值。在此階段,用戶正標識將被處理的數字 數據的類型。形態組合框820包含一系列指定數字數據流的格式的形態。子形 態組合框822包含一系列指定信息的使用或形態的具體應用的子形態。記錄由 復選框824表示。
圖37示出顯示展開的子形態組合框822的屏幕截圖。子形態組合框822 已被展開,以在一個實施例中示出當前已對兩維圖像形態作了設置的子形態的 可配置列表。此組合框822向用戶示出之前選擇的數字數據形式內的多個子分 類,以使得用戶能夠處理一個形態內數字數據的差別。
圖38是示出此應用中一系列用于添加可任選的描述性參數的文本框的屏 幕截圖。"任選"選項卡已被選中。可使用來自此屏幕截圖的信息來分類通過 網絡接收和存儲的數據存儲。在文本框830中輸入廠商名稱。在文本框832中 輸入機器類型。在文本框834中輸入該機器類型的型號。在文本框836中輸入 訓練者的姓名。在文本框838中描述數據存儲的使用。
圖39是允許選擇TDA形狀和為該形狀選擇一組算法的屏幕截圖。"目標 數據形狀"選項卡804被選中。組合框840允許用戶選擇目標數據形狀以確定 如何緊圍該TDE收集數據。在一個實施例中,選擇"灰毗鄰像素"。在一個 實施例中,選擇算法的過程通過選取TDA形狀開始。在圖39的情形中,選取 的TDA形狀是中心像素為該TDE的9像素的正方形(此處稱為"灰毗鄰像素", 因為所有的其余數據元素都接觸該TDE)。接下來,選取一組三個算法。在此 示例中,使用算法2、算法3和算法4 (算法可簡單或復雜)來提取將在突觸 網絡內的訓練中使用的數據。應注意在此示例中,突觸網絡用來訓練和處理的 是這三個算法的結果的組合,而非單個算法。在此點處,選擇該圖像中包含其內容將在訓練中使用的圖像部分的一個區 域(如圖51中所示)。此區域被稱為選擇區域。有了該選取的選擇區域,系
統就使TDA移步到該選擇區域上,使TDE在該選擇區域中的第一像素處。在 此位置,對該TDA運行選取用于訓練的該組三個算法。算法2 (各TDA值的 均值)將TDA中全部像素的值相加并將該總和除以像素數目9,結果得到TDA 的均值。此平均值被輸入到突觸網絡中供其在訓練會話中使用,如在突觸網絡 節中所描述的。算法3 (各TDA值的中值)確定該TDA中全部9個像素的中 間值。此中間值被輸入到突觸網絡中供其在訓練會話中使用,如在突觸網絡節 中所描述的。算法4 (TDA值的展距)確定該TDA中全部9個像素的最低像 素值和最高像素值。其隨后從最高值中減去最低值,得到該TDA值的展距。 此展距被輸入到突觸網絡中供其在訓練會話中使用,如在突觸網絡節中所描述 的。在此點,系統使TDA形狀移步一個位置,在此TDE現在是下一個具有8 個毗鄰像素的像素。對此新TDA運行同一組三個算法并且結果輸入到突觸網 絡中供其使用。系統將每次使TDA移步一個位置并運行該組算法,直到該選 擇區域中的全部像素都已成為TDE。以上用于訓練的過程類似于標識過程。為 標識使用與訓練相同的TDA形狀和算法。選取選擇區域并且TDA在該選擇區 域中移位,并在每個新點都運行該組算法。在此點,這些算法的結果并不被突 觸網絡用于訓練,而是與已知特征進行比較以用于標識。
設計用戶可用的算法以分析圍繞目標像素的區域的可能特性。某些示例是 諸如相加或值展距等的算術算法,或諸如標準偏差等的統計算法。對于某些 TDA形狀,可開發考慮該形狀的幾何的其他算法。例如,可實現用于2D成像 的算法,當圍繞目標像素的特定像素在已知值之上時其將位值設為1,由此創 建反映圍繞目標像素的相鄰像素的從0到255的數字。算法類型和對于給定范 圍的輸入值返回的值范圍是用戶考慮對于給定過程選取哪些算法來選擇時的 因素。例如,值的展距和總和幾乎在任何應用中都是有用的,而相鄰像素算法 可能只在期望高對比度并且已知或期望像素的具體定向的圖像處理中有用。在 大多數實施例中,單個算法一般不足以標識特征;使用算法值的組合來學習和 /或標識特征。
圖40是示出以前選擇的數據存儲性質的概覽的屏幕截圖。概述選項卡804已被選中,表示此屏幕向用戶顯示他/她的全部設置的概述。該屏幕允許用戶通 過按下"完成"按鈕或通過選擇"后退"按鈕編輯他/她的特征來確認他/她的
全部選擇。此表中顯示的是形態被設為2D成像851。子形態被設為X光852。 記錄被選擇為真854。圖41示出顯示圖40中向下滾動的表850的屏幕截圖。 圖41中進一步示出的是選擇了 "灰毗鄰像素"TDA的目標數據形狀860以及 選擇了7的算法數目862。
圖42示出完成數據存儲的創建之后的應用的屏幕截圖。作為向導(圖 35-41)的結論,向用戶顯示屏幕900。屏幕卯0包含本領域公知的菜單欄910、 一組圖標914以及査閱多個數據存儲的區域912。打上陰影的區域926可顯示 用戶可用來訓練這些數據存儲并標識不同特征的一組圖片。在區域916中,顯 示由用戶在該點作出的選擇的列表。在一個實施例中,有用于2D成像的一個 數據存儲918。 一組己知特征若被定義就存儲在已知特征文件夾920中。在924 處顯示"灰毗鄰像素"TDA。
圖43是示出TDA 924的展開的屏幕截圖。如圖43中所示,TDA 924現 在被展開以示出可聯合TDA使用的可能算法。在此應用中,被選擇的算法具 有表示它們已被選擇的填滿框。
圖44是示出"創建或編輯已知特征"向導950的屏幕截圖。向導950中 是一組選項卡952。"開始"選項卡被選中,表示這是對向導的介紹。此向導 將引導用戶通過此應用中的步驟來創建和編輯已知特征,參見區域954。
圖45是示出"創建或編輯已知特征"向導的"標識"選項卡952的屏幕 截圖。文本框960包含該已知特征的名稱。在一個實施例中,用戶輸入描述該 已知特征的名稱;在此示例中輸入了 "森林"。組合框962示出用戶選擇的命 中檢測的方法。復選框964允許用戶確定在已找到該特定特征的首次出現后該 過程是否應該停止。用戶可選擇復選框964——如果僅為找出該已知特征的實 例,諸如在食物安全應用中食物樣品中的雜質。圖46是示出來自圖45的組合 框962的展開的屏幕截圖。標識方法組合框962包含用于確定特征將被如何標 識的方法。
圖47是示出"創建或編輯已知特征"向導的"訓練計數"選項卡952的 屏幕截圖。用戶可選擇表示已知特征在訓練期間必須與突觸路徑相關聯的最少次數的閾值以滿足用戶需要。通過增大該閾值,用戶可確保在處理中只使用具 有比該閾值更高數目的實例的循環路徑,由此給予該特征的最終標識更高級別 的置信度。還可選擇極限值并且其包含表示已知特征在訓練期間已與該突觸路 徑相關聯的最多次數的值。使用滑動標度970來表示閾值數字,并且使用滑動
標度974來表示極限數字。
圖48是示出"創建或編輯已知特征"向導的"群集范圍"選項卡952的 屏幕截圖。此選項卡允許用戶選擇系統將在每個維度上離已知特征被標識的 TDE多遠尋找該相同巳知特征的其他出現。在一個實施例中,維度組合框980 包含兩維的X和Y選擇。滑動標度982表示維度值,而滑動標度984表示群 集計數。為每個維度指定不同的群集范圍允許用戶說明數據的特性。例如,如 果圖像的垂直標度與水平標度不同,則用戶可向該范圍輸入調整值來得到期望 的群集區域。
圖49是示出"創建或編輯己知特征"向導的"動作"選項卡952的屏幕 截圖。用戶可選擇已知特征被標識時要執行的動作。組合框990包含動作列表; 在此應用中,可能的動作是播放系統聲音、涂抹像素以及無動作。在一個實施 例中,用戶可選擇聲音以在數字數據中找到該已知特征時提醒用戶。用戶可選 擇涂抹以在選擇的數字數據中標識該已知特征被標識的那些區域。
圖50是示出"創建或編輯已知特征"向導的"概述"選項卡952的屏幕 截圖。在此表中,行IOOO中示出已知特征森林的名稱被選擇。行1002中示出 檢測方法是命中檢測。在行1004處,閾值被設為l。行1006中示出極限被設 為2,147,483,647。行1008中示出群集范圍被設為X: 0, Y: 0,群集計數1。行 1010中示出檢測動作被設為涂抹。行1012中示出數據被設為森林綠色。
圖51是示出具有所選區域1028的森林的圖像1020的屏幕截圖。此屏幕 的布局曾在圖42中描述過。屏幕900還包含加載到系統1030中的其他圖片的 較小"縮略圖"。基于光標定位示出鼠標位置和色彩值1022,這在本領域中是 常見的。列出圖片1020的各層1026。所選區域1028是用戶已設為感興趣地區 的、并且將在圖52-56中作為已知特征森林來訓練的部分。
圖52是示出"已知特征訓練"向導的"開始"選項卡1110的屏幕截圖。 訓練向導將引導用戶通過各步驟來訓練所選擇的已知特征。在此點,用戶將調用以前設立的已知特征并且在一段數字數據上標識該已知特征以訓練系統。
圖53是示出"已知特征訓練"向導的"已知特征"選項卡1110的屏幕截 圖。有示出第一數據存儲的列表1120。該列表包含已知特征水面1124和已知 特征森林1122。水面和森林兩者都設立在"創建或編輯已知特征"向導中。在 此示例中,選擇森林1122。如果打開了多個數據存儲,則用戶可選取訓練多個 數據存儲中的已知特征。
圖54是示出"已知特征訓練"向導的"方法"選項卡1110的屏幕截圖。 訓練方法的四個選項旁有一系列單選按鈕區域訓練1130、不訓練1132、絕 對調整訓練1134或相對調整訓練1136。在此點,用戶選擇對于所選形態、子 形態和樣品質量最佳的訓練方法。
圖55是示出"已知特征訓練"向導的"概述"選項卡1110的屏幕截圖。 該表包含已知特征1140的數目,其在此示例中為1。在此示例中,訓練方法為 區域訓練,參見行1142。
圖56是示出訓練結果的屏幕截圖。在用戶選擇圖55中的完成按鈕后,該 數據存儲根據用戶的選擇被訓練。表1210示出結果。所選數據存儲為 "SyntelliBasel"(應用指派給數據存儲并可由用戶修改的默認名稱),被訓 練的已知特征為森林,并且找到的新數據模式的數目為30,150。找到的新數據 路徑的數目為0。找到的己更新數據模式的數目為0。用戶可選擇不查看結果 概述。
新模式和已更新模式是作為使用以上在圖23-33中所示的過程對圖51中
的圖像的所選區域中的像素值執行以上在圖39中選擇的算法的結果而生成的。 對于每個像素的諸算法值都被計算出來并作為集合采納;那些值生成與該網絡
中的已知特征相關聯的數據模式。在該圖像的所選區域內,實際區域可能包含 樹木、灌木以及其他植被的分類。所找到的30,150個模式反映了來自這些不同 材料的算法值,并且所有這些模式都與已知特征"森林"相關聯。
圖57是示出有森林區域和水面區域的圖像的屏幕截圖。森林由較亮的陰 影區域表示,而水面由較暗的陰影區域表示。圖57與圖51相關,因為加載了 相同的圖片。然而,現在選擇了不同的圖片1252。圖片1252示出選擇了森林 的區域,所選區域用黑色線條示出。這是用戶已定義的區域,在此示例中,作為已知將成為已知特征"森林"的區域。
圖58是示出訓練圖57中所選區域的結果的屏幕截圖。該訓練事件添加了 8,273個新數據模式并更新了 2,301個數據路徑。
對此圖像的訓練過程使用圖23-33中示出的過程對圖57中的圖像的所選 區域生成諸模式。以前有2,301個模式與該已知特征相關聯,并且這些關聯被 更新了。以前有8,273個數據模式未與該已知特征相關聯,而這些關聯被創建 了。
圖59是示出"已知特征處理"向導的"開始"選項卡1310的屏幕截圖, 其引導用戶通過此應用中的各步驟來處理所選擇的已知特征。該向導允許用戶 使用以前訓練過的已知特征來處理一段新的數字數據以確定該已知特征是否 存在。
圖60是示出"已知特征處理"向導的"已知特征"選項卡1310的屏幕截 圖。表1320示出包含訓練數據的全部數據存儲。在此示例中,行1322中示出 的SyntelliBasel是可用的。用戶可檢査或不檢查該特定數據存儲內用戶想標識 的任何或全部列出的已知特征。在此示例中,選擇了森林。
圖61是示出"已知特征處理"向導的"有效性"選項卡1310的屏幕截圖。 用戶可任選地忽略有效性處理選項。選項按鈕1330允許標識對于具體數據點 已訓練過的任何已知特征,而選項按鈕1332標識最經常訓練的已知特征。在 某些情形中,可在任何給定數據點標識多個已知特征。第一選項允許所有那些 已知特征都被標識。第二選項只允許最經常與給定數據模式相關聯的特征被標 識。
圖62是示出"已知特征處理"向導的"訓練計數"選項卡1310的屏幕截 圖。用戶可任選地忽略用于處理的訓練計數值。示為滑動標度1340的閾值值 是已知特征在將被標識的訓練期間必須與突觸路徑相關聯的最少次數。示為滑 動標度1342的極限值是已知特征在將被標識的訓練期間可與突觸路徑相關聯 的最多次數。
圖63是示出"已知特征處理"向導的"群集范圍"選項卡1310的屏幕截 圖。用戶可任選地忽略群集范圍值。組合框1350允許用戶選擇特定維度。在 兩維圖像中,組合框1350可包含X維和Y維。在滑動標度1352上選擇維度值。在滑動標度1354上選擇群集計數。
圖64是示出"已知特征處理"向導的"概述"選項卡1310的屏幕截圖。 值包括已知特征的數目1360、閾值超控1362、極限超控1364、有效性超控1366 以及群集范圍超控1368。
圖65是示出處理結果概述的屏幕截圖。處理結果概述示出遭遇已知特征 森林的31,556個模式中有一個或以上發生了 131,656次,并且執行了涂抹一個 或以上像素涂抹森林綠色的已知特征動作。這些數據模式是使用以上對圖34 討論的過程并使用圖39中用戶選擇的算法來生成的。這些算法是,并且必須 是在以上圖56和58中用于訓練的相同算法。當相同的算法組被執行并且返回 相同的一組值時,就產生與訓練中產生的一樣的數據模式,并且與該數據模式 相關聯的巳知特征被標識。在圖65的處理中,有131,656個像素被標識為已知 特征"森林",因為產生的31,556個數據模式匹配與該已知特征相關聯的數據 模式。用于標識出的已知特征森林的層被添加到該圖像中。這進一步在圖66 中示出。
圖67是示出處理結果的屏幕截圖。圖像1420包含131,656個應被涂抹為 森林綠色的像素,因為它們在處理中被標識為森林。
圖68是示出第二圖像的處理的屏幕截圖,再次尋找已知特征森林。在該 處理中使用的數據存儲1402是SyntelliBasel。使用總共17,999個數據模式, 已知特征森林1404被找到89,818次。已知特征動作1406會將森林涂抹為"森 林綠色"。因為這些圖像是黑白的,會被涂抹為森林綠色的像素打印成黑色。
圖69是示出有已知特征森林層的圖像1430的屏幕截圖,該已知特征森林 層顯示應用已標識為森林的像素。該圖像中森林綠色的實心塊示出訓練在圖57 中所選區域上發生的區域。該區域完全被標識為森林,因為用戶選擇了該區域 并向應用指示該區域為森林。
圖70是示出復合圖像的屏幕截圖,該復合圖像包含原始圖像圖57和圖 69中示出的應用標識出森林的層。
圖71是示出有所選水面區域的圖像1450的屏幕截圖。
圖72是示出將圖71中的選擇訓練為已知特征水面的結果的屏幕截圖。該 選擇的訓練添加了 l個數據模式。在圖71中,在所選區域中的像素是統一的。當對所選區域中的像素執行以上圖34中選擇的算法時,單個數據模式就是結 果。
圖73是示出對于某圖像的森林和水面兩者已知特征的處理的屏幕截圖。 通過選擇森林和水面兩者(1512),用戶要求系統在處理期間標識出這兩個特 征。
圖74是示出用戶為處理圖71中圖像已提供或已選擇值的概述的屏幕截 圖。在此示例中,行1522中示出所選擇的已知特征的數目為2。行1524中示 出閾值超控為0。行1526中示出極限超控為100,000。行1528中示出有效性超 控為使用為TDE訓練過的任何已知特征。行1530中示出群集范圍超控被設為 X:0, Y:0,群集計數0。
圖75是示出圖74中處理設置的概述的屏幕截圖。在此圖像中,行1542 中示出使用的數據存儲為SyntelliBasel。行1544中示出使用被訓練成森林的 17,999個數據模式,已知特征森林被找到89,818次。行1546中示出已知特征 動作會將標識出的像素涂抹為森林綠色。行1548中示出使用被訓練成水面的1 個數據模式,已知特征水面被找到45,467次。行1550中示出已知特征動作會 將標識出的像素涂抹為藍色。在一個實施例中,系統不會移除以前指定的全部 數據,而實際上是其每次處理時都處理"全部"數據。
圖76是示出在該圖像中找到的水面層的屏幕截圖。圖像1570示出找出為 水面并涂抹為藍色的像素;然而在這些圖像中,水面表示為黑條紋。
圖77是示出顯示原始圖像、水面和森林的復合圖像的屏幕截圖。圖像1580 示出水面被標識成藍色的區域和森林被標識成森林綠色的區域。在此圖像中, 示出水面、黑色森林區域和未被標識的白色斑點之間的對比。應注意區域1590 并未被標記為水面。該區域在原始圖像76中出現為水面,但處理系統已檢測 到指示其不是像該圖像的其余部分那樣的水面的特性。其很可能是淺水或岸線區域。
在未示出的一個實施例中,任何顯示出來的未被標識的反常(以前被訓練 過的特征)都被涂抹以將它們與已訓練特征區別開來。
在再一個實施例中,視覺或聽覺警報可以是與已知特征相關聯的功能。由 此,在數據組的分析期間,如果找到以前已知的特征就會觸發警報。圖78是根據本發明實施例形成的對禽流感病毒進行數據分析和檢測的系
統1700的框圖。在一個示例實施例中,系統1700包括存儲器1710、存儲在存 儲器1710中的數據存儲1712,其包含在對應于已知包含在一個示例實施例中 為H5N1菌株的禽流感病毒的第一生物樣品一方面的第一數據組上處理的第一 系列算法的處理結果。系統1700還包括用戶接口 1714、與用戶接口和存儲器 1710進行數據通信的處理器1722、以及存儲在存儲器1710中并可由處理器 1722執行的軟件模塊1724。在示例實施例中,用戶接口 1714包括顯示器1716、 鍵盤1718以及諸如計算機鼠標等的定點設備1720。然而,在其他實施例中, 用戶接口可包括比圖示中那些更少或更多的組件。在一個示例實施例中,系統 1700被構成并以與關于圖1和2描述的系統類似的方式起作用。
在示例實施例中,軟件模塊1724包括第一組件,其被配置成在對應于第 二生物樣品一方面的第二數據組上運行第二系列算法以生成算法值高速緩存。 軟件模塊還包括被配置成將算法值高速緩存與第一系列算法的處理結果進行 比較以生成匹配結果的第二組件,以及被配置成基于所生成的匹配結果執行處 理動作的第三組件。在示例實施例中,第一系列算法和第二系列算法包括關于 與圖23-33關聯描述的示例提及的諸算法中的至少一個,和/或對禽流感病毒的 特征標識以與關于圖34描述的示例類似的方式執行。
在示例實施例中,第一和第二數據組分別對應于第一和第二生物樣品的數 字照片。第一和第二生物樣品可包括例如血液樣品、淚腺液樣品、唾液樣品、 排泄物樣品、口腔液樣品、頂泌液樣品、汗腺液樣品、或粘液樣品中的至少一 種。在示例實施例中,數字照片是以放大級別拍攝的并且具有允許與禽流感病 毒傳染相關聯的細胞變異被觀察到的分辨率。還可在其他放大級別和分辨 率——諸如在例如允許禽流感病毒成分被觀察到的放大級別和分辨率級 別一拍攝其他照片。在示例實施例中,第一和/或第二生物樣品來自禽類。在 另一示例實施例中,第一和/或第二生物樣品來自人類。
系統1700還可任選地包括具有與存儲器1710進行數據通信的數字成像組 件1726的顯微鏡1721。在其他實施例中,數字成像組件1726是與處理器1722 而非與存儲器1710進行數據通信。系統1700還可任選地包括有線網絡接口 1728和/或無線網絡接口 1730,用于通過有線或無線網絡(未示出)與遠程用戶或服務器(未示出)進行通信。網絡接口 1728、 1730在某些實施例中用于 將測試結果傳送給現場技術員、病理學家、和/或專門的政府或政府間機構。在 示例實施例中,系統1700是便攜式系統。
盡管出于清楚而未示出,但在某些實施例中,處理器1722包括被配置成 標識對應于第二生物樣品一方面的第二數據組中的禽流感病毒,該組件包括第 一、第二、和第三子組件。在示例實施例中,第一子組件被配置成通過在第二 數據組上運行第二系列算法為第二數據組生成算法值高速緩存。第二子組件被 配置成通過將所生成的算法值高速緩存與在第一數據組上處理的第一系列算 法的結果進行比較來生成匹配結果。第三子組件被配置成基于所生成的匹配結 果來執行處理動作。
雖然出于清楚而未示出,但在示例實施例中,被配置成生成算法值高速緩 存的第一子組件包括第一、第二、第三、和第四子單元。第一子單元被配置成 檢索第二數據組中的第一目標數據元素。第二子單元被配置成在檢索到的第一 目標數據元素的目標數據區域上處理第二系列算法。第三子單元被配置成指導 第一子單元和第二子單元檢索第二數據組中的附加目標數據元素并在檢索到 的附加目標數據元素的目標數據區域上處理第二系列算法。第四子單元被配置 成存儲處理過的第二系列算法的結果以生成算法值高速緩存。
在示例實施例中,第一數據組是通過與較早關于圖3-15展示的方法類似 的方式訓練系統1700來創建的。通過使用以某些方式諸如通過放大生物樣品 并且拍攝經放大樣品的數字圖像感測到的第一生物樣品(未示出)來訓練該系 統。在示例實施例中,拍攝第一生物樣品的數字圖像,并且通過使用戶將被病 毒感染的細胞和/或病毒成分標識為要使用在該數字圖像上運行的算法來訓練 的特征來訓練該系統,以生成突觸網絡。生成的突觸網絡隨后被存儲在數據存 儲1712中。
在突觸網絡已作為第一數據組被存儲在數據存儲1712中之后,對應于第 二生物樣品一方面的第二數據組可被系統1700分析,以確定禽流感病毒是否 存在于與第二數據組對應的第二生物樣品中。第二數據組可用許多不同方式來 生成。在示例實施例中,第二數據組是使用第二生物樣品的數字圖像數據來生 成的。使用在第一數據組上處理的第一系列算法的結果來分析第二數據組。在分析第二數據組中,系統1700通過在第二數據組上運行第二系列算法為第二
數據組生成算法值高速緩存,并隨后通過將生成的算法值高速緩存與在第一數 據組上運行的第一系列算法的結果進行比較來生成匹配結果。在示例實施例 中,第二系列算法與第一系列算法相同。該系統隨后基于所生成的匹配結果來 執行處理動作。在示例實施例中,第二生物樣品中的禽流感病毒特征的標識是
以類似于關于圖16-20描述的方式來執行的。
在某些實施例中,處理動作包括通過使用視覺和/或聽覺指示器來通知用 戶有匹配。在其他實施例中,處理動作包括通過有線或無線網絡來通知遠程用 戶和/或服務器該匹配結果。處理動作還包括在某些實施例中將匹配結果存儲在 存儲器1710中。如果有線或無線網絡不可用于將匹配結果傳輸到遠程用戶, 所存儲的匹配結果在以后有線或無線網絡變得可用時被傳送給遠程用戶。其他 實施例包括一個或多個傳感器(未示出)用于感測與第二生物樣品相關的信息, 諸如與第二生物樣品相關聯的條形碼或射頻標識(RFID)標簽。在示例實施例 中,處理動作以類似于關于圖21和22描述的方式來執行。
在示例實施例中,系統1700是自動化檢測系統,其使第二系列算法被預 先編程到系統1700中,使得用戶不需要通過用戶接口 1714來選擇它們。用戶 簡單地將包含第二生物樣品的載玻片插入到顯微鏡1721的掃描組件(未示出) 中,并且系統1700使用數字成像組件1726執行圖像捕捉,接著使用第二系列 算法執行數據分析,并通過將第二系列算法的結果與數據存儲1712中第一系 列算法的結果進行比較以獲得匹配結果來執行對禽流感病毒存在的特征檢測。 在示例實施例中,系統1700是手持式系統,如果需要,其允許分析和檢測可 發生在遠程地點,或更易允許在多個地點檢測,諸如到某國家的入口點、從某 國家的出口點、以及諸如在醫院或農場上等其他地點。在一個實施例中,在三 個或以上地點中使用檢測技術被用于通過在某國家的全部入口或出口港以及 在諸如醫院或農場等至少一個其他地點中使用檢測器來使禽流感傳播最小化。
在某些實施例中,第二生物樣品在被系統1700處理之前先用一種或多種 方法來制備。例如,第二生物樣品在某些實施例中被污染了,并在其他實施例 中使用一種或多種化學或生物試劑處理過。在一個實施例中,第二生物樣品是 使用試驗片、載玻片、和/或另一可置換的采樣方法獲得的。示例實施例還包括下列生物采樣和檢測方法中的至少一種離子電滲療法、紅外測量、使用高強 度光成像、X光成像、磁共振成像、超聲波或其他聲學成像、以及激光成像。 其他實施例包括下列技術中的至少一種來生成第二數據組后催化劑反應測 量、光譜測量、酶促反應、色譜、熒光成像、細胞振動信息、諧振數據、以及 氣味傳感器。
圖79是包括H5N1菌株細胞1802的拍攝圖像1800。圖80是將圖像1800 根據以上描述的突觸網絡生成方法處理后生成的圖像1804。也已將圖像1804 與其他病毒細胞(非H5N1菌株細胞)進行過比較。比較結果包括H5N1菌株 細胞獨有的特征1808 (即不包括在其他病毒細胞中)的信息。在彩色顯示中, 特征1808用獨特色彩顯示出來以將它們與其他成分區別開來。對應于特征 1808的突觸網絡部分可分開存儲并用于以后與其他原始樣品的圖像進行比較。
盡管例示說明和描述了本發明的優選實施例,但是如以上所提到的,可作 出許多修改而不會脫離本發明的精神和范圍。例如,取代包括具有數字成像組 件的顯微鏡,可使用其他感測裝置來收集對應于第二生物樣品一方面的數據。 相應地,本發明的范圍并不被優選實施例的公開所限定。而是應代之以完全通 過參考所附權利要求來確定本發明。
權利要求
1. 一種用于對第一生物樣品中的禽流感病毒進行數據分析和檢測的方法,包括接收對應于第一生物樣品一方面的第一數據組;使用在對應于已知包含禽流感病毒的第二生物樣品一方面的第二數據組上處理的第一系列算法的結果來分析所述第一數據組,其中分析所述第一數據組包括通過對所述第一數據組運行第二系列算法生成所述第一數據組的算法值高速緩存;通過將所述生成的算法值高速緩存與所述第一系列算法的結果進行比較生成匹配結果;以及基于所述生成的匹配結果執行處理動作。
2. 如權利要求1所述的方法,其特征在于,接收第一數據組包括接收對 應于第一生物樣品以放大級別拍攝的并且具有允許與禽流感病毒傳染相關聯 的細胞變異被觀察到的分辨率的數字照片的第一數據組,并且其中分析所述第 一數據組包括使用在對應于已知包含禽流感病毒的第二生物樣品的數字照片 的第二數據組上處理的第一系列算法的結果,其中所述第二生物樣品的數字照 片具有允許與禽流感病毒傳染相關聯的細胞變異被觀察到的分辨率。
3. 如權利要求l所述的方法,其特征在于,接收第一數據組包括接收對 應于第一生物樣品以放大級別拍攝的并且具有允許禽流感病毒成分被觀察到 的分辨率的數字照片的第一數據組,并且其中分析所述第一數據組包括使用在對應于已知包含禽流感病毒的第二生物樣品的數字照片的第二數據組上處理 的第一系列算法的結果,其中所述第二生物樣品的數字照片是以放大級別拍攝 的并且具有允許禽流感病毒成分被觀察到的分辨率。
4. 如權利要求1所述的方法,其特征在于,接收對應于第一生物樣品一方面的第一數據組包括接收對應于下列各項中至少一項的第一數據組所述生 物樣品的數字照片、所述生物樣品已用染色劑處理后的生物樣品的數字照片、 所述生物樣品已被暴露于諸如化學或酶試劑等的試劑后的生物樣品的數字照 片、所述生物樣品的X光、使用MRI技術的生物樣品的圖像、所述生物樣品 的超聲波圖像或與所述生物樣品相關的諧振信息。
5. 如權利要求1所述的方法,其特征在于,所述第二系列算法包括所述第一系列算法,并且其中生成算法值高速緩存包括a) 檢索所述第一數據組中的第一目標數據元素;b) 在所述檢索到的第一目標數據元素的目標數據區域上處理所述第 二系列算法;C)對所述第一數據組中的多個目標數據元素重復a)和b);以及d)存儲所述經處理的第二系列算法的結果以生成所述算法值高速緩存。
6. 如權利要求1所述的方法,其特征在于,已知所述第二生物樣品包含 禽流感病毒的H5N1菌株。
7. 如權利要求l所述的方法,其特征在于,所述第一生物樣品是來自鳥 類的生物樣品。
8. 如權利要求l所述的方法,其特征在于,所述第一生物樣品是來自人 類的生物樣品。
9.如權利要求1所述的方法 括血液樣品、淚腺液樣品、唾液樣其特征在于, 、排泄物樣品所述第一和第二生物樣品包 、口腔液樣品、頂泌液樣品、汗腺液樣品或粘液樣品中的至少一種。
10. —種用于對生物樣品中的禽流感病毒進行數據分析和檢測的系統,包括存儲器;存儲在所述存儲器中的數據存儲,其包含在對應于已知包含禽流感病 毒的第一生物樣品一方面的第一數據組上處理的第一系列算法的處理結 果;用戶接口;與所述用戶接口和所述存儲器進行數據通信的處理器;以及 用于存儲在所述存儲器中可由所述處理器操作的軟件模塊,所述軟件 模塊包括第一組件,其被配置成在對應于第二生物樣品一方面的第二數 據組上運行第二系列算法以生成算法值高速緩存;第二組件,其被配置成將所述算法值高速緩存與所述第一系列 算法的處理結果進行比較以生成匹配結果;以及第三組件,其被配置成基于所述生成的匹配結果執行處理動作。
11. 如權利要求IO所述的系統,其特征在于,所述第一和第二數據組分 別對應于所述第一和第二生物樣品的數字照片,所述數字照片以放大級別拍攝 且具有允許與禽流感病毒傳染相關聯的細胞變異被觀察到的分辨率。
12. 如權利要求IO所述的系統,其特征在于,所述第一和第二數據組分 別對應于所述第一和第二生物樣品的數字照片,所述數字照片以放大級別拍攝 且具有允許禽流感病毒成分被觀察到的分辨率。
13. 如權利要求IO所述的系統,其特征在于,所述系統是進一步包括用 于放大所述第二生物樣品的顯微鏡的便攜式系統,所述顯微鏡具有與所述存儲 器進行數據通信的數字成像組件,用于生成經放大的第二生物樣品的數字圖像 并將所述生成的數字圖像作為所述第二數據組存儲在所述存儲器中。
14. 如權利要求10所述的系統,其特征在于,已知所述第一生物樣品包含禽流感病毒的H5N1菌株。
15. 如權利要求10所述的系統,其特征在于,所述系統包括有線或無線 組網組件中的至少一種,并且其中所述軟件模塊的第三組件被配置成通過有線 或無線網絡中的至少一種向遠程用戶或遠程服務器中的至少一者發送基于所 述生成的匹配結果的信號。
16. 如權利要求IO所述的系統,其特征在于,所述第一和第二生物樣品 包括血液樣品、淚腺液樣品、唾液樣品、排泄物樣品、口腔液樣品、頂泌液樣 品、汗腺液樣品或粘液樣品中的至少一種。
17. —種用于對生物樣品中的禽流感病毒進行數據分析和檢測的系統,包括數據存儲,其被配置成包含在對應于已知包含禽流感病毒的第一生物 樣品一方面的第一數據組上處理的第一系列算法的處理結果; 用戶接口;以及與所述數據存儲和所述用戶接口進行數據通信的處理器,所述處理器包括配置成標識對應于第二生物樣品一方面的第二數據組中的禽流感病毒的組件,所述組件包括第一子組件,其被配置成通過在所述第二數據組上運行第 二系列算法為所述第二數據組生成算法值高速緩存;第二子組件,其被配置成通過將所述生成的算法值高速緩 存與在第一數據組上處理的第一系列算法的結果進行比較來生 成匹配結果;以及第三子組件,其被配置成基于所述生成的匹配結果執行處 理動作。
18. 如權利要求17所述的系統,其特征在于,所述被配置成生成算法值高速緩存的第一子組件包括第一子單元,其被配置成檢索第二數據組中的第一目標數據元素; 第二子單元,其被配置成在所述檢索到的第一目標數據元素的目標數據區域上處理第二系列算法;第三子單元,其被配置成指導所述第一子單元和所述第二子單元檢索所述第二數據組中的附加目標數據元素,并在所述檢索到的附加目標數據元素的目標數據區域上處理第二系列算法;以及第四子單元,其被配置成存儲所述經處理的第二系列算法的結果以生成算法值高速緩存。
全文摘要
用于對對應于生物樣品一方面的數據組中的禽流感病毒進行自動化模式識別和檢測的系統和方法。該方法包括接收對應于第一生物樣品第一方面的第一數據組,使用在對應于已知包含禽流感病毒的第二生物樣品一方面的第二數據組上處理的第一系列算法的結果來分析第一數據組,通過在第一數據組上運行第二系列算法為第一數據組生成算法值高速緩存,通過將該算法值高速緩存與第一系列算法的結果進行比較生成匹配結果,以及基于所生成的匹配結果執行處理動作。
文檔編號G06F19/00GK101416192SQ200780012199
公開日2009年4月22日 申請日期2007年2月14日 優先權日2006年2月14日
發明者B·G·唐納德森, N·L·米德爾頓, R·M·小布林森 申請人:智能科學股份有限公司