用傳感器測量數據更新數據結構的系統和方法
【技術領域】
[0001] 本發明通常涉及電子數據處理,特別是用于處理傳感器測量數據的系統和方法。
【背景技術】
[0002] 對諸如氣體、溫度、或風的時空現象的測量、估測、以及預測與各種用例有關。例 如,城市環境中的諸如大氣污染的時空現象如果超過一定閾值,則這種時空現象可能對當 地居民的身體產生危害。例如,一氧化碳(CO)和二氧化碳(C02)就是這樣的氣體。因此, 在特定時間特定地區準確估測和預測大氣污染有助于預防有害情況的發生。也可在其他情 況下觀察這樣的時空現象,例如在天體物理學、醫學、機器人學、人機交互、以及地質物理學 領域。
[0003] 空間分布型傳感器網絡一般包括大量傳感器節點,傳感器節點可提供關于其周圍 區域時空現象的測量數據。傳感器節點可在該區域均勻分布或不規則分布。該區域的大小 可范圍小至例如一個小湖泊到一個超大城市甚至夜空。傳感器節點可以以精確或粗糙模式 覆蓋該區域。此外,通常而言,這樣的傳感器網絡測量大量數據用于分析。除此之外,因為 數據帶有噪聲,所以分析更為復雜。但是在如此大量的傳感器測量的數據集上執行估測和 預測的時空回歸分析,對計算能力有很高要求,甚至可以說是棘手的。
[0004] 通常假設時空現象呈高斯分布,因此,可應用高斯過程(GP)回歸估測時空現象的 未知分布。GP允許根據帶有噪聲的數據實現對回歸函數的非參數學習;這也被稱為訓練。 GP可被認為是取決于該數據的函數上的高斯分布。因此,GP提供回歸函數,用于根據數據 的噪聲和變異性的估測和預測以及不確定性估測,例如,誤差條形圖。但是,由于GP的非參 數性的本質,因此借助〇(n3)調整訓練GP的計算,其中n是數據點的數量,例如測量數據的 完整集合。所謂的大〇符號是函數的限定行為的指示符(當其自變量傾向于具體值時,典 型地是極大的數值或無限大)。因此,大0符號描述處理器上的計算負荷。由于對時空現象 的測量通常生成大量數據,即自變量n,立方行為〇(n3)是禁止的(針對在采用標準處理器 的計算機上處理)。另外,借助新的測量數據更新GP的要求會更高,因為每個新的訓練期都 需要批量處理時間內所獲取的所有測量數據。另外,由于所有測量數據必須隨時可用,因此 必須提供足夠的存儲器容量,例如隨機存取存儲器(RAM)和大容量存儲設備。對于GP,另 請參閱:CarlE.Rasmussen和ChristopherWilliams.GaussianProcessesforMachine Learning。MIT出版社,2006。
[0005] 為了減少計算負荷,現有技術中的當前方法提出近似法,其對大小為s的訓練數 據的子集進行操作,其中該數據集的大小s明顯小于測量數據n的完整集合。這將GP的回 歸函數的訓練的計算負荷減少至〇 (s2n)。但是,這些方法假定在訓練之前,整個數據集是可 用的,因此,訓練是在一次批量運行中執行的。當有新的訓練數據可用時,由這些方法進行 的更新就需要在時間內取得的所有測量數據在〇(s2n)中被處理,其中由于n又納入了新的 測量數據,因此n現在增加了。這也需要相應的存儲器容量,存儲所有歷史測量數據。盡管 這些方法能夠在一定程度上降低計算負荷,取決于對于數據集的大小s的整體降低,但其 卻不適用于連續到來的訓練數據。另外,為了明顯降低計算復雜程度,與n相比,數據集的 大小s必須降低到顯著更小的數量。因此,為了接收準確結果,所述方法需要徹底且恰當地 選擇數據集s;否則,因為基于數據子集s的預測通常以例如啟發式的方式執行,因此訓練 結果的準確性將顯著降低。
[0006] 在典型的時空現象的估測和預測的用例中,訓練數據依次到達,例如按照時間序 列。因此,批量處理并不可行,而是需要GP的連續訓練。現有技術的連續訓練方法是已知 的。例如,通過采用傳感器測量來實現連續訓練,以更新先驗已知固定傳感器位置的狀態估 測,所述傳感器位置甚至可能均勻地分布于整個區域。因此,移動傳感器節點的測量數據, 例如車輛或智能手機中集成的傳感器,就不被納入考慮之列,但是,諸如城市化地區的復雜 環境可能不允許均勻分布的傳感器網絡。此外,這些方法中的一些是嚴重應用特定的,或者 只適用于單維度輸入,例如一氧化碳(CO)的測量數據。
【發明內容】
[0007] 因此,需要改進GP回歸,使其在計算和存儲器方面效率更高。
[0008] 本發明的實施例提供GP的精確連續訓練的系統和方法,用于帶有多維測量數據 的復雜環境下的時空現象。此外,GP回歸訓練可獨立于特定的應用場景,并可用于包括固 定傳感器節點和移動傳感器節點的先驗未知的傳感器網絡。
[0009] 通過本發明的一個方面,計算機遞歸處理從相應區域中任意傳感器位置連續接收 的傳感器節點測量數據,用于更新數據結構。因此,得到的計算復雜度為〇(n)。該數據結構 包含用于相應時空現象的GP估測和預測的全部信息。該數據結構只需有限的存儲器容量, 因為在該方法中,傳感器節點的歷史測量數據被并入數據結構中,而不存儲原始測量數據。 換句話說,一旦以接收的測量數據更新該數據結構,即可丟棄原始數據。
[0010] 數據結構反映了物理區域中的一種時空現象,其中高斯過程采用平均值函數和協 方差函數,在該物理區域中的任意位置對該時空現象進行估測。換言之,該平均值函數以任 意位置的通用函數的形式描述該時空現象的趨勢,而該協方差函數描述任意兩個位置的相 互關系。該時空現象的實際函數是未知的。但是GP被用于估測該時空現象的值。
[0011] 根據本發明的一實施例,一種更新該數據結構的計算機實現的方法包括:存儲適 于代表該物理區域的固定位置的數據集,其中根據高斯過程,該數據集具有平均向量和協 方差矩陣,且其中該數據結構包括該平均向量和該協方差矩陣;從位于該物理區域的特定 任意位置的多個傳感器節點中的至少一個傳感器節點接收該時空現象的傳感器測量數據; 且通過采用所謂的準確遞歸貝葉斯回歸,將所述特定任意位置和所接收的測量數據合并歸 入所述數據結構中。
[0012] "適于代表固定位置的數據集"也指"適于代表固定位置的所述數據集"以及"固定 位置的數據集",或僅僅"數據集"(當上下文明確定義它時)。
[0013] 該計算機實現的方法的優勢在于允許不需為隨后的GP學習而存儲接收的傳感器 測量數據,這是因為合并步驟已將所接收的測量數據并入該數據結構中。換言之,傳感器節 點所提供的該測量數據被并入該平均向量中,且所述傳感器節點的位置數據被并入該協方 差矩陣中。因此只需有限的存儲器容量;與現有技術相比,需要更少的存儲器。
[0014] 此外,傳感器節點的固定位置和特定任意位置不必相同。該固定位置可均勻分布 于該區域中來選擇;而隨機分布或任何其他適當的分布形式也是可行的。而且當連續接收 傳感器測量數據時,所述固定位置的數量可顯著少于特定任意位置的數量,或相應特定任 意位置的數量總和。只要固定位置的數量不變,則該計算機實現的方法就能以〇(n)來計