一種激勵方法
【專利摘要】本發明提供了一種激勵方法,基于平臺發布激勵地圖為不同監測位置制定用戶上傳測量值可獲得的收益,在每次迭代過程中,用戶根據平臺當前發布的激勵地圖主動地進行感知,然后平臺依據收集到的測量值決策下一次迭代的激勵地圖,從而提高了數據監測結果準確性的前提下降低了平臺支付給監測用戶的開銷,本發明的激勵方法應用污染物在整個監測區域內分布的規律,基于平臺部分位置的測量值估計出監測區域內所有污染源的位置和污染排放效率,從而準確推測出未收集到測量值的位置的污染情況,從而大大降低平臺的支出。
【專利說明】
-種激勵方法
技術領域
[0001 ]本發明設及群智感知技術領域,特別設及一種激勵方法。
【背景技術】
[0002] 隨著科學技術的發展,人類生活越來越現代化。與此同時,城市中的空氣污染問題 也日益成為一個嚴峻的問題,尤其是在如中國的發展中國家。長期暴露在超標的空氣污染 中會導致一些疾病的高發,如呼吸道感染和肺癌等。為了解決運個問題,一些城市通過建造 一些固定的測量站點嘗試對空氣污染濃度進行監測。然而,測量站點的數目極大地受限于 有限的±地資源和昂貴的維護費用,導致在城市范圍內難W獲得細粒度的空氣污染情況。 比如,整個北京市只有22個測量站點。隨著如智能手機等移動傳感設備的大規模普及,群智 感知技術得到了極大的發展和促進,為在城市范圍內收集感知數據提供了新的思路和前 景。一個基于群智感知的空氣污染監測系統可W通過在云端搭建一個發布任務和收集數據 的平臺,激勵分布在不同地點的智能手機協同工作,達到監測城市空氣污染的目標。盡管目 前智能手機上還未集成測量空氣質量的傳感器,幸運的是可W將多種測量不同污染氣體 (如PM2.5,N0,C0等)的傳感器的集成在一個便攜的PCL板上,并通過藍牙將數據傳給手機, 進而上傳到平臺上。此外,在不久的將來,在手機硬件上集成運些傳感器也將成為現實。最 近,一些科研工作已經致力于開發基于群智感知的空氣污染監測系統。但運些工作大都關 注如何制作便攜的感知設備或開發手機客戶端。
[0003] 對于一個群智感知系統而言,設計一個有效的激勵機制是非常關鍵的。一方面,智 能手機在參與感知任務的過程中消耗了一些資源,如電量、網絡帶寬等。所W,大部分用戶 期待通過完成感知任務來獲得一定的經濟上的收益。另一方面,從平臺的角度來看,數據收 集方希望在保證感知數量和質量的前提下,盡可能地減少因為支付給用戶的獎勵而帶來的 開銷。為了獲得城市中細粒度的空氣污染數據,平臺通常需要收集大量位于不同地理位置 的感知數據,從而造成較大的開銷。現有的激勵機制通常考慮如何用最低的獎勵來獲得位 于某一個位置上的感知數據,從而降低平臺的總開銷。
【發明內容】
[0004] 本發明的目的在于提供一種激勵方法激勵方法,W解決現有技術中群智感知系統 獲取感知數據,平臺的總開銷較高的問題。
[0005] 為解決上述技術問題,本發明提供一種激勵方法激勵方法,適用于群智感知系統 感知污染數據,所述激勵方法包括:
[0006] 若干迭代過程,每次迭代過程均執行W下步驟:
[0007] 平臺發布激勵地圖,所述激勵地圖包括若干方格,每個方格的位置代表監測區域 中的不同監測位置,每個方格內存儲有用戶上傳測量值可獲得的收益,所述測量值為污染 物的濃度的大小;
[000引平臺根據部分格子內收集到測量值,對監測區域內所有污染源的位置和污染排放 效率進行估計,若估計結果收斂,則當前迭代結束;否則,繼續執行下一步驟;
[0009] 從沒收集到測量值的格子中挑選部分方格,并為所挑選的方格更新所述激勵地圖 中記載的收益數值。
[0010] 可選的,在所述的激勵方法中,平臺利用壓縮感知技術對監測區域內所有污染源 的位置和污染排放效率進行估計。
[0011] 可選的,在所述的激勵方法中,平臺通過交叉驗證的方法判斷估計結果是否收斂。
[0012] 可選的,在所述的激勵方法中,用戶參與群智感知系統的感知任務的行為模型如 下:
[0013]
[0014] 其中,Xs表示用戶S是否參與感知任務的隨機變量,若激勵小于用戶的開銷,貝化S 取值0,反之,貝化S取值1。
[0015] 可選的,在所述的激勵方法中,激勵地圖中污染物包括:室內的污染物和室外的污 染物,室內的污染物的濃度和室外的污染物的濃度均服從正態分布。
[0016] 可選的,在所述的激勵方法中,一方格內污染物的濃度為所有污染源排放的污染 物經過傳播在當前方格內的疊加值。
[0017] 可選的,在所述的激勵方法中,不同的污染源位于相同或不同的方格內。
[0018] 在本發明所提供的激勵方法中,基于平臺發布激勵地圖為不同監測位置制定用戶 上傳測量值可獲得的收益,在每次迭代過程中,用戶根據平臺當前發布的激勵地圖主動地 進行感知,然后平臺依據收集到的測量值決策下一次迭代的激勵地圖,從而提高了數據監 測結果準確性的前提下降低了平臺支付給監測用戶的開銷,本發明的激勵方法應用污染物 在整個監測區域內分布的規律,基于平臺部分位置的測量值估計出監測區域內所有污染源 的位置和污染排放效率,從而準確推測出未收集到測量值的位置的污染情況,從而大大降 低平臺的支出。
【附圖說明】
[0019] 圖1是本發明一實施例的激勵方法的迭代過程的流程圖。
[0020] 圖2是本發明一實施例污染物傳播模型的示意圖。
【具體實施方式】
[0021] W下結合附圖和具體實施例對本發明提出的激勵方法作進一步詳細說明。根據下 面說明和權利要求書,本發明的優點和特征將更清楚。需說明的是,附圖均采用非常簡化的 形式且均使用非精準的比例,僅用W方便、明晰地輔助說明本發明實施例的目的。
[0022] 首先,為空氣污染在地理位置上的分布建模。為了表征細粒度的空氣污染分布,我 們虛擬地將整個監測區域劃分成大小相等(如200米*200米)的小方格,用n表示格子的數 目,并近似認為一個格子內的污染物的濃度是相同的,表示為Cl, 平臺最終所需的 監測結果即為每個格子內的污染物的濃度C= {Ci,…,Cn}。本實施例中,假設污染物來源于 監測區域內的k個污染源,污染源的污染排放速率表示為Q= {Qi,…,Qk}。假設每個污染源位 于不同的格子內(當然不同的污染源也可位于相同的方格內),并且污染源的數目是遠遠小 于方格的數目,即k?n,每個格子的污染排放速率由向量g={gl,…,gn}T表征,則有
[0023]
[0024] 考慮一個格子內污染物的濃度是不同的污染源排放的污染物經過傳播在運個方 格內的畳加,從而有
[0025]
,
[0026] 其中Q是轉換矩陣,Q U表示位于格子內的污染源對格子j內污染物的濃度的影 響。
[0027] 如附圖2所示,本實施例中采用污染傳播模型是高斯模型,該模型主要考慮風向和 風速對污染物傳播的影響。已知污染源的位置和風向,任一位置的污染物的濃度C可W根據 W下公式計算出來:
其中,Q是污染排放速率,V是風速,d是監測 點與污染源在垂直風向的方向上的距離。a和e是常數。根據運個傳播模型,我們可W計算出 轉換矩陣Q,3
如果格子j在格子i的順風方向上。
[0028] 然后,為用戶參與感知的行為建模。本發明考慮用戶是理性的,當且僅當完成一個 感知任務所獲得的收益大于其消耗的資源所引起的開銷時,用戶才會參與感知,用戶參與 群智感知系統的感知任務的行為模型如下:
[0029]
其中,Xs表示用戶S是否參與感知任務的隨機變量,若激勵小于用戶的開 銷,貝化S取值0,反之,貝化S取值1。對一個用戶而言,開銷的大小取決于許多因素,如當前剩 余的能量和網絡的連接情況等。因而完成同一個任務,不同的手機會有不同的開銷,且運個 信息對平臺而言是未知的。為了研究獎勵的大小對用戶參與行為的影響,假設每個用戶的 開銷CS滿足在kmin,Cmax]之間隨機均勻分布,其中Cmin和Cmax分別是Cs的下界和上界。給定獎 勵(即用戶獲得的收益),用戶S是否會參與感知的概率分布可W表示為:
其中P = Pr (Xs=I) =Pr(Cs^r)假設用戶在格子內上傳一 , 份感知數據(即污染物的濃度的測量值)獲得的收益是ri,不同的格子可W設定不同的獎勵 R = {。,…,rn}。若用Yi表示給定Tl,格子i內能收集到的測量值的個數,則有
因此,在格子i內收到丫 1個測量值的概 :>
[0030] 最后,根據上述模型,本實施例中激勵方法包括若干迭代過程,請參考圖I,其為本 發明的激勵方法的迭代過程的流程圖,每次迭代過程均執行W下步驟:
[0031] 首先,執行步驟SI,平臺發布激勵地圖R= {ri,…,。},所述激勵地圖包括若干方 格,每個方格的位置代表監測區域中的不同監測位置,每個方格內存儲有用戶上傳測量值 可獲得的收益,所述測量值為污染物的濃度的大小;W i格子為例,ri表示格子i內存儲的收 益,
表示格子i內收集到的測量值(即感知的污染物的濃度的數據), 丫 1表示格子i內收集到的測量值的數目。
[0032] 接著,執行步驟S2,平臺根據部分格子內收集到測量值,對監測區域內所有污染源 的位置和污染排放效率進行估計,若估計結果收斂,則當前迭代結束;否則,繼續執行下一 步驟;其中,平臺利用壓縮感知技術對監測區域內所有污染源的位置和污染排放效率進行 估計,平臺通過交叉驗證的方法判斷估計結果是否收斂。
[0033] 例如,根據i格子內收集到的測量值,得到若干個格子的污染物濃度估計值
。由于室內和室外污染物濃度有很大的差別,需要它們進行區分。假設格 子i內的室內和室外污染物濃度值分別服從正態分布
對Mi中的每個測量值而言,存在一個隱含的變量表征該測量值是室內還是室外的,表示為 具體的,本實施例中采用EM算法
'7 來區分室內測量值和室外測量值,并估計出室外污染物濃度Cf "0。具體步驟為通過交替地 執行W下的E步驟和M步驟,從而得到未知變量
的最大似然估 計:
[0034] E步驟:給定01的估計值,計算似然函數的對數的期望,
其中L(ei;Mi,Zi)=p(Mi,Zi| 目i)。
[003引緣巧聚:計算使得似然函數的對數的期望最大的參數估計值,即S
。
[0036] 對監測區域內所有污染源的位置和污染排放效率進行估計,得到g的估計值f;當 象收斂時,迭代過程結束,否則繼續進行下一步驟。根據污染物傳播模型,有C = Q g,且已知 C中部分變量的估計值
應用壓縮感知理論,因為g是稀疏的化<<n),因而g 可W通過解下面的優化問題進行估計,
.其中
由于 g的真實值未知,無法通過比較g和資.判斷估計結果的準確性,從而判斷迭代過程是否結束。 因此,采用交叉驗證的方法來判斷i是否收斂。其具體步驟為將《分為五等份,其中一等份 作為測驗集,其余四等份作為訓練集。用訓練集按如上方法得到估計值餐,再用測驗集測試 實際測量值與估計值&復之間的誤差,若誤差足夠小,則說明估計結果收斂于真實值。
[0037] 接著,執行步驟S3,從沒收集到測量值的格子中挑選部分方格(優選為扣蝶?皆個格 子),并為所挑選的方格更新所述激勵地圖中記載的收益數值。
[0038] 若估計值易未收斂,則需更新獎勵地圖,激勵為收集到測量值的格子內的用戶參與 參與感知,從而提高估計結果的準確性。每輪迭代中,挑選Iiognj??個格子作為下一輪的獎 勵對象。對于任一格子i,其應制定的獎勵大小由該格子內用戶的數目決定。假設每個格子 內需要收集至少25個測量值才能準確W大于99%的概率準確地估計出該格子的污染物濃 度,根據用戶行為模型,菊
,由Pr化二丫 i)=f(m,pi),已知m可 W計算出Pi,從而得到該格子應設定的獎勵。下面,說明如何從沒有測量值的格子里面挑選 掉獲個格子。為了 W最小的開銷獲得最有價值的測量值,挑選格子的判斷指標有兩個:獎 勵(即平臺的支出)和價值(在用壓縮感知估計污染源中)。每個格子的價值定義為
,即連續兩次迭代中由污染源的估計值推算出的該格子污染物濃度 的相差。支出越小且價值越大的格子越應該被選作收集測量值的對象,因此根據指標i對 所有為收集到測量值的格子從大到小進行排序,取前皆蝶刮個格子并在獎勵地圖更新它們 的獎勵大小。
[0039] 本發明所提供的激勵方法解決了 W下幾個技術難點:
[0040] 1)測量值的可靠性及質量。首先,平臺不知道收集到的測量值是在室內還是室外 測量的;其次,由于手機測量值存在測量誤差,一個格子內需要收集一定數量的測量值協同 估計該格子污染物濃度的真實值,從而消除單個測量值的誤差。
[0041 ] 2)每個格子的污染物濃度值對于推測其他格子的作用是未知的。由于每個格子的 位置不同,受風向和污染源位置的影響,其在使用壓縮感知技術對其他格子進行推測的過 程中的作用也不同。選擇關鍵的格子收集數據可W提高推測的準確性,從而減低需要收集 數據的數量。
[0042] 3)迭代的次數未知。因為污染源的個數未知,且無法比較每次迭代的推測結果與 真實值之間的偏差,因而難W判斷為達到準確推測結果所需要進行迭代的次數。
[0043] 4)結果準確性和平臺總支出之間存在權衡。顯然,迭代次數越多,收集的測量值越 多,推測結果越準確,然而與此同時平臺需要支付給用戶的獎勵越多。
[0044] 上述描述僅是對本發明較佳實施例的描述,并非對本發明范圍的任何限定,本發 明領域的普通技術人員根據上述掲示內容做的任何變更、修飾,均屬于權利要求書的保護 范圍。
【主權項】
1. 一種激勵方法,適用于群智感知系統感知污染數據,其特征在于,包括: 若干迭代過程,每次迭代過程均執行以下步驟: 平臺發布激勵地圖,所述激勵地圖包括若干方格,每個方格的位置代表監測區域中的 不同監測位置,每個方格內存儲有用戶上傳測量值可獲得的收益,所述測量值為污染物的 濃度的大小; 平臺根據部分格子內收集到測量值,對監測區域內所有污染源的位置和污染排放效率 進行估計,若估計結果收斂,則當前迭代結束;否則,繼續執行下一步驟; 從沒收集到測量值的格子中挑選部分方格,并為所挑選的方格更新所述激勵地圖中記 載的收益數值。2. 如權利要求1所述的激勵方法,其特征在于,平臺利用壓縮感知技術對監測區域內所 有污染源的位置和污染排放效率進行估計。3. 如權利要求1所述的激勵方法,其特征在于,平臺通過交叉驗證的方法判斷估計結果 是否收斂。4. 如權利要求1所述的激勵方法,其特征在于,用戶參與群智感知系統的感知任務的行 為樽塑如下:其中,Xs表示用戶s是否參與感知任務的隨機變量,若激勵小于用戶的開銷,則Xs取值 O,反之,則Xs取值1。5. 如權利要求1所述的激勵方法,其特征在于,激勵地圖中污染物包括:室內的污染物 和室外的污染物,室內的污染物的濃度和室外的污染物的濃度均服從正態分布。6. 如權利要求5所述的激勵方法,其特征在于,一方格內污染物的濃度為所有污染源排 放的污染物經過傳播在當前方格內的疊加值。7. 如權利要求5所述的激勵方法,其特征在于,不同的污染源位于相同或不同的方格 內。
【文檔編號】G06F19/00GK106021861SQ201610301565
【公開日】2016年10月12日
【申請日】2016年5月9日
【發明人】劉通, 朱燕民
【申請人】上海交通大學