一種車載網(wǎng)絡的移動群智感知方法
【技術領域】
[0001] 本發(fā)明涉及的是無線通信技術領域的方法,具體是涉及一種車載網(wǎng)絡的移動群智 感知方法,激勵車輛上傳車載傳感器數(shù)據(jù)到移動群智感知服務器,使服務器既能得到準確 的數(shù)據(jù)又能最大化自己的效益。
【背景技術】
[0002] 隨著無線通信技術和傳感器技術的快速發(fā)展,電子移動設備呈現(xiàn)爆炸性增長,移 動設備集成了越來越多的傳感器以滿足豐富的應用。如果能收集移動設備用戶的傳感器數(shù) 據(jù),整合、處理、分析這些數(shù)據(jù)將會有許多新用途,移動群智感知應運而生。
[0003] 車輛是現(xiàn)代人出行必不可少的工具,在車輛上安裝傳感器早已不是什么新鮮事, 如GPS、加速度傳感器、視頻監(jiān)控器等,利用這些傳感器可以收集車輛周圍環(huán)境的信息。而這 些傳感器隨著車輛的移動,覆蓋范圍廣,因此車載傳感器可以收集到大范圍區(qū)域的信息。安 裝在車輛上的傳感器與安裝在其他移動設備(如手機、平板電腦)上的傳感器相比,對存儲 容量和功率的限制較小,對傳感器的類型、體積大小等也幾乎沒有限制,而且可能包含的用 戶隱私內(nèi)容也較少。
[0004] 移動群智感知技術結(jié)合車載網(wǎng)絡產(chǎn)生了許多應用。如中國專利CN103236163 提出了一種基于群智網(wǎng)絡的交通擁堵規(guī)避系統(tǒng);中國專利CN103278605提出一種利用 車載裝置C0 2sensor module的大范圍032濃度監(jiān)測方法;CarTel移動傳感器計算系統(tǒng) 利用安裝在汽車上的特殊的傳感器收集數(shù)據(jù),在本地進行數(shù)據(jù)的初步處理后利用WiFi 熱點將數(shù)據(jù)上傳到服務器,服務器通過進一步的處理數(shù)據(jù)可以測量交通堵塞狀況,城市 WiFi 部署等(Hull,Bret,et al. "CarTel:a distributed mobile sensor computing system. ''Proceedings of the 4th international conference on Embedded networked sensor systems. ACM, 2006.) ;Pothole Patrol系統(tǒng)利用車上的震動傳感器和GPS傳 感器收集數(shù)據(jù)來評估路面狀況(Eriksson, Jakob, et al.〃The pothole patrol:using a mobile sensor network for road surface monitoring. "Proceedings of the 6th international conference on Mobile systems, applications, and services. ACM, 2008.) 〇
[0005] 沒有用戶的參與,就沒有數(shù)據(jù)來源,也就沒有移動群智感知。很多移動群智感知應 用的提出都假設用戶自愿貢獻傳感器數(shù)據(jù),但是,這些移動設備屬于個人,而用戶參與到移 動群智感知中會消耗他們的電池,計算等資源,甚至會有泄露隱私的風險。因此,如何激勵 用戶參與到群智感知中是一個亟待解決的問題。
[0006] 直觀上來說,如果參與到移動群智感知的用戶能得到足夠的報酬來彌補他們資源 的消耗,用戶可能就比較愿意參與到群智感知系統(tǒng)中。但是服務器該給用戶多少報酬才能 激勵足夠的用戶參與到群智感知中來而又使自己的效益最大,用戶該如何選擇自己是否參 與群智感知,以及感知的精度,使自己效益最大。這就構(gòu)成了服務器與用戶間的博弈,用強 化學習技術可以為雙方找到最佳策略。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是提供在車載移動群智感知博弈中為車輛和服務器確定策略,既使 服務器獲得了所需的車載感知報告,又使雙方的效益達到最大的一種車載網(wǎng)絡的移動群智 感知方法。
[0008] 本發(fā)明包括以下步驟:
[0009] 步驟1 :移動群智感知服務器向相關區(qū)域內(nèi)的m個車輛發(fā)送征集感知報告的環(huán)境 信息;
[0010] 步驟2 :車輛根據(jù)自身的感知開銷,傳輸信道狀態(tài)h和服務器給的報酬范圍決定感 知精度X ;
[0011] 步驟3 :初始化每個車輛的仏值矩陣;
[0012] 步驟4 :初始化服務器的似直矩陣;
[0013] 步驟5 :車輛i觀察目前所處的狀態(tài)S1,按策略π,寸每個感知精度的概率分布選 擇具有最大概率的感知精度x 1;
[0014] 步驟6 :服務器觀察目前所處的狀態(tài)Ss= X = [X丄根據(jù)策略31身每個價 格的概率分布選擇具有最大概率的價格yi支付給車輛;
[0015] 步驟7 :服務器計算效益us:
[0016]
[0017] 其中β是服務器從單位精度的感知報告中獲得的收益,設置為常數(shù);
[0018] 步驟8 :服務器根據(jù)公式:
[0019]
[0020] 更新Qs值,Q s (ss,y)是服務器在狀態(tài)Ss下選擇y時的Q s值。s s'是服務器的下一 狀態(tài),假設服務器的下一狀態(tài)與當前狀態(tài)相同,y'是服務器在下一狀態(tài)選擇的行為;
[0021] 步驟9 :更新服務器的狀態(tài)計數(shù)Cs(Ss)和平均策略;
[0022]
[0023]
[0024] 步驟10 :更新服務器的策略π s:[0025]
[0026] 其中,[0027]
[0028]
[0029] CN 105119987 A 仇叱卞> 3/6 頁
[0030] 步驟11 :車輛收到服務器給的報酬后,計算即時效益:
[0031]
[0032] 其中,D1(X1)為車輛i發(fā)送感知精度為X1的報告時的單位能量消耗。h是當前信 道狀態(tài);
[0033] 步驟12 :車輛根據(jù)公式:
[0034]
[0035] 更新Q1值,Q i (Sl,X1)是車輛在狀態(tài)S1下選擇X i時的Q i值,s i'為車輛的下一狀 態(tài),假設車輛的下一狀態(tài)與當前狀態(tài)相同,X1'是車輛在下一狀態(tài)選擇的行為;
[0036] 步驟13 :更新車輛的狀態(tài)計數(shù)C1 (S1)和平均策略:
[0037]
[0038]
[0039] 步驟14 :更新車輛的策略π i (Si):
[0040]
[0041] 其中,
[0042]
[0043]
[0044]
[0045] 步驟15 :重復步驟5~14,直到滿足 IQ1 (S1, X1)-QJs1',Xl')I <0.01,VKKw, 且 |Qs(ss,y)_Qs(ss',ys')I < 0· 01,艮P Qjsi, Xi)和 Qs(ss,y)均收斂。
[0046] 在步驟1中,所述服務器根據(jù)車輛的GPS定位系統(tǒng)確定車輛所在地區(qū),服務器征集 的信息是車輛周圍的環(huán)境信息,根據(jù)車輛上安裝的不同傳感器設備,可以獲取不同的環(huán)境 信息;所述環(huán)境信息包括但不限于某個路段的交通狀況、某片區(qū)域的空氣質(zhì)量狀況、某條路 的路面狀況、給車輛的報酬范圍等信息。
[0047] 在步驟2中,所述感知精度X可分為L+1個等級,表示為X e A = 其中 ai< a卩/ < / 5; 假設有N+1個信道狀態(tài)h,表示為h e H = [hg]w N;所述服務器 可選擇的價格 y 有 Ρ+l 種:y e B = [bk]0<k<p,其中 Id1C b k, VOS/<々 ?:/7;
[0048] 所述感知精度可根據(jù)文字描述的詳細程度和圖片的清晰程度來定感知精度,即感 知報告的精度,所述感知報告可以是文字形式或圖片形式;所述感知報告都附有位置標簽, 服務器根據(jù)不同的應用,有不同的選擇報告的方法,可以在同一個地區(qū)內(nèi)只選擇一個精度 最高的報告或選擇所有收到的感知報告;
[0049] 所述傳輸信道可設為動態(tài)信道。
[0050] 在步驟3中,所述初始化每個車輛的%值矩陣的具體方法可為:車輛i的狀態(tài)s i 為服務器給的報酬,對于每個車輛的每一個可能狀態(tài)S1,對車輛的所有可選擇動作分配一 個對應的Q值,每個Q值初始賦值為0 ;初始化策略矩陣JP平均策略矩陣& :對每一個 可選擇的動作分配一個概率,所有動作的概率和為1,初始賦值&,其中|A|是可供車輛選 擇的感知精度個數(shù)A (S1)表示每個狀態(tài)S1出現(xiàn)的次數(shù),初始化為0 ;設置學習因子和折扣 因子 α γιε (〇, 1],兩個學習速率 δ n> δ iwe (〇, 1]。
[0051] 在步驟4中,所述初始化服務器的Qs值矩陣的具體方法可為:服務器的狀態(tài)s 3為 車輛上傳的感知報告的精度,對于服務器的每一個可能狀態(tài)Ss,對服務器的所有可選擇動 作分配一個對應的Q值,每個Q值初始賦值為〇 ;初始化策略矩陣π 3和平均策略矩陣^, 初始賦值為其中|B|是可供服務器選擇的價格個數(shù);初始化狀態(tài)計數(shù)(;(^)為〇;設 置學習因子和折扣因子αs, y se (〇, 1],兩個學習速率δS1> δswe (〇, 1]。
[0052] 在步驟11中,所述即時效益若較好,則會提高車輛參與群智感知的積極性,即時 效益若有較低甚至負的效益,則會打擊車輛下一次參與的積極性。
[0053] 本發(fā)明通過采用強化學習算法WoLF-PHC來決定服務器的定價和每個車輛的感知 精度,使得服務器和車輛的效益達到最大。
[0054] 本發(fā)明是為了實現(xiàn)無線信號覆蓋和交通擁塞檢測等多種基于位置的服務。該方法 包括:移動群智感知服務器向相關區(qū)域內(nèi)的車輛發(fā)送征集感知報告的廣播信息;收到征集 消息的車輛根據(jù)自身的感知開銷和傳輸信道狀態(tài),采用增強學習算法WoLF-PHC決定是否 參與該項目,以及感知的精度;移動群智感知服務器收到車輛的感知報告后,對感知報告的 準確度進行評估,并使用WoLF-PHC算法來確定付給車輛的報酬。本發(fā)明通過調(diào)整給車輛的 報酬,激勵車輛參與感知任務,從而使服務器獲得所需要的車載感知報告。
【具體實施方式】
[0055] 為了能夠更清楚地理解本發(fā)明的技術內(nèi)