一種基于移動群智感知的路況信息匯集方法
【技術領域】
[0001] 本發(fā)明涉及無線通信技術與智能交通技術領域,尤其是涉及一種基于移動群智感 知的路況信息匯集方法。
【背景技術】
[0002] 安全城市的建設依賴于出行的安全問題,如何獲取實時的路況信息成為問題的關 鍵所在。以往的GPS定位檢測方法費用較高,準確度偏低,很難滿足人們的需求。智能手機 和網絡發(fā)展則讓實時精準路況信息的共享得以實現,特別是社交平臺的應用讓人們的信息 交互更為方便。當有事故比如車禍、火災發(fā)生時,手機用戶通過網絡將路況信息和自身的位 置信息上傳到服務器。這些路況信息可以幫助服務器了解城市的事故分布,并迅速做出應 對措施。相比于通過衛(wèi)星監(jiān)控城市有無異常狀況的方法來說,這種方法的準確度會大大提 升,成本也會降低。但是,如何才能激勵手機用戶發(fā)送路況信息到服務器上是重中之重???慮到用戶的自私性,手機用戶不會毫無回報的主動將真實的路況信息上傳到服務器。如果 無法獲取大量手機用戶的數據,服務器就無法得到完整有效的城市路況信息。所以服務器 需要通過一定的激勵機制來推動普通手機用戶參與到該系統的構建中來,如何定價報酬才 能吸引更多的手機用戶并且使服務器獲得最大效益是我們需要做的。然而,在服務器對外 界傳輸消耗和手機用戶信息并不明確的情況下,需要不斷調整定價,來學習如何定價才能 達到以上目標。Q學習是一種強化學習,它可以不斷與外界交互來得到反饋,從而得到自身 收益最大化的行為。
[0003] 中國專利CN103310349公開一種基于在線激勵機制的感知數據獲取方法,它采 用公開拍賣的機制根據手機用戶的競價和對系統的效益貢獻來選取是否采納手機用戶的 競標方案,手機用戶在收到系統采納的決定后執(zhí)行任務將數據發(fā)送到感知系統;中國專利 CN103870990公開一種移動群智感知系統中覆蓋問題的激勵機制實現方法,它同樣采用公 開拍賣機制來選取手機用戶競標方案,但它是報酬支出有限制的逆向拍賣系統,而且它的 感知任務分配帶有地理位置信息限制覆蓋的問題。上述兩項發(fā)明中都是采用拍賣機制,選 取手機用戶后手機用戶將感知數據發(fā)送到服務器,然而手機用戶很有可能會發(fā)送虛假信息 以降低自身損耗。
【發(fā)明內容】
[0004] 本發(fā)明的目的是提供一種基于移動群智感知的路況信息匯集方法。
[0005]本發(fā)明包括以下步驟:
[0006] 步驟1 :服務器向相關地區(qū)的手機用戶廣播征集路況報告的通知,包括手機用戶 的地理位置信息、周邊路況信息、對路況報告的定價范圍P;
[0007] 步驟2 :服務器接收到手機用戶的路況報告X后,按照路況報告X的精確度對其劃 分等級,服務器規(guī)定路況報告的質量等級表為:[-1,0,…,L],其中L表示路況報告質量的 最高等級,依照質量等級表,將路況報告X的等級定為1 (-1 <I<L),即X= 1 ;
[0008] 步驟3:服務器匯總所有接收到的路況報告后,確定服務器在此刻的狀態(tài)s,獲 得系統增益G(S) =G(S) =J^iCKx,),其中M是發(fā)送路況報告的用戶總數,s是服務器接 收到的總體的路況報告質量,G(Xp是手機用戶j的路況報告&帶給服務器的效益值,不 同等級的路況報告帶給服務器的效益是不同的,規(guī)定不同等級的路況報告的效益表為: [G(-1),G(0),…,G(L)];與此對應,服務器根據路況報告的不同等級給予不同的支付價 格y,規(guī)定不同等級的路況報告的定價表為:[y(-l),y(0),…,y(L)],服務器的即時收益 Us(s,y)是系統增益和服務器對手機用戶的支付之差,即t/,(s,y) =G(s) -|y(/);
[0009] 步驟4 :在目標最優(yōu)定價不確定的情況下,服務器通過Q學習,學習如何對手機用 戶的任務路況報告的獎勵金額定價,以獲取服務器的最大收益;對不同質量等級1的路況 報告有不同的定價y(1),在一次學習過程中規(guī)定服務器的最大任務發(fā)布次數為K,第k次任 務發(fā)布中的服務器狀態(tài)是sk,服務器對路況報告的總定價是/,其中Q學習包括以下步驟:
[0010] (1)初始化Q值矩陣:對于每一次任務發(fā)布中的服務器每一個可用狀態(tài)Sk下,對 服務器的所有可選擇的定價分配一個對應的Q值,對每個初始Q值賦值為〇,設置學習因子 a(〇 <a< 1)和折扣因子S(〇 <S< 1);
[0011] ⑵在第k次任務發(fā)布中,服務器根據狀態(tài)Sk從定價范圍P內選擇yk(l)作為對 質量等級1的路況報告的定價,根據公式:
【主權項】
1. 一種基于移動群智感知的路況信息匯集方法,其特征在于包括以下步驟: 步驟1:服務器向相關地區(qū)的手機用戶廣播征集路況報告的通知,包括手機用戶的地 理位置信息、周邊路況信息、對路況報告的定價范圍P; 步驟2 :服務器接收到手機用戶的路況報告x后,按照路況報告x的精確度對其劃分等 級,服務器規(guī)定路況報告的質量等級表為:[-1,〇,…,L],其中L表示路況報告質量的最高 等級,依照質量等級表,將路況報告x的等級定為1 (-1 < 1 <L),即x= 1 ; 步驟3 :服務器匯總所有接收到的路況報告后,確定服務器在此刻的狀態(tài)s,獲得系 統增益G(s)
|其中M是發(fā)送路況報告的用戶總數,s是服務器接收 到的總體的路況報告質量,G(Xp是手機用戶j的路況報告&帶給服務器的效益值,不 同等級的路況報告帶給服務器的效益是不同的,規(guī)定不同等級的路況報告的效益表為: [G(-1),G(0),…,G(L)];與此對應,服務器根據路況報告的不同等級給予不同的支付價 格y,規(guī)定不同等級的路況報告的定價表為:[y(-l),y(〇),…,y(L)],服務器的即時收益 Us(s,y)是系統增益和服務器對手機用戶的支付之差,即
步驟4 :在目標最優(yōu)定價不確定的情況下,服務器通過Q學習,學習如何對手機用戶的 任務路況報告的獎勵金額定價,以獲取服務器的最大收益;對不同質量等級1的路況報告 有不同的定價y(1),在一次學習過程中規(guī)定服務器的最大任務發(fā)布次數為K,第k次任務發(fā) 布中的服務器狀態(tài)是sk,服務器對路況報告的總定價是/,其中Q學習包括以下步驟: (1) 初始化Q值矩陣:對于每一次任務發(fā)布中的服務器每一個可用狀態(tài)sk下,對服務 器的所有可選擇的定價分配一個對應的Q值,對每個初始Q值賦值為〇,設置學習因子a(0 <a< 1)和折扣因子S(〇 <S< 1); (2) 在第k次任務發(fā)布中,服務器根據狀態(tài)sk從定價范圍P內選擇yk(l)作為對質量 等級1的路況報告的定價,根據公式:
對Q值矩陣更新,Q(sk,yk(l))是服務器在sk狀態(tài)下采用yk(l)值為定價時的Q值,max@sk、y(l))是服務器在sk+1狀態(tài)下,采用讓Q值最大化的定價y(l); (3) 重復步驟(2),直到第n次的任務發(fā)布后滿)_〇1時,定價y(l) 收斂,yn(l)即是服務器最優(yōu)定價,其中n<K;
(4) 服務器將報酬yn(l)發(fā)送給路況報告等級為1手機用戶。
2. 如權利要求1所述一種基于移動群智感知的路況信息匯集方法,其特征在于在步驟 1中,手機用戶發(fā)送的路況報告x中的地理位置信息是手機用戶當前的GPS位置信息,路 況信息是對手機用戶周圍事故的描述;若無事故發(fā)生,手機則發(fā)送安全確認信息到服務器; 若有事故發(fā)生,則發(fā)送事故的詳細信息到服務器;所述定價范圍P是根據市場經驗定價,P 會選取高出以往市場定價的最大值;手機用戶根據定價范圍選擇發(fā)送路況報告,或者選擇 忽略服務器的廣播。
3. 如權利要求1所述一種基于移動群智感知的路況信息匯集方法,其特征在于在步驟 2中,服務器對手機用戶發(fā)送的路況報告評估時,若手機用戶發(fā)送虛假路況信息,則服務器 對其路況報告等級評估為-1 ;若發(fā)送安全確認信息,則服務器對其路況報告等級評估為等 級0 ;若手機用戶發(fā)送事故信息,則服務器根據對事故的描述的完整性評估路況報告等級, 最尚為L。
4. 如權利要求1所述一種基于移動群智感知的路況信息匯集方法,其特征在于在步 驟3中,服務器在接收到路況報告后,實時地處理安全事故,并給與不同等級的路況報告不 同的定價,以激勵手機用戶發(fā)送高精確質量的報告,獲得系統增益,其中不同精確度質量等 級的路況報告對服務器的系統增益是不同的,最高等級的路況報告帶來的系統增益最大, 為G(L);而最低等級的路況報告帶來的系統增益最小,為G(-l);服務器將支付給手機用戶 的報酬作為支出,服務器最終獲得的收益是系統增益和服務器對手機用戶的支付之差,即 Us(s,y)〇
5. 如權利要求1所述一種基于移動群智感知的路況信息匯集方法,其特征在于在步驟 4中,服務器在不同的狀態(tài)s下,對不同質量等級1的路況報告的支付價格y(l)不同,所獲 得的收&Us(s,y)不同;服務器的Q學習是對每個等級的路況報告的定價進行學習,最后給 出最優(yōu)定價表:[y(-1),y(〇),…,y(L)]。
【專利摘要】一種基于移動群智感知的路況信息匯集方法,涉及無線通信技術與智能交通技術領域。服務器向相關地區(qū)的手機用戶廣播征集路況報告的通知;服務器接收到手機用戶的路況報告后,按照路況報告的精確度對其劃分等級;服務器匯總所有接收到的路況報告后,確定服務器在此刻的狀態(tài)s,獲得系統增益G(s);在目標最優(yōu)定價不確定的情況下,服務器通過Q學習,學習如何對手機用戶的任務路況報告的獎勵金額定價,以獲取服務器的最大收益;對不同質量等級l的路況報告有不同的定價y(l),在一次學習過程中規(guī)定服務器的最大任務發(fā)布次數為K,第k次任務發(fā)布中的服務器狀態(tài)是sk,服務器對路況報告的總定價是yk。
【IPC分類】G06Q30-06, G08G1-0967
【公開號】CN104700640
【申請?zhí)枴緾N201510127406
【發(fā)明人】肖亮, 李炎達, 劉金亮, 李燕
【申請人】廈門大學
【公開日】2015年6月10日
【申請日】2015年3月23日