基于Skinner操作條件反射原理的機器人避障導航方法
【專利摘要】本發明涉及了一種基于Skinner操作條件反射原理的機器人避障導航方法。首先,建立機器人的動作集合概率,并令其符合均勻分布;然后,隨機選擇一個動作,計算相應的位置變化,進而根據與障礙及目標點距離計算出新位置對應的負理想度,并由此得出取向函數值,根據取向函數值按照操作條件反射理論調整動作概率分布,計算系統熵;當系統熵趨于最小值時,選擇概率最大動作所指角度前行;重復學習過程,直至抵達目的地。本發明能夠很好地模擬人及動物的操作條件反射行為,提高機器人的智能水平,使其具備較強的自學習、自組織、自適應能力,能夠在無導師信號的情況下自主探索環境,成功避障導航。
【專利說明】基于Skinner操作條件反射原理的機器人避障導航方法
【技術領域】
[0001]本發明涉及移動機器人避障導航領域,具體涉及一種基于Skinner (斯金納)操作條件反射原理的機器人避障導航方法。
技術背景
[0002]近年來,避障導航已成為智能機器人領域的研究熱點。避障導航的目的在于使機器人能夠穿越環境地圖中的各種障礙,安全、無碰撞的從起點到達終點。傳統的避障導航方法根據工作環境提供信息程度不同,可分為全局信息已知類,全局信息未知類及部分未知類。在信息未知類導航中,機器人需要使用自身的感知系統檢測所處的外界環境,從而得到障礙物的方位、距離等位置信息,最后,通過一定的算法得出一條無障礙路徑。因此,信息未知類導航對智能化程度具有很高的要求。
[0003]常用的導航方法包括可視圖法、自由空間法、最優控制法、拓撲法及柵格法等。針對未知環境的導航問題,人工勢場法、模糊邏輯算法、神經網絡算法及遺傳算法等也常引入進行研究。申請號CN201110218625.1的發明專利公開了一種室內移動機器人自主導航避障系統及方法,該項發明采用采用分段極大似然質心算法對機器人定位,建立三維環境地圖和柵格地圖,構造路徑網格,基于膨脹算法和Dijkstra算法規劃全局路徑,實現智能避障;申請號為CN201110210600.7的專利公開了一種基于模糊神經網絡的智能輪椅避障方法,該項發明根據設定的模糊神經網絡控制規則,規劃輪椅的輪速和轉角信息,完成輪椅的動態避障,以一定的方法將這些互補或冗余的傳感器信息進行融合,由此實現智能輪椅的避障。它們存在的共同問題是:需要提供專家信息,機器人的智能化程度不高,無法自主地探索未知環境完成避障導航任務。
[0004]1938年,美國著名心理學家斯金納(B.F.Skinner)在其著作《The Behaviorof Organisms: an experimental analysis》中首次提出 了 操作條件反射(OperantConditioning)的概念,并由此創立了操作條件反射理論。斯金納借鑒了巴甫洛夫的“強化”(reinforcement)概念,并把這一概念的內涵進行了革新。他把“強化”分為正強化(positive reinforcement)和負強化(negative reinforcement)兩種,正強化促使有機體對刺激的反應概率增加,而負強化則促使有機體消除該刺激的反應增加。刺激產生反應,反應影響刺激出現的概率,這正是斯金納操作條件反射理論的核心,它體現了人或動物自學習的能力,反映了智能體對環境的自適應性。如果能將Skinner提出的操作條件反射原理應用于機器人避障導航,將會有效提高導航的智能化程度。
【發明內容】
[0005]針對現有技術中存在的機器人避障導航智能化程度不高等問題,本發明提出了一種基于Skinner操作條件反射原理的機器人避障導航方法,使機器人能夠在沒有導師信號的情況下,以“learning-by-doing”的試錯式方式與環境交互,建立操作條件反射,完成避障及導航。[0006]一種基于Skinner操作條件反射原理的機器人避障導航方法,包括以下步驟:
[0007]步驟1,獲得機器人在時刻t的狀態及動作集合。
[0008]在時刻t獲得機器人在環境地圖中的坐標位置,記作Si 11 = (Xi, Yi),以及可能的前進方向(角度),記作A = {akI k = l,2^“,na}, na為動作集大小,以此作為機器人在時刻t的狀態及動作集合。令動作集的初始概率分布為均勻分布。
[0009]步驟2,從動作集中隨機選擇一動作,即擬選擇前行的角度ak。
[0010]步驟3,計算狀態轉移,公式如下:
[0011]
【權利要求】
1.一種基于Skinner操作條件反射原理的機器人避障導航方法,其特征在于將Skinner操作條件反射原理應用于機器人避障導航;所述方法包括以下步驟: 步驟I,獲得機器人在時刻t的狀態及動作集合; 在時刻t獲得機器人在環境地圖中的坐標位置,記作Si|t = (Xi,yi),以及可能的前進方向用角度表示;動作集合記作A = {ak|k = I, 2, --?,11』,31;為前進的角度,1^為動作集大小;令動作集的初始概率分布為均勻分布; 步驟2,從動作集中隨機選擇一動作,即擬選擇前行的角度ak ; 步驟3,計算狀態轉移,公式如下:
2.根據權利要求1所述的一種基于Skinner操作條件反射原理的機器人避障導航方法,其特征在于,所述步驟4負理想度的計算公式為:
3.根據權利要求1所述的一種基于Skinner操作條件反射原理的機器人避障導航方法,其特征在于,所述步驟5取向函數δ的計算公式為:
4.根據權利要求1所述的一種基于Skinner操作條件反射原理的機器人避障導航方法,其特征在于,所述步驟6根據Skinner操作條件反射理論調整動作集概率分布的方法包括以下步驟: 設t時刻狀態8111選擇動作ak執行,感知到來自環境的刺激記為Θ,同時狀態轉移到Sn; ①若Θ為正強化,即δΛ>0,則:
當 a (t) = ak 時:
【文檔編號】G05D1/02GK103792846SQ201410055115
【公開日】2014年5月14日 申請日期:2014年2月18日 優先權日:2014年2月18日
【發明者】阮曉鋼, 黃靜, 于乃功, 魏若巖, 薛坤, 張曉平, 范青武 申請人:北京工業大學