多機器人路徑實踐論文

1多機器人路徑規劃方法

多機器人路徑實踐論文

單個機器人的路徑規劃是找出從起始點至終點的一條最短無碰路徑。多個機器人的路徑規劃側重考慮整個系統的最優路徑,如系統的總耗時間最少路徑或是系統總路徑最短等。從目前國內外的研究來看,在規劃多機器人路徑時,更多考慮的是多機器人之間的協調和合作式的路徑規劃。

目前國內外多機器人路徑規劃研究方法分爲傳統方法、智能優化方法和其他方法三大類。其中傳統方法主要有基於圖論的方法(如可視圖法、自由空間法、柵格法、Voronoi圖法以及人工勢場方法等);智能優化方法主要有遺傳算法、蟻羣算法、免疫算法、神經網絡、強化學習等;其他方法主要有動態規劃、最優控制算法、模糊控制等。它們中的大部分都是從單個機器人路徑規劃方法擴展而來的。

1)傳統方法多機器人路徑規劃傳統方法的特點主要體現在基於圖論的基礎上。方法一般都是先將環境構建成一個圖,然後再從圖中尋找最優的路徑。其優點是比較簡單,比較容易實現;缺點是得到的路徑有可能不是最優路徑,而是次優路徑。薄喜柱等人[4]提出的一種新路徑規劃方法的基本思想就是基於柵格類的環境表示和障礙地圖的。而人工勢場方法的基本思想是將移動機器人在環境中的運動視爲一種虛擬人工受力場中的運動。障礙物對移動機器人產生斥力,目標點產生引力,引力和斥力周圍由一定的算法產生相應的勢,機器人在勢場中受到抽象力作用,抽象力使得機器人繞過障礙物。其優點是適合未知環境下的規劃,不會出現維數爆炸問題;但是人工勢場法也容易陷入局部最小,並且存在丟失解的部分有用信息的可能。顧國昌等人[5]提出了引用總體勢減小的動態調度技術的多機器人路徑規劃,較好地解決了這個問題。

2)智能優化方法多機器人路徑規劃的智能優化方(算)法是隨着近年來智能計算髮展而產生的一些新方法。其相對於傳統方法更加智能化,且日益成爲國內外研究的重點。

遺傳算法是近年來計算智能研究的熱點,作爲一種基於羣體進化的概率優化方法,適用於處理傳統搜索算法難以解決的複雜和非線性問題,如多機器的路徑規劃問題。在路徑規劃中,其基本思想是先用鏈接圖法把環境地圖構建成一個路徑節點鏈接網,將路徑個體表達爲路徑中一系列中途節點,並轉換爲二進制串;然後進行遺傳操作(如選擇、交叉、複製、變異),經過N次進化,輸出當前的最優個體即機器人的最優路徑。遺傳算法的缺點是運算速度不快,進化衆多的規劃要佔據很大的存儲空間和運算時間;優點是有效避免了局部極小值問題,且計算量較小。

孫樹棟等人[6,7]在這方面較早地展開了研究,提出的基於集中協調思想的一種混合遺傳算法來規劃多機器人路徑方法較好地解決了避障問題。但不足的是該方法必須建立環境地圖,在環境未知情況下的規劃沒有得到很好的解決;且規劃只能保證找到一個比較滿意的解,在求解全局最優解時仍有侷限。

文獻[8]中提出的一種基於定長十進編碼方法有效降低了遺傳算法的編碼難度,克服了已有的變長編碼機制及定長二進制編碼機制需特殊遺傳操作算子和特殊解碼的缺陷,使得算法更加簡單有效。

智能計算的另一種常見的方法——蟻羣算法屬於隨機搜索的仿生算法。其基本思想是模擬螞蟻羣體的覓食運動過程來實現尋優,通過螞蟻羣體中各個體之間的相互作用,分佈、並行地解決組合優化問題。該算法同樣比較適合解決多機器人的路徑規劃問題。

朱慶保[9]提出了在全局未知環境下多機器人運動螞蟻導航算法。該方法將全局目標點映射到機器人視野域邊界附近作爲局部導航子目標,再由兩組螞蟻相互協作完成機器人視野域內局部最優路徑的搜索,然後在此基礎上進行與其他機器人的碰撞預測與避碰規劃。因此,機器人的前進路徑不斷被動態修改,從而在每條局部優化路徑引導下,使機器人沿一條全局優化的路徑到達目標點。但其不足是在動態不確定的環境中路徑規劃時間開銷劇增,而且機器人缺乏必要的學習,以至於整個機器人系統路徑難以是最優路徑。

強化學習[10,11](又稱再激勵學習)是一種重要的機器學習方法。它是一種智能體從環境狀態到行爲映射的學習,使得行爲從環境中獲得積累獎賞值最大。其原理如圖1所示。

強化學習算法一般包含了兩個步驟:a)從當前學習循環的值函數確定新的行爲策略;b)在新的行爲策略指導下,通過所獲得的瞬時獎懲值對該策略進行評估。學習循環過程如下所示,直到值函數和策略收斂:

玽0→π1→v1→π2→…→v*→π*→v*

目前比較常見的強化學習方法有:MonteCarlo方法、動態規劃方法、TD(時間差分)方法。其中TD算法包含Sarsa算法、Q學習算法以及Dyna-Q算法等。其Q值函數迭代公式分別爲

TD(0)策略:V(si)←V(si)+α[γi+1+γV(si+1)-V(si)]

Sarsa算法:Q(st,at)←Q(st,at)+α[γt+1+γQ(st+1,at.+1)-Q(st,at)]玅s′學習算法:Qπ(s,a)=∑Pαss′[Rass′+γVπ(s′)]

近年來,基於強化學習的路徑規劃日益成爲國內外學者研究的熱點。ric[12]首次把強化學習引入到多機器人環境中。而基於強化學習的多機器人路徑規劃的優點主要體現在:無須建立精確的環境模型,簡化了智能體的編程;無須構建環境地圖;強化學習可以把路徑規劃、避碰、避障、協作等問題統一解決。

張芳等人[13]提出了基於再激勵協調避障路徑規劃方法,把再勵函數設計爲基於行爲分解的無模型非均勻結構,新的.再勵函數結構使得學習速度得以提高且有較好的魯棒性。同時,證明了在路徑規劃中,機器人的趨向目標和避障行爲密切相關,對反映各基本行爲的再勵函數取加權和來表示總的再勵函數要優於取直接和的表示方式,也反映了再勵函數設計得合理與否及其確切程度將影響再勵學習的收斂速度。王醒策等人[14]在動態編隊的強化學習算法方面展開了研究。宋一然[15]則提出了分段再勵函數的強化學習方法進行路徑規劃。其缺點是學習次數較多、效率不高,當機器人數目增加時,它有可能面臨維數災難的困難。所以,基於強化學習的路徑規劃在多機器人環境下的學習將變得比較困難,需要對傳統的強化學習加以優化,如基於人工神經網絡的強化學習[16]等。

3)其他方法除了以上國內外幾種比較常見且研究較多的方法外,還有唐振民等人[17]提出的基於動態規劃思想的多機器人路徑規劃,把運籌學中的動態規劃思想與Dijkstra算法引入到多機器人的路徑規劃中,用動態規劃的基本思想來解決圖論中的費用流問題和路徑規劃中的層級動態聯盟問題。其選擇距離鄰近法作爲聯盟參考依據。一個機器人的鄰居是指在地理位置上分佈在這個機器人周圍的其他機器人;與該機器人最近鄰的機器人爲第一層鄰居,第一層鄰居的鄰居爲該機器人的第二層鄰居,依此類推。那麼層級越高(即越近)的鄰居,它滿足協作要求的可能性越大。動態規劃算法實質上是一種以空間換時間的技術,它在實現的過程中,必須存儲產生過程中的各種狀態,其空間複雜度要大於其他算法,故動態規劃方法比較適合多機器人的全局路徑規劃。

孫茂相等人[18]提出了最優控制與智能決策相結合的多移動機器人路徑規劃方法。其首先構造一個以各機器人最優運動狀態數據庫爲核心的實時專家系統,在離線狀態下完成;然後各機器人在此專家系統的支持下,以最優規劃策略爲基礎,採用速度遷移算法,自主決定其控制。該方法擁有較好的穩定性與複雜度。焦立男等人[19]提出的基於局部傳感和通信的多機器人運動規劃框架較好地解決了多機器人路徑規劃在局部在線規劃的系統框架問題。沈捷等人[20]提出了保持隊形的多移動機器人路徑規劃。以基於行爲的導航算法爲基礎,把機器人隊列的運動過程劃分爲正常運動、避障和恢復隊形三個階段。在避障階段,引入虛擬機器人使隊形保持部分完整;當隊形被嚴重打亂時,規劃機器人的局部目標位姿使隊列快速恢復隊形。其算法重點爲避障機器人進入避障狀態,暫時脫離隊列,並以虛擬機器人代替避障機器人。

2多機器人避碰和避障

避障和避碰是多機器人路徑規劃研究中需要考慮的重點問題之一。避障和避碰主要討論的內容有防止碰撞;衝突消解、避免擁塞;如何避免死鎖。在路徑規劃中常見的多機器人避障方法[21]有主從控制法、動態優先法(建立在機器人之間的通信協商上)、交通規則法、速率調整法,以及障礙物膨脹法、基於人工勢場的方法等。

目前國內外對於多機器人避障展開的研究還不是很多,比較典型的有徐潼等人[22]以chard的思想爲基礎,擴充並完善了路徑/速度分解方案來協調多機器人,設立集中管理゛gent進行整體規劃,爲每個機器人規劃路徑;並根據優先級規則對運動特徵進行分佈式規劃以避免機器人間的衝突。周明等人[23]提出分佈式智能避撞規劃系統,將原來比較複雜的大系統轉換爲相對簡單的子系統問題,由各智能機器人依據任務要求和環境變化,獨立調整自身運動狀態,完成任務的分佈式智能決策體系結構。任炏等人[24]提出了基於過程獎賞和優先掃除的強化學習多機器人系統的衝突消解方法。該算法能夠顯著減少衝突,避免死鎖,提高了系統整體性能。歐錦軍等人琜25]提出了通過調整機器人的運動速度實現多機器人避碰,將避碰問題轉換爲高維線性空間的優化問題,並進一步將其轉換爲線性方程的求解。該方法的缺點是系統的複雜度較高、計算量太大。

人工勢場方法的特點是計算簡潔、實時性強、便於數學描述,且適合於多自由度機器人環境,但容易產生抖動和陷入局部極小。爲了克服其缺點,景興建等人[26]提出了人工協調場的方法,在傳統排斥力場中增加一個協調力,並將吸引力、排斥力和協調力與局部環境下機器人的運動狀態和運動要求結合起來,有效地保證機器人的安全性,提高機器人在複雜動態環境下行爲決策的準確性和魯棒性。

3多機器人協作和協調機制

多機器人間的運動協調[27~31]是多機器人路徑規劃的關鍵,也是多機器人與單機器人路徑規劃相區別的根本所在。多機器人系統在複雜動態實時環境下,由於受到時間、資源及任務要求的約束,需要在有限時間、資源的情況下進行資源分配、任務調配、衝突解決等協調合作問題,而機器人間的協調與協作,能夠大大地提高整個系統的效率和魯棒性,成爲系統完成控制或解決任務的關鍵。

目前已有的協調方式分爲集中式、分佈式和混合式三種。在集中式協調中,集中規劃器詳細地規劃出每個機器人的動作,通常的做法是將多個機器人看做一個多自由度的機器人進行規劃;而分佈式協調規劃中,機器人之間進行合作,將一個任務分成多個子任務,根據各自的特點完成不同的子任務,從而共同完成總任務;混合式協調是集中式和分佈式混合在一起的形式。