在人機(jī)共存的復(fù)雜環(huán)境中,機(jī)器人的社交導(dǎo)航能力成為了衡量其智能化水平的關(guān)鍵指標(biāo)。社交導(dǎo)航,即在遵循社會(huì)規(guī)范的前提下,機(jī)器人自主執(zhí)行導(dǎo)航任務(wù),這一領(lǐng)域正面臨著前所未有的挑戰(zhàn)。
想象一下,一個(gè)機(jī)器人需要在密集的人群中穿梭,目標(biāo)點(diǎn)恰好位于兩名行人未來(lái)軌跡的交匯點(diǎn)。此時(shí),機(jī)器人不僅要靈活規(guī)避潛在的碰撞風(fēng)險(xiǎn),還需與行人保持適當(dāng)?shù)纳缃痪嚯x,這無(wú)疑對(duì)機(jī)器人的導(dǎo)航算法提出了極高的要求。
傳統(tǒng)的預(yù)建地圖方法在面對(duì)人群密集的動(dòng)態(tài)環(huán)境時(shí)顯得力不從心,而現(xiàn)有的強(qiáng)化學(xué)習(xí)(RL)方法又存在短視決策和過(guò)度依賴(lài)全局信息的問(wèn)題。為了克服這些難題,香港科技大學(xué)(廣州)和香港科技大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一種名為Falcon的新算法。
Falcon算法的核心在于將軌跡預(yù)測(cè)算法融入社交導(dǎo)航任務(wù)中,從而實(shí)現(xiàn)長(zhǎng)期動(dòng)態(tài)避障并提升導(dǎo)航性能。該算法框架由兩個(gè)主要模塊組成:主策略網(wǎng)絡(luò)和時(shí)空預(yù)知模塊。
主策略網(wǎng)絡(luò)是Falcon的“大腦”,負(fù)責(zé)指導(dǎo)機(jī)器人的行動(dòng)。它引入了社會(huì)認(rèn)知懲罰機(jī)制,通過(guò)設(shè)計(jì)專(zhuān)門(mén)的懲罰函數(shù)來(lái)避免機(jī)器人干擾人類(lèi)的未來(lái)軌跡,從而有效規(guī)避碰撞風(fēng)險(xiǎn)并保持社交距離。這些懲罰項(xiàng)包括障礙物碰撞懲罰、人類(lèi)接近懲罰和軌跡阻礙懲罰。
而時(shí)空預(yù)知模塊則結(jié)合軌跡預(yù)測(cè)與多種社交感知輔助任務(wù),顯著增強(qiáng)了機(jī)器人對(duì)未來(lái)環(huán)境動(dòng)態(tài)變化的預(yù)測(cè)能力。它能夠預(yù)測(cè)場(chǎng)景中的人數(shù)、實(shí)時(shí)跟蹤行人位置以及預(yù)測(cè)未來(lái)幾秒內(nèi)行人的路徑,從而幫助機(jī)器人提前規(guī)劃避障策略。
然而,社交導(dǎo)航領(lǐng)域的另一個(gè)重要挑戰(zhàn)在于現(xiàn)有基準(zhǔn)的真實(shí)性不足。現(xiàn)有基準(zhǔn)通常過(guò)于簡(jiǎn)化場(chǎng)景,忽略了場(chǎng)景的復(fù)雜性,同時(shí)行人動(dòng)作僵硬、運(yùn)動(dòng)模式失真,難以反映實(shí)際場(chǎng)景中的交互情況。
為了彌補(bǔ)這些缺陷,研究團(tuán)隊(duì)構(gòu)建了兩個(gè)新的數(shù)據(jù)集——Social-HM3D和Social-MP3D。這兩個(gè)數(shù)據(jù)集基于高精度3D掃描技術(shù),涵蓋了公寓、辦公樓、商場(chǎng)等多種室內(nèi)場(chǎng)景,并采用了多目標(biāo)導(dǎo)向的軌跡生成算法和ORCA動(dòng)態(tài)避障模型來(lái)模擬人類(lèi)的自然行為。這些新基準(zhǔn)不僅平衡了人機(jī)交互的社交密度,還避免了過(guò)度擁擠的情況。
實(shí)驗(yàn)結(jié)果表明,F(xiàn)alcon算法在目標(biāo)達(dá)成和社會(huì)合規(guī)方面表現(xiàn)出色。在Social-HM3D數(shù)據(jù)集中,F(xiàn)alcon達(dá)到了55.15%的成功率和成功路徑效率(SPL),即使在未訓(xùn)練過(guò)的Social-MP3D數(shù)據(jù)集上也能取得55.05%的成功率。同時(shí),在保持社交距離和避免碰撞方面,F(xiàn)alcon也表現(xiàn)出良好的性能。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾個(gè)關(guān)鍵結(jié)論。首先,未來(lái)感知算法優(yōu)于以往的實(shí)時(shí)感知算法,因?yàn)樗軌蛑鲃?dòng)預(yù)測(cè)行人軌跡并提前調(diào)整路徑,從而顯著提升安全性和效率。其次,輔助任務(wù)有助于提高導(dǎo)航性能,其中軌跡預(yù)測(cè)最為重要。最后,社會(huì)認(rèn)知懲罰機(jī)制(SCP)和時(shí)空預(yù)知模塊(SPM)相輔相成,能夠改善性能并加快訓(xùn)練收斂速度。
隨著Falcon算法的提出和新基準(zhǔn)的構(gòu)建,社交導(dǎo)航領(lǐng)域的研究將邁上新的臺(tái)階。這些成果不僅為機(jī)器人提供了更加智能、高效的導(dǎo)航策略,還為未來(lái)的人機(jī)交互和智能機(jī)器人發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。