Activities
2023年8月5日,中國自動(dòng)化學(xué)會(huì)共融機(jī)器人專委會(huì)在西安交通大學(xué)創(chuàng)新港校區(qū)舉辦了第一期多智能體強(qiáng)化學(xué)習(xí)講習(xí)班。
本次講習(xí)班由西安交通大學(xué)蘭旭光教授、諾亞方舟實(shí)驗(yàn)室科學(xué)家郝建業(yè)副教授擔(dān)任學(xué)術(shù)主任,由南京大學(xué)人工智能學(xué)院的俞揚(yáng)教授、中山大學(xué)計(jì)算機(jī)學(xué)院的余超教授、清華大學(xué)交叉信息院助理教授許華哲、北京大學(xué)人工智能研究院助理教授楊耀東、上海人工智能實(shí)驗(yàn)室青年研究員白辰甲以及上海交通大學(xué)約翰·霍普克羅夫特計(jì)算機(jī)科學(xué)中心助理教授溫穎等國內(nèi)一線新銳人工智能專家擔(dān)任講習(xí)教授。講習(xí)班共收到來自全國各地的近140名學(xué)員報(bào)名,學(xué)員來自高校、企業(yè)等相關(guān)機(jī)構(gòu)。講習(xí)班由郝建業(yè)副教授、趙飛研究員主持。
蘭旭光教授作開班致辭并點(diǎn)明本次講習(xí)班主題——“將人工智能帶入物理世界”。講習(xí)班教授與學(xué)員針對(duì)多智能體人工智能強(qiáng)化學(xué)習(xí)開展了詳盡熱烈的討論。
俞揚(yáng)教授針對(duì)智能出行、物流派單等強(qiáng)化學(xué)習(xí)應(yīng)用落地過程中存在的數(shù)據(jù)收集昂貴等問題,以人類及小鼠的海馬體細(xì)胞的信息編碼、集成、解碼及記憶功能為例,講述了環(huán)境仿真器與世界模型的起源與發(fā)展、應(yīng)用案例以及當(dāng)前面臨的挑戰(zhàn)。俞揚(yáng)教授對(duì)序貫決策問題進(jìn)行了詳盡的剖析,闡述了模仿學(xué)習(xí)、行為克隆、基于模型的強(qiáng)化學(xué)習(xí)框架下各種算法的理論及對(duì)應(yīng)的特點(diǎn),并從模型動(dòng)力學(xué)、神經(jīng)網(wǎng)絡(luò)所造成的復(fù)合誤差、數(shù)據(jù)漂移以及策略泛化的角度,說明了世界模型學(xué)習(xí)在強(qiáng)化學(xué)習(xí)、數(shù)據(jù)增強(qiáng)及多智能體系統(tǒng)中存在的問題,探討了策略自我進(jìn)化、情景學(xué)習(xí)、離線學(xué)習(xí)等可能的解決方案,并分享了課題組的相關(guān)成果。
余超教授從安保系統(tǒng)、拍賣任務(wù)、德州撲克等非完全信息博弈的典型應(yīng)用入手,講述了博弈論機(jī)人工智能的發(fā)展歷程,對(duì)當(dāng)代智能博弈對(duì)抗提出了深刻的見解。余超教授介紹了自博弈、神經(jīng)虛擬自博弈、反事實(shí)遺憾最小化及策略空間最佳響應(yīng)等經(jīng)典方法,分析了其表征與優(yōu)化困難、非平穩(wěn)目標(biāo)、效率低下以及環(huán)形策略等問題,結(jié)合廣義赫爾姆霍茲分解原理,從知識(shí)蒸餾、信念虛擬博弈、策略種群多樣性的角度給出了多種潛在的增強(qiáng)方法,并對(duì)非零和博弈任務(wù)、表征及策略泛化、人機(jī)增強(qiáng)決策等應(yīng)用進(jìn)行了進(jìn)一步展望。
許華哲老師講述了決策智能、感知智能、機(jī)器人學(xué)的基本概念,對(duì)具身智能中的視覺外觀、幾何位姿、組合能力及多智能體協(xié)作泛化等問題進(jìn)行了深刻地分析。許華哲老師提出,具身控制應(yīng)從計(jì)算機(jī)視覺的成功中進(jìn)行學(xué)習(xí),在任務(wù)多樣性、現(xiàn)實(shí)場景、高維及連續(xù)控制及過擬合方面實(shí)現(xiàn)標(biāo)準(zhǔn)化,進(jìn)而提升學(xué)習(xí)算法在具有低質(zhì)量點(diǎn)云及任意位姿的真實(shí)場景中的泛化能力。許華哲老師分享了課題組在相關(guān)性表征泛化、預(yù)訓(xùn)練視覺模型、分布式觸覺機(jī)械臂以及離線多智能體強(qiáng)化學(xué)習(xí)及并行編碼控制方面的成果,通過生動(dòng)直觀的案例展示了具身智能泛化能力后續(xù)可延伸的問題。
楊耀東老師從靈巧雙手操縱、無人機(jī)群編隊(duì)、星際爭霸游戲等多智能體博弈合作的應(yīng)用出發(fā),講解了合作式多智能體強(qiáng)化學(xué)習(xí)任務(wù)中值分解算法及個(gè)體-全局最優(yōu)一致性等相關(guān)概念,對(duì)基于策略梯度的多智能體優(yōu)化算法中存在的方差大問題進(jìn)行了剖析。楊耀東老師從多智能體信賴域優(yōu)化方法入手,分析了能夠保障合作策略單調(diào)遞增的優(yōu)勢(shì)函數(shù)分解定理,并對(duì)當(dāng)前業(yè)界性能最優(yōu)的多智能體Transformer算法及安全約束進(jìn)行了講解。進(jìn)一步,楊耀東老師介紹了基于多智能體鏡像學(xué)習(xí)合作博弈求解框架和最大熵優(yōu)勢(shì)函數(shù)分解定理,并對(duì)具有多種學(xué)習(xí)算法及測(cè)試環(huán)境的多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練平臺(tái)MARLlib進(jìn)行了分享。
白辰甲老師從離線強(qiáng)化學(xué)習(xí)中存在的采樣策略和學(xué)習(xí)策略不匹配、值函數(shù)迭代產(chǎn)生的分布漂移等問題出發(fā),分析了策略約束、保守值函數(shù)等現(xiàn)有方法的特點(diǎn)及存在的問題,并給出了廣義值函數(shù)的不確定性懲罰、魯棒的離線策略學(xué)習(xí)以及貝葉斯的不確定性估計(jì)等解決方案。白辰甲老師介紹了廣義模仿學(xué)習(xí)的概念,說明模仿學(xué)習(xí)不需要通過自舉方式求解學(xué)習(xí)目標(biāo),從而避免分布漂移帶來的誤差,并著重強(qiáng)調(diào)了如何從非最優(yōu)軌跡中學(xué)習(xí)最優(yōu)策略是廣義模仿的核心問題。進(jìn)一步,白辰甲老師對(duì)大模型與廣義模仿學(xué)習(xí)的關(guān)系進(jìn)行了總結(jié),介紹了Decision Transformer、Trajectory Transformer、Prompt Decision Transformer、MTDiffuser等一系列工作,并對(duì)大語言模型指導(dǎo)規(guī)劃和技能調(diào)用、獎(jiǎng)勵(lì)生成等應(yīng)用進(jìn)行了展望。
溫穎老師以多智能體強(qiáng)化學(xué)習(xí)中的零樣本協(xié)作問題為出發(fā)點(diǎn),指出現(xiàn)有基于種群的學(xué)習(xí)方法雖然試圖通過在智能體種群中優(yōu)化固定目標(biāo)以提升策略或行為的多樣性,但在開放環(huán)境下仍存在合作不兼容的問題。溫穎老師從博弈論和圖論的角度對(duì)合作不兼容問題產(chǎn)生的原因進(jìn)行了分析,介紹了集中偏好的量化評(píng)估方法與基于圖結(jié)構(gòu)的合作博弈開放式框架,并展示了該方法在多智能體及人機(jī)合作任務(wù)中可以解決零樣本協(xié)作中的合作不兼容問題。進(jìn)一步,溫穎老師展望了大語言模型和生成式智能體在開放世界中的應(yīng)用前景,并分析了其中存在的人類行為理解、多智能體分布式?jīng)Q策等問題。

本次講習(xí)班的舉辦,對(duì)促進(jìn)人工智能前沿發(fā)展方向的研究與推廣起到了促進(jìn)作用,對(duì)提升相關(guān)學(xué)科學(xué)者對(duì)人工智能研究的興趣起到了推動(dòng)作用。整個(gè)講習(xí)過程中,學(xué)術(shù)氛圍濃厚,參加研討班的講習(xí)班學(xué)員提出了多智能體強(qiáng)化學(xué)習(xí)、智能博弈、大模型及具身智能等相關(guān)問題。各位專家教授根據(jù)學(xué)員們的提問,由淺入深地進(jìn)行了多維度的專業(yè)解答。
中國自動(dòng)化學(xué)會(huì)共融機(jī)器人專委會(huì)將根據(jù)學(xué)科發(fā)展進(jìn)展,不定期組織人工智能講習(xí)班,歡迎相關(guān)從業(yè)人員關(guān)注參加。