韩国漫画漫免费观看免费,无码乱肉视频免费大全合集,搡老岳熟女国产熟妇

學會動態(tài)

Activities

首頁 - 學會動態(tài) - 學會新聞

第五屆深度強化學習研討會順利召開

日期：2021-01-25 15:11

研討會總結(jié)

2021年1月23日，第五屆深度強化學習理論與應(yīng)用研討會順利舉行。上午在中科院自動化所分組討論交流了深度強化學習（DRL）與游戲，DRL與駕駛，DRL與機器人和自動機器學習。下午，邀請了幾位報告人在Zoom會議室/Bilibili在線直播，分別從深度強化學習及相關(guān)的模仿學習、小樣本學習、經(jīng)驗回放機制、智能駕駛應(yīng)用，統(tǒng)計前向規(guī)劃、聯(lián)邦學習等不同角度進行了深入淺出的精彩分享。線上直播最高峰有1.2萬人同時觀看。報告過程中大家討論積極，交流深入，收獲良多。在征求報告人同意之后，我們將為大家?guī)砭蕡蟾娴幕胤乓曨l，請關(guān)注后續(xù)消息。

研討會詳情：https://mp.weixin.qq.com/s/8xwsTojX7dfOnAP5pS9r_A

會議時間：2021年1月23日

會議形式：ZOOM會議&Bilibili在線直播

主辦單位：

中科院自動化所復雜系統(tǒng)管理與控制國家重點實驗室

中國自動化學會

承辦單位：

中科院自動化所-深度強化學習團隊

中國自動化學會認知計算與系統(tǒng)專業(yè)委員會

研討會報告

第一場報告：

13:30-14:10：從數(shù)學與信息處理的視角看模仿學習
報告人：孫富春，清華大學長聘教授

報告首先回顧了從控制論到人工智能的發(fā)展歷史，特別強調(diào)了基于感知-動作模式的人工智能行為主義范式。進而，從數(shù)學的視角討論了行為模仿問題，給出了智能體二階情形下行為模仿的理論結(jié)果。接著，從控制工程和人工智能的視角討論行為模仿，給出了智能體行為模仿和技能的理論方法。最后了從優(yōu)化函數(shù)和可解釋性等方面討論了數(shù)學方法、控制工程方法以及人工智能方法的異同，給出了三種方法強強聯(lián)合的理論框架。

第二場報告：

14:10-14:50：面向智能制造的認知計算與深度學習

報告人：文成林，廣東石油化工學院教授

介紹了課題組在深度學習、強化學習、多級聯(lián)邦學習等模型訓練與收斂性分析等方面的研究與進展。介紹在面向智能制造的認知計算理論與方法方面的新思想：非結(jié)構(gòu)復雜問題的統(tǒng)一形式化描述與度量、一體化認知分析模型與認知計算方法、多智能形態(tài)統(tǒng)一測試平臺與評測體系等。

第三場報告：

14:50-15:30：Experience Replay in Deep Reinforcement Learning

報告人：陳春林，南京大學教授

報告介紹了在深度強化學習中廣泛應(yīng)用的經(jīng)驗回放機制設(shè)計。該機制使得在線強化學習算法可充分利用過去的經(jīng)驗。詳細介紹了一系列用于提高采樣效率，更好地平衡探索和利用的經(jīng)驗回放方法，包括優(yōu)先經(jīng)驗回放(PER)、使用自節(jié)奏優(yōu)先課程學習的深度課程強化學習(DCRL)和量子啟發(fā)經(jīng)驗回放(QER)。

第四場報告：

15:30-16:10：ApplyReinforcement Learning in Autonomous Vehicle Design

報告人：李升波，清華大學長聘教授

報告總結(jié)和回顧了主流的強化學習算法，以及在高級自動駕駛汽車應(yīng)用中的工程挑戰(zhàn)，包括稀疏獎勵環(huán)境下的低收斂速度、安全約束和不可行性、不確定環(huán)境下的魯棒性增強等問題。最后，將介紹兩種最近開發(fā)的強化學習算法，即分布式Soft Actor-Critic(DSAC)和混合Actor-Critic(MAC)，以及它們在自動駕駛汽車決策和運動控制中的應(yīng)用。

第五場報告：

16:20-17:00: General Game AI with Statistical Forward Planning Algorithms

報告人：Simon Lucas，QUML Professor

報告介紹了統(tǒng)計前向規(guī)劃方法，是游戲人工智能常用的一種簡單快速的求解方法，包括蒙特卡羅樹搜索和滾動域演化算法。解釋了為什么這些算法如此有效，即使模型是不完整的，甚至可能是不正確的，只要求預測結(jié)果與真實結(jié)果具有等級相關(guān)性即可。描述了一些關(guān)于分層統(tǒng)計前向規(guī)劃的最近工作，改進了蒙特卡羅圖搜索算法，使其具有更好的樣本效率和長期學習的潛力。

第六場報告：

17:00-17:40：Communication-efficient and privacy-preserving federated learning

報告人：Yaochu Jin (金耀初)，University of Surrey Professor

報告介紹了關(guān)于高效通信聯(lián)邦學習的兩種最新方法，一種是基于結(jié)合時間加權(quán)平均的異步模型更新，另一種是使用訓練過的三元量化。此外，提出了一種分布式附加加密方法，在不依賴可信第三方的情況下對局部模型參數(shù)進行加密，進一步增強了隱私保護。最后，簡要討論了聯(lián)邦學習中仍存在的挑戰(zhàn)和未來的工作。

來源：深度強化學習CASIA