課程目標(biāo)
實(shí)現(xiàn)Gym、Ray仿真環(huán)境,體驗(yàn)各類實(shí)驗(yàn)
1、了解強(qiáng)化學(xué)習(xí)發(fā)展。
2、掌握單智能體深度強(qiáng)化學(xué)習(xí)。
3、掌握多智能體深度強(qiáng)化學(xué)習(xí)。
4、掌握多任務(wù)深度強(qiáng)化學(xué)習(xí)。
5、掌握強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域GymRetro游戲平臺(tái)、機(jī)器人控制、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理。
6、實(shí)現(xiàn)Gym、Ray仿真環(huán)境。
7、實(shí)際體驗(yàn)QLearning實(shí)驗(yàn)、DQN實(shí)驗(yàn)、DDPG實(shí)驗(yàn)、SARSA實(shí)驗(yàn)、Rainbow實(shí)驗(yàn)、A3C實(shí)驗(yàn)、PPO實(shí)驗(yàn)。
課程大綱
實(shí)驗(yàn)課程注重代碼實(shí)踐,更注重落地應(yīng)用
模塊一:強(qiáng)化學(xué)習(xí)基礎(chǔ) | |||
1.1 強(qiáng)化學(xué)習(xí)簡(jiǎn)介
1.1.1 強(qiáng)化學(xué)習(xí)的概念內(nèi)涵 1.1.2 強(qiáng)化學(xué)習(xí)的發(fā)展歷史 1.1.3 強(qiáng)化學(xué)習(xí)的算法分類 1.1.4 強(qiáng)化學(xué)習(xí)的基本概念 1.2 馬爾科夫決策過(guò)程(MDP) 1.2.1 MDP概念 1.2.2 策略(Policy)概念 1.2.3 價(jià)值函數(shù)(Value Function)概念 1.2.4 模型(Model)概念 1.3 動(dòng)態(tài)規(guī)劃算法(DP) 1.3.1 動(dòng)態(tài)規(guī)劃概念 1.3.2 策略迭代方法(Policy Iteration) 1.3.3 價(jià)值迭代方法(Value Iteration) |
1.4 蒙特卡洛算法(MC)
1.4.1 蒙特卡洛算法概念 1.4.2 探索與利用 1.4.3 多臂老虎機(jī)問(wèn)題 1.5.2 MC、TD、DP算法對(duì)比 1.5 時(shí)序差分算法(TD) 1.5.1 時(shí)間差分算法概念 1.6 Q學(xué)習(xí)(Q-Learning) 1.6.1 Q-Learning算法 1.6.2 SARSA算法 1.6.3 Q-Learning與SARSA 1.7 策略梯度算法(Policy Gradient) 1.7.1 策略梯度算法(Policy Gradient) 1.8 行動(dòng)者-評(píng)論家算法(A2C) 1.8.1 行動(dòng)者-評(píng)論家算法(Actor-Critic) |
||
模塊二:?jiǎn)沃悄荏w強(qiáng)化學(xué)習(xí) | |||
2.1 DQN
2.2 Double DQN 2.3 Dueling DQN 2.4 Distributional Q-function 2.5 Noisy Net |
2.6 Rainbow
2.7 DDPG 2.8 異步多進(jìn)程Actor-critic算法 2.9 Proximal Policy Optimization |
||
模塊三、多智能體強(qiáng)化學(xué)習(xí) | |||
3.1 多智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)
3.1.1 多智能體強(qiáng)化學(xué)習(xí) 3.1.2 多智能體系統(tǒng)的發(fā)展歷史 3.1.3 部分可觀察馬爾科夫決策過(guò)程 3.2 基于值函數(shù)的多智能體深度強(qiáng)化學(xué)習(xí) 3.2.1 基于DQN的早起多智能體方法 3.2.2 協(xié)同多智能體學(xué)習(xí)的價(jià)值分解網(wǎng)絡(luò)(VDN) 3.2.3 單調(diào)值函數(shù)分解(QMIX) 3.2.4 增強(qiáng)智能體間學(xué)習(xí)(RIAL) 3.3 基于策略的多智能體深度強(qiáng)化學(xué)習(xí)(MADDPG) |
|||
模塊四、強(qiáng)化學(xué)習(xí)應(yīng)用 | |||
4.1 強(qiáng)化學(xué)習(xí)在游戲平臺(tái)介紹
4.1.1 Gym Retro游戲平臺(tái) 4.1.2 Atari 2600 4.1.3 Mujoco 4.1.4 Roboschool 4.1.5 TORCS 4.1.6 DMLab-30 4.2強(qiáng)化學(xué)習(xí)在機(jī)器人控制方面應(yīng)用 4.2.1機(jī)器人導(dǎo)航 4.2.2機(jī)械臂控制 4.2.3家庭服務(wù)機(jī)器人 4.2.4機(jī)器人視覺(jué) 4.2.3 機(jī)器人足球 4.3強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛方面應(yīng)用 4.3.1路徑優(yōu)化 |
4.3.2交通信號(hào)燈控制
4.4 強(qiáng)化學(xué)習(xí)在推薦方面應(yīng)用 4.4.1 商品推薦 4.4.2 廣告推薦 4.5 強(qiáng)化學(xué)習(xí)在計(jì)算機(jī)視覺(jué)方面應(yīng)用 4.5.1圖像標(biāo)注框優(yōu)化 4.5.2圖像生成 4.5.3人體姿態(tài)估計(jì) 4.5.4行為識(shí)別 4.5.5目標(biāo)檢測(cè) 4.5.6人臉圖像語(yǔ)義分割 4.6 強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理方面應(yīng)用 4.6.1對(duì)話生成 4.6.2 自然語(yǔ)言問(wèn)題生成 4.6.3網(wǎng)絡(luò)問(wèn)答場(chǎng)景 |
||
模塊五、仿真實(shí)驗(yàn)環(huán)境配置 | |||
5.1 Ubuntu16.04環(huán)境配置
5.1.1前期準(zhǔn)備 5.1.2安裝準(zhǔn)備 5.1.3安裝Anaconda3 5.1.4 pytorch的安裝及配置 5.2 python3基礎(chǔ)知識(shí) |
5.2.1 python安裝與下載
5.2.2 python基礎(chǔ)語(yǔ)法 5.3 pytorch基礎(chǔ)知識(shí) 5.4 深度學(xué)習(xí)基礎(chǔ)知識(shí) 5.5 神經(jīng)網(wǎng)絡(luò)介紹 5.6 深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)demo講解 |
||
模塊六、實(shí)操實(shí)驗(yàn) | |||
6.1 Gym虛擬環(huán)境
6.1.1 Gym虛擬環(huán)境安裝 6.1.2 Gym虛擬環(huán)境基礎(chǔ)知識(shí) 6.2 利用Q-learning算法解決出租車調(diào)度問(wèn)題 6.3.利用Q-learning解決“小車上山”問(wèn)題 6.4 利用SARSA算法解決出租車調(diào)度問(wèn)題 6.5 利用DQN解決“車-桿”問(wèn)題 6.6 利用DQN算法訓(xùn)練Flappy Bird游戲 6.7 利用DQN算法訓(xùn)練“太空侵略者”游戲 |
6.8 利用Rainbow算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲
6.9 利用Rainbow算法訓(xùn)練“打磚塊”游戲 6.10 利用DDPG算法解決Pendulum問(wèn)題 6.11 利用DDPG算法實(shí)現(xiàn)簡(jiǎn)單的機(jī)械臂控制任務(wù) 6.12 利用A3C算法在仿真賽道上訓(xùn)練自動(dòng)駕駛賽車 6.13 利用A3C算法訓(xùn)練“乒乓球?qū)?zhàn)”游戲 6.14 利用PPO算法訓(xùn)練“坦克對(duì)戰(zhàn)”問(wèn)題 6.15 利用PPO算法在仿真系統(tǒng)上實(shí)現(xiàn)“模擬月球著陸”問(wèn)題 |
案例實(shí)驗(yàn)展示
贈(zèng)送課件、代碼、數(shù)據(jù)、配套實(shí)踐手冊(cè)
實(shí)力專家主講
歷屆好評(píng)最多的實(shí)力派講師
劉馳老師
北京理工大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng),教授,博士生導(dǎo)師,國(guó)家優(yōu)秀青年科學(xué)基金獲得者,英國(guó)工程技術(shù)學(xué)會(huì)會(huì)士、英國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士、中國(guó)電子學(xué)會(huì)會(huì)士。分別于清華大學(xué)和英國(guó)帝國(guó)理工學(xué)院獲得學(xué)士和博士學(xué)位,曾任美國(guó)IBM T.J. Watson研究中心和IBM中國(guó)研究院研究主管,并在德國(guó)電信研究總院(柏林)任博士后研究員。研究方向?yàn)橹悄芪锫?lián)網(wǎng)與大數(shù)據(jù)技術(shù)?,F(xiàn)任國(guó)家信息產(chǎn)業(yè)“十四五”規(guī)劃專家顧問(wèn)組成員、中國(guó)電子學(xué)會(huì)理事、第四屆全國(guó)信標(biāo)委技術(shù)委員會(huì)委員等、CCF青工委執(zhí)委/杰出會(huì)員、IEEE Transactions on Network Science and Engineering編委等。并獲得省部級(jí)一等獎(jiǎng)1項(xiàng)、二等獎(jiǎng)1項(xiàng)、三等獎(jiǎng)1項(xiàng)。出版書籍《深度強(qiáng)化學(xué)習(xí)學(xué)術(shù)前沿與應(yīng)用實(shí)戰(zhàn)》
頒發(fā)權(quán)威證書
工業(yè)和信息化部人才交流中心證書
工信部授權(quán)證書
工業(yè)和信息化人才證書封皮
證書樣本
報(bào)名詳情
名額有限,請(qǐng)?zhí)崆皥?bào)名!
報(bào)名須知
培訓(xùn)對(duì)象:全國(guó)高校、高職計(jì)算機(jī)、大數(shù)據(jù)、人工智能等相關(guān)專業(yè)一線授課教師、實(shí)驗(yàn)指導(dǎo)教師、研究生等。
培訓(xùn)時(shí)間:2021月7月26日-7月31日,每天9:00-17:00
培訓(xùn)費(fèi)用:5500元(含培訓(xùn)費(fèi)、教材費(fèi)、資料費(fèi)、場(chǎng)地費(fèi)、午餐費(fèi)(自助餐)、答謝晚宴等)
頒發(fā)證書
參加相關(guān)培訓(xùn)并通過(guò)考試的學(xué)員,可以獲得:
工業(yè)和信息化部頒發(fā)《人工智能工程師》證書。
該證書可在工信部相關(guān)網(wǎng)站查詢,可作為能力評(píng)價(jià)、考核和任職的重要依據(jù)。
考試及證書費(fèi)用(可選):500元/人。
師資班精彩回顧
已連續(xù)舉辦14屆,參與高校1800所,人數(shù)8000+