課程目標
實現(xiàn)Gym、Ray仿真環(huán)境,體驗各類實驗
1、了解強化學習發(fā)展。
2、掌握單智能體深度強化學習。
3、掌握多智能體深度強化學習。
4、掌握多任務深度強化學習。
5、掌握強化學習應用領域GymRetro游戲平臺、機器人控制、計算機視覺、自然語言處理。
6、實現(xiàn)Gym、Ray仿真環(huán)境。
7、實際體驗QLearning實驗、DQN實驗、DDPG實驗、SARSA實驗、Rainbow實驗、A3C實驗、PPO實驗。
課程大綱
實驗課程注重代碼實踐,更注重落地應用
模塊一:強化學習基礎 | |||
1.1 強化學習簡介
1.1.1 強化學習的概念內(nèi)涵 1.1.2 強化學習的發(fā)展歷史 1.1.3 強化學習的算法分類 1.1.4 強化學習的基本概念 1.2 馬爾科夫決策過程(MDP) 1.2.1 MDP概念 1.2.2 策略(Policy)概念 1.2.3 價值函數(shù)(Value Function)概念 1.2.4 模型(Model)概念 1.3 動態(tài)規(guī)劃算法(DP) 1.3.1 動態(tài)規(guī)劃概念 1.3.2 策略迭代方法(Policy Iteration) 1.3.3 價值迭代方法(Value Iteration) |
1.4 蒙特卡洛算法(MC)
1.4.1 蒙特卡洛算法概念 1.4.2 探索與利用 1.4.3 多臂老虎機問題 1.5.2 MC、TD、DP算法對比 1.5 時序差分算法(TD) 1.5.1 時間差分算法概念 1.6 Q學習(Q-Learning) 1.6.1 Q-Learning算法 1.6.2 SARSA算法 1.6.3 Q-Learning與SARSA 1.7 策略梯度算法(Policy Gradient) 1.7.1 策略梯度算法(Policy Gradient) 1.8 行動者-評論家算法(A2C) 1.8.1 行動者-評論家算法(Actor-Critic) |
||
模塊二:單智能體強化學習 | |||
2.1 DQN
2.2 Double DQN 2.3 Dueling DQN 2.4 Distributional Q-function 2.5 Noisy Net |
2.6 Rainbow
2.7 DDPG 2.8 異步多進程Actor-critic算法 2.9 Proximal Policy Optimization |
||
模塊三、多智能體強化學習 | |||
3.1 多智能體強化學習基礎
3.1.1 多智能體強化學習 3.1.2 多智能體系統(tǒng)的發(fā)展歷史 3.1.3 部分可觀察馬爾科夫決策過程 3.2 基于值函數(shù)的多智能體深度強化學習 3.2.1 基于DQN的早起多智能體方法 3.2.2 協(xié)同多智能體學習的價值分解網(wǎng)絡(VDN) 3.2.3 單調(diào)值函數(shù)分解(QMIX) 3.2.4 增強智能體間學習(RIAL) 3.3 基于策略的多智能體深度強化學習(MADDPG) |
|||
模塊四、強化學習應用 | |||
4.1 強化學習在游戲平臺介紹
4.1.1 Gym Retro游戲平臺 4.1.2 Atari 2600 4.1.3 Mujoco 4.1.4 Roboschool 4.1.5 TORCS 4.1.6 DMLab-30 4.2強化學習在機器人控制方面應用 4.2.1機器人導航 4.2.2機械臂控制 4.2.3家庭服務機器人 4.2.4機器人視覺 4.2.3 機器人足球 4.3強化學習在自動駕駛方面應用 4.3.1路徑優(yōu)化 |
4.3.2交通信號燈控制
4.4 強化學習在推薦方面應用 4.4.1 商品推薦 4.4.2 廣告推薦 4.5 強化學習在計算機視覺方面應用 4.5.1圖像標注框優(yōu)化 4.5.2圖像生成 4.5.3人體姿態(tài)估計 4.5.4行為識別 4.5.5目標檢測 4.5.6人臉圖像語義分割 4.6 強化學習在自然語言處理方面應用 4.6.1對話生成 4.6.2 自然語言問題生成 4.6.3網(wǎng)絡問答場景 |
||
模塊五、仿真實驗環(huán)境配置 | |||
5.1 Ubuntu16.04環(huán)境配置
5.1.1前期準備 5.1.2安裝準備 5.1.3安裝Anaconda3 5.1.4 pytorch的安裝及配置 5.2 python3基礎知識 |
5.2.1 python安裝與下載
5.2.2 python基礎語法 5.3 pytorch基礎知識 5.4 深度學習基礎知識 5.5 神經(jīng)網(wǎng)絡介紹 5.6 深度神經(jīng)網(wǎng)絡基礎demo講解 |
||
模塊六、實操實驗 | |||
6.1 Gym虛擬環(huán)境
6.1.1 Gym虛擬環(huán)境安裝 6.1.2 Gym虛擬環(huán)境基礎知識 6.2 利用Q-learning算法解決出租車調(diào)度問題 6.3.利用Q-learning解決“小車上山”問題 6.4 利用SARSA算法解決出租車調(diào)度問題 6.5 利用DQN解決“車-桿”問題 6.6 利用DQN算法訓練Flappy Bird游戲 6.7 利用DQN算法訓練“太空侵略者”游戲 |
6.8 利用Rainbow算法訓練“乒乓球?qū)?zhàn)”游戲
6.9 利用Rainbow算法訓練“打磚塊”游戲 6.10 利用DDPG算法解決Pendulum問題 6.11 利用DDPG算法實現(xiàn)簡單的機械臂控制任務 6.12 利用A3C算法在仿真賽道上訓練自動駕駛賽車 6.13 利用A3C算法訓練“乒乓球?qū)?zhàn)”游戲 6.14 利用PPO算法訓練“坦克對戰(zhàn)”問題 6.15 利用PPO算法在仿真系統(tǒng)上實現(xiàn)“模擬月球著陸”問題 |
案例實驗展示
贈送課件、代碼、數(shù)據(jù)、配套實踐手冊
實力專家主講
歷屆好評最多的實力派講師
劉馳老師
北京理工大學計算機學院副院長,教授,博士生導師,國家優(yōu)秀青年科學基金獲得者,英國工程技術學會會士、英國計算機學會會士、中國電子學會會士。分別于清華大學和英國帝國理工學院獲得學士和博士學位,曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管,并在德國電信研究總院(柏林)任博士后研究員。研究方向為智能物聯(lián)網(wǎng)與大數(shù)據(jù)技術?,F(xiàn)任國家信息產(chǎn)業(yè)“十四五”規(guī)劃專家顧問組成員、中國電子學會理事、第四屆全國信標委技術委員會委員等、CCF青工委執(zhí)委/杰出會員、IEEE Transactions on Network Science and Engineering編委等。并獲得省部級一等獎1項、二等獎1項、三等獎1項。出版書籍《深度強化學習學術前沿與應用實戰(zhàn)》
頒發(fā)權威證書
工業(yè)和信息化部人才交流中心證書
工信部授權證書
工業(yè)和信息化人才證書封皮
證書樣本
報名詳情
名額有限,請?zhí)崆皥竺?/p>
報名須知
培訓對象:全國高校、高職計算機、大數(shù)據(jù)、人工智能等相關專業(yè)一線授課教師、實驗指導教師、研究生等。
培訓時間:2021月7月26日-7月31日,每天9:00-17:00
培訓費用:5500元(含培訓費、教材費、資料費、場地費、午餐費(自助餐)、答謝晚宴等)
頒發(fā)證書
參加相關培訓并通過考試的學員,可以獲得:
工業(yè)和信息化部頒發(fā)《人工智能工程師》證書。
該證書可在工信部相關網(wǎng)站查詢,可作為能力評價、考核和任職的重要依據(jù)。
考試及證書費用(可選):500元/人。
師資班精彩回顧
已連續(xù)舉辦14屆,參與高校1800所,人數(shù)8000+