国产极品粉嫩福利姬萌白酱_伊人WWW22综合色_久久精品a一国产成人免费网站_法国啄木乌AV片在线播放

全國 [城市選擇] [會員登錄] [講師注冊] [機構注冊] [助教注冊]  
中國企業培訓講師
強化學習與深度強化學習
 
講師:葉梓 瀏覽次數:2602

課程描述INTRODUCTION

強化(hua)學習(xi)(xi)是當前最熱門的(de)研究方(fang)向(xiang)之(zhi)一,廣泛應(ying)用于機器人學、電子競(jing)技等(deng)(deng)領域。本課程(cheng)系(xi)統(tong)性(xing)的(de)介紹了強化(hua)學習(xi)(xi)(深(shen)(shen)度(du)強化(hua)學習(xi)(xi))的(de)基本理論(lun)和關鍵算(suan)法(fa)(fa),包(bao)括:馬爾科(ke)夫決策過程(cheng)、動態規劃法(fa)(fa)、蒙(meng)特卡(ka)羅法(fa)(fa)、時間差(cha)分法(fa)(fa)、值函數(shu)逼近法(fa)(fa),策略梯度(du)法(fa)(fa)等(deng)(deng);以及(ji)該領域的(de)*前沿發(fa)展,包(bao)括:DQN及(ji)其(qi)變種(zhong)、信賴域系(xi)方(fang)法(fa)(fa)、Actor-Critic類方(fang)法(fa)(fa)、多(duo)Agent深(shen)(shen)度(du)強化(hua)學習(xi)(xi)等(deng)(deng);同(tong)時也介紹大量(liang)的(de)實際案例(li),包(bao)括深(shen)(shen)度(du)強化(hua)學習(xi)(xi)中最*的(de)工程(cheng)應(ying)用:Alpha Go。

· IT人士· 技術總監· 軟件工程師· 技術主管· 研發經理

培訓講師:葉梓    課程價格:¥元(yuan)/人    培訓天數:3天   

日程安排SCHEDULE



課程(cheng)大(da)綱Syllabus

強化學習課程

第一天 強化學習
第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習方法的分類
3.強化學習方法的發展趨勢
4.環境搭建實驗(Gym,TensorFlow等)
5.Gym環(huan)境的基本(ben)使用(yong)方法

第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數、狀態行為值函數
3.貝爾曼方程
4.最優策略
案例:構建機器人找金(jin)幣和迷宮的環(huan)境

第三課 基于模型的動態規劃方法
1.動態規劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案(an)例:實現基于模(mo)型的強化學習算法

第四課 蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學習
4.同策略和異策略
案例:利用蒙特卡羅方(fang)法(fa)實現機器(qi)人找金幣和迷宮

第五課 時序差分方法
1.DP,MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的(de)實現

第二天 從強化學習到深度強化學習
第一課 基于值函數逼近方法(強化學習)
1.維數災難與表格型強化學習
2.值函數的參數化表示
3.值函數的估計過程
4.常用的基函數(shu)

第二課 基于值函數逼近方法(深度學習與強化學習的結合)
1.簡單提一下深度學習
2.深度學習與強化學習的結合
3.DQN 方法介紹
4.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第三課 策略梯度方法(強化學習)
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數法,修改估計值函數法
案例:利用gym和tensorflow實(shi)現小車倒立擺系(xi)統等

第四課 Alpha Go(深度學習與強化學習的結合)
1.MCTS
2.策略網絡與價值網絡
3.Alpha Go的完整架構
第五課 GAN(深度學習)
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例(li):生成(cheng)手寫(xie)數字(zi)的GAN

第三天 深度強化學習進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例(li)(li):AC類方法(fa)的案例(li)(li)

第三課 信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發展路線圖
3.TRPO方法
案(an)例:TRPO方(fang)法(fa)的(de)案(an)例

第四課 信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案例(li):PPO方(fang)法(fa)的案例(li)

第五課 多Agent強化學習
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學習
4.完全合作、完全競爭與混合任務
5.MADDPG
案(an)例(li):MADDPG的案(an)例(li)等

強化學習課程


轉載://citymember.cn/gkk_detail/65029.html

已開課時間Have start time

在(zai)線報名Online registration

    參加課(ke)程:強化學習與深度強化學習

    單位名稱:

  • 參加日期(qi):
  • 聯系人:
  • 手機號(hao)碼:
  • 座機電(dian)話:
  • QQ或微(wei)信(xin):
  • 參加人數:
  • 開票信息:
  • 輸(shu)入(ru)驗證:  看不清楚?點擊驗證碼刷新
付款信息:
開戶名:上海投智企業管理咨詢有限公司
開戶行:中國銀行股份有限公司上海市長壽支行
帳號:454 665 731 584
葉梓
[僅限會員]

預約1小時微咨詢式培訓