庫存狀況
「香港二樓書店」讓您 愛上二樓●愛上書
我的購物車 加入會員 會員中心 常見問題 首頁
「香港二樓書店」邁向第一華人書店
登入 客戶評價 whatsapp 常見問題 加入會員 會員專區 現貨書籍 現貨書籍 購物流程 運費計算 我的購物車 聯絡我們 返回首頁
香港二樓書店 > 今日好書推介
二樓書籍分類
 
強化學習導論?

強化學習導論?

沒有庫存
訂購需時10-14天
9789865038717
邱偉育?
全華圖書
2021年11月22日
133.00  元
HK$ 126.35  






ISBN:9789865038717
  • 叢書系列:實用電子
  • 規格:平裝 / 232頁 / 19 x 26 x 1.16 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣
    實用電子


  • 專業/教科書/政府出版品 > 電機資訊類 > 電子











      近年來因人工智慧興起,帶起許多學生、工程師與學者開始投入相關技術的學習、研究和開發。早期談到人工智慧,大部分會聯想到機器學習中的監督式學習和非監督式學習。然而監督或非監督式學習較難處理動態系統,機器學習技術的另一個分支─強化學習,剛好補足此缺口。強化學習的應用相當廣,最有名的兩個例子為AlphaGo透過資料學習在圍棋比賽上屢獲佳績,以及Google利用強化學習技術,優化資料中心的運作,進而減少40%的冷卻花費。本書以奠定基本功為目的,一步步帶領讀者建構完整的強化學習知識,介紹的相關概念包含:動態規劃、蒙地卡羅法、1步時間差分法、n步時間差分法、近似解法、規劃與學習、資格跡與學習、策略梯度法。

    ?

    本書特色




      1.本書從假設與理論開始討論,再進入演算法與範例,讓讀者了解整體架構的來龍去脈。 

      2.每章的開始先綜述該章的主要內容,讓讀者有大方向的了解,再進入細節的討論。

      3.相關概念以圖示方式呈現,讀者較易理解與統整。

      4.每章搭配範例與程式碼,徹底了解演算法特性。

      5.每章結尾作重點回顧,條列該章裡重要概念,方便讀者確認學習重點。

      6.本書適用於自學、大學或科大課程教科書與實作專題的輔助教材,以及業界工程師快速奠定強化學習基礎概念與實作能力的教學書籍。

    ?


     





    第1章 強化學習框架

    1-1 強化學習主要元素與馬可夫決策過程

    1-2 範例1.1

    1-3 策略和價值函數

    1-4 範例1.2

    1-5 最佳策略和最佳價值函數

    重點回顧

    章末練習

    ?

    第2章 動態規劃

    2-1 策略評估

    2-2 策略改進

    2-3 範例2.1與程式碼

    2-4 策略疊代和價值疊代

    2-5 動態規劃的優缺點與異步更新

    2-6 範例2.2與程式碼

    2-7 廣義策略疊代

    重點回顧

    章末練習



    第3章 蒙地卡羅法

    3-1 蒙地卡羅預測

    3-2 同策略與異策略法

    3-3 同策略蒙地卡羅控制

    3-4 範例3.1與程式碼

    3-5 異策略與重要性抽樣

    3-6 異策略蒙地卡羅預測

    3-7 異策略蒙地卡羅控制

    重點回顧

    章末練習



    第4章 1步時間差分法

    4-1 時間差分法

    4-2 Sarsa和Q學習

    4-3 範例4.1與程式碼

    4-4 期望Sarsa

    重點回顧

    章末練習



    第5章

    5-1 n步時間差分預測

    5-2 n步Sarsa與n步期望Sarsa

    5-3 範例5.1與程式碼

    5-4 異策略n步時間差分控制

    重點回顧

    章末練習



    第6章 近似解法

    6-1 函數近似與隨機梯度下降

    6-2 同策略梯度與半梯度預測

    6-3 同策略回合式半梯度控制

    6-4 範例6.1與程式碼

    6-5 異策略深度Q網路

    6-6 同策略差分半梯度控制

    重點回顧

    章末練習



    第7章 規劃與學習

    7-1 規劃

    7-2 範例7.1與程式碼

    7-3 優先掃掠

    7-4 內在動機

    7-5 範例7.2與程式碼

    重點回顧

    章末練習



    第8章 資格跡與學習

    8-1 資格跡和λ報酬

    8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ)

    8-3 資格跡和表格解法

    8-4 範例8.1與程式碼

    重點回顧

    章末練習



    第9章 策略梯度法

    9-1 策略梯度與策略參數更新

    9-2 簡樸策略梯度演算法

    9-3 增強演算法

    9-4 行動者評論家演算法

    9-5 範例9.1與程式碼

    重點回顧

    章末練習

    參考文獻

    名詞索引

    ?




    其 他 著 作