香港二樓書店 > 強化學習導論?

庫存狀況

「香港二樓書店」讓您愛上二樓●愛上書

我的購物車

加入會員

會員中心

常見問題

「香港二樓書店」邁向第一華人書店

香港二樓書店 > 今日好書推介

格雷的五十道陰影I：調教(電影封面版)

格雷的五十道陰影I：調教(電影封面版)

定價127.00元
8 折優惠：HK$101.6

放入購物車

二樓書籍分類

強化學習導論?

強化學習導論?

沒有庫存
訂購需時10-14天


			9789865038717
			邱偉育?
			全華圖書
			2021年11月22日
			133.00 元
			HK$ 126.35

詳
細
資
料

ISBN：9789865038717

叢書系列：實用電子

規格：平裝 / 232頁 / 19 x 26 x 1.16 cm / 普通級 / 單色印刷 / 初版

出版地：台灣
實用電子

分
類

專業/教科書/政府出版品 > 電機資訊類 > 電子

同
類
書
推
薦

物聯網理論與實務?

UNDERSTANDING ARTIFICIAL INTELLIGENCE: FUNDAMENTALS AND APPLICATIONS?

Raspberry Pi最佳入門與應用(Python)(第四版)(附範例光碟)?

感測器原理與應用實習(第三版)?

PLC可程式控制實習與專題製作使用FX2N / FX3U - 最新版(第四版) - 附MOSME行動學習一點通：加值

內
容
簡
介

　　近年來因人工智慧興起，帶起許多學生、工程師與學者開始投入相關技術的學習、研究和開發。早期談到人工智慧，大部分會聯想到機器學習中的監督式學習和非監督式學習。然而監督或非監督式學習較難處理動態系統，機器學習技術的另一個分支─強化學習，剛好補足此缺口。強化學習的應用相當廣，最有名的兩個例子為AlphaGo透過資料學習在圍棋比賽上屢獲佳績，以及Google利用強化學習技術，優化資料中心的運作，進而減少40%的冷卻花費。本書以奠定基本功為目的，一步步帶領讀者建構完整的強化學習知識，介紹的相關概念包含：動態規劃、蒙地卡羅法、1步時間差分法、n步時間差分法、近似解法、規劃與學習、資格跡與學習、策略梯度法。

?

本書特色

　　1.本書從假設與理論開始討論，再進入演算法與範例，讓讀者了解整體架構的來龍去脈。　

　　2.每章的開始先綜述該章的主要內容，讓讀者有大方向的了解，再進入細節的討論。

　　3.相關概念以圖示方式呈現，讀者較易理解與統整。

　　4.每章搭配範例與程式碼，徹底了解演算法特性。

　　5.每章結尾作重點回顧，條列該章裡重要概念，方便讀者確認學習重點。

　　6.本書適用於自學、大學或科大課程教科書與實作專題的輔助教材，以及業界工程師快速奠定強化學習基礎概念與實作能力的教學書籍。

?

目
錄

第1章強化學習框架

1-1 強化學習主要元素與馬可夫決策過程

1-2 範例1.1

1-3 策略和價值函數

1-4 範例1.2

1-5 最佳策略和最佳價值函數

重點回顧

章末練習

?

第2章動態規劃

2-1 策略評估

2-2 策略改進

2-3 範例2.1與程式碼

2-4 策略疊代和價值疊代

2-5 動態規劃的優缺點與異步更新

2-6 範例2.2與程式碼

2-7 廣義策略疊代

重點回顧

章末練習

第3章蒙地卡羅法

3-1 蒙地卡羅預測

3-2 同策略與異策略法

3-3 同策略蒙地卡羅控制

3-4 範例3.1與程式碼

3-5 異策略與重要性抽樣

3-6 異策略蒙地卡羅預測

3-7 異策略蒙地卡羅控制

重點回顧

章末練習

第4章 1步時間差分法

4-1 時間差分法

4-2 Sarsa和Q學習

4-3 範例4.1與程式碼

4-4 期望Sarsa

重點回顧

章末練習

第5章

5-1 n步時間差分預測

5-2 n步Sarsa與n步期望Sarsa

5-3 範例5.1與程式碼

5-4 異策略n步時間差分控制

重點回顧

章末練習

第6章近似解法

6-1 函數近似與隨機梯度下降

6-2 同策略梯度與半梯度預測

6-3 同策略回合式半梯度控制

6-4 範例6.1與程式碼

6-5 異策略深度Q網路

6-6 同策略差分半梯度控制

重點回顧

章末練習

第7章規劃與學習

7-1 規劃

7-2 範例7.1與程式碼

7-3 優先掃掠

7-4 內在動機

7-5 範例7.2與程式碼

重點回顧

章末練習

第8章資格跡與學習

8-1 資格跡和λ報酬

8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ)

8-3 資格跡和表格解法

8-4 範例8.1與程式碼

重點回顧

章末練習

第9章策略梯度法

9-1 策略梯度與策略參數更新

9-2 簡樸策略梯度演算法

9-3 增強演算法

9-4 行動者評論家演算法

9-5 範例9.1與程式碼

重點回顧

章末練習

參考文獻

名詞索引

?

書
評

其他著作