自主ゼミでコミさんの強化学習入門pdfを読んだときのノートを公開
研究室に配属されたB4の1人が強化学習をテーマに研究することになったので, 勉強がてら一緒に小南さん(通称コミさん)が書かれたこちらのpdf github.com をB4(強強)と他大学院の友人(流体に強化学習を応用している強強), 僕(素人)の3人で7月末~10月末まで自主ゼミしました. 今回は, そのときに僕が取っていたノートを公開します.
注意点
全部の内容をノートに書いている訳でなく, 読んでいて疑問に思った箇所を数式展開したり, コメントとか書いているノートになっています
対象読者: 小南さんのpdfの3, 4章が難しく感じる人
公開した理由は, 自主ゼミをしていて所々行間があるように感じたので(これは小南さんが対象でない読者という節で言及されているように思います), 読んでいて式変形が追えなくて, モヤモヤして気持ちの人がいるのではないかと思ったからです.
小南さんのpdfは3, 4章を理解すれば, 残りの章もすんなり理解できる構成になっていると思います. ただ, 3, 4章が一番難しいと思うので, そこで読み手が挫折してしまって, 折角の素晴らしい強化学習入門pdfに入門できない人が出ている恐れがあります. そう言った方々の助けになれば幸いです.
トンチンカンな内容を書いていたらすみませんが, ご指摘の程よろしくお願い致します.
参考になるサイト
にのぴらさんが強化学習についての資料や参考書をまとめてくださっているので, 強化学習に興味のある方は覗いてみる事を強くお勧めします.
参考書
速習 強化学習
日本語訳verについている付録が素晴らしいです. ただ, 本文の内容は割とあっさり書かれているので, 人によっては評価が分かれると思います. 僕は学部の時に, 関数解析とか確率解析を少々かじっていたのでそこまで抵抗なく読み始められましたが, 行間があるのが多くて難しいと感じました. 所々の内容は認めて読み進めるのが良いと思います.