Learning Guide
強化学習ガイド
MDP・ベルマン方程式からQ学習、DQN、方策勾配法、応用と実践まで。5章・29記事で強化学習を体系的に学ぶ。
強化学習の基礎理論
強化学習の理論的基盤を学ぶ。エージェントと環境の相互作用をマルコフ決定過程で定式化し、ベルマン方程式と動的計画法による最適方策の導出まで理解する。
テーブル型手法
状態・行動空間が離散的で小さい場合のテーブル型強化学習アルゴリズムを学ぶ。モンテカルロ法・TD学習・Q学習・SARSAの理論と実装を理解する。
深層強化学習
ニューラルネットワークを関数近似器として用いる深層強化学習を学ぶ。DQNから方策勾配法、Actor-Critic、PPOまで、現代の主要アルゴリズムを理解する。
DQN(Deep Q-Network)の理論
DQNの仕組み、経験リプレイとターゲットネットワーク
DQNの実装
DQNをPythonで実装し強化学習タスクに適用する
方策勾配法
方策を直接最適化する方策勾配定理の導出
方策勾配法の詳細
REINFORCEアルゴリズムとベースラインによる分散削減
Actor-Critic法
方策勾配と価値関数を組み合わせたActor-Criticの理論
PPO(Proximal Policy Optimization)
クリッピングによる安定的な方策更新の理論と実装
A3C(Asynchronous Advantage Actor-Critic)
非同期並列学習によるActor-Criticの高速化
発展トピック
強化学習のさらなる発展的な話題を学ぶ。多腕バンディット問題から探索と活用のジレンマ、モデルベース強化学習まで、実践的に重要なトピックを扱う。
多腕バンディット問題
探索と活用のトレードオフを扱う基本問題の理論
探索と活用
ε-greedy・UCB・トンプソンサンプリングなどの戦略
モデルベース強化学習
環境モデルを学習・活用する強化学習手法の基礎
応用と実践
強化学習を実問題に適用するための知識を学ぶ。逆強化学習による報酬関数の推定、報酬設計の実践的なポイント、Gymnasium環境での実装まで。
逆強化学習
エキスパートの行動から報酬関数を推定する手法
報酬設計
強化学習の性能を左右する報酬関数の設計指針
Gymnasium環境チュートリアル
OpenAI Gymnasium環境を使った強化学習の実装入門