Learning Guide

強化学習ガイド

MDP・ベルマン方程式からQ学習、DQN、方策勾配法、応用と実践まで。5章・29記事で強化学習を体系的に学ぶ。

11 / 21 記事公開 5 チャプター約 3 時間

強化学習の基礎理論

強化学習の理論的基盤を学ぶ。エージェントと環境の相互作用をマルコフ決定過程で定式化し、ベルマン方程式と動的計画法による最適方策の導出まで理解する。

4 / 4 記事

強化学習の基礎

強化学習の問題設定と基本概念（状態・行動・報酬）を整理

強化学習→ 2

マルコフ決定過程（MDP）

MDPの定式化と強化学習の数学的枠組み

強化学習→ 3

ベルマン方程式

状態価値関数・行動価値関数とベルマン方程式の導出

強化学習→ 4

動的計画法

方策反復法と価値反復法による最適方策の計算

強化学習→

テーブル型手法

状態・行動空間が離散的で小さい場合のテーブル型強化学習アルゴリズムを学ぶ。モンテカルロ法・TD学習・Q学習・SARSAの理論と実装を理解する。

4 / 4 記事

モンテカルロ法

エピソード全体のリターンに基づく価値推定と方策改善

強化学習→ 2

TD学習

ブートストラップによる逐次的な価値推定の理論

強化学習→ 3

Q学習

Off-policyなTD制御アルゴリズムの理論と実装

強化学習→ 4

SARSA

On-policyなTD制御アルゴリズムとQ学習との比較

強化学習→

深層強化学習

ニューラルネットワークを関数近似器として用いる深層強化学習を学ぶ。DQNから方策勾配法、Actor-Critic、PPOまで、現代の主要アルゴリズムを理解する。

3 / 7 記事

DQN（Deep Q-Network）の理論

DQNの仕組み、経験リプレイとターゲットネットワーク

更新予定

DQNの実装

DQNをPythonで実装し強化学習タスクに適用する

強化学習→ 3

方策勾配法

方策を直接最適化する方策勾配定理の導出

強化学習→

方策勾配法の詳細

REINFORCEアルゴリズムとベースラインによる分散削減

更新予定

Actor-Critic法

方策勾配と価値関数を組み合わせたActor-Criticの理論

更新予定

PPO（Proximal Policy Optimization）

クリッピングによる安定的な方策更新の理論と実装

更新予定

A3C（Asynchronous Advantage Actor-Critic）

非同期並列学習によるActor-Criticの高速化

強化学習→

発展トピック

強化学習のさらなる発展的な話題を学ぶ。多腕バンディット問題から探索と活用のジレンマ、モデルベース強化学習まで、実践的に重要なトピックを扱う。

0 / 3 記事

多腕バンディット問題

探索と活用のトレードオフを扱う基本問題の理論

更新予定

探索と活用

ε-greedy・UCB・トンプソンサンプリングなどの戦略

更新予定

モデルベース強化学習

環境モデルを学習・活用する強化学習手法の基礎

更新予定

応用と実践

強化学習を実問題に適用するための知識を学ぶ。逆強化学習による報酬関数の推定、報酬設計の実践的なポイント、Gymnasium環境での実装まで。

0 / 3 記事

逆強化学習

エキスパートの行動から報酬関数を推定する手法

更新予定

報酬設計

強化学習の性能を左右する報酬関数の設計指針

更新予定

Gymnasium環境チュートリアル

OpenAI Gymnasium環境を使った強化学習の実装入門

更新予定