Learning Guide

強化学習ガイド

MDP・ベルマン方程式からQ学習、DQN、方策勾配法、応用と実践まで。5章・29記事で強化学習を体系的に学ぶ。

11 / 21 記事公開 5 チャプター 約 3 時間
01

強化学習の基礎理論

強化学習の理論的基盤を学ぶ。エージェントと環境の相互作用をマルコフ決定過程で定式化し、ベルマン方程式と動的計画法による最適方策の導出まで理解する。

4 / 4 記事
02

テーブル型手法

状態・行動空間が離散的で小さい場合のテーブル型強化学習アルゴリズムを学ぶ。モンテカルロ法・TD学習・Q学習・SARSAの理論と実装を理解する。

4 / 4 記事
03

深層強化学習

ニューラルネットワークを関数近似器として用いる深層強化学習を学ぶ。DQNから方策勾配法、Actor-Critic、PPOまで、現代の主要アルゴリズムを理解する。

3 / 7 記事
1

DQN(Deep Q-Network)の理論

DQNの仕組み、経験リプレイとターゲットネットワーク

更新予定
2

DQNの実装

DQNをPythonで実装し強化学習タスクに適用する

強化学習
3

方策勾配法

方策を直接最適化する方策勾配定理の導出

強化学習
4

方策勾配法の詳細

REINFORCEアルゴリズムとベースラインによる分散削減

更新予定
5

Actor-Critic法

方策勾配と価値関数を組み合わせたActor-Criticの理論

更新予定
6

PPO(Proximal Policy Optimization)

クリッピングによる安定的な方策更新の理論と実装

更新予定
7

A3C(Asynchronous Advantage Actor-Critic)

非同期並列学習によるActor-Criticの高速化

強化学習
04

発展トピック

強化学習のさらなる発展的な話題を学ぶ。多腕バンディット問題から探索と活用のジレンマ、モデルベース強化学習まで、実践的に重要なトピックを扱う。

0 / 3 記事
1

多腕バンディット問題

探索と活用のトレードオフを扱う基本問題の理論

更新予定
2

探索と活用

ε-greedy・UCB・トンプソンサンプリングなどの戦略

更新予定
3

モデルベース強化学習

環境モデルを学習・活用する強化学習手法の基礎

更新予定
05

応用と実践

強化学習を実問題に適用するための知識を学ぶ。逆強化学習による報酬関数の推定、報酬設計の実践的なポイント、Gymnasium環境での実装まで。

0 / 3 記事
1

逆強化学習

エキスパートの行動から報酬関数を推定する手法

更新予定
2

報酬設計

強化学習の性能を左右する報酬関数の設計指針

更新予定
3

Gymnasium環境チュートリアル

OpenAI Gymnasium環境を使った強化学習の実装入門

更新予定