強化学習 | 機械学習と情報技術

A3C（Asynchronous Advantage Actor-Critic）の理論

2026年3月5日強化学習

A3C（Asynchronous Advantage Actor-Critic）...

A2C A3C Actor-Critic Advantage関数強化学習機械学習非同期学習

DQN（Deep Q-Network）の理論と実装

2026年3月5日強化学習

Q学習は強力なアルゴリズムですが、状態空間が大きい（あるいは連続的な）問題ではQ...

Deep Q-Network DQN Experience Replay Target Network 強化学習機械学習

PPO（Proximal Policy Optimization）の理論と実装

2026年3月5日強化学習

PPO（Proximal Policy Optimization）はOpenAI...

Actor-Critic GAE PPO Proximal Policy Optimization TRPO 強化学習機械学習

Q学習とSARSAの理論と実装

2026年3月4日強化学習

動的計画法による方法（価値反復法、方策反復法）は環境モデル（遷移確率 $P$ と...

Q学習 SARSA TD学習 ε-greedy 強化学習機械学習

マルコフ決定過程（MDP）の定式化

2026年3月4日強化学習

強化学習の理論的基盤となるのがマルコフ決定過程（MDP）です。MDPはエージェン...

MDP マルコフ決定過程価値関数強化学習方策機械学習

ベルマン方程式の導出と意味

2026年3月4日強化学習

ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...

ベルマン方程式価値反復法動的計画法強化学習方策反復法機械学習

方策勾配法の理論と実装

2026年3月4日強化学習

Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...

REINFORCE ベースライン強化学習方策勾配定理方策勾配法機械学習

動的計画法（価値反復・方策反復）を解説して実装する

2026年2月25日強化学習

動的計画法（Dynamic Programming, DP）は、マルコフ決定過程...

MDP 価値反復動的計画法強化学習方策反復方策評価

モンテカルロ法による強化学習を解説して実装する

2026年2月25日強化学習

モンテカルロ法（Monte Carlo method, MC法）は、環境のモデル...

ε-greedy エピソードモンテカルロ法強化学習探索方策評価

TD学習（Temporal Difference Learning）の理論と実装

2026年2月25日強化学習

TD学習（Temporal Difference Learning）は、モンテカ...

TD(0)TD学習 TD誤差ブートストラップ強化学習方策評価

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}