A3C(Asynchronous Advantage Actor-Critic)...
Q学習は強力なアルゴリズムですが、状態空間が大きい(あるいは連続的な)問題ではQ...
PPO(Proximal Policy Optimization)はOpenAI...
動的計画法による方法(価値反復法、方策反復法)は環境モデル(遷移確率 $P$ と...
強化学習の理論的基盤となるのがマルコフ決定過程(MDP)です。MDPはエージェン...
ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...
Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...
動的計画法(Dynamic Programming, DP)は、マルコフ決定過程...
モンテカルロ法(Monte Carlo method, MC法)は、環境のモデル...
TD学習(Temporal Difference Learning)は、モンテカ...