Batch Normalization(バッチ正規化)は、2015年に提案されて...
機械学習で分類モデルを訓練するとき、ほぼ確実に登場する損失関数が交差エントロピー...
Q学習は強力なアルゴリズムですが、状態空間が大きい(あるいは連続的な)問題ではQ...
PPO(Proximal Policy Optimization)はOpenAI...
A3C(Asynchronous Advantage Actor-Critic)...
相互情報量は「2つの確率変数がどれだけ情報を共有しているか」を測る量です。相関係...
強化学習の理論的基盤となるのがマルコフ決定過程(MDP)です。MDPはエージェン...
動的計画法による方法(価値反復法、方策反復法)は環境モデル(遷移確率 $P$ と...
ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...
Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...