機械学習で分類モデルを訓練するとき、ほぼ確実に登場する損失関数が交差エントロピー...
PPO(Proximal Policy Optimization)はOpenAI...
相互情報量は「2つの確率変数がどれだけ情報を共有しているか」を測る量です。相関係...
強化学習の理論的基盤となるのがマルコフ決定過程(MDP)です。MDPはエージェン...
Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...
勾配ブースティング(Gradient Boosting)は、損失関数の負の勾配(...
ランダムフォレスト(Random Forest)は、Breiman(2001)に...
機械学習において、単一のモデルでは高いバリアンス(分散)を持つ不安定な予測器(例...
線形モデルはシンプルで解釈しやすい一方、現実のデータは線形では捉えきれない複雑な...
アンサンブル学習の代表的手法の1つである AdaBoost(Adaptive B...