機械学習 | 機械学習と情報技術

Batch Normalizationの順伝播・逆伝播を完全導出する

2026年3月16日 CNN

Batch Normalization（バッチ正規化）は、2015年に提案されて...

Batch Normalization 学習の安定化機械学習正規化深層学習

交差エントロピーとKLダイバージェンスの関係

2026年3月10日情報理論

機械学習で分類モデルを訓練するとき、ほぼ確実に登場する損失関数が交差エントロピー...

KLダイバージェンスエントロピー交差エントロピー情報理論機械学習

DQN（Deep Q-Network）の理論と実装

2026年3月5日強化学習

Q学習は強力なアルゴリズムですが、状態空間が大きい（あるいは連続的な）問題ではQ...

Deep Q-Network DQN Experience Replay Target Network 強化学習機械学習

PPO（Proximal Policy Optimization）の理論と実装

2026年3月5日強化学習

PPO（Proximal Policy Optimization）はOpenAI...

Actor-Critic GAE PPO Proximal Policy Optimization TRPO 強化学習機械学習

A3C（Asynchronous Advantage Actor-Critic）の理論

2026年3月5日強化学習

A3C（Asynchronous Advantage Actor-Critic）...

A2C A3C Actor-Critic Advantage関数強化学習機械学習非同期学習

相互情報量の定義と応用

2026年3月4日情報理論

相互情報量は「2つの確率変数がどれだけ情報を共有しているか」を測る量です。相関係...

KLダイバージェンスエントロピー情報理論機械学習特徴選択相互情報量

マルコフ決定過程（MDP）の定式化

2026年3月4日強化学習

強化学習の理論的基盤となるのがマルコフ決定過程（MDP）です。MDPはエージェン...

MDP マルコフ決定過程価値関数強化学習方策機械学習

Q学習とSARSAの理論と実装

2026年3月4日強化学習

動的計画法による方法（価値反復法、方策反復法）は環境モデル（遷移確率 $P$ と...

Q学習 SARSA TD学習 ε-greedy 強化学習機械学習

ベルマン方程式の導出と意味

2026年3月4日強化学習

ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...

ベルマン方程式価値反復法動的計画法強化学習方策反復法機械学習

方策勾配法の理論と実装

2026年3月4日強化学習

Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...

REINFORCE ベースライン強化学習方策勾配定理方策勾配法機械学習

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}