機械学習

Batch Normalizationの順伝播・逆伝播を完全導出する

2026年3月16日 CNN

Batch Normalization（バッチ正規化）は、2015年に提案されて...

Batch Normalization 学習の安定化機械学習正規化深層学習

Self-Attention機構の理論と実装を完全解説

2026年3月7日 Transformer

文章を読んでいるとき、私たちは無意識に「注目すべき場所」を切り替えています。たと...

Attention Key Query Self-Attention Transformer Value 深層学習

Multi-Head Attentionの理論と実装を完全解説

2026年3月7日 Transformer

私たちが文章を読むとき、無意識のうちに複数の視点から情報を処理しています。たとえ...

Multi-Head Attention NLP Self-Attention Transformer 深層学習

DQN（Deep Q-Network）の理論と実装

2026年3月5日強化学習

Q学習は強力なアルゴリズムですが、状態空間が大きい（あるいは連続的な）問題ではQ...

Deep Q-Network DQN Experience Replay Target Network 強化学習機械学習

PPO（Proximal Policy Optimization）の理論と実装

2026年3月5日強化学習

PPO（Proximal Policy Optimization）はOpenAI...

Actor-Critic GAE PPO Proximal Policy Optimization TRPO 強化学習機械学習

A3C（Asynchronous Advantage Actor-Critic）の理論

2026年3月5日強化学習

A3C（Asynchronous Advantage Actor-Critic）...

A2C A3C Actor-Critic Advantage関数強化学習機械学習非同期学習

Q学習とSARSAの理論と実装

2026年3月4日強化学習

動的計画法による方法（価値反復法、方策反復法）は環境モデル（遷移確率 $P$ と...

Q学習 SARSA TD学習 ε-greedy 強化学習機械学習

マルコフ決定過程（MDP）の定式化

2026年3月4日強化学習

強化学習の理論的基盤となるのがマルコフ決定過程（MDP）です。MDPはエージェン...

MDP マルコフ決定過程価値関数強化学習方策機械学習

ベルマン方程式の導出と意味

2026年3月4日強化学習

ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...

ベルマン方程式価値反復法動的計画法強化学習方策反復法機械学習

方策勾配法の理論と実装

2026年3月4日強化学習

Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...

REINFORCE ベースライン強化学習方策勾配定理方策勾配法機械学習

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}