強化学習 | 機械学習と情報技術

SARSA（On-policy TD制御）の理論と実装を解説

2026年2月25日強化学習

強化学習のTD制御手法には大きく分けてOn-policyとOff-policyの...

Expected SARSA On-policy SARSA TD制御強化学習方策改善

Q学習の理論と実装をわかりやすく解説

2026年2月25日強化学習

強化学習において、エージェントが環境と相互作用しながら最適な行動を学ぶ方法はいく...

Off-policy Q学習 TD制御 ε-greedy 強化学習行動価値関数

強化学習の基礎 — MDPとベルマン方程式をわかりやすく解説

2026年2月18日強化学習

強化学習（Reinforcement Learning）は、エージェントが環境と...

MDP ベルマン方程式価値関数強化学習方策

RLHFの仕組みを3ステップで完全理解する

2026年2月11日 NLP

RLHF（Reinforcement Learning from Human F...

GPT LLM PPO RLHF 報酬モデル大規模言語モデル強化学習

DPO（Direct Preference Optimization）の数学的導出と実装

2026年1月13日 NLP

LLMを人間の好みに沿うように調整する手法として、DPO（Direct Pref...

LLM アライメント強化学習機械学習自然言語処理

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}