CNN
Batch Normalization(バッチ正規化)は、2015年に提案されて...
Transformer
文章を読んでいるとき、私たちは無意識に「注目すべき場所」を切り替えています。たと...
Transformer
私たちが文章を読むとき、無意識のうちに複数の視点から情報を処理しています。たとえ...
強化学習
Q学習は強力なアルゴリズムですが、状態空間が大きい(あるいは連続的な)問題ではQ...
強化学習
PPO(Proximal Policy Optimization)はOpenAI...
強化学習
A3C(Asynchronous Advantage Actor-Critic)...
強化学習
動的計画法による方法(価値反復法、方策反復法)は環境モデル(遷移確率 $P$ と...
強化学習
強化学習の理論的基盤となるのがマルコフ決定過程(MDP)です。MDPはエージェン...
強化学習
ベルマン方程式は強化学習の理論的中核をなす方程式です。価値関数の再帰的な関係を記...
強化学習
Q学習やSARSAなどの価値ベースの手法は価値関数を学習し、そこから方策を導きま...