Vision Transformer(ViT)は、2020年にGoogleの研究...
CLIP(Contrastive Language-Image Pre-trai...
Imagen(Google)とDALL-E(OpenAI)は、テキストから画像を...
マルチモーダルLLM(Large Language Model)は、テキストだけ...
LLaVA(Large Language and Vision Assistan...
勾配クリッピング(Gradient Clipping)は、勾配爆発を防ぐための手...
Attention機構は、入力データに対して「注目すべき箇所」を動的に特定する仕...