Transformer

Transformerアーキテクチャの全体像をわかりやすく解説

2026年2月18日 Transformer

Transformerは、2017年にGoogleの研究チームがNeurIPS論...

Encoder-Decoder Self-Attention Transformer 位置エンコーディング深層学習

【実践】LoRA/PEFTで効率的にLLMをファインチューニングする

2026年2月10日 Transformer

LoRA（Low-Rank Adaptation）は、大規模言語モデルを効率的に...

LoRA PEFT Transformer ファインチューニング大規模言語モデル深層学習

KVキャッシュの仕組み — LLM推論を高速化する基本技術

2026年2月8日 Transformer

KVキャッシュ（Key-Value Cache）は、大規模言語モデル（LLM）の...

KVキャッシュ LLM Transformer 推論高速化深層学習

ビームサーチの理論とPython実装

2026年2月7日 Transformer

ビームサーチ（Beam Search）は、機械翻訳やテキスト生成において広く使わ...

LLM NLP テキスト生成デコーディングビームサーチ

Temperature・Top-k・Top-pサンプリングを比較して理解する

2026年2月6日 Transformer

大規模言語モデル（LLM）がテキストを生成する際、次のトークンの選び方によって出...

LLM Temperature Top-k Top-p サンプリングテキスト生成

アテンションマスクの種類と実装を完全理解する

2026年2月4日 Transformer

アテンションマスク（Attention Mask）は、Transformerにお...

Causalマスク LLM Transformer アテンションマスクパディングマスク

RoPE（回転位置埋め込み）の数学的導出と実装

2026年2月3日 Transformer

RoPE（Rotary Position Embedding、回転位置埋め込み）...

Llama LLM RoPE Transformer 位置エンコーディング

Flash Attentionの仕組み — IO-Aware なアテンション高速化

2026年1月30日 Transformer

Flash Attention は、Transformer のアテンション計算を...

Flash Attention GPU最適化 LLM Transformer メモリ効率

【大規模モデル】Tensor/Pipeline並列化の理論と実装

2026年1月28日 Transformer

大規模言語モデル（LLM）は数十億から数千億のパラメータを持ち、単一のGPUメモ...

LLM Pipeline並列 Tensor並列モデル並列化分散学習深層学習

LLMの量子化（INT8/INT4）を理論から実装まで解説

2026年1月25日 Transformer

量子化（Quantization）は、ニューラルネットワークの重みや活性化を低精...

INT4 INT8 LLM 推論高速化深層学習量子化

[data-arkb-linkbox]{cursor:auto}[data-arkb-link][aria-hidden="true"]{visibility:visible;color:transparent;z-index:0;width:100%;height:100%;pointer-events:auto}a.arkb-boxLink__title{text-decoration:underline}