KVキャッシュの仕組み — LLM推論を高速化する基本技術 2026年2月8日 Transformer KVキャッシュ(Key-Value Cache)は、大規模言語モデル(LLM)の... KVキャッシュLLMTransformer推論高速化深層学習
LLMの量子化(INT8/INT4)を理論から実装まで解説 2026年1月25日 Transformer 量子化(Quantization)は、ニューラルネットワークの重みや活性化を低精... INT4INT8LLM推論高速化深層学習量子化
投機的デコーディングの数理と実装 2026年1月23日 Transformer 投機的デコーディング(Speculative Decoding)は、小さなドラフ... LLMSpeculative Decoding投機的デコーディング推論高速化深層学習