アテンションマスク(Attention Mask)は、Transformerにお...
RoPE(Rotary Position Embedding、回転位置埋め込み)...
Flash Attention は、Transformer のアテンション計算を...
大規模言語モデル(LLM)は数十億から数千億のパラメータを持ち、単一のGPUメモ...
量子化(Quantization)は、ニューラルネットワークの重みや活性化を低精...
投機的デコーディング(Speculative Decoding)は、小さなドラフ...
Mixture of Experts(MoE)は、ニューラルネットワークの効率を...
大規模言語モデル(LLM)は膨大な知識を持っていますが、学習データに含まれない最...
RAG(検索拡張生成)システムの性能を大きく左右するのが、文書をどのように分割(...
RAG(検索拡張生成)システムでは、ベクトル検索で候補文書を取得した後、リランキ...