大規模言語モデル(LLM)は数十億から数千億のパラメータを持ち、単一のGPUメモ...
量子化(Quantization)は、ニューラルネットワークの重みや活性化を低精...
投機的デコーディング(Speculative Decoding)は、小さなドラフ...
Mixture of Experts(MoE)は、ニューラルネットワークの効率を...
大規模言語モデル(LLM)は膨大な知識を持っていますが、学習データに含まれない最...
RAG(検索拡張生成)システムの性能を大きく左右するのが、文書をどのように分割(...
RAG(検索拡張生成)システムでは、ベクトル検索で候補文書を取得した後、リランキ...
ChatGPTやClaudeのようなLLMが自然な指示に従えるのは、Instru...
LLMを人間の好みに沿うように調整する手法として、DPO(Direct Pref...
AIシステムを有害な出力から守りつつ、有用性を維持する方法として、Constit...