Time-MoE — 24億パラメータのMoE時系列基盤モデル【ICLR 2025】 2026年4月28日 時系列分析 大規模言語モデル(LLM)の世界では「モデルを大きくすれば性能が上がる」というス... ICLRMixture of ExpertsMoETime-MoEスケーリング則時系列基盤モデル
Chinchilla最適スケーリング — 計算予算に対するモデルサイズとデータ量の最適配分 2026年4月21日 Transformer あなたが100億円の計算予算を持っているとしましょう。GPUを買い、データセンタ... ChinchillaHoffmannKaplanLLMTransformerスケーリング則計算効率
スケーリング則の数学 — Kaplan則とChinchilla則を導出する 2025年11月20日 Transformer スケーリング則(Scaling Laws)は、言語モデルの性能がパラメータ数、デ... LLMスケーリング則深層学習言語モデル計算量