スケーリング則の数学 — Kaplan則とChinchilla則を導出する

スケーリング則（Scaling Laws）は、言語モデルの性能がパラメータ数、データ量、計算量とどのように関係するかを記述する経験則です。この法則は、大規模モデルの効率的な訓練計画を立てる上で重要な指針となります。

本記事では、スケーリング則の理論と実証的な検証を解説します。

本記事の内容

スケーリング則の基本概念
Kaplan et al.のスケーリング則
Chinchillaスケーリング則
計算最適な訓練
実験的検証

スケーリング則の基本概念

背景

深層学習では、モデルを大きくしデータを増やすことで性能が向上することが経験的に知られています。スケーリング則はこの関係を定量化し、予測可能にします。

主要な変数

変数	記号	説明
パラメータ数	$N$	モデルの学習可能なパラメータの数
データ量	$D$	訓練トークン数
計算量	$C$	訓練に使用するFLOPs
損失	$L$	テスト損失（Cross-Entropy）

べき乗則

スケーリング則は、多くの場合べき乗則（Power Law）で表されます：

$$ L \propto X^{-\alpha} $$

ここで、$X$ はスケーリング変数（$N$、$D$、または $C$）、$\alpha > 0$ はスケーリング指数です。

Kaplan et al. のスケーリング則

OpenAIの発見（2020）

OpenAIの研究チームは、言語モデルのスケーリング則を体系的に調査しました。

パラメータ数に対するスケーリング（十分なデータがある場合）：

$$ L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N} $$

ここで、$\alpha_N \approx 0.076$、$N_c \approx 8.8 \times 10^{13}$ です。

データ量に対するスケーリング（十分なパラメータがある場合）：

$$ L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D} $$

ここで、$\alpha_D \approx 0.095$、$D_c \approx 5.4 \times 10^{13}$ です。

計算量に対するスケーリング（最適配分の場合）：

$$ L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C} $$

ここで、$\alpha_C \approx 0.050$、$C_c \approx 1.6 \times 10^7$ です。

統合スケーリング則

パラメータ数とデータ量の両方を考慮：

$$ L(N, D) = \left[\left(\frac{N_c}{N}\right)^{\alpha_N / \alpha_D} + \frac{D_c}{D}\right]^{\alpha_D} $$

計算量の関係

計算量 $C$ はパラメータ数 $N$ とデータ量 $D$ の積に比例：

$$ C \approx 6ND $$

（1トークンあたり約6FLOPs/パラメータ、順伝播と逆伝播を含む）

Chinchilla スケーリング則

DeepMindの発見（2022）

DeepMindのChinchilla論文は、Kaplanのスケーリング則を再検討し、重要な修正を提案しました。

主要な発見：

以前の研究では、計算予算が増えたらパラメータ数を優先的に増やすべきとされていました。しかし、Chinchillaはパラメータ数とデータ量を等しい比率で増やすべきことを示しました。

計算最適スケーリング

固定計算予算 $C$ に対する最適なパラメータ数 $N^*$ とデータ量 $D^*$：

$$ N^* \propto C^a, \quad D^* \propto C^b $$

Kaplanの主張: $a \approx 0.73$, $b \approx 0.27$（パラメータ重視）

Chinchillaの修正: $a \approx 0.5$, $b \approx 0.5$（均等配分）

最適トークン数の推定

Chinchillaの経験則として、最適な訓練トークン数はパラメータ数の約20倍：

$$ D^* \approx 20 \times N $$

モデル	パラメータ数	最適トークン数
1B	1B	20B
7B	7B	140B
70B	70B	1.4T
175B	175B	3.5T

損失の推定

Chinchillaのスケーリング則：

$$ L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} $$

ここで： – $E$: 既約誤差（データ自体のエントロピー） – $A, B$: 定数 – $\alpha \approx 0.34$, $\beta \approx 0.28$

計算最適な訓練

最適化問題

固定計算予算 $C$ での最適配分：

$$ \min_{N, D} L(N, D) \quad \text{s.t.} \quad C = 6ND $$

ラグランジュ乗数法で解くと：

$$ \frac{\partial L}{\partial N} = \lambda \cdot 6D, \quad \frac{\partial L}{\partial D} = \lambda \cdot 6N $$

IsoFLOPs分析

同じ計算量でパラメータ数とデータ量の比率を変える実験：

import numpy as np
import matplotlib.pyplot as plt

def chinchilla_loss(N, D, A=406.4, B=410.7, E=1.69, alpha=0.34, beta=0.28):
    """Chinchillaスケーリング則による損失推定"""
    return E + A / (N ** alpha) + B / (D ** beta)


def compute_loss_curve(C, N_range):
    """固定計算量での損失曲線を計算"""
    losses = []
    for N in N_range:
        D = C / (6 * N)  # C = 6ND
        if D > 0:
            loss = chinchilla_loss(N, D)
            losses.append(loss)
        else:
            losses.append(np.inf)
    return np.array(losses)


# IsoFLOPs曲線のプロット
compute_budgets = [1e18, 1e19, 1e20, 1e21, 1e22]  # FLOPs
N_range = np.logspace(7, 11, 100)  # 10M to 100B parameters

plt.figure(figsize=(12, 6))

for C in compute_budgets:
    losses = compute_loss_curve(C, N_range)
    valid_mask = ~np.isinf(losses)
    plt.plot(N_range[valid_mask], losses[valid_mask],
             label=f'C = {C:.0e} FLOPs')

    # 最適点を見つける
    if np.any(valid_mask):
        min_idx = np.argmin(losses[valid_mask])
        N_opt = N_range[valid_mask][min_idx]
        plt.scatter([N_opt], [losses[valid_mask][min_idx]], s=100, zorder=5)

plt.xscale('log')
plt.xlabel('Parameters (N)')
plt.ylabel('Loss')
plt.title('IsoFLOPs Curves: Loss vs Parameters for Fixed Compute')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('isoflops_curves.png', dpi=150, bbox_inches='tight')
plt.show()

最適配分の計算

def optimal_allocation(C, alpha=0.34, beta=0.28, A=406.4, B=410.7):
    """
    固定計算量での最適なパラメータ数とデータ量を計算

    Parameters:
    -----------
    C : float
        計算予算（FLOPs）
    alpha, beta : float
        スケーリング指数
    A, B : float
        スケーリング定数

    Returns:
    --------
    N_opt : float
        最適パラメータ数
    D_opt : float
        最適データ量（トークン数）
    """
    # C = 6 * N * D の制約下で L(N,D) を最小化
    # 最適解: N^* ∝ C^(beta/(alpha+beta)), D^* ∝ C^(alpha/(alpha+beta))

    a = beta / (alpha + beta)
    b = alpha / (alpha + beta)

    # 定数の導出（数値的に）
    # 簡略化のため、Chinchillaの経験則 D ≈ 20N を使用
    N_opt = (C / (6 * 20)) ** 0.5
    D_opt = 20 * N_opt

    return N_opt, D_opt


# 例：1e23 FLOPsでの最適配分
C = 1e23
N_opt, D_opt = optimal_allocation(C)
print(f"Compute Budget: {C:.2e} FLOPs")
print(f"Optimal Parameters: {N_opt:.2e} ({N_opt/1e9:.1f}B)")
print(f"Optimal Tokens: {D_opt:.2e} ({D_opt/1e12:.1f}T)")
print(f"Tokens per Parameter: {D_opt/N_opt:.1f}")

実際のモデルとの比較

主要LLMの訓練設定

モデル	パラメータ	トークン	トークン/パラメータ	効率
GPT-3	175B	300B	1.7	不十分
Chinchilla	70B	1.4T	20	最適
LLaMA 2	70B	2T	29	過剰訓練
GPT-4*	~1T?	~10T?	~10?	不明

*推定値

過剰訓練（Over-training）

LLaMA 2のように、最適点を超えてデータを増やす戦略もあります。

利点： – 推論コストの削減（より小さなモデルで同等性能） – データ効率の向上

トレードオフ： – 訓練計算量の増加 – 収穫逓減

数学的な導出

スケーリング則の導出

損失関数のテイラー展開と統計力学的考察から、べき乗則が導かれます。

仮定： 1. モデルはデータ分布の近似を学習 2. パラメータは独立に寄与 3. データは i.i.d.

導出：

バイアス-バリアンス分解：

$$ L = L_{\text{irreducible}} + L_{\text{bias}}(N) + L_{\text{variance}}(N, D) $$

有限パラメータによるバイアス：

$$ L_{\text{bias}}(N) \sim N^{-\alpha} $$

有限データによるバリアンス：

$$ L_{\text{variance}}(N, D) \sim \frac{N}{D} $$

Emergence（創発）

大規模モデルでは、特定の能力が突然現れる「創発」現象が観察されています。

$$ \text{Capability}(N) = \begin{cases} \approx 0 & N < N_{\text{critical}} \\ \text{positive} & N \geq N_{\text{critical}} \end{cases} $$

しかし、最近の研究では、これは評価指標の非連続性によるアーティファクトである可能性が指摘されています。

スケーリング則の可視化

import numpy as np
import matplotlib.pyplot as plt

# スケーリング則の可視化
fig, axes = plt.subplots(2, 2, figsize=(14, 12))

# 1. パラメータに対するスケーリング
ax = axes[0, 0]
N = np.logspace(6, 12, 100)
alpha_N = 0.076
N_c = 8.8e13
L_N = (N_c / N) ** alpha_N

ax.loglog(N, L_N, 'b-', linewidth=2)
ax.set_xlabel('Parameters (N)')
ax.set_ylabel('Loss')
ax.set_title('Loss vs Parameters (Kaplan et al.)')
ax.grid(True, alpha=0.3)

# 実際のモデルをプロット
models = {
    'GPT-2': (1.5e9, 3.5),
    'GPT-3': (175e9, 2.9),
    'PaLM': (540e9, 2.7),
}
for name, (n, l) in models.items():
    ax.scatter([n], [l], s=100, zorder=5, label=name)
ax.legend()

# 2. データに対するスケーリング
ax = axes[0, 1]
D = np.logspace(9, 14, 100)
alpha_D = 0.095
D_c = 5.4e13
L_D = (D_c / D) ** alpha_D

ax.loglog(D, L_D, 'r-', linewidth=2)
ax.set_xlabel('Training Tokens (D)')
ax.set_ylabel('Loss')
ax.set_title('Loss vs Data (Kaplan et al.)')
ax.grid(True, alpha=0.3)

# 3. 計算量に対するスケーリング
ax = axes[1, 0]
C = np.logspace(15, 25, 100)
alpha_C = 0.050
C_c = 1.6e7
L_C = (C_c / C) ** alpha_C

ax.loglog(C, L_C, 'g-', linewidth=2)
ax.set_xlabel('Compute (FLOPs)')
ax.set_ylabel('Loss')
ax.set_title('Loss vs Compute (Kaplan et al.)')
ax.grid(True, alpha=0.3)

# 4. Chinchilla vs Kaplan: 最適配分
ax = axes[1, 1]
C_budgets = np.logspace(18, 24, 50)

# Kaplan: N ∝ C^0.73
N_kaplan = C_budgets ** 0.73 / 1e4
D_kaplan = C_budgets / (6 * N_kaplan)

# Chinchilla: N ∝ C^0.5
N_chinchilla = C_budgets ** 0.5 / 1e2
D_chinchilla = C_budgets / (6 * N_chinchilla)

ax.loglog(C_budgets, D_kaplan / N_kaplan, 'b--', label='Kaplan (D/N)', linewidth=2)
ax.loglog(C_budgets, D_chinchilla / N_chinchilla, 'r-', label='Chinchilla (D/N)', linewidth=2)
ax.axhline(y=20, color='g', linestyle=':', label='D/N = 20 (Chinchilla optimal)')
ax.set_xlabel('Compute (FLOPs)')
ax.set_ylabel('Tokens per Parameter (D/N)')
ax.set_title('Optimal Data-to-Parameter Ratio')
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('scaling_laws_visualization.png', dpi=150, bbox_inches='tight')
plt.show()

実用的な示唆

モデル訓練の計画

計算予算を決定: 利用可能なGPU時間とコスト
最適配分を計算: Chinchillaの法則に基づく
データ準備: 必要なトークン数を確保
小規模実験: スケーリングの検証

予測可能な性能

スケーリング則を使って、大規模モデルの性能を予測：

$$ L_{\text{predicted}}(N_{\text{large}}) = L_{\text{small}} \cdot \left(\frac{N_{\text{small}}}{N_{\text{large}}}\right)^{\alpha} $$

まとめ

本記事では、スケーリング則について解説しました。

べき乗則: 損失はパラメータ、データ、計算量に対してべき乗的に減少
Kaplanの法則: パラメータ数を優先的に増やすべき
Chinchillaの修正: パラメータとデータを均等に増やすべき（D = 20N）
計算最適訓練: 固定予算での最適なリソース配分
実用的示唆: 訓練計画の立案に活用

スケーリング則は、LLMの効率的な開発において重要なガイドラインを提供します。ただし、これらは経験則であり、アーキテクチャやデータの質によって変化する可能性があることに注意が必要です。

次のステップとして、以下の記事も参考にしてください。

機械学習と情報技術

スケーリング則の数学 — Kaplan則とChinchilla則を導出する

スケーリング則の基本概念

背景

主要な変数

べき乗則

Kaplan et al. のスケーリング則

OpenAIの発見（2020）

統合スケーリング則

計算量の関係

Chinchilla スケーリング則

DeepMindの発見（2022）

計算最適スケーリング

最適トークン数の推定

損失の推定

計算最適な訓練

最適化問題

IsoFLOPs分析

最適配分の計算

実際のモデルとの比較

主要LLMの訓練設定

過剰訓練（Over-training）

数学的な導出

スケーリング則の導出

Emergence（創発）

スケーリング則の可視化

実用的な示唆

モデル訓練の計画

予測可能な性能

まとめ

常微分方程式をオイラー法で解く方法を解説

連立一次方程式とガウスの消去法を解説

スケーリング則の数学 — Kaplan則とChinchilla則を導出する

スケーリング則の基本概念

背景

主要な変数

べき乗則

Kaplan et al. のスケーリング則

OpenAIの発見（2020）

統合スケーリング則

計算量の関係

Chinchilla スケーリング則

DeepMindの発見（2022）

計算最適スケーリング

最適トークン数の推定

損失の推定

計算最適な訓練

最適化問題

IsoFLOPs分析

最適配分の計算

実際のモデルとの比較

主要LLMの訓練設定

過剰訓練（Over-training）

数学的な導出

スケーリング則の導出

Emergence（創発）

スケーリング則の可視化

実用的な示唆

モデル訓練の計画

予測可能な性能

まとめ

関連記事

マルチヘッドアテンション（Multi-Head Attention）の仕組みと実装

SGD・Adam・AdamW・Lionの理論とPython実装

Layer Normalizationの仕組みとBatch Normalizationとの違い

常微分方程式をオイラー法で解く方法を解説

連立一次方程式とガウスの消去法を解説