ラオ・ブラックウェルの定理と最良不偏推定量

統計的推定において、「良い推定量」とは何でしょうか。偏りがない(不偏性)だけでなく、分散が小さい(効率が良い)ことも重要です。では、ある不偏推定量の分散をさらに小さくする方法はあるのでしょうか。

この問いに対する驚くべき答えを与えるのがラオ・ブラックウェルの定理(Rao-Blackwell theorem)です。この定理は、「任意の不偏推定量を十分統計量で条件付けることで、分散が減少するか少なくとも悪化しない」ことを保証します。

つまり、十分統計量の情報を使い切っていない推定量は、必ず改善の余地があるのです。この定理は、C. R. ラオ(1945年)とデビッド・ブラックウェル(1947年)が独立に証明しました。

ラオ・ブラックウェルの定理を理解すると、以下のことが可能になります。

  • 推定量の改善: 任意の不偏推定量から、より効率的な推定量を構成する体系的な方法
  • UMVUE(一様最小分散不偏推定量)の構成: 最良の不偏推定量を見つけるための理論的基盤
  • 十分統計量の実用的な意義: 十分統計量がなぜ推定において中心的な役割を果たすかの深い理解
  • モンテカルロ法の分散削減: シミュレーションにおける分散削減手法の理論的根拠

本記事では、ラオ・ブラックウェルの定理の内容を直感的に理解し、厳密に証明します。さらに、具体例での推定量の改善過程とPythonによる数値検証を示します。

本記事の内容

  • ラオ・ブラックウェルの定理の直感と定式化
  • 定理の証明(条件付き期待値の分散分解を利用)
  • 具体例での推定量の改善(ベルヌーイ分布・一様分布・ポアソン分布)
  • UMVUEへの道筋
  • Pythonによる数値検証

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

ラオ・ブラックウェルの定理 — 直感的な理解

データの情報を使い切る

直感的に理解するために、次の状況を考えましょう。

ある母集団のパラメータ $\theta$ を推定したいとします。手元にデータ $X_1, X_2, \dots, X_n$ があります。あなたは推定量 $\delta = \delta(X_1, \dots, X_n)$ を構成しましたが、この推定量はデータの一部の情報しか使っていないかもしれません。

たとえば、正規分布 $N(\mu, \sigma^2)$ から $n$ 個のデータを得たとき、$\delta = X_1$(最初の1個だけを使う)も $\mu$ の不偏推定量です。しかし、直感的に明らかなように、$n$ 個全部のデータを使った標本平均 $\bar{X}$ の方が良い推定量です。

十分統計量 $T = T(X_1, \dots, X_n)$ は、$\theta$ に関するデータのすべての情報を凝縮した統計量です。フィッシャー・ネイマンの分解定理により、十分統計量はデータからパラメータに関する情報を余すところなく抽出します。もし $\delta$ が $T$ だけの関数でなければ、$\delta$ は $T$ が持つ情報を完全には使い切っていません。

ラオ・ブラックウェルの定理は、$\delta$ を $T$ で条件付けた $\delta^* = E[\delta | T]$ が、$\delta$ と同じく不偏であり、かつ分散が $\delta$ 以下であることを主張します。つまり、十分統計量で条件付けることで情報を使い切り、推定量を「無駄なく」改善するのです。

アナロジー: 天気予報の例

別のアナロジーで考えてみましょう。明日の気温を予測するタスクがあるとします。

推定量 $\delta$ は「今日の気温だけを見て予測する」に相当します。十分統計量 $T$ は「今日の気温、湿度、風速、気圧、過去1週間の気象データなど、予測に関連するすべての情報」に相当します。

$E[\delta | T]$ は「すべての関連情報が与えられたとき、『今日の気温だけで予測する方法』が平均的にどんな値を出すか」です。すべての情報を知った上での条件付き期待値は、部分的な情報に基づく推定量のばらつきを「平滑化」する効果があり、結果として分散が減少します。

定理の主張

ラオ・ブラックウェルの定理: $\delta$ を $g(\theta)$ の不偏推定量、$T$ を十分統計量とする。$\delta^* = E[\delta | T]$ とおくと、

  1. $\delta^*$ は $g(\theta)$ の不偏推定量
  2. $\delta^*$ は $T$ の関数(十分統計量だけに依存)
  3. $\text{Var}_\theta(\delta^*) \leq \text{Var}_\theta(\delta)$ (すべての $\theta$ で)

等号は $\delta$ がすでに $T$ の関数である場合にのみ成り立ちます。

この「条件付き期待値を取ることで分散が減少する」という現象をラオ・ブラックウェル化(Rao-Blackwellization)と呼びます。

ラオ・ブラックウェル化の強力な点は、元の推定量 $\delta$ がどんなに「悪い」推定量であっても(極端に言えば $\delta = X_1$ のようにデータ1個だけを使う推定量でも)、改善された推定量 $\delta^*$ が得られることです。改善の幅は、元の推定量がどれだけ十分統計量の情報を活用していなかったかに比例します。

次に、この定理を厳密に証明しましょう。

定理の証明

不偏性の保持

まず、$\delta^*$ が不偏であることを示します。繰り返し期待値の法則(law of iterated expectations, tower property)を使います。

$$ E_\theta[\delta^*] = E_\theta[E[\delta | T]] = E_\theta[\delta] = g(\theta) $$

1行目の等号は $\delta^*$ の定義、2行目は繰り返し期待値の法則($E[E[X|Y]] = E[X]$)、3行目は $\delta$ が $g(\theta)$ の不偏推定量であることから従います。

したがって $\delta^*$ は $g(\theta)$ の不偏推定量です。

$T$ の関数であること

条件付き期待値 $E[\delta | T]$ は、定義により $T$ の可測関数です。つまり $\delta^*$ は $T$ のみに依存する統計量です。

分散の減少

分散の減少は全分散の公式(law of total variance)を使って証明します。

$$ \begin{equation} \text{Var}(\delta) = E[\text{Var}(\delta | T)] + \text{Var}(E[\delta | T]) \end{equation} $$

この公式は「全体の分散 = グループ内分散の期待値 + グループ間分散」というANOVAの分解と同じ構造を持っています。

右辺の第1項 $E[\text{Var}(\delta | T)]$ は条件付き分散の期待値であり、$\text{Var}(\delta | T) \geq 0$ なので $E[\text{Var}(\delta | T)] \geq 0$ です。

右辺の第2項 $\text{Var}(E[\delta | T]) = \text{Var}(\delta^*)$ は $\delta^*$ の分散そのものです。

したがって、

$$ \text{Var}(\delta) = \underbrace{E[\text{Var}(\delta | T)]}_{\geq 0} + \text{Var}(\delta^*) \geq \text{Var}(\delta^*) $$

等号は $E[\text{Var}(\delta | T)] = 0$、すなわち $\text{Var}(\delta | T) = 0$ a.s. のときに限ります。$\text{Var}(\delta | T) = 0$ は「$T$ が与えられれば $\delta$ が確定する」こと、つまり $\delta$ が $T$ の関数であることと同値です。$\square$

証明の直感的解釈

全分散の公式の分解は、次のように直感的に理解できます。

$\text{Var}(\delta | T)$ は「$T$ の値を固定したときの $\delta$ の残りのばらつき」です。このばらつきは $\theta$ に関する情報を含んでおらず($T$ が十分統計量なので、$T$ が与えられれば $\delta$ の残りのばらつきは $\theta$ に依存しません)、純粋な「ノイズ」です。

条件付き期待値 $E[\delta | T]$ を取ることで、このノイズ成分 $E[\text{Var}(\delta | T)]$ が完全に除去されます。残るのは $\text{Var}(\delta^*) = \text{Var}(E[\delta | T])$、つまり十分統計量を通じてパラメータに関する情報だけが反映された分散です。

十分性の役割

$T$ が十分統計量であることが重要な理由は、$\delta^* = E[\delta | T]$ が $\theta$ に依存しないことを保証するためです。十分統計量の定義により、$\delta$ の $T$ による条件付き分布は $\theta$ に依存しません。したがって $E[\delta | T]$ も $\theta$ に依存せず、正当な推定量(統計量)になります。

もし $T$ が十分統計量でなければ、$E[\delta | T]$ が $\theta$ に依存する可能性があり、それはもはや推定量として使えません($\theta$ は未知なので)。

次に、具体例でラオ・ブラックウェル化の効果を確認しましょう。

具体例1: ベルヌーイ分布

問題設定

$X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} \text{Bernoulli}(p)$ とします。$p$ の推定量として、次の2つを比較します。

  • ナイーブ推定量: $\delta = X_1$(最初のサンプルだけを使う)。$E[\delta] = p$ なので不偏。$\text{Var}(\delta) = p(1-p)$。
  • 十分統計量: $T = \sum_{i=1}^n X_i$($T \sim \text{Bin}(n, p)$)

ラオ・ブラックウェル化

$$ \delta^* = E[X_1 | T] $$

対称性を使って計算します。$X_1, X_2, \dots, X_n$ は交換可能(exchangeable)なので、

$$ E[X_1 | T] = E[X_2 | T] = \cdots = E[X_n | T] $$

これらの条件付き期待値はすべて等しいです。さらに、

$$ \sum_{i=1}^n E[X_i | T] = E\left[\sum_{i=1}^n X_i \bigg| T\right] = E[T | T] = T $$

$T$ を $T$ で条件付けた期待値は $T$ そのものです。したがって、

$$ n \cdot E[X_1 | T] = T \quad \Longrightarrow \quad \delta^* = E[X_1 | T] = \frac{T}{n} = \bar{X} $$

ラオ・ブラックウェル化により、$X_1$ だけを使う推定量が標本平均 $\bar{X}$ に改善されました。

分散の比較

$$ \text{Var}(\bar{X}) = \frac{p(1-p)}{n} < p(1-p) = \text{Var}(X_1) \quad (n > 1) $$

サンプル平均 $\bar{X}$ は、$X_1$ だけを使う推定量よりも $n$ 倍効率的です。全分散の公式で確認すると、

$$ \text{Var}(X_1) = E[\text{Var}(X_1 | T)] + \text{Var}(E[X_1 | T]) $$

$$ p(1-p) = E[\text{Var}(X_1|T)] + \frac{p(1-p)}{n} $$

よって $E[\text{Var}(X_1|T)] = p(1-p)(1 – 1/n)$。これがラオ・ブラックウェル化で除去されたノイズ成分です。

具体例2: 一様分布

問題設定

$X_1, \dots, X_n \overset{\text{i.i.d.}}{\sim} U(0, \theta)$ として、$\theta$ を推定します。

十分統計量は $T = X_{(n)} = \max(X_1, \dots, X_n)$ です。

ナイーブ推定量: $\delta = 2X_1$(モーメント法の1サンプル版)。$E[\delta] = 2 \cdot \theta/2 = \theta$ なので不偏。$\text{Var}(\delta) = 4 \cdot \theta^2/12 = \theta^2/3$。

ラオ・ブラックウェル化

$\delta^* = E[2X_1 | X_{(n)} = t]$ を計算する必要があります。$X_{(n)} = t$ という条件のもとで、$X_1$ の条件付き分布を求めます。

$X_1$ が最大値であるか否かで場合分けします。確率 $1/n$ で $X_1 = X_{(n)} = t$ であり、確率 $(n-1)/n$ で $X_1 < X_{(n)} = t$ です。

$X_1 \neq X_{(n)}$ の場合、$X_{(n)} = t$ のもとで $X_1 \sim U(0, t)$ です(十分統計量が与えられた条件のもとでの条件付き分布)。

$$ E[X_1 | X_{(n)} = t] = \frac{1}{n} \cdot t + \frac{n-1}{n} \cdot \frac{t}{2} = \frac{t}{n} + \frac{(n-1)t}{2n} = \frac{(n+1)t}{2n} $$

したがって、

$$ \delta^* = 2 \cdot \frac{(n+1)X_{(n)}}{2n} = \frac{n+1}{n}X_{(n)} $$

これは $\theta$ のUMVUE(一様最小分散不偏推定量)であることが知られています。

分散の比較

$$ \text{Var}\left(\frac{n+1}{n}X_{(n)}\right) = \frac{\theta^2}{n(n+2)} $$

$$ \text{Var}(2X_1) = \frac{\theta^2}{3} $$

$n = 10$ のとき、改善率は

$$ 1 – \frac{\theta^2/(10 \cdot 12)}{\theta^2/3} = 1 – \frac{1}{40} = 0.975 = 97.5\% $$

分散が約97.5%も削減されます。最大値 $X_{(n)}$ という十分統計量に情報が集約されていることの力です。

具体例3: ポアソン分布

$X_1, \dots, X_n \overset{\text{i.i.d.}}{\sim} \text{Poisson}(\lambda)$ として、$g(\lambda) = e^{-\lambda} = P(X_1 = 0)$ を推定します。

十分統計量は $T = \sum X_i$。ナイーブ推定量は $\delta = \mathbb{1}(X_1 = 0)$($X_1 = 0$ なら1、そうでなければ0)。$E[\delta] = P(X_1 = 0) = e^{-\lambda}$ なので不偏。

ラオ・ブラックウェル化:

$$ \delta^* = P(X_1 = 0 | T = t) = \frac{P(X_1 = 0, \sum_{i=2}^n X_i = t)}{P(T = t)} $$

$X_1 = 0$ のとき $\sum_{i=2}^n X_i = t$ であり、$\sum_{i=2}^n X_i \sim \text{Poisson}((n-1)\lambda)$ なので、

$$ \delta^* = \frac{e^{-\lambda} \cdot \frac{((n-1)\lambda)^t e^{-(n-1)\lambda}}{t!}}{\frac{(n\lambda)^t e^{-n\lambda}}{t!}} = \left(\frac{n-1}{n}\right)^t $$

したがって、$\delta^* = \left(1 – \frac{1}{n}\right)^T$ が $P(X_1 = 0)$ のUMVUEです。$n \to \infty$ で $\delta^* \to e^{-T/n} \to e^{-\lambda}$ と真の値に収束することが確認できます。

Pythonによる数値検証

3つの具体例について、ラオ・ブラックウェル化の効果をシミュレーションで確認します。

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

p_true = 0.3
n_samples = 10
n_experiments = 50000

# 推定量1: X_1 のみ
estimates_x1 = np.random.binomial(1, p_true, n_experiments)

# 推定量2: ラオ・ブラックウェル化(= 標本平均)
all_samples = np.random.binomial(1, p_true, (n_experiments, n_samples))
estimates_rb = all_samples.mean(axis=1)

fig, axes = plt.subplots(1, 2, figsize=(14, 5.5))

# ヒストグラムの比較
ax = axes[0]
ax.hist(estimates_x1, bins=[-0.25, 0.25, 0.75, 1.25], density=True,
        alpha=0.6, color="salmon", edgecolor="white",
        label=rf"$\delta = X_1$, Var = {estimates_x1.var():.4f}")
ax.hist(estimates_rb, bins=30, density=True, alpha=0.6,
        color="steelblue", edgecolor="white",
        label=rf"$\delta^* = \bar{{X}}$, Var = {estimates_rb.var():.4f}")
ax.axvline(p_true, color="red", linewidth=2, linestyle="--",
           label=rf"True $p = {p_true}$")

ax.set_xlabel("Estimate", fontsize=12)
ax.set_ylabel("Density", fontsize=12)
ax.set_title(f"Rao-Blackwell improvement (n={n_samples})", fontsize=13)
ax.legend(fontsize=9)
ax.grid(True, alpha=0.3)

# MSEの比較
ax = axes[1]
n_range = range(1, 31)
var_x1 = p_true * (1 - p_true)
var_rb = [p_true * (1 - p_true) / n for n in n_range]

ax.plot(n_range, [var_x1]*len(n_range), "r-", linewidth=2,
        label=r"$\mathrm{Var}(X_1) = p(1-p)$")
ax.plot(n_range, var_rb, "b-", linewidth=2,
        label=r"$\mathrm{Var}(\bar{X}) = p(1-p)/n$")

ax.set_xlabel("Sample size n", fontsize=12)
ax.set_ylabel("Variance", fontsize=12)
ax.set_title("Variance reduction by Rao-Blackwellization", fontsize=13)
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig("rao_blackwell.png", dpi=150, bbox_inches="tight")
plt.show()

print(f"X_1の分散: {estimates_x1.var():.4f} (理論値: {p_true*(1-p_true):.4f})")
print(f"標本平均の分散: {estimates_rb.var():.4f} (理論値: {p_true*(1-p_true)/n_samples:.4f})")
print(f"分散の改善率: {(1 - estimates_rb.var()/estimates_x1.var())*100:.1f}%")

この数値検証から、ラオ・ブラックウェル化の効果が明確に確認できます。

  1. 左図: $X_1$(赤)は0と1の2値しか取れず分散が大きいのに対し、$\bar{X}$(青)は真の値 $p = 0.3$ の周りに集中している 。ラオ・ブラックウェル化により、推定量の精度が劇的に向上しています。$X_1$ の情報に $X_2, \dots, X_n$ の情報を加えることで、推定のばらつきが大幅に減少しています。

  2. 右図: ラオ・ブラックウェル化された推定量の分散は $1/n$ のレートで減少する 。元の推定量 $X_1$ の分散は $n$ に依存しない定数ですが、ラオ・ブラックウェル化後の $\bar{X}$ の分散は $n$ に反比例して減少します。$n = 10$ では分散が約90%削減されています。

次に、一様分布とポアソン分布でも検証を行います。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)
n_experiments = 50000

fig, axes = plt.subplots(2, 2, figsize=(14, 11))

# --- (a) 一様分布: 2X_1 vs (n+1)/n * X_(n) ---
ax = axes[0, 0]
theta_true = 5.0
n = 10

data = np.random.uniform(0, theta_true, (n_experiments, n))
est_naive = 2 * data[:, 0]         # 2X_1
est_rb = (n + 1) / n * data.max(axis=1)  # UMVUE

ax.hist(est_naive, bins=80, density=True, alpha=0.5, color="salmon",
        edgecolor="white", label=rf"$2X_1$, Var={est_naive.var():.3f}")
ax.hist(est_rb, bins=80, density=True, alpha=0.5, color="steelblue",
        edgecolor="white", label=rf"$\frac{{n+1}}{{n}}X_{{(n)}}$, Var={est_rb.var():.4f}")
ax.axvline(theta_true, color="red", linewidth=2, linestyle="--",
           label=rf"True $\theta = {theta_true}$")
ax.set_title(f"Uniform(0, $\\theta$): RB improvement (n={n})", fontsize=13)
ax.legend(fontsize=9)
ax.grid(True, alpha=0.3)

# --- (b) ポアソン分布: 1(X_1=0) vs ((n-1)/n)^T ---
ax = axes[0, 1]
lambda_true = 2.0
n = 20
true_val = np.exp(-lambda_true)

data = np.random.poisson(lambda_true, (n_experiments, n))
est_naive = (data[:, 0] == 0).astype(float)
T = data.sum(axis=1)
est_rb = ((n - 1) / n) ** T

ax.hist(est_naive, bins=[-0.25, 0.25, 0.75, 1.25], density=True,
        alpha=0.5, color="salmon", edgecolor="white",
        label=rf"$\mathbb{{1}}(X_1=0)$, Var={est_naive.var():.4f}")
ax.hist(est_rb, bins=50, density=True, alpha=0.5, color="steelblue",
        edgecolor="white", label=rf"$(1-1/n)^T$, Var={est_rb.var():.6f}")
ax.axvline(true_val, color="red", linewidth=2, linestyle="--",
           label=rf"$e^{{-\lambda}} = {true_val:.4f}$")
ax.set_title(f"Poisson: RB improvement (n={n})", fontsize=13)
ax.legend(fontsize=9)
ax.grid(True, alpha=0.3)

# --- (c) 全分散の公式の分解(ベルヌーイ) ---
ax = axes[1, 0]
p_true = 0.3
n_range = np.arange(2, 51)

var_total = p_true * (1 - p_true)
var_between = [p_true * (1 - p_true) / n for n in n_range]
var_within = [var_total - v for v in var_between]

ax.fill_between(n_range, 0, var_within, alpha=0.5, color="salmon",
                label=r"$E[\mathrm{Var}(X_1|T)]$ (removed noise)")
ax.fill_between(n_range, var_within, var_total, alpha=0.5, color="steelblue",
                label=r"$\mathrm{Var}(E[X_1|T]) = \mathrm{Var}(\bar{X})$")
ax.axhline(var_total, color="black", linewidth=1, linestyle="--",
           label=rf"Total Var = {var_total:.2f}")

ax.set_xlabel("Sample size n", fontsize=12)
ax.set_ylabel("Variance", fontsize=12)
ax.set_title("Variance decomposition (Bernoulli)", fontsize=13)
ax.legend(fontsize=9)
ax.grid(True, alpha=0.3)

# --- (d) 分散削減率の比較 ---
ax = axes[1, 1]

# ベルヌーイ
reduction_bernoulli = [1 - 1/n for n in n_range]

# 一様分布
reduction_uniform = [1 - 3/(n*(n+2)) for n in n_range]

# ポアソン(P(X=0))
lambda_val = 2.0
reduction_poisson = []
for n in n_range:
    var_naive_p = np.exp(-lambda_val) * (1 - np.exp(-lambda_val))
    data_sim = np.random.poisson(lambda_val, (10000, n))
    T_sim = data_sim.sum(axis=1)
    est_sim = ((n - 1) / n) ** T_sim
    var_rb_p = est_sim.var()
    reduction_poisson.append(1 - var_rb_p / var_naive_p)

ax.plot(n_range, reduction_bernoulli, "b-", linewidth=2, label="Bernoulli (p)")
ax.plot(n_range, reduction_uniform, "r-", linewidth=2, label=r"Uniform ($\theta$)")
ax.plot(n_range, reduction_poisson, "g-", linewidth=2, label=r"Poisson ($e^{-\lambda}$)")

ax.set_xlabel("Sample size n", fontsize=12)
ax.set_ylabel("Variance reduction ratio", fontsize=12)
ax.set_title("Variance reduction by Rao-Blackwellization", fontsize=13)
ax.legend(fontsize=10)
ax.set_ylim(0, 1)
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig("rao_blackwell_all.png", dpi=150, bbox_inches="tight")
plt.show()

この包括的な検証から、以下のことが確認できます。

  1. 左上(一様分布): $2X_1$ は $[0, 2\theta]$ の範囲にばらつくのに対し、UMVUE $\frac{n+1}{n}X_{(n)}$ は真の値の近くに集中している 。分散は約97%削減されています。最大値 $X_{(n)}$ が $\theta$ に関する情報をほぼ完全に含んでいるためです。

  2. 右上(ポアソン分布): 指示関数 $\mathbb{1}(X_1 = 0)$ は0か1しか取れず非常に粗い推定ですが、ラオ・ブラックウェル化後の $((n-1)/n)^T$ は連続的な値を取り、真の値の周りに集中している 。十分統計量 $T = \sum X_i$ の情報を活用することで、質的に異なるレベルの精度が実現されています。

  3. 左下(全分散の公式の分解): 赤い領域がラオ・ブラックウェル化で除去されるノイズ成分 $E[\text{Var}(X_1|T)]$ 。$n$ が増えるにつれて除去される成分が増え、残る分散(青い領域)が小さくなります。$n = 2$ でもすでに分散の50%が除去されています。

  4. 右下: 分散削減率は3つの分布すべてで $n$ とともに1に近づく 。$n$ が大きくなるほど、ナイーブ推定量の「無駄」が大きくなるため、ラオ・ブラックウェル化による改善幅も大きくなります。一様分布での改善が最も劇的であるのは、十分統計量 $X_{(n)}$ にパラメータの情報がほぼ完全に集約されているためです。

モンテカルロ法への応用

ラオ・ブラックウェルの定理は、理論的な推定量の構成だけでなく、モンテカルロシミュレーションの分散削減にも応用できます。

期待値 $E[h(X)]$ をモンテカルロ法で推定する際、$X$ を直接シミュレーションする代わりに、何らかの条件付き期待値を利用して分散を削減できます。

たとえば、$X = (X_1, X_2)$ であり、$X_1$ が与えられたときの $h(X_1, X_2)$ の条件付き期待値 $E[h(X_1, X_2)|X_1]$ が解析的に計算できる場合、

$$ E[h(X)] = E[E[h(X_1, X_2)|X_1]] $$

であり、$E[h(X_1, X_2)|X_1]$ のモンテカルロ推定は元の $h(X_1, X_2)$ のモンテカルロ推定よりも分散が小さくなります。これは条件付きモンテカルロ法(conditional Monte Carlo, Rao-Blackwellized Monte Carlo)と呼ばれ、粒子フィルタ(sequential Monte Carlo)などの高度な手法で広く使われています。

UMVUEへの道筋

ラオ・ブラックウェルの定理は、UMVUE(一様最小分散不偏推定量、uniformly minimum variance unbiased estimator) を見つけるための強力な道具です。

ラオ・ブラックウェルの定理をレーマン・シェッフェの定理と組み合わせると、次の結果が得られます。

十分統計量 $T$ が完備(complete)であれば、$T$ の関数として表される不偏推定量は一意であり、それがUMVUEです。

完備性とは、「$T$ の関数で恒等的に期待値がゼロになるのはゼロ関数だけ」という条件です。直感的には、$T$ の分布族が十分に多様であることを意味します。指数型分布族(正規分布、ポアソン分布、二項分布など)の十分統計量は通常完備なので、これらの分布ではUMVUEが体系的に構成できます。

UMVUE構成の手順をまとめると、

  1. 完備十分統計量 $T$ を見つける
  2. $g(\theta)$ の任意の不偏推定量 $\delta$ をラオ・ブラックウェル化: $\delta^* = E[\delta | T]$
  3. $\delta^*$ がUMVUE

この手順については、完備十分統計量とレーマン・シェッフェの定理で詳しく解説しています。

ラオ・ブラックウェルの定理の限界

最後に、この定理のいくつかの限界にも触れておきましょう。

不偏性に固執する限界: ラオ・ブラックウェルの定理は不偏推定量の中での最適性を保証しますが、不偏推定量が常に最良の推定量とは限りません。偏りを許容することで、二乗誤差(MSE)を下げられる場合があります(バイアス・バリアンストレードオフ)。

条件付き期待値の計算困難性: $E[\delta|T]$ の計算は分布によっては困難です。解析的に計算できるのは共役関係がある場合に限られ、一般には数値的手法が必要です。

十分統計量の次元: 十分統計量がデータと同じ次元を持つ場合(たとえば、順序統計量全体が十分統計量の場合)、ラオ・ブラックウェル化による改善は起きません。

まとめ

本記事では、ラオ・ブラックウェルの定理を証明し、推定量の改善法を解説しました。

  • ラオ・ブラックウェルの定理: 不偏推定量 $\delta$ を十分統計量 $T$ で条件付けた $\delta^* = E[\delta|T]$ は、不偏性を保ちつつ分散を減少させる
  • 証明の核心は全分散の公式 $\text{Var}(\delta) = E[\text{Var}(\delta|T)] + \text{Var}(\delta^*)$ であり、$E[\text{Var}(\delta|T)] \geq 0$ から分散の減少が従う
  • 十分統計量で条件付けることは「データの情報を使い切る」ことに対応し、パラメータに無関係なノイズ成分が除去される
  • 具体例: ベルヌーイ分布では $X_1 \to \bar{X}$、一様分布では $2X_1 \to \frac{n+1}{n}X_{(n)}$、ポアソン分布では $\mathbb{1}(X_1=0) \to ((n-1)/n)^T$ に改善される
  • UMVUEの構成への第一歩: 完備十分統計量と組み合わせることで最良不偏推定量が得られる
  • モンテカルロ法の分散削減にも応用でき、粒子フィルタなどの実用的手法の理論的基盤となっている

次のステップとして、以下の記事も参考にしてください。