ワルド検定の理論と漸近分布をわかりやすく解説

ある新しい治療法の臨床試験で、治療効果のパラメータ $\theta$ を最尤推定量で推定したところ $\hat{\theta} = 2.4$ を得たとします。帰無仮説「治療効果なし」すなわち $\theta = 0$ を検定したいとき、$\hat{\theta}$ がどの程度「ゼロから離れているか」をどう定量化すればよいでしょうか。

この問いに答えるのがワルド検定(Wald test)です。推定量 $\hat{\theta}$ とその標準誤差を用いて、帰無仮説の値からの偏差を標準化し、その大きさで仮説を検定します。

ワルド検定は、統計学と機械学習のあらゆる場面に登場する基本的な検定手法です。

  • 回帰分析: 回帰係数が有意かどうかの検定(t検定はワルド検定の特殊ケース)
  • ロジスティック回帰: 各説明変数の係数の有意性検定
  • 生存時間分析: Cox比例ハザードモデルにおけるハザード比の検定
  • 構造方程式モデリング: パス係数の検定

本記事の内容

  • 最尤推定量の漸近正規性の復習
  • ワルド検定統計量の構成と漸近分布の導出
  • 多次元パラメータへの拡張
  • 正規分布・ポアソン分布・ロジスティック回帰での具体例
  • 尤度比検定・スコア検定との三位一体の関係
  • Pythonによる実装と可視化

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

最尤推定量の漸近正規性

漸近理論が必要な理由

ネイマン・ピアソンの基本補題は、単純仮説の下で最強力検定を与えます。しかし、多くの実用的な検定問題では、パラメータが複数あったり、帰無仮説が複合仮説であったりして、基本補題を直接適用できません。

そこで発展したのが漸近理論に基づく検定です。標本サイズ $n$ が十分に大きいとき、最尤推定量は近似的に正規分布に従います。この性質を利用すれば、広範な問題に適用可能な汎用的な検定手法を構成できます。

フィッシャー情報量

漸近理論の核心はフィッシャー情報量(Fisher information)です。パラメータ $\theta$ を持つ確率密度関数 $f(x \mid \theta)$ に対して、スコア関数を

$$ \begin{equation} s(x; \theta) = \frac{\partial}{\partial \theta} \ln f(x \mid \theta) \end{equation} $$

と定義し、フィッシャー情報量を

$$ \begin{equation} I(\theta) = E_\theta\left[ s(X; \theta)^2 \right] = -E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \ln f(X \mid \theta) \right] \end{equation} $$

と定義します。第2の等号は正則条件(微分と積分の交換可能性)の下で成り立ちます。

フィッシャー情報量は「パラメータ $\theta$ に関してデータが持つ情報の量」を測る指標です。直感的には、$I(\theta)$ が大きいほど、$\theta$ を精密に推定できます。

$n$ 個の独立同一分布(i.i.d.)の観測値に対するフィッシャー情報量は $I_n(\theta) = n I(\theta)$ です。

漸近正規性の定理

定理(最尤推定量の漸近正規性): 正則条件の下で、最尤推定量 $\hat{\theta}_n$ は次の漸近分布を持つ。

$$ \begin{equation} \sqrt{n}(\hat{\theta}_n – \theta_0) \xrightarrow{d} N\left(0, \frac{1}{I(\theta_0)}\right) \end{equation} $$

あるいは等価的に、

$$ \begin{equation} \hat{\theta}_n \stackrel{\cdot}{\sim} N\left(\theta_0, \frac{1}{n I(\theta_0)}\right) \end{equation} $$

ここで $\theta_0$ は真のパラメータ値、$\stackrel{\cdot}{\sim}$ は漸近的に分布に従うことを意味します。

この定理の意味を直感的に理解しましょう。最尤推定量は真の値を中心として正規分布的にばらつき、そのばらつきの大きさ(分散)は $1/(nI(\theta_0))$ です。フィッシャー情報量が大きいほど、また標本サイズ $n$ が大きいほど、推定の精度が高くなります。

この漸近正規性はクラメール・ラオの下界と密接に関係しています。クラメール・ラオの下界は不偏推定量の分散の下限が $1/(nI(\theta))$ であることを主張しますが、最尤推定量はこの下界を漸近的に達成するのです。すなわち、最尤推定量は漸近的に最も効率的な推定量です。

最尤推定量の漸近正規性を確認したところで、これを検定に応用しましょう。

ワルド検定統計量の構成

直感的な動機

最尤推定量 $\hat{\theta}_n$ が漸近的に $N(\theta_0, 1/(nI(\theta_0)))$ に従うのであれば、帰無仮説 $H_0: \theta = \theta_0$ の下で

$$ \begin{equation} \frac{\hat{\theta}_n – \theta_0}{\sqrt{1/(nI(\theta_0))}} \stackrel{\cdot}{\sim} N(0, 1) \end{equation} $$

が成り立ちます。この量の二乗を取れば、

$$ \begin{equation} W = n I(\theta_0) (\hat{\theta}_n – \theta_0)^2 \stackrel{\cdot}{\sim} \chi^2(1) \end{equation} $$

です。帰無仮説が正しければ $W$ は小さく、正しくなければ $W$ は大きくなるので、$W$ が大きいときに $H_0$ を棄却するのが自然です。

これがワルド検定の基本的なアイデアです。「推定量が帰無仮説の値からどれだけ離れているかを、推定量の精度で標準化する」のです。

1次元パラメータのワルド検定

ワルド検定統計量(1次元パラメータ):

$$ \begin{equation} W = \frac{(\hat{\theta}_n – \theta_0)^2}{\widehat{\text{Var}}(\hat{\theta}_n)} \end{equation} $$

ここで $\widehat{\text{Var}}(\hat{\theta}_n)$ は $\hat{\theta}_n$ の分散の推定量です。

分散の推定にはいくつかの方法があります。

方法1: 期待情報行列の推定量に基づく方法

$$ \begin{equation} \widehat{\text{Var}}(\hat{\theta}_n) = \frac{1}{n I(\hat{\theta}_n)} \end{equation} $$

フィッシャー情報量 $I(\theta_0)$ の $\theta_0$ を $\hat{\theta}_n$ で置き換えます。

方法2: 観測情報行列に基づく方法

$$ \begin{equation} \widehat{\text{Var}}(\hat{\theta}_n) = \frac{1}{J_n(\hat{\theta}_n)} \end{equation} $$

ここで $J_n(\theta) = -\frac{\partial^2}{\partial \theta^2} \ell_n(\theta)$ は観測情報量(対数尤度の負の二階微分)であり、$\ell_n(\theta) = \sum_{i=1}^n \ln f(X_i \mid \theta)$ は対数尤度関数です。

どちらの方法でも、正則条件の下で $H_0$ が正しいとき $W \xrightarrow{d} \chi^2(1)$ が成り立ちます。

漸近分布の導出

ワルド検定統計量の漸近分布を丁寧に導出しましょう。

$H_0: \theta = \theta_0$ の下で、最尤推定量の漸近正規性から

$$ \begin{equation} \sqrt{nI(\theta_0)} \, (\hat{\theta}_n – \theta_0) \xrightarrow{d} N(0, 1) \end{equation} $$

したがって、

$$ \begin{equation} nI(\theta_0)(\hat{\theta}_n – \theta_0)^2 \xrightarrow{d} \chi^2(1) \end{equation} $$

ここで $I(\theta_0)$ は未知の $\theta_0$ に依存しますが、最尤推定量の一致性 $\hat{\theta}_n \xrightarrow{p} \theta_0$ とフィッシャー情報量の連続性から、

$$ \begin{equation} I(\hat{\theta}_n) \xrightarrow{p} I(\theta_0) \end{equation} $$

スルツキーの定理(Slutsky’s theorem)により、$I(\theta_0)$ を $I(\hat{\theta}_n)$ で置き換えても漸近分布は変わりません。

$$ \begin{equation} W = nI(\hat{\theta}_n)(\hat{\theta}_n – \theta_0)^2 \xrightarrow{d} \chi^2(1) \end{equation} $$

同様に、観測情報量 $J_n(\hat{\theta}_n)/n \xrightarrow{p} I(\theta_0)$ であることを使えば、

$$ \begin{equation} W = J_n(\hat{\theta}_n)(\hat{\theta}_n – \theta_0)^2 \xrightarrow{d} \chi^2(1) \end{equation} $$

も成り立ちます。

棄却域

有意水準 $\alpha$ のワルド検定の棄却域は

$$ \begin{equation} W > \chi^2_{1, \alpha} \end{equation} $$

です。ここで $\chi^2_{1, \alpha}$ は自由度1の $\chi^2$ 分布の上側 $\alpha$ 点です。

標準正規量を使えば、等価的に

$$ \begin{equation} Z = \frac{\hat{\theta}_n – \theta_0}{\sqrt{\widehat{\text{Var}}(\hat{\theta}_n)}} \end{equation} $$

に対して、$|Z| > z_{\alpha/2}$(両側検定)または $Z > z_\alpha$(片側検定)を棄却域とすることもできます。$Z^2 = W$ であり、$z_{\alpha/2}^2 = \chi^2_{1, \alpha}$ が成り立つので、二つの表現は完全に等価です。

1次元のワルド検定の構造を理解したところで、多次元パラメータへの拡張に進みましょう。

多次元パラメータへの拡張

問題設定

$p$ 次元のパラメータベクトル $\bm{\theta} = (\theta_1, \dots, \theta_p)^T$ を持つモデルを考えます。帰無仮説が $r$ 個の制約を課す場合、

$$ \begin{equation} H_0: h(\bm{\theta}) = \bm{0} \end{equation} $$

ここで $h: \mathbb{R}^p \to \mathbb{R}^r$ は $r$ 個の制約を表す関数です($r \leq p$)。

最も単純な場合は、パラメータの一部がゼロであるという制約です。たとえば回帰分析で $\theta_3 = \theta_5 = 0$ を検定する場合、$r = 2$ です。

多次元の漸近正規性

$p$ 次元の最尤推定量 $\hat{\bm{\theta}}_n$ の漸近正規性は、

$$ \begin{equation} \sqrt{n}(\hat{\bm{\theta}}_n – \bm{\theta}_0) \xrightarrow{d} N_p\left(\bm{0}, I(\bm{\theta}_0)^{-1}\right) \end{equation} $$

ここで $I(\bm{\theta})$ は $p \times p$ のフィッシャー情報行列であり、$(i,j)$ 成分は

$$ \begin{equation} [I(\bm{\theta})]_{ij} = -E_{\bm{\theta}}\left[ \frac{\partial^2}{\partial \theta_i \partial \theta_j} \ln f(X \mid \bm{\theta}) \right] \end{equation} $$

です。

多次元ワルド検定統計量

一般的なワルド検定統計量:

$$ \begin{equation} W = h(\hat{\bm{\theta}}_n)^T \left[ \hat{H} \, \widehat{\text{Cov}}(\hat{\bm{\theta}}_n) \, \hat{H}^T \right]^{-1} h(\hat{\bm{\theta}}_n) \end{equation} $$

ここで $\hat{H} = \frac{\partial h}{\partial \bm{\theta}^T}\bigg|_{\bm{\theta} = \hat{\bm{\theta}}_n}$ は制約関数のヤコビ行列($r \times p$ 行列)であり、$\widehat{\text{Cov}}(\hat{\bm{\theta}}_n)$ は共分散行列の推定量です。

この式はデルタ法の直接的な適用です。$h(\hat{\bm{\theta}}_n)$ の漸近分散は、デルタ法により

$$ \begin{equation} \text{Var}(h(\hat{\bm{\theta}}_n)) \approx H \, \text{Cov}(\hat{\bm{\theta}}_n) \, H^T \end{equation} $$

と近似されるため、ワルド検定統計量は $h(\hat{\bm{\theta}}_n)$ をその漸近分散で標準化した二次形式に他なりません。

線形制約の場合

帰無仮説が線形制約 $H_0: C\bm{\theta} = \bm{d}$($C$ は $r \times p$ 行列、$\bm{d}$ は $r$ 次元ベクトル)の場合、ワルド検定統計量は

$$ \begin{equation} W = (C\hat{\bm{\theta}}_n – \bm{d})^T \left[ C \, \widehat{\text{Cov}}(\hat{\bm{\theta}}_n) \, C^T \right]^{-1} (C\hat{\bm{\theta}}_n – \bm{d}) \end{equation} $$

と書けます。

特に $\theta_j = 0$ の検定: 単一のパラメータ $\theta_j$ がゼロかどうかの検定では $C$ は $j$ 番目成分だけが1の行ベクトル、$d = 0$ です。このとき、

$$ \begin{equation} W = \frac{\hat{\theta}_j^2}{\widehat{\text{Var}}(\hat{\theta}_j)} \end{equation} $$

となり、1次元の場合に帰着します。

漸近分布

帰無仮説 $H_0: h(\bm{\theta}) = \bm{0}$ の下で、

$$ \begin{equation} W \xrightarrow{d} \chi^2(r) \end{equation} $$

自由度 $r$ は帰無仮説が課す制約の数に等しくなります。

この結果の導出を確認しましょう。$H_0$ の下で $h(\bm{\theta}_0) = \bm{0}$ であり、デルタ法により

$$ \begin{equation} \sqrt{n} \, h(\hat{\bm{\theta}}_n) \xrightarrow{d} N_r\left(\bm{0}, H \, I(\bm{\theta}_0)^{-1} \, H^T\right) \end{equation} $$

$\bm{Z} = \sqrt{n} \, h(\hat{\bm{\theta}}_n)$ とすると、$\bm{Z}$ の共分散行列を $\Sigma$ として $\bm{Z} \xrightarrow{d} N_r(\bm{0}, \Sigma)$ です。

二次形式 $\bm{Z}^T \Sigma^{-1} \bm{Z} \xrightarrow{d} \chi^2(r)$ であることは、多変量正規分布の性質から従います($\Sigma^{-1/2}\bm{Z}$ が漸近的に $N_r(\bm{0}, I_r)$ に従い、その二乗ノルムは $\chi^2(r)$ に従う)。

$\Sigma$ の推定量を用いても、スルツキーの定理により漸近分布は変わりません。

多次元の理論を理解したところで、具体的な統計モデルにおけるワルド検定の実例を見ていきましょう。

具体例1: 正規分布の平均の検定

問題設定

$X_1, \dots, X_n \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2)$($\sigma^2$ は既知)として、

$$ \begin{equation} H_0: \mu = \mu_0 \quad \text{vs.} \quad H_1: \mu \neq \mu_0 \end{equation} $$

を検定します。

ワルド検定統計量の導出

最尤推定量は $\hat{\mu} = \bar{X}$ です。フィッシャー情報量は

$$ \begin{equation} I(\mu) = -E\left[ \frac{\partial^2}{\partial \mu^2} \ln f(X \mid \mu) \right] = -E\left[ -\frac{1}{\sigma^2} \right] = \frac{1}{\sigma^2} \end{equation} $$

対数尤度の二階微分が定数なので、期待情報量と観測情報量は一致します。

$\hat{\mu}$ の分散は

$$ \begin{equation} \text{Var}(\hat{\mu}) = \frac{1}{nI(\mu)} = \frac{\sigma^2}{n} \end{equation} $$

ワルド検定統計量は

$$ \begin{equation} W = \frac{(\hat{\mu} – \mu_0)^2}{\sigma^2/n} = \frac{n(\bar{X} – \mu_0)^2}{\sigma^2} = Z^2 \end{equation} $$

ここで $Z = \frac{\bar{X} – \mu_0}{\sigma/\sqrt{n}}$ は通常のZ統計量です。

厳密分布との関係

正規分布の場合、ワルド検定統計量は漸近的ではなく厳密に $\chi^2(1)$(あるいは等価的に $Z \sim N(0,1)$)に従います。これは正規分布の特別な性質であり、一般には漸近的な近似です。

$\sigma^2$ が未知の場合は、$\sigma^2$ を不偏推定量 $S^2 = \frac{1}{n-1}\sum(X_i – \bar{X})^2$ で置き換えると、

$$ \begin{equation} T = \frac{\bar{X} – \mu_0}{S/\sqrt{n}} \sim t(n-1) \end{equation} $$

となり、t検定が得られます。t検定はワルド検定の一種であり、$\sigma^2$ 未知の場合の厳密な分布を用いた検定です。$n$ が大きいとき $t(n-1) \to N(0,1)$ なので、ワルド検定のZ近似と一致します。

具体例2: ポアソン分布のパラメータの検定

問題設定

$X_1, \dots, X_n \stackrel{\text{i.i.d.}}{\sim} \text{Poisson}(\lambda)$ として、

$$ \begin{equation} H_0: \lambda = \lambda_0 \quad \text{vs.} \quad H_1: \lambda \neq \lambda_0 \end{equation} $$

を検定します。

フィッシャー情報量の計算

ポアソン分布の確率関数は $f(x \mid \lambda) = \frac{\lambda^x e^{-\lambda}}{x!}$ です。対数尤度は

$$ \begin{equation} \ln f(x \mid \lambda) = x \ln \lambda – \lambda – \ln x! \end{equation} $$

スコア関数は

$$ \begin{equation} \frac{\partial}{\partial \lambda} \ln f(x \mid \lambda) = \frac{x}{\lambda} – 1 \end{equation} $$

二階微分は

$$ \begin{equation} \frac{\partial^2}{\partial \lambda^2} \ln f(x \mid \lambda) = -\frac{x}{\lambda^2} \end{equation} $$

期待値を取ると、$E[X] = \lambda$ なので、

$$ \begin{equation} I(\lambda) = -E\left[ -\frac{X}{\lambda^2} \right] = \frac{E[X]}{\lambda^2} = \frac{1}{\lambda} \end{equation} $$

ワルド検定統計量

最尤推定量は $\hat{\lambda} = \bar{X}$ です。推定量の分散は

$$ \begin{equation} \widehat{\text{Var}}(\hat{\lambda}) = \frac{1}{nI(\hat{\lambda})} = \frac{\hat{\lambda}}{n} = \frac{\bar{X}}{n} \end{equation} $$

ワルド検定統計量は

$$ \begin{equation} W = \frac{(\bar{X} – \lambda_0)^2}{\bar{X}/n} = \frac{n(\bar{X} – \lambda_0)^2}{\bar{X}} \end{equation} $$

$H_0$ の下で $W \xrightarrow{d} \chi^2(1)$ です。

注意点: 分散の推定方法

ここでフィッシャー情報量の $\lambda$ を $\hat{\lambda} = \bar{X}$ で置き換えました。代わりに $\lambda_0$ で置き換えることもできます。

$$ \begin{equation} W’ = \frac{n(\bar{X} – \lambda_0)^2}{\lambda_0} \end{equation} $$

$W$ と $W’$ はどちらも漸近的に $\chi^2(1)$ に従いますが、有限標本での挙動は異なります。$\lambda_0$ を使う方法は帰無仮説の下で分散が正確に計算されるという利点がありますが、対立仮説の下での検出力の性質が異なります。

ポアソン分布の例で具体的な計算手順を確認しました。次に、より実践的なロジスティック回帰の例を見てみましょう。

具体例3: ロジスティック回帰での応用

問題設定

ロジスティック回帰モデルを考えます。

$$ \begin{equation} P(Y_i = 1 \mid \bm{x}_i) = \frac{1}{1 + \exp(-\bm{x}_i^T \bm{\beta})} \end{equation} $$

パラメータベクトル $\bm{\beta} = (\beta_0, \beta_1, \dots, \beta_p)^T$ に対して、特定の係数 $\beta_j$ がゼロかどうかを検定します。

$$ \begin{equation} H_0: \beta_j = 0 \quad \text{vs.} \quad H_1: \beta_j \neq 0 \end{equation} $$

ワルド検定統計量

最尤推定量 $\hat{\bm{\beta}}$ の共分散行列の推定量は、フィッシャー情報行列の逆行列

$$ \begin{equation} \widehat{\text{Cov}}(\hat{\bm{\beta}}) = \left( X^T \hat{W} X \right)^{-1} \end{equation} $$

で与えられます。ここで $X$ はデザイン行列、$\hat{W}$ は $\hat{W}_{ii} = \hat{p}_i(1 – \hat{p}_i)$ を対角成分とする重み行列、$\hat{p}_i = P(Y_i = 1 \mid \bm{x}_i, \hat{\bm{\beta}})$ は予測確率です。

$\hat{\beta}_j$ の標準誤差は

$$ \begin{equation} \text{SE}(\hat{\beta}_j) = \sqrt{\left[\left(X^T \hat{W} X\right)^{-1}\right]_{jj}} \end{equation} $$

ワルド検定統計量は

$$ \begin{equation} Z_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \end{equation} $$

$H_0$ の下で $Z_j \xrightarrow{d} N(0, 1)$(あるいは $Z_j^2 \xrightarrow{d} \chi^2(1)$)です。

ロジスティック回帰でのワルド検定の注意点

ロジスティック回帰におけるワルド検定には重要な注意点があります。完全分離(complete separation)や準完全分離が発生すると、最尤推定量が発散($|\hat{\beta}_j| \to \infty$)し、標準誤差も非常に大きくなります。このとき、ワルド検定統計量 $Z_j = \hat{\beta}_j / \text{SE}(\hat{\beta}_j)$ は $0/0$ に近い不安定な値になりうるため、有意でないという誤った結論を導くことがあります。

このような場合には、尤度比検定の方が信頼性が高いことが知られています。ワルド検定は推定量が有限の値に収束している場合に最も適切に機能します。

ロジスティック回帰の具体例を通じて、ワルド検定の実践的な使い方と注意点を確認しました。

正則条件の詳細

ワルド検定が成立するための条件

ワルド検定の漸近的な正当性は、最尤推定量の漸近正規性に依存します。漸近正規性が成立するためには、以下のような正則条件(regularity conditions)が必要です。

条件1: パラメータ空間が開集合 — パラメータの真の値 $\theta_0$ がパラメータ空間 $\Theta$ の内点であることが必要です。$\theta_0$ が境界にある場合(たとえば分散が0かどうかの検定)、漸近分布は $\chi^2$ ではなく混合 $\chi^2$ 分布になることがあります。

条件2: モデルの識別可能性 — 異なるパラメータ値が異なる分布を生成すること、すなわち $\theta_1 \neq \theta_2 \implies f(\cdot \mid \theta_1) \neq f(\cdot \mid \theta_2)$ が必要です。識別不可能な場合、最尤推定量は一意に定まりません。

条件3: フィッシャー情報量の正則性 — $I(\theta_0) > 0$(1次元)あるいはフィッシャー情報行列 $I(\bm{\theta}_0)$ が正定値であることが必要です。情報量がゼロの場合、推定量の分散が情報量の逆数として定義できません。

条件4: 微分可能性と積分の交換 — 対数尤度関数が $\theta$ に関して2回微分可能であり、微分と積分の順序が交換できることが必要です。この条件はスコア関数の期待値がゼロであること $E[s(X; \theta)] = 0$ を保証し、フィッシャー情報量の2つの表現(スコアの分散と対数尤度の二階微分の負の期待値)が一致することを保証します。

条件5: 最尤推定量の一致性 — $\hat{\theta}_n \xrightarrow{p} \theta_0$ が成り立つことが必要です。対数尤度関数が良好な大域的性質を持ち、局所的な最大値が大域的な最大値と一致する必要があります。

正則条件が破れる場合の例

正則条件が破れる典型的な例を知っておくことは、ワルド検定の適用限界を理解する上で重要です。

一様分布 $U(0, \theta)$: この分布の最尤推定量は $\hat{\theta} = X_{(n)}$(最大値)であり、$n(\theta_0 – \hat{\theta})$ が指数分布に収束します。漸近正規性が成り立たず、ワルド検定は適用できません。

混合モデルでの成分数の検定: $H_0$: 2成分混合 vs. $H_1$: 3成分混合のような検定では、帰無仮説の下で追加の成分のパラメータが境界上にあるため、通常の漸近理論が使えません。

非正則な尤度: コーシー分布の位置パラメータなど、フィッシャー情報量は有限ですが、スコア関数の4次モーメントが存在しないため、漸近展開の高次の項の挙動が通常とは異なります。ただし、基本的な漸近正規性は成り立ちます。

これらの例は、ワルド検定を機械的に適用する前に、対象のモデルが正則条件を満たすかどうかを確認する必要があることを示唆しています。

ワルド検定の適用条件を明確にしたところで、他の漸近的検定との比較に進みましょう。

三大漸近検定の関係

尤度比検定・ワルド検定・スコア検定

漸近理論に基づく三大検定は、対数尤度関数 $\ell(\theta) = \sum_{i=1}^n \ln f(X_i \mid \theta)$ の異なる側面を利用します。

尤度比検定(Likelihood Ratio Test, LRT): 対数尤度の「高さ」の差を使います。

$$ \begin{equation} \Lambda_{\text{LR}} = 2\left[\ell(\hat{\theta}) – \ell(\theta_0)\right] \end{equation} $$

帰無仮説の下でのフィットと制約なしのフィットの差を見ます。

ワルド検定: 最尤推定量 $\hat{\theta}$ の位置(帰無仮説からの距離)を使います。

$$ \begin{equation} W = nI(\hat{\theta})(\hat{\theta} – \theta_0)^2 \end{equation} $$

推定量がどれだけ帰無仮説の値から離れているかを測ります。

スコア検定(Score Test, Rao Test): 帰無仮説の下でのスコア関数(対数尤度の傾き)を使います。

$$ \begin{equation} S = \frac{[\ell'(\theta_0)]^2}{nI(\theta_0)} \end{equation} $$

帰無仮説の値で対数尤度がどれだけ「傾いているか」を測ります。

幾何学的理解

対数尤度関数 $\ell(\theta)$ のグラフを思い浮かべると、三大検定の違いが直感的に理解できます。

  • 尤度比検定: 頂点 $\ell(\hat{\theta})$ と帰無仮説での値 $\ell(\theta_0)$ の垂直方向の差(対数尤度の差)
  • ワルド検定: 頂点 $\hat{\theta}$ と帰無仮説の値 $\theta_0$ の水平方向の差(パラメータ空間での距離)
  • スコア検定: 帰無仮説の値 $\theta_0$ での対数尤度曲線の傾き(スコア関数の値)

対数尤度関数が二次関数に近いとき(正規近似が良いとき)、3つの検定は互いに近い値を与えます。対数尤度が二次関数から大きく逸脱するとき(歪みが強いとき)、3つの検定は異なる結果を与えることがあります。

漸近等価性

$H_0$ が正しいとき、正則条件の下で3つの検定統計量はすべて同じ漸近分布 $\chi^2(r)$ に従います。

$$ \begin{equation} \Lambda_{\text{LR}} \xrightarrow{d} \chi^2(r), \quad W \xrightarrow{d} \chi^2(r), \quad S \xrightarrow{d} \chi^2(r) \end{equation} $$

さらに、対立仮説の下でも、3つの統計量は同じ漸近的な検出力を持ちます。すなわち、$n \to \infty$ の極限では3つの検定は全く同じ性能を持ちます。

しかし有限標本では一般に

$$ \begin{equation} S \leq \Lambda_{\text{LR}} \leq W \end{equation} $$

という大小関係が成り立つことが多く(ただし常に成り立つわけではありません)、ワルド検定は最も棄却しやすく、スコア検定は最も保守的な傾向があります。

計算コストの比較

3つの検定は計算コストの面で重要な違いがあります。

検定 必要な推定 計算コスト
ワルド検定 制約なしの最尤推定のみ $\hat{\theta}$ を1回計算
スコア検定 制約ありの最尤推定のみ $\theta_0$ でのスコアを計算
尤度比検定 両方の最尤推定 $\hat{\theta}$ と $\hat{\theta}_0$ を2回計算

ワルド検定は制約なしの最尤推定量さえ手元にあれば計算できるため、モデルのフィッティングを1回行えば、そのモデルに含まれるすべてのパラメータに対するワルド検定を一度に実行できます。回帰分析のソフトウェアがデフォルトで各係数のワルド検定(t検定やz検定)を出力するのは、この計算上の便利さが理由です。

スコア検定は帰無仮説の下での推定だけで済むため、帰無仮説の下でのモデルが単純な場合に有利です。変数選択の文脈では、まだモデルに含めていない変数を追加すべきかどうかを判定する際にスコア検定が使われます。

三大検定の関係を整理したところで、Pythonでこれらを実装して比較しましょう。

Pythonによる実装

三大検定の比較

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats, optimize

# ポアソン分布での三大検定の比較
np.random.seed(42)

def poisson_three_tests(data, lambda_0):
    """
    ポアソン分布のパラメータに対する三大検定を実行
    """
    n = len(data)
    x_bar = np.mean(data)

    # 最尤推定量
    lambda_hat = x_bar

    # 対数尤度関数
    log_lik = lambda lam: np.sum(stats.poisson.logpmf(data, lam))

    # ワルド検定
    # Var(lambda_hat) = lambda_hat / n
    W = n * (lambda_hat - lambda_0)**2 / lambda_hat
    p_wald = 1 - stats.chi2.cdf(W, df=1)

    # 尤度比検定
    LR = 2 * (log_lik(lambda_hat) - log_lik(lambda_0))
    p_lr = 1 - stats.chi2.cdf(LR, df=1)

    # スコア検定
    score = np.sum(data - lambda_0) / lambda_0  # sum of (x_i/lambda_0 - 1) * lambda_0
    score_stat = score**2 / (n / lambda_0)       # score^2 / Fisher info
    # 別の表現: n * (x_bar - lambda_0)^2 / lambda_0
    S = n * (x_bar - lambda_0)**2 / lambda_0
    p_score = 1 - stats.chi2.cdf(S, df=1)

    return {
        'wald': (W, p_wald),
        'lr': (LR, p_lr),
        'score': (S, p_score),
        'lambda_hat': lambda_hat
    }

# シミュレーション: さまざまな真のパラメータでの検定
lambda_0 = 5.0  # 帰無仮説の値
n = 30          # 標本サイズ

# (a) 帰無仮説が正しい場合の統計量の分布
n_sim = 10000
wald_stats = np.zeros(n_sim)
lr_stats = np.zeros(n_sim)
score_stats = np.zeros(n_sim)

for i in range(n_sim):
    data = np.random.poisson(lambda_0, n)
    results = poisson_three_tests(data, lambda_0)
    wald_stats[i] = results['wald'][0]
    lr_stats[i] = results['lr'][0]
    score_stats[i] = results['score'][0]

fig, axes = plt.subplots(1, 3, figsize=(16, 5))

x_chi2 = np.linspace(0, 15, 200)
pdf_chi2 = stats.chi2.pdf(x_chi2, df=1)

for ax, stat_values, name in zip(axes,
                                   [wald_stats, lr_stats, score_stats],
                                   ['Wald', 'Likelihood Ratio', 'Score']):
    ax.hist(stat_values, bins=80, density=True, alpha=0.6, color='steelblue',
            label='シミュレーション')
    ax.plot(x_chi2, pdf_chi2, 'r-', linewidth=2, label='χ²(1)')
    ax.set_xlabel('検定統計量', fontsize=11)
    ax.set_ylabel('密度', fontsize=11)
    ax.set_title(f'{name}検定', fontsize=13)
    ax.legend(fontsize=10)
    ax.set_xlim(0, 12)
    ax.grid(True, alpha=0.3)

plt.suptitle(f'帰無仮説下での三大検定統計量の分布 (n={n}, λ₀={lambda_0})', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('wald_test_three_tests.png', dpi=150, bbox_inches='tight')
plt.show()

# 第一種の過誤率の確認
alpha = 0.05
print(f"有意水準 α = {alpha}")
print(f"ワルド検定の棄却率: {np.mean(wald_stats > stats.chi2.ppf(1-alpha, 1)):.4f}")
print(f"尤度比検定の棄却率: {np.mean(lr_stats > stats.chi2.ppf(1-alpha, 1)):.4f}")
print(f"スコア検定の棄却率: {np.mean(score_stats > stats.chi2.ppf(1-alpha, 1)):.4f}")

3つのヒストグラムを比較すると、帰無仮説の下で3つの検定統計量すべてが $\chi^2(1)$ 分布によく近似されていることが確認できます。第一種の過誤率は3つとも名目水準 $\alpha = 0.05$ に近い値を示しますが、スコア検定がやや保守的(名目水準をわずかに下回る)、ワルド検定がやや自由主義的(名目水準をわずかに上回る)傾向が見られることがあります。

対数尤度曲線上での三大検定の可視化

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# ポアソン分布の対数尤度を使った三大検定の可視化
np.random.seed(123)

lambda_0 = 3.0  # 帰無仮説の値
n = 20
data = np.random.poisson(5.0, n)  # 対立仮説の下で生成

lambda_hat = np.mean(data)  # MLE

# 対数尤度関数
def log_likelihood(lam, data):
    return np.sum(stats.poisson.logpmf(data, lam))

# 対数尤度曲線
lam_range = np.linspace(2.0, 8.0, 500)
ll_values = np.array([log_likelihood(lam, data) for lam in lam_range])

# 各検定統計量
ll_hat = log_likelihood(lambda_hat, data)
ll_0 = log_likelihood(lambda_0, data)

# スコア関数(帰無仮説の値での傾き)
score_at_0 = np.sum(data / lambda_0 - 1)

# 帰無仮説の値での接線
tangent = ll_0 + score_at_0 * (lam_range - lambda_0)

fig, ax = plt.subplots(figsize=(12, 7))

# 対数尤度曲線
ax.plot(lam_range, ll_values, 'k-', linewidth=2.5, label='対数尤度 ℓ(λ)')

# 尤度比検定: 垂直の差
ax.annotate('', xy=(lambda_hat, ll_0), xytext=(lambda_hat, ll_hat),
            arrowprops=dict(arrowstyle='<->', color='red', lw=2))
ax.text(lambda_hat + 0.15, (ll_hat + ll_0)/2, f'LR/2 = {(ll_hat - ll_0):.2f}',
        fontsize=11, color='red')

# ワルド検定: 水平の差
ax.annotate('', xy=(lambda_0, ll_hat - 3), xytext=(lambda_hat, ll_hat - 3),
            arrowprops=dict(arrowstyle='<->', color='blue', lw=2))
ax.text((lambda_0 + lambda_hat)/2, ll_hat - 4.5,
        f'|λ̂ − λ₀| = {abs(lambda_hat - lambda_0):.2f}',
        fontsize=11, color='blue', ha='center')

# スコア検定: 傾き
ax.plot(lam_range, tangent, 'g--', linewidth=1.5, alpha=0.7, label='θ₀での接線(スコア)')

# 点の表示
ax.plot(lambda_hat, ll_hat, 'bo', markersize=10, zorder=5, label=f'MLE λ̂ = {lambda_hat:.2f}')
ax.plot(lambda_0, ll_0, 'rs', markersize=10, zorder=5, label=f'H₀: λ₀ = {lambda_0}')

ax.axvline(x=lambda_0, color='gray', linestyle=':', alpha=0.3)
ax.axvline(x=lambda_hat, color='gray', linestyle=':', alpha=0.3)

ax.set_xlabel('パラメータ λ', fontsize=13)
ax.set_ylabel('対数尤度 ℓ(λ)', fontsize=13)
ax.set_title('三大検定の幾何学的解釈', fontsize=14)
ax.legend(fontsize=11, loc='lower right')
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('wald_test_geometric.png', dpi=150, bbox_inches='tight')
plt.show()

# 三大検定の結果
fisher_info = 1 / lambda_hat  # I(lambda) = 1/lambda
W = n * (lambda_hat - lambda_0)**2 * fisher_info
LR = 2 * (ll_hat - ll_0)
score = np.sum(data / lambda_0 - 1)
S = score**2 / (n / lambda_0)

print(f"最尤推定量 λ̂ = {lambda_hat:.3f}")
print(f"ワルド検定: W = {W:.4f}, p = {1-stats.chi2.cdf(W, 1):.6f}")
print(f"尤度比検定: LR = {LR:.4f}, p = {1-stats.chi2.cdf(LR, 1):.6f}")
print(f"スコア検定: S = {S:.4f}, p = {1-stats.chi2.cdf(S, 1):.6f}")

この図は三大検定の幾何学的な意味を直感的に理解するための鍵となります。赤い矢印が尤度比検定(対数尤度の垂直方向の差)、青い矢印がワルド検定(パラメータの水平方向の差)、緑の破線がスコア検定(帰無仮説の値での接線の傾き)に対応します。対数尤度曲線が完全な二次関数であれば、3つの検定は全く同じ結果を与えますが、曲線に歪みがあると3つの検定統計量にずれが生じます。

検出力の比較

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 三大検定の検出力比較
lambda_0 = 5.0
n = 20
alpha = 0.05
crit_val = stats.chi2.ppf(1 - alpha, df=1)
n_sim = 5000

lambda_true_range = np.linspace(3.0, 8.0, 30)
power_wald = np.zeros_like(lambda_true_range)
power_lr = np.zeros_like(lambda_true_range)
power_score = np.zeros_like(lambda_true_range)

for idx, lambda_true in enumerate(lambda_true_range):
    reject_wald = 0
    reject_lr = 0
    reject_score = 0

    for _ in range(n_sim):
        data = np.random.poisson(lambda_true, n)
        x_bar = np.mean(data)

        if x_bar <= 0:
            continue

        # ワルド検定
        W = n * (x_bar - lambda_0)**2 / x_bar
        if W > crit_val:
            reject_wald += 1

        # 尤度比検定
        ll_hat = np.sum(data * np.log(x_bar) - x_bar) if x_bar > 0 else -np.inf
        ll_0 = np.sum(data * np.log(lambda_0) - lambda_0)
        LR = 2 * (ll_hat - ll_0)
        if LR > crit_val:
            reject_lr += 1

        # スコア検定
        S = n * (x_bar - lambda_0)**2 / lambda_0
        if S > crit_val:
            reject_score += 1

    power_wald[idx] = reject_wald / n_sim
    power_lr[idx] = reject_lr / n_sim
    power_score[idx] = reject_score / n_sim

fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(lambda_true_range, power_wald, 'b-o', linewidth=2, markersize=4, label='ワルド検定')
ax.plot(lambda_true_range, power_lr, 'r-s', linewidth=2, markersize=4, label='尤度比検定')
ax.plot(lambda_true_range, power_score, 'g-^', linewidth=2, markersize=4, label='スコア検定')
ax.axhline(y=alpha, color='gray', linestyle='--', alpha=0.5, label=f'α = {alpha}')
ax.axvline(x=lambda_0, color='gray', linestyle=':', alpha=0.5, label=f'λ₀ = {lambda_0}')

ax.set_xlabel('真のパラメータ λ', fontsize=12)
ax.set_ylabel('検出力', fontsize=12)
ax.set_title(f'三大検定の検出力比較 (n={n}, α={alpha})', fontsize=13)
ax.legend(fontsize=11)
ax.set_ylim(-0.05, 1.05)
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('wald_test_power_comparison.png', dpi=150, bbox_inches='tight')
plt.show()

検出力曲線から、3つの検定の検出力が非常に近いことが確認できます。帰無仮説の値 $\lambda_0 = 5$ からの乖離が大きいほど検出力は1に近づきます。帰無仮説の値では検出力が有意水準 $\alpha$ と一致し、第一種の過誤率が名目水準を正しく維持していることが分かります。ワルド検定はスコア検定に比べてわずかに高い検出力を示す傾向がありますが、有限標本では第一種の過誤率がわずかに膨れることがある点にも注意が必要です。

ワルド検定の信頼区間との関係

ワルド型信頼区間

ワルド検定と信頼区間は表裏一体の関係にあります。ワルド検定の非棄却域に対応するパラメータの集合が、ワルド型信頼区間です。

有意水準 $\alpha$ の両側ワルド検定の棄却条件は

$$ \begin{equation} \left| \frac{\hat{\theta} – \theta_0}{\text{SE}(\hat{\theta})} \right| > z_{\alpha/2} \end{equation} $$

非棄却域に対応する $\theta_0$ の集合は

$$ \begin{equation} \left| \frac{\hat{\theta} – \theta_0}{\text{SE}(\hat{\theta})} \right| \leq z_{\alpha/2} \end{equation} $$

すなわち、

$$ \begin{equation} \hat{\theta} – z_{\alpha/2} \, \text{SE}(\hat{\theta}) \leq \theta_0 \leq \hat{\theta} + z_{\alpha/2} \, \text{SE}(\hat{\theta}) \end{equation} $$

これが $(1-\alpha)$ ワルド型信頼区間です。

$$ \begin{equation} \text{CI}_{1-\alpha} = \left[ \hat{\theta} \pm z_{\alpha/2} \, \text{SE}(\hat{\theta}) \right] \end{equation} $$

信頼区間と検定の双対性

ワルド型信頼区間に $\theta_0$ が含まれていない $\iff$ 有意水準 $\alpha$ のワルド検定で $H_0: \theta = \theta_0$ が棄却される

この双対性により、信頼区間を計算すれば、任意の $\theta_0$ に対するワルド検定の結果が直ちに分かります。信頼区間は検定よりも情報量が多く、パラメータの推定値だけでなく不確実性の幅も伝えるため、多くの場面で検定よりも信頼区間の報告が推奨されます。

他の信頼区間との比較

ワルド型信頼区間以外にも、尤度比に基づくプロファイル尤度信頼区間やスコア検定に基づくスコア信頼区間があります。

プロファイル尤度信頼区間: $2[\ell(\hat{\theta}) – \ell(\theta_0)] \leq \chi^2_{1,\alpha}$ を満たす $\theta_0$ の集合

スコア信頼区間: $\frac{[\ell'(\theta_0)]^2}{nI(\theta_0)} \leq \chi^2_{1,\alpha}$ を満たす $\theta_0$ の集合

二項分布の比率 $p$ の信頼区間を例にとると、ワルド型信頼区間は

$$ \begin{equation} \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \end{equation} $$

であり、これは $\hat{p}$ が0や1に近いときに被覆確率が名目水準を大きく下回ることが知られています。スコア信頼区間に対応するのがウィルソンの信頼区間であり、小標本での被覆確率がより安定しています。

ワルド検定の長所と短所

長所

計算の容易さ: ワルド検定の最大の利点は計算の容易さです。制約なしの最尤推定を1回行うだけで、モデルに含まれるすべてのパラメータに対する検定を同時に実行できます。特に、多くのパラメータを持つモデル(重回帰、ロジスティック回帰、混合効果モデルなど)では、この利点は極めて重要です。

直感的な解釈: ワルド検定統計量 $Z = (\hat{\theta} – \theta_0) / \text{SE}(\hat{\theta})$ は「推定量が帰無仮説の値から標準誤差何個分離れているか」という直感的な解釈を持ちます。この解釈は、回帰分析の結果を報告する際に非常に便利です。

信頼区間との直接的関係: ワルド検定から信頼区間が自然に構成でき、逆に信頼区間からワルド検定の結果が読み取れます。

短所

パラメータ変換に対する非不変性: ワルド検定は、パラメータの変換に対して不変ではありません。たとえば $H_0: \theta = \theta_0$ と $H_0: g(\theta) = g(\theta_0)$($g$ は単調変換)は数学的に同じ仮説ですが、ワルド検定統計量は異なる値を与えます。

具体的には、$\theta$ でのワルド検定統計量は

$$ \begin{equation} W_\theta = \frac{(\hat{\theta} – \theta_0)^2}{\widehat{\text{Var}}(\hat{\theta})} \end{equation} $$

一方、$\phi = g(\theta)$ での統計量は

$$ \begin{equation} W_\phi = \frac{(g(\hat{\theta}) – g(\theta_0))^2}{\widehat{\text{Var}}(g(\hat{\theta}))} \approx \frac{(g(\hat{\theta}) – g(\theta_0))^2}{[g'(\hat{\theta})]^2 \widehat{\text{Var}}(\hat{\theta})} \end{equation} $$

$g$ が線形でない限り、$W_\theta \neq W_\phi$ です。尤度比検定にはこの問題がありません(対数尤度はパラメータ変換に不変であるため)。

Hauck-Donner効果: 先述のロジスティック回帰の例のように、推定量が極端な値を取るとき、ワルド検定は過度に保守的(パラメータが有意でないと判定)になることがあります。これは推定量が大きくなると同時に標準誤差がさらに大きくなるためで、Hauck-Donner効果と呼ばれます。

小標本での近似精度: 漸近理論に基づくため、標本サイズが小さいとき、$\chi^2$ 近似の精度が低下することがあります。特に、パラメータが境界近く(たとえば分散が0に近い場合)にあるときは注意が必要です。

実用的な推奨

以上の長所と短所を踏まえると、ワルド検定の使い分けについて以下のような指針が得られます。

  1. 標本サイズが十分に大きく、推定量が極端な値を取らない場合: ワルド検定は簡便で信頼性が高い
  2. 標本サイズが小さい場合: 尤度比検定の方が一般に信頼性が高い
  3. 完全分離や推定量の発散が疑われる場合: 尤度比検定またはスコア検定を使う
  4. 多数のパラメータを同時に検定する場合: ワルド検定の計算効率が有利

対立仮説の下での分布

非心 $\chi^2$ 分布

ワルド検定の検出力を理論的に評価するには、対立仮説の下での検定統計量の分布を知る必要があります。

対立仮説 $H_1: \theta = \theta_1$($\theta_1 \neq \theta_0$)の下で、最尤推定量は漸近的に $\hat{\theta}_n \stackrel{\cdot}{\sim} N(\theta_1, 1/(nI(\theta_1)))$ に従います。したがって、

$$ \begin{equation} \sqrt{nI(\theta_0)}(\hat{\theta}_n – \theta_0) = \sqrt{nI(\theta_0)}(\hat{\theta}_n – \theta_1) + \sqrt{nI(\theta_0)}(\theta_1 – \theta_0) \end{equation} $$

第1項は漸近的に $N(0, I(\theta_0)/I(\theta_1))$ に従い、$\theta_1$ が $\theta_0$ に近いときは $I(\theta_0)/I(\theta_1) \approx 1$ なので、$N(0,1)$ に近似できます。第2項は定数 $\mu = \sqrt{n}\sqrt{I(\theta_0)}(\theta_1 – \theta_0)$ です。

したがって、$H_1$ の下でワルド検定統計量は漸近的に非心 $\chi^2$ 分布に従います。

$$ \begin{equation} W \xrightarrow{d} \chi^2_1(\lambda) \quad \text{(非心度 } \lambda = nI(\theta_0)(\theta_1 – \theta_0)^2 \text{)} \end{equation} $$

非心 $\chi^2$ 分布の非心度パラメータ $\lambda$ が大きいほど、検定統計量が大きな値を取りやすくなり、検出力が高くなります。

検出力の漸近式

非心度パラメータから、検出力を

$$ \begin{equation} \text{検出力} \approx P(\chi^2_1(\lambda) > \chi^2_{1,\alpha}) = 1 – F_{\chi^2_1(\lambda)}(\chi^2_{1,\alpha}) \end{equation} $$

と計算できます。ここで $F_{\chi^2_1(\lambda)}$ は非心度 $\lambda$ の非心 $\chi^2$ 分布の累積分布関数です。

非心度 $\lambda = nI(\theta_0)(\theta_1 – \theta_0)^2$ の構造から、検出力に影響する3つの要素が明瞭に読み取れます。$n$(標本サイズ)、$I(\theta_0)$(情報量)、$(\theta_1 – \theta_0)^2$(効果量の二乗)です。標本サイズと効果量に関しては、正規分布の厳密な検出力分析と整合する結果が得られます。

多次元パラメータの場合は、$r$ 個の制約に対して

$$ \begin{equation} W \xrightarrow{d} \chi^2_r(\lambda) \end{equation} $$

ここで $\lambda = n \cdot h(\bm{\theta}_1)^T [H I(\bm{\theta}_0)^{-1} H^T]^{-1} h(\bm{\theta}_1)$ が非心度パラメータです。

対立仮説の下での分布を理解したところで、ワルド検定とデルタ法の関係を見ていきましょう。

デルタ法との関係

デルタ法の復習

ワルド検定はデルタ法(delta method)と密接に関連しています。デルタ法は、確率変数の関数の漸近分布を求める手法です。

$\sqrt{n}(\hat{\theta} – \theta_0) \xrightarrow{d} N(0, \sigma^2)$ のとき、微分可能な関数 $g$ に対して

$$ \begin{equation} \sqrt{n}(g(\hat{\theta}) – g(\theta_0)) \xrightarrow{d} N\left(0, [g'(\theta_0)]^2 \sigma^2\right) \end{equation} $$

パラメータの関数に対するワルド検定

しばしば、検定したい仮説は $H_0: g(\theta) = c$ の形をしています。たとえば、2つの割合の差 $p_1 – p_2 = 0$ や、オッズ比 $\frac{p_1/(1-p_1)}{p_2/(1-p_2)} = 1$ などです。

デルタ法により、$g(\hat{\theta})$ の漸近分散は

$$ \begin{equation} \text{Var}(g(\hat{\theta})) \approx [g'(\hat{\theta})]^2 \text{Var}(\hat{\theta}) \end{equation} $$

と近似されるため、ワルド検定統計量は

$$ \begin{equation} W = \frac{(g(\hat{\theta}) – c)^2}{[g'(\hat{\theta})]^2 \widehat{\text{Var}}(\hat{\theta})} \end{equation} $$

と構成できます。$H_0$ の下で $W \xrightarrow{d} \chi^2(1)$ です。

多次元パラメータの場合も同様に、デルタ法の多次元版が多次元ワルド検定の基礎を提供します。

分散安定化変換

デルタ法の興味深い応用として、分散安定化変換(variance-stabilizing transformation)があります。分散がパラメータに依存する場合、適切な変換 $g$ を選ぶことで分散を定数にできます。

たとえば、ポアソン分布の最尤推定量 $\hat{\lambda} = \bar{X}$ は $\text{Var}(\hat{\lambda}) \approx \lambda/n$ であり、分散が $\lambda$ に依存します。$g(\lambda) = 2\sqrt{\lambda}$ と変換すると、デルタ法により

$$ \begin{equation} \text{Var}(2\sqrt{\hat{\lambda}}) \approx [g'(\hat{\lambda})]^2 \frac{\hat{\lambda}}{n} = \frac{1}{\hat{\lambda}} \cdot \frac{\hat{\lambda}}{n} = \frac{1}{n} \end{equation} $$

分散が $\lambda$ に依存しなくなります。この変換を用いたワルド検定は、分散推定のずれによる影響を軽減できます。

まとめ

本記事では、ワルド検定の理論的基礎を最尤推定量の漸近正規性から導出し、その性質と応用を詳しく解説しました。

ワルド検定の核心は次のように要約できます。

最尤推定量 $\hat{\theta}$ が漸近的に正規分布に従うことを利用し、帰無仮説の値 $\theta_0$ からの標準化された距離によって仮説を検定する。 計算が簡便で直感的な解釈を持つため、回帰分析をはじめとする多くの統計モデルで標準的に使われています。

具体的に学んだ内容を振り返ると、

  • 漸近正規性: 最尤推定量が $N(\theta_0, 1/(nI(\theta_0)))$ に漸近的に従い、フィッシャー情報量がその精度を決定すること
  • ワルド検定統計量: $W = (\hat{\theta} – \theta_0)^2 / \widehat{\text{Var}}(\hat{\theta})$ が帰無仮説の下で $\chi^2(1)$ に漸近的に従うこと
  • 多次元への拡張: 制約 $h(\bm{\theta}) = \bm{0}$ に対して $W \xrightarrow{d} \chi^2(r)$($r$ は制約の数)
  • 三大検定の関係: ワルド検定・尤度比検定・スコア検定が漸近的に等価であること、および対数尤度関数上での幾何学的解釈
  • 信頼区間との双対性: ワルド検定の非棄却域がワルド型信頼区間に対応すること
  • 長所と短所: 計算の容易さと直感的解釈が長所、パラメータ変換への非不変性やHauck-Donner効果が短所

ワルド検定は、回帰分析の出力で日常的に目にする検定です。各回帰係数の横に表示される「t値」や「z値」は、まさにワルド検定統計量に他なりません。その理論的背景を理解することで、統計ソフトウェアの出力をより深く解釈できるようになります。