ネイマン・ピアソンの基本補題をわかりやすく導出する

ある工場の品質管理部門で、製品の不良率が基準値を超えているかどうかを判定したいとします。検査コストには限りがあるため、間違って「問題あり」と判定してしまう確率（第一種の過誤）を5%以下に抑えたい。同時に、本当に不良率が高いときには、できるだけ高い確率で異常を検出したいのです。

このとき、第一種の過誤率を一定水準（有意水準 $\alpha$）以下に保ちながら、真に差がある場合の検出力を最大化する検定はどのように構成すればよいのでしょうか。この問いに対する完全な解答が、ネイマン・ピアソンの基本補題（Neyman-Pearson lemma, 1933）です。

ネイマン・ピアソンの基本補題は、統計的仮説検定の理論的基盤を提供する中心的な定理であり、以下のような重要な応用を持ちます。

仮説検定の最適設計: ある有意水準の下で最も検出力の高い検定を体系的に導くことができます
レーダー信号検出: 雑音の中から信号を検出する問題は、ネイマン・ピアソン理論に基づいて最適な検出器を設計します
医療診断: 偽陽性率を一定に保ちつつ、疾患の検出率を最大化するための理論的枠組みを提供します
品質管理: 検査の合格・不合格の判定基準を統計的に最適化する際の基礎となります

本記事の内容

仮説検定の枠組みと検出力の定義
単純仮説 vs. 単純仮説における最強力検定の概念
ネイマン・ピアソンの基本補題の完全な導出
正規分布における具体的な適用例
尤度比と棄却域の幾何学的意味
Pythonによる検出力の可視化

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

確率分布の基礎 — 確率密度関数と尤度の概念
最尤推定 — 尤度関数の考え方
仮説検定の基礎 — 帰無仮説・対立仮説・有意水準

仮説検定の枠組み

統計的仮説と検定の定義

ネイマン・ピアソンの基本補題を理解するための出発点として、仮説検定の枠組みを整理しましょう。

観測データ $\bm{X} = (X_1, X_2, \dots, X_n)$ が、パラメータ $\theta$ を持つ確率分布に従うとします。我々が検定したいのは、次の2つの仮説です。

$$ \begin{equation} H_0: \theta = \theta_0 \quad (\text{帰無仮説}) \end{equation} $$

$$ \begin{equation} H_1: \theta = \theta_1 \quad (\text{対立仮説}) \end{equation} $$

ここで $\theta_0$ と $\theta_1$ はともに特定の値です。このように $\theta$ の値を1つに特定する仮説を単純仮説（simple hypothesis）と呼びます。ネイマン・ピアソンの基本補題は、この「単純仮説 vs. 単純仮説」の場面を対象とします。

検定とは、標本空間 $\mathcal{X}$ を棄却域（rejection region）$R$ と受容域 $R^c$ に分割する規則のことです。観測データ $\bm{x}$ が $R$ に入れば $H_0$ を棄却し、$R^c$ に入れば $H_0$ を棄却しません。

2種類の過誤

検定を行うとき、2種類の間違いが起こりえます。

$$ \begin{equation} \alpha = P(\bm{X} \in R \mid H_0) \quad (\text{第一種の過誤: 偽陽性}) \end{equation} $$

$$ \begin{equation} \beta = P(\bm{X} \notin R \mid H_1) \quad (\text{第二種の過誤: 偽陰性}) \end{equation} $$

第一種の過誤は「帰無仮説が正しいのに棄却してしまう」誤り、第二種の過誤は「対立仮説が正しいのに棄却できない」誤りです。

理想的には $\alpha$ も $\beta$ もゼロにしたいところですが、有限の標本ではこれは不可能です。棄却域を広げれば $\alpha$ は大きくなり $\beta$ は小さくなり、逆もまた成り立ちます。この二律背反がネイマン・ピアソン理論の出発点です。

検出力

検出力（power）は、対立仮説が正しいときに正しく棄却する確率として定義されます。

$$ \begin{equation} \text{検出力} = 1 – \beta = P(\bm{X} \in R \mid H_1) \end{equation} $$

検出力が高いほど、実際に差がある場合にそれを検出しやすい検定ということになります。

ネイマン・ピアソンのアプローチは明快です。第一種の過誤率を $\alpha$ 以下に固定し、その制約の下で検出力を最大化する棄却域を見つけることです。このような検定を最強力検定（most powerful test）と呼びます。

2種類の過誤のトレードオフを理解したところで、いよいよ核心の問いに取り組みましょう。最強力検定の棄却域はどのような形をしているのでしょうか。

尤度比の直感

データが語る「どちらの仮説がもっともらしいか」

最強力検定の数学的導出に入る前に、直感的な理解を構築しましょう。

データ $\bm{x}$ が得られたとき、$H_0$ と $H_1$ のどちらがより「もっともらしい」かを判断する自然な指標は何でしょうか。それは尤度比（likelihood ratio）です。

$$ \begin{equation} \Lambda(\bm{x}) = \frac{L(\theta_1 \mid \bm{x})}{L(\theta_0 \mid \bm{x})} = \frac{f(\bm{x} \mid \theta_1)}{f(\bm{x} \mid \theta_0)} \end{equation} $$

ここで $f(\bm{x} \mid \theta)$ は $\theta$ の下でのデータ $\bm{x}$ の同時密度関数（あるいは確率関数）です。

尤度比 $\Lambda(\bm{x})$ が大きいということは、「データ $\bm{x}$ は $H_1$ の下での方が $H_0$ の下でよりも出現しやすい」ことを意味します。つまり、$H_1$ の方がもっともらしいのです。

天秤のアナロジー

尤度比を天秤にたとえると分かりやすいかもしれません。天秤の左側に $H_0$ の重み $f(\bm{x} \mid \theta_0)$ を、右側に $H_1$ の重み $f(\bm{x} \mid \theta_1)$ を載せます。右側に傾くほど、すなわち尤度比が大きいほど、$H_1$ が支持されます。

直感的には、尤度比が十分に大きければ $H_0$ を棄却すべきです。つまり、ある閾値 $k$ を設けて

$$ \begin{equation} \Lambda(\bm{x}) = \frac{f(\bm{x} \mid \theta_1)}{f(\bm{x} \mid \theta_0)} > k \quad \Longrightarrow \quad H_0 \text{ を棄却} \end{equation} $$

とするのが自然な棄却規則です。

ネイマン・ピアソンの基本補題は、この直感が正確に正しいことを保証します。有意水準 $\alpha$ の下で検出力を最大化する検定は、まさにこの尤度比に基づく棄却域を持つのです。

では、この直感を厳密な数学で裏付けましょう。

ネイマン・ピアソンの基本補題の定式化

問題の定式化

データ $\bm{X} = (X_1, \dots, X_n)$ に対して、帰無仮説 $H_0: \theta = \theta_0$ と対立仮説 $H_1: \theta = \theta_1$ を検定する状況を考えます。

$f_0(\bm{x}) = f(\bm{x} \mid \theta_0)$ と $f_1(\bm{x}) = f(\bm{x} \mid \theta_1)$ をそれぞれの仮説の下での同時密度関数とします。

有意水準 $\alpha$（$0 < \alpha < 1$）の下で、以下の最適化問題を解きたいのです。

$$ \begin{equation} \max_R \; P(\bm{X} \in R \mid H_1) \quad \text{s.t.} \quad P(\bm{X} \in R \mid H_0) = \alpha \end{equation} $$

すなわち、第一種の過誤率をちょうど $\alpha$ に固定した上で、検出力を最大化する棄却域 $R$ を求めます。

基本補題の主張

ネイマン・ピアソンの基本補題: ある定数 $k \geq 0$ が存在して、次の棄却域 $R^*$ が最強力検定を与える。

$$ \begin{equation} R^* = \left\{ \bm{x} : \frac{f_1(\bm{x})}{f_0(\bm{x})} > k \right\} \end{equation} $$

ただし、定数 $k$ は有意水準の条件

$$ \begin{equation} P(\bm{X} \in R^* \mid H_0) = \alpha \end{equation} $$

を満たすように決定されます。

補助的に、$f_0(\bm{x}) = 0$ である点では尤度比を $+\infty$ と定義し、$f_0(\bm{x}) = f_1(\bm{x}) = 0$ の点では棄却域に含めても含めなくても検出力に影響しないため、任意に扱えます。

この補題は2つのことを同時に主張しています。(1) 最強力検定が存在すること、(2) その棄却域が尤度比 $f_1/f_0$ の閾値という単純な形をしていること。これは非常に強力な結果です。

次に、この補題を証明しましょう。

ネイマン・ピアソンの基本補題の証明

証明の戦略

証明の基本戦略は「差を取って符号を調べる」ことです。最強力検定 $R^*$（尤度比検定）と任意の有意水準 $\alpha$ の検定 $R$ を比較し、$R^*$ の方が検出力が高い（あるいは等しい）ことを示します。

準備

$R^*$ をネイマン・ピアソンの棄却域とし、$R$ を $P(\bm{X} \in R \mid H_0) \leq \alpha$ を満たす任意の棄却域とします。

$R^*$ の定義から、次が成り立ちます。

$$ \begin{equation} \bm{x} \in R^* \implies f_1(\bm{x}) > k \, f_0(\bm{x}) \end{equation} $$

$$ \begin{equation} \bm{x} \notin R^* \implies f_1(\bm{x}) \leq k \, f_0(\bm{x}) \end{equation} $$

検出力の差の評価

$R^*$ と $R$ の検出力の差を計算します。

$$ \begin{equation} P(\bm{X} \in R^* \mid H_1) – P(\bm{X} \in R \mid H_1) \end{equation} $$

これを積分で書き下すと、

$$ \begin{equation} = \int_{R^*} f_1(\bm{x}) \, d\bm{x} – \int_R f_1(\bm{x}) \, d\bm{x} \end{equation} $$

ここで、集合の演算を使って式を整理します。$R^*$ を $R^* \cap R$ と $R^* \cap R^c$ に、$R$ を $R \cap R^*$ と $R \cap (R^*)^c$ に分解します。

$$ \begin{equation} = \int_{R^* \cap R} f_1 \, d\bm{x} + \int_{R^* \cap R^c} f_1 \, d\bm{x} – \int_{R \cap R^*} f_1 \, d\bm{x} – \int_{R \cap (R^*)^c} f_1 \, d\bm{x} \end{equation} $$

$R^* \cap R$ の部分は共通なので打ち消し合い、

$$ \begin{equation} = \int_{R^* \cap R^c} f_1(\bm{x}) \, d\bm{x} – \int_{R \cap (R^*)^c} f_1(\bm{x}) \, d\bm{x} \end{equation} $$

ここで $R^* \setminus R = R^* \cap R^c$ は「$R^*$ には含まれるが $R$ には含まれない領域」、$R \setminus R^* = R \cap (R^*)^c$ は「$R$ には含まれるが $R^*$ には含まれない領域」です。

尤度比の不等式の適用

$R^*$ の定義から得られる不等式を各領域で適用します。

第1の積分（$\bm{x} \in R^* \setminus R$ の領域）: $\bm{x} \in R^*$ なので $f_1(\bm{x}) > k \, f_0(\bm{x})$ が成り立ちます。したがって、

$$ \begin{equation} \int_{R^* \setminus R} f_1(\bm{x}) \, d\bm{x} > k \int_{R^* \setminus R} f_0(\bm{x}) \, d\bm{x} \end{equation} $$

ただし、等号は積分領域の測度がゼロの場合に成り立ちます。

第2の積分（$\bm{x} \in R \setminus R^*$ の領域）: $\bm{x} \notin R^*$ なので $f_1(\bm{x}) \leq k \, f_0(\bm{x})$ が成り立ちます。したがって、

$$ \begin{equation} \int_{R \setminus R^*} f_1(\bm{x}) \, d\bm{x} \leq k \int_{R \setminus R^*} f_0(\bm{x}) \, d\bm{x} \end{equation} $$

これらを組み合わせると、

$$ \begin{equation} P(\bm{X} \in R^* \mid H_1) – P(\bm{X} \in R \mid H_1) \geq k \left[ \int_{R^* \setminus R} f_0(\bm{x}) \, d\bm{x} – \int_{R \setminus R^*} f_0(\bm{x}) \, d\bm{x} \right] \end{equation} $$

有意水準の制約を使う

右辺の括弧内を計算します。$R^*$ と同じ分解を $H_0$ の下で行うと、

$$ \begin{equation} \int_{R^* \setminus R} f_0(\bm{x}) \, d\bm{x} – \int_{R \setminus R^*} f_0(\bm{x}) \, d\bm{x} = P(\bm{X} \in R^* \mid H_0) – P(\bm{X} \in R \mid H_0) \end{equation} $$

この等式を確認しましょう。$R^*$ と $R$ をそれぞれ共通部分と差集合に分解すると、

$$ \begin{equation} P(\bm{X} \in R^* \mid H_0) = \int_{R^* \cap R} f_0 \, d\bm{x} + \int_{R^* \setminus R} f_0 \, d\bm{x} \end{equation} $$

$$ \begin{equation} P(\bm{X} \in R \mid H_0) = \int_{R \cap R^*} f_0 \, d\bm{x} + \int_{R \setminus R^*} f_0 \, d\bm{x} \end{equation} $$

共通部分 $R^* \cap R = R \cap R^*$ は等しいので、差を取ると上の等式が得られます。

ここで $P(\bm{X} \in R^* \mid H_0) = \alpha$ であり、$P(\bm{X} \in R \mid H_0) \leq \alpha$ なので、

$$ \begin{equation} P(\bm{X} \in R^* \mid H_0) – P(\bm{X} \in R \mid H_0) \geq 0 \end{equation} $$

$k \geq 0$ であるから、

$$ \begin{equation} k \left[ P(\bm{X} \in R^* \mid H_0) – P(\bm{X} \in R \mid H_0) \right] \geq 0 \end{equation} $$

結論

以上をまとめると、

$$ \begin{equation} P(\bm{X} \in R^* \mid H_1) – P(\bm{X} \in R \mid H_1) \geq 0 \end{equation} $$

すなわち、

$$ \begin{equation} P(\bm{X} \in R^* \mid H_1) \geq P(\bm{X} \in R \mid H_1) \end{equation} $$

が任意の有意水準 $\alpha$ の検定 $R$ に対して成り立ちます。これは、尤度比検定 $R^*$ が最強力検定であることを意味します。$\blacksquare$

証明を完了しましたが、その論理構造をもう少し深く掘り下げてみましょう。

証明の構造の解説

なぜ尤度比なのか

証明を振り返ると、核心は「棄却域の差集合における $f_1$ と $k \cdot f_0$ の大小関係」にあります。

$R^*$ に含まれる点では $f_1 > k \cdot f_0$（$H_1$ を強く支持）
$R^*$ に含まれない点では $f_1 \leq k \cdot f_0$（$H_0$ を相対的に支持）

この性質が検出力の優越性を保証しています。つまり、$R^*$ は $H_1$ を最も強く支持するデータ点を棄却域に集めており、$H_0$ をそれほど支持しないデータ点を棄却域から外しています。

直感的にいえば、尤度比が大きい点は「$H_1$ の証拠として効率がよい」点であり、限られた $\alpha$ の「予算」を効率の良い点に割り当てることで、検出力を最大化しているのです。

制約付き最適化としての解釈

ネイマン・ピアソンの基本補題は、ラグランジュ乗数法の応用としても理解できます。

検出力 $\int_R f_1(\bm{x}) \, d\bm{x}$ を最大化する問題に、制約 $\int_R f_0(\bm{x}) \, d\bm{x} = \alpha$ を付けると、ラグランジアンは

$$ \begin{equation} \mathcal{L} = \int_R f_1(\bm{x}) \, d\bm{x} – \lambda \int_R f_0(\bm{x}) \, d\bm{x} = \int_R \left[ f_1(\bm{x}) – \lambda f_0(\bm{x}) \right] d\bm{x} \end{equation} $$

これを最大化するには、被積分関数 $f_1(\bm{x}) – \lambda f_0(\bm{x}) > 0$ の領域を $R$ に含め、$f_1(\bm{x}) – \lambda f_0(\bm{x}) < 0$ の領域を含めなければよいのです。すなわち、

$$ \begin{equation} R = \left\{ \bm{x} : f_1(\bm{x}) – \lambda f_0(\bm{x}) > 0 \right\} = \left\{ \bm{x} : \frac{f_1(\bm{x})}{f_0(\bm{x})} > \lambda \right\} \end{equation} $$

ここで $\lambda = k$ がラグランジュ乗数に対応し、$k$ は制約 $P(\bm{X} \in R \mid H_0) = \alpha$ を満たすように決定されます。この解釈は、尤度比の閾値がラグランジュ乗数そのものであることを示しています。

確率化検定

離散分布の場合や、尤度比の分布が連続でない場合、$P(\Lambda(\bm{X}) > k \mid H_0) = \alpha$ をちょうど満たす $k$ が存在しないことがあります。

この問題を解決するために、確率化検定（randomized test）を導入します。尤度比がちょうど $k$ に等しい点で、確率 $\gamma$ で棄却するのです。

$$ \begin{equation} \phi(\bm{x}) = \begin{cases} 1 & \text{if } f_1(\bm{x}) / f_0(\bm{x}) > k \\ \gamma & \text{if } f_1(\bm{x}) / f_0(\bm{x}) = k \\ 0 & \text{if } f_1(\bm{x}) / f_0(\bm{x}) < k \end{cases} \end{equation} $$

ここで $\gamma \in [0, 1]$ は

$$ \begin{equation} E[\phi(\bm{X}) \mid H_0] = P\left(\frac{f_1(\bm{X})}{f_0(\bm{X})} > k \;\middle|\; H_0\right) + \gamma \, P\left(\frac{f_1(\bm{X})}{f_0(\bm{X})} = k \;\middle|\; H_0\right) = \alpha \end{equation} $$

を満たすように決定されます。連続分布の場合は $P(\Lambda(\bm{X}) = k) = 0$ なので確率化は不要です。

ネイマン・ピアソンの基本補題の証明と構造を理解したところで、具体的な例でこの理論を実感しましょう。

正規分布における具体例

問題設定

最も基本的で重要な例として、正規分布の平均に関する検定を考えます。

$X_1, X_2, \dots, X_n$ が独立に $N(\mu, \sigma^2)$ に従い、$\sigma^2$ は既知とします。検定問題は

$$ \begin{equation} H_0: \mu = \mu_0 \quad \text{vs.} \quad H_1: \mu = \mu_1 \quad (\mu_1 > \mu_0) \end{equation} $$

です。

尤度比の計算

$H_i$ の下での同時密度関数は

$$ \begin{equation} f(\bm{x} \mid \mu_i) = \prod_{j=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x_j – \mu_i)^2}{2\sigma^2} \right) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{\sum_{j=1}^n (x_j – \mu_i)^2}{2\sigma^2} \right) \end{equation} $$

尤度比を計算します。

$$ \begin{equation} \Lambda(\bm{x}) = \frac{f(\bm{x} \mid \mu_1)}{f(\bm{x} \mid \mu_0)} = \exp\left( -\frac{\sum (x_j – \mu_1)^2}{2\sigma^2} + \frac{\sum (x_j – \mu_0)^2}{2\sigma^2} \right) \end{equation} $$

指数部を整理します。各項の差を展開すると、

$$ \begin{equation} (x_j – \mu_0)^2 – (x_j – \mu_1)^2 = x_j^2 – 2x_j\mu_0 + \mu_0^2 – x_j^2 + 2x_j\mu_1 – \mu_1^2 \end{equation} $$

$x_j^2$ が打ち消し合い、

$$ \begin{equation} = 2x_j(\mu_1 – \mu_0) + (\mu_0^2 – \mu_1^2) \end{equation} $$

$n$ 個を合計すると、

$$ \begin{equation} \sum_{j=1}^n \left[ (x_j – \mu_0)^2 – (x_j – \mu_1)^2 \right] = 2(\mu_1 – \mu_0) \sum_{j=1}^n x_j + n(\mu_0^2 – \mu_1^2) \end{equation} $$

$\sum_{j=1}^n x_j = n\bar{x}$ を代入して、

$$ \begin{equation} = 2n(\mu_1 – \mu_0)\bar{x} + n(\mu_0^2 – \mu_1^2) \end{equation} $$

したがって、

$$ \begin{equation} \Lambda(\bm{x}) = \exp\left( \frac{2n(\mu_1 – \mu_0)\bar{x} + n(\mu_0^2 – \mu_1^2)}{2\sigma^2} \right) \end{equation} $$

棄却域の簡約化

$\Lambda(\bm{x}) > k$ という棄却条件を変形します。指数関数は単調増加なので、両辺の対数を取ると、

$$ \begin{equation} \frac{2n(\mu_1 – \mu_0)\bar{x} + n(\mu_0^2 – \mu_1^2)}{2\sigma^2} > \ln k \end{equation} $$

$\mu_1 > \mu_0$ なので $\mu_1 – \mu_0 > 0$ です。$\bar{x}$ について解くと、

$$ \begin{equation} \bar{x} > \frac{2\sigma^2 \ln k – n(\mu_0^2 – \mu_1^2)}{2n(\mu_1 – \mu_0)} \end{equation} $$

右辺は定数なので、ある定数 $c$ として $\bar{x} > c$ と書けます。

閾値の決定

棄却域 $\bar{X} > c$ の $c$ は有意水準の条件

$$ \begin{equation} P(\bar{X} > c \mid H_0) = \alpha \end{equation} $$

から決まります。$H_0$ の下で $\bar{X} \sim N(\mu_0, \sigma^2/n)$ なので、

$$ \begin{equation} Z = \frac{\bar{X} – \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1) \end{equation} $$

を使って、

$$ \begin{equation} P\left( Z > \frac{c – \mu_0}{\sigma / \sqrt{n}} \right) = \alpha \end{equation} $$

標準正規分布の上側 $\alpha$ 点を $z_\alpha$ とすると、

$$ \begin{equation} \frac{c – \mu_0}{\sigma / \sqrt{n}} = z_\alpha \end{equation} $$

したがって、

$$ \begin{equation} c = \mu_0 + z_\alpha \frac{\sigma}{\sqrt{n}} \end{equation} $$

結果のまとめ

正規分布の片側検定において、ネイマン・ピアソンの基本補題が与える最強力検定は次の通りです。

$$ \begin{equation} \bar{X} > \mu_0 + z_\alpha \frac{\sigma}{\sqrt{n}} \quad \Longrightarrow \quad H_0 \text{ を棄却} \end{equation} $$

これは通常の片側Z検定に他なりません。つまり、片側Z検定はネイマン・ピアソンの基本補題によって最適性が保証された検定なのです。

注目すべき重要な点は、棄却域が $\mu_1$ の値に依存しないことです。$\mu_1 > \mu_0$ であれば、$\mu_1$ がどの値であっても同じ棄却域になります。この性質は次に議論する一様最強力検定と密接に関係します。

一様最強力検定への拡張

複合対立仮説

実際の検定問題では、対立仮説が $H_1: \mu = \mu_1$（特定の1つの値）ではなく、$H_1: \mu > \mu_0$（片側複合仮説）であることがほとんどです。

このとき、すべての $\mu_1 > \mu_0$ に対して同時に最強力である検定を一様最強力（UMP: uniformly most powerful）検定と呼びます。

$$ \begin{equation} \text{UMP検定}: \forall \mu_1 > \mu_0 \text{ に対して検出力が最大} \end{equation} $$

正規分布でのUMP検定

先ほど示したように、正規分布の片側検定では、最強力検定の棄却域 $\bar{X} > c$ が $\mu_1$ の値に依存しませんでした。したがって、片側Z検定は $H_1: \mu > \mu_0$ に対する一様最強力検定です。

この結果は一般化できます。分布族が単調尤度比（monotone likelihood ratio, MLR）を持つとき、片側対立仮説に対してUMP検定が存在します。

単調尤度比の定義

パラメトリック分布族 $\{f(\bm{x} \mid \theta): \theta \in \Theta\}$ が十分統計量 $T(\bm{x})$ に関して単調尤度比を持つとは、$\theta_1 > \theta_0$ のとき

$$ \begin{equation} \frac{f(\bm{x} \mid \theta_1)}{f(\bm{x} \mid \theta_0)} = g(T(\bm{x})) \end{equation} $$

が $T(\bm{x})$ の単調非減少関数であることをいいます。

指数型分布族の多くの分布（正規分布、指数分布、ポアソン分布、二項分布など）はこの性質を満たします。

UMP検定が存在しない場合

一方、両側対立仮説 $H_1: \mu \neq \mu_0$ の場合、一般にUMP検定は存在しません。

その理由は直感的に理解できます。$\mu > \mu_0$ に最適な棄却域は右側にありますが、$\mu < \mu_0$ に最適な棄却域は左側にあります。すべての $\mu \neq \mu_0$ に対して同時に最適な棄却域を構成することは、一般に不可能なのです。

この限界から、尤度比検定やワルド検定、スコア検定といった「最適ではないが汎用的」な検定手法が発展しました。

一様最強力検定の概念を整理したところで、検出力関数の性質を詳しく分析しましょう。

検出力関数の解析

検出力関数の定義

パラメータ $\theta$ の関数としての検出力を検出力関数（power function）と呼び、$\beta(\theta)$ で表します。

$$ \begin{equation} \beta(\theta) = P_\theta(\bm{X} \in R) \end{equation} $$

$\theta = \theta_0$ のとき $\beta(\theta_0) = \alpha$（有意水準）、$\theta = \theta_1$ のとき $\beta(\theta_1)$ が検出力です。

正規分布の片側検定の検出力

$H_0: \mu = \mu_0$ vs. $H_1: \mu > \mu_0$ の片側Z検定の検出力関数を導きます。

棄却域は $\bar{X} > c = \mu_0 + z_\alpha \sigma / \sqrt{n}$ なので、

$$ \begin{equation} \beta(\mu) = P_\mu\left(\bar{X} > \mu_0 + z_\alpha \frac{\sigma}{\sqrt{n}}\right) \end{equation} $$

$\mu$ の下で $\bar{X} \sim N(\mu, \sigma^2/n)$ なので、

$$ \begin{equation} = P\left( \frac{\bar{X} – \mu}{\sigma/\sqrt{n}} > \frac{\mu_0 – \mu}{\sigma/\sqrt{n}} + z_\alpha \right) \end{equation} $$

$$ \begin{equation} = P\left( Z > z_\alpha – \frac{(\mu – \mu_0)\sqrt{n}}{\sigma} \right) \end{equation} $$

$$ \begin{equation} = 1 – \Phi\left( z_\alpha – \frac{(\mu – \mu_0)\sqrt{n}}{\sigma} \right) \end{equation} $$

ここで $\Phi$ は標準正規分布の累積分布関数です。

検出力の性質

この式から、検出力について以下の重要な性質が読み取れます。

効果の大きさ: $\mu – \mu_0$（帰無仮説からの乖離度）が大きいほど、$z_\alpha – \frac{(\mu – \mu_0)\sqrt{n}}{\sigma}$ が小さくなり、$\Phi$ の値が小さくなるため、検出力は大きくなります。真の平均が帰無仮説から離れているほど検出しやすいという直感に合致します。

標本サイズ: $n$ が大きいほど、同様に検出力が上がります。データを多く集めるほど小さな差も検出できるようになります。

分散: $\sigma^2$ が小さいほど検出力は高くなります。データのばらつきが小さいほど、平均の差を精密に推定できるためです。

有意水準: $z_\alpha$ が小さい（$\alpha$ が大きい）ほど検出力は高くなります。これは $\alpha$ と $\beta$（第二種の過誤率）のトレードオフを反映しています。

必要標本サイズの設計

検出力関数を逆に使うと、所望の検出力を達成するために必要な標本サイズを計算できます。

効果量 $\delta = \mu_1 – \mu_0$ を検出するために、有意水準 $\alpha$ で検出力 $1 – \beta$ を達成したいとします。

検出力の条件は

$$ \begin{equation} 1 – \Phi\left( z_\alpha – \frac{\delta \sqrt{n}}{\sigma} \right) = 1 – \beta \end{equation} $$

$$ \begin{equation} \Phi\left( z_\alpha – \frac{\delta \sqrt{n}}{\sigma} \right) = \beta \end{equation} $$

$$ \begin{equation} z_\alpha – \frac{\delta \sqrt{n}}{\sigma} = -z_\beta = z_{1-\beta} \end{equation} $$

ここで $z_\beta = -z_{1-\beta}$ を使いました（$\beta < 0.5$ と $1 - \beta > 0.5$ に注意）。ここで $z_{1-\beta}$ は上側 $(1-\beta)$ 点ですが、$\beta < 0.5$ のとき $z_{1-\beta} < 0$ なので、

$$ \begin{equation} z_\alpha – \frac{\delta \sqrt{n}}{\sigma} = -z_{1-\beta} \end{equation} $$

$n$ について解くと、

$$ \begin{equation} \frac{\delta \sqrt{n}}{\sigma} = z_\alpha + z_{1-\beta} \end{equation} $$

$$ \begin{equation} n = \left( \frac{(z_\alpha + z_{1-\beta}) \sigma}{\delta} \right)^2 \end{equation} $$

たとえば $\alpha = 0.05$（$z_{0.05} = 1.645$）、検出力0.80（$z_{0.20} = 0.842$）、$\sigma = 1$、$\delta = 0.5$ のとき、

$$ \begin{equation} n = \left( \frac{(1.645 + 0.842) \times 1}{0.5} \right)^2 = \left( \frac{2.487}{0.5} \right)^2 = 4.974^2 \approx 24.7 \end{equation} $$

よって $n = 25$ が必要です。

検出力関数の解析から、理論がどのように実用的な標本設計に活用されるかが見えました。次に、これらの結果をPythonで可視化して実感を深めましょう。

Pythonによる可視化

検出力関数の可視化

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# パラメータ設定
mu_0 = 0          # 帰無仮説の平均
sigma = 1          # 既知の標準偏差
alpha = 0.05       # 有意水準
z_alpha = stats.norm.ppf(1 - alpha)  # 上側α点（片側）

# 検出力関数
def power_function(mu, n, mu_0, sigma, z_alpha):
    """
    正規分布の片側Z検定の検出力関数
    """
    return 1 - stats.norm.cdf(z_alpha - (mu - mu_0) * np.sqrt(n) / sigma)

mu_range = np.linspace(-1, 3, 500)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# (a) 標本サイズごとの検出力関数
for n in [5, 10, 25, 50, 100]:
    power = power_function(mu_range, n, mu_0, sigma, z_alpha)
    axes[0].plot(mu_range, power, label=f'n = {n}')

axes[0].axhline(y=alpha, color='red', linestyle='--', alpha=0.5, label=f'α = {alpha}')
axes[0].axvline(x=mu_0, color='gray', linestyle=':', alpha=0.5)
axes[0].set_xlabel('真の平均 μ', fontsize=12)
axes[0].set_ylabel('検出力 β(μ)', fontsize=12)
axes[0].set_title('(a) 標本サイズと検出力関数', fontsize=13)
axes[0].legend(fontsize=10)
axes[0].set_ylim(-0.05, 1.05)
axes[0].grid(True, alpha=0.3)

# (b) 効果量ごとの必要標本サイズ
deltas = np.linspace(0.1, 2.0, 100)
target_powers = [0.80, 0.90, 0.95]

for target_power in target_powers:
    z_beta = stats.norm.ppf(target_power)
    required_n = ((z_alpha + z_beta) * sigma / deltas) ** 2
    axes[1].plot(deltas, required_n, label=f'検出力 = {target_power}')

axes[1].set_xlabel('効果量 δ = μ₁ − μ₀', fontsize=12)
axes[1].set_ylabel('必要標本サイズ n', fontsize=12)
axes[1].set_title('(b) 効果量と必要標本サイズ', fontsize=13)
axes[1].legend(fontsize=10)
axes[1].set_ylim(0, 300)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('neyman_pearson_power.png', dpi=150, bbox_inches='tight')
plt.show()

左図(a)からは、標本サイズが大きくなるにつれて検出力関数の立ち上がりが急峻になることが分かります。$n = 100$ では $\mu = 0.5$ 程度の小さな効果量でもほぼ確実に検出できます。一方、$n = 5$ では $\mu = 1.5$ 程度の大きな効果量でも検出力は80%程度にとどまります。

右図(b)からは、効果量と必要標本サイズの関係が読み取れます。効果量が小さいほど多くのデータが必要であり、効果量0.2を検出力0.80で検出するには約150サンプル以上必要です。逆に、効果量1.0なら10サンプル程度で十分です。

尤度比と棄却域の可視化

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# パラメータ設定
mu_0 = 0
mu_1 = 1.5
sigma = 1
n = 10
alpha = 0.05

# 標本平均の分布パラメータ
se = sigma / np.sqrt(n)  # 標準誤差

# 棄却閾値
z_alpha = stats.norm.ppf(1 - alpha)
c = mu_0 + z_alpha * se

# x軸の範囲
x = np.linspace(-1.5, 3.5, 1000)

# 帰無仮説・対立仮説の下での標本平均の密度
f0 = stats.norm.pdf(x, mu_0, se)
f1 = stats.norm.pdf(x, mu_1, se)

fig, axes = plt.subplots(2, 1, figsize=(12, 10))

# (a) 2つの分布と棄却域
axes[0].plot(x, f0, 'b-', linewidth=2, label=f'H₀: μ = {mu_0}')
axes[0].plot(x, f1, 'r-', linewidth=2, label=f'H₁: μ = {mu_1}')
axes[0].fill_between(x, f0, where=(x > c), alpha=0.3, color='blue', label=f'α = {alpha}')
axes[0].fill_between(x, f1, where=(x > c), alpha=0.3, color='red', label=f'検出力 = {1 - stats.norm.cdf((c - mu_1)/se):.3f}')
axes[0].axvline(x=c, color='green', linestyle='--', linewidth=2, label=f'棄却閾値 c = {c:.3f}')
axes[0].set_xlabel('標本平均 x̄', fontsize=12)
axes[0].set_ylabel('密度', fontsize=12)
axes[0].set_title('(a) 帰無分布・対立分布と棄却域', fontsize=13)
axes[0].legend(fontsize=10)
axes[0].grid(True, alpha=0.3)

# (b) 尤度比
# f0 > 0 の範囲で尤度比を計算
lr = np.where(f0 > 1e-10, f1 / f0, np.nan)
k_threshold = stats.norm.pdf(c, mu_1, se) / stats.norm.pdf(c, mu_0, se)

axes[1].plot(x, lr, 'purple', linewidth=2, label='尤度比 f₁(x̄)/f₀(x̄)')
axes[1].axhline(y=k_threshold, color='green', linestyle='--', linewidth=2, label=f'閾値 k = {k_threshold:.3f}')
axes[1].fill_between(x, 0, lr, where=(lr > k_threshold) & (~np.isnan(lr)), alpha=0.2, color='purple', label='棄却域（尤度比 > k）')
axes[1].set_xlabel('標本平均 x̄', fontsize=12)
axes[1].set_ylabel('尤度比', fontsize=12)
axes[1].set_title('(b) 尤度比と棄却閾値', fontsize=13)
axes[1].legend(fontsize=10)
axes[1].set_ylim(0, max(lr[~np.isnan(lr)]) * 1.1)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('neyman_pearson_likelihood_ratio.png', dpi=150, bbox_inches='tight')
plt.show()

# 数値結果の出力
power = 1 - stats.norm.cdf((c - mu_1) / se)
print(f"棄却閾値 c = {c:.4f}")
print(f"尤度比の閾値 k = {k_threshold:.4f}")
print(f"検出力 = {power:.4f}")

上図(a)は、帰無仮説と対立仮説の下での標本平均 $\bar{X}$ の分布を重ねて描いたものです。緑の破線が棄却閾値 $c$ を表し、$c$ の右側の青い領域が有意水準 $\alpha$、赤い領域が検出力に対応します。棄却閾値を左に動かせば検出力は上がりますが、同時に有意水準（偽陽性率）も上がります。

下図(b)は、同じ棄却域を尤度比の観点から描いたものです。尤度比は $\bar{x}$ が大きくなるにつれ単調に増加し、閾値 $k$ を超える領域が棄却域に対応します。尤度比の閾値と棄却閾値 $c$ が一対一に対応していることが視覚的に確認できます。

十分統計量との関係

十分統計量による棄却域の簡約化

ネイマン・ピアソンの基本補題を具体的な分布に適用するとき、尤度比が十分統計量の関数として表現できることが多くあります。この事実は計算を大幅に簡略化します。

十分統計量 $T(\bm{X})$ とは、$\theta$ に関するデータの情報をすべて集約した統計量です。フィッシャー・ネイマンの分解定理により、$T$ が十分統計量であることと

$$ \begin{equation} f(\bm{x} \mid \theta) = g(T(\bm{x}), \theta) \cdot h(\bm{x}) \end{equation} $$

と分解できることが同値です。ここで $g$ は $\theta$ と $T$ の関数、$h$ は $\theta$ に依存しない関数です。

この分解を尤度比に代入すると、

$$ \begin{equation} \frac{f_1(\bm{x})}{f_0(\bm{x})} = \frac{g(T(\bm{x}), \theta_1) \cdot h(\bm{x})}{g(T(\bm{x}), \theta_0) \cdot h(\bm{x})} = \frac{g(T(\bm{x}), \theta_1)}{g(T(\bm{x}), \theta_0)} \end{equation} $$

$h(\bm{x})$ が打ち消されて、尤度比は $T(\bm{x})$ のみの関数になります。したがって、棄却域は十分統計量の値のみで決定されるのです。

正規分布の例では $T = \bar{X}$ が十分統計量であり、棄却域が $\bar{X} > c$ となったのは、まさにこの性質の帰結です。このように、十分統計量を用いることで、高次元のデータ空間における棄却域の問題を、低次元（しばしば1次元）の問題に帰着できるのが、ネイマン・ピアソン理論の実用上の強みです。

指数型分布族での統一的な扱い

指数型分布族は十分統計量の存在が自然に保証されるため、ネイマン・ピアソンの基本補題の適用が特に簡明です。1パラメータの指数型分布族の密度関数は

$$ \begin{equation} f(x \mid \eta) = h(x) \exp(\eta T(x) – A(\eta)) \end{equation} $$

と書けます。ここで $\eta$ は自然パラメータ、$T(x)$ は十分統計量、$A(\eta)$ は正規化定数の対数（キュムラント生成関数）です。

$n$ 個の独立な観測に対して、尤度比は

$$ \begin{equation} \frac{f(\bm{x} \mid \eta_1)}{f(\bm{x} \mid \eta_0)} = \exp\left[ (\eta_1 – \eta_0) \sum_{i=1}^n T(x_i) – n(A(\eta_1) – A(\eta_0)) \right] \end{equation} $$

$\eta_1 > \eta_0$ のとき、これは $\sum T(x_i)$ の単調増加関数です。したがって、最強力検定の棄却域は $\sum T(x_i) > c$ の形をとります。正規分布、ポアソン分布、指数分布、二項分布など、主要な確率分布はすべてこの枠組みに収まるため、ネイマン・ピアソンの基本補題を一度理解すれば、これらの分布での最強力検定を統一的に導出できます。

他の分布における適用

指数分布の平均に関する検定

ネイマン・ピアソンの基本補題は正規分布に限らず、任意の分布に適用できます。指数分布の例を見てみましょう。

$X_1, \dots, X_n$ が独立に指数分布 $\text{Exp}(\lambda)$ に従うとします（密度関数 $f(x \mid \lambda) = \lambda e^{-\lambda x}$, $x \geq 0$）。

$$ \begin{equation} H_0: \lambda = \lambda_0 \quad \text{vs.} \quad H_1: \lambda = \lambda_1 \quad (\lambda_1 < \lambda_0) \end{equation} $$

$\lambda_1 < \lambda_0$ は「故障率が低い」すなわち「寿命が長い」ことを意味します。

尤度比を計算します。

$$ \begin{equation} \Lambda(\bm{x}) = \frac{\prod \lambda_1 e^{-\lambda_1 x_j}}{\prod \lambda_0 e^{-\lambda_0 x_j}} = \left( \frac{\lambda_1}{\lambda_0} \right)^n \exp\left( -(\lambda_1 – \lambda_0) \sum x_j \right) \end{equation} $$

$\lambda_1 < \lambda_0$ なので $-(\lambda_1 - \lambda_0) = \lambda_0 - \lambda_1 > 0$ です。したがって、$\Lambda(\bm{x})$ は $\sum x_j = n\bar{x}$ の単調増加関数です。

$\Lambda(\bm{x}) > k$ は $\bar{x} > c’$ と等価であり、$H_0$ の下で $2n\lambda_0 \bar{X} \sim \chi^2(2n)$ であることを用いて、棄却閾値を $\chi^2$ 分布から求めることができます。

ベルヌーイ試行の検定

$X_1, \dots, X_n$ が独立にベルヌーイ分布 $\text{Ber}(p)$ に従う場合の検定も考えます。

$$ \begin{equation} H_0: p = p_0 \quad \text{vs.} \quad H_1: p = p_1 \quad (p_1 > p_0) \end{equation} $$

尤度比は

$$ \begin{equation} \Lambda(\bm{x}) = \frac{p_1^{n\bar{x}}(1-p_1)^{n-n\bar{x}}}{p_0^{n\bar{x}}(1-p_0)^{n-n\bar{x}}} = \left( \frac{p_1(1-p_0)}{p_0(1-p_1)} \right)^{n\bar{x}} \cdot \left( \frac{1-p_1}{1-p_0} \right)^n \end{equation} $$

$p_1 > p_0$ のとき、$\frac{p_1(1-p_0)}{p_0(1-p_1)} > 1$ なので、$\Lambda(\bm{x})$ は $S = n\bar{X} = \sum X_j$（成功回数）の単調増加関数です。

したがって、最強力検定は $S > c$ の形をとります。$S$ は離散分布 $\text{Bin}(n, p_0)$ に従うため、$P(S > c \mid H_0) = \alpha$ をちょうど満たす $c$ が存在しない場合は、確率化検定が必要になります。

これらの例から、ネイマン・ピアソンの基本補題が具体的にどのように使われるかが見えてきました。最後に、この基本補題の位置づけと発展的な話題を整理しましょう。

サイズとレベルの区別

正確な用語法

仮説検定の理論では、「サイズ」（size）と「レベル」（level）という2つの関連する概念があり、ネイマン・ピアソンの基本補題を正確に理解するためにはこの区別が重要です。

検定のサイズとは、第一種の過誤率の上限（最大値）のことです。棄却域 $R$ のサイズは

$$ \begin{equation} \text{サイズ} = \sup_{\theta \in \Theta_0} P_\theta(\bm{X} \in R) \end{equation} $$

と定義されます。単純帰無仮説 $H_0: \theta = \theta_0$ の場合は $P_{\theta_0}(\bm{X} \in R)$ に一致します。

一方、検定がレベル $\alpha$ であるとは、サイズが $\alpha$ 以下であること、すなわち

$$ \begin{equation} \sup_{\theta \in \Theta_0} P_\theta(\bm{X} \in R) \leq \alpha \end{equation} $$

が成り立つことをいいます。

ネイマン・ピアソンの基本補題では、サイズがちょうど $\alpha$ に等しい検定（サイズ $\alpha$ の検定）の中で検出力を最大化するものを求めています。ただし、すべてのレベル $\alpha$ の検定に対しても最強力であることが証明から分かります。これは証明の中で $P(\bm{X} \in R \mid H_0) \leq \alpha$ であっても成立することを確認したためです。

不偏検定

最強力検定に関連する重要な概念として不偏検定（unbiased test）があります。

検定がレベル $\alpha$ で不偏であるとは、対立仮説のもとでの検出力が有意水準以上であることを意味します。すなわち、任意の $\theta \in \Theta_1$ に対して

$$ \begin{equation} \beta(\theta) = P_\theta(\bm{X} \in R) \geq \alpha \end{equation} $$

が成り立つことです。不偏検定は「帰無仮説が正しいときよりも対立仮説が正しいときの方が棄却しやすい」という合理的な性質を持ちます。

両側検定において一様最強力検定が存在しない場合、「一様最強力不偏（UMPU）検定」を求めることが有力な代替戦略となります。正規分布の分散既知の両側検定では、通常の両側Z検定がUMPU検定であることが知られています。

基本補題の歴史的意義と発展

フィッシャーとネイマン・ピアソンの対立

統計的仮説検定の歴史において、ロナルド・フィッシャーとイェジー・ネイマン＝エゴン・ピアソンの間には有名な論争がありました。

フィッシャーは有意性検定（significance test）を提唱しました。帰無仮説のみを考え、p値が小さければ「データは帰無仮説と矛盾する」と判断します。対立仮説は明示せず、検出力という概念もありません。

一方、ネイマン・ピアソンは仮説検定（hypothesis testing）の枠組みを構築しました。帰無仮説と対立仮説を明確に定義し、2種類の過誤率を制御する最適な棄却域を導くのです。1933年の基本補題は、この枠組みの理論的基礎を確立した画期的な結果でした。

現代の統計学では、両方の視点が融合されて使われています。p値を計算しつつ、検出力に基づいて標本サイズを設計するという実践は、両方の伝統を受け継いでいます。

一般化尤度比検定への発展

ネイマン・ピアソンの基本補題は「単純仮説 vs. 単純仮説」の場合に最適な検定を与えます。しかし、実際の問題では複合仮説（パラメータ空間が集合）であることが普通です。

一般化尤度比検定（generalized likelihood ratio test, GLRT）は、ネイマン・ピアソンの基本補題を複合仮説に拡張したものです。

$$ \begin{equation} \Lambda_{\text{GLRT}} = \frac{\sup_{\theta \in \Theta_1} L(\theta \mid \bm{x})}{\sup_{\theta \in \Theta_0} L(\theta \mid \bm{x})} \end{equation} $$

あるいは等価的に

$$ \begin{equation} \Lambda’ = \frac{\sup_{\theta \in \Theta_0} L(\theta \mid \bm{x})}{\sup_{\theta \in \Theta} L(\theta \mid \bm{x})} \end{equation} $$

一般化尤度比検定は最適性を必ずしも保証しませんが、漸近的には良好な性質を持つことが知られており、実用上広く使われています。Wilksの定理によれば、正則条件の下で

$$ \begin{equation} -2 \ln \Lambda’ \xrightarrow{d} \chi^2(r) \end{equation} $$

ここで $r$ は $H_0$ の下で制約されるパラメータの数です。

ワルド検定・スコア検定との関係

ネイマン・ピアソンの基本補題から出発して、尤度比検定・ワルド検定・スコア検定の三大検定が発展しました。

尤度比検定: 尤度比を直接使う（ネイマン・ピアソンの直接の拡張）
ワルド検定: 最尤推定量の漸近正規性を利用する
スコア検定: スコア関数（対数尤度の微分）を利用する

これら3つの検定は、漸近的（$n \to \infty$）には等価ですが、有限標本では異なる結果を与えることがあります。ワルド検定とスコア検定については、それぞれ個別の記事で詳しく解説しています。

まとめ

本記事では、ネイマン・ピアソンの基本補題を導出し、最強力検定の構造を明らかにしました。

ネイマン・ピアソンの基本補題の本質は次のように要約できます。

有意水準 $\alpha$ の制約の下で検出力を最大化する検定は、尤度比 $f_1(\bm{x}) / f_0(\bm{x})$ が閾値 $k$ を超える領域を棄却域とする。 この結果は、尤度比という「$H_1$ の証拠の効率」を測る指標に基づいて、限られた偽陽性率の「予算」を最も効率的に配分するという最適化問題の解として理解できます。

具体的に学んだ内容を振り返ると、

仮説検定の枠組み: 2種類の過誤のトレードオフと、ネイマン・ピアソンのアプローチ（第一種の過誤率を固定して検出力を最大化）
基本補題の証明: 差集合における尤度比の不等式を利用する手法、およびラグランジュ乗数法による解釈
正規分布への適用: 最強力検定が片側Z検定と一致し、棄却域が対立仮説のパラメータに依存しないこと
一様最強力検定: 単調尤度比を持つ分布族では、片側対立仮説に対するUMP検定が存在すること
検出力関数: 効果量・標本サイズ・分散が検出力に与える影響と、必要標本サイズの計算法
発展: 一般化尤度比検定、ワルド検定、スコア検定への理論的つながり

ネイマン・ピアソンの基本補題は、「最適な検定とは何か」という根本的な問いに対する明確な解答であり、統計的検定の理論全体の出発点です。この基礎の上に、より複雑な検定問題（複合仮説、多次元パラメータ）への拡張が構築されていきます。