統計検定1級 合格のためのチートシート

統計検定1級は、数理統計学の深い理解が求められる試験です。本記事では、試験で頻出の公式や定理を体系的にまとめたチートシートを提供します。

各公式の導出は個別の記事に譲り、ここでは結果を素早く参照できることを目的としています。

本記事の内容

  • 確率変数の期待値・分散・共分散
  • 主要な確率分布の性質
  • 推定量の性質
  • 検定の手順と重要公式

確率変数の期待値と分散

基本定義

離散確率変数 $X$ の期待値、分散、共分散は次のように定義されます。

$$ E[X] = \sum_{n=1}^{N} p(x_n) x_n $$

$$ V[X] = E[(X – E[X])^2] = E[X^2] – (E[X])^2 $$

$$ \text{Cov}[X, Y] = E[(X – E[X])(Y – E[Y])] = E[XY] – E[X]E[Y] $$

連続確率変数の場合は $\sum$ を $\int$ に置き換えます。

期待値の線形性

期待値は線形演算子です。任意の確率変数 $X, Y$ と定数 $a, b$ に対して、

$$ E[aX + bY] = aE[X] + bE[Y] $$

これは $X$ と $Y$ が独立でなくても成り立ちます。

分散の公式

$$ V[aX + bY] = a^2 V[X] + b^2 V[Y] + 2ab \, \text{Cov}[X, Y] $$

$X$ と $Y$ が独立の場合($\text{Cov}[X, Y] = 0$)、

$$ V[aX + bY] = a^2 V[X] + b^2 V[Y] $$

積率母関数(モーメント母関数)

$$ M_X(t) = E[e^{tX}] $$

積率母関数の性質:

$$ E[X^n] = M_X^{(n)}(0) = \left.\frac{d^n}{dt^n} M_X(t)\right|_{t=0} $$

主要な確率分布

離散確率分布

分布 確率質量関数 期待値 分散
ベルヌーイ $\text{Ber}(p)$ $p^x(1-p)^{1-x}$ $p$ $p(1-p)$
二項 $\text{Bin}(n,p)$ $\binom{n}{x}p^x(1-p)^{n-x}$ $np$ $np(1-p)$
ポアソン $\text{Poi}(\lambda)$ $\frac{\lambda^x e^{-\lambda}}{x!}$ $\lambda$ $\lambda$
幾何 $\text{Geo}(p)$ $(1-p)^{x-1}p$ $1/p$ $(1-p)/p^2$

連続確率分布

分布 確率密度関数 期待値 分散
正規 $\mathcal{N}(\mu,\sigma^2)$ $\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ $\mu$ $\sigma^2$
指数 $\text{Exp}(\lambda)$ $\lambda e^{-\lambda x}$ $1/\lambda$ $1/\lambda^2$
ガンマ $\text{Ga}(\alpha,\beta)$ $\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$ $\alpha/\beta$ $\alpha/\beta^2$
ベータ $\text{Be}(\alpha,\beta)$ $\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$ $\frac{\alpha}{\alpha+\beta}$ $\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

標本分布

分布 定義 期待値 分散
$\chi^2(n)$ $\sum_{i=1}^n Z_i^2$, $Z_i \sim \mathcal{N}(0,1)$ $n$ $2n$
$t(n)$ $Z / \sqrt{V/n}$, $Z \sim \mathcal{N}(0,1)$, $V \sim \chi^2(n)$ $0$ ($n>1$) $n/(n-2)$ ($n>2$)
$F(m,n)$ $(U/m) / (V/n)$, $U \sim \chi^2(m)$, $V \sim \chi^2(n)$ $n/(n-2)$ ($n>2$)

推定量の性質

不偏性

推定量 $\hat{\theta}$ が不偏であるとは、

$$ E[\hat{\theta}] = \theta $$

一致性

$n \to \infty$ のとき $\hat{\theta}_n \xrightarrow{P} \theta$ (確率収束)。

有効性

不偏推定量の中で分散が最小のものを有効推定量と呼びます。

クラメール-ラオの下界

不偏推定量 $\hat{\theta}$ の分散は、フィッシャー情報量 $I(\theta)$ で下から抑えられます。

$$ V[\hat{\theta}] \geq \frac{1}{I(\theta)} $$

フィッシャー情報量は次のように定義されます。

$$ I(\theta) = E\left[\left(\frac{\partial}{\partial \theta} \log f(X; \theta)\right)^2\right] = -E\left[\frac{\partial^2}{\partial \theta^2} \log f(X; \theta)\right] $$

最尤推定量

対数尤度関数 $\ell(\theta) = \sum_{i=1}^n \log f(x_i; \theta)$ を最大化する $\hat{\theta}_{\text{MLE}}$。

大標本のもとで、

$$ \hat{\theta}_{\text{MLE}} \sim \mathcal{N}\left(\theta, \frac{1}{nI(\theta)}\right) $$

検定の基本手順

手順

  1. 帰無仮説 $H_0$ と対立仮説 $H_1$ を設定する
  2. 有意水準 $\alpha$ を決める
  3. 検定統計量を計算する
  4. 棄却域または $p$ 値を求める
  5. 判定を行う

重要な検定

1標本 $z$ 検定($\sigma^2$ 既知):

$$ Z = \frac{\bar{X} – \mu_0}{\sigma / \sqrt{n}} \sim \mathcal{N}(0, 1) $$

1標本 $t$ 検定($\sigma^2$ 未知):

$$ T = \frac{\bar{X} – \mu_0}{S / \sqrt{n}} \sim t(n-1) $$

$\chi^2$ 検定(分散の検定):

$$ \chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1) $$

Pythonでの実装

主要な確率分布の性質を数値的に検証します。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)
n_samples = 100000

# 主要な確率分布のモンテカルロ検証
distributions = {
    'Normal(2, 3^2)': {'rv': stats.norm(2, 3), 'E': 2, 'V': 9},
    'Exponential(2)': {'rv': stats.expon(scale=0.5), 'E': 0.5, 'V': 0.25},
    'Gamma(3, 2)': {'rv': stats.gamma(3, scale=0.5), 'E': 1.5, 'V': 0.75},
    'Beta(2, 5)': {'rv': stats.beta(2, 5), 'E': 2/7, 'V': 10/(49*8)},
    'Chi2(5)': {'rv': stats.chi2(5), 'E': 5, 'V': 10},
}

print("=== 確率分布の期待値・分散の検証 ===")
print(f"{'分布':<25} {'理論E':>8} {'標本E':>8} {'理論V':>8} {'標本V':>8}")
print("-" * 65)

for name, d in distributions.items():
    samples = d['rv'].rvs(n_samples)
    print(f"{name:<25} {d['E']:>8.4f} {np.mean(samples):>8.4f} "
          f"{d['V']:>8.4f} {np.var(samples):>8.4f}")

# 中心極限定理の可視化
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 元の分布(指数分布)
exp_samples = stats.expon(scale=2).rvs(n_samples)
axes[0, 0].hist(exp_samples, bins=50, density=True, alpha=0.7, color='steelblue')
axes[0, 0].set_title('Exponential Distribution (original)')
axes[0, 0].set_xlabel('x')
axes[0, 0].grid(True, alpha=0.3)

# 標本平均の分布(n = 5, 30, 100)
sample_sizes = [5, 30, 100]
for ax, n in zip([axes[0, 1], axes[1, 0], axes[1, 1]], sample_sizes):
    means = [np.mean(stats.expon(scale=2).rvs(n)) for _ in range(10000)]
    ax.hist(means, bins=50, density=True, alpha=0.7, color='steelblue')

    # 理論的な正規分布を重ねる
    mu, sigma = 2, 2 / np.sqrt(n)
    x = np.linspace(mu - 4*sigma, mu + 4*sigma, 200)
    ax.plot(x, stats.norm(mu, sigma).pdf(x), 'r-', linewidth=2, label='CLT')

    ax.set_title(f'Sample Mean Distribution (n={n})')
    ax.set_xlabel('$\\bar{X}$')
    ax.legend()
    ax.grid(True, alpha=0.3)

plt.suptitle('Central Limit Theorem Demonstration', fontsize=14)
plt.tight_layout()
plt.show()

このコードでは、主要な確率分布の期待値と分散をモンテカルロシミュレーションで検証し、中心極限定理による標本平均の正規近似を可視化しています。

まとめ

本記事では、統計検定1級で頻出の公式と定理をチートシート形式でまとめました。

  • 期待値の線形性と分散の公式は基本中の基本であり、あらゆる問題の土台となる
  • 主要な確率分布の期待値と分散は暗記しておき、導出でも確認できるようにしておく
  • クラメール-ラオの下界やフィッシャー情報量は、推定量の良さを評価する上で重要
  • 検定では、検定統計量の分布を正しく特定することが鍵となる