順序統計量の分布と応用をわかりやすく解説

統計学やデータ分析において、データの最大値・最小値・中央値といった概念は日常的に使われます。これらはすべて、データを小さい順に並べ替えた後の特定の位置にある値であり、順序統計量（order statistics） として統一的に扱うことができます。

順序統計量は信頼区間の構成、ノンパラメトリック検定、極値理論、品質管理など、統計学の多くの分野で基礎的な役割を担っています。本記事では、順序統計量の確率密度関数を二項分布の考え方を用いて厳密に導出し、主要な性質を証明した上で、Pythonによるシミュレーションで理論と実験の一致を確認します。

本記事の内容

順序統計量 $X_{(k)}$ の定義と直感的な理解
第 $k$ 順序統計量の確率密度関数の導出（二項分布を用いた証明）
最小値 $X_{(1)}$ と最大値 $X_{(n)}$ の分布
同時密度関数
一様分布からの順序統計量とベータ分布の関係
レンジ $R = X_{(n)} – X_{(1)}$ の分布
中央値の漸近分布
Pythonでのシミュレーションと理論分布の比較

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

順序統計量とは

直感的な理解

$n$ 個のデータ $X_1, X_2, \dots, X_n$ があるとき、これらを小さい順に並べ替えた値を考えます。例えば、5つの観測値 $(3.2, 1.7, 5.1, 2.3, 4.8)$ を並べ替えると $(1.7, 2.3, 3.2, 4.8, 5.1)$ になります。このとき、最も小さい値 $1.7$ が第1順序統計量、2番目に小さい値 $2.3$ が第2順序統計量、というようになります。

数学的定義

確率変数 $X_1, X_2, \dots, X_n$ が独立に同一の連続分布（確率密度関数 $f(x)$、累積分布関数 $F(x)$）に従うとします。これらを値の大きさの順に並べ替えたものを

$$ X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)} $$

と表します。$X_{(k)}$ を 第 $k$ 順序統計量（$k$-th order statistic） と呼びます。

特に重要な順序統計量は以下のとおりです。

$X_{(1)} = \min(X_1, \dots, X_n)$：最小値（minimum）
$X_{(n)} = \max(X_1, \dots, X_n)$：最大値（maximum）
$n$ が奇数のとき $X_{((n+1)/2)}$：標本中央値（sample median）

第 $k$ 順序統計量の確率密度関数の導出

導出のアイデア

第 $k$ 順序統計量 $X_{(k)}$ の値が $x$ 付近にあるということは、$n$ 個の確率変数のうち、ちょうど $k-1$ 個が $x$ より小さく、1個が $x$ 付近にあり、残り $n – k$ 個が $x$ より大きいことを意味します。

この状況を二項分布の考え方で数えることが導出の核心です。

二項分布を用いた厳密な導出

微小区間 $(x, x + dx]$ を考えます。各 $X_i$ は独立に分布 $F$ に従うので、

$X_i < x$ となる確率: $F(x)$
$X_i \in (x, x + dx]$ となる確率: $f(x)\,dx$（微小区間なので）
$X_i > x + dx$ となる確率: $1 – F(x) – f(x)\,dx \approx 1 – F(x)$

$X_{(k)} \in (x, x+dx]$ となるためには、$n$ 個の確率変数のうち、

ちょうど $k – 1$ 個が $(- \infty, x)$ に入る
ちょうど1個が $(x, x + dx]$ に入る
ちょうど $n – k$ 個が $(x + dx, \infty)$ に入る

必要があります。$n$ 個から上記の3つのグループへの割り当て方は多項係数で表され、

$$ \frac{n!}{(k-1)!\,1!\,(n-k)!} $$

通りあります。したがって、

$$ P(X_{(k)} \in (x, x + dx]) = \frac{n!}{(k-1)!\,(n-k)!} [F(x)]^{k-1} \, f(x)\,dx \, [1 – F(x)]^{n-k} $$

両辺を $dx$ で割ることで、第 $k$ 順序統計量の確率密度関数が得られます。

$$ \begin{equation} f_{X_{(k)}}(x) = \frac{n!}{(k-1)!\,(n-k)!} [F(x)]^{k-1} [1 – F(x)]^{n-k} f(x) \end{equation} $$

これはベータ関数 $B(a,b) = \frac{(a-1)!(b-1)!}{(a+b-1)!}$（$a, b$ が正の整数のとき）を用いると、次のようにも表せます。

$$ f_{X_{(k)}}(x) = \frac{1}{B(k, n-k+1)} [F(x)]^{k-1} [1 – F(x)]^{n-k} f(x) $$

累積分布関数からの別証明

第 $k$ 順序統計量の累積分布関数を先に求め、微分する方法でも導出できます。$X_{(k)} \leq x$ ということは、$n$ 個のうち少なくとも $k$ 個が $x$ 以下であることを意味します。各 $X_i$ が $x$ 以下になる確率は $F(x)$ なので、

$$ F_{X_{(k)}}(x) = P(X_{(k)} \leq x) = \sum_{j=k}^{n} \binom{n}{j} [F(x)]^j [1 – F(x)]^{n-j} $$

これは二項分布の尾確率の形をしています。この式を $x$ で微分して密度関数を求めます。

$p = F(x)$ とおき、$\frac{dp}{dx} = f(x)$ に注意して、

$$ \begin{align} \frac{d}{dx}F_{X_{(k)}}(x) &= \sum_{j=k}^{n}\binom{n}{j}\left[j\,p^{j-1}(1-p)^{n-j} – (n-j)\,p^j(1-p)^{n-j-1}\right]f(x) \end{align} $$

この和はテレスコーピング和（隣接項が打ち消し合う和）になっています。具体的に展開すると、

$$ \begin{align} &\sum_{j=k}^{n}\binom{n}{j}j\,p^{j-1}(1-p)^{n-j} – \sum_{j=k}^{n}\binom{n}{j}(n-j)\,p^j(1-p)^{n-j-1} \end{align} $$

第1項で $\binom{n}{j}j = n\binom{n-1}{j-1}$ を使い $m = j-1$ と置換すると $\sum_{m=k-1}^{n-1}n\binom{n-1}{m}p^m(1-p)^{n-1-m}$ となります。第2項で $\binom{n}{j}(n-j) = n\binom{n-1}{j}$ を使うと $\sum_{j=k}^{n-1}n\binom{n-1}{j}p^j(1-p)^{n-1-j}$ となります（$j=n$ の項は $n-j=0$ で消えます）。

差を取ると、$m = k-1$ の項だけが残り、

$$ f_{X_{(k)}}(x) = n\binom{n-1}{k-1}p^{k-1}(1-p)^{n-k}f(x) = \frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) $$

最初の導出と一致することが確認できました。

最小値と最大値の分布

最大値 $X_{(n)}$ の分布

$k = n$ を代入すると、

$$ f_{X_{(n)}}(x) = \frac{n!}{(n-1)!\,0!}[F(x)]^{n-1}[1-F(x)]^0 f(x) = n[F(x)]^{n-1}f(x) $$

累積分布関数は直感的にも明らかです。すべての $X_i$ が $x$ 以下であることが条件なので、

$$ F_{X_{(n)}}(x) = P(\max_i X_i \leq x) = \prod_{i=1}^{n}P(X_i \leq x) = [F(x)]^n $$

微分すると $f_{X_{(n)}}(x) = n[F(x)]^{n-1}f(x)$ が得られ、一致します。

最小値 $X_{(1)}$ の分布

$k = 1$ を代入すると、

$$ f_{X_{(1)}}(x) = \frac{n!}{0!\,(n-1)!}[F(x)]^0[1-F(x)]^{n-1}f(x) = n[1-F(x)]^{n-1}f(x) $$

累積分布関数は余事象を考えると便利です。

$$ F_{X_{(1)}}(x) = P(\min_i X_i \leq x) = 1 – P(\min_i X_i > x) = 1 – \prod_{i=1}^{n}P(X_i > x) = 1 – [1 – F(x)]^n $$

微分すると $f_{X_{(1)}}(x) = n[1-F(x)]^{n-1}f(x)$ が得られ、やはり一致します。

同時密度関数

2つの順序統計量の同時密度

$1 \leq i < j \leq n$ のとき、$(X_{(i)}, X_{(j)})$ の同時密度関数を求めます。同様の組み合わせ論的議論により、$x < y$ のとき、

$$ f_{X_{(i)}, X_{(j)}}(x, y) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}[F(x)]^{i-1}[F(y)-F(x)]^{j-i-1}[1-F(y)]^{n-j}f(x)f(y) $$

この式の解釈は次のとおりです。$n$ 個のうち、

$i – 1$ 個が $(-\infty, x)$ に入る：確率 $[F(x)]^{i-1}$
1個が $x$ 付近にある：確率 $f(x)\,dx$
$j – i – 1$ 個が $(x, y)$ に入る：確率 $[F(y) – F(x)]^{j-i-1}$
1個が $y$ 付近にある：確率 $f(y)\,dy$
$n – j$ 個が $(y, \infty)$ に入る：確率 $[1 – F(y)]^{n-j}$

多項係数が $\frac{n!}{(i-1)!\,1!\,(j-i-1)!\,1!\,(n-j)!}$ となります。

全順序統計量の同時密度

$(X_{(1)}, X_{(2)}, \dots, X_{(n)})$ の同時密度関数は、$x_1 < x_2 < \cdots < x_n$ の領域で、

$$ f_{X_{(1)}, \dots, X_{(n)}}(x_1, \dots, x_n) = n! \prod_{i=1}^{n} f(x_i) $$

となります。これは、$n!$ 通りの順列のうちどれが昇順を与えるかという組み合わせ論的な因子です。

一様分布からの順序統計量とベータ分布

一様分布 $U(0,1)$ の場合

$X_1, \dots, X_n \overset{\text{iid}}{\sim} U(0,1)$ のとき、$f(x) = 1$、$F(x) = x$（$0 \leq x \leq 1$）です。第 $k$ 順序統計量の密度関数は、

$$ \begin{align} f_{X_{(k)}}(x) &= \frac{n!}{(k-1)!(n-k)!}\,x^{k-1}(1-x)^{n-k} \cdot 1 \\ &= \frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}\,x^{k-1}(1-x)^{n-k} \end{align} $$

これはまさに ベータ分布 $\text{Beta}(k, n-k+1)$ の密度関数です。

$$ \begin{equation} X_{(k)} \sim \text{Beta}(k, n – k + 1) \end{equation} $$

ベータ分布の期待値・分散

ベータ分布 $\text{Beta}(\alpha, \beta)$ の期待値と分散は、

$$ E[X] = \frac{\alpha}{\alpha + \beta}, \quad \text{Var}(X) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)} $$

したがって、一様分布の第 $k$ 順序統計量については、$\alpha = k$、$\beta = n – k + 1$ を代入して、

$$ \begin{align} E[X_{(k)}] &= \frac{k}{k + (n-k+1)} = \frac{k}{n+1} \\ \text{Var}(X_{(k)}) &= \frac{k(n-k+1)}{(n+1)^2(n+2)} \end{align} $$

例えば、$n = 9$ のとき中央値は $X_{(5)}$ であり、$E[X_{(5)}] = 5/10 = 0.5$、$\text{Var}(X_{(5)}) = \frac{5 \cdot 5}{100 \cdot 11} = \frac{25}{1100} \approx 0.0227$ となります。

確率積分変換との関係

任意の連続分布 $F$ に対して、$U_i = F(X_i) \sim U(0,1)$ が成り立ちます（確率積分変換）。したがって、$F(X_{(k)}) \sim \text{Beta}(k, n-k+1)$ が一般に成立します。これは順序統計量の理論で非常に有用な性質です。

レンジの分布

レンジの定義

レンジ（range） は最大値と最小値の差として定義されます。

$$ R = X_{(n)} – X_{(1)} $$

一様分布でのレンジの分布の導出

$U(0,1)$ の場合を考えます。$(X_{(1)}, X_{(n)})$ の同時密度は $i=1, j=n$ を代入して、

$$ f_{X_{(1)}, X_{(n)}}(x, y) = n(n-1)(y – x)^{n-2} \quad (0 < x < y < 1) $$

$R = Y – X$、$S = X$（$X = X_{(1)}, Y = X_{(n)}$）と変数変換します。ヤコビアンは

$$ \left|\frac{\partial(x, y)}{\partial(s, r)}\right| = \begin{vmatrix} 1 & 0 \\ 1 & 1 \end{vmatrix} = 1 $$

ここで $x = s$, $y = s + r$ なので $0 < s$, $0 < r$, $s + r < 1$ の領域で、

$$ f_{R, S}(r, s) = n(n-1)r^{n-2} $$

$R$ の周辺密度は $s$ について $0$ から $1 – r$ まで積分して、

$$ \begin{align} f_R(r) &= \int_0^{1-r} n(n-1)r^{n-2}\,ds \\ &= n(n-1)r^{n-2}(1-r) \quad (0 < r < 1) \end{align} $$

これは $\text{Beta}(n-1, 2)$ 分布の密度関数です。すなわち、

$$ R \sim \text{Beta}(n – 1, 2) $$

期待値と分散は

$$ E[R] = \frac{n-1}{n+1}, \quad \text{Var}(R) = \frac{2(n-1)}{(n+1)^2(n+2)} $$

中央値の漸近分布

$n$ が奇数で $n = 2m + 1$ のとき、標本中央値は $X_{(m+1)}$ です。母集団の中央値を $\xi_{0.5}$（すなわち $F(\xi_{0.5}) = 0.5$）とすると、$n \to \infty$ のとき、

$$ \begin{equation} \sqrt{n}(X_{(m+1)} – \xi_{0.5}) \xrightarrow{d} N\left(0, \frac{1}{4[f(\xi_{0.5})]^2}\right) \end{equation} $$

導出のスケッチ

第 $k$ 順序統計量の漸近分布を一般に導出します。$k/n \to p$（$0 < p < 1$）のとき、$\xi_p = F^{-1}(p)$ とおきます。

$X_{(k)}$ の密度関数を $\xi_p$ 付近でテイラー展開します。$F(\xi_p) = p$ に注意すると、密度関数の対数を取って $\xi_p$ の周りで展開した結果、

$$ f_{X_{(k)}}(x) \approx \frac{1}{\sqrt{2\pi}} \cdot \frac{1}{\sigma_k} \exp\left(-\frac{(x – \xi_p)^2}{2\sigma_k^2}\right) $$

ここで分散は

$$ \sigma_k^2 = \frac{p(1-p)}{n[f(\xi_p)]^2} $$

中央値の場合 $p = 1/2$ なので $\sigma^2 = \frac{1}{4n[f(\xi_{0.5})]^2}$ となり、前述の漸近正規性が得られます。

具体例：正規分布の場合

$X_i \sim N(\mu, \sigma^2)$ のとき、中央値 $\xi_{0.5} = \mu$ であり、$f(\mu) = \frac{1}{\sigma\sqrt{2\pi}}$ です。したがって、

$$ \text{Var}(X_{(m+1)}) \approx \frac{1}{4n \cdot \frac{1}{2\pi\sigma^2}} = \frac{\pi\sigma^2}{2n} $$

一方、標本平均の分散は $\sigma^2/n$ です。両者の比は

$$ \frac{\text{Var（中央値）}}{\text{Var（標本平均）}} \approx \frac{\pi}{2} \approx 1.571 $$

つまり、正規分布の場合、中央値は標本平均よりも約57%分散が大きくなります。これは正規分布のような対称分布では標本平均がより効率的であることを示しています。

Pythonでの実装

シミュレーション1：一様分布の順序統計量

一様分布からの順序統計量のヒストグラムを理論的なベータ分布と比較します。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# パラメータ設定
n = 10          # 標本サイズ
n_sim = 100000  # シミュレーション回数
ks = [1, 3, 5, 10]  # 確認する順序統計量

np.random.seed(42)

# シミュレーション: n個の一様乱数を生成しソート
samples = np.random.uniform(0, 1, size=(n_sim, n))
sorted_samples = np.sort(samples, axis=1)

fig, axes = plt.subplots(2, 2, figsize=(12, 9))
axes = axes.ravel()

for idx, k in enumerate(ks):
    ax = axes[idx]
    # k番目の順序統計量を取得（0-indexed なので k-1）
    order_stat = sorted_samples[:, k - 1]

    # ヒストグラム
    ax.hist(order_stat, bins=60, density=True, alpha=0.6,
            color='steelblue', edgecolor='white', label='Simulation')

    # 理論分布: Beta(k, n-k+1)
    x = np.linspace(0, 1, 300)
    alpha_param = k
    beta_param = n - k + 1
    pdf_theory = stats.beta.pdf(x, alpha_param, beta_param)
    ax.plot(x, pdf_theory, 'r-', linewidth=2.5,
            label=f'Beta({alpha_param}, {beta_param})')

    ax.set_title(f'$X_{{({k})}}$ (n={n})', fontsize=13)
    ax.set_xlabel('x', fontsize=11)
    ax.set_ylabel('Density', fontsize=11)
    ax.legend(fontsize=10)

plt.suptitle('Order Statistics from Uniform(0,1)', fontsize=15, y=1.01)
plt.tight_layout()
plt.savefig("order_stat_uniform.png", dpi=150, bbox_inches="tight")
plt.show()

上のコードでは、$n = 10$ の場合について第1, 3, 5, 10順序統計量のシミュレーション結果と、対応する $\text{Beta}(k, n-k+1)$ の理論密度を重ねて描画しています。シミュレーションと理論が非常によく一致することが確認できます。

シミュレーション2：指数分布の順序統計量

指数分布 $\text{Exp}(\lambda)$ は $f(x) = \lambda e^{-\lambda x}$、$F(x) = 1 – e^{-\lambda x}$ ($x \geq 0$) です。一般公式に代入して理論密度を計算し、比較します。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from math import factorial

# パラメータ設定
n = 8
lam = 1.0  # 指数分布のレートパラメータ
n_sim = 100000
ks = [1, 4, 8]

np.random.seed(123)

# シミュレーション
samples = np.random.exponential(scale=1.0/lam, size=(n_sim, n))
sorted_samples = np.sort(samples, axis=1)

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

for idx, k in enumerate(ks):
    ax = axes[idx]
    order_stat = sorted_samples[:, k - 1]

    # ヒストグラム
    ax.hist(order_stat, bins=60, density=True, alpha=0.6,
            color='steelblue', edgecolor='white', label='Simulation')

    # 理論密度: 一般公式を使って数値的に計算
    x = np.linspace(0, np.percentile(order_stat, 99.5), 300)
    Fx = 1 - np.exp(-lam * x)          # F(x)
    fx = lam * np.exp(-lam * x)         # f(x)
    coeff = factorial(n) / (factorial(k - 1) * factorial(n - k))
    pdf_theory = coeff * Fx**(k - 1) * (1 - Fx)**(n - k) * fx

    ax.plot(x, pdf_theory, 'r-', linewidth=2.5, label='Theory')
    ax.set_title(f'$X_{{({k})}}$ from Exp({lam}), n={n}', fontsize=13)
    ax.set_xlabel('x', fontsize=11)
    ax.set_ylabel('Density', fontsize=11)
    ax.legend(fontsize=10)

plt.tight_layout()
plt.savefig("order_stat_exponential.png", dpi=150, bbox_inches="tight")
plt.show()

指数分布の場合にも、理論密度関数とシミュレーションが精密に一致します。最小値 $X_{(1)}$ はレート $n\lambda$ の指数分布に従うことが知られており（最小値の分布公式から直接確認できます）、最大値に近づくほど分布は右に広がります。

シミュレーション3：レンジの分布

一様分布のレンジ $R = X_{(n)} – X_{(1)}$ が $\text{Beta}(n-1, 2)$ に従うことを確認します。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

n = 10
n_sim = 100000

np.random.seed(456)

# シミュレーション
samples = np.random.uniform(0, 1, size=(n_sim, n))
sorted_samples = np.sort(samples, axis=1)
ranges = sorted_samples[:, -1] - sorted_samples[:, 0]  # X_{(n)} - X_{(1)}

fig, ax = plt.subplots(figsize=(9, 6))

# ヒストグラム
ax.hist(ranges, bins=60, density=True, alpha=0.6,
        color='steelblue', edgecolor='white', label='Simulation')

# 理論分布: Beta(n-1, 2)
r = np.linspace(0, 1, 300)
pdf_theory = stats.beta.pdf(r, n - 1, 2)
ax.plot(r, pdf_theory, 'r-', linewidth=2.5, label=f'Beta({n-1}, 2)')

# 期待値と分散の表示
E_R = (n - 1) / (n + 1)
V_R = 2 * (n - 1) / ((n + 1)**2 * (n + 2))
ax.axvline(E_R, color='green', linestyle='--', linewidth=1.5,
           label=f'E[R] = {E_R:.4f}')
ax.axvline(np.mean(ranges), color='orange', linestyle=':', linewidth=1.5,
           label=f'Sample mean = {np.mean(ranges):.4f}')

ax.set_title(f'Range Distribution (Uniform, n={n})', fontsize=14)
ax.set_xlabel('Range R', fontsize=12)
ax.set_ylabel('Density', fontsize=12)
ax.legend(fontsize=11)

plt.tight_layout()
plt.savefig("range_distribution.png", dpi=150, bbox_inches="tight")
plt.show()

print(f"理論期待値: E[R] = {E_R:.6f}")
print(f"シミュレーション平均: {np.mean(ranges):.6f}")
print(f"理論分散: Var(R) = {V_R:.6f}")
print(f"シミュレーション分散: {np.var(ranges):.6f}")

シミュレーション4：中央値の漸近正規性

正規分布からの標本中央値が漸近的に正規分布に従うことを、理論的な分散と比較して確認します。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

mu = 5.0
sigma = 2.0
ns = [11, 51, 101, 501]  # 標本サイズ（奇数にする）
n_sim = 50000

np.random.seed(789)

fig, axes = plt.subplots(2, 2, figsize=(12, 9))
axes = axes.ravel()

for idx, n in enumerate(ns):
    ax = axes[idx]
    m = (n + 1) // 2  # 中央値のインデックス

    # シミュレーション: 各試行で標本中央値を計算
    medians = np.array([
        np.median(np.random.normal(mu, sigma, n))
        for _ in range(n_sim)
    ])

    # 標準化
    # 理論分散: pi * sigma^2 / (2n)
    var_theory = np.pi * sigma**2 / (2 * n)
    std_theory = np.sqrt(var_theory)

    z = (medians - mu) / std_theory  # 標準化

    # ヒストグラム
    ax.hist(z, bins=60, density=True, alpha=0.6,
            color='steelblue', edgecolor='white', label='Simulation')

    # 標準正規分布
    x = np.linspace(-4, 4, 300)
    ax.plot(x, stats.norm.pdf(x), 'r-', linewidth=2.5, label='N(0,1)')

    ax.set_title(f'n = {n}', fontsize=13)
    ax.set_xlabel('Standardized median', fontsize=11)
    ax.set_ylabel('Density', fontsize=11)
    ax.legend(fontsize=10)

    # 分散の比較を表示
    ax.text(0.05, 0.95, f'Var(theory)={var_theory:.5f}\nVar(sim)={np.var(medians):.5f}',
            transform=ax.transAxes, fontsize=9, verticalalignment='top',
            bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

plt.suptitle('Asymptotic Normality of Sample Median (Normal Population)',
             fontsize=14, y=1.01)
plt.tight_layout()
plt.savefig("median_asymptotic.png", dpi=150, bbox_inches="tight")
plt.show()

$n$ が大きくなるにつれて、標準化された標本中央値のヒストグラムが標準正規分布に近づくことが確認できます。また、理論分散とシミュレーション分散が近い値を示します。

まとめ

本記事では、順序統計量の理論について包括的に解説しました。

第 $k$ 順序統計量の密度関数を二項分布の考え方で導出し、$f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x)$ を得ました
最小値と最大値の分布を特殊ケースとして導出しました
同時密度関数を多項分布の考え方で導出しました
一様分布からの順序統計量がベータ分布に従うこと（$X_{(k)} \sim \text{Beta}(k, n-k+1)$）を示しました
レンジ $R = X_{(n)} – X_{(1)}$ の分布を変数変換により導出しました
標本中央値の漸近正規性を示し、正規母集団では標本平均より約57%分散が大きいことを確認しました
Pythonシミュレーションにより、すべての理論結果を数値的に検証しました

順序統計量の理論は、ノンパラメトリック検定、極値理論、信頼区間の構成など多くの統計手法の基礎となっています。次のステップとして、以下の記事も参考にしてください。

順序統計量の分布と応用をわかりやすく解説

前提知識

順序統計量とは

直感的な理解

数学的定義

第 $k$ 順序統計量の確率密度関数の導出

導出のアイデア

二項分布を用いた厳密な導出

累積分布関数からの別証明

最小値と最大値の分布

最大値 $X_{(n)}$ の分布

最小値 $X_{(1)}$ の分布

同時密度関数

2つの順序統計量の同時密度

全順序統計量の同時密度

一様分布からの順序統計量とベータ分布

一様分布 $U(0,1)$ の場合

ベータ分布の期待値・分散

確率積分変換との関係

レンジの分布

レンジの定義

一様分布でのレンジの分布の導出

中央値の漸近分布

導出のスケッチ

具体例：正規分布の場合

Pythonでの実装

シミュレーション1：一様分布の順序統計量

シミュレーション2：指数分布の順序統計量

シミュレーション3：レンジの分布

シミュレーション4：中央値の漸近正規性

まとめ

誤り訂正符号入門 — ハミング符号を理解して実装する

多変量正規分布の周辺分布と条件付き分布を導出する

順序統計量の分布と応用をわかりやすく解説

前提知識

順序統計量とは

直感的な理解

数学的定義

第 $k$ 順序統計量の確率密度関数の導出

導出のアイデア

二項分布を用いた厳密な導出

累積分布関数からの別証明

最小値と最大値の分布

最大値 $X_{(n)}$ の分布

最小値 $X_{(1)}$ の分布

同時密度関数

2つの順序統計量の同時密度

全順序統計量の同時密度

一様分布からの順序統計量とベータ分布

一様分布 $U(0,1)$ の場合

ベータ分布の期待値・分散

確率積分変換との関係

レンジの分布

レンジの定義

一様分布でのレンジの分布の導出

中央値の漸近分布

導出のスケッチ

具体例：正規分布の場合

Pythonでの実装

シミュレーション1：一様分布の順序統計量

シミュレーション2：指数分布の順序統計量

シミュレーション3：レンジの分布

シミュレーション4：中央値の漸近正規性

まとめ

関連記事

チェビシェフ・マルコフ・イェンセンの不等式を理解する

共分散と相関係数の定義・性質・Pythonでの計算

確率母関数・積率母関数とは？分布の特性を関数で捉える

誤り訂正符号入門 — ハミング符号を理解して実装する

多変量正規分布の周辺分布と条件付き分布を導出する