【LaTeX】確率記号P(X)・期待値E[X]をLaTeXで書く

確率論と統計学の数式には、独特の記号体系があります。確率 $P(A)$、期待値 $E[X]$、分散 $\mathrm{Var}(X)$、条件付き確率 $P(A \mid B)$ など、他の分野ではあまり見かけない表記法が数多くあります。

これらの記号をLaTeXで正しく書くには、ローマン体の使い方、括弧の種類、条件付きの縦線の書き方などを知っておく必要があります。機械学習の論文を書く場合や、統計学のレポートを作成する場合に、この知識は直接役立ちます。

本記事の内容

  • 確率 $P(A)$ の書き方
  • 条件付き確率 $P(A \mid B)$ の書き方
  • 期待値 $E[X]$、分散 $\mathrm{Var}(X)$ の書き方
  • 確率分布の表記法
  • ベイズの定理の書き方

前提知識

この記事を読む前に、以下の記事を読んでおくと理解が深まります。

確率の書き方

事象の確率

事象 $A$ が起こる確率は $P(A)$ と書きます。ここで $P$ はローマン体(立体)にするのが慣習です。

$$ P(A), \quad P(B), \quad P(A \cap B) $$

$$
P(A), \quad P(B), \quad P(A \cap B)
$$

LaTeXでは数式モードの $P$ はイタリック体になりますが、確率を表す $P$ はイタリック体のまま使うのが多くの教科書での慣例です。ローマン体にしたい場合は \mathrm{P} を使います。

$$ \mathrm{P}(A) \quad \text{vs} \quad P(A) $$

% イタリック体(多くの教科書で使用)
$P(A)$

% ローマン体
$\mathrm{P}(A)$

どちらを使うかは出版社や教科書のスタイルに従ってください。本記事では一般的なイタリック体の $P$ を使います。

確率の基本的な性質

確率の公理をLaTeXで書いてみましょう。

$$ 0 \leq P(A) \leq 1 $$

$$ P(\Omega) = 1 $$

$$ P(A \cup B) = P(A) + P(B) – P(A \cap B) $$

$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$

集合記号 $\cup$(和集合)と $\cap$(共通部分)を使って確率の加法定理を表現しています。

余事象の確率

$$ P(A^c) = 1 – P(A) $$

$A^c$ は事象 $A$ の余事象(補集合)です。A^c で上付き文字の $c$ を書きます。$\bar{A}$ と書くこともあります。

確率の基本的な書き方を押さえました。次に、2つの事象の関係を表す条件付き確率を見ていきましょう。

条件付き確率

条件付き確率とは

条件付き確率 $P(A \mid B)$ は、「事象 $B$ が起きたことがわかったとき、事象 $A$ が起きる確率」を表します。医療の検査を例にすると、「検査で陽性が出た($B$)ことがわかったとき、実際に病気である($A$)確率」が条件付き確率です。

書き方

$$ P(A \mid B) = \frac{P(A \cap B)}{P(B)} $$

$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
$$

条件の区切りには \mid(縦線)を使います。| でも表示は同じですが、\mid のほうがスペーシングが適切です。

括弧のサイズ調整

条件付き確率の中に分数がある場合は、括弧のサイズ調整が必要です。

$$ P\left(\frac{X}{n} > t \;\middle|\; Y = y\right) $$

$$
P\left(\frac{X}{n} > t \;\middle|\; Y = y\right)
$$

\middle| を使うと、\left\right の間で縦線のサイズが自動調整されます。\; は薄いスペースで、条件の前後に適切な空白を入れています。

独立性の表記

2つの事象が独立であるとき:

$$ P(A \cap B) = P(A) \cdot P(B) $$

$$ P(A \mid B) = P(A) $$

条件付き確率の書き方を理解しました。次に、ベイズの定理の書き方を見ていきましょう。

ベイズの定理

ベイズの定理とは

ベイズの定理は、条件付き確率の「条件を逆転」させる定理です。「原因から結果」の確率がわかっているとき、「結果から原因」の確率を計算できます。

基本形

$$ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)} $$

$$
P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)}
$$

$P(A)$ は事前確率、$P(A \mid B)$ は事後確率、$P(B \mid A)$ は尤度、$P(B)$ は周辺尤度です。

全確率の公式と組み合わせた形

$$ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{\sum_{i=1}^{n} P(B \mid A_i) \, P(A_i)} $$

$$
P(A \mid B) = \frac{P(B \mid A) \, P(A)}{\sum_{i=1}^{n} P(B \mid A_i) \, P(A_i)}
$$

分母は全確率の公式 $P(B) = \sum_i P(B \mid A_i) P(A_i)$ を展開したものです。

連続版のベイズの定理

$$ p(\theta \mid \bm{x}) = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{p(\bm{x})} = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{\int p(\bm{x} \mid \theta) \, p(\theta) \, d\theta} $$

$$
p(\theta \mid \bm{x}) = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{p(\bm{x})}
= \frac{p(\bm{x} \mid \theta) \, p(\theta)}{\int p(\bm{x} \mid \theta) \, p(\theta) \, d\theta}
$$

小文字の $p$ は確率密度関数、大文字の $P$ は確率(離散)を表します。

ベイズの定理の書き方を理解しました。次に、確率変数に対する演算(期待値・分散など)の表記を見ていきましょう。

期待値・分散・共分散

期待値

期待値は $E[X]$ と書きます。角括弧 [...] で囲むのが一般的です。

$$ E[X] = \sum_{x} x \, P(X = x) $$

$$
E[X] = \sum_{x} x \, P(X = x)
$$

連続の場合:

$$ E[X] = \int_{-\infty}^{\infty} x \, f(x) \, dx $$

期待値の表記バリエーション

表記 LaTeX スタイル
$E[X]$ E[X] 最も一般的
$\mathbb{E}[X]$ \mathbb{E}[X] 黒板太字(確率論)
$\mathrm{E}[X]$ \mathrm{E}[X] ローマン体
$\langle X \rangle$ \langle X \rangle 物理学

$$ \mathbb{E}[X], \quad \mathrm{E}[X], \quad \langle X \rangle $$

$$
\mathbb{E}[X], \quad \mathrm{E}[X], \quad \langle X \rangle
$$

確率論の論文では $\mathbb{E}$(黒板太字)が好まれます。物理学では $\langle X \rangle$(山括弧)で期待値を表すことが多いです。

条件付き期待値

$$ E[X \mid Y = y] = \sum_{x} x \, P(X = x \mid Y = y) $$

$$
E[X \mid Y = y] = \sum_{x} x \, P(X = x \mid Y = y)
$$

分散

分散は $\mathrm{Var}(X)$ と書きます。Var はローマン体にするのが慣例です。

$$ \mathrm{Var}(X) = E[(X – E[X])^2] = E[X^2] – (E[X])^2 $$

$$
\mathrm{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2
$$

$\sigma^2$ で表すこともよくあります。

$$ \sigma^2 = \mathrm{Var}(X) $$

標準偏差

$$ \sigma = \sqrt{\mathrm{Var}(X)} $$

共分散

$$ \mathrm{Cov}(X, Y) = E[(X – E[X])(Y – E[Y])] = E[XY] – E[X]E[Y] $$

$$
\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$

相関係数

$$ \rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}} $$

$$
\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}}
$$

期待値・分散・共分散の書き方を理解しました。次に、確率分布の表記法を見ていきましょう。

確率分布の表記

「〜に従う」の記号

確率変数がある分布に従うことを表す記号は \sim です。

$$ X \sim N(\mu, \sigma^2) $$

$$
X \sim N(\mu, \sigma^2)
$$

「確率変数 $X$ は平均 $\mu$、分散 $\sigma^2$ の正規分布に従う」と読みます。

主な確率分布の表記

分布 LaTeX パラメータ
正規分布 $X \sim N(\mu, \sigma^2)$ 平均、分散
標準正規分布 $Z \sim N(0, 1)$
一様分布 $X \sim U(a, b)$ 下限、上限
指数分布 $X \sim \mathrm{Exp}(\lambda)$ レート
ポアソン分布 $X \sim \mathrm{Poi}(\lambda)$ 平均
ベルヌーイ分布 $X \sim \mathrm{Ber}(p)$ 成功確率
二項分布 $X \sim \mathrm{Bin}(n, p)$ 試行回数、成功確率
ガンマ分布 $X \sim \mathrm{Gamma}(\alpha, \beta)$ 形状、レート
ベータ分布 $X \sim \mathrm{Beta}(\alpha, \beta)$ 形状パラメータ
カイ二乗分布 $X \sim \chi^2(k)$ 自由度
$t$ 分布 $X \sim t(k)$ 自由度
$X \sim N(\mu, \sigma^2)$
$X \sim \mathrm{Poi}(\lambda)$
$X \sim \mathrm{Bin}(n, p)$
$X \sim \chi^2(k)$

分布名はローマン体で書くのが一般的です。正規分布の $N$ と二項分布の $\mathrm{Bin}$ に注目してください。

確率密度関数と確率質量関数

連続分布の確率密度関数(pdf)は小文字 $f$ で書くことが多いです。

$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$

離散分布の確率質量関数(pmf)は $P(X = k)$ で書きます。

$$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} $$

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$

これはポアソン分布の確率質量関数です。

累積分布関数

$$ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt $$

$$
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt
$$

確率分布の表記を一通り紹介しました。次に、独立同分布(i.i.d.)や尤度関数など、よく使う表現をまとめます。

よく使う確率の表現

独立同分布(i.i.d.)

$$ X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} F $$

$$
X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} F
$$

\overset で $\sim$ の上に「i.i.d.」を配置しています。

尤度関数と対数尤度

$$ L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta) $$

$$ \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta) $$

$$
\ell(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta)
$$

最尤推定量

$$ \hat{\theta}_{\text{ML}} = \underset{\theta}{\operatorname{argmax}} \, \ell(\theta) $$

$$
\hat{\theta}_{\text{ML}} = \underset{\theta}{\operatorname{argmax}} \, \ell(\theta)
$$

KLダイバージェンス

$$ D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} $$

$$
D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}
$$

\| で二重の縦線を出力しています。KLダイバージェンスでは $P \| Q$ と書くのが標準的です。

LaTeX vs KaTeX の注意点

コマンド KaTeX対応 備考
\mid 対応 条件付き確率
\middle\| 対応 サイズ調整された縦線
\mathbb{E} 対応 黒板太字の期待値
\mathrm{Var} 対応 ローマン体
\sim 対応 分布の記号
\overset 対応 i.i.d. の表記
\operatorname 対応 カスタム関数名

KaTeXでは確率記号に関するすべてのコマンドがサポートされています。

よくある間違いとTips

間違い1:条件付き確率の縦線

% 非推奨: スペースが狭い
$P(A|B)$

% 推奨: 適切なスペース
$P(A \mid B)$

間違い2:Var を斜体で書く

% NG: 変数の積に見える
$Var(X)$

% OK: ローマン体
$\mathrm{Var}(X)$

間違い3:期待値の括弧の種類

期待値には角括弧 $E[X]$ を使うのが国際的な標準です。

% 推奨: 角括弧
$E[X]$

% 許容: 丸括弧
$E(X)$

Tips:確率のマクロ定義

確率記号を頻繁に使う場合は、マクロを定義しておくと便利です。

\newcommand{\E}{\mathbb{E}}
\newcommand{\Var}{\mathrm{Var}}
\newcommand{\Cov}{\mathrm{Cov}}
\newcommand{\Prob}{\mathrm{P}}

まとめ

本記事では、LaTeXで確率記号を書く方法を解説しました。

  • 確率: $P(A)$ で事象の確率、\mid で条件付きの区切り
  • 期待値: $E[X]$ または $\mathbb{E}[X]$ — 角括弧が標準
  • 分散: $\mathrm{Var}(X)$ — ローマン体で
  • 共分散: $\mathrm{Cov}(X, Y)$ — ローマン体で
  • 確率分布: $X \sim N(\mu, \sigma^2)$ で「〜に従う」
  • ベイズの定理: 条件付き確率の分数形で表現

確率の記号は統計学と機械学習の論文で毎ページのように登場します。正確に書けるようにしておきましょう。

次のステップとして、以下の記事も参考にしてください。