確率論と統計学の数式には、独特の記号体系があります。確率 $P(A)$、期待値 $E[X]$、分散 $\mathrm{Var}(X)$、条件付き確率 $P(A \mid B)$ など、他の分野ではあまり見かけない表記法が数多くあります。
これらの記号をLaTeXで正しく書くには、ローマン体の使い方、括弧の種類、条件付きの縦線の書き方などを知っておく必要があります。機械学習の論文を書く場合や、統計学のレポートを作成する場合に、この知識は直接役立ちます。
本記事の内容
- 確率 $P(A)$ の書き方
- 条件付き確率 $P(A \mid B)$ の書き方
- 期待値 $E[X]$、分散 $\mathrm{Var}(X)$ の書き方
- 確率分布の表記法
- ベイズの定理の書き方
前提知識
この記事を読む前に、以下の記事を読んでおくと理解が深まります。
- 集合記号をLaTeXで書く — 確率と集合の関係
- 総和と総乗をLaTeXで書く — 期待値の計算で使用
- 対数log・指数expをLaTeXで書く — エントロピー、対数尤度
確率の書き方
事象の確率
事象 $A$ が起こる確率は $P(A)$ と書きます。ここで $P$ はローマン体(立体)にするのが慣習です。
$$ P(A), \quad P(B), \quad P(A \cap B) $$
$$
P(A), \quad P(B), \quad P(A \cap B)
$$
LaTeXでは数式モードの $P$ はイタリック体になりますが、確率を表す $P$ はイタリック体のまま使うのが多くの教科書での慣例です。ローマン体にしたい場合は \mathrm{P} を使います。
$$ \mathrm{P}(A) \quad \text{vs} \quad P(A) $$
% イタリック体(多くの教科書で使用)
$P(A)$
% ローマン体
$\mathrm{P}(A)$
どちらを使うかは出版社や教科書のスタイルに従ってください。本記事では一般的なイタリック体の $P$ を使います。
確率の基本的な性質
確率の公理をLaTeXで書いてみましょう。
$$ 0 \leq P(A) \leq 1 $$
$$ P(\Omega) = 1 $$
$$ P(A \cup B) = P(A) + P(B) – P(A \cap B) $$
$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$
集合記号 $\cup$(和集合)と $\cap$(共通部分)を使って確率の加法定理を表現しています。
余事象の確率
$$ P(A^c) = 1 – P(A) $$
$A^c$ は事象 $A$ の余事象(補集合)です。A^c で上付き文字の $c$ を書きます。$\bar{A}$ と書くこともあります。
確率の基本的な書き方を押さえました。次に、2つの事象の関係を表す条件付き確率を見ていきましょう。
条件付き確率
条件付き確率とは
条件付き確率 $P(A \mid B)$ は、「事象 $B$ が起きたことがわかったとき、事象 $A$ が起きる確率」を表します。医療の検査を例にすると、「検査で陽性が出た($B$)ことがわかったとき、実際に病気である($A$)確率」が条件付き確率です。
書き方
$$ P(A \mid B) = \frac{P(A \cap B)}{P(B)} $$
$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
$$
条件の区切りには \mid(縦線)を使います。| でも表示は同じですが、\mid のほうがスペーシングが適切です。
括弧のサイズ調整
条件付き確率の中に分数がある場合は、括弧のサイズ調整が必要です。
$$ P\left(\frac{X}{n} > t \;\middle|\; Y = y\right) $$
$$
P\left(\frac{X}{n} > t \;\middle|\; Y = y\right)
$$
\middle| を使うと、\left と \right の間で縦線のサイズが自動調整されます。\; は薄いスペースで、条件の前後に適切な空白を入れています。
独立性の表記
2つの事象が独立であるとき:
$$ P(A \cap B) = P(A) \cdot P(B) $$
$$ P(A \mid B) = P(A) $$
条件付き確率の書き方を理解しました。次に、ベイズの定理の書き方を見ていきましょう。
ベイズの定理
ベイズの定理とは
ベイズの定理は、条件付き確率の「条件を逆転」させる定理です。「原因から結果」の確率がわかっているとき、「結果から原因」の確率を計算できます。
基本形
$$ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)} $$
$$
P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)}
$$
$P(A)$ は事前確率、$P(A \mid B)$ は事後確率、$P(B \mid A)$ は尤度、$P(B)$ は周辺尤度です。
全確率の公式と組み合わせた形
$$ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{\sum_{i=1}^{n} P(B \mid A_i) \, P(A_i)} $$
$$
P(A \mid B) = \frac{P(B \mid A) \, P(A)}{\sum_{i=1}^{n} P(B \mid A_i) \, P(A_i)}
$$
分母は全確率の公式 $P(B) = \sum_i P(B \mid A_i) P(A_i)$ を展開したものです。
連続版のベイズの定理
$$ p(\theta \mid \bm{x}) = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{p(\bm{x})} = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{\int p(\bm{x} \mid \theta) \, p(\theta) \, d\theta} $$
$$
p(\theta \mid \bm{x}) = \frac{p(\bm{x} \mid \theta) \, p(\theta)}{p(\bm{x})}
= \frac{p(\bm{x} \mid \theta) \, p(\theta)}{\int p(\bm{x} \mid \theta) \, p(\theta) \, d\theta}
$$
小文字の $p$ は確率密度関数、大文字の $P$ は確率(離散)を表します。
ベイズの定理の書き方を理解しました。次に、確率変数に対する演算(期待値・分散など)の表記を見ていきましょう。
期待値・分散・共分散
期待値
期待値は $E[X]$ と書きます。角括弧 [...] で囲むのが一般的です。
$$ E[X] = \sum_{x} x \, P(X = x) $$
$$
E[X] = \sum_{x} x \, P(X = x)
$$
連続の場合:
$$ E[X] = \int_{-\infty}^{\infty} x \, f(x) \, dx $$
期待値の表記バリエーション
| 表記 | LaTeX | スタイル |
|---|---|---|
| $E[X]$ | E[X] |
最も一般的 |
| $\mathbb{E}[X]$ | \mathbb{E}[X] |
黒板太字(確率論) |
| $\mathrm{E}[X]$ | \mathrm{E}[X] |
ローマン体 |
| $\langle X \rangle$ | \langle X \rangle |
物理学 |
$$ \mathbb{E}[X], \quad \mathrm{E}[X], \quad \langle X \rangle $$
$$
\mathbb{E}[X], \quad \mathrm{E}[X], \quad \langle X \rangle
$$
確率論の論文では $\mathbb{E}$(黒板太字)が好まれます。物理学では $\langle X \rangle$(山括弧)で期待値を表すことが多いです。
条件付き期待値
$$ E[X \mid Y = y] = \sum_{x} x \, P(X = x \mid Y = y) $$
$$
E[X \mid Y = y] = \sum_{x} x \, P(X = x \mid Y = y)
$$
分散
分散は $\mathrm{Var}(X)$ と書きます。Var はローマン体にするのが慣例です。
$$ \mathrm{Var}(X) = E[(X – E[X])^2] = E[X^2] – (E[X])^2 $$
$$
\mathrm{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2
$$
$\sigma^2$ で表すこともよくあります。
$$ \sigma^2 = \mathrm{Var}(X) $$
標準偏差
$$ \sigma = \sqrt{\mathrm{Var}(X)} $$
共分散
$$ \mathrm{Cov}(X, Y) = E[(X – E[X])(Y – E[Y])] = E[XY] – E[X]E[Y] $$
$$
\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$
相関係数
$$ \rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}} $$
$$
\rho_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \sqrt{\mathrm{Var}(Y)}}
$$
期待値・分散・共分散の書き方を理解しました。次に、確率分布の表記法を見ていきましょう。
確率分布の表記
「〜に従う」の記号
確率変数がある分布に従うことを表す記号は \sim です。
$$ X \sim N(\mu, \sigma^2) $$
$$
X \sim N(\mu, \sigma^2)
$$
「確率変数 $X$ は平均 $\mu$、分散 $\sigma^2$ の正規分布に従う」と読みます。
主な確率分布の表記
| 分布 | LaTeX | パラメータ |
|---|---|---|
| 正規分布 | $X \sim N(\mu, \sigma^2)$ | 平均、分散 |
| 標準正規分布 | $Z \sim N(0, 1)$ | — |
| 一様分布 | $X \sim U(a, b)$ | 下限、上限 |
| 指数分布 | $X \sim \mathrm{Exp}(\lambda)$ | レート |
| ポアソン分布 | $X \sim \mathrm{Poi}(\lambda)$ | 平均 |
| ベルヌーイ分布 | $X \sim \mathrm{Ber}(p)$ | 成功確率 |
| 二項分布 | $X \sim \mathrm{Bin}(n, p)$ | 試行回数、成功確率 |
| ガンマ分布 | $X \sim \mathrm{Gamma}(\alpha, \beta)$ | 形状、レート |
| ベータ分布 | $X \sim \mathrm{Beta}(\alpha, \beta)$ | 形状パラメータ |
| カイ二乗分布 | $X \sim \chi^2(k)$ | 自由度 |
| $t$ 分布 | $X \sim t(k)$ | 自由度 |
$X \sim N(\mu, \sigma^2)$
$X \sim \mathrm{Poi}(\lambda)$
$X \sim \mathrm{Bin}(n, p)$
$X \sim \chi^2(k)$
分布名はローマン体で書くのが一般的です。正規分布の $N$ と二項分布の $\mathrm{Bin}$ に注目してください。
確率密度関数と確率質量関数
連続分布の確率密度関数(pdf)は小文字 $f$ で書くことが多いです。
$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$
離散分布の確率質量関数(pmf)は $P(X = k)$ で書きます。
$$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} $$
$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$
これはポアソン分布の確率質量関数です。
累積分布関数
$$ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt $$
$$
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt
$$
確率分布の表記を一通り紹介しました。次に、独立同分布(i.i.d.)や尤度関数など、よく使う表現をまとめます。
よく使う確率の表現
独立同分布(i.i.d.)
$$ X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} F $$
$$
X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} F
$$
\overset で $\sim$ の上に「i.i.d.」を配置しています。
尤度関数と対数尤度
$$ L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta) $$
$$ \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta) $$
$$
\ell(\theta) = \sum_{i=1}^{n} \log f(x_i \mid \theta)
$$
最尤推定量
$$ \hat{\theta}_{\text{ML}} = \underset{\theta}{\operatorname{argmax}} \, \ell(\theta) $$
$$
\hat{\theta}_{\text{ML}} = \underset{\theta}{\operatorname{argmax}} \, \ell(\theta)
$$
KLダイバージェンス
$$ D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} $$
$$
D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}
$$
\| で二重の縦線を出力しています。KLダイバージェンスでは $P \| Q$ と書くのが標準的です。
LaTeX vs KaTeX の注意点
| コマンド | KaTeX対応 | 備考 |
|---|---|---|
\mid |
対応 | 条件付き確率 |
\middle\| |
対応 | サイズ調整された縦線 |
\mathbb{E} |
対応 | 黒板太字の期待値 |
\mathrm{Var} |
対応 | ローマン体 |
\sim |
対応 | 分布の記号 |
\overset |
対応 | i.i.d. の表記 |
\operatorname |
対応 | カスタム関数名 |
KaTeXでは確率記号に関するすべてのコマンドがサポートされています。
よくある間違いとTips
間違い1:条件付き確率の縦線
% 非推奨: スペースが狭い
$P(A|B)$
% 推奨: 適切なスペース
$P(A \mid B)$
間違い2:Var を斜体で書く
% NG: 変数の積に見える
$Var(X)$
% OK: ローマン体
$\mathrm{Var}(X)$
間違い3:期待値の括弧の種類
期待値には角括弧 $E[X]$ を使うのが国際的な標準です。
% 推奨: 角括弧
$E[X]$
% 許容: 丸括弧
$E(X)$
Tips:確率のマクロ定義
確率記号を頻繁に使う場合は、マクロを定義しておくと便利です。
\newcommand{\E}{\mathbb{E}}
\newcommand{\Var}{\mathrm{Var}}
\newcommand{\Cov}{\mathrm{Cov}}
\newcommand{\Prob}{\mathrm{P}}
まとめ
本記事では、LaTeXで確率記号を書く方法を解説しました。
- 確率: $P(A)$ で事象の確率、
\midで条件付きの区切り - 期待値: $E[X]$ または $\mathbb{E}[X]$ — 角括弧が標準
- 分散: $\mathrm{Var}(X)$ — ローマン体で
- 共分散: $\mathrm{Cov}(X, Y)$ — ローマン体で
- 確率分布: $X \sim N(\mu, \sigma^2)$ で「〜に従う」
- ベイズの定理: 条件付き確率の分数形で表現
確率の記号は統計学と機械学習の論文で毎ページのように登場します。正確に書けるようにしておきましょう。
次のステップとして、以下の記事も参考にしてください。
- 集合記号をLaTeXで書く — 確率と集合の関係
- 総和と総乗をLaTeXで書く — 期待値の計算
- 対数log・指数expをLaTeXで書く — 対数尤度、エントロピー