概率论基础参考(一)

机器学习概率论相关

概率论是对不确定性的研究。机器学习中涉及许多概率相关推导。概率论的数学理论非常复杂,这篇笔记中总结概率的一些基本处理方法,不会涉及到这些更复杂的细节。

1. 概率的基本要素

为了定义集合上的概率,我们需要一些基本元素,

  • 样本空间$\Omega $:随机实验的所有结果的集合。在这里,每个结果 $w \in \Omega $ 可以被认为是实验结束时现实世界状态的完整描述。
  • 事件集(事件空间)$\mathcal{F}$:元素 $A \in \mathcal{F}$ 的集合(称为事件)是 $\Omega $ 的子集(即每个 $A \subseteq \Omega$ 是一个实验可能结果的集合)。 备注:$\mathcal{F}$需要满足以下三个条件: (1) $\emptyset \in \mathcal{F}$ (2) $A \in \mathcal{F} \Longrightarrow \Omega \backslash A \in \mathcal{F}$ (3) $A_1,A_2,\cdots A_{i} \in \mathcal{F}\Longrightarrow\cup_{i} A_{i} \in \mathcal{F}$
  • 概率度量$P$:函数$P$是一个$ \mathcal{F} \rightarrow \mathbb{R}$的映射,满足以下性质:
  • 对于每个 $A \in \mathcal{F}$,$P(A) \geq 0$,
  • $P(\Omega) = 1$
  • 如果$A_1 ,A_2 ,\cdots$ 是互不相交的事件 (即 当$ i \neq j$时,$A_{i} \cap A_{j}=\emptyset$ ), 那么:
    $$
    P\left(\cup_{i} A_{i}\right)=\sum_{i} P\left(A_{i}\right)
    $$

以上三条性质被称为概率公理

举例

考虑投掷六面骰子的事件。样本空间为$\Omega= {1,2,3,4,5,6}$。最简单的事件空间是平凡事件空间$\mathcal{F} = {\emptyset,\Omega}$.另一个事件空间是$\Omega$的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率度量由$P(\emptyset) = 0$,$p(\Omega)= 1$给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事件的概率分配为$i/6$,这里$i$ 是这个事件集合中元素的数量;例如$P({1,2,3,4}) =4/6$,$P({1,2,3}) =3/6$。

性质:

  • 如果$A \subseteq B$,则:$ P(A) \leq P(B)$
  • $P(A \cap B) \leq min(P(A),P(B) )$
  • (布尔不等式):$P(A \cup B) \leq P(A)+P(B)$
  • $P(\Omega |A ) =1-P(A)$
  • (全概率定律):如果$A_1,\cdots,A_k$是一些互不相交的事件并且它们的并集是$\Omega$,那么它们的概率之和是1

1.1 条件概率和独立性

假设$B$是一个概率非0的事件,我们定义在给定$B$的条件下$A$ 的条件概率为:
$$
P(A | B) \triangleq \frac{P(A \cap B)}{P(B)}
$$
换句话说,$P(A|B$)是度量已经观测到$B$事件发生的情况下$A$事件发生的概率,两个事件被称为独立事件当且仅当$P(A \cap B) = P(A)P(B)$(或等价地,$P(A|B) = P(A)$)。因此,独立性相当于是说观察到事件$B$对于事件$A$的概率没有任何影响。

2. 随机变量

考虑一个实验,我们翻转10枚硬币,我们想知道正面硬币的数量。这里,样本空间$\Omega$的元素是长度为10的序列。例如,我们可能有$w_0 = {H,H,T,H,T,H,H,T,T,T}\in\Omega$。然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们10次投掷中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量

更正式地说,随机变量$X$是一个的$\Omega \longrightarrow \mathbb{R}$函数。通常,我们将使用大写字母$X(\omega)$或更简单的$X$(其中隐含对随机结果$\omega$的依赖)来表示随机变量。我们将使用小写字母$x$来表示随机变量的值。

举例:
在我们上面的实验中,假设$X(\omega)$是在投掷序列$\omega$中出现的正面的数量。假设投掷的硬币只有10枚,那么$X(\omega)$只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量$X$相关联的集合取某个特定值$k$的概率为:
$$
P(X=k) :=P({\omega : X(\omega) =k})
$$
举例:
假设$X(\omega)$是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下,$X(\omega)$具有无限多的可能值,因此它被称为连续随机变量。我们将$X$在两个实常数$a$和$b$之间取值的概率(其中$a < b$)表示为:
$$
P(a \leq X \leq b) :=P({\omega : a \leq X(\omega) \leq b})
$$

2.1 累积分布函数

为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数(CDFPDFPMF),在本节和接下来的两节中,我们将依次描述这些类型的函数。

累积分布函数(CDF)是函数$F_{X} : \mathbb{R} \rightarrow[0,1]$,它将概率度量指定为:
$$
F_{X}(x) \triangleq P(X \leq x)
$$
通过使用这个函数,我们可以计算任意事件发生的概率。图1显示了一个样本CDF函数。

图1:一个累计分布函数(CDF)
性质:

  • $0 \leq F_{X}(x)\leq 1$
  • $\lim {x \rightarrow-\infty} F_{X}(x)=0$
  • $\lim {x \rightarrow\infty} F_{X}(x)=1$
  • $x \leq y \Longrightarrow F_{X}(x)\leq F_{X}(y)$

2.2 概率质量函数

当随机变量$X$取有限种可能值(即,$X$是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 $p_{X} : \Omega \rightarrow \mathbb{R}$,这样:
$$
p_{X}(x) \triangleq P(X=x)
$$

在离散随机变量的情况下,我们使用符号$Val(X)$表示随机变量$X$可能假设的一组可能值。例如,如果$X(\omega)$是一个随机变量,表示十次投掷硬币中的正面数,那么$Val(X) ={0,1,2,…,10}$。

性质:

  • $0 \leq p_{X}(x)\leq 1$
  • $\sum_{x \in V \text { al }(X)} p_{X}(x)=1$
  • $\sum_{x \in A} p_{X}(x)=P(X \in A)$

2.3 概率密度函数

对于一些连续随机变量,累积分布函数$F_X (x)$处可微。在这些情况下,我们将概率密度函数(PDF)定义为累积分布函数的导数,即:
$$
f_{X}(x) \triangleq \frac{d F_{X}(x)}{d x}
$$

请注意,连续随机变量的概率密度函数可能并不总是存在的(即,如果它不是处处可微)。

根据微分的性质,对于很小的$\Delta x$,
$$
P(x \leq X \leq x+\Delta x) \approx f_{X}(x) \Delta x
$$
CDFPDF(当它们存在时!)都可用于计算不同事件的概率。但是应该强调的是,任意给定点的概率密度函数(PDF)的值不是该事件的概率,即$f _X (x) \not = P(X = x)$。例如,$f _X (x)$可以取大于1的值(但是$f _X (x)$在$\mathbb{R}$的任何子集上的积分最多为1)。

性质:

  • $f_X(x)\geq 0$
  • $\int_{-\infty}^{\infty} f_{X}(x)=1$
  • $\int_{x \in A} f_{X}(x) d x=P(X \in A)$

2.4 期望

假设$X$是一个离散随机变量,其PMF为 $p_X (x)$,$g : \mathbb{R} \longrightarrow \mathbb{R}$是一个任意函数。在这种情况下,$g(X)$可以被视为随机变量,我们将$g(X)$的期望值定义为:
$$
E[g(X)] \triangleq \sum_{x \in V a l(X)} g(x) p_{X}(x)
$$
如果$X$是一个连续的随机变量,其PDF 为$f_X (x)$,那么$g(X)$的期望值被定义为: $$ E[g(X)] \triangleq \int{-\infty}^{\infty} g(x) f_{X}(x) d x
$$

直觉上,$g(X)$的期望值可以被认为是$g(x)$对于不同的$x$值可以取的值的“加权平均值”,其中权重由$p_X(x)$或$f_X(x)$给出。作为上述情况的特例,请注意,随机变量本身的期望值,是通过令$g(x) = x$得到的,这也被称为随机变量的平均值。

性质:

  • 对于任意常数 $a \in \mathbb{R}$,$E[a]=a$
  • 对于任意常数 $a \in \mathbb{R}$,$E[af(X)]=aE[f(X)]$
  • (线性期望):$E[f(X)+g(X)]=E[f(X)]+E[g(X)]$
  • 对于一个离散随机变量$X$,$E[1{X=k}]=P(X=k)$

2.5 方差

随机变量$X$的方差是随机变量$X$的分布围绕其平均值集中程度的度量。形式上,随机变量$X$的方差定义为:
$$
\operatorname{Var}[X] \triangleq E\left[(X-E(X))^{2}\right]
$$
使用上一节中的性质,我们可以导出方差的替代表达式:
$$
\begin{aligned} E\left[(X-E[X])^{2}\right] &=E\left[X^{2}-2 E[X] X+E[X]^{2}\right]\\&=E\left[X^{2}\right]-2 E[X] E[X]+E[X]^{2} \\ &=E\left[X^{2}\right]-E[X]^{2} \end{aligned}
$$

其中第二个等式来自期望的线性,以及$E[X]$相对于外层期望实际上是常数的事实。

性质:

  • 对于任意常数 $a \in \mathbb{R}$,$Val[a]=0$
  • 对于任意常数 $a \in \mathbb{R}$,$Var[af(X)]=a^2Var[f(X)]$

举例:

计算均匀随机变量$X$的平均值和方差,任意$x \in [0,1]$,其PDF为 $p_X(x)= 1$,其他地方为0。
$$
E[X]=\int_{-\infty}^{\infty} x f_{X}(x) d x=\int_{0}^{1} x d x=\frac{1}{2}
$$
$$
E\left[X^{2}\right]=\int_{-\infty}^{\infty} x^{2} f_{X}(x) d x=\int_{0}^{1} x^{2} d x=\frac{1}{3}
$$
$$
Var[X]=E[X^2]-E[X]^2=\frac{1}{3}-\frac{1}{4}=\frac{1}{12}
$$
举例:

假设对于一些子集$A \subseteq \Omega$,有$g(x) = 1{x \in A}$,计算$E[g(X)]$?

离散情况:
$$
E[g(X)]=\sum_{x \in V a l(X)} 1{x \in A} P_{X}(x) d x=\sum_{x \in A} P_{X}(x) d x=P(x \in A)
$$

连续情况:
$$
E[g(X)]=\int_{-\infty}^{\infty} 1{x \in A} f_{X}(x) d x=\int_{x \in A} f_{X}(x) d x=P(x \in A)
$$

2.6 一些常见的随机变量

离散随机变量

  • 伯努利分布:硬币掷出正面的概率为$p$(其中:$0 \leq p \leq 1$),如果正面发生,则为1,否则为0。
    $$
    p(x)=\begin{cases}{p} & {\text { if } p=1} \\ {1-p} & {\text { if } p=0}\end{cases}
    $$
  • 二项式分布:掷出正面概率为$p$(其中:$0 \leq p \leq 1$)的硬币$n$次独立投掷中正面的数量。
    $$
    p(x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x}(1-p)^{n-x}
    $$
  • 几何分布:掷出正面概率为$p$(其中:$p >0$)的硬币第一次掷出正面所需要的次数。
  • 泊松分布:用于模拟罕见事件频率的非负整数的概率分布(其中:$\lambda >0$)。
    $$
    p(x)=e^{-\lambda} \frac{\lambda^{x}}{x !}
    $$

连续随机变量

  • 均匀分布:在$a$和$b$之间每个点概率密度相等的分布(其中:$a<b$)。
    $$
    f(x)=\begin{cases}{\frac{1}{b-a}} & {\text { if } a \leq x \leq b} \\{0} & {\text { otherwise }}\end{cases}
    $$
  • 指数分布:在非负实数上有衰减的概率密度(其中:$\lambda >0$)。
    $$
    f(x)=\begin{cases}{\lambda e^{-\lambda x}} & {\text { if } x \geq 0} \\ {0} & {\text { otherwise }}\end{cases}
    $$
  • 正态分布:又被称为高斯分布。
    $$
    f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}
    $$

一些随机变量的概率密度函数和累积分布函数的形状如图2所示。

图2:一些随机变量的概率密度函数(PDF)和累积分布函数(CDF)
下表总结了这些分布的一些特性:

分布概率密度函数(PDF)或者概率质量函数(PMF)均值方差
$Bernoulli(p)$(伯努利分布)$\begin{cases}
p & \text{ if } x= 1\\
1-p & \text{ if } x=0
\end{cases}$
$p$$p(1-p)$
$Binomial(n,p)$(二项式分布)$\left(\begin{array}{l}{n} \ {k}\end{array}\right) p^{k}(1-p)^{n-k}$ 其中:$0 \leq k \leq n$$np$$npq$
$Geometric(p)$(几何分布)$p(1-p)^{k-1}$ 其中:$k=1,2,\cdots$$\frac{1}{p}$$\frac {1-p}{p^2}$
$Poisson(\lambda)$(泊松分布)$e^{-\lambda} \lambda^{x} / x !$ 其中:$k=1,2,\cdots$$\lambda$$\lambda$
$Uniform(a,b)$(均匀分布)$\frac{1}{b-a}$ 存在$x \in (a,b)$$\frac{a+b}{2}$$\frac{(b-a)^2}{12}$
$Gaussian(\mu,\sigma^2)$(高斯分布)$\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}$$\mu$$\sigma^2$
$Exponential(\lambda)$(指数分布)$\lambda e^{-\lambda x}$ $x\geq0,\lambda>0$$\frac{1}{\lambda}$$\frac{1}{\lambda^2}$

留下评论