0%

AI 学习的前置知识

汇总学习 AI 过程中遇到的前置知识

协方差矩阵

多变量统计中的一个核心概念,用来描述多个随机变量之间的线性关系

定义:假设有一个随机向量 \[ X = (x_1, x_2, ... , x_n) \] 它的协方差矩阵为: \[ \sum=Cov(X)=E[(X-\mu)(X-\mu)^T] \\ 其中 \mu = E[X] 是均值向量 \] 展开: \[ \Sigma = \begin{pmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2) & \cdots & \mathrm{Cov}(X_1,X_n) \\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n,X_1) & \mathrm{Cov}(X_n,X_2) & \cdots & \mathrm{Var}(X_n) \end{pmatrix} \] 矩阵中每个点表示两个变量的协方差

用法1:判断两个特征的相关性(线性的跟着增大/减小)

假设我们有若干 n 维特征向量,我们想知道第 i 维和第 j 维的特征是否有相关性,就可以在协方差矩阵中取对应位置的值

  • 协方差 > 0:两个特征正相关
  • 协方差 < 0:两个特征负相关
  • 协方差 = 0:两个特征无相关性

用法2:对于一个特征,可以通过方差判断离散程度

  • Var(x) 越大,x 特征的数据越分散
  • Var(x) 越小,x 特征的数据越集中

高斯分布

一维标准高斯分布:均值为0,方差为1 的一系列数据 \[ \mathcal{N}(0,1) \] 多维高斯分布:每个维度都是标准高斯分布的数据 \[ \mathcal{N}(\mathbf{0}, \mathbf{I}) \] 其中:

  • 0:零向量
  • I:单位协方差矩阵(对角线为1,其余都是0)

多维标准高斯分布的特点:

  • 任意两个维度都不相关,且独立

极大似然估计

Maximum Likelihood Estimation(MLE):假设数据 \[ x_1, x_2, ...,x_n \] 模型参数 \(\theta\),似然函数是在参数 \(\theta\) 下,观察到当前数据的概率,表示为: \[ L(\theta)=P(data|\theta) = \prod_{i}P(x_i|\theta) \] 计算方式:由于概率连乘会非常小,通常取对数 \[ logL(\theta)=\sum_i log P(x_i|\theta) \] MLE 的目标是找到让似然函数最大的参数: \[ \hat\theta = \arg\max_{\theta}L(\theta) \rightarrow arg \max_{\theta}logL(\theta) \]

KL 散度

KL Divergence,用来衡量两个概率分布差异

假设 P 为真实数据的分布,Q 为模型预测的分布,KL 散度表示:用 Q 近似 P 时会损失多少信息

定义

离散情况: \[ D_{KL}(P\parallel Q)=\sum_xP(x)\log\frac{P(x)}{Q(x)} \] 连续情况: \[ D_{KL}(P\parallel Q)= \int P(x)log \frac {P(x)}{Q(x)}dx \] 如果预测概率低于真实概率:\(Q(x) \ll P(x)\)\(D_{KL}\) 会很大,模型把一件频繁发生的事情看得不太可能,这种情况会被惩罚

\(Q(x) \gg P(x)\)\(D_{KL}\) 会很小,模型高估了一件很少发生的事情,这种情况被忽视

含义

  • KL 散度越大,说明预测分布距离真实分布偏差越大
  • KL 散度越小,说明预测分布越逼近真实分布

交叉熵

Cross entropy,衡量模型的预测与真实值查多远

信息量

一件事情发生的信息量定义为: \[ I(x) = -logP(x) \]

  • 概率越小 -> 信息量越大
  • 概率越大 -> 信息量越小

取值范围:\([0, \infty)\)

熵(entropy)

一个分布的平均信息量(期望),定义: \[ H(P)=E_{x\sim P}[I(x)] \\ =E_{x\sim P}[-logP(x)] \\ =-\sum_{x}P(x)logP(x) \] 含义:

\(H(P) = 0\),说明 P 这个分布完全确定,没有随机性,分布中只有一种数值,比如女子学校中学生的性别分布 = {女, 女, ..., 女},等同于废话,没有任何信息

\(H(P) = logn\),说明 P 是均匀分布,熵最大,n 为分布中状态数

取值范围:\([0, logn]\)

交叉熵

真实分布 P(x),模型预测分布 Q(x),交叉熵定义为: \[ H(P, Q) = -\sum_x P(x)logQ(x) \] 交叉熵与 KL 散度的关系

推导: \[ H(P, Q) = -\sum_x P(x)logQ(x) \\ =\sum_xP(x)log\frac{1}{Q(x)} =\sum_x P(x)log(\frac{1}{P(x)}\frac{P(x)}{Q(x)}) \\ =-\sum_xP(x)logP(x) + \sum_xP(x)log\frac{P(x)}{Q(x)} \\ = H(P) + D_{KL}(P\parallel Q) \] 其中 \(H(P)\) 为真实数据的熵,是一个固定值,所以交叉熵与 KL 散度是正相关的 \[ minH(P,Q) \Leftrightarrow minD_{KL}(P\parallel Q) \] 最小化交叉熵 = 让模型分布逼近真实分布