AI 学习的前置知识

汇总学习 AI 过程中遇到的前置知识

协方差矩阵

多变量统计中的一个核心概念，用来描述多个随机变量之间的线性关系

定义：假设有一个随机向量 \[ X = (x_1, x_2, ... , x_n) \] 它的协方差矩阵为： \[ \sum=Cov(X)=E[(X-\mu)(X-\mu)^T] \\ 其中 \mu = E[X] 是均值向量 \] 展开： \[ \Sigma = \begin{pmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2) & \cdots & \mathrm{Cov}(X_1,X_n) \\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n,X_1) & \mathrm{Cov}(X_n,X_2) & \cdots & \mathrm{Var}(X_n) \end{pmatrix} \] 矩阵中每个点表示两个变量的协方差

用法1：判断两个特征的相关性（线性的跟着增大/减小）

假设我们有若干 n 维特征向量，我们想知道第 i 维和第 j 维的特征是否有相关性，就可以在协方差矩阵中取对应位置的值

协方差 > 0：两个特征正相关
协方差 < 0：两个特征负相关
协方差 = 0：两个特征无相关性

用法2：对于一个特征，可以通过方差判断离散程度

Var(x) 越大，x 特征的数据越分散
Var(x) 越小，x 特征的数据越集中

高斯分布

一维标准高斯分布：均值为0，方差为1 的一系列数据 \[ \mathcal{N}(0,1) \] 多维高斯分布：每个维度都是标准高斯分布的数据 \[ \mathcal{N}(\mathbf{0}, \mathbf{I}) \] 其中：

0：零向量
I：单位协方差矩阵（对角线为1，其余都是0）

多维标准高斯分布的特点：

任意两个维度都不相关，且独立

极大似然估计

Maximum Likelihood Estimation（MLE）：假设数据 \[ x_1, x_2, ...,x_n \] 模型参数 \(\theta\)，似然函数是在参数 \(\theta\) 下，观察到当前数据的概率，表示为： \[ L(\theta)=P(data|\theta) = \prod_{i}P(x_i|\theta) \] 计算方式：由于概率连乘会非常小，通常取对数 \[ logL(\theta)=\sum_i log P(x_i|\theta) \] MLE 的目标是找到让似然函数最大的参数： \[ \hat\theta = \arg\max_{\theta}L(\theta) \rightarrow arg \max_{\theta}logL(\theta) \]

KL 散度

KL Divergence，用来衡量两个概率分布差异

假设 P 为真实数据的分布，Q 为模型预测的分布，KL 散度表示：用 Q 近似 P 时会损失多少信息

定义

离散情况： \[ D_{KL}(P\parallel Q)=\sum_xP(x)\log\frac{P(x)}{Q(x)} \] 连续情况： \[ D_{KL}(P\parallel Q)= \int P(x)log \frac {P(x)}{Q(x)}dx \] 如果预测概率低于真实概率：\(Q(x) \ll P(x)\)，\(D_{KL}\) 会很大，模型把一件频繁发生的事情看得不太可能，这种情况会被惩罚

当 \(Q(x) \gg P(x)\)，\(D_{KL}\) 会很小，模型高估了一件很少发生的事情，这种情况被忽视

含义

KL 散度越大，说明预测分布距离真实分布偏差越大
KL 散度越小，说明预测分布越逼近真实分布

交叉熵

Cross entropy，衡量模型的预测与真实值查多远

信息量

一件事情发生的信息量定义为： \[ I(x) = -logP(x) \]

概率越小 -> 信息量越大
概率越大 -> 信息量越小

取值范围：\([0, \infty)\)

熵（entropy）

一个分布的平均信息量（期望），定义： \[ H(P)=E_{x\sim P}[I(x)] \\ =E_{x\sim P}[-logP(x)] \\ =-\sum_{x}P(x)logP(x) \] 含义：

\(H(P) = 0\)，说明 P 这个分布完全确定，没有随机性，分布中只有一种数值，比如女子学校中学生的性别分布 = {女, 女, ..., 女}，等同于废话，没有任何信息

\(H(P) = logn\)，说明 P 是均匀分布，熵最大，n 为分布中状态数

取值范围：\([0, logn]\)

交叉熵

真实分布 P(x)，模型预测分布 Q(x)，交叉熵定义为： \[ H(P, Q) = -\sum_x P(x)logQ(x) \] 交叉熵与 KL 散度的关系

推导： \[ H(P, Q) = -\sum_x P(x)logQ(x) \\ =\sum_xP(x)log\frac{1}{Q(x)} =\sum_x P(x)log(\frac{1}{P(x)}\frac{P(x)}{Q(x)}) \\ =-\sum_xP(x)logP(x) + \sum_xP(x)log\frac{P(x)}{Q(x)} \\ = H(P) + D_{KL}(P\parallel Q) \] 其中 \(H(P)\) 为真实数据的熵，是一个固定值，所以交叉熵与 KL 散度是正相关的 \[ minH(P,Q) \Leftrightarrow minD_{KL}(P\parallel Q) \] 最小化交叉熵 = 让模型分布逼近真实分布