线性代数基础参考（二）

矩阵运算和属性

1. 单位矩阵和对角矩阵

单位矩阵,$I \in \mathbb{R}^{n \times n} $，它是一个方阵，对角线的元素是1，其余元素都是0：

对于所有$A \in \mathbb{R}^ {m \times n}$，有：

$$AI = A = IA$$

注意，在某种意义上，单位矩阵的表示法是不明确的，因为它没有指定$I$的维数。通常，$I$的维数是从上下文推断出来的，以便使矩阵乘法成为可能。例如，在上面的等式中，$AI = A$中的I是$n\times n$矩阵，而$A = IA$中的$I$是$m\times m$矩阵。

对角矩阵是一种这样的矩阵：对角线之外的元素全为0。对角阵通常表示为：$D= diag(d_1, d_2, . . . , d_n)$，其中：

很明显：单位矩阵$ I = diag(1, 1, . . . , 1)$。

2. 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵：

$A \in \mathbb{R}^ {m \times n}$, 它的转置为$n \times m$的矩阵$A^T \in \mathbb{R}^ {n \times m}$ ，其中的元素为：

$$(A^T)_{ij} = A_{ji}$$

事实上，我们在描述行向量时已经使用了转置，因为列向量的转置自然是行向量。

转置的以下属性很容易验证：

$(A^T )^T = A$
$(AB)^T = B^T A^T$
$(A + B)^T = A^T + B^T$

3. 对称矩阵

如果$A = A^T$，则矩阵$A \in \mathbb{R}^ {n \times n}$是对称矩阵。如果$ A = – A^T$，它是反对称的。很容易证明，对于任何矩阵$A \in \mathbb{R}^ {n \times n}$，矩阵$A + A^ T$是对称的，矩阵$A -A^T$是反对称的。由此得出，任何方矩阵$A \in \mathbb{R}^ {n \times n}$可以表示为对称矩阵和反对称矩阵的和，所以：

$$A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)$$

上面公式的右边的第一个矩阵是对称矩阵，而第二个矩阵是反对称矩阵。事实证明，对称矩阵在实践中用到很多，它们有很多很好的属性，我们很快就会看到它们。
通常将大小为$n$的所有对称矩阵的集合表示为$\mathbb{S}^n$，因此$A \in \mathbb{S}^n$意味着$A$是对称的$n\times n$矩阵;

4. 矩阵的迹

方矩阵$A \in \mathbb{R}^ {n \times n}$的迹，表示为$\operatorname{tr} (A)$（或者只是$\operatorname{tr} A$，如果括号显然是隐含的），是矩阵中对角元素的总和：

$$\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}$$

迹具有以下属性（如下所示）：

对于矩阵$A \in \mathbb{R}^ {n \times n}$，则：$\operatorname{tr}A
=\operatorname{tr}A^T$
对于矩阵$A,B \in \mathbb{R}^ {n \times n}$，则：$\operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B$
对于矩阵$A \in \mathbb{R}^ {n \times n}$，$ t \in \mathbb{R}$，则：$\operatorname{tr}(tA) = t\operatorname{tr}A$.
对于矩阵 $A$, $B$，$AB$ 为方阵, 则：$\operatorname{tr}AB = \operatorname{tr}BA$
对于矩阵 $A$, $B$, $C$, $ABC$为方阵, 则：$\operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB$, 同理，更多矩阵的积也是有这个性质。

作为如何证明这些属性的示例，我们将考虑上面给出的第四个属性。假设$A \in \mathbb{R}^ {m \times n}$和$B \in \mathbb{R}^ {n \times m}$（因此$AB \in \mathbb{R}^ {m \times m}$是方阵）。观察到$BA \in \mathbb{R}^ {n \times n}$也是一个方阵，因此对它们进行迹的运算是有意义的。要证明$\operatorname{tr}AB = \operatorname{tr}BA$，请注意：

这里，第一个和最后两个等式使用迹运算符和矩阵乘法的定义，重点在第四个等式，使用标量乘法的可交换性来反转每个乘积中的项的顺序，以及标量加法的可交换性和相关性，以便重新排列求和的顺序。

5. 范数

向量的范数$|x|$是非正式度量的向量的“长度” 。例如，我们有常用的欧几里德或$\ell_{2}$范数，

$$|x|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}$$

注意：$|x|_{2}^{2}=x^{T} x$

更正式地，范数是满足4个属性的函数（$f : \mathbb{R}^{n} \rightarrow \mathbb{R}$）：

对于所有的 $x \in \mathbb{R}^ {n}$, $f(x) \geq 0 $(非负).
当且仅当$x = 0$ 时，$f(x) = 0$ (明确性).
对于所有$x \in \mathbb{R}^ {n}$,$t\in \mathbb{R}$，则 $f(tx) = \left| t \right|f(x)$ (正齐次性).
对于所有 $x,y \in \mathbb{R}^ {n}$, $f(x + y) \leq f(x) + f(y)$ (三角不等式)

其他范数的例子是$\ell_1$范数:

$$|x|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|$$

和$\ell_{\infty }$范数：

$$|x|_{\infty}=\max {i}\left|x_{i}\right|$$

事实上，到目前为止所提出的所有三个范数都是$\ell_p$范数族的例子，它们由实数$p \geq 1$参数化，并定义为：

$$|x|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}$$

也可以为矩阵定义范数，例如Frobenius范数:

$$|A|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}$$

许多其他更多的范数，但它们超出了这个复习材料的范围。

6. 线性相关性和秩

一组向量${x_1,x_2, \cdots x_n} \in \mathbb{R}$，如果没有向量可以表示为其余向量的线性组合，则称称该向量是线性无相关的。相反，如果属于该组的一个向量可以表示为其余向量的线性组合，则称该向量是线性相关的。也就是说，如果：

$$x_{n}=\sum_{i=1}^{n-1} \alpha_{i} x_{i}$$

对于某些标量值$\alpha_1,\cdots \alpha_n-1 \in \mathbb{R}$，要么向量$x_1,x_2, \cdots x_n$是线性相关的; 否则，向量是线性无关的。例如，向量：

是线性相关的，因为：$x_3=-2x_1+x_2$。

矩阵$A \in \mathbb{R}^{m \times n}$的列秩是构成线性无关集合的$A$的最大列子集的大小。由于术语的多样性，这通常简称为$A$的线性无关列的数量。同样，行秩是构成线性无关集合的$A$的最大行数。对于任何矩阵$A \in \mathbb{R}^{m \times n}$，事实证明$A$的列秩等于$A$的行秩（尽管我们不会证明这一点），因此两个量统称为$A$的秩，用 $\text{rank}(A)$表示。以下是秩的一些基本属性：

对于 $A \in \mathbb{R}^{m \times n}$，$\text{rank}(A) \leq min(m, n)$，如果$ \text(A) = \text{min} (m, n)$，则： $A$ 被称作满秩。
对于 $A \in \mathbb{R}^{m \times n}$， $\text{rank}(A) = \text{rank}(A^T)$
对于 $A \in \mathbb{R}^{m \times n}$,$B \in \mathbb{R}^{n \times p}$ ,$\text{rank}(AB) \leq \text{min} ( \text{rank}(A), \text{rank}(B))$
对于 $A,B \in \mathbb{R}^{m \times n}$，$\text{rank}(A + B) \leq \text{rank}(A) + \text{rank}(B)$

7. 方阵的逆

方阵$A \in \mathbb{R}^{n \times n}$的倒数表示为$A^{-1}$，并且是这样的独特矩阵:

$$A^{-1}A=I=AA^{-1}$$

请注意，并非所有矩阵都具有逆。例如，非方形矩阵根据定义没有逆。然而，对于一些方形矩阵$A$，可能仍然存在$A^{-1}$可能不存在的情况。特别是，如果$A^{-1}$存在，我们说$A$是可逆的或非奇异的，否则就是不可逆或奇异的。
为了使方阵A具有逆$A^{-1}$，则$A$必须是满秩。我们很快就会发现，除了满秩之外，还有许多其它的充分必要条件。
以下是逆的属性; 假设$A,B \in \mathbb{R}^{n \times n}$，而且是非奇异的：

$(A^{-1})^{-1} = A$
$(AB)^{-1} = B^{-1}A^{-1}$
$(A^{-1})^{T} =(A^{T})^{-1}$因此，该矩阵通常表示为$A^{-T}$。
作为如何使用逆的示例，考虑线性方程组，$Ax = b$，其中$A \in \mathbb{R}^{n \times n}$，$x,b\in \mathbb{R}$，如果$A$是非奇异的（即可逆的），那么$x = A^{-1}b$。（如果$A \in \mathbb{R}^{m \times n}$不是方阵，这公式还有用吗？）

8. 正交阵

如果 $x^Ty=0$，则两个向量$x,y\in \mathbb{R}^{n}$ 是正交的。如果$|x|_2=1$，则向量$x\in \mathbb{R}^{n}$ 被归一化。如果一个方阵$U\in \mathbb{R}^{n \times n}$的所有列彼此正交并被归一化（这些列然后被称为正交），则方阵$U$是正交阵（注意在讨论向量时的意义不一样）。

它可以从正交性和正态性的定义中得出:

$$U^ TU = I = U U^T$$

换句话说，正交矩阵的逆是其转置。注意，如果$U$不是方阵 :即，$U\in \mathbb{R}^{m \times n}$，$n <m$ ，但其列仍然是正交的，则$U^TU = I$，但是$UU^T \neq I$。我们通常只使用术语”正交”来描述先前的情况，其中$U$是方阵。
正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数，即:

$$|U x|_{2}=|x|_{2}$$

对于任何 $x\in \mathbb{R}$ , $U\in \mathbb{R}^{n}$是正交的。

9. 二次型和半正定矩阵

给定方矩阵$A \in \mathbb{R}^{n \times n}$和向量$x \in \mathbb{R}^{n}$，标量值$x^T Ax$被称为二次型。写得清楚些，我们可以看到：

$$x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}$$

注意：

$$x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x$$

第一个等号的是因为是标量的转置与自身相等，而第二个等号是因为是我们平均两个本身相等的量。由此，我们可以得出结论，只有$A$的对称部分有助于形成二次型。出于这个原因，我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义：

对于所有非零向量$x \in \mathbb{R}^n$，$x^TAx>0$，对称阵$A \in \mathbb{S}^n$为正定（positive definite,PD）。这通常表示为$A\succ0$（或$A>0$），并且通常将所有正定矩阵的集合表示为$\mathbb{S}_{++}^n$。
对于所有向量$x^TAx\geq 0$，对称矩阵$A \in \mathbb{S}^n$是半正定(positive semidefinite ,PSD)。这写为（或$A \succeq 0$仅$A≥0$），并且所有半正定矩阵的集合通常表示为$\mathbb{S}_+^n$。
同样，对称矩阵$A \in \mathbb{S}^n$是负定（negative definite,ND），如果对于所有非零$x \in \mathbb{R}^n$，则$x^TAx <0$表示为$A\prec0$（或$A <0$）。
类似地，对称矩阵$A \in \mathbb{S}^n$是半负定(negative semidefinite,NSD），如果对于所有$x \in \mathbb{R}^n$，则$x^TAx \leq 0$表示为$A\preceq 0$（或$A≤0$）。
最后，对称矩阵$A \in \mathbb{S}^n$是不定的，如果它既不是正半定也不是负半定，即，如果存在$x_1,x_2 \in \mathbb{R}^n$，那么$x_1^TAx_1>0$且$x_2^TAx_2<0$。

很明显，如果$A$是正定的，那么$−A$是负定的，反之亦然。同样，如果$A$是半正定的，那么$−A$是是半负定的，反之亦然。如果果$A$是不定的，那么$−A$是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩，因此是可逆的。为了了解这是为什么，假设某个矩阵$A \in \mathbb{S}^n$不是满秩。然后，假设$A$的第$j$列可以表示为其他$n-1$列的线性组合：

$$a_{j}=\sum_{i \neq j} x_{i} a_{i}$$

对于某些$x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}$。设$x_j = -1$，则：

$$Ax=\sum_{i \neq j} x_{i} a_{i}=0$$

但这意味着对于某些非零向量$x$，$x^T Ax = 0$，因此$A$必须既不是正定也不是负定。如果$A$是正定或负定，则必须是满秩。
最后，有一种类型的正定矩阵经常出现，因此值得特别提及。给定矩阵$A \in \mathbb{R}^{m \times n}$（不一定是对称或偶数平方），矩阵$G = A^T A$（有时称为Gram矩阵）总是半正定的。此外，如果$m\geq n$（同时为了方便起见，我们假设$A$是满秩），则$G = A^T A$是正定的。

10. 特征值和特征向量

给定一个方阵$A \in\mathbb{R}^{n\times n}$，我们认为在以下条件下，$\lambda \in\mathbb{C}$是$A$的特征值，$x\in\mathbb{C}^n$是相应的特征向量：

$$Ax=\lambda x,x \ne 0$$

直观地说，这个定义意味着将$A$乘以向量$x$会得到一个新的向量，该向量指向与$x$相同的方向，但按系数$\lambda$缩放。值得注意的是，对于任何特征向量$x\in\mathbb{C}^n$和标量$t\in\mathbb{C}$，$A(cx)=cAx=c\lambda x=\lambda(cx)$，$cx$也是一个特征向量。因此，当我们讨论与$\lambda$相关的特征向量时，我们通常假设特征向量被标准化为长度为1（这仍然会造成一些歧义，因为$x$和$−x$都是特征向量，但我们必须接受这一点）。

我们可以重写上面的等式来说明$(\lambda,x)$是$A$的特征值和特征向量的组合：

$$(\lambda I-A)x=0,x \ne 0$$

但是$(\lambda I-A)x=0$只有当$(\lambda I-A)$有一个非空零空间时，同时$(\lambda I-A)$是奇异的，$x$才具有非零解，即：

$$|(\lambda I-A)|=0$$

现在，我们可以使用行列式的先前定义将表达式$|(\lambda I-A)|$扩展为$\lambda$中的（非常大的）多项式，其中，$\lambda$的度为$n$。它通常被称为矩阵$A$的特征多项式。

然后我们找到这个特征多项式的$n$（可能是复数）根，并用$\lambda_1,\cdots,\lambda_n$表示。这些都是矩阵$A$的特征值，但我们注意到它们可能不明显。为了找到特征值$\lambda_i$对应的特征向量，我们只需解线性方程$(\lambda I-A)x=0$，因为$(\lambda I-A)$是奇异的，所以保证有一个非零解（但也可能有多个或无穷多个解）。

应该注意的是，这不是实际用于数值计算特征值和特征向量的方法（记住行列式的完全展开式有$n!$项），这是一个数学上的争议。

以下是特征值和特征向量的属性（所有假设在$A \in\mathbb{R}^{n\times n}$具有特征值$\lambda_1,\cdots,\lambda_n$的前提下）：

$A$的迹等于其特征值之和 $$
\operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i} $$
$A$的行列式等于其特征值的乘积 $$
|A|=\prod_{i=1}^{n} \lambda_{i} $$
$A$的秩等于$A$的非零特征值的个数
假设$A$非奇异，其特征值为$\lambda$和特征向量为$x$。那么$1/\lambda$是具有相关特征向量$x$的$A^{-1}$的特征值，即$A^{-1}x=(1/\lambda)x$。（要证明这一点，取特征向量方程，$Ax=\lambda x$，两边都左乘$A^{-1}$）
对角阵的特征值$d=diag(d_1，\cdots,d_n)$实际上就是对角元素$d_1，\cdots,d_n$

11. 对称矩阵的特征值和特征向量

通常情况下，一般的方阵的特征值和特征向量的结构可以很细微地表示出来。
值得庆幸的是，在机器学习的大多数场景下，处理对称实矩阵就足够了，其处理的对称实矩阵的特征值和特征向量具有显着的特性。

在本节中，我们假设$A$是实对称矩阵, 具有以下属性：

$A$的所有特征值都是实数。我们用用$\lambda_1,\cdots,\lambda_n$表示。
存在一组特征向量$u_1，\cdots u_n$，对于所有$i$，$u_i$是具有特征值$\lambda_{i}$和$b$的特征向量。$u_1，\cdots u_n$是单位向量并且彼此正交。

设$U$是包含$u_i$作为列的正交矩阵：

设$\Lambda= diag(\lambda_1,\cdots,\lambda_n)$是包含$\lambda_1,\cdots,\lambda_n$作为对角线上的元素的对角矩阵。使用2.3节的方程（2）中的矩阵 – 矩阵向量乘法的方法，我们可以验证：

考虑到正交矩阵$U$满足$UU^T=I$，利用上面的方程，我们得到：

$$A=AUU^T=U\Lambda U^T$$

这种$A$的新的表示形式为$U\Lambda U^T$，通常称为矩阵$A$的对角化。术语对角化是这样来的：通过这种表示，我们通常可以有效地将对称矩阵$A$视为对角矩阵 , 这更容易理解。关于由特征向量$U$定义的基础，我们将通过几个例子详细说明。

背景知识：代表另一个基的向量。

任何正交矩阵$U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \ {u_{1}} & {u_{2}} & {\cdots} & {u_{n}} \ { |} & { |} & {} & { |}\end{array}\right]$定义了一个新的属于$\mathbb {R}^{n}$的基（坐标系），意义如下：对于任何向量$x \in\mathbb{R}^{n}$都可以表示为$u_1，\cdots u_n$的线性组合，其系数为$x_1,\cdots x_n$：

$$x=\hat x_1u_1+\cdots +\cdots \hat x_nu_n=U\hat x$$

在第二个等式中，我们使用矩阵和向量相乘的方法。实际上，这种$\hat x$是唯一存在的:

$$x=U \hat{x} \Leftrightarrow U^{T} x=\hat{x}$$

换句话说，向量$\hat x=U^Tx$可以作为向量$x$的另一种表示，与$U$定义的基有关。

“对角化”矩阵向量乘法。通过上面的设置，我们将看到左乘矩阵$A$可以被视为左乘以对角矩阵关于特征向量的基。假设$x$是一个向量，$\hat x$表示$U$的基。设$z=Ax$为矩阵向量积。现在让我们计算关于$U$的基$z$：
然后，再利用$UU^T=U^T=I$和方程$A=AUU^T=U\Lambda U^T$，我们得到：

我们可以看到，原始空间中的左乘矩阵$A$等于左乘对角矩阵$\Lambda$相对于新的基，即仅将每个坐标缩放相应的特征值。
在新的基上，矩阵多次相乘也变得简单多了。例如，假设$q=AAAx$。根据$A$的元素导出$q$的分析形式，使用原始的基可能是一场噩梦，但使用新的基就容易多了：

“对角化”二次型。作为直接的推论，二次型$x^TAx$也可以在新的基上简化。

$$x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}$$

(回想一下，在旧的表示法中，$x^{T} A x=\sum_{i=1, j=1}^{n} x_{i} x_{j} A_{i j}$涉及一个$n^2$项的和，而不是上面等式中的$n$项。)利用这个观点，我们还可以证明矩阵$A$的正定性完全取决于其特征值的符号：

如果所有的$\lambda_i>0$，则矩阵$A$正定的，因为对于任意的$\hat x \ne 0$,$x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$
如果所有的$\lambda_i\geq 0$，则矩阵$A$是为正半定，因为对于任意的$\hat x $,$x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \geq 0$
同样，如果所有$\lambda_i<0$或$\lambda_i\leq 0$，则矩阵$A$分别为负定或半负定。
最后，如果$A$同时具有正特征值和负特征值，比如λ$\lambda_i>0$和$\lambda_j<0$，那么它是不定的。这是因为如果我们让$\hat x$满足$\hat x_i=1$和$\hat x_k=0$，同时所有的$k\ne i$，那么$x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$ ,我们让$\hat x$满足$\hat x_i=1$和$\hat x_k=0$，同时所有的$k\ne i$，那么$x^{T} A x=\sum{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}<0$

特征值和特征向量经常出现的应用是最大化矩阵的某些函数。特别是对于矩阵$A \in \mathbb{S}^{n}$，考虑以下最大化问题：

也就是说，我们要找到（范数1）的向量，它使二次型最大化。假设特征值的阶数为$\lambda_1 \geq \lambda_2 \geq \cdots \lambda_n$，此优化问题的最优值为$\lambda_1$，且与$\lambda_1$对应的任何特征向量$u_1$都是最大值之一。（如果$\lambda_1 > \lambda_2$，那么有一个与特征值$\lambda_1$对应的唯一特征向量，它是上面那个优化问题的唯一最大值。）我们可以通过使用对角化技术来证明这一点：注意，通过公式$|U x|{2}=|x|_{2}$推出$|x|_{2}=|\hat{x}|_{2}$，并利用公式：

$x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}$，我们可以将上面那个优化问题改写为：

$$\max {\hat{x} \in \mathbb{R}^{n}}\ \hat{x}^{T} \Lambda \hat{x}=\sum{i=1}^{n} \lambda_{i} \hat{x}{i}^{2} \quad \text { subject to }|\hat{x}|{2}^{2}=1$$

然后，我们得到目标的上界为$\lambda_1$：

$$\hat{x}^{T} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \leq \sum{i=1}^{n} \lambda_{1} \hat{x}_{i}^{2}=\lambda_{1}$$

此外，设置$\hat{x}= \begin{bmatrix}1\\0\\ \vdots \\0\end{bmatrix}$可让上述等式成立，这与设置$x=u_1$相对应。