数据小站
数据科学成长之路

机器学习中线性代数基础

机器学习中的线性代数知识,主要是矩阵微分计算

行列式

行列式基本内容

行列维度相同,nn
D=det(aij)=∑(-1)t(p1p2p..pn)ap1
ap2…*apn tp1为p1的逆序对
D=DT
余子式与代数余子式
克拉默法则 ==> 等同于n阶非齐次线性方程组的求解,当行列式A不等于0时,有唯一解,可用法则计算出

行列式性质

互换行列式两行(列),行列式变号
行列式有两行(列)相同,行列式为0
行列式中的某一行(列)所有元素同乘一个倍数k,等于用数k乘此行列式
行列式任一行的元素与另一行的对应元素的代数余子式乘积之和等于0,同用于列
D=det(aij)=0时,对应的方程只有唯一解,非齐次方程有非零解,齐次方程只有零解

矩阵(Matrix Differential)

名词

方阵 ==> 行列相等n,n阶方阵
向量 ==> 只有一行的矩阵 行向量 列向量
零矩阵
对角阵 ==> diag((λ1,λ2,….λn) 对角有值,其他位置为0
单位阵 ==> 对角线全为1
线性变换 ==> y=Ax A为系数矩阵
投影变换 ==> 对应矩阵
[[1,0],
[0,0]]
旋转变换 ==> 对应系数矩阵
[[cosφ, -sinφ],
[sinφ, cosφ]]
以原点为中心逆时针旋转φ角的旋转变换
x1=cosφx-sinφy
y1=sinφx+cosφy
对称阵 ==> A=AT
反对称阵 ==> A=-AT
伴随矩阵 ==> A* 行列式|A|的各个元素的代数余子式Aij构成的矩阵为A的伴随矩阵
共轭矩阵
逆矩阵 AB=E AB互为逆矩阵
矩阵的迹 ==> 对角线元素之和 tr(A)
奇异/非奇异矩阵 ==> |A|=0,为奇异矩阵,不等于0时,非奇异矩阵
分块对角阵 ==> 主对角线有非零子块,其余子块都为零矩阵,对角线上子块都是方阵
矩阵的初等变换 ==> 初等行列变换
矩阵等价 ==> A~B A经过有限次初等变换变为B,A与B等价
初等矩阵 ==> 单位矩阵E经过一次初等变换得到的矩阵为初等矩阵,三种初等变换对应三个初等矩阵
矩阵的秩
向量组线性组合
向量组等价 ==> 向量组A和B能相互线性表示
线性相关
向量组的秩
向量空间
向量内积
向量长度/范数 ==> ||x|| ||x||**2=[x,x] ||x||=1时为单位向量
正交矩阵 ==> ATA=AAT=E 即A-1=AT 方阵A的所有列正交且||Ai||=1所有列的长度为1
特征方程 ==> |A-λE|=0

同型矩阵 ==> A与B 维度相同 ,对应元素相等,A=B
合同 ==> CTAC=B
相似 ==> P-1AP=B
正交阵 ==> ATA=E
正交变换
对称阵 ==> AT=A
A为N阶对称阵,则必有正交阵P P-1AP=diag(λ1,λ2,….λn) λ1,λ2,….λn为A的特征值

矩阵计算

矩阵线性运算 ==> 加法 数乘
A+B
λA=Aλ
矩阵乘法运算 ==> C=AB A(B+C)=AB+AC EA=AE=A
矩阵乘法不满足交换律,纯量阵λE可以与任何同阶方阵交换
矩阵的幂运算 ==> AkAl=A(k+l) (Ak)l=Ak*l 当AB=BA 时, (AB)k=AkBk
矩阵转置运算 ==> (AT)T=A (A+B)T=AT+BT (λA)T=λAT (AB)T=BTAT
当A=AT 时,A为对称阵
ATA=O ==> A为零矩阵

方阵的行列式

n阶方阵行列式 ==> |A| 或 detA
运算性质 ==> |AT|=|A| |λA|=λn|A| |AB|=|A||B|=|BA|
AA=AA=|A|E

逆矩阵

AE=EA=A E的地位等同于1
逆矩阵 ==> AB=BA=E AB互为逆矩阵
A-1=(1/|A|)A* 当|A|不等于0时,|A-1|=1/|A|
逆矩阵性质 ==> (AT)-1=(A-1)T (λA)-1=(1/λ)A-1 (AB)-1=B-1A-1

矩阵分块

当矩阵A行列较高时,将矩阵分块计算,实现大矩阵运算化成小矩阵运算
分块矩阵的转置,不仅在形式上转置,还需要对每个子块进行转置
分块对角阵 ==> A=[A1,
A2,
..
An]
|A|=|A1||A2|…|An|
A-1=[A1-1,
A2-1,
..
An-1]

矩阵初等变换

三个变换 ==> 交换行次序,以非零常数k乘某行,一个行加另一个行的k倍
行变换是可逆的,变换前后方程组同解
对行的变换只是对方程组的系数和常数进行运算,未知数并未计算
初等行变换 ==> 行对调
以非零常数k乘以某一行所有元素
某一行加上另一行的k倍
对行的变化同适用与列
对方程组求解的变换,只适用与行的初等变换,不影响未知数,不适用与初等列变化
A可逆 ==> A=P1P2….Pn P为有限个初等矩阵, 可逆矩阵的标准形为单位阵
A~B ==> 存在m阶可逆矩阵P及n阶可逆矩阵Q,使得PAQ=B
(A|E) ==> n*2n的矩阵施行初等行变换,把A变换成E时,原来的E变为A-1

矩阵的秩

经过有限次初等变换矩阵的秩不变
AB=O ==> 当A为满秩矩阵时,B为零矩阵
Ax=b ==> R(A)<R(A|b) 无解
R(A)=R(A|b)=n 唯一解
R(A)=R(A|b)<n 无限解

矩阵的迹

tr(A)=∑Aii 对角线元素之和
tr(A+B)=tr(A)+tr(B) tr(kA) = k*trA
方阵A,B,C trABC = trBCA = trCAB
矩阵Amn,Bnm ==> AB为mm矩阵,BA为nn矩阵, trAB=trBA

正交矩阵

如果xT y = 0,则两个向量 x,y ∈ Rn是正交的
对于一个向量x ∈ Rn,如果||x||=1,则是x归一化的
对于一个方阵U,如果所有列都是彼此正交和归一化的,则这个方阵是正交的
ATA=E A-1=AT
A为正交矩阵 A方阵的列向量为单位向量且两两正交 An的列向量组为Rn的规范正交基
An的行向量同为单位向量且两两正交,行向量组为Rn的规范正交基础
A为正交阵,A-1也为正交阵,且|A|=1或-1
向量经过正交变换,长度不变==>
A为正交阵时,y=Ax 为正交变换,经过正交变换,向量长度不变
y=Ax ==> [y,y]=[Ax,Ax]=(Ax)TAx=xTATAx=xTx=[x,x]

向量组

R(A)=R(A|b) <==> Ax=b 有解 <==> 向量b能由向量组A线性表示
Cmn=Aml*Bln ==> C的列向量组能由矩阵A的列向量组线性表示,B为线性系数矩阵
C的行向量能由矩阵B的行向量线性表示,A为系数矩阵
对A施行初等行变换==> 相当于在A的左边乘以相应的m阶初等矩阵 PA
对A施行列初等变换==> 相当于在A的右边乘以想要的n阶初等矩阵 AP
向量组A和B等价 ==> R(A)=R(B)=R(A,B)
线性相关 ==> 两向量线性相关则共线,三向量线性相关则共面

方程组解的结构

齐次方程组==>Ax=0 x1=ξ1, x2=ξ2,….xn=ξn, 则ξ=[ξ1,ξ2,…ξn]T为方程组的解向量
ξ1+ξ2 依然是方程组的解
ξ1,ξ2….ξn线性无关,且方程组任意一个解可以由ξ1,ξ2,..ξn线性组合,则这组解为方程组的基础解系
A为n阶方阵, R(A)=r,基础解系组成的向量组的秩为n-r

向量空间

向量空间 ==> 向量组
向量空间的基 ==> 向量组的最大无关组
向量空间的维数 ==> 最大无关组的秩
基变化

向量性质

内积 ==> [x,y]=[y,x]=xTy [λx,y]=λ[x,y] [x+y,z]=[x,z]+[y,z]
x=0零向量时,[x,x]=0
[x,y]2<=[x,x][y,y]
向量长度/范数 ==> sqrt([x,x])=sqrt(x12+x22+…xn**2) ||λx||=|λ|*||x||
两向量夹角 ==> cosa=[x,y]/sqrt([x,x][y,y])
向量正交 ==> [x,y]=0 零向量与任何向量都正交
两两正交的非零向量组成的向量组为正交向量组
规范正交基 ==> 最大无关组,两两正交且都为单位向量,

特征向量

Ax=λx
特征方程 ==> |A-λE|=0
A的n个特征值λn λ1*λ2…λn=|A| λ1+λ2+…λn=a11+a22+…ann
λ2是A2的特征值,当A可逆时,1/λ 为A-1的特征值,对应的特征向量 与λ A的特征向量相同
λk是Ak的特征值,特征向量不变

基础

标量 向量 矩阵的运算
行列式:行列相同,det(aij)
矩阵:mn,(aij)mn 一行矩阵为向量 向量通常表示列向量,用转置表示行向量
零矩阵
对角阵diag(λ1,λ2,….λn)
单位阵
方阵 只有方阵有对应的行列式,伴随矩阵,逆矩阵
伴随矩阵 A(A)=(A)A=|A|E
奇异/非奇异矩阵 det(A)=0

行列式数乘与矩阵数乘类比
向量点积、矩阵乘法
行列式 det(A) 行列式等于矩阵特征值的乘积

可逆矩阵 AB=BA=E ,det(A)!=0, 称为非奇异矩阵
(A-1)T=AT-1 (λA)-1=1/λ*A-1 (AB)-1=B-1A-1

矩阵的迹:矩阵对角线元素之和

矩阵基本运算

A(B+C)=AB+AC A(BC)=(AB)C (AB)⊤=B⊤A⊤ (AB)-1=B-1A-1
对称阵:A=AT 反对称阵 A=-AT

逆矩阵: A−1A=AA−1=En
逆应用: Ax=b
Ax=bA−1
A−1Ax=A−1b
Inx=A−1b
x=A−1b
方程组的解取决于能否找到一个逆矩阵 A−1
矩阵可逆,首先必须是一个方阵(square),即 m=n ,其次,所有的列向量都是线性无关的
奇异的(singular)阵:一个列向量线性相关的方阵
向量x的范数Lp:长度
||x||p=∑(xp)1/p p=2 L2 被称作 欧几里得范数(Euclidean norm)
向量点积与范数的关系: x⊤y=||x||2||y||2cosθ

初等变换

初等变换秩不变
A~B 经过有限次的初等变换,相互等价关系 PAQ=B R(A)=R(B)

向量空间的基

a1,….an是Rn的一组基:a1…an 线性无关,在Rn的所有向量,都可以由a1…an线性唯一表示

特征值特征向量
相似矩阵

P-1AP=B A与B相似,变换成相似变换

矩阵微分常用公式
58776d13c19c8.png

矩阵微分,分别为标量、向量、矩阵的y对标量、向量、矩阵的x求导
标量y对向量x求导,即为梯度向量
标量y对矩阵X求导,即为梯度矩阵

特殊矩阵

对角矩阵
单位向量(unit vector) 是具有单位范数(unit norm)==> ||X||2=1
正交向量 xTy=0 两个向量都有非零范数,那么表示这两个向量之间的夹角是90 度
Rn中,至多有n个范数非零向量互相正交
正交矩阵(orthonormal matrix) 行向量是标准正交的,列向量是标准正交的方阵:A⊤A=AA⊤=E A−1=A⊤

特征分解

矩阵分解成一组特征向量和特征值。
特征向量:方阵A的特征向量(eigenvector)是与A相乘后相当于对该向量进行缩放的非零向量v
Av=λv
标量λ被称为这个特征向量对应的特征值(eigenvalue)
A=Vdiag(λ)V−1 ==> V={v1,v2…..vn}为A的n个线性无关的特征向量 diag(λ)特征向量对应特征值的三角阵
矩阵分解(decompose) 成特征值和特征向量,过程为矩阵A的对角化
物理意义:特征向量在矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定。
实对称阵:A=AT 分解 一个对称矩阵的特征值都不相同,则其相应的所有特征向量正交。(UUT=UTU=E)
特征分解的应用:PCA(PCA的本质就是协方差矩阵的对角化)

赞(0) 打赏
未经允许不得转载:技术文档分享 » 机器学习中线性代数基础

评论 抢沙发