矩阵的迹

矩阵的迹和矩阵范数

匿名 (未验证) 提交于 2019-12-03 00:22:01
定义: 在线性代数中,一个n×n矩阵 A 的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩 阵 的 迹 (或 迹 数 ),一般记作 tr( A ) 。 迹是所有对角元的和 迹是所有特征值的和 某些时候也利用tr(AB)=tr(BA)来求迹 trace(mA+nB)=m trace(A)+n trace(B) Matrix norm(矩阵范数): 定义: 和B及所有实数a 文章来源: 矩阵的迹和矩阵范数

【转载】【收藏】机器学习与深度学习核心知识点总结

耗尽温柔 提交于 2019-12-02 19:02:56
原文地址: https://cloud.tencent.com/developer/article/1526902 数学 1.列举常用的最优化方法 梯度下降法 牛顿法 拟牛顿法 坐标下降法 梯度下降法的改进型如AdaDelta,AdaGrad,Adam,NAG等。 2.梯度下降法的关键点 梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式为: 根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的x k +1位于迭代之前的值x k 的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。 梯度下降法只能保证找到梯度为0的点,不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。 梯度下降法在机器学习中应用广泛,尤其是在深度学习中。AdaDelta,AdaGrad,Adam,NAG等改进的梯度下降法都是用梯度构造更新项,区别在于更新项的构造方式不同。对梯度下降法更全面的介绍可以阅读SIGAI之前的文章“ 理解梯度下降法 ”。 3.牛顿法的关键点 牛顿法利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为: 其中H为Hessian矩阵,g为梯度向量

[转] 矩阵分解介绍

我们两清 提交于 2019-12-02 18:03:13
from: https://www.cnblogs.com/marsggbo/p/10152644.html#autoid-4-0-0 https://www.cnblogs.com/marsggbo/p/10156077.html 1 | 0 I. 行列式(Determinants)和迹(Trace) 1 | 1 1. 行列式(Determinants) 为避免和绝对值符号混淆,本文一般使用 𝑑 𝑒 𝑡 ( 𝐴 ) det(A)来表示矩阵 𝐴 A的行列式。另外这里的 𝐴 ∈ 𝑅 𝑛 × 𝑛 A∈Rn×n默认是方阵,因为只有方阵才能计算行列式。 行列式如何计算的就不在这里赘述了,下面简要给出行列式的各种性质和定理。 定理1 :当且仅当一个方阵的行列式不为0,则该方阵可逆。 定理2 :方阵 𝐴 A的行列式可沿着某一行或某一列的元素展开,形式如下: 沿着第 𝑖 i行展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑖 𝑘 𝑑 𝑒 𝑡 ( 𝐴 𝑖 , 𝑘 ) det(A)=∑k=1n(−1)k+iaikdet(Ai,k) 沿着第 𝑖 i列展开: 𝑑 𝑒 𝑡 ( 𝐴 ) = ∑ 𝑘 = 1 𝑛 ( − 1 ) 𝑘 + 𝑖 𝑎 𝑘 𝑖 𝑑 𝑒 𝑡 ( 𝐴 𝑘 , 𝑖 ) det(A)=∑k=1n(−1)k+iakidet(Ak,i) 定理3

Python 矩阵(线性代数)

╄→尐↘猪︶ㄣ 提交于 2019-12-02 04:56:44
Python 矩阵(线性代数) 这里有一份新手友好的 线性代数笔记 ,是和深度学习 花书 配套,还被Ian Goodfellow老师翻了牌。 笔记来自巴黎高等师范学院的博士生Hadrien Jean,是针对“花书”的 线性代数 一章,初来乍到的小伙伴可以在笔记的辅佐之下,了解深度学习最常用的数学理论,加以轻松的支配。 把 理论 和 代码 搭配食用,疗效更好。笔记里列举的各种 例子 ,可以帮初学者用一种更直观实用的方式学好线代。开始前,你需要准备好 Numpy 和 Python 。 然后来看一下,要走怎样一个疗程—— 1 标量、向量、矩阵和张量 △ 标量,向量,矩阵,张量 (左起) 这一课讲了向量和矩阵,以及它们的一些基础运算。另外,这里介绍了 Numpy 的一些相关 函数 ,也浅浅地谈到了 Broadcasting 机制。 2 矩阵和向量的乘法 △ 矩阵与向量的点乘 本小节主要讨论的是, 向量和矩阵的点积 ,我们可以从中了解矩阵的一些属性。之后,便是用矩阵符号来创建一个 线性方程组 ——这也是日后的学习里,经常要做的事情。 3 单位矩阵和逆矩阵 △ 单位矩阵长这样 我们要了解这两种矩阵 为什么重要 ,然后知道怎样在Numpy里和它们玩耍。另外,本小节包含用 逆矩阵求解线性方程组 的一个例题。 4 线性依赖与线性生成空间 线性方程组,除非 无解 ,不然要么有 唯一解 ,要么有

PCA算法

丶灬走出姿态 提交于 2019-11-28 04:04:48
作者:桂。 时间:2017-02-26 19:54:26 链接: http://www.cnblogs.com/xingshansi/articles/6445625.html 前言 本文为模式识别系列第一篇,主要介绍主成分分析算法(Principal Component Analysis,PCA)的理论,并附上相关代码。全文主要分六个部分展开:   1)简单示例。通过简单的例子,引出PCA算法;   2)理论推导。主要介绍PCA算法的理论推导以及对应的数学含义;   3)算法步骤。主要介绍PCA算法的算法流程;   4)应用实例。针对PCA的实际应用,列出两个应用实例;   5)常见问题补充。对于数据预处理过程中常遇到的问题进行补充;   6)扩展阅读。简要介绍PCA的不足,并给出K-L变换、Kernel-PCA(KPCA)的相关链接。 本文为个人总结,内容多有不当之处,麻烦各位批评指正。 一、简单示例    A-示例1:降维 先来看一组学生的成绩 学生1 学生2 学生3 学生4 ... 学生N 语文成绩 85 85 85 85 ... 85 数学成绩 96 93 78 64 ... 97 为了方便分析,我们假设N=5; 学生1 学生2 学生3 学生4 学生5 语文成绩 85 85 85 85 85 数学成绩 96 93 78 64 97 问题:

对角化

岁酱吖の 提交于 2019-11-28 00:24:43
对角化是指存在一个正交矩阵Q,使得 Q T MQ 能成为一个对角阵(只有对角元素非0)。 其中Q T 是Q的转置(同时也是Q的逆,因为正交矩阵的转置就是其逆)。 一个矩阵对角化后得到新矩阵的行列式和矩阵的迹(对角元素之和)均与原矩阵相同。如果M是n阶实对称矩阵,则Q中的第 j 列就是第 j 个特征值对应的一个特征向量(不同列的特征向量两两正交)。 来源: https://www.cnblogs.com/pacino12134/p/11382527.html

线性代数Part2

情到浓时终转凉″ 提交于 2019-11-27 15:48:00
14 正交向量与正交子空间 正交向量 正交就是垂直的另一种说法。两向量正交的判据之一就是其点积 当两个向量的夹角为90度的时候,按照勾股定理x,y满足: 正交子空间 子空间S与子空间T正交,则S中任意一个向量都与T中任意一个向量正交。 15 子空间投影 投影 几何解释:在向量a上寻找与向量b距离最近的一点。从图中可以看出距离点p最近就是穿过b点并与向量a正交的直线与向量a所在直线的交点上。这就是b在a上的投影。如果我们将向量p视为b的一种近似,则长度e=b-p就是这一近似的误差。 因为p在向量a的方向上,因此可以令p=xa,而因为它与e正交,我们可以得到方程: 解得: 投影矩阵 将投影问题用投影矩阵方式进行描述,即p=Pb,其中P为投影矩阵。 则有: 在高维投影 如果a1和a2构成平面的一组基,则平面就是矩阵A=[a1a2]的列空间 已知向量p在平面内,则有 而: 与平面正交,因此e与a1和a2均正交,因此 16 投影矩阵和最小二乘法 投影 如果向量b本身就在A列空间之内,即存在x使得Ax=b,则有: 如果向量b与A的列空间正交,即向量b在矩阵的左零空间N(A)中: 最小二乘法 最优解的含义即为误差最小,这里误差就是每个方程误差值的平方和 误差即为数据点到直线距离的平方和。 对于空间向量b,投影矩阵A的列向量中得到p=[p1 p2 p3]T,投影到矩阵A的零空间中则为e。 17