误差分析

深度学习概述:从感知机到深度网络

吃可爱长大的小学妹 提交于 2020-02-24 21:08:53
  (注:本文译自一篇博客,作者行文较随意,我尽量按原意翻译,但作者所介绍的知识还是非常好的,包括例子的选择、理论的介绍都很到位,由浅入深, 源文地址 )   近些年来,人工智能领域又活跃起来,除了传统了学术圈外,Google、Microsoft、facebook等工业界优秀企业也纷纷成立相关研究团队,并取得了很多令人瞩目的成果。这要归功于社交网络用户产生的大量数据,这些数据大都是原始数据,需要被进一步分析处理;还要归功于廉价而又强大的计算资源的出现,比如GPGPU的快速发展。   除去这些因素,AI尤其是机器学习领域出现的一股新潮流很大程度上推动了这次复兴——深度学习。本文中我将介绍深度学习背后的关键概念及算法,从最简单的元素开始并以此为基础进行下一步构建。   (本文作者也是Java deep learning library的作者,可以从 此处 获得,本文中的例子就是使用这个库实现的。如果你喜欢,可以在Github上给个星~。用法介绍也可以从 此处 获得) 机器学习基础   如果你不太熟悉相关知识,通常的机器学习过程如下:     1、机器学习算法需要输入少量标记好的样本,比如10张小狗的照片,其中1张标记为1(意为狗)其它的标记为0(意为不是狗)——本文主要使用监督式、二叉分类。     2、这些算法“学习”怎么样正确将狗的图片分类,然后再输入一个新的图片时

李航《统计学习方法》学习笔记——ch1统计学习概论

喜欢而已 提交于 2020-02-24 20:34:11
1. 统计学习概论 1.1. 概念 定义 统计学习假设数据存在一定统计规律,计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析一门学科。 主要内容 监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin)等。 三要素 模型(model) : 模型的假设空间 策略(strategy) : 模型选择的准则,即确定使用什么样的损失函数 算法(algorithm) : 模型学习的算法,即在最小化损失函数时求解模型参数的算法,如随机梯度下降算法。 术语 输入空间(input space) : 输入所有可能取值的集合 输出空间(output space) : 输出所有可能取值的集合 特征向量(feature vector) : 每一个具体输入的实例(instance),通常由特征向量表示 特征空间(feature space) :所有特征向量存在的空间,特征空间的每一维对应一个特征。 样本(sample) :输入与输出对,又称样本点。 假设空间(hypothesis space) :输入空间到输出空间的映射的集合,模型假设空间的确定意味着学习范围的确定。 注:(1)有时假设输入空间与特征空间为相同的空间;(2

欠拟合、过拟合、偏差、方差

回眸只為那壹抹淺笑 提交于 2020-02-24 06:24:18
原文地址: https://www.cnblogs.com/huangyc/p/9686107.html 0. 目录 1. 基本概念 2. 欠拟合和过拟合 2.1 学习曲线 2.2 复杂程曲线 3. 如何解决欠拟合和过拟合 3.1 解决欠拟合 3.2 解决过拟合 回到顶部 1. 基本概念 偏差:偏差度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力 。 方差:方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响 。 欠拟合:模型的经验误差大,模型太简单,在训练的过程中基本没学到有价值的内容,说明模型欠拟合。 过拟合:模型学习了太多的训练样本的“个性”(经验误差小),但是对于未知的样本泛化能力差(泛化误差大),说明过拟合。 经验误差:模型关于 训练样本集 的平均误差(也称经验风险)。 结构风险:结构风险在 经验风险 的基础上加上表示模型复杂度的 正则化项 。 泛化误差:模型在新样本集(测试集)上的平均误差。 泛化误差=偏差+方差+噪声 噪声:描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即 刻画了学习问题本身的难度 。 偏差和方差 如果模型是低偏差和低方差,那肯定是最好的一个选择。但是偏差和方差在一定程度上是矛盾的。如果偏差降低,那方差可能会相应的升高,如果方差降低,那偏差可能相应升高

机器学习基础知识和常用名词解释

◇◆丶佛笑我妖孽 提交于 2020-02-18 01:53:52
机器学习入门的基础知识,包括常见名词的解释(线性回归、容量、过拟合欠拟合、正则化、超参数和验证集、估计、偏差和方差、最大似然估计、KL散度、随机梯度下降) 欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所见所闻,希望大家喜欢,感谢支持! 1、数值计算基础 计算机求解问题的步骤 : 1、根据实际问题建立数学模型;(应用数学) 2、由数学模型给出数值计算方法;(计算数学) 3、根据计算方法编制算法程序在计算机上算出结果。 数值问题 :是输入和输出数据之间的函数关系的一个确定而无歧义的描述。可以理解为:输入和输出均为数据的数学问题。 上溢 :当大量级的数被近似为无穷大时发生上溢。 下溢 :当接近零的数被四舍五入为零时发生下溢。 优化 :改变x以最小化或最大化某个函数f(x)的任务。 目标函数 :需要最小化或最大化的函数。可描述为: 1 N ⋅ ∑ i = 1 N ∣ y i − f ( x i ) ∣ + 正 则 化 项 \frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|+正则化项 N 1 ​ ⋅ i = 1 ∑ N ​ ∣ y i ​ − f ( x i ​ ) ∣ + 正 则 化 项 成本(cost)或损失(loss) :为了训练模型,我们需要定义一个指标来评估这个模型

DL notes 02: ML/DL模型训练的Tips

ε祈祈猫儿з 提交于 2020-02-16 21:55:11
文章目录 一、基本概念 二、应对欠拟合和过拟合的解决方法 2.1 欠拟合的解决办法 2.2 过拟合的解决办法 2.2.1 权重衰减 / L 2 L_{2} L 2 ​ 范数正则化 2.2.2 dropout 三、梯度消失和梯度爆炸 四、随机初始化模型参数 PyTorch的默认随机初始化 Xavier随机初始化(这里需要检查) 五、考虑环境因素 协变量偏移 标签偏移 概念偏移 Q&A 一、基本概念 训练误差(training error) :指模型在训练数据集(train dataset)上表现出的误差。 泛化误差(generalization error) :指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集(test dataset)上的误差来近似。 损失函数(loss function) :计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归(linear regression)用到的平方损失(squared loss)函数和softmax回归用到的交叉熵(cross entropy)损失函数。 训练数据集(train dataset) :【模型】(Model)训练的过程其实就是在求【参数】的过程,我们先假定某类【模型】(比如决策树模型),然后用【训练集】来训练,学习到对应的最优的【参数】。但是问题在于,我们没有办法保证我们假设的那个【模型

LinearRegression

孤街醉人 提交于 2020-02-15 16:10:07
线性回归 主要内容包括: 线性回归的基本要素 线性回归模型从零开始的实现 线性回归模型使用pytorch的简洁实现 线性回归的基本要素 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: p r i c e = w a r e a ⋅ a r e a + w a g e ⋅ a g e + b price=w_{area}⋅area+w_{age}⋅age+b p r i c e = w a r e a ​ ⋅ a r e a + w a g e ​ ⋅ a g e + b 数据集 我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。 损失函数 1、 M A E / L 1 + M S E / L 2 MAE / L1 + MSE / L2 M A E / L 1 + M S E / L

GPS时间序列分析(二)matlab语言分析

て烟熏妆下的殇ゞ 提交于 2020-02-12 12:25:03
GPS时间序列分析(二) matlab语言分析 1.简单的GPS时间序列 load E:\RMTE.txt yuanshi_dataWeidu = RMTE ( :,4 ) ';%将原始坐标赋值 yuanshi_dataJingdu=RMTE(:,3)' ; yuanshi_dataGaochen = RMTE ( :,5 ) ' ; yuanshi_data = [ yuanshi_dataWeidu ; yuanshi_dataJingdu ; yuanshi_dataGaochen ] ; [ col,raw ] = size ( yuanshi_data ) ; llh_Z_xyz = llh2xyz ( yuanshi_data ) ; %经纬度高程转换成xyz平面坐标,输出格式为:3行n列 %第一次转换后的xyz坐标减去第一次观测的xyz坐标,组成xyz变化量矩阵 llh_Z_xyz_X = llh_Z_xyz ( 1,: ) -mean ( llh_Z_xyz ( 1,: )) ; llh_Z_xyz_Y = llh_Z_xyz ( 2,: ) -mean ( llh_Z_xyz ( 2,: )) ; llh_Z_xyz_Z = llh_Z_xyz ( 3,: ) -mean ( llh_Z_xyz ( 3,: )) ; llh_Z_xyz_XYZ = [ llh_Z

软计算研究综述

送分小仙女□ 提交于 2020-02-09 23:43:03
论文:Survey on soft computing 作者:Yun Liang1 • Tian-ping He 在线发布时间: 13 November 2019,本篇为阅读笔记! 目录 摘要 1 介绍 2 软计算发展史 2.1 胚胎时期(1900s~1960s) 2.2 软计算初始发展阶段(1960s-1990s) 2.3 软计算概念的引入(1992) 2.4 软计算繁荣发展时期(1992至今) 3 软计算应用 3.1 软计算在工程领域的应用 3.1.1 误差诊断 3.1.2 结构参数识别 3.1.3 油气资源勘探 3.1.4 焊接 3.1.5 人工智能 3.1.6 大数据 3.2 软计算在人文社科领域的应用 摘要 软计算如何演化至今?软计算的应用场景是什么? 软计算被广泛用于哪个领域? 在哪个领域中软计算仍需得到普及? 1 介绍 软计算不同于传统硬计算,软计算是一系列方法,其旨在探索对非精确和非确定性的容忍度以此获得可追溯性、鲁棒性、以及较低的问题解决成本。软计算方法主要包含:粗糙系统、神经网络、概率推理、进化计算(混沌理论、遗传算法、人工生命、学习理论等等) 当今,软计算在AI、科学以及工程领域应用广泛,在人文社科领域却发展迟缓。 2 软计算发展史 2.1 胚胎时期(1900s~1960s) 传统计算模式面临巨大挑战 1)过度依赖数学模型

BP神经网络

ε祈祈猫儿з 提交于 2020-02-07 03:48:29
BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。 我们现在来分析下这些话: “是一种按误差逆传播算法训练的多层前馈网络” BP是后向传播的英文缩写,那么传播对象是什么?传播的目的是什么?传播的方式是后向,可这又是什么意思呢。 传播的对象是误差,传播的目的是得到所有层的估计误差,后向是说由后层误差推导前层误差: 即BP的思想可以总结为 利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计。 “BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)” ----------( 计算机网络的拓扑结构是引用拓扑学中研究与大小、形状无关的点、线关系的方法,把网络中的计算机和通信设备抽象为一个点

机器学习(Machine Learning)- 吴恩达(Andrew Ng) 学习笔记(十)

久未见 提交于 2020-02-06 23:45:46
Advice for applying machine learning Decide what to try next Debugging a learning algorithm 调试学习算法 Suppose you have implemented regularized linear regression to predict housing prices. \[ J(\theta) = \frac{1}{2m} \left[ \sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^m\theta_j^2 \right] \] However, when you test your hypothesis on a new set of houses, you find that it makes unacceptably large errors in its predictions. What should you try next? 假如你已经完成了房价预测的正则化线性回归(也就是最小化代价函数 \(J\) 的值),然而在你测试新的样例时发现产生了巨大的误差。要想改进这个算法你该怎么办? 可选的方法: Get more training examples 用更多的训练样本(收集样本耗费太大精力)