过拟合

caffe solver 配置详解

こ雲淡風輕ζ 提交于 2021-02-14 02:30:08
caffe solver通过协调网络前向推理和反向梯度传播来进行模型优化,并通过权重参数更新来改善网络损失求解最优算法,而solver学习的任务被划分为:监督优化和参数更新,生成损失并计算梯度。caffe solver是caffe中的核心,它定义着整个模型如何运转,不管是命令行方式还是pycaffe接口方式进行网络训练或测试,都是需要一个solver配置文件的,而solver的配置参数总共有42个,罗列如下: net weight_decay net_param regularization_type train_net stepsize test_net stepvalue train_net_param clip_gradients test_net_param snapshot train_state snapshot_prefix test_state snapshot_diff test_iter snapshot_format test_interval solver_mode test_compute_loss device_id test_initialization random_seed base_lr type display delta average_loss momentum2 max_iter rms_decay iter_size debug

Python之ML--数据预处理

丶灬走出姿态 提交于 2021-02-13 09:27:06
Python之ML–数据预处理 机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量.因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的 主要知识点如下: 数据集中缺少数据的删除和填充 数据格式化 模型格式化 模型构建中的特征选择 一.缺少数据的处理 from IPython . display import Image 我们见到的缺失值是数据表中的空值,或者是类似于NaN(Not A Number,非数字)的占位符 我们通过一个CSV(comma-separed values)以逗号为分隔符的数值)文件构造一个简单的例子 import numpy as np import pandas as pd from io import StringIO csv_data = ''' A,B,C,D 1.0,2.0,3.0,4.0 5.0,6.0,,8.0 0.0,11.0,12.0, ''' df = pd . read_csv ( StringIO ( csv_data ) ) print ( df ) A B C D 0 1.0 2.0 3.0 4.0 1 5.0 6.0 NaN 8.0 2 0.0 11.0 12.0 NaN 有两个缺失值由NaN替代,StringIO函数在此仅起到演示作用

积神经网络(CNN)的参数优化方法

不问归期 提交于 2021-02-12 22:44:46
http://www.cnblogs.com/bonelee/p/8528863.html 积神经网络的参数优化方法——调整网络结构是关键!!!你只需不停增加层,直到测试误差不再减少. 积神经网络(CNN)的参数优化方法 from:http://blog.csdn.net/u010900574/article/details/51992156 著名: 本文是从 Michael Nielsen的电子书 Neural Network and Deep Learning 的 深度学习 那一章的卷积神经网络的参数优化方法的一些总结和摘录,并不是我自己的结论和做实验所得到的结果。我想Michael的实验结果更有说服力一些。本书在github上有 中文翻译 的版本, 前言 最近卷积神经网络(CNN)很火热,它在图像分类领域的卓越表现引起了大家的广泛关注。本文总结和摘录了Michael Nielsen的那本Neural Network and Deep Learning一书中关于深度学习一章中关于提高泛化能力的一些概述和实验结果。力争用数据给大家一个关于 正则化 , 增加卷积层/全连接数 , 弃权技术 , 拓展训练集 等参数优化方法的效果。 本文并不会介绍 正则化 , 弃权(Dropout) , 池化 等方法的原理,只会介绍它们在实验中的应用或者起到的效果,更多的关于这些方法的解释请自行查询。

清华大学王奕森:Adversarial Machine Learning: Attack and D

倖福魔咒の 提交于 2021-02-12 21:28:29
本文作者:HelloDeveloper 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第六期“机器学习”专场已于2019年6月23日下午在中科院举行。清华大学王奕森为大家带来报告《Adversarial MachineLearning: Attack and Defence》。 Yisen Wang obtained his Ph.D. degree from the Department of Computer Science and Technology at Tsinghua University. He is also a visiting scholar at Georgia Tech

ResNet论文笔记

匆匆过客 提交于 2021-02-12 06:40:30
其实ResNet这篇论文看了很多次了,也是近几年最火的算法模型之一,一直没整理出来(其实不是要到用可能也不会整理吧,懒字头上一把刀啊,主要是是为了将resnet作为encoder嵌入到unet架构中,自己复现模型然后在数据集上进行测试所以才决定进行整理),今天把它按照理解尽可能详细的解释清楚跟大家一起分享一下,哪里没有说明白或者说错的,欢迎指出留言。 深度残差神经网络( Residual Networks )是 2015年(12月在arxiv.org可下载) 何凯明大神提出来的一个神经网络模型,获得了2015年多个竞赛数据集的第一。模型被提出主要是为了解决如下两个主要问题: 减缓深度学习模型难以训练的问题(e.g. 超过100层的神经网络) 模型退化(degradation problem)问题,这个之后会详细解释什么是退化(表示看了论文很迷茫,还是看了不少别人的博客才恍然大悟) 这里还有一点需要被注意的是, 深度残差网络是基于这么一个假设:越深的网络理应具备更好的学习能力 。这个后来也确实被证明层数的增加确实带来不一样的效果,不论以什么样的形式叠加和计算(如AlexNet、GoogLeNet、DenseNet等等)。 一、简要介绍 虽然假设越深的网络应该具备更好的表征学习能力,但是接踵而来的问题也很明显,如梯度消失和梯度爆炸(vanishing/exploding

李宏毅老师机器学习课程笔记_ML Lecture 2: Where does the error come from?

混江龙づ霸主 提交于 2021-02-12 04:39:45
####引言: 最近开始学习“机器学习”,早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程。今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子加深学生的印象。 视频链接(bilibili): 李宏毅机器学习(2017) 另外已经有有心的同学做了速记并更新在github上: 李宏毅机器学习笔记(LeeML-Notes) 所以,接下来我的笔记只记录一些我自己的总结和听课当时的困惑,如果有能够帮我解答的朋友也请多多指教。 ###一、误差来自哪里?该如何处理这些误差? 从第一课可以知道,越复杂的模型并不一定会带来越低的误差(error)。误差来自两方面: 偏差(bias) 方差(variance) 如果可以诊断误差的来源,就可以选择适当的方法来改进自己的模型。 看到这里我有一些困惑,误差、偏差、方差听起来太像了,到底有什么区别呢? 【此处与机器学习无关:图1真的挺难得,不知不觉有一种管理方面感触的代入感,左上角图表示好的领导(战略决策层)与好的员工(战术执行层)的配合,右上角图表示好的领导(战略决策层)与差的员工(战术执行层)的配合,左下角图表示差的领导(战略决策层)与好的员工(战术执行层)的配合,右下角图表示差的领导(战略决策层)与差的员工(战术执行层)的配合。从这方面可以看出,一个好的战略决策有多么重要!】 简单的模型(如一次方程

Factorization Machine模型的各种变式

江枫思渺然 提交于 2021-02-11 13:56:15
关注“ AI科技时讯 ” 设为星标,第一时间获取更多干货 FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如: FM类模型有哪些改进? 哪些模型或者应用引入了FM思想? 近期的顶会针对FM有哪些改进工作? 工业界大规模数据场景下如何分布式训练FM模型? 这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。 一、区别特征交互作用 这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。 FM 文章链接:csie.ntu.edu.tw/~b97053 Field-aware FM 文章链接:csie.ntu.edu.tw/~r01922 FM中一个特征只对应一个向量

tensorflow2.0第2章 Tensorflow keras实战

倖福魔咒の 提交于 2021-02-09 02:05:33
本门课程的基础章节,详细介绍了如何使用tf.keras进行模型的搭建以及大量的深度学习的理论知识。理论知识包括分类问题、回归问题、损失函数、神经网络、激活函数、dropout、批归一化、深度神经网络、Wide&Deep模型、密集特征、稀疏特征、超参数搜索等及其在图像分类、房价预测上的实现。 课程代码的tensorflow版本: 大部分代码是tensorflow2.0的; 课程以tf.keras API为主,因为keras在1.3以后的版本就引入进来了,因而部分代码可以在tf1.3+运行; 另外有少量tensorflow1.*版本代码,这些版本的代码并不能在2.0上运行,因为很多API都已经过时了。 理论部分: tensorflow-keras简介; 分类问题、回归问题、损失函数; 神经网络、激活函数、批归一化、Dropout; wide&deep模型; 超参数搜索。 实战部分: keras搭建分类模型; keras回调函数; keras搭建回归模型; keras搭建深度神经网络; keras实现wide&deep模型; keras与scikit-learn实现超参数搜索。 tensorflow-keras简介 keras是什么: 基于python的高级神经网络API,它是一套API,而不是一个完整的库; Francois Chollet(现在在Google,tf

机器学习中的类别不均衡问题

北慕城南 提交于 2021-02-07 06:36:38
<br/> ##基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类。 <br/> ##解决方法 1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。 2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。 3、不处理样本,样本分类阈值移动。 <br/> ##欠采样 <br/> ###随机欠采样 随机欠采样是指随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机性,可能会误删多数类样本中一些重要的信息。 <br/> ###EasyEnsemble 和 BalanceCascade EasyEnsemble是通过多次从多数类样本有放回的随机抽取一部分样本生成多个子数据集,将每个子集与少数类数据联合起来进行训练生成多个模型,然后集合多个模型的结果进行判断。这种方法看起来和随机森林的原理很相似。

CV学习笔记(二十一):文本识别(DenseNet)

我的未来我决定 提交于 2021-02-05 14:26:44
作者:云时之间 来源:知乎 链接: https://zhuanlan.zhihu.com/p/141141672 编辑:王萌 在上一篇文章中完成了数据集的拼接仿真,最近又做了一些关于数据集的工作,先是标注了一堆数据集,然后又把数据集再增强了一下(包括加一些噪声,滤波等等),总之就是力图更模拟日常生活的场景,这些日后再谈,这一篇文章我想先说一下在文本检测完成后,使用的识别模型DenseNet,因为最近看了很多的OCR检测项目,大多是使用的是CTPN+DenseNet的结构,既然大家都采用这个结构,说明其中是有一定的奥秘在这(我原本的想法是使用滤波检测+CRNN)。 论文地址:arxiv.org/pdf/1608.0699 在这里我用的DenseNet的源码为: github.com/xiaomaxiao/k 在这里表示感谢 一:DenseNet的特点结构 在论文的Abstract中,很直接的说出了DenseNet的思考点: 我们传统的CNN,参数只能一层一层的向下传播,而DenSeNet在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有层连接起来(简单粗暴),从而更好地利用特征中的信息,简单讲,就是每一层的输入来自前面所有层的输出。因此也带来了几个特点: 第一点:减少了梯度消失的问题 (我的理解是:现在CNN的网络越来越深,特征经过每一次层的传递都会有一定的损失,在深层网络