李宏毅

李宏毅ML+DL:explainable ML

时光总嘲笑我的痴心妄想 提交于 2020-03-02 09:57:56
explainable ML 主要是用来告诉你NN为什么会给出这样的结果,可分为两种: ①.local explanation:why does the NN think this image is a cat? ②.global explanation:what does the NN think a cat look like? 一.local explanation local explanation的主要思想就是把input看成由许多components组成,然后从原来的x中remove or modify一个component变成x’,把x’放到已经训练好的NN中,如果此时NN的结果与原来的结果(input为x时的结果)相差很大,那么就说明这个component对于NN进行判断有很大影响。 如上图所示,用一块灰色把照片某些部分遮住,如果被遮住之后的结果与之前差别很大,那么说明被遮住的这块很重要。 limitation: ①.灰色块的大小很关键,不能太大也不能太小 ②.颜色也很重要,可能换一种颜色结果就不一样了 x 1 …x N 表示每个component(它们不一定就是原始数据的每一个维度)。 y k 对x n 的偏导就表明了这个component的重要性,偏导越大,一般来说就越重要,在saliency map中就越白。 limitation: 比如说走到红色这个点的时候

李宏毅classification+Logistic Regression(lecturte4)课堂笔记

匿名 (未验证) 提交于 2019-12-02 23:55:01
穷举最好函数最基本方法结合贝叶斯公式、全概率公式,算概率 简单例子: 红圈里根据数据算出 。 极大似然估计: 某个μ和∑的Gaussian就是每个样本点的几率 穷举所有μ和∑,能使likelihood 式子最大的μ和∑我们就认为它们是最有可能产生那79个点的μ*和∑*。易知μ*和∑*的最佳解。 每个类总用不同的μ和∑,可能会效果不好或者过拟合,选择使用同一个∑ 采用此方法分类结果 回顾总结几率模型 : 补充: 具体看z, 最后就有 推导过程了解就好,要知道 实际上求那么多μ 1 和μ 2 ,N 1 和N 2 都是为了找w和b,怎样能更简洁的找w和b呢? ----- ------- 最后miniaturize的函数就是 最后推导有 对比: Multi-class Classification: 引入深度学习和神经网络,可以再看一遍 来源:博客园 作者: 路文希 链接:https://www.cnblogs.com/lunotebook/p/11412639.html

李宏毅机器学习 P18 Tips for Training DNN 笔记

匿名 (未验证) 提交于 2019-12-02 22:59:29
版权声明:站在巨人的肩膀上学习。 https://blog.csdn.net/zgcr654321/article/details/84478052 假如deep learning得到不好的结果,应该从哪个方向进行改进呢? 首先检查neural network在training data上是否得到好的结果。 如果在training data上得到好的结果,而在testing data上没有得到好的结果,那么这种情况就叫做overfitting。 如果在training data和testing data上都能得到好的结果,那么你就得到一个可以用的模型。 注意在神经网络层数不同时,层数更多的网络需要更多的训练次数才能训练好,如果比较两个层数不同的模型时,有时会发现一个层数少的模型的training error比层数多的模型还要下降的快,但这种情况有可能只是层数深的模型还没有训练好,需要更多训练次数。 当然层数深的模型也不一定就比层数浅的模型表现要好。 不同的方法应对不同的情况。有的是为了提升training set上的表现,而有的是提升testing set上的表现。 比如dropout是为了提升在testing set上的表现,而会使在training set上的表现变差。 有哪些常用的方法: 网络层数越深,表现不一定会更好。(梯度消失现象)梯度越小学习速度越慢。 梯度消失现象

李宏毅《Machine Learning》笔记 -- 无监督学习--auto encoder

半世苍凉 提交于 2019-11-30 05:46:44
Unsupervised Learning Deep learning 做无监督学习的方法 Auto-encoder 用神经网络做降维 encoder decoder独自存在没法学。 bottleneck layer 瓶颈层 deep ae 就是多加几层 重点不是最后loss低,而是code做的有多好 De-noising auto-encoder 为了train的更好,添加噪音 用于 1 Text Retrieval Vector space model Bag-of-word 2 similar image search Auto-encoder for CNN Unpooling:扩展通通补零 把image变大 Deconvolution: Pre-training DNN RBM、Deep belief nettwork 不是neural network encoder 用来降维 decoder可以用来产生image 来源: https://blog.csdn.net/weixin_39847930/article/details/101107196

李宏毅classification+Logistic Regression(lecturte4)课堂笔记

▼魔方 西西 提交于 2019-11-28 17:42:56
穷举最好函数最基本方法结合贝叶斯公式、全概率公式,算概率 简单例子: 红圈里根据数据算出 。 极大似然估计: 某个μ和∑的Gaussian就是每个样本点的几率 穷举所有μ和∑,能使likelihood 式子最大的μ和∑我们就认为它们是最有可能产生那79个点的μ*和∑*。易知μ*和∑*的最佳解。 每个类总用不同的μ和∑,可能会效果不好或者过拟合,选择使用同一个∑ 采用此方法分类结果 回顾总结几率模型 : 补充: 具体看z, 最后就有 推导过程了解就好,要知道 实际上求那么多μ 1 和μ 2 ,N 1 和N 2 都是为了找w和b,怎样能更简洁的找w和b呢? ----- ------- 最后miniaturize的函数就是 最后推导有 对比: Multi-class Classification: 引入深度学习和神经网络,可以再看一遍 来源: https://www.cnblogs.com/lunotebook/p/11412639.html