统计学

Part I/ Chapter 5 机器学习基础1

折月煮酒 提交于 2019-12-01 05:28:06
一、学习算法   “ 学习 ”:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。   1、 任务T :通常定义为机器学习系统应该如何处理样本。     →样本(Example):我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。     常见的机器学习任务:     ①分类:指定某些输入属于k类中的哪一类     ②输入缺失分类     ③回归:对给定输入预测数值     ④转录:观测一些相对非结构化表示的数据,并转录信息为离散的文本形式     ⑤机器翻译:输入是一种语言的符号序列,程序将其转化为另一种语言的符号序列     ⑥结构化输出:输出是向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系     ⑦异常检测:在一组事件或对象中筛选,并标记不正常或非典型的个体     ⑧合成和采样:生成一些和训练数据相似的新样本     ⑨缺失值填补     ⑩去噪     ⑪密度估计或概率质量函数估计   2、 性能度量P :用于评估机器学习算法的能力,通常是特定于系统执行的任务T而言的。   3、 经验E     根据学习过程中的不同经验,可以将机器学习算法大致分为无监督(unsupervised)算法和监督(supervised)算法

spss统计学

独自空忆成欢 提交于 2019-12-01 02:38:47
一,常见统计分析软件简介 1.SPSS统计分析软件是最常用的统计分析软件之一是企业中最广泛应用的商业数据分析软件之一 2.SAS 3.R语言 4.其他统计分析软件 二,SPSS统计分析软件的历史 SPSS软件已有40余年的成长历史,分布于通信,医疗,银行,证券,保险,制造,商业,市场研究,科研教育等多个领域行业。 三,SPSS统计分析软件的特点 SPSS是世界上最早采用图形菜单驱动界面的统计软件,其最突出的特点就是操作界面友好 输出结果美观。 SPSS特点如:操作简单,无须编程,功能强大,方便的数据接口,灵活的功能模块组合,与其他程序的无缝结合。 来源: https://www.cnblogs.com/awenzaizher/p/11648742.html

宋欣蓉2019-10-10统计学笔记

杀马特。学长 韩版系。学妹 提交于 2019-12-01 02:38:01
常见统计分析软件简介有 1.spss,是企业中最广泛的商业数据分析软件之一 2.SAS统计分析软件是最常用的统计分析软件之一 3.R语言,包含所有的基本统计分析功能,线性和非线性模型,经典的统计检验,时间序列分析,聚类分析以及高级的作图技巧等 4.其他统计分析软件:Eviews,JMP,Minitab,Stata,Matlab,Python SPSS分析软件的历史:分布于通信医疗也好,证券保险制造商业市场研究科研教育等多个领域和行业 5.SPSS统计分析软件的特点:操作简单,无需编程,功能强大,方便的数据接口,灵活的功能模块组合,与其他程序的无缝结合 6.SPSS的界面:数据编辑窗口,结果管理窗口,结果编辑窗口,语法编辑窗口,脚本窗口 第二章数据文件的建立和管理 1.不能用数字开头,不能包含空格和特殊符号,不区分大小写,不能用$,不是点号下划线不能用保留字all 2.数据文件的建立,编辑输出是对数据分析管理的首要工作,保证数据分析的正确性,科学性 变量视图:1.变量的名称2.变量类型3.数值型4.逗号5.点6.科学计数法7.日期8.美元9.设定货币10.字符串 来源: https://www.cnblogs.com/songxinrong/p/11648697.html

统计学中的自由度

这一生的挚爱 提交于 2019-11-30 19:21:52
维基百科上提纲挈领是这么说的: Degrees of freedom (statistics) In statistics , the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary. 在统计学中,自由度的数量是最后统计计算中可以自由变换的变量的数量。 关于样本方差,里面提到: i.e., the sample variance has N-1 degrees of freedom, since it is computed from N random scores minus the only 1 parameter estimated as intermediate step, which is the sample mean . 1.样本方差有N-1的自由度,因为从N个随机数减去1个参数,这1个参数是样本均值,样本均值是计算样本方差的中间一步。 2.样本方差是总体方差的无偏估计。 3.总体方差是一个事实(fact). 链接:https://www.zhihu.com/question/20983193/answer/28228799 来源: https://www.cnblogs.com

小小知识点(四十)统计学中的矩

南笙酒味 提交于 2019-11-30 19:09:57
转自豆瓣: https://www.douban.com/note/686004725/ 在概率论、统计学甚至计量经济学中常会看到“矩”这个字,那什么是“矩”? 物理意义: 数学中矩的概念来自物理学。 在物理学中,矩是表示距离和物理量乘积的物理量,表征物体的空间分布。 由其定义,矩通常需要一个参考点(基点或参考系)来定义距离。如力和参考点距离乘积得到的力矩(或扭矩),原则上任何物理量和距离相乘都会产生力矩,质量,电荷分布等。 常见的概念——力矩,虽然我们高中没学。 数学意义: 矩是物体形状识别的重要参数指标。 在统计学中,矩表征随机量的分布 。 一阶矩,期望,表位置;二阶矩,方差,表胖瘦;三阶矩,偏度,表歪斜;四阶矩,峰度,表尾巴胖瘦 。 转自知乎: https://www.zhihu.com/question/23236070/answer/143316942 “因为我们常常会将随机变量(先假定有任意阶矩)作一个线性变换,把一阶矩(期望)归零,二阶矩(方差)归一,以便统一研究一些问题。这时候,在同样期望为0方差为1的标准情况下(以下均假设随机变量满足该条件),随机变量最重要的指标就变成了接下来的两个矩了。 三阶矩 ,就是我们所称的「偏度」。粗略来说,一个典型的 正偏度变量X 的分布满足这样的特征:很大的概率X会取绝对值较小的负值,但在极少数情况下,X会取特别大的正值。可以理解为

【统计学方法】不等式约束,拉格朗日对偶函数,KKT条件

一世执手 提交于 2019-11-30 11:57:35
1 基本概念 1.1 不等式约束(原问题) 1.2 广义拉格朗日函数 2 KKT条件(原问题和对偶问题等价的充分必要条件) 2.1 KKT 我们要解决的问题是求有不等式约束函数的最优解 上面为推广式,简化版本为 对应的拉格朗日函数式为: 函数取得可行解的必要条件是梯度为0(所有偏导数为0),则得到KKT条件的第一个 ................................................................................ (1) 如图,可行解x只能在 区域内取得, 当原目标函数的可行解x落在 的区域内,此时约束条件不起作用,取 直接极小化 即可; 当原目标函数的可行解落在 ,即边界上,此时等价于等式约束优化问题; 合并上面两种情况, 或 为0,我们得到KKT条件的第二个 ............................................................................................... (2) 如上图的右图,当原目标函数的不在 取得时,这时约束条件是有效的,也就是 不能为0。在等式约束优化中,可行域是一条线(约束条件),只需要约束条件 和目标函数 的梯度平行即可(不需要方向一样);但是在不等式约束中,可行域是一个区域,当区域边界与等值线相切时,与

Python 数据分析学习路线

六眼飞鱼酱① 提交于 2019-11-30 06:23:59
Python 数据分析学习路线 相关资料 概述 数据分析: 数据分析是指用适当利用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 分析数据,得到结果 学习路线 基础部分: 数学知识 Python基础知识 Python数据分析包使用 进阶部分: 网页爬虫 机器学习和深度学习 大数据 基础部分 数学 需要的知识主要为 《概率论与数理统计》 Python基础知识 由于只需要掌握计算部分的知识,Python 的基础知识需要了解以下内容: 基本语法 数据类型和变量 条件语句和循环语句 函数和模块的概念 Python数据分析包 主要掌握 Python 相关数据分析包的使用,三剑客: numpy pandas matplotlib 参考的书为《利用 Python 进行数据分析》 进阶部分 网页爬虫 《Python3网络爬虫开发实战》崔庆才 机器学习和深度学习 学习SQL,这是数据分析最基础的能力 大体上掌握各类算法原理以及如何利用机器学习包 理论书籍: 《机器学习》, 周志华 《统计学习方法》, 李航 机器学习包: scikit-learn 是一个机器学习库,可以对数据进行分类,回归,无监督,数据降维,数据预处理等等,包含了常见的大部分机器学习方法。 深度学习就是各种神经网络如何解算的问题。 大数据 Hadoop 权威指南 来源: https

机器学习入门介绍

寵の児 提交于 2019-11-29 23:46:56
给初学者介绍什么是机器学习 什么是机器学习?它是如何工作的?机器学习中涉及了多少数学知识?一位工程师将这些问题都一一给予了解答。 英文原文链接: 请点击 机器学习是指不需要对计算机进行明确编程,它自动可以从实例和过往经验中不断学习的这么一个概念。你只需要不断给常规算法提供训练数据,而不是编写代码,它会基于所给数据建立起一套逻辑体系。 例如,分类算法是常见算法的一种。它可以将数据划分成多个不同的组。分类算法不仅可以分辨手写字母,还可以鉴别垃圾邮件。 一个计算机程序从某些任务T的经验E中学习,然后其对于任务T的学习表现用P衡量,随着经验学习P值会有所提高。--Tom M.Mitchell 考虑下跳棋: E = 多次下跳棋的经验 T = 下跳棋 P = 程序将赢得下次游戏的概率 机器学习的例子 在上一个5年中,得益于计算性能提升和硬件高可用性,机器学习已经被广泛研究。这些都已经实时应用并且部署到部分网站以实现更好的搜索程序和推荐系统。例如你在Amazon搜索一个产品,由于机器学习的存在,在接下去的几天Amazon会向你推荐你所搜索商品的类似产品。 以下是一些分类问题的例子,这些分类问题目标都是将鉴别对象划分为一些固定类别。 人脸识别:从图像中识别人脸(或者鉴别某人是否出席) 邮件过滤:鉴别邮件是否属于垃圾邮件 医疗诊断:诊断就诊者是否身患疾病 天气预测:预测,如,明天会下雨

机器学习(一):线性回归

别说谁变了你拦得住时间么 提交于 2019-11-29 22:29:09
我从去年开始就着手学习 机器学习的内容,但是学得杂,又从来没有过总结。看过周志华教授的《机器学习》和李航的《统计学习基础》,现在正在阅读《模式识别与机器学习》,这本书的深度和广度让我大开眼界。于是乎,本着找工作之前将所学知识记录下来的思想,我决定对自己所学知识做一个总结,也方便其他人参考。若有不当之处,希望指导。 线性回归 机器学习可分为监督和无监督两种。而回归任务是监督学习中非常经典的一种。 简单总结回归问题为: 来源: https://www.cnblogs.com/sayHelloToComputer/p/11537952.html

时间序列算法

╄→гoц情女王★ 提交于 2019-11-29 21:33:57
以下哪个是常见的时间序列算法模型 正确答案: C 你的答案: 空 (错误) RSI MACD ARMA KDJ 时间序列中常用预测技术 一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。 1. 移动平均法 (MA) 1.1. 简单移动平均法 设有一时间序列y1,y2,..., 则按数据点的顺序逐点推移求出N个数的平均数,即可得到一次移动平均数. 1.2 趋势移动平均法 当时间序列没有明显的趋势变动时,使用一次移动平均就能够准确地反映实际情况,直接用第t周期的一次移动平均数就可预测第1t+周期之值。 时间序列出现线性变动趋势时,用一次移动平均数来预测就会出现滞后偏差。修正的方法是在一次移动平均的基础上再做二次移动平均,利用移动平均滞后偏差的规律找出曲线的发展方向和发展趋势,然后才建立直线趋势的预测模型。故称为趋势移动平均法。 2. 自回归模型(AR) AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点). 本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。 3. 自回归滑动平均模型(ARMA) 其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。 4. GARCH模型 回归模型