样本均值

数据分析

一个人想着一个人 提交于 2019-12-02 06:23:45
@ TOC 不懂统计和数据分析讲的是什么?看这篇就够了 python爬虫人工智能大数据 今天 以下文章来源于Ray的数据分析自习室 ,作者Ray Ray的数据分析自习室 Ray的数据分析自习室 数据干货 | 商业评论 | 职业发展 1 数据分析概述 数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。 目的/出发点:设立目标或业务需求,明确问题 方法:根据不同场景选定分析方法 结果:目标解释或业务应用(to do),创造价值 1.1 数据分析流程 目的和内容:明确项目整体框架或业务问题 数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息 数据预处理:检验-清理,可比(例如标准化、得分转换等),论证 数据分析:方法、工具的选取 数据表达:图表 数据报告:结论、建议&解决方案 1.2 数据分析方法 预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数) 基于数理统计:方差分析、回归分析、因子分析 数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归) 1.3 数据分析工具 Excel-SQL、R、Python、BI、HADOOP、Spark… 2 数据趋势 2.1 计量尺度

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

KMeans均值算法

余生颓废 提交于 2019-11-29 11:24:43
K均值聚类算法 算法思想 k-means聚类算法 : 随机选取K个对象作为初始的聚类中心; 计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心; 根据分配结果更新聚类中心。均值,顾名思义,对类中的所有样本点求均值,即为新的中心点; 循环2,3两步,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。 代码实现 样本点存储样例(数据之间以\t分隔) 因为这里测试样本点很少,所以设置当每个点所属类不再变化时即结束循环,此时得到最终聚类结果,如果样本数较多可设置迭代轮数来控制 才开始学python,还不熟练,参照着一些代码,在上面进行了修改,最后的实现如下: # yyf date:19/09/05 import numpy as np import matplotlib . pyplot as plt # 读取数据 def readfile ( filename ) : data = np . loadtxt ( filename , delimiter = '\t' ) return data # 选取k个初始中心 def initCenterp ( data , k ) : m = np . shape ( data ) [ 0 ] centerpoints = np . zeros ( (

第五周:统计量与抽样分布

无人久伴 提交于 2019-11-27 19:38:02
统计量 统计量是统计理论中用来对数据进行分析、检验的变量。 宏观量 是大量 微观量 的统计 平均值 ,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的. 相对于微观量的统计平均性质的宏观量也叫统计量。需要指出的是,描写宏观世界的 物理量 例如速度、动能等实际上也可以说是宏观量,但宏观量并不都具有统计平均的性质,因而宏观量并不都是统计量。 样本均值 样本均值(sample mean)又叫 样本均数 。即为样本的均值。 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 样本均值则是在总体中的样本数据的均值。 样本: 样本(sample),是指从 总体 中抽出的一部分 个体 。样本中所包含个体数目称 样本容量 或含量,用符号N或n表示。 均值: 均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。 解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数( 均值 )和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。 设 是来自正态总体 的样本, 是样本均值,则有 : 样本方差 先求出 总体 各单位变量值与其 算术平均数 的 离差 的平方,然后再对此变量取 平均数 ,就叫做 样本方差 。