样本量

Gini分箱

余生颓废 提交于 2020-03-17 23:00:26
def calc_score_median(sample_set, var): ''' 计算相邻评分的中位数,以便进行决策树二元切分 param sample_set: 待切分样本 param var: 分割变量名称 ''' var_list = list(np.unique(sample_set[var])) var_median_list = [] for i in range(len(var_list)-1): var_median = (var_list[i]+var_list[i+1])/2 var_median_list.append(var_median) return var_median_list def choose_best_split(sample_set, var, min_sample): ''' 使用CART分类决策树选择最好的样本切分点 返回切分点 param sample_set: 待切分样本 param var: 分割变量名称 param min_sample: 待切分样本的最小样本量(限制条件) ''' #根据样本评分计算相邻不同分数的中间值 score_median_list = calc_score_median(sample_set, var) median_len = len(score_median_list) sample_cnt

t分布, 卡方x分布,F分布

非 Y 不嫁゛ 提交于 2020-03-12 02:32:01
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

随机森林模型RandomForest scikit-learn参数说明

徘徊边缘 提交于 2020-01-10 04:33:34
先看这个类的参数: class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None) 具体参数意义如下: criterion: 决策树分裂的标准。 n_estimators: 在利用最大投票数或平均值来预测之前,你想要建立子树的数量。 较多的子树可以让模型有更好的性能,但同时让你的代码变慢。 值过大容易导致过拟合,过小容易导致欠拟合,一般选取50~100,默认是10。 max_features 单个决策树使用的最大特征数 。 Python为最大特征数提供了多个可选项。 下面是其中的几个: (1) Auto/None

RandomForest 调参

匿名 (未验证) 提交于 2019-12-03 00:39:02
在 scikit-learn中, RandomForest 的分类器是RandomForestClassifier,回归器是RandomForestRegressor ,需要调参的参数包括两部分,第一部分是 Bagging框架的参数,第二部分是CART决策树的参数。 一、Bagging框架的参数: n_estimators: 也就是弱学习器的最大迭代次数,或者说 最大的弱学习器的个数 , 默认是 10 。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。 对 Random Forest 来说,增加“子模型数”( n_estimators )可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高,由于减少的是整体模型方差公式的第二项,故准确度的提高有一个上限。在实际应用中,可以以10为单位,考察取值范围在1至201的调参情况。 bootstrap : 默认 True , 是否有放回的采样。 oob_score : 默认为False , 即是否采用袋外样本来评估模型的好坏。 有放回采样中大约 36.8%的没有被采样到的数据,我们常常称之为袋外数据(Out Of Bag, 简称OOB) , 这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。

RTI Perftest 的大样本测试

匿名 (未验证) 提交于 2019-12-03 00:18:01
RTI Perftest可以将样本从28 Bytes发送到2,147,483,135 Bytes(2 GBytes - 512 Bytes - 8 Bytes),这对应于RTI Connext DDS能够在单个样本中发送的最大有效载荷。 数据大小由命令行参数-dataLen <bytes> 。 根据此参数, RTI Perftest将自动配置某些RTI Connext DDS行为。 在样本量小于或等于63000字节的情况下,默认情况下, RTI Perftest将使用带有序列的类型(绑定设置为63000个元素)。 如果样本量大于63000字节,则RTI Perftest将自动切换到与前面提到的类型相同的类型,但使用无界序列。 这种行为背后的原因是,在RTI Perftest使用无界序列的情况下, RTI Connext DDS不会预先将序列分配给其最大值(与使用有界序列时相反)。 对于无界限成员,由RTI Connext DDS生成的代码将通过动态分配和解除分配内存来反序列化样本,以适应无界成员的实际大小。 无界 - -DynamicData (命令行参数-DynamicData )也支持序列和字符串。 除了使用Unbounded-Sequences外,通过设置大于63000字节的样本, RTI Perftest将启用异步发布 ,如RTI Connext DDS默认流量控制器。

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

bubble chart|Matrix Scatter|Overlay Scatter|Scatterplots|drop-line|box plot|Stem-and-leaf plot|Histogram|Bar chart|Pareto chart|Pie chart|doughnut chart|

筅森魡賤 提交于 2019-11-29 18:05:01
应用统计学 对类别数据要分类处理: Bar chart 复式条形图便于对比: Pareto chart:对类别变量依据频数高低排列: Pie chart :饼图用于一个样本,可以区分类别数据 doughnut chart:环形图用于多个样本,可以区别类别数据 顺序数据:通过计算cumulative percentages向上向下累计,这两者可有不同的解释 线图可以多类方便的放在一张图上,便于比较 对数值型数据要分组处理: 单变量分组:该变量必须是离散值且数量少 组距分组: 等距分组 eg : 10-20 ; 20-30 ; 30-40 异距分组 eg : 10-70 ; 70-80 ; 80-90 ; 90-140 ,异距分组容易引起理解偏差,可以用频数密度来表达,避免理解偏差。 得到样本数 n ,通过以下公式计算得到组数 K ,根据组数 K 由 { 组距= ( 最大值 - 最小值)÷ 组数 } 得到组距,最后绘制直方图,由直方图可看到点连成线之后的数据对称性。 由直方图得到的常见分布如下: 图例: 黄色:众数 红色:中位数 绿色:平均数 直方图Histogram: 1. 样本量大用直方图可以反映出分布; 2. 样本量小(小于 75-100 )会出现不稳定的情况 可以采用分不同组数目来看分布是不是一致来判断自己选择组数是否合适 当样本数为无穷大时,直方图上折线图变成 PDF (

决策树算法

我的梦境 提交于 2019-11-29 00:26:02
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、简介 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 1.定义: 决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树 。 二、决策树原理 1.熵 在物理学中,熵Entropy是“混乱”程度的度量 系统越有序,熵越低;系统混乱或者越分散,熵越高 信息理论 : 1、 从信息的完整性上进行的描述: 当 系统的有序状态一致时 ,**数据越集中的地方熵值越小,数据越分散的地方熵值越大。 2、 从信息的有序性上进行的描述: 当 数据量一致时 , 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 。 1948年香农提出了 信息熵 (Entropy)的概念。 假如事件A的分类划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为公式如下:(log是以2为底,lg是以10为底) eg. 案例1: 如果一颗骰子的六个面都是1 ,投掷它不会给你带来任何新信息,因为你知道它的结果肯定是1,它的信息熵为? 答案: - log(1) = 0 。 案例2: 假设我们没有看世界杯的比赛