iqr

二逼平衡树

梦想与她 提交于 2021-02-10 07:36:05
写这类题目一定要开准数组大小…… // luogu-judger-enable-o2 #include <bits/stdc++.h> using namespace std; const int N = 200000000 ; int n,m,t1,t2,t3,t4; int a[ 30000005 ],ch[ 30000005 ][ 2 ],inner_ind,outer_ind,b[ 8000005 ],Ch[ 8000005 ][ 2 ],ROOT,seq[ 8000005 ]; void inner_pushup( int p) { a[p] =a[ch[p][ 0 ]]+a[ch[p][ 1 ]]; } void inner_modify( int &p, int l, int r, int pos, int key) { if (p== 0 ) p=++ inner_ind; if (l== r) { a[p] += key; } else { if (pos<=(l+r)/ 2 ) inner_modify(ch[p][ 0 ],l,(l+r)/ 2 ,pos,key); else inner_modify(ch[p][ 1 ],(l+r)/ 2 + 1 ,r,pos,key); inner_pushup(p); } } int inner_query( int p

谈谈统计学正态分布阈值原理在数据分析工作中的运用

我们两清 提交于 2021-01-22 14:41:54
一、背景 0.0 神说,要有正态分布,于是就有了正态分布。 0.1 神看正态分布是好的,就让随机误差都随了正态分布。 0.2 正态分布的奇妙之处,就是许多看似随机事件竟然服从一个表达式就能表达的分布,如同上帝之手特意为之。 神觉得抛硬币是好的,于是定义每个抛出硬币正面记+1分,反面记-1分。创世纪从0分开始,神只抛1次硬币,有2种可能:一半的概率+1分,一半的概率-1分。此时概率分布大概是这样的: 神决定扔10个硬币,此时概率分布如下: 如果画图来感受,数据分布大概如下: 如果是100个,甚至是无穷多个呢?平均分数分布情况大概是什么样呢?画个图感受一下: ——《创世纪·数理统计·正态分布的前世今生》 开头摘自统计学中非常经典的一本书籍,由此可见正态分布是非常经典和随处可见的,为什么正态分布这么常见呢?因为通常情况下,一个事物的影响因素都是多个,好比每个人的学习成绩,受到多个因素的影响,比如: 本人的智商情况。 上课听讲的认真程度,课前的预习程度,与老师的互动程度。 课后是否及时复习,有没有及时温习知识点呢,有没有做好作业巩固。 每一天的因素,每天的行为,对于学生的成绩不是产生正面因素就是负面因素,这些因素对于成绩的影响不是正面就是负面的,反复累计加持就像上图的抛硬币一样,让成绩最后呈现出正态分布。数据呈现正态分布其实背后是有中心极限定理原理支持,根据中心极限定理

谈谈统计学正态分布阈值原理在数据分析工作中的运用

佐手、 提交于 2021-01-20 13:35:56
一、背景 0.0 神说,要有正态分布,于是就有了正态分布。 0.1 神看正态分布是好的,就让随机误差都随了正态分布。 0.2 正态分布的奇妙之处,就是许多看似随机事件竟然服从一个表达式就能表达的分布,如同上帝之手特意为之。 神觉得抛硬币是好的,于是定义每个抛出硬币正面记+1分,反面记-1分。创世纪从0分开始,神只抛1次硬币,有2种可能:一半的概率+1分,一半的概率-1分。此时概率分布大概是这样的: 神决定扔10个硬币,此时概率分布如下: 如果画图来感受,数据分布大概如下: 如果是100个,甚至是无穷多个呢?平均分数分布情况大概是什么样呢?画个图感受一下: ——《创世纪·数理统计·正态分布的前世今生》 开头摘自统计学中非常经典的一本书籍,由此可见正态分布是非常经典和随处可见的,为什么正态分布这么常见呢?因为通常情况下,一个事物的影响因素都是多个,好比每个人的学习成绩,受到多个因素的影响,比如: 本人的智商情况。 上课听讲的认真程度,课前的预习程度,与老师的互动程度。 课后是否及时复习,有没有及时温习知识点呢,有没有做好作业巩固。 每一天的因素,每天的行为,对于学生的成绩不是产生正面因素就是负面因素,这些因素对于成绩的影响不是正面就是负面的,反复累计加持就像上图的抛硬币一样,让成绩最后呈现出正态分布。数据呈现正态分布其实背后是有中心极限定理原理支持,根据中心极限定理

CDA LEVEL I 数据分析认证考试模拟题库(九)

主宰稳场 提交于 2020-12-19 09:36:28
嗨喽,各位同学又到了公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的41-45题。 不过,在出题前,要公布下上一期36-40题的答案,大家一起来看! 36、C 37、B 38、C 39、B 40、C 你答对了吗? 41.一个电瓶车制造商声称,其生产的电瓶车正常行驶条件下大于40公里,对一个由20辆电瓶车组成的随机样本作了试验,测得平均值为50公里,标准差为10公里。已知电瓶车的行驶距离服从正态分布,我们希望检验该制造商的产品同他所说的标准相符?我们应该选择( ) A.单侧t检验 B.双侧t检验 C.单侧F检验 D.双侧F检验 42.按组织市场调查的时间层次确定,调查可以分为( )。 A.经常性市场调查(不定期) B.定期市场调查 C.临时性市场调查(一次性) D.以上都是 43.(知识点2)盒须图(箱线图)中,Q1到其最近的内限距离为( )。 A.IQR B.1.5IQR C.0.5 D.0.75 44.如果一组数据不是对称分布,按照切比雪夫不等式,至少约有( )的观测值落在距均值4个标准差的区间范围内。 A.75% B.89% C.94% D.98% 45.假设一组数据的取值从−923到899。数据中最大绝对值为923。因此,我们用1000除每个值。因此,−923被规范化为−0.923,而899被规范化为0.899

机器学习数学基础:数理统计与描述性统计

∥☆過路亽.° 提交于 2020-12-04 19:40:32
↑↑↑关注后" 星标 "Datawhale 每日干货 & 每月组队学习 ,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。 今天是概率统计基础的第二篇文章, 基于第一篇 随机变量与随机事件 进行整理, 首先理一理这里面的逻辑,第一篇的内容蕴涵了大部分概率论的知识(除了大数定律和中心极限定理这种理论性的支持, 后期有机会会补上)。而今天的这篇内容是在概率论的基础上往前一步, 属于数理统计的内容。 概率论中, 我们研究随机现象, 随机变量, 但是我们是假设它们的分布已知, 比如已知某一随机变量服从什么分布, 在这个基础上研究性质, 特点和规律(数字特征啊, 随机变量分布啊等), 而数理统计中, 我们研究随机变量的分布未知或者一部分未知, 要去做的就是通过从未知分布中抽取多个样本, 对这些数据进行统计分析, 从而研究随机变量的分布等。 大纲如下: 数理统计的基础(基础概念, 统计量与抽样分布, 常用统计量) 描述性统计(数据集中趋势和离散趋势, 分布特征, 偏度与峰度) 数理统计基础 前面已经分析了数理统计是基于是通过从未知分布中抽取多个样本, 对这些数据进行统计分析进而去分析随机变量的规律和特点,

(数据科学学习手札79)基于geopandas的空间数据分析——深入浅出分层设色

和自甴很熟 提交于 2020-08-17 03:58:20
本文对应代码和数据已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   通过前面的文章,我们已经对 geopandas 中的 数据结构 、 坐标参考系 、 文件IO 以及 基础可视化 有了较为深入的学习,其中在 基础可视化 那篇文章中我们提到了分层设色地图,可以对与多边形关联的数值属性进行分层,并分别映射不同的填充颜色,但只是开了个头举了个简单的例子,实际数据可视化过程中的分层设色有一套策略方法。   作为 基于geopandas的空间数据分析 系列文章的第五篇,通过本文你将会学习到基于 geopandas 和机器学习的 分层设色 。 2 基于geopandas的分层设色    地区分布图 ( Choropleth maps ,又叫面量图)作为可能是最常见的一种地理可视化方法,其核心是对某个与矢量面关联的数值序列进行有意义的分层,并为这些分层选择合适美观的色彩,最后完成对地图的着色,优点是美观且直观,即使对地理信息一窍不通的人,也能通过颜色区分出不同面之间的同质性与异质性: 图1   但同样地,如果对数据分层采取的方法有失严谨没有很好的遵循数据特点,会很容易让看到图的人产生出不正确的判断,下面我们按照先分层,后设色的顺序进行介绍。 2.1 基于mapclassify的数据分层  

(数据科学学习手札79)基于geopandas的空间数据分析——深入浅出分层设色

橙三吉。 提交于 2020-08-16 17:28:30
本文对应代码和数据已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   通过前面的文章,我们已经对 geopandas 中的 数据结构 、 坐标参考系 、 文件IO 以及 基础可视化 有了较为深入的学习,其中在 基础可视化 那篇文章中我们提到了分层设色地图,可以对与多边形关联的数值属性进行分层,并分别映射不同的填充颜色,但只是开了个头举了个简单的例子,实际数据可视化过程中的分层设色有一套策略方法。   作为 基于geopandas的空间数据分析 系列文章的第五篇,通过本文你将会学习到基于 geopandas 和机器学习的 分层设色 。 2 基于geopandas的分层设色    地区分布图 ( Choropleth maps ,又叫面量图)作为可能是最常见的一种地理可视化方法,其核心是对某个与矢量面关联的数值序列进行有意义的分层,并为这些分层选择合适美观的色彩,最后完成对地图的着色,优点是美观且直观,即使对地理信息一窍不通的人,也能通过颜色区分出不同面之间的同质性与异质性: 图1   但同样地,如果对数据分层采取的方法有失严谨没有很好的遵循数据特点,会很容易让看到图的人产生出不正确的判断,下面我们按照先分层,后设色的顺序进行介绍。 2.1 基于mapclassify的数据分层  

(数据科学学习手札79)基于geopandas的空间数据分析——深入浅出分层设色

丶灬走出姿态 提交于 2020-08-16 16:40:29
本文对应代码和数据已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   通过前面的文章,我们已经对 geopandas 中的 数据结构 、 坐标参考系 、 文件IO 以及 基础可视化 有了较为深入的学习,其中在 基础可视化 那篇文章中我们提到了分层设色地图,可以对与多边形关联的数值属性进行分层,并分别映射不同的填充颜色,但只是开了个头举了个简单的例子,实际数据可视化过程中的分层设色有一套策略方法。   作为 基于geopandas的空间数据分析 系列文章的第五篇,通过本文你将会学习到基于 geopandas 和机器学习的 分层设色 。 2 基于geopandas的分层设色    地区分布图 ( Choropleth maps ,又叫面量图)作为可能是最常见的一种地理可视化方法,其核心是对某个与矢量面关联的数值序列进行有意义的分层,并为这些分层选择合适美观的色彩,最后完成对地图的着色,优点是美观且直观,即使对地理信息一窍不通的人,也能通过颜色区分出不同面之间的同质性与异质性: 图1   但同样地,如果对数据分层采取的方法有失严谨没有很好的遵循数据特点,会很容易让看到图的人产生出不正确的判断,下面我们按照先分层,后设色的顺序进行介绍。 2.1 基于mapclassify的数据分层  

pycharm 永久注册

[亡魂溺海] 提交于 2020-08-16 12:13:06
pycharm 使用又到期了,找到了破解版亲测(到期日期2099/12/31),绝对简单好用,直接使用步骤: 一,下载pycharm(windows版): https://www.jetbrains.com/pycharm/download/#section=windows 二,下载补丁包: 链接:https://pan.baidu.com/s/1zBhQ20otfYulQMB141wnKA 提取码:6twg 三,把提取的文件夹中的文件.jar文件直接把到pycharm下载的位置的bin文件夹中 把这三个随便一个放到 自己路径中,我的路径:E:\pycharm\PyCharm Community Edition 2018.3.1\bin 四,修改vmoptions尾的2个文件: 其中 -javaagent:E:\pycharm\PyCharm Community Edition 2018.3.1\bin\JetbrainsCrack-2.6.10-release-enc.jar (-javaagent后面是自己的路径 + 补丁包文件名) 修改文件夹的位置: 四,打开pycharm,如果没有输入注册码的,加注册码: BIG3CLIK6F

基于Python的决策树分类器与剪枝

允我心安 提交于 2020-08-14 07:08:04
作者|Angel Das 编译|VK 来源|Towards Data Science 介绍 决策树分类器是一种有监督的学习模型,在我们关心可解释性时非常有用。 决策树通过基于每个层次的多个问题做出决策来分解数据 决策树是处理分类问题的常用算法之一。 为了更好地理解它,让我们看看下面的例子。 决策树通常包括: 根节点 -表示被进一步划分为同质组的样本或总体 拆分 -将节点分为两个子节点的过程 决策节点 -当一个子节点根据某个条件拆分为其他子节点时,称为决策节点 叶节点或终端节点 -不进一步拆分的子节点 信息增益 -要使用一个条件(比如说信息最丰富的特征)来分割节点,我们需要定义一个可以优化的目标函数。在决策树算法中,我们倾向于在每次分割时最大化信息增益。在测量信息增益时,通常使用三种度量。它们是基尼不纯度、熵和分类误差 数学理解 为了理解决策树是如何发展的,我们需要更深入地了解在每一步中如何使用度量使信息增益最大化。 让我们举一个例子,其中我们有包含学生信息的训练数据,如性别、年级、因变量或分类变量,这些变量可以识别学生是否是美食家。我们有以下概述的信息。 学生总数-20人 被归为美食家的学生总数-10 不属于美食家的学生总数-10 P(美食家),即学生成为美食家的概率=(10/20)=0.5 Q(非美食家),学生不是美食家的概率=(10/20)=0.5