决策树 | 易学教程

GBDT+LR：Practical Lessons from Predicting Clicks on Ads

阅读更多关于 GBDT+LR：Practical Lessons from Predicting Clicks on Ads

1. 介绍 1.1 论文背景本文主要介绍Facebook提出的CTR预估模型LR(Logistic Regression)+GBDT。当时深度学习还没有应用到计算广告领域，Facebook提出利用GBDT的叶节点编号作为非线性特征的表示，或者说是组合特征的一种方式。 LR+GBDT相比于单纯的LR或者GBDT带来了较大的性能提升，论文中给出数据为3%，这在CTR预估领域确实非常不错。除此之外，Facebook还在在线学习、Data freshness、学习速率、树模型参数、特征重要度等方面进行了探索。相比于搜索广告领域，根据用户query来给出候选广告，然后利用Rank模型对候选广告进行排序。这些广告要么显式要么隐式的和用户query相关联。但是在Facebook这样的社交场合中，广告并没有和用户query相关联，但是用户看到的广告一定程度上反映了用户的人口统计特性和兴趣特性。基于这个原因，在Facebook上展示的广告相比于搜索广告中的要多一些。在实际的生产环境中，为每个用户确定广告候选是一件系统性设施工作，Facebook主要通过做多个分类器级联来实现。但是论文中分析的是最后的那一个prediction模型。它直接给出最后的CTR概率。 1.2 研究背景 CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节

PMP基本概念

阅读更多关于 PMP基本概念

商业文件：商业论证和效益管理计划，可以找到关于项目目标以及项目对业务目标的贡献的相关信息商业论证：经批准的商业论证或类似文件是最常用语指定项目章程的商业文件效益成本分析：是项目启动时考虑项目是否值得做的分析方法效益管理计划：项目效益管理计划描述了项目实现效益的方式和时间，以及应制定的效益衡量机制。项目效益指为发起组织和项目预期受益方创造价值的行动、行为、产品、服务或成果的结果。项目生命周期早期应确定目标效益，并据此制定效益管理计划。它描述了效益的关键要素，可能包括（但不限于）记录以下内容：目标效益（例如预计通过项目实施可以创造的有形价值和无形价值；财务价值体现为净现值）；战略一致性（例如项目效益与组织业务战略的一致程度）；实现效益的时限（例如阶段效益、短期效益、长期效益和持续效益）；效益责任人（例如在计划确定的整个时限内负责监督、记录和报告已实现效益的负责人）；测量指标（例如用于显示已实现效益的直接测量值和间接测量值）；假设（例如预计存在或显而易见的因素）；风险（例如实现效益的风险）。制定效益管理计划需要使用商业论证和需求评估中的数据和信息，例如，成本效益分析数据。在成本效益分析中已经把成本估算与项目拟实现的效益进行了比较。效益管理计划和项目管理计划描述了项目创造的商业价值如何能够成为组织持续运营的一部分，包括使用的测量指标

朴素贝叶斯分类-理论篇-如何通过概率解决分类问题

阅读更多关于朴素贝叶斯分类-理论篇-如何通过概率解决分类问题

贝叶斯原理是英国数学家托马斯·贝叶斯于18 世纪提出的，当我们不能直接计算一件事情（A）发生的可能性大小的时候，可以间接的计算与这件事情有关的事情(X，Y，Z)发生的可能性大小，从而间接判断事情（A）发生的可能性大小。在介绍贝叶斯原理之前，先介绍几个与概率相关的概念。 1，概率相关概念概率用于描述一件事情发生的可能性大小，用数学符号 P(x) 表示， x 表示随机变量， P(x) 表示 x 的概率。随机变量根据变量取值是否连续，可分为离散型随机变量和连续型随机变量。联合概率由多个随机变量共同决定，用 P(x, y) 表示，含义为“事件 x 与事件 y 同时发生的概率”。条件概率也是由多个随机变量共同决定，用 P(x|y) 表示，含义为“在事件 y 发生的前提下，事件 x 发生的概率。” 边缘概率：从 P(x, y) 推导出 P(x) ，从而忽略 y 变量。对于离散型随机变量，通过联合概率 P(x, y) 在 y 上求和，可得到 P(x) ，这里的 P(x) 就是边缘概率。对于连续型随机变量，通过联合概率 P(x, y) 在 y 上求积分，可得到 P(x) ，这里的 P(x) 就是边缘概率。概率分布：将随机变量所有可能出现的值，及其对应的概率都展现出来，就能得到这个变量的概率分布，概率分布分为两种，分别是离散型和连续型。

机器学习（十一）—常用机器学习算法优缺点对比、适用条件

阅读更多关于机器学习（十一）—常用机器学习算法优缺点对比、适用条件

1、决策树　　适用条件：数据不同类边界是非线性的，并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多，因为信息增益偏向于更多数值的特征。　　优点： 1.直观的决策规则；2.可以处理非线性特征；3.考虑了变量之间的相互作用。　　缺点： 1.容易过拟合（随机森林、剪枝）；2.处理缺失数据时的困难；3、数据集中属性间的相关性。 2、SVM 　　适用条件：特征空间大，可以处理非线性的特征。　　优点： 1、可以处理小样本情况下的机器学习问题；2、可以处理高维特征；3、使用核函数应对非线性特征空间，解决非线性问题；4、分类面不依赖所有数据，只与几个支持向量有关　　缺点： 1.对于大量的预测样本，效率会很低；2.需要找合适的核函数。3、对缺失数据敏感 3、LR 　　适用条件：数据线性分布；　　优点： 1.模型简单，训练速度快；2.逻辑回归广泛应用与工业问题上。　　缺点： 1、形式简单，但准确率不是很高；2、依赖所有数据，很难处理数据不平衡问题；3、处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下，只能处理线性可分的数据，或者进一步说，处理二分类的问题；4、逻辑回归本身无法筛选特征。有时候，我们会用gbdt来筛选特征，然后再上逻辑回归。 4、三者对比：　　模型复杂度：SVM支持核函数，可处理线性非线性问题

决策树是如何选择特征和分裂点？

阅读更多关于决策树是如何选择特征和分裂点？

©PaperWeekly 原创 · 作者｜贲忠奇单位｜便利蜂算法工程师研究方向｜推荐算法、反作弊缘起在解决回归和分类问题的时候，一般会使用 Random Forest、GBDT、XGBoost、LightGBM 等算法，这类算法因为性能好，被业界广泛采用。突然想到树类型的算法都需要明白一个基本问题，树是如何选择特征和分裂点的？其根本要追溯到决策树的种类，每种是如何划分特征和分裂点，以及如何剪枝的。决策树分为三类：ID3、C4.5、CART。提出时间却是 1984 年提出 CART，1986年提出的 ID3，1993 年提出的 C4.5。在介绍决策树之前需要了解一些信息论的知识，信息、熵、条件熵、信息增益。决策树中的 ID3 和 C4.5 与信息论息息相关。信息论基础信息是杂乱无章数据的一种度量方式。在分类问题中，如果待分类的事物可以划分在多个分类中，那么某个分类的信息定义为：其中，是某个分类的信息；是选择该分类的概率。熵是信息的期望，也就是计算所有分类包含信息的期望值：其中，H(Y) 表示分类数据集的熵。条件熵是在特征 X 给定条件下，类别 Y 的条件概率分布的熵对特征 X 的数学期望。其中，表示在特征 X 下的条件熵；表示特征下具体特征值的条件熵；表示 x 和 y 的联合概率分布。在划分数据集之前之后信息发生的变化叫做信息增益

【知乎热文】数据分析师的出路在哪儿

阅读更多关于【知乎热文】数据分析师的出路在哪儿

// 定义出路 // 出路，在每个行业都是一个热门话题：英语老师的出路在哪里，外贸跟单的出路在哪里，数据库工程师的出路在哪里，大前端全栈的出路在哪里甚至阿里巴巴，腾讯，百度，京东也在讨论：阿里巴巴百年老品牌的出路在哪里，腾讯抛开游戏之后，出路在哪里, 移动互联后，百度的出路在哪里，风波不断的京东，出路在哪里几乎每个行业都在讨论这话题！既然那么多优秀的领袖、翘楚、自媒体新贵都在谈出路，可以证明的是大家都看不清前面的路该怎么走，都有一定的焦虑！不同的是有些出路仅仅是找口饭吃，有些出路是为其他找出路的人找到饭吃。对于数据分析师这行，要找到出路，首先就要定义出路！找口饭吃的出路很简单，网传“7 周成为数据分析师”，不是不可能。就看你的方法，你的资源，你的团队是不是够有效！当然我是绝对看不惯这种标题党似的文章，害人么不是！就跟 21 天学完 C++ 似的，学不好的人都在这些标题党上丢了自信。哎，我也是其中之一！数据分析要绝对和数据统计区分开来，分析带有一定的“利润基础”，而统计则完全是“人力”基础。凡是“利润”即为“利润中心”，凡是“人力”，则为成本！人力在将来会被机器代替，这是不争的事实，所以我们要做的是成为“利润中心”，为企业创收。即称自己是分析师，那么出路就要定义成“为企业造富的人才”。任何人都有可能为企业造福，但数据分析师怎么为企业造富呢？ //

Feature selection using SelectFromModel

阅读更多关于 Feature selection using SelectFromModel

SelectFromModel sklearn在Feature selection模块中内置了一个SelectFromModel，该模型可以通过Model本身给出的指标对特征进行选择，其作用与其名字高度一致，select （feature） from model。 SelectFromModel 是一个通用转换器,其需要的Model只需要带有 conef_ 或者 feature_importances 属性,那么就可以作为SelectFromModel的Model来使用. 如果相关的 coef_ 或者 featureimportances 属性值低于预先设置的阈值，这些特征将会被认为不重要并且移除掉。除了指定数值上的阈值之外，还可以通过给定字符串参数来使用内置的启发式方法找到一个合适的阈值。可以使用的启发式方法有 mean 、 median 以及使用浮点数乘以这些（例如，0.1*mean ）。根据基础学习的不同，在estimator中有两种选择方式第一种是基于L1的特征选择，使用L1正则化的线性模型会得到稀疏解，当目标是降低维度的时候，可以使用sklearn中的给予L1正则化的线性模型，比如LinearSVC，逻辑回归，或者Lasso。但是要注意的是：在 SVM 和逻辑回归中，参数 C 是用来控制稀疏性的：小的 C 会导致少的特征被选择。使用 Lasso，alpha 的值越大

Python —— sklearn.feature_selection模块

阅读更多关于 Python —— sklearn.feature_selection模块

Python —— sklearn.feature_selection模块 sklearn.feature_selection模块的作用是feature selection，而不是feature extraction。 Univariate feature selection：单变量的特征选择单变量特征选择的原理是分别单独的计算每个变量的某个统计指标，根据该指标来判断哪些指标重要。剔除那些不重要的指标。 sklearn.feature_selection模块中主要有以下几个方法： SelectKBest和SelectPercentile比较相似，前者选择排名排在前n个的变量，后者选择排名排在前n%的变量。而他们通过什么指标来给变量排名呢？这需要二外的指定。对于regression问题，可以使用f_regression指标。对于classification问题，可以使用chi2或者f_classif变量。回归： f_regression：相关系数，计算每个变量与目标变量的相关系数，然后计算出F值和P值；分类 : chi2：卡方检验； f_classif：方差分析，计算方差分析（ANOVA）的F值 (组间均方 / 组内均方)；使用的例子： 1 from sklearn.feature_selection import SelectPercentile, f_classif 2

听说你一直在找的数据分析教程，终终终于免费啦！

阅读更多关于听说你一直在找的数据分析教程，终终终于免费啦！

从各大招聘网站中可以看到，今年招聘信息少了很多，但数据分析相关岗位有一定增加，而数据分析能力几乎已成为每个岗位的必备技能。是什么原因让企业如此重视“数据人才”？伴随滴滴出行、智慧营销等的落地商用，部分企业尝到了数据带来的巨额红利，各大企业开始关注曾经“无用”的数据。如今，企业每天会产生海量的数据，BAT日均数据更是达到了PB级别。因此，企业需要大量专业人才来分析挖掘数据的价值，以提升企业利润。所以市场上才会出现如此巨大的数据人才需求。可以说，数据分析将是每个从业者个人能力最重要的补充，也是BAT这类大公司急招人才的必备技能。但是一提数据分析，很多人就觉得无从下手，知识点零散总是抓不住重点，学习起来相当吃力，常常毫无头绪，搞不清关键数据。别急，这有一份由开课吧提供赞助，并由廖雪峰历时3个月精心打磨的《数据分析全套讲解》学习视频。本资料是最新升级版本，包含了基础和进阶两大部分内容，可帮你全面迅速提升数据分析技能，还能指导你用数据化思维工作，让分析有章可循。这套全新的数据分析资料原价值1980元，现在小编为大家争取到了 168个免费名额（超额之后需要付费观看哦）。（ ps：篇幅原因只列出关键知识点，详细资料扫码领取）一、基础篇-数据分析必备技能本部分由浅入深系统化讲解，内容详尽

21.决策树(ID3/C4.5/CART)

阅读更多关于 21.决策树(ID3/C4.5/CART)

总览算法功能树结构特征选择连续值处理缺失值处理剪枝 ID3 分类多叉树信息增益不支持不支持不支持 C4.5 分类多叉树信息增益比支持支持支持 CART 分类/回归二叉树基尼系数,均方差支持支持支持论文链接： ID3： https://link.springer.com/content/pdf/10.1007%2FBF00116251.pdf 　　 C4.5： https://link.springer.com/content/pdf/10.1007%2FBF00993309.pdf sklearn库： https://www.studyai.cn/modules/tree.html 每个样本的输出概率prob：对于一个叶子节点，该叶子节点预测类别对应的训练样本数占该叶子节点所有训练样本数的比例。决策树可视化： https://www.cnblogs.com/pinard/p/6056319.html 1.ID3（分类）信息熵：随机变量不确定性的度量 $$H(D) = -\sum\limits_{k=1}^{K}\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$$ 条件信息熵：在特征A给定的条件下对数据集D分类的不确定性 $$H(D|A) = -\sum\limits_{i=1}^{n}\frac{|D

订阅决策树