lightgbm

Lightgbm early stopping not working propperly

妖精的绣舞 提交于 2020-06-29 03:42:52
问题 I'm using light gbm for some machine learning task. I want to use early stopping to find the optimal number of trees given a number of hyperparameters. However, lgbm stops growing trees while still improving on my evaluation metric. Below I've attached my specifications: params = { 'max_bin' : [128], 'num_leaves': [8], 'reg_alpha' : [1.2], 'reg_lambda' : [1.2], 'min_data_in_leaf' : [50], 'bagging_fraction' : [0.5], 'learning_rate' : [0.001] } mdl = lgb.LGBMClassifier(n_jobs=-1, n_estimators

Lightgbm early stopping not working propperly

两盒软妹~` 提交于 2020-06-29 03:42:37
问题 I'm using light gbm for some machine learning task. I want to use early stopping to find the optimal number of trees given a number of hyperparameters. However, lgbm stops growing trees while still improving on my evaluation metric. Below I've attached my specifications: params = { 'max_bin' : [128], 'num_leaves': [8], 'reg_alpha' : [1.2], 'reg_lambda' : [1.2], 'min_data_in_leaf' : [50], 'bagging_fraction' : [0.5], 'learning_rate' : [0.001] } mdl = lgb.LGBMClassifier(n_jobs=-1, n_estimators

树模型常见面试题(以XGBoost为主)

强颜欢笑 提交于 2020-04-28 02:05:34
参考资料: 珍藏版 | 20道XGBoost面试题 推荐系统面试题之机器学习(一) -----树模型 1. 简单介绍一下XGBoost 2. XGBoost与GBDT有什么不同 3. XGBoost为什么使用泰勒二阶展开 4. XGBoost为什么可以并行训练 5. XGBoost为什么快 6. XGBoost防止过拟合的方法 7. XGBoost如何处理缺失值 8. XGBoost中叶子结点的权重如何计算出来 9. XGBoost中的一棵树的停止生长条件 10. RF和GBDT的区别 11. XGBoost如何处理不平衡数据 12. 比较LR和GBDT,说说什么情景下GBDT不如LR 13. XGBoost中如何对树进行剪枝 14. XGBoost如何选择最佳分裂点? 15. XGBoost的Scalable性如何体现 16. XGBoost如何评价特征的重要性 17. XGBooost参数调优的一般步骤 18. XGBoost模型如果过拟合了怎么解决 19.为什么XGBoost相比某些模型对缺失值不敏感 20. XGBoost和LightGBM的区别 来源: oschina 链接: https://my.oschina.net/u/4255576/blog/3342480

Boosting算法的前世今生(下篇)

主宰稳场 提交于 2020-04-24 23:26:44
微信公众号: AIKaggle 欢迎建议和拍砖,若需要资源,请公众号留言; 如果你觉得AIKaggle对你有帮助,欢迎赞赏 Boosting算法的前世今生(下篇) [TOC] 本系列文章将会梳理Boosting算法的发展,介绍Boosting算法族的原理,框架,推导等,Boosting算法的前世今生(上篇)介绍了AdaBoost算法和梯度提升树算法,中篇详细介绍了陈天奇教主提出的XGBoost算法,下篇(本文)将会介绍LightGBM算法,CATBoost算法。LightGBM算法由Microsoft Research提出,主打梯度提升算法的轻量级实现,他的两个创新点在于基于单边梯度的采样算法(GOSS)和互斥系数特征合并(EFB)。而CatBoost是由俄罗斯Yandex公司提出的,他嵌入了自动将类别特征处理为数值型特征的创新型算法,并且使用完全对称树作为基模型。如果对机器学习算法和实战案例感兴趣,也可关注公众号:AIKaggle获取算法动态 引言 传统的boosting算法(如GBDT和XGBoost)已经有相当好的效率,但是在如今的大样本和高维度的环境下,传统的boosting似乎在效率和可扩展性上不能满足现在的需求了,主要的原因就是传统的boosting算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点,这是非常的耗时。 LightGBM 的提出

How to compare feature selection regression-based algorithm with tree-based algorithms?

十年热恋 提交于 2020-04-16 02:47:07
问题 I'm trying to compare which feature selection model is more eficiente for a specific domain. Nowadays the state of the art in this domain (GWAS) is regression-based algorithms (LR, LMM, SAIGE, etc), but I want to give a try with tree-based algorithms (I'm using LightGBM LGBMClassifier with boosting_type='gbdt' as the cross-validation selected for me as most efficient one). I managed to get something like: Regression based alg --------------------- Features P-Values f1 2.49746e-21 f2 5.63324e

文本分类模型第三弹:BoW(Bag of Words) + TF-IDF + LightGBM

青春壹個敷衍的年華 提交于 2020-04-15 09:35:52
【推荐阅读】微服务还能火多久?>>> 一、前言 本文是文本分类模型的第三弹,利用词袋模型(BoW),词频逆文档频率(TF-IDF)与 LightGBM 模型进行文本分类。 原本计划的第三弹内容为 TextCNN 网络,介于最近刚刚利用 LightGBM 完成了一个简单的文本分类的任务,就趁热记录一下,作为第三弹的内容。 这里是文本分类系列: 文本分类模型第一弹:关于Fasttext,看这一篇就够了 文本分类模型第二弹:HAN(Hierarchy Attention Network) 文本分类模型第三弹:BoW(Bag of Words) + TF-IDF + LightGBM 二、相关论文及理论 1.LightGBM 这里是 LightGBM 提出的论文《 LightGBM: A Highly Efficient Gradient Boosting Decision Tree 》,LightGBM 本质上也是 梯度提升树(GBDT)的优化模型,GBDT 的本质是回归树模型,在做分类任务时,通过“回归相应类别”的概率值,来曲线完成分类任务。LightGBM 与上一代 kaggle 神器 Xgboost 相比,由于采用了直方图算法(用于特征处理),和 Leaf-wise 的树分裂方法(用于模型构建),模型准确度更高,训练耗时更低。其不仅应用于传统的机器学习回归及二分类,多分类任务,在

个性化排序算法实践(四)——GBDT+LR

折月煮酒 提交于 2020-04-09 05:10:45
本质上GBDT+LR是一种具有 stacking 思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。 点击率预估模型涉及的训练样本一般是上亿级别,样本量大,模型常采用速度较快的LR。但LR是线性模型,学习能力有限,此时特征工程尤其重要。现有的特征工程实验,主要集中在寻找到有区分度的特征、特征组合,折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合,减少特征工程中人力成本。 思想 GBDT+LR 由两部分组成,其中GBDT用来对训练集提取特征作为新的训练输入数据,LR作为新训练输入数据的分类器。 GBDT首先对原始训练数据做训练,得到一个二分类器,当然这里也需要利用网格搜索寻找最佳参数组合。 与通常做法不同的是,当GBDT训练好做预测的时候,输出的并不是最终的二分类概率值,而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1,这样,就构造出了新的训练数据。 设GBDT有两个弱分类器,分别以蓝色和红色部分表示,其中蓝色弱分类器叶子结点个数为3,红色弱分类器叶子结点个数为2

【集成学习】lightgbm调参案例

拜拜、爱过 提交于 2020-03-27 09:38:18
3 月,跳不动了?>>> lightgbm使用leaf_wise tree生长策略,leaf_wise_tree的优点是收敛速度快,缺点是容易过拟合。 # lightgbm关键参数 # lightgbm调参方法cv 代码github地址 1 # -*- coding: utf-8 -*- 2 """ 3 # 作者:wanglei5205 4 # 邮箱:wanglei5205@126.com 5 # 博客:http: //cnblogs.com/wanglei5205 6 # github:http: //github.com/wanglei5205 7 """ 8 ### 导入模块 9 import numpy as np 10 import pandas as pd 11 import lightgbm as lgb 12 from sklearn import metrics 13 14 ### 载入数据 15 print ('载入数据') 16 dataset1 = pd.read_csv('G:/ML/ML_match/IJCAI/ data 3.22/3.22ICJAI/ data /7_train_data1.csv') 17 dataset2 = pd.read_csv('G:/ML/ML_match/IJCAI/ data 3.22/3.22ICJAI/ data

矩池云 | 使用LightGBM来预测分子属性

末鹿安然 提交于 2020-03-27 09:36:18
3 月,跳不动了?>>> 今天给大家介绍提升方法(Boosting), 提升算法是一种可以用来减小监督式学习中偏差的机器学习算法。 面对的问题是迈可·肯斯(Michael Kearns)提出的:一组“弱学习者”的集合能否生成一个“强学习者”? 弱学习者一般是指一个分类器,它的结果只比随机分类好一点点。强学习者指分类器的结果非常接近真值。 大多数提升算法包括由迭代使用弱学习分类器组成,并将其结果加入一个最终的成强学习分类器。加入的过程中,通常根据它们的分类准确率给予不同的权重。加和弱学习者之后,数据通常会被重新加权,来强化对之前分类错误数据点的分类。 提升算法有种三个臭皮匠顶个诸葛亮的意思。在这里将使用微软的LightGBM这个提升算法,来预测分子的一个属性,叫做耦合常数。 导入需要的库 import os import time import datetime import json import gc from numba import jit import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline from tqdm import tqdm_notebook from sklearn.preprocessing import StandardScaler

WSDM Cup 2020检索排序评测任务第一名经验总结

安稳与你 提交于 2020-03-26 17:02:00
3 月,跳不动了?>>> 1.背景 第13届“国际网络搜索与数据挖掘会议”( WSDM 2020 )于2月3日在美国休斯敦召开,该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办,在互联网搜索、数据挖掘领域享有很高学术声誉。本届会议论文录用率仅约15%,并且WSDM历来注重前沿技术的落地应用,每届大会设有的WSDM Cup环节提供工业界真实场景中的数据和任务用以研究和评测。 今年的 WSDM Cup 设有3个评测任务,吸引了微软、华为、腾讯、京东、中国科学院、清华大学、台湾大学等众多国内外知名机构的参与。美团搜索与NLP部继去年获得了 WSDM Cup 2019第二名 后,今年继续发力,拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜单的第一名。 本次参与的是由微软研究院提出的Citation Intent Recognition评测任务,该任务共吸引了全球近600名研究者的参与。本次评测中我们引入高校合作,参评团队Ferryman由搜索与NLP部-NLP中心的刘帅朋、江会星及电子科技大学、东南大学的两位科研人员共同组建。团队提出了一种基于BERT和LightGBM的多模融合检索排序解决方案,该方案同时被WSDM Cup 2020录用为 专栏论文 。 2.任务简介 本次参与的任务一(WSDM