kaggle

双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?

自作多情 提交于 2021-02-06 15:11:16
当我们掌握了一定的机器学习和数据挖掘基础理论后,参加一场数据算法竞赛可以接触真实的业务和数据,将理论知识过渡到工程应用,同时可以在竞赛过程中进行反复地思考,强化对理论知识的理解。 本次分享,我将以个人竞赛经历和圈内整体情况为背景和大家聊聊如何进行一场数据挖掘算法竞赛,以及赛前、赛中和赛后需要做哪些事情。最后还将进行一个案例分享,来看看我是如何进行一场比赛的。 注: 本文详细视频 晚7点 在阿里天池分享,链接可回看 https://tianchi.aliyun.com/course/live?liveId=41153 主题大纲 为什么要参加数据挖掘竞赛?能带来什么? 参加竞赛需要哪些基础知识和技能? 如何选择适合自己的竞赛? 竞赛中的几个主要模块议 竞赛过程中最重要的事情 好的竞赛总结比竞赛过程更重要 案例分享( 天池“全国城市计算AI挑战赛”) 为什么要参加数据挖掘竞赛? 从理论知识到从理论知识到工程应用;真实数据,增加项目经验 求职加分,企业看重;企业办赛,人才选拔 奖金的激励(丰厚) 交友,学习,PK高手 参加竞赛需要的基础知识和技能? 理论知识掌握:评价指标、数据分析、特征工程、常用模型 工具的掌握 语言的选择:Python 可视化工具:Matplotlib、Seaborn 数据处理工具:Pandas、NumPy 机器学习库:Sklearn、XGBoost、LightGBM

通过客户流失预测案例感悟数据分析设计方法思考——数据驱动、AI驱动

让人想犯罪 __ 提交于 2021-02-04 12:44:51
国际著名的咨询公司Gartner在2013年总结出了一套数据分析的框架,数据分析的四个层次:描述性分析、诊断性分析、预测性分析、处方性分析。 Gartner于2020年中给出预测,到2024年底,75%的企业机构将从AI试点转为AI运营。同期,Gartner发布了数据与分析领域的十大技术趋势,首先映入眼帘的是:更智能、更高速、更负责的AI,也指出了仪表板的衰落,更青睐上层次和实用化的决策智能。 1. 前言 我们在设计数据分析产品和数据可视化的时候,依据是什么?怎样设计数据分析产品才能给用户更多的业务支撑?我们做趋势预测、精准识别目的是什么? 最近,我有些感悟分享与读者探讨、研究。 对于设计数据分析产品和数据可视化,我们首先想到的是需求,然后是业务机理。但是,在大数据、新一代人工智能高速发展的今天,对比Gartner给出数据分析咨询意见,我们不应拘泥于当前的业务场景,业务创新也可以通过新技术引领。 我们回到数据分析产品和数据可视化设计,除了需求和业务机理以外,我们不妨以金字塔思维模型来构建这样的场景。 一、目的 我们的目的是实现经济发展和利润,解决未来或当下的问题。比如新零售业务核心是围绕客户展开,解决客户发展和流速问题,是企业发展和利润的基石。 二、分析需求和识别待解决问题 分析需求是深入业务机理,重塑业务模型,以发展的眼光识别问题,解决问题。仍以新零售客户发展为例

数据创新商业模式的六种方法

一笑奈何 提交于 2021-02-01 07:43:57
“数据私房菜”已开通微信群,汇聚 3000+ 位小伙伴一同成长学习,加Andy为微信好友(微信号: AndyFeo )申请入群,让我们共建一个 成长型 数据社 区,《数据私房菜》致力于为您提供大数据行业知识干货、就业职位、专业讲座等对每一位 有价值 的信息。 这篇报告和之前我发写过的文章很类似,不过举的例子更加直观一些,所以也发出来给大家参考。这是德勤在2014年的一篇报告解读,数据中台同样要支撑这些商业模式的创新。 所有组织都在努力利用数据去产生新的业务,优化流程从而最大化数据的价值。 本报告总结了三种类型,六种利用数据的商业模式,从而对应数据驱动的业务战略,利用商业画布作为业务模式的解读方式。 类型一:利用数据构建差异化竞争力 这种模式是在下面两种情况下: 1.产品本身还是业务价值的最大输出方式,但是利用数据可以去优化产品的服务 2.数据来使能产品的创新,得到新的价值 对应的创新模式有两种: 1.产品数据创新(Product Innovators) 通过对现有产品产生的数据的分析利用,产生新的服务给同一个客户,这叫产品数据创新。 数据能力需求 这样的商业模式,对于数据处理能力的要求,最多的是在数据产生和存储及分析领域,也就是说,往往数据越多,越全面,则能带来更多的差异化创新。 特征和典型案例 特征: 通过使用或销售一个产品的数据来用来给这个产品增加功能

Type Mismatch Error using randomForest in R

时光怂恿深爱的人放手 提交于 2021-01-29 05:46:42
问题 I am trying to use random forest in R for classifying some kaggle data but I keep getting the following error whenever I try to use the model which I have created. Error in predict.randomForest(fit, newdata = test, type = "class") : Type of predictors in new data do not match that of the training data I am totally lost as to the reason for this error and Google has not been of much help. Any help or insight will be appreciated. The simple code snippet is given below and its in response to one

用Matplotlib轻松复刻分析图,看看哪个城市买房最自由

旧城冷巷雨未停 提交于 2021-01-24 13:59:13
作者 | 费弗里 来源 | Python大数据分析 简介 前不久「贝壳研究院」基于其丰富的房地产相关数据资源,发布了「2020 新一线城市居住报告」: 图1 而在这个报告中有几张数据可视化作品还是比较可圈可点的,作为(在模仿中精进数据可视化)系列文章的开篇之作,我将基于我观察原始数据可视化作品进而构思出的方式,以纯Python的方式模仿复刻图2所示作品: 图2 复刻过程 2.1 观察原作品 其实原作品咋一看上去有点复杂,但经过观察,将原始图片主要元素拆分成几个部分来构思复现方式,还是不算复杂的,我总结为以下几部分: 「1 坐标系部分」 稍微懂点数据可视化的人应该都可以看出原作品的坐标不是常规的笛卡尔坐标系,而是极坐标系,这里复现原作品极坐标系的难点在于,其并不是完整的极坐标系,即左边略小于半圆的区域是隐藏了参考线的。 因此与其在matplotlib中极坐标系的基础上想方法隐藏部分参考线,不如逆向思维,从构造参考线的角度出发,自己组织构造参考线,会更加的自由和灵活。 「2 颜色填充」 这里的「颜色填充」指的是以居住自由指数折线为中线,在购房自由指数折线与租房自由指数折线之间的颜色填充区域,但困难的是这里当购房自由指数高于租房自由指数时对应的颜色为浅蓝绿色,而反过来则变为灰色,与购房自由指数、租房自由指数的颜色相呼应。 图3 2.2 开始动手! 综合考虑前面这些难点

日本「AI 鱼脸识别」项目,每分钟识别 100 条

放肆的年华 提交于 2021-01-24 13:58:03
来源 | HyperAI超神经 头图 | 视觉中国 近日,日本的一个 AI 分拣鱼类项目进入实验阶段。这将有望改善日本渔业劳动力老龄化及短缺的社会现状。 日本作为岛国,其独特的地理位置,让国民自古以来就跟鱼结下了不解之缘,甚至形成了其独特的「鱼文化」。因此,日本无论是在养鱼、捕鱼还是吃鱼方面,都堪称国际代表。 但是近年来,日本渔业却面临劳动力老龄化与短缺的压力,为此,相关部门正在推动渔业的自动化作业,以及时弥补人力空缺。 AI 看图识鱼,每分钟分装 100 条 餐桌上每一道鲜美的海鱼背后,都离不开渔民的辛苦工作。每一次的出海,渔民们不仅负责将海鲜打捞上船,为了保证渔获的新鲜,他们还要在最短的时间里将其分拣、冲洗、冷藏。 时间的紧迫,往往让他们顾不得天气状况,于是顶着烈日或冒雨作业都是家常便饭。 打渔这份艰辛的工作,越来越难以吸引年轻人。人口老龄化、劳动力短缺,成为制约日本渔业发展的一大因素。 近日,日本青森县八户市则开启了一项前所未有的实验——使用配备有 AI 系统与摄像头的设备,代替渔民,对捕捞上来的活鱼进行自动分类。 在短短 35 分钟的时间里,这台设备就分拣了约 1 吨的鲑鱼、鳕鱼、青花鱼和鲱鱼。 这一项目从 2018 年就已启动,日本农业、林业和渔业部出资 1.3 亿日元(约合人民币 812.7 万元),共同委托青森县产业技术中心食品研究所

岗位内推 | 阿里巴巴设备风控团队招聘高级数据挖掘工程师

空扰寡人 提交于 2021-01-23 13:18:17
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 阿里安全设备风控团队招人啦~ 团队站在黑灰产攻防技术前沿,服务于整个阿里数字经济体。是集团唯一一只专注于设备风控及设备指纹的团队。团队技术氛围浓厚、小伙伴专业靠谱,包括但不限于 frida-ios-dump 作者、GeekPwn 获奖选手、CTF 大佬。在这里,基于复杂业务场景的攻防对抗每天都在发生。数字技术正在构建前所未有的全新世界,身处变化的前沿,我们面对的是互联网企业中最为丰富的业态和风险。毫无疑问,这是对检验和提升自身能力最好的练兵场。 高级数据挖掘工程师 工作地点: 杭州 薪资: 提供业内有竞争力的薪资,具体视能力而定。 岗位描述: 1. 挖掘并分析设备行为序列,搭建异常检测模型; 2. 应用机器学习相关技术,挖掘异常数据; 3. 安全检测领域前沿技术跟踪,结合已有数据基础,进行原型系统的研发和验证。 岗位要求: 1. 良好的逻辑思考能力,可以从海量数据中挖掘出有价值的规律; 2. 熟悉至少一种常用深度学习框架(Tensorflow, PyTorch); 3. 熟悉异常检测常用算法及评价指标; 4. ASR、NLP 及时间序列信号分析相关领域经验优先; 5. 天池、Kaggle

GBDT+LR:Practical Lessons from Predicting Clicks on Ads

丶灬走出姿态 提交于 2021-01-16 05:02:06
1. 介绍 1.1 论文背景 本文主要介绍Facebook提出的CTR预估模型LR(Logistic Regression)+GBDT。当时深度学习还没有应用到计算广告领域,Facebook提出利用GBDT的叶节点编号作为非线性特征的表示,或者说是组合特征的一种方式。 LR+GBDT相比于单纯的LR或者GBDT带来了较大的性能提升,论文中给出数据为3%,这在CTR预估领域确实非常不错。除此之外,Facebook还在在线学习、Data freshness、学习速率、树模型参数、特征重要度等方面进行了探索。 相比于搜索广告领域,根据用户query来给出候选广告,然后利用Rank模型对候选广告进行排序。这些广告要么显式要么隐式的和用户query相关联。但是在Facebook这样的社交场合中,广告并没有和用户query相关联,但是用户看到的广告一定程度上反映了用户的人口统计特性和兴趣特性。基于这个原因,在Facebook上展示的广告相比于搜索广告中的要多一些。 在实际的生产环境中,为每个用户确定广告候选是一件系统性设施工作,Facebook主要通过做多个分类器级联来实现。但是论文中分析的是最后的那一个prediction模型。它直接给出最后的CTR概率。 1.2 研究背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节

ICPR 2020|大规模商品图像识别挑战赛冠军技术干货分享

断了今生、忘了曾经 提交于 2021-01-15 22:51:17
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 来源:新智元 编辑:SF 【导读】 近日,国际模式识别大会(ICPR 2020)拉开帷幕,各个workshop也公布了各项挑战赛的结果,来自中国的DeepBlueAI 团队斩获了由ICPR 2020、Kaggle和JDAI等联合举办大规模商品图像识别挑战赛冠军。 赛题介绍 随着互联网技术和电子商务的迅猛发展,人们的购物方式逐步由传统实体店购物变为网络购物。为了充分满足客户海量、多样化的网上购物需求,人工智能零售系统需要快速地从图像和视频中自动识别出产品的存货单元(Stock Keeping Unit,SKU)级别的类别,然而,许多SKU级别的产品都是细粒度的,可以看出它们在视觉上是相似的。 JDAI构建了一个名为Products-10K[1]的产品识别数据集,这是迄今为止最大的一个产品识别数据集,其中包含了约10000种经常被中国消费者购买的产品,涵盖了时尚、3C、食品、保健、家居用品等全品类。 该赛题由JDAI和ICPR 2020、Kaggle等联合举办,要求参数者开发算法基于提供的产品图片进行细粒度分类。 评测指标 本次赛题采用的是Overall Accuracy 团队成绩 DeepBlueAI团队通过数据分析,网络结构设计以及loss改进等逐步优化算法,最好的单模在Public &