kaggle

方差分析介绍(结合COVID-19案例)

自作多情 提交于 2020-10-04 08:01:24
作者|GUEST BLOG 编译|VK 来源|Analytics Vidhya 介绍 “事实是每个人都相信的简单陈述。也就是事实是没有错的,除非它被人发现了错误。假设有一个没人愿意相信的建议,那么它要直到被发现有效的时候才能成为事实。” –爱德华·泰勒 我们正在应对一场空前规模的流行病。全世界的研究人员都在疯狂地试图开发一种疫苗或COVID-19的治疗方法,而医生们正试图阻止这种流行病席卷整个世界。 我最近有了一个想法,把我的统计知识应用到这些大量COVID数据中。 考虑这样一个场景:医生有四种医疗方法来治疗病人。一旦我们有了测试结果,用最少时间治愈病人的治疗会是最好的方法。 但如果这些病人中的一些已经部分治愈,或者其他药物已经在治疗他们呢? 为了作出一个有信心和可靠的决定,我们需要证据来支持我们的做法。这就是方差分析的概念发挥作用的地方。 在本文中,我将向你介绍方差分析测试及其用于做出更好决策的不同类型。我将在Python中演示每种类型的ANOVA(方差分析)测试,以可视化它们并处理COVID-19数据。 注意:你必须了解统计学的基本知识才能理解这个主题。最好了解t检验和假设检验。 什么是方差分析测试(ANOVA) 方差分析,或称方差分析,可以看作是两组以上的t检验的推广。独立t检验用于比较两组之间的条件平均值。当我们想比较两组以上患者的病情平均值时,使用方差分析。

时代变了,大人:RTX3090时代,哪款显卡配得上我的炼丹炉?

浪尽此生 提交于 2020-10-03 10:55:38
  机器之心报道    机器之心编辑部    黄老板的 RTX 30 系列显卡 9 月 17 日就要发售了,现在我要怎么买 GPU?很急很关键。   在 9 月 2 日RTX 30 系列发布时,英伟达宣传了新显卡在性能上和效率上的优势,并称安培可以超过图灵架构一倍。但另一方面,除了 3090 之外,新一代显卡的显存看起来又有点不够。在做 AI 训练时,新一代显卡效果究竟如何?      近日,曾经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在华盛顿大学读博的知名评测博主 Tim Dettmers 发布了一篇新文章,就深度学习从业者如何选择 GPU 发表了他的看法。   众所周知,深度学习是一个很吃算力的领域,所以,GPU 选得好不好直接决定了你的炼丹体验。那么,哪些指标是你在买 GPU 时应该重视的呢?RAM、core 还是 tensor core?如何做出一个高性价比的选择?文本将重点讨论这些问题,同时指出一些选购误区。      RTX 3070 打 2080Ti,这是真的吗?不少人已经被这样一张性能对比图「改变了信仰」。    选择 GPU 时你需要知道的东西   在选购 GPU 之前,你需要知道一些指标在深度学习中意味着什么。   首先是 Tensor Core,它可以让你在计算乘法和加法时将时钟周期降至 1/16,减少重复共享内存访问

推荐 :机器学习集成学习与模型融合!

无人久伴 提交于 2020-10-01 18:31:26
Datawhale干货 作者: 李祖贤,深圳大学,Datawhale高校群成员 对比过kaggle比赛上面的top10的模型,除了深度学习以外的模型基本上都是集成学习的产物。集成学习可谓是上分大杀器,今天就跟 大家分享在Kaggle或者阿里天池上面大杀四方的数据科学比赛利器---集成学习。 一、什么是集成学习 正所谓“三个臭皮匠赛过诸葛亮”的道理,在机器学习数据挖掘的工程项目中,使用单一决策的弱分类器显然不是一个明智的选择,因为各种分类器在设计的时候都有自己的优势和缺点,也就是说每个分类器都有自己工作偏向,那集成学习就是平衡各个分类器的优缺点,使得我们的分类任务完成的更加优秀。 在大多数情况下,这些基本模型本身的性能并不是非常好,这要么是因为它们具有较高的偏差(例如,低自由度模型),要么是因为他们的方差太大导致鲁棒性不强(例如,高自由度模型)。集成方法的思想是通过将这些弱学习器的偏差和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。 集成学习的方法: 1. 基于投票思想的多数票机制的集成分类器(MajorityVoteClassifier) 2. 于bagging思想的套袋集成技术(BaggingClassifier) 3. 基于boosting思想的自适应增强方法(Adaboost) 4. 分层模型集成框架stacking(叠加算法) 二

企业数字化转型,AI平台能力建设是关键

北战南征 提交于 2020-09-30 15:56:25
企业数字化转型迎来一波又一波热潮。 IDC研究数据显示,目前中国已有41.4%的企业成为数字化转型的坚定者,到2023年,全球超过一半的GDP将由数字化转型企业的产品和服务推动。 加速数字化转型、让业务智能化,许多行业均认可这是全面提升企业竞争力最可靠、最主流的路径,紧迫感如影随形。专业的数据科学人才还远远无法补足市场,企业对人才的需求就已经升级为既懂业务又懂技术的复合型精英。 为了快速提升竞争力获得市场先机,企业决策者们选择将目光投向更智能、更高效的AI平台能力的建设及其应用。 AI平台—数字化转型的关键 企业的数字化转型起于“数据”,落于“场景”,AI技术的作用是通过“数据分析及洞悉信息背后的价值”加速和优化这一进程,而AI平台作为技术的载体能让这一进程更加敏捷、易于使用可视、可自主操作。 从美国回国创办DataCanvas九章云极的方磊和尚明栋专注AI平台已有7年,成为国内最早一批自动化数据科学平台供应商。他们研发的DataCanvas自动化数据科学平台目前已经服务金融、通信、交通、制造、零售等行业中数百家企业及政府单位。 早在清华大学、弗吉尼亚理工和美国微软研究院专注数据科学研究和应用时,方磊先生即看到AI平台的大片蓝海。他敏锐洞察到,未来企业立足行业的制胜关键不是数据储备,而是自身数据分析及驾驭信息价值的能力。因此

美国AI博士指出:60天掌握Python全栈需要...

家住魔仙堡 提交于 2020-09-30 09:33:41
我见过市面上很多的 Python 讲解教程和书籍,他们大都这样讲 Python 的: 先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Python 的 list, dict, tuple 等数据结构,然后再介绍字符串处理和正则表达式,介绍文件等 IO 操作,再介绍异常处理, 就这样一章一章往下说。 虽然这样的讲解很全面,但是单纯的理论说明经常很枯燥,让人越看越累,越累越不想看。 那么,有没有比这更好的方法呢? 01 让 6600 多人选择的编程专栏 因为我也有过那段「自学」Python 的迷茫时期,所以我深知好的系统学习规划和生动的老师讲解,是事半功倍并且省下我们更多青春的关键。 所以我提炼出过往 5 年 多的工作经验,并和远在美国学府进修的 AI 博士后老师一起撰写了这个《Python 全栈 60 天精通之路》专栏。 别人在介绍知识点时都会说「这东西是什么」,但我不想这样做。我觉得「 为什么这东西是这样 」或者「 在什么场景、适应什么需求、有什么好处 ,才会用这东西」,反而更能让你们对知识本身有更深刻的理解。 1. 每天 1 小时 我将整个 Python 内容 按天划分 为 60 天 。即使你是上班族或者课业量较大的学生,也能轻松完成当天的课程任务。 少刷 1 小时动森或抖音,就能让你在成为 Python 全栈工程师的路上比别人更快几倍! 2. 案例教学

Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

跟風遠走 提交于 2020-09-29 05:40:28
作者 | 刘早起 来源 | 早起Python 导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。 本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本与数据集完整复现一遍,如果你正处于机器学习入门阶段相信一定会有所收获。 项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。这一耸人听闻的悲剧震惊了国际社会。 沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存,例如妇女,儿童和上层阶级。 在这个项目中,我们被要求完成对可能生存的人群的分析。并且需要使用机器学习工具来预测哪些乘客可以幸免于悲剧。 数据读取与检查 首先导入与数据处理相关的库,并检查版本与数据文件夹 #导入相关库 import sys

PyTorch实现用于文本生成的循环神经网络

三世轮回 提交于 2020-08-19 01:05:15
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理(NLP)有很多有趣的应用,文本生成就是其中一个有趣的应用。 当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时,它们可以生成输入文本的下一个序列。 PyTorch提供了一组功能强大的工具和库,这些工具和库为这些基于NLP的任务增添了动力。它不仅需要较少的预处理量,而且加快了训练过程。 在本文中,我们将在PyTorch中训练几种语言的循环神经网络(RNN)。训练成功后,RNN模型将预测属于以输入字母开头的语言的名称。 PyTorch实现 这个实现是在Google Colab中完成的,其中的数据集是从Google驱动器获取的。所以,首先,我们将用Colab Notebook安装Google驱动器。 from google.colab import drive drive.mount('/content/gdrive') 现在,我们将导入所有必需的库。 from __future__ import unicode_literals, print_function, division from io import open import glob import os import unicodedata import string import

GAN网络之入门教程(四)之基于DCGAN动漫头像生成

僤鯓⒐⒋嵵緔 提交于 2020-08-19 01:02:39
目录 使用前准备 数据集 定义参数 构建网络 构建G网络 构建D网络 构建GAN网络 关于GAN的小trick 训练 总结 参考 这一篇博客以代码为主,主要是来介绍如果使用keras构建一个DCGAN,然后基于DCGAN,做一个自动生成动漫头像。训练过程如下(50轮的训练过程)“ 关于DCGAN或者GAN的相关知识,可以参考 GAN网络入门教程 。建议先了解相关知识,再来看这一篇博客。 项目地址: GitHub 使用前准备 首先的首先,我们肯定是需要数据集的,这里使用的数据集来自 kaggle——Anime Faces 。里面有21551张动漫头像的图片。大家可以到kaggle上面去下载数据集,或者说到我的 github 上去下载数据集(求个 ⭐ 不过分吧)。部分数据如下: 如果自己电脑计算机资源不是很强的话,比如我,一个mx250小水管(玩玩lol还是可以的,训练这个模型可能要等到下辈子),推荐大家去注册一个kaggle或者colab账号去白嫖GPU资源(1080,2080的玩家请随意)。不过个人更加的推荐kaggle,因为感觉它的资源分配是可见的,且可以后台运行。 数据集 数据集是动漫图片,我们可以将图片的像素点的值变成 \([-1,1]\) 之间,具体代码如下: # 数据集的位置 avatar_img_path = "./data" import imageio import

码农怎么进大厂实习?

天大地大妈咪最大 提交于 2020-08-18 08:16:37
众所周知,计算机专业、人工智能、智能识别技术在接下来较长一段时间内会是非常热门的专业,大公司对于这类强势的技术岗的需求永远不会饱和,大公司对于高学历、高技术的人才总是不惜以高薪相吸引。 小编也在网上常常看到在美国强势大学CS毕业的学生回国面试阿里巴巴,直接被聘用,而且年薪50万起,不得不令人咂舌。 然而,另一方面,我们也能看到,大量学生涌入计算机行业,导致计算机的强弱分化明显。几乎所有类型的院校都开设了计算机系,每年从CS专业出来等待就业的学生不计其数。有年薪50W的,也有堪堪只够得上温饱的程序员。 那么,想从程序员的浩瀚烟海中脱颖而出,就必须从各方面提升自己的软实力和硬实力。接下来,小编就梳理了计算机专业的孩子们职业发展的几个比赛,大家可以做参考。 1. Kaggle数据分析比赛 时间:全年 Kaggle应该是属于数据分析业内家喻户晓的比赛了。Kaggle成立于2010年,它主要提供的就是数据发掘、建模、预测类的服务,而最出名的就是它举办的一些数据分析项目。 部分公司会向Kaggle官方提供自己的数据集,设置一个建模预测类型的项目,向Kaggle的用户们开放,用户们可以自由组队进行比赛,而Kaggle则会根据提交的代码进行判分结算。 如果能在Kaggle的比赛中获得10%的好成绩,那足以成为简历上的亮点,至少能保证你通过初筛,直达HR面。即使达到50%

香港中文大学(深圳)招收访问学生及研究助理(计算机视觉方向)

烈酒焚心 提交于 2020-08-18 07:04:34
香港中文大学(深圳)的深圳市大数据研究院 SRIBD 正在招收访问学生及研究助理,从事医疗图像及计算机视觉方向的研究,表现优秀者有机会被优先录取为香港中文大学(深圳)的博士研究生。有关信息如下: 1) 研究内容包括发表科研论文、或参加有影响力的学术竞赛 2) 导师会一对一地指导每个学生,去完成他们作为第一作者的学术论文 3) 导师会就论文选题、算法设计、实验技巧、编程实现、论文写作等方面提供具体指导,并教授必要的计算机视觉和图像处理的基础知识 4) 导师会根据学生的实际表现撰写推荐信,协助学生后续的升学和就业 5) 研究院会发放充足的补助/薪水,确保覆盖并超过在港中文深圳日常需要的住宿费、伙食费、生活费 6) 研究院提供支持多显卡、大内存、高速读写的计算集群 对访问学生及研究助理要求如下: 1) 访问学生应为在读本科生、在读硕士生或在读博士生,优先考虑在读本科生和在读硕士生 2) 研究助理应已通过本科或以上学位的毕业答辩,可为应届生或往届生,要求全职在岗工作 3) 理科、工科或医科专业背景均可,非计算机专业请在简历中列举完成的与编程、算法、计算机科学、计算机视觉等相关的课程 4) 有编程经验,有深度学习或计算机视觉或医学工程经验优先;若无相关经验,则要求有较好的计算机科学、算法或数学基础,以及较强的学习能力 5) 在编程比赛或者kaggle等数据科学比赛中成绩优秀者加分