kaggle

上海交大:我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用

|▌冷眼眸甩不掉的悲伤 提交于 2020-11-04 19:56:53
上海交大研究人员创建新型开放医疗图像数据集 MedMNIST,并设计「MedMNIST 分类十项全能」,旨在促进 AutoML 算法在医疗图像分析领域的研究。 机器之心报道,作者:魔王、张倩。 项目地址: https:// medmnist.github.io/ 论文地址: https:// arxiv.org/pdf/2010.1492 5v1.pdf GitHub 地址: https:// github.com/MedMNIST/Med MNIST 数据集下载地址: https://www. dropbox.com/sh/upxrsyb5 v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0 在 AI 技术的发展中,数据集发挥了重要的作用。然而,医疗数据集的创建面临着很多难题,如数据获取、数据标注等。 近期,上海交通大学的研究人员创建了医疗图像数据集 MedMNIST,共 包含 10 个预处理开放医疗图像数据集 (其数据来自多个不同的数据源,并经过预处理)。和 MNIST 数据集一样,MedMNIST 数据集 在轻量级 28 × 28 图像上执行分类任务,所含任务覆盖主要的医疗图像模态和多样化的数据规模 。根据研究人员的设计,MedMNIST 数据集具备以下特性: 教育性:该数据集中的多模态数据来自多个具备知识共享许可证的开放医疗图像数据集

挑战Deepfake中科大斩获亚军,与第一名仅差0.0005

假装没事ソ 提交于 2020-10-28 08:40:23
  美国大选在即,为了防范 Deepfake 视频干扰选情,Twitter 和 Facebook 分别做出了应对策略,Facebook 将会删除其认定的 Deepfake 视频,而 Twitter 打算在相关视频页面给出提示。   早在去年年底,Facebook 就拿出 1000 万美元当奖金,举办全球范围内的 Deepfake 检测大赛。这也是 Kaggle 平台历史上奖金额度最高的竞赛。   后经半年的酣战,中国科技大学的俞能海、张卫明教授团队从全球 2265 支队伍中脱颖而出,获得亚军,最终成绩与第一名仅差 0.0005。此次挑战赛共收到 3.5 万个检测模型,能够夺得第二,实属不易。   该团队的周文柏博士告诉 DeepTech,本次比赛所获得的 30 万美元奖金会用于实验室建设和选手奖励。   这支名为 “\\WM/” 的队伍,主要由中科大信息处理中心的博士后、博士生和硕士生组成。虽然团队获奖信息在当时并未引起媒体太多关注,却在业界广为人知。不少企业主动来寻求合作,周文柏透露,华为、浙江省广电等企业就希望能够运用人工智能技术,希望预防手机拍摄的媒体素材、或者电台公开的素材被恶意窜改。      图 | Deepfake 检测挑战赛(来源:Kaggle 官网)   算力不优越,却能取得第二名   值得关注的是,这次迄今最大规模的 Deepfake 检测挑战赛也暴露出

[Kaggle] Digit Recognizer 手写数字识别(卷积神经网络)

拟墨画扇 提交于 2020-10-28 03:00:00
文章目录 1. 使用 LeNet 预测 1.1 导入包 1.2 建立 LeNet 模型 1.3 读入数据 1.4 定义模型 1.5 训练 1.6 绘制训练曲线 1.7 预测提交 2. 使用 VGG16 迁移学习 2.1 导入包 2.2 定义模型 2.3 数据处理 2.4 配置模型、训练 2.5 预测提交 Digit Recognizer 练习地址 相关博文: [Hands On ML] 3. 分类(MNIST手写数字预测) [Kaggle] Digit Recognizer 手写数字识别 [Kaggle] Digit Recognizer 手写数字识别(简单神经网络) 04.卷积神经网络 W1.卷积神经网络 上一篇的简单神经网络,将 28*28 的图片展平了,每个像素在空间上的位置关系是没有考虑的,空间的信息丢失。 1. 使用 LeNet 预测 LeNet神经网络 参考博文 1.1 导入包 from keras import backend as K # 兼容不同后端的代码 from keras . models import Sequential from keras . layers . convolutional import Conv2D from keras . layers . convolutional import MaxPooling2D from keras .

Kaggle竞赛入门教程案例

时光毁灭记忆、已成空白 提交于 2020-10-23 02:54:00
Kaggle比赛入门新手教程(房价预测案例:前篇) Kaggle房价预测全流程详解 竞赛链接与背景介绍 竞赛代码解析 导入工具包 数据加载 数据预处理 异常值初筛 标签值对数变换 明确变量类型 缺失值处理 特征工程 特征创建:基于已有特征进行组合 对影响房价关键因子进行分箱 数值型变量偏度修正 删除单一值特征 特征简化:0/1二值化处理 特征编码 异常值复查:基于回归模型 消除one-hot特征矩阵的过拟合 Kaggle房价预测全流程详解 对于 刚刚入门 机器学习的童孩来说,如何快速地通过不同实战演练以提高代码能力和流程理解是一个需要关注的问题。 Kaggle平台 正好提供了数据科学家的所需要的交流环境,并且为痴迷于人工智能的狂热的爱好者举办了各种类型的竞赛(如, 数据科学/图像分类/图像识别/自然语言处理/漏洞检测 )。 Kaggle社区是一种全球性的交流社区,集中大量优秀的AI科学家和数据分析家,能够相互分享实战经验和代码,并且有基础入门教程,对新手非常友好~ 竞赛链接与背景介绍 Kaggle平台官网 :https://www.kaggle.com 房价预测竞赛网址 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques 房价 是一个生活中耳熟能详的概念

[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)

馋奶兔 提交于 2020-10-18 09:10:44
文章目录 1. 导入包 2. 数据预览 2. 特征组合 3. 建模 4. 训练 5. 预测 练习地址: https://www.kaggle.com/c/ds100fa19 1. 导入包 import pandas as pd import spacy train = pd . read_csv ( "train.csv" ) test = pd . read_csv ( "test.csv" ) 2. 数据预览 train . head ( 10 ) train = train . fillna ( " " ) test = test . fillna ( " " ) 注意处理下 NaN , 否则后续会报错,见链接: spacy 报错 gold.pyx in spacy.gold.GoldParse. init () 解决方案https://michael.blog.csdn.net/article/details/109106806 2. 特征组合 对邮件的主题和内容进行组合 + 处理标签 train [ 'all' ] = train [ 'subject' ] + train [ 'email' ] train [ 'label' ] = [ { "spam" : bool ( y ) , "ham" : not bool ( y ) } for y in train .

万物皆可 Serverless 之我的 Serverless 之路

前提是你 提交于 2020-10-14 16:46:41
缘起 本文来自 Serverless 社区用户「乂乂又又」投稿 我最早接触 Serverless 大概是在 18 年 6 月,那时候我在阿里云的学生机刚好到期,那台机子上我有装宝塔面板,然后在上面只放了一个 Typecho 的个人博客站,好像这台服务器似乎一直都是被我拿来当作虚拟主机用,最多也只是登上宝塔面板清一下内存这样子,所以,在我阿里云一年的学生机到期之后,我就果断选择了放弃续费服务器。从那时起我就变成了一个彻底的 Severlesser。 首先是之前的静态网页的问题,这个解决起来比较简单,随便找一个对象存储或者 pages 服务就可以搞定。 这里我是把自己那些静态网页都放到了 Coding pages 上,除了某些时候某些地区某些运营商的网络访问会不稳定之外,其他的一切都让我觉得 coding 的 pages 服务都是做的非常棒的。 然后是 Typecho 博客问题,这个问题还是比较让人头大的,因为像这种动态的博客系统是很少有 pages 服务支持的,所幸在那个时候 coding 有一个动态 pages 的服务是允许个人发布动态博客的,包括 Wordpress 和 Typecho 之类,只可惜现在 coding 已经把动态 pages 的服务给去掉了,而我的之前放在 coding 上的动态博客现在也已经被归档了。 我也错过了 cloud studio 升级的提醒通知

12款最好用的数据挖掘工具

我们两清 提交于 2020-10-09 05:25:40
数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。 数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。 免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务: 分类: 将熟悉的结构概括为新数据的任务 聚类: 在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。 关联规则学习: 查找变量之间的关系 回归: 旨在找到一个函数,用最小的错误来模拟数据。 下面列出了用于数据挖掘的软件工具 数据挖掘工具 1.Rapid Miner Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。 它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中是详细的,并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具,让我们可以轻松地分析数据。 2. IBM SPSS

某银行业务数据分析和挖掘

人盡茶涼 提交于 2020-10-07 07:27:06
内容简介 第一,对某银行某次营销活动受众客户的特征进行了描述性统计,考察了营销活动的总体效果;同时还进行了特征间的相关性分析,筛选掉了与响应行为之间没有显著相关性的特征。 第二,分别考察了存款和个贷客户在年龄、年收入等6个特征上的分布情况,分析了存款和个贷客户的自然属性和消费行为特征,并据此构建了存款客户画像和个贷客户画像。 第三,运用Apriori关联规则算法分析了各类业务之间的关联,并重点总结出了存款客户中潜在个贷客户的特征。 第四,根据以上分析结果尝试为该银行扩大各类业务客户基数,提高获客能力提出建议。 最后,根据分析出的个贷客户画像对客户是否办理个贷业务进行建模,得出最优分类器;当有新的客户数据时便可以使用该模型对客户办理个贷业务的可能性进行预测。 关键词:Python,客户画像,二分类,关联分析 一、项目描述 1、项目说明 (1)数据来源:本项目所用数据来源于kaggle平台,该数据集展示了某银行某年一次贷款营销活动的5,000条客户信息记录。 (2)使用工具:本项目的分析和可视化都是使用Python完成的,但相关性分析用到了SPSS。 (3)数据描述:数据字典如下所示: 表1 数据字典 2、业务需求 2.1 业务背景 某银行是一家客户群不断增长的银行,但其贷款业务的客户基数较小,因此该银行希望能够将存款用户转化为贷款用户,扩大贷款业务量

2020入门数据科学的9大项目力荐

℡╲_俬逩灬. 提交于 2020-10-04 15:09:48
现在疫情逐渐好转,在接下来的自我隔离期内,大家可以利用独处时间学习新技能,读书,提升自己。 对于那些对数据分析,数据科学或是其他相关领域感兴趣的同学来说,我想制作一份大家业余时间可以做的9个项目的清单,这份清单没有特定的完成顺序。 1. 信用卡反欺诈 据预测,在2022年之前全球将会有12亿信用卡持有者。 为了保证信用卡交易的安全性,监控欺诈行为就变得非常重要。信用卡公司必须要能够识别出盗刷交易,这样客户才不必为他们没有购买的东西买单。一个信用卡数据集会同时包含欺诈和合法的交易数据,项目的目标是预测交易是否为欺诈。 用到的算法: 由于目标变量是分类变量,这个问题可以用以下机器学习算法来解决: 逻辑回归 决策树 神经网络 R/Python代码示例: Data Science Project - Detect Credit Card Fraud with Machine Learning in R https:// data-flair.training/blo gs/data-science-machine-learning-project-credit-card-fraud-detection/ Credit Card Fraud Detection Project https://www. kaggle.com/mendozav/cre dit-card-fraud