kaggle

用Siamese和Dual BERT来做多源文本分类

丶灬走出姿态 提交于 2020-12-19 06:56:49
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Marco Cerliani 编译:ronghuaiyang 正文共:2062 字 10 图 预计阅读时间:6 分钟 导读 使用不同的方式来使用BERT模型 。 在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为 transformers 的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。 作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。 我们使用了siamese结构,这是一个双路BERT ,用于多文本输入的分类。 数据 我们从Kaggle上收集数据集。新闻类别数据集:https://www.kaggle.com/rmisra/news-category-dataset包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介。我们总共有40多种不同类型的新闻。为了简单起见

程序员相亲图鉴

為{幸葍}努か 提交于 2020-12-17 02:07:45
程序员, 已经渐渐成当代相亲市场的一只主力军。 甚至可以说是“ 香饽饽 ”。 越来越多的妹子, 在写择偶要求时, 会说对程序员有好感。 因为他们, 踏实聪明又靠谱, 钱多花花肠子 少。 但关于程序员谈恋爱的“笑点”也不少, 一起来看看吧! · End · 漫画 | 楠同学 策划&文案 | 李二狗 记得点一下在看,帮更多程序猿脱单! 以上内容纯属调侃,如有冒犯…… 反正你也打不着我 有本事用小程序脱单给我看啊! 本文分享自微信公众号 - Kaggle实战机器学习(AIKaggle)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4613074/blog/4514615

机器学习数据集

喜夏-厌秋 提交于 2020-12-16 13:00:18
外国自媒体 mlmemoirs 根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~ 提前说两个须知: 寻找数据集の奥义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。 数据集不应包含太多行或列,否则会难以使用。 数据越干净越好,清理大型数据集可能非常耗时。 应该预设一个有趣的问题,而这个问题又可以用数据来回答。 去哪里找数据集 Kaggle :爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。 https://www.kaggle.com/ UCI机器学习库 :最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。 http://mlr.cs.umass.edu/ml/ VisualData :分好类的计算机视觉数据集,可以搜索~ https://www.visualdata.io/ 好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。 机器学习数据集 图片 Labelme:带注释的大型图像数据集。 http://labelme.csail.mit.edu/Release3.0

机器学习和计算机视觉的前20个图像数据集

拈花ヽ惹草 提交于 2020-12-16 12:12:56
计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以完成的任务自动化。 计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。 用于计算机视觉训练的图像数据集 Labelme: 由 MIT 计算机科学和人工智能实验室( CSAIL )创建的大型数据集,包含 187,240 张图像, 62,197 条带注释的图像和 658,992 张带标签的对象。 http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php 乐高积木: 通过文件夹和使用 Blender 渲染的计算机对 16 种不同乐高积木进行分类的大约 12,700 张图像。 https://www.kaggle.com/joosthazelzet/lego-brick-images ImageNet: 用于新算法的实际图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。 http://image-net.org/ LSUN : 场景理解和许多辅助任务(房间布局估计,显着性预测等) http://lsun.cs.princeton.edu/2016/ MS COCO : COCO

机器学习 | 一个基于机器学习的简单小实践:波斯顿房价预测分析

我的未来我决定 提交于 2020-12-06 12:24:24
本 文采用Kaggle上面的Boston HousePrice数据集展示了如何建立机器学习模型的通常过程 ,包括以下几个阶段: 数据获取 数据清洗 探索性数据分析 特征工程 模型建立 模型集成 标签变量(房价) 采取了对数转换,使其符合正太分布,最后从12个备选模型中选出预测效果最好的6个模型Lasso,Ridge,SVR,KernelRidge,ElasticNet,BayesianRidge分别进行加权平均集成和Stacking集成,最后发现Stacking集成效果更好,创新之处在于将Stacking集成后的数据加入原训练集中再次训练Stacking集成模型,使得模型性能再次得到改善,作为最后的预测模型,预测结果提交kaggle上后表现不错。另外受限于训练时间,超参数搜索空间小,有待改善。 数据获取 Kaggle官网提供了大量的机器学习数据集,本文从其中选择了Boston HousePrice数据集,下载地址为https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data,下载后的数据集包括train.csv,test.csv,data_description.txt,sample_submission.csv四个文件,顾名思义train.csv为训练数据集,用于训练模型,test

从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

会有一股神秘感。 提交于 2020-12-04 13:24:39
作者: Derrick Mwiti 编译:ronghuaiyang 来源公众号:AI公园 导读 作者参加了39个Kaggle比赛,总结了非常多的技巧和经验,现在全部分享给大家。 想象一下,如果你能得到所有的tips和tricks,你需要去参加一个Kaggle比赛。我已经超过39个Kaggle比赛,包括: Data Science Bowl 2017 – $1,000,000 Intel & MobileODT Cervical Cancer Screening – $100,000 2018 Data Science Bowl – $100,000 Airbus Ship Detection Challenge – $60,000 Planet: Understanding the Amazon from Space – $60,000 APTOS 2019 Blindness Detection – $50,000 Human Protein Atlas Image Classification – $37,000 SIIM-ACR Pneumothorax Segmentation – $30,000 Inclusive Images Challenge – $25,000 现在把这些知识都挖出来给你们! 外部数据 使用 LUng Node Analysis Grand

机器学习 | 一个基于机器学习的简单小实践:波斯顿房价预测分析

旧时模样 提交于 2020-12-02 16:37:21
本 文采用Kaggle上面的Boston HousePrice数据集展示了如何建立机器学习模型的通常过程 ,包括以下几个阶段: 数据获取 数据清洗 探索性数据分析 特征工程 模型建立 模型集成 标签变量(房价) 采取了对数转换,使其符合正太分布,最后从12个备选模型中选出预测效果最好的6个模型Lasso,Ridge,SVR,KernelRidge,ElasticNet,BayesianRidge分别进行加权平均集成和Stacking集成,最后发现Stacking集成效果更好,创新之处在于将Stacking集成后的数据加入原训练集中再次训练Stacking集成模型,使得模型性能再次得到改善,作为最后的预测模型,预测结果提交kaggle上后表现不错。另外受限于训练时间,超参数搜索空间小,有待改善。 数据获取 Kaggle官网提供了大量的机器学习数据集,本文从其中选择了Boston HousePrice数据集,下载地址为https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data,下载后的数据集包括train.csv,test.csv,data_description.txt,sample_submission.csv四个文件,顾名思义train.csv为训练数据集,用于训练模型,test

刚刚公布!一个关于假期调整的大好消息

a 夏天 提交于 2020-11-27 05:24:08
看到这个消息后,第一时间播放一个好消息,忍不住激动了一下,哈哈。 两会期间,有代表提出今年五一假期只放1天假。总理回应说,会让有关部门抓紧研究。结果今天就落实了。 国务院办公厅关于 调整2019年劳动节假期安排 的通知 2019年5月1日至4日放假调休, 共4天 。 4月28日(星期日)、5月5日(星期日)上班。 大家看到后,一定很开心吧。 -更多分类精选文章- 干货资料汇总 | 程序员必知算法 | AI入门 | 吴恩达机器学习入门视频 | Kaggle最受欢迎的10个数据集下载 | 玩转Pandas系列 | 概率论、线性代数、凸优化极简入门 | 算法图解高清电子版下载 | Data Analysis 高清电子版下载 | TensorFlow 彩图下载 | Python数据科学手册高清版下载 | 最专业的简历模板 一个用心的公众号 本文分享自微信公众号 - Python与算法社区(alg-channel)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4585819/blog/4583464

90 后美女独家秘籍:从小白到 AI 算法工程师

亡梦爱人 提交于 2020-11-21 13:35:43
这是一篇关于如何成为一名AI算法工程师的长文~ 经常有朋友私信问,如何学python呀,如何敲代码呀,如何进入AI行业呀? 正好回头看看自己这一年走过的路,进行一次经验总结。 来看看你距离成为一名AI工程师还有多远吧~ ⭐具体内容: 🔺 我是因为什么开始接触敲代码 🔺 人工智能/机器学习/深度学习 🔺 自学如何寻找学习资料 🔺 如何选择编程语言/框架 🔺 校招/社招/实习/面试经验 🔺 一碗鸡汤 ⭐声明: 🔼 本篇内容均属于个人观点,建议采纳对自己有用的经验,如有疏漏,欢迎指正,共同进步! 🔼 2017年5月开始第一份实习 / 2017年7月开始学敲代码 / 2017年11月硕士毕业 🔼 擅长的编程语言:R / Python 🔼 不花钱报班,全靠自学,最初是因为穷,后来发现“开源”的世界真是太美好了! ⚡我是因为什么开始接触敲代码? 我的第一个模型是什么 由于本科是数学,研究生是量化分析,第一份实习是一家金融科技公司,开始接触所谓的“Fintech”😝 第一个任务就是做客户的信用评分卡模型,目的给每个用户打一个信用分数,类似支付宝的芝麻信用分。这是银行标配的一个模型,最常见最传统的算法用的就是 逻辑回归 。 在课堂上使用的工具是SAS,SPSS,属于有操作界面的,菜单非常齐全,只需要鼠标点一点就能建模,很好上手。但是SAS这些要付钱的,年费还是相当的贵