kaggle

使用PyTorch对音频进行分类

百般思念 提交于 2021-02-18 05:18:21
作者 | Aakash 来源 | Medium 编辑 | 代码医生团队 什么是分类问题? 对对象进行分类就是将其分配给特定的类别。这本质上是一个分类问题是什么,即将输入数据从一组这样的类别,也称为类分配到预定义的类别。 机器学习中的分类问题示例包括:识别手写数字,区分垃圾邮件和非垃圾邮件或 识别核中的不同蛋白质 。 https://www.kaggle.com/c/jovian-pytorch-z2g 使用的数据集 为了演示分类问题的工作原理,将使用 UrbanSound8K数据集 。该数据集包括 10 种类别的城市声音:空调,汽车喇叭,儿童游戏,狗吠,钻探, enginge_idling , gun_shot ,手提钻,警笛和 street_music 。 https://urbansounddataset.weebly.com/urbansound8k.html 目的是将数据提供给模型(目前可以将其视为黑匣子),并确定模型预测的准确性。 数据集的结构 该数据集可以作为压缩包使用,大小约为 5.6GB 。与某些机器学习数据集不同,此特定数据集中的音频数据与元数据文件夹一起存在于 10 个不同的文件夹中,元数据文件夹包含名为“ UrbanSound8K.csv ”的文件。 D:\DL\ZEROTOGANS\06-URBAN8K-CLASSIFICATION\DATA

使用AutoML Vision进行音频分类

荒凉一梦 提交于 2021-02-18 04:11:18
作者 | Vivek Amilkanthawar 来源 | Towards Data Science 编辑 | 代码医生团队 对于给定的音频数据集,可以使用 Spectrogram 进行音频分类吗? 尝试 使用 Google AutoML Vision 。 把音频文件转换成各自的频谱图,并使用频谱图作为分类问题的图像。 这是 频 谱图的正式定义 频谱图是信号频率随时间变化的直观表示。 在本次实验中,将使用 Kaggle 的音频数据集 如下 https://www.kaggle.com/c/freesound-audio-tagging/data 继续下载数据集 { 警告 !! :数据集超过 5GB ,因此在对数据集执行任何操作时需要耐心等待。对于实验,在 Google Can Platform ( GCP )上租了一台 Linux 虚拟机,将从那里执行所有 步骤 。此外需要一个 GCP 帐户才能学习本教程 } 步骤1:下载音频数据集 训练 数据( 4.1 GB ) curl https://zenodo.org/record/ 2552860 /files/FSDKaggle2018. audio_train.zip?download= 1 --output audio_train.zip upzip audio_train.zip 测试数据( 524 MB ) curl

python机器学习入门

独自空忆成欢 提交于 2021-02-17 08:58:09
趣味机器学习入门小项目(附教程与数据) 没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。 这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如: 导入数据 数据清洗 将数据集拆成训练/测试或交叉验证集 预处理 变换 特征工程 因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。 首先介绍一下该项目中所使用到的数据源: UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。 http://archive.ics.uci.edu/ml/ Kaggle数据集——Kaggle社区上的100多个数据集。 https://www.kaggle.com/datasets Data.gov——由美国政府发布的开放数据集。 https://www

如何入门机器学习

試著忘記壹切 提交于 2021-02-17 08:16:14
本篇文章,我将从过来的人角度介绍下机器学习如何从入门到精通,这里我们谈经验,谈工具,更谈方法论。 1.入门 作为初入机器学习的小白,你可能除了一颗好奇的心和一番热血外什么都不没有,当然最好还是希望你能有线性代数、微积分和概率论的基础。你可能会心存顾虑:学过但忘了。不用担心,这种东西不用就会忘,但只要用到,学一学便会;或者说你可能真的没学过,这个也不用担心,只要你真的想学现在也来得及。 好了废话不多说,我们进入入门阶段的正题。入门阶段主要有三个任务: 快速看完周志华的《西瓜书》 ; 看吴恩达 Coursera 上的《机器学习》 ; 调包跑算法 。 看完这个后可能大家会有很多不解或者很多疑惑。不着急,我们一个一个解答。 1.1 快速看完《西瓜书》 问题一:为什么要选《机器学习》? 因为这本书真的很不错,作为入门书籍非常合适。同样有名的《统计学习方法》虽然也很不错,但是其对小白来说相对较难。虽然《西瓜书》上面也有公式,但我们在初学的时候太复杂的完全可以先跳过去,并且书中还配有西瓜的例子,可以很好的帮助同学们理解算法的工作过程。 问题二:为什么要快速看完? 我这里强调快速,是因为快速真的很重要。因为如果战线拉得太长,如果一开始看的太细又读哪儿哪不懂,人是很容易有排斥心理的。最简单的一个例子,你想想你背英语单词的时候,多少次是从“abandon”开始背起的。每次快要期末考试了,或者四六级

【学习总结】GirlsInAI ML-diary 总

人走茶凉 提交于 2021-02-16 10:57:55
Machine_Learning_Diary 人工智障工程师养成计划,代号ML-diary 原博github链接:Girls-In-AI 环境:Windows / MacOS 工具:Anaconda - Jupyter Notebook 语言:Python3 目录 第一期 小白Python入门 day-1: 初识Python-Anaconda-Jupyter day-2: Python版本选取与Anaconda中环境配置与下载 day-3: 数据类型 day-4: 变量/Variable day-5: 布尔表达式/Bool day-6: String字符串 day-7: 数据类型转换 day-8: list列表 day-9: dict字典 day-10: if条件执行 day-11: while循环 day-12: for循环 day-13: Try/Except 异常处理 day-14: function函数 day-15: 读/写txt文件 day-16: pip install XX day-17: 初始dataframe day-18: 下载/保存excel day-19: 面向对象编程 第二期 屠龙刀-kaggle day-20: 初识 Kaggle day-21: 初识 Numpy, Matplotlib, Seanborn [柱状图、折线图、箱图] day-22: d

机器学习小白必知必会

依然范特西╮ 提交于 2021-02-12 04:22:41
机器学习是一门多领域交叉学科,需要很多知识储备。 对于机器学习,很多人也只是一知半解,想要知其然、究其实,但是面对各种各样的书籍、文章却无从下手,摸不清门路。 小白该具备哪些知识点呢? 01 概念初识 机器学习领域内有很多专业术语,如繁星一般,穿插在各种技术文档、文献、书籍等资料中。学习机器学习的第一步就是了解这些专业术语,能够“读懂”各类文档。下面是一些比较常见的概念和定义: 实例: 表示具体的一件事物,可以是一本书,一只鸟等等,实例具有诸多属性,比如鸟的羽毛颜色、翅膀长度、鸟喙形状等等,我们可以凭借这些属性来判断鸟属于什么种类。 标签: 标签表示我们所关注的实例的“结果”或者“类型”,它是机器学习系统中预测的结果,或者是训练数据中所标识的正确答案。比如一本书可能是中文图书,也可能是外文图书,这就是这本书的标签或者说分类。 属性: 属性表示实例本身所具有的特性,实例与属性密不可分。实例往往具有很多属性,而在机器学习过程中,我们只关注对实例打标签有意义的属性。比如在判断书属于什么种类时,很明显出版时间这一属性对我们做决策并没有太大意义。 样本: 样本代表实例和实例标签的结合,用于模型训练和效果测试。在模型训练过程中,我们用大量实例的属性值(或特征)以及标签去调节模型中的参数,在测试阶段,使用训练好的模型输入实例的属性值,将模型的预测结果与对应实例的标签做对比。 大数据:

Factorization Machine模型的各种变式

江枫思渺然 提交于 2021-02-11 13:56:15
关注“ AI科技时讯 ” 设为星标,第一时间获取更多干货 FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如: FM类模型有哪些改进? 哪些模型或者应用引入了FM思想? 近期的顶会针对FM有哪些改进工作? 工业界大规模数据场景下如何分布式训练FM模型? 这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。 一、区别特征交互作用 这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。 FM 文章链接:csie.ntu.edu.tw/~b97053 Field-aware FM 文章链接:csie.ntu.edu.tw/~r01922 FM中一个特征只对应一个向量

How can I convert a png to a dataframe for python?

為{幸葍}努か 提交于 2021-02-10 14:14:45
问题 I trained a model for Digit Recognizer (https://www.kaggle.com/c/digit-recognizer/data). The input data is a csv file. Each row in the file represent an image which is 28 pixels in height and 28 pixels in width, for a total of 784 pixels in total. The model is ready to use but I wonder how I can create a testing data for this input? If I have an image with digital number, how can I convert it to 28 by 28 pixels in an array format. I tried below code but it renders the image background as

数据科学|pandas教程——分组和聚合

时间秒杀一切 提交于 2021-02-09 19:02:52
https://zhuanlan.zhihu.com/p/106015466 编者按 在对数据处理的过程中,除了前期对数据的清洗,更多的工作是需要根据不同的分析需求对数据进行整合。比如需要统计某类数据的出现次数,或者需要按照不同级别来分别统计等等。为满足这些需求,比较常用的方法即分组和聚合。幸运的是,pandas中完美支持了这样的功能,掌握好pandas中这些功能,可以使数据处理的效率大大提高。这篇文章就通过一些基础而又十分扎实的例子带大家一起学习一下这些方法。 文章作者:周岩 王转转 责任编辑:周岩 @书生 文章发表于 微信公众号【运筹OR帷幄】: 数据科学|pandas教程--分组和聚合 欢迎原链接转发,转载请私信 @运筹OR帷幄 获取信息,盗版必究。 敬请关注和扩散本专栏及同名公众号,会邀请 全球知名学者 发布运筹学、人工智能中优化理论等相关干货、 知乎Live 及行业动态 更多精彩文章,欢迎访问我们的机构号: @运筹OR帷幄 数据的分组与聚合是关系型数据库中比较常见术语。使用数据库时,我们利用查询操作对各列或各行中的数据进行分组,可以针对其中的每一组数据进行各种不同的操作。 pandas的DataFrame数据结构也为我们提供了类似的功能,可以非常方便地对DataFrame进行变换。我们可以把生成的数据保存到python字典中,然后利用这些数据来创建一个python

2021美赛D题翻译(仅供参考)

女生的网名这么多〃 提交于 2021-02-07 12:33:34
问题D:音乐的影响 2021美赛C题思路。2021美赛C题解法。2021美赛思路,2021美赛数学建模思路,欢迎加入秀儿为你弹奏东风破:752899821 自古以来,音乐就已成为人类社会的一部分,已成为文化遗产的重要组成部分。为了理解音乐在人类集体经验中所扮演的角色,我们被要求开发一种量化音乐发展的方法。在创作新音乐时,有许多因素会影响艺术家,包括其天赋的创造力,当前的社会或政治事件,使用新乐器或工具的机会或其他个人经历。我们的目标是了解和衡量先前制作的音乐对新音乐和音乐艺术家的影响。 一些艺术家可以列出十几个或更多他们认为对自己的音乐作品有影响的艺术家。还建议可以通过歌曲特征(例如结构,节奏或歌词)之间的相似程度来衡量影响力。音乐有时会发生革命性的变化,提供新的声音或节奏,例如何时出现新的流派,或者对现有流派(例如古典,流行/摇滚,爵士等)进行重新发明。这可能是由于一系列小变化,艺术家的合作努力,一系列有影响力的艺术家或社会内部的变化所致。 许多歌曲具有相似的声音,许多艺术家为音乐类型的重大转变做出了贡献。有时,这些变化是由于一位艺术家影响了另一位艺术家。有时,这是对外部事件(例如重大世界事件或技术进步)的响应而出现的变化。通过考虑歌曲的网络及其音乐特征,我们可以开始捕捉音乐艺术家之间的相互影响。而且,也许,我们还可以更好地了解音乐随着时间的流逝在整个社会中的发展。 集成集体音乐