使用PyTorch对音频进行分类
作者 | Aakash 来源 | Medium 编辑 | 代码医生团队 什么是分类问题? 对对象进行分类就是将其分配给特定的类别。这本质上是一个分类问题是什么,即将输入数据从一组这样的类别,也称为类分配到预定义的类别。 机器学习中的分类问题示例包括:识别手写数字,区分垃圾邮件和非垃圾邮件或 识别核中的不同蛋白质 。 https://www.kaggle.com/c/jovian-pytorch-z2g 使用的数据集 为了演示分类问题的工作原理,将使用 UrbanSound8K数据集 。该数据集包括 10 种类别的城市声音:空调,汽车喇叭,儿童游戏,狗吠,钻探, enginge_idling , gun_shot ,手提钻,警笛和 street_music 。 https://urbansounddataset.weebly.com/urbansound8k.html 目的是将数据提供给模型(目前可以将其视为黑匣子),并确定模型预测的准确性。 数据集的结构 该数据集可以作为压缩包使用,大小约为 5.6GB 。与某些机器学习数据集不同,此特定数据集中的音频数据与元数据文件夹一起存在于 10 个不同的文件夹中,元数据文件夹包含名为“ UrbanSound8K.csv ”的文件。 D:\DL\ZEROTOGANS\06-URBAN8K-CLASSIFICATION\DATA