使用AutoML Vision进行音频分类
作者 | Vivek Amilkanthawar 来源 | Towards Data Science 编辑 | 代码医生团队 对于给定的音频数据集,可以使用 Spectrogram 进行音频分类吗? 尝试 使用 Google AutoML Vision 。 把音频文件转换成各自的频谱图,并使用频谱图作为分类问题的图像。 这是 频 谱图的正式定义 频谱图是信号频率随时间变化的直观表示。 在本次实验中,将使用 Kaggle 的音频数据集 如下 https://www.kaggle.com/c/freesound-audio-tagging/data 继续下载数据集 { 警告 !! :数据集超过 5GB ,因此在对数据集执行任何操作时需要耐心等待。对于实验,在 Google Can Platform ( GCP )上租了一台 Linux 虚拟机,将从那里执行所有 步骤 。此外需要一个 GCP 帐户才能学习本教程 } 步骤1:下载音频数据集 训练 数据( 4.1 GB ) curl https://zenodo.org/record/ 2552860 /files/FSDKaggle2018. audio_train.zip?download= 1 --output audio_train.zip upzip audio_train.zip 测试数据( 524 MB ) curl