《Deep Learning Techniques for Music Generation – A Survey》深度学习用于音乐生成——Chapter 1
Chapter 1
Introduction(简介)
深度学习最近已经成为一个快速增长的领域,现在经常用于分类和预测任务,例如图像和语音识别,以及翻译。它出现在大约10年前的2006年,当时一个深度学习架构在图像分类任务中使用人工制作的特性显著优于标准技术。我们可以通过以下方法来解释神经网络技术的成功和重新出现:
1.技术进步(特别是预训练和卷积)
2.大规模数据的可用性
3.专用的计算能力
深度学习并没有一致的定义。这是一种基于人工神经网络的机器学习技术。关键的方面和共同的基础是术语deep,这意味着有多层处理多个层次的抽象,这是一种用更简单的表示来表达复杂表示的方法。技术基础主要是神经网络,正如我们将在第5节中看到的,有许多变体(卷积网络、循环网络、自动编码器、限制的玻尔兹曼机器…)。要了解更多关于深度学习的历史和不同方面的信息,请参见最近在该领域上的一本全面的书。
在深度学习中,当前努力的重要部分应用于传统的机器学习任务:分类和预测(也称为回归),作为神经网络初始DNA的证明:线性回归和逻辑回归(见Section5.1)。但是,越来越多的应用深度学习技术是内容的生成。内容可以是多种多样的:主要是图像、文字和音乐,后者是我们分析的重点。动机是使用现在广泛可用的语料库,自动学习音乐风格,并基于此生成新的音乐内容。
1.1 相关工作
据我们所知,在分析使用深度学习来生成音乐方面,只有很少的一些尝试。Graves提出了一项有趣的分析,重点是递归神经网络和文本[31]。Humphrey,Bello和LeCun提出了另一个有趣的分析,与我们分享一些关于音乐表现的问题(参见第4节),但致力于音乐信息检索(MIR)任务,如和弦识别、类型识别和情绪估计[49]。
也可以查阅一些最近的国际研讨会的主题,例如,建设性的机器学习研讨会,会议在神经信息处理系统(少量)2016年12月[16],研讨会深学习音乐,在国际联合会议上神经网络(IJCNN)2017年5月[38]。
也有各种模型和技术使用计算机生成音乐,例如,规则、语法、自动机、马尔可夫模型、图形化的模型,模型由专家或手动定义是汲取了例子。在我们专注于深度学习架构的时候,它们不会在这里得到解决。请参考一些关于计算机音乐的一般书籍,例如[88],以及算法建模和音乐的生成,例如[80]和[15]。
1.2 主线内容
本书不需要有关深度学习和神经网络的先验知识,也不需要音乐。
Chapter 2 Method介绍了分析方法和所考虑的四个维度(目标、表示、架构和策略),与后面四章相对应。
Chapter 3 Objective主要是回顾不同类型的音乐内容。虽然这是一个很短的章节,但我们认为这是一个有用的回顾,以避免混淆不同的生成目标(例如,旋律从头开始,对位到一个现有的旋律…),这通常会导致不同的架构和策略。
Chapter 4 Representation (音符、持续时间、和弦…)编码的不同类型的表现形式和技巧的回顾和分析。本章可被已经精通计算机音乐的读者略过。
Chapter 5 Architecture是对最常见的深度学习架构(前馈、循环、自动编码器…)的回顾。这包括一个简单的神经网络的最基本的回顾。已经精通神经网络和深度学习架构的读者可跳过这一章。
Chapter 6 Strategy是对使用深度学习架构生成音乐的各种方法(策略)进行分类的初步尝试。它来源于我们对众多系统和实验的调查,这些系统和实验将在下一章介绍和讨论。
Chapter 7 Systems是对文献中各种系统和实验的综述。根据前几章提出的分类方法对它们进行了分析、比较和分类。
Chapter 8 Analysis通过一些表格总结了上一章的调查,以帮助识别不同系统的设计决策。
Chapter 9 Other sources of inspiration走出音乐领域,介绍一些系统的例子和实验,主要是在图像生成领域,这些可能是未来音乐生成的灵感来源。
Chapter 10 Discussion讨论了前几章中涉及到的一些问题。
1.3 本书的主要范围
这本书并不打算做一个总体介绍深度学习的书。 最近一个关于这一主题的优秀著作是[29]。 我们对现有系统的调查和分析显然是不详尽的。 我们试图选择最具代表性的领域,深度学习用于音乐生成目前非常活跃,新的体系正在不断呈现。 因此,在撰写本文时。我们鼓励读者和同事进行任何改进此调查和分析的反馈意见和建议仍然存在。
来源:CSDN
作者:Smokefishe
链接:https://blog.csdn.net/Smokefishe/article/details/104590735