首页 动态 > 正文

AI人工智能从歌词中生成旋律

从歌词中生成音符序列可能听起来像是科幻小说的内容,但是由于人工智能,它有朝一日会变得像网络电台一样普遍。在预印本服务器Arxiv.org上发表的一篇论文(“歌词中的旋律生成的条件LSTM-GAN”)中,来自东京国立信息学研究所的研究人员描述了一种能够从中产生“歌词条件”旋律的机器学习系统。学会了音节和音符之间的关系。

“来自歌词的旋律生成一直是人工智能和音乐领域的一个具有挑战性的研究问题,它能够学习和发现有趣的歌词和伴奏旋律之间的潜在关系,”该论文的共同作者写道。“随着现有歌词和旋律数据集的发展以及[AI],歌词和旋律之间的音乐知识挖掘逐渐成为可能。”

正如研究人员解释的那样,音符有两个音乐属性:音高和持续时间。音高是声音的感知属性,其在频率相关音阶上通过高度或低度来组织音乐,而持续时间表示音调或音调被发声的时间长度。音节与音乐曲目的MIDI文件中的旋律对齐;所述文件中的列表示一个音节及其相应的音符,音符持续时间和休息。

研究人员的AI系统将对齐数据与长短期记忆(LSTM)网络结合使用,LSTM网络是一种能够学习长期依赖性的递归神经网络,具有生成性对抗网络(GAN),部分神经网络由产生样本的发生器和鉴别器组成,试图区分生成的样本和真实样本。LSTM经过训练,可以在音节和单词级别学习联合嵌入(数学表示)来捕捉歌词的突触结构,而GAN随着时间的推移学会了在给出歌词的同时预测旋律,同时考虑到歌词和旋律之间的关系。

为了训练它,该团队编制了一个由12,197个MIDI文件组成的数据集,每个文件都配有歌词和旋律对齐 - 来自开源LMD-full MIDI数据集的7,998个文件和来自Reddit MIDI数据集的4,199个文件 - 它们减少到20-注意序列。他们从LMD-full MIDI中获取了20,934个独特音节和20,268个独特单词,并为每个MIDI文件提取每分钟节拍(BPM)值,之后他们计算了音符持续时间和休息持续时间。

在将语料库分成训练,验证和测试集并将它们馈入模型之后,共同作者进行了一系列测试以确定它预测的旋律与歌词,MIDI数字,音符持续时间和休息持续时间顺序对齐的程度。他们报告说,他们的人工智能系统不仅“在各个方面”都超越了基线模型,而且与人类音乐的分布非常接近。在主观评估期间,志愿者被要求评估使用基线方法,AI模型和地面实况产生的12个20秒旋律的质量,由所提出的模型产生的旋律的分数更接近于由人类组成的分数。基线。

研究人员留下未来的工作合成旋律与未完成的歌词草图和预测歌词时给定的旋律作为条件。

研究人员写道:“音乐和人工智能中歌词的旋律生成仍然未得到很好的探索。”“利用深度学习技术制作旋律是一个非常有趣的研究领域,旨在了解人类的音乐创作活动。”

如果最近的事态发展有任何迹象,人工智能可能很快就会成为音乐家组成武库的宝贵工具。今年7月,总部位于蒙特利尔的创业公司Landr筹集了2600万美元用于分析音乐风格的产品,以创建定制的音频处理器,而今年早些时候,OpenAI和谷歌推出了利用音乐生成算法的在线创作工具。最近,索尼的研究人员研究了有条件的鼓式轨道生成的机器学习模型。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。