IvoryTranscribe & Learn
机器学习一点科普

将音频转化为乐谱:音乐信息检索的未来

在过去的十年里,研究极大地提升了计算机解决复杂问题的能力,尤其是在序列处理方面。Transformer 神经网络的出现标志着一个分水岭:这些架构重新思考了称为标记的句法单元的处理方式,并正在彻底改变音乐信息检索。

Ivory 的工作

在 Ivory,我们设计专有模型,能够将音频信号转化为音乐的符号表示。我们在两个不同的层面上工作:

  1. 信号分析

    • 将音频信号转换为频谱图
    • 提取音符(起始、偏移、音高、力度)
  2. 符号分析

    • 使用提取的音符来确定节奏、速度、将旋律与和声分开、识别拍号、和弦以及传统乐谱的所有其他元素

一个难题,一个引人入胜的研究课题

毫不奇怪,人工智能辅助的自动转录带来了我们正在努力克服的几个主要挑战:

  • 宽泛的表现力语义:虽然人耳擅长处理周期性信号并且对速度变化保持不变,但机器在绝对时间单位上运行:秒,这使得将一首乐曲适应另一首变得困难。它还必须处理现场表演录音,其中表演者演奏的时长对耳朵来说听起来很自然,但从信息的角度来看仍然模棱两可。因此,上下文至关重要,输入数据的可变性以及公共数据集的缺乏使得神经网络难以泛化。
  • 和声与旋律:在自然语言中,这些概念有明显的区别,但在音乐中,两者之间的界限可能很模糊,它们相互呼应和补充。
  • 复音:最近的模型一个接一个地处理称为标记的语义单元,并且并非旨在分析时间上并发的标记。因此,找到为网络提供最相关的时间表示的最佳技术仍然是一个悬而未决的研究问题。存在几种策略来解决这些困难,但该研究课题仍未解决。
  • 人为编辑选择:一些指示是风格或符号上的(自由速度、模棱两可的拍号、编辑标记),超出了简单的音符序列。
  • 潜在的歧义:仅靠音符并不总能解决音乐符号固有的不确定性,从而产生神经网络仍然难以建模的熵。

全力以赴,持续改进

自动音乐转录正在取得进展,但还没有一个模型是通用的。在 Ivory,我们在简单的曲目上取得了很好的结果;高度复音的段落或现场录音仍然是积极研究的领域。我们的首要任务很明确:改进音符检测、稳定节奏并丰富和声分析以减少残余错误。

我们定期发布更新并建立了反馈循环。您的试用和评论非常宝贵:它们塑造了我们的路线图并加速了修复。加入社区,随时了解我们的进展,并帮助我们使音频到乐谱的转录成为每个音乐家的可靠工具。