音声を楽譜に:音楽情報検索(MIR)の未来
過去10年間で、特にシーケンス処理において、複雑な問題を解決するコンピューターの能力は研究によって劇的に向上しました。Transformerニューラルネットワークの出現は画期的な出来事です。これらのアーキテクチャはトークンと呼ばれる構文単位の扱いを再考し、音楽情報検索に革命をもたらしています。
Ivoryの取り組み
Ivoryでは、音声信号を音楽の記号表現に変換できる独自のモデルを設計しています。私たちは2つの異なるレベルで取り組んでいます:
信号分析
- 音声信号をスペクトログラムに変換
- 音符(オンセット、オフセット、ピッチ、ベロシティ)を抽出
記号分析
- 抽出された音符を使用して、リズム、テンポ、メロディとハーモニーの分離、拍子記号、コード、その他従来の楽譜のすべての要素を決定
困難な問題、魅力的な研究テーマ
当然のことながら、AI支援による自動採譜は、私たちが克服しようと努力しているいくつかの大きな課題を提起します:
- 表現力の幅広い意味論:人間の耳は周期的な信号の処理に優れ、テンポの変更に不変ですが、機械は秒という絶対的な時間単位で動作するため、ある曲を別の曲に適応させることが困難です。また、演奏者が耳には自然に聞こえるが情報的には曖昧な長さで演奏するライブパフォーマンスの録音も処理しなければなりません。したがって、コンテキストが重要であり、入力データの変動性と公開データセットの不足が、ニューラルネットワークの汎化を困難にしています。
- ハーモニー対メロディ:自然言語ではこれらの概念は明確に区別されますが、音楽では両者の境界が曖昧になることがあり、互いに応答し補完し合います。
- ポリフォニー:最近のモデルはトークンと呼ばれる意味単位を次々に処理し、時間的に同時に発生するトークンを分析するようには設計されていません。したがって、ネットワークに最も関連性の高い時間的表現を提供するための最良の技術を見つけることは、未解決の研究課題です。これらの困難に対処するためのいくつかの戦略が存在しますが、研究テーマは未解決のままです。
- 人間による編集上の選択:一部の指示は文体的または記譜上のものであり(自由なテンポ、曖昧な拍子記号、編集者による記号)、単なる音符の連続を超えています。
- 潜在的な曖昧さ:音符だけでは、音楽記譜法に固有の不確実性を常に解決できるわけではなく、ニューラルネットワークがモデル化するのにまだ苦労しているエントロピーを生成します。
継続的な改善に向けて全力疾走
自動音楽採譜は進歩していますが、まだ普遍的なモデルはありません。Ivoryでは、単純なレパートリーで強力な結果を達成しています。高度にポリフォニックなパッセージやライブ録音は、依然として活発な研究分野です。私たちの優先事項は明確です:音符検出の改良、リズムの安定化、そして残差エラーを減らすためのハーモニー分析の強化です。
私たちは定期的にアップデートを公開し、フィードバックループを設けています。皆様の試用とコメントは非常に貴重です。それらが私たちのロードマップを形成し、修正を加速させます。コミュニティに参加し、私たちの進捗状況を常に把握し、音声から楽譜への採譜をすべてのミュージシャンにとって信頼できるツールにする手助けをしてください。