IvoryTranscribe & Learn
Machine learningUn peu de vulgarisation

Transformer l’audio en partition : l’avenir de la MIR

Les dix dernières années de recherche ont profondément accru la capacité des ordinateurs à résoudre des problèmes complexes, en particulier pour le traitement des séquences. L’émergence des réseaux de neurones Transformers marque un tournant : ces architectures transforment le traitement d’unités syntaxiques appelées tokens et révolutionnent le Music Information Retrieval.

Ce que fait Ivory

Chez Ivory, nous concevons des modèles propriétaires capables de transformer un signal audio en représentation symbolique de la musique. Nous travaillons à deux niveaux différents :

  1. Analyse du signal

    • Conversion du signal audio en spectrogramme
    • Extraction des notes (début, fin, pitch, vélocité)
  2. Analyse symbolique

    • Exploitation des notes extraites pour déterminer rythme, tempo, séparer la mélodie de l’harmonie, les signatures temporelles, les accords et tous les autres éléments d’une partition traditionnelle

Un problème difficile, un sujet de recherche fascinant

Sans grande surprise, la transcription automatique assistée par intelligence artificielle soulève plusieurs défis majeurs auxquels nous tentons de pallier :

  • Sémantique très large de l’expressivité : Bien que l’oreille humaine soit incroyablement efficace pour traiter des signaux périodiques et demeure invariante au tempo, la machine, quant à elle, opère sur une unité de temps absolue – les secondes – ce qui engendre des problèmes d’adaptation d’un morceau à l’autre. Elle doit également être capable de gérer des enregistrements issus de performances live où l’interprète peut jouer des durées qui sonnent naturellement à l’oreille, mais restent ambiguës du point de vue informationnel. Le contexte est donc primordial, et la variabilité des données d’entrée ainsi que le manque de données publiques rendent la généralisation difficile pour le réseau de neurones.
  • Harmonie et mélodie : Si le langage naturel dissocie clairement ces concepts, il subsiste parfois un flou quant à la frontière entre mélodie et harmonie : les deux se répondent et se complètent.
  • Polyphonie : Les modèles récents traitent les unités sémantiques appelées tokens une par une et ne sont pas conçus pour analyser des tokens concurrents dans le temps. Il s’agit donc de trouver la meilleure technique pour fournir au réseau de neurones la représentation temporelle la plus pertinente. Plusieurs stratégies existent pour pallier ces difficultés, mais le sujet de recherche reste ouvert et peine encore à les résoudre avec précision.
  • Choix éditoriaux humains : certaines indications sont stylistiques ou syntaxiques (tempo libre, signatures ambiguës, notations de l’éditeur) et dépassent la simple succession de notes.
  • Ambiguïtés latentes : les notes seules ne lèvent pas toujours l’incertitude inhérente à l’écriture musicale, générant une entropie que les réseaux de neurones peinent encore à modéliser.

Cap sur l’amélioration continue

La transcription musicale automatique progresse, mais aucun modèle n’est encore universel. Chez Ivory, nous obtenons de bons résultats sur des répertoires simples : les passages très polyphoniques ou les enregistrements live restent des zones de recherche active. Notre priorité est donc claire : affiner la détection des notes, stabiliser le rythme et enrichir l’analyse harmonique pour réduire les erreurs résiduelles.

Nous publions régulièrement des mises à jour et avons mis en place un dispositif de retour d’expérience. Vos essais et remarques sont précieux : ils orientent notre feuille de route et accélèrent les correctifs. Rejoignez la communauté, suivez nos avancées et contribuez, avec nous, à faire de la transcription audio-partition un outil fiable pour tous les musiciens.