Audio in Noten umwandeln: die Zukunft des MIR
In den letzten zehn Jahren hat die Forschung die Fähigkeit von Computern, komplexe Probleme zu lösen, insbesondere bei der Verarbeitung von Sequenzen, dramatisch verbessert. Das Aufkommen von Transformer-Neuronalen Netzen markiert einen Wendepunkt: Diese Architekturen überdenken die Behandlung syntaktischer Einheiten, sogenannter Tokens, und revolutionieren das Music Information Retrieval.
Was Ivory tut
Bei Ivory entwickeln wir proprietäre Modelle, die ein Audiosignal in eine symbolische Darstellung von Musik umwandeln. Wir arbeiten auf zwei verschiedenen Ebenen:
Signalanalyse
- Umwandlung des Audiosignals in ein Spektrogramm
- Extraktion von Noten (Beginn, Ende, Tonhöhe, Anschlagstärke)
Symbolische Analyse
- Verwendung der extrahierten Noten zur Bestimmung von Rhythmus, Tempo, Trennung von Melodie und Harmonie, Erkennung von Taktarten, Akkorden und allen weiteren Elementen einer traditionellen Partitur
Ein schwieriges Problem, ein faszinierendes Forschungsthema
Nicht überraschend wirft die KI-gestützte automatische Transkription mehrere große Herausforderungen auf, die wir zu bewältigen versuchen:
- Breite Semantik der Expressivität: Während das menschliche Ohr periodische Signale effizient verarbeitet und gegenüber Tempowechseln invariant bleibt, arbeitet eine Maschine mit einer absoluten Zeiteinheit – Sekunden –, was die Anpassung eines Stücks an ein anderes erschwert. Sie muss auch Live-Aufnahmen verarbeiten können, bei denen Musiker Dauern spielen, die zwar natürlich klingen, aber aus informationstheoretischer Sicht mehrdeutig sind. Kontext ist daher entscheidend, und die Variabilität der Eingangsdaten sowie der Mangel an öffentlichen Datensätzen erschweren die Generalisierung für neuronale Netze.
- Harmonie vs. Melodie: Im gesprochenen Sprachgebrauch sind diese Konzepte klar getrennt, doch in der Musik kann die Grenze verschwimmen: Sie ergänzen und beantworten einander.
- Polyphonie: Aktuelle Modelle verarbeiten semantische Einheiten (Tokens) nacheinander und sind nicht dafür ausgelegt, gleichzeitige Tokens im Zeitverlauf zu analysieren. Daher bleibt es eine offene Forschungsfrage, wie man dem Netzwerk die relevanteste zeitliche Darstellung liefert. Verschiedene Strategien existieren, lösen das Problem jedoch noch nicht vollständig.
- Menschliche redaktionelle Entscheidungen: Einige Angaben sind stilistisch oder notatorisch (freies Tempo, mehrdeutige Taktarten, editorische Markierungen) und gehen über eine einfache Abfolge von Noten hinaus.
- Versteckte Mehrdeutigkeiten: Noten allein heben nicht immer die inhärente Unsicherheit der musikalischen Notation auf und erzeugen eine Entropie, die neuronale Netze noch nicht vollständig modellieren können.
Volle Fahrt voraus für kontinuierliche Verbesserung
Die automatische Musiktranskription macht Fortschritte, doch ein universelles Modell gibt es noch nicht. Bei Ivory erzielen wir gute Ergebnisse bei einfachen Repertoires; hoch polyphone Passagen oder Live-Aufnahmen bleiben aktive Forschungsgebiete. Unsere Priorität ist klar: Verfeinerung der Notenerkennung, Stabilisierung des Rhythmus und Vertiefung der harmonischen Analyse, um verbleibende Fehler zu reduzieren.
Wir veröffentlichen regelmäßig Updates und haben eine Feedback-Schleife eingerichtet. Ihre Tests und Kommentare sind von unschätzbarem Wert: Sie gestalten unsere Roadmap und beschleunigen Korrekturen. Werden Sie Teil der Community, bleiben Sie über unsere Fortschritte informiert und helfen Sie uns, die Audio-zu-Notation-Transkription zu einem zuverlässigen Werkzeug für jeden Musiker zu machen.