IvoryTranscribe & Learn
머신러닝약간의 대중 과학

오디오를 악보로 변환: MIR의 미래

지난 10년 동안 연구는 특히 시퀀스 처리에서 복잡한 문제를 해결하는 컴퓨터의 능력을 극적으로 향상시켰습니다. Transformer 신경망의 등장은 분수령을 이룹니다. 이러한 아키텍처는 토큰이라는 구문 단위의 처리를 재고하고 음악 정보 검색을 혁신하고 있습니다.

Ivory가 하는 일

Ivory에서는 오디오 신호를 음악의 상징적 표현으로 변환할 수 있는 독점 모델을 설계합니다. 우리는 두 가지 다른 수준에서 작업합니다.

  1. 신호 분석

    • 오디오 신호를 스펙트로그램으로 변환
    • 음표 추출 (시작, 오프셋, 피치, 속도)
  2. 기호 분석

    • 추출된 음표를 사용하여 리듬, 템포를 결정하고 멜로디와 화음을 분리하고 박자표, 코드 및 전통적인 악보의 다른 모든 요소를 식별합니다.

어려운 문제, 매혹적인 연구 주제

놀랍지 않게도 AI 지원 자동 편곡은 우리가 극복하기 위해 노력하고 있는 몇 가지 주요 과제를 제기합니다.

  • 표현력의 넓은 의미: 사람의 귀는 주기적인 신호를 처리하는 데 뛰어나고 템포 변화에 변함이 없지만 기계는 절대적인 시간 단위인 초 단위로 작동하므로 한 곡을 다른 곡에 맞추기가 어렵습니다. 또한 연주자가 귀에는 자연스럽게 들리지만 정보적 관점에서는 모호한 길이를 연주하는 라이브 공연 녹음을 처리해야 합니다. 따라서 컨텍스트가 중요하며 입력 데이터의 가변성과 공개 데이터 세트의 부족으로 인해 신경망의 일반화가 어렵습니다.
  • 화음 대 멜로디: 자연어에서는 이러한 개념이 명확하게 구별되지만 음악에서는 둘 사이의 경계가 모호할 수 있으며 서로 반응하고 보완합니다.
  • 다성음악: 최근 모델은 토큰이라는 의미 단위를 하나씩 처리하며 시간적으로 동시적인 토큰을 분석하도록 설계되지 않았습니다. 따라서 네트워크에 가장 관련성 있는 시간적 표현을 제공하는 최상의 기술을 찾는 것은 여전히 미해결 연구 문제입니다. 이러한 어려움을 해결하기 위한 몇 가지 전략이 존재하지만 연구 주제는 아직 해결되지 않았습니다.
  • 인간의 편집 선택: 일부 표시는 문체적이거나 표기법적이며(자유 템포, 모호한 박자표, 편집자 표시) 단순한 음표의 연속을 넘어섭니다.
  • 잠재적 모호성: 음표만으로는 음악 표기법에 내재된 불확실성을 항상 해결하지 못하여 신경망이 여전히 모델링하기 어려운 엔트로피를 생성합니다.

지속적인 개선을 위한 전력 질주

자동 음악 편곡은 발전하고 있지만 아직 보편적인 모델은 없습니다. Ivory에서는 간단한 레퍼토리에서 강력한 결과를 얻습니다. 고도로 다성적인 구절이나 라이브 녹음은 활발한 연구 분야로 남아 있습니다. 우리의 우선 순위는 분명합니다. 음표 감지를 개선하고 리듬을 안정화하며 화음 분석을 풍부하게 하여 잔여 오류를 줄이는 것입니다.

우리는 정기적으로 업데이트를 게시하고 피드백 루프를 설정했습니다. 귀하의 시도와 의견은 매우 소중합니다. 이는 우리의 로드맵을 형성하고 수정을 가속화합니다. 커뮤니티에 가입하여 우리의 진행 상황에 대한 최신 정보를 얻고 오디오-악보 편곡을 모든 음악가에게 신뢰할 수 있는 도구로 만드는 데 도움을 주세요.