...

ESTIMACIÓN Y SEGUIMIENTO DE MELODÍA PRINCIPAL

by user

on
Category: Documents
1

views

Report

Comments

Transcript

ESTIMACIÓN Y SEGUIMIENTO DE MELODÍA PRINCIPAL
ESTIMACIÓN Y SEGUIMIENTO DE MELODÍA PRINCIPAL
Haldo Spontón
Gonzalo Gini
Pablo Soubes
[email protected]
Instituto de Ingeniería Eléctrica
Facultad de Ingeniería
[email protected]
[email protected]
RESUMEN
El objetivo del proyecto es la detección de frecuencia fundamental de la melodía principal en piezas de audio reales. Se define melodía principal como la melodía
que realiza el instrumento que más se destaca por sobre el resto de la instrumentación, o sea, la melodía de la fuente de sonido más prominente. Puede ser una voz,
una guitarra, o cualquier otro instrumento sonoro. Además pueden encontrarse presentes otras fuentes sonoras interpretando líneas melódicas diferentes.
Como resultado se pretende obtener una estimación del valor de frecuencia asociado a la altura de cada tramo de la melodía principal para cada instante de tiempo
en las señales de entrada. Además, si se puede determinar donde la melodía principal no está presente, se va a devolver un valor nulo de altura en dichos instantes.
Éstos resultados se devuelven en un vector, guardando también la información temporal.
Señal de audio
ETAPA 1
ETAPA 2
Se busca obtener un numero determinado de candidatos a frecuencia fundamental de la melodía principal para cada
intervalo de tiempo de la señal de audio.
Se busca encontrar características que agreguen más información sobre los candidatos obtenidos en la etapa
anterior, como paso previo al seguimiento temporal.
SALIENCIA
BLANQUEADO ESPECTRAL
Procesar la señal de modo de independizarse de la
información de timbre de las fuentes sonoras que
aparecen en la misma.
Amplitud
100
50
0
0
1000
2000
3000
Frecuencia (Hz)
4000
5000
6000
4000
5000
6000
Estimación Local de
Frecuencia Fundamental
Espectro Blanqueado
150
Amplitud
· M es la cantidad de armónicos en la suma.
· τ es el período en cantidad de muestras donde se calcula la saliencia.
· g es una función paramétrica de ponderación.
· Y es el espectro de la señal en el frame de trabajo.
ETAPA 1
Espectro Original
150
100
50
0
0
1000
2000
3000
Frecuencia (Hz)
Hz
9000
8500
8000
7500
7000
6500
6000
5500
5000
4500
4000
ETAPA 2
3500
3000
2500
2000
1500
1000
500
Extracción de
Características
time
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
ETAPA 4
ETAPA 3
Se busca aprovechar la estrecha relación entre la frecuencia fundamental de la melodía principal en un frame y la
de los siguientes o anteriores, así como la continuidad de la saliencia, para dar coherencia temporal al resultado
de la estimación local. Además en esta etapa se agregan ciertas hipótesis producto de la evaluación del comportamiento
real de la melodía principal en una pieza musical.
El objetivo de la aplicación es presentar de una manera más intuitiva los resultados del sistema.
Para lograr esto se implementa un algoritmo de síntesis sonora que utiliza una función sinusoidal, cuya frecuencia
instantánea varía en función de los resultados obtenidos en las etapas anteriores.
TÉCNICAS DE SEGUIMIENTO
ETAPA 3
FILTRO DE KALMAN
PROGRAMACIÓN DINÁMICA
Filtro adaptivo, usado para aplicaciones de seguimiento,
que utiliza medidas ruidosas para estimar el estado
de un sistema.
Enfoque para la resolución de problemas de
optimización. El objetivo es determinar el conjunto de
estados de un sistema que minimiza cierta función
de costo.
Frecuencia de la melodía principal.
Frecuencia de la melodía principal.
300
300
Espectrograma de la señal sintetizada.
Seguimiento Temporal
(Tracking)
280
Frecuencia (Hz)
Frecuencia (Hz)
280
Con esto se obtiene una señal tonal que sigue en altura a la melodía principal de la pieza musical analizada.
260
240
260
240
220
220
200
200
13.2
13.4
13.6
Tiempo (s)
13.8
14
180
14.2
1.2
1.4
1.6
1.8
Tiempo (s)
2
2.2
2.4
Frecuencia de la melodía principal.
Frecuencia de la melodía principal.
280
270
275
265
ETAPA 4
270
Frecuencia (Hz)
Frecuencia (Hz)
260
255
250
245
265
260
255
Aplicación
(Síntesis Sonora)
250
240
245
235
240
230
225
13.2
13.4
13.6
13.8
Tiempo (s)
14
1.2
14.2
1.4
1.6
1.8
2
Tiempo (s)
2.2
2.4
RESULTADOS
CONCLUSIONES
RESULTADOS DE LA ESTIMACIÓN LOCAL
RESULTADOS GLOBALES PARA LOS ARCHIVOS DE PRUEBA
Archivo de Audio
Porcentaje de Acierto
daisy1.wav
93,65%
daisy2.wav
90,20%
daisy3.wav
97,17%
daisy4.wav
97,60%
jazz1.wav
83,19%
jazz2.wav
79.93%
60
jazz3.wav
92,35%
jazz4.wav
91,25%
40
midi1.wav
47,04%
midi3.wav
39,91%
% de algún candidato
% de algún candidato
primer candidato
Porcentajes de acierto
usando STFT%yde
CQT.
correcto (STFT)
correcto (CQT)
correcto (STFT)
120
% de primer candidato el
correcto (CQT)
100
80
20
midi4.wav
27,96%
opera_fem2.wav
52,40%
opera_fem4.wav
52,00%
opera_male3.wav
45,69%
opera_male4.wav
74,75%
pop1.wav
75,40%
pop2.wav
78,50%
pop3.wav
73,10%
10000
pop4.wav
75,73%
9000
train01.wav
83,00%
train02.wav
60,49%
train03.wav
70,41%
Histograma del error relativo, en los lugares de acierto.
8000
N
7000
train13MIDI.wav
train09.wav
train12.wav
train11.wav
train10.wav
train06.wav
Archivo
train08.wav
train07.wav
train05.wav
train03.wav
train04.wav
pop4.wav
train02.wav
pop3.wav
train01.wav
pop2.wav
pop1.wav
opera_male5.wav
opera_male3.wav
midi4.wav
opera_fem4.wav
midi3.wav
opera_fem2.wav
midi1.wav
jazz4.wav
jazz3.wav
jazz2.wav
jazz1.wav
daisy4.wav
daisy1.wav
daisy3.wav
daisy2.wav
0
Como resultado de la primera etapa se obtene un rendimiento satisfactorio en la estimación local de
frecuencia fundamental, alcanzando un 80% de acierto promedio. Este buen punto de partida favorece
el rendimiento de las siguientes etapas.
Los resultados de esta primer etapa esán restringidos a las diversas limitantes que tiene las formas
clásicas de representación tiempo-frecuencia, como ser el espectrograma o la transformada Q constante.
Una sensible mejora se lograría al partir de representaciones más precisas.
Dentro de la segunda etapa, se utiliza la saliencia para describir de buena manera cuan notable es una
fuente sonora a partir de su representación en el dominio de la frecuencia.Se analizan e implementan
algunas modicaciones a esta característica que son útiles en alguna de las dos técnicas de
seguimiento, aumentando considerablemente su rendimiento al tenerlas en cuenta.
En la tercer etapa se estudian dos técnicas de seguimiento, encontrando diferentes virtudes y
desventajas en cada una de ellas. Utilizando filtro de Kalman se puede encontrar comienzos y finales de
notas, y a su vez se observa que la técnica puede ser aplicable al seguimiento de múltiples líneas
melódicas. Con programación dinámica no se puede determinar comienzos y finales de notas,
pero se obtiene un algoritmo más robusto frente a los errores de la estimación local, siendo mas
versátil en la integración de técnicas para atacar problemas específicos dentro del seguimiento.
Como última parte se diseña una aplicación que permite apreciar el resultado final del algoritmo.
Cuando la estimación de frecuencia fundamental es precisa se puede usar la síntesis sonora para
escuchar los resultados sobre los archivos de audio originales.
REFERENCIAS
[1] Gustavo Basso. Percepción Auditiva. Universidad Nacional de Quilmes, 2006.
[2] Gonzalo Sosa, Ernesto López, Martín Rocamora. Tararira: Búsqueda de música por tarareo.
Proyecto de Fin de Carrera, IIE, Facultad de Ingeniería., 2004.
[3] Monson H. Hayes. Statistical Digital Signal Processing and Modeling. Wiley, March 1996.
train04.wav
68,01%
[4] Simon Haykin. Adaptive Filter Theory (3th Edition). Prentice Hall, September 2001.
6000
train05.wav
85,03%
[5] Steven M. Kay. Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall, 1997.
5000
train06.wav
53,40%
train07.wav
77,40%
train08.wav
80,89%
3000
train09.wav
80,25%
2000
train10.wav
27,08%
4000
1000
0
−3
−2
−1
0
1
Error relativo en %.
2
3
train11.wav
64,06%
train12.wav
96,40%
train13MIDI.wav
51,30%
[6] Anssi Klapuri. Multiple fundamental frequency estimation by summing harmonic amplitudes.
In in ISMIR, pages 216221, 2006.
[7] Luiz W. P. Biscainho Leonardo de O.Ñunes, Ricardo Merched. Recursive leastsquares estimation
of the evolution of partials in sinusoidal analysis. In in Acoustics, Speech and Signal Processing, 2007.
ICASSP 2007. IEEE International Conference on, pages I253 I256. Universidade Federal do Rio de
Janeiro, Brazil, 2007.
[8] R. E. Bellman. Dynamic programming. Princeton University Press, 1957.
[9] A. P. Klapuri. A perceptually motivated multiple-f0 estimation method. In IEEE Workshop on
Applications of Signal Processing to Audio and Acoustics, pages 291-294, 2005.
AGRADECIMIENTOS
A los tutores: Pablo Cancela, Ernesto López e Ignacio Irigaray.
A nuestras familias, a los docentes del Instituto de Ingeniería Eléctrica, y a todos quienes colaboraron de alguna manera con la realización de este proyecto.
Fly UP