En su tesis de maestría en Computación, Carlos Arturo Medina aborda el problema de identificar la melodía a la que pertenece una pequeña muestra (5-15 seg.) de audio de ella, tomada en cualquier parte de la melodía completa. Su tesis completa puede descargarse aquí.
El presente trabajo de tesis aborda
el problema del reconocimiento auditivo. Una canción contiene música, pero también contiene partes donde solo existe voz, o una secuencia de sonidos (no
forzosamente generados por un instrumento)
que crean atmósferas. Para poder identificar correctamente es- tas secuencias se
crea un modelado de huella a partir del contenido de las mismas, y almacenadas
en una bodega que las relacione al archivo que las generó, permitirá que al
extraer estas huellas de una muestra de audio pueda encontrarse el archivo reproducido, y recuperar toda la
información que se tiene de él en la bodega.
Con este fin, se implementa un
Sistema Identificador de Audio (SIA), haciendo uso de un modelo de huellas usado por una aplicación bastante popular como lo es Shazam. Se hace uso de
distintas tecnologías que permitan alma- cenar las huellas obtenidas
con este modelo,
con el fin de obtener
pruebas de desempeño y factibilidad de implementación con una gran cantidad de canciones.
Además, se propone y se pone a prueba una forma alternativa que busca acelerar el tiempo de búsqueda en la bodega sin perder exactitud.
Se hace uso de una base de datos
con licencia libre conteniendo una gran diversidad
de géneros musicales así como un etiquetado completo de cada una de las pistas que contiene. La descripción
de la implementación junto con la metodología de pruebas y resultados obtenidos busca ayudar a obtener un
panorama distinto al de artículos ya publicados,
ya que muchas veces ciertos detalles son omitidos por tratarse de aplicaciones comerciales.
La exactitud obtenida en las pruebas realizadas se asemeja
bastante a la descrita en el estado del arte, sin embargo los tiempos de respuesta
obtenidos no son tan buenos
como los reportados, resultando en un área de oportunidad para intentar nuevos métodos
a partir de este trabajo.
In his master's thesis, Carlos Arturo Medina addresses the problem of identifying the melody to which a small sample (5-15 sec.) of audio belongs, taken anywhere in the complete melody. His full thesis can be downloaded here.
This
thesis addresses the audio recognition problem. A song contains music, but also contains parts where there is
only voice, or a sequence of sounds (not necessarily
generated by an instrument) that create atmospheres. To be able to correctly identify these sequences, a
fingerprint modeling is created from its content, and stored in a warehouse that associates the
file that generated them will allow to extract these fingerprints from a sample
and found the played audio file, retrieving all the information stored
about the song in the warehouse.
To achieve this, an
Audio Identifier System (SIA) is implemented using a fingerprint model used by a
quite popular application such as Shazam. Diffe- rent technologies that allow storing the fingerprints obtained
with this model are used, in
order to obtain evidence of performance and feasibility on an implementation
with a large number of songs. In addition, an alternative way that seeks to speed up search time in the warehouse without losing accuracy
is proposed and tested.
A free license dataset is used, containing a
great diversity of musical genres
and a complete labeling of each of its tracks. The description of the
imple- mentation together with the methodology of tests and results obtained
seeks to help to obtain a different view from that of the already published
articles, since certain
details are omitted many times because
they are used in com- mercial applications.
The
accuracy obtained in the tests carried out, closely resembles the described in the state of the art, however, the response times obtained are not so good as the reported, resulting in an area of
opportunity to try new methods from this work.