En su tesis de maestría en Computación, Carlos Arturo Medina aborda el problema de identificar la melodía a la que pertenece una pequeña muestra (5-15 seg.) de audio de ella, tomada en cualquier parte de la melodía completa. Su tesis completa puede descargarse aquí.
El presente trabajo de tesis aborda el problema del reconocimiento auditivo. Una canción contiene música, pero también contiene partes donde solo existe voz, o una secuencia de sonidos (no forzosamente generados por un instrumento) que crean atmósferas. Para poder identificar correctamente es- tas secuencias se crea un modelado de huella a partir del contenido de las mismas, y almacenadas en una bodega que las relacione al archivo que las generó, permitirá que al extraer estas huellas de una muestra de audio pueda encontrarse el archivo reproducido, y recuperar toda la información que se tiene de él en la bodega.
Con este fin, se implementa un Sistema Identificador de Audio (SIA), haciendo uso de un modelo de huellas usado por una aplicación bastante popular como lo es Shazam. Se hace uso de distintas tecnologías que permitan alma- cenar las huellas obtenidas con este modelo, con el fin de obtener pruebas de desempeño y factibilidad de implementación con una gran cantidad de canciones. Además, se propone y se pone a prueba una forma alternativa que busca acelerar el tiempo de búsqueda en la bodega sin perder exactitud.
Se hace uso de una base de datos con licencia libre conteniendo una gran diversidad de géneros musicales así como un etiquetado completo de cada una de las pistas que contiene. La descripción de la implementación junto con la metodología de pruebas y resultados obtenidos busca ayudar a obtener un panorama distinto al de artículos ya publicados, ya que muchas veces ciertos detalles son omitidos por tratarse de aplicaciones comerciales.
La exactitud obtenida en las pruebas realizadas se asemeja bastante a la descrita en el estado del arte, sin embargo los tiempos de respuesta obtenidos no son tan buenos como los reportados, resultando en un área de oportunidad para intentar nuevos métodos a partir de este trabajo.
In his master's thesis, Carlos Arturo Medina addresses the problem of identifying the melody to which a small sample (5-15 sec.) of audio belongs, taken anywhere in the complete melody. His full thesis can be downloaded here.
This thesis addresses the audio recognition problem. A song contains music, but also contains parts where there is only voice, or a sequence of sounds (not necessarily generated by an instrument) that create atmospheres. To be able to correctly identify these sequences, a fingerprint modeling is created from its content, and stored in a warehouse that associates the file that generated them will allow to extract these fingerprints from a sample and found the played audio file, retrieving all the information stored about the song in the warehouse.
To achieve this, an Audio Identifier System (SIA) is implemented using a fingerprint model used by a quite popular application such as Shazam. Diffe- rent technologies that allow storing the fingerprints obtained with this model are used, in order to obtain evidence of performance and feasibility on an implementation with a large number of songs. In addition, an alternative way that seeks to speed up search time in the warehouse without losing accuracy is proposed and tested.
A free license dataset is used, containing a great diversity of musical genres and a complete labeling of each of its tracks. The description of the imple- mentation together with the methodology of tests and results obtained seeks to help to obtain a different view from that of the already published articles, since certain details are omitted many times because they are used in com- mercial applications.
The accuracy obtained in the tests carried out, closely resembles the described in the state of the art, however, the response times obtained are not so good as the reported, resulting in an area of opportunity to try new methods from this work.
No hay comentarios:
Publicar un comentario