¿Cómo funcionan las aplicaciones de identificación de música como Shazam?

Las aplicaciones de identificación de música parecen mágicas al principio, pero debajo del capó hay un algoritmo sofisticado que puede encontrar canciones en un instante. Así es como funcionan.

La magia de la identificación musical

Probablemente nos haya pasado a todos. Estás cenando en un buen restaurante, pasando el rato en una cafetería o caminando por una tienda, cuando de repente escuchas una gran canción sonando por los altavoces. Tal vez sea una canción que has escuchado antes o una pista que nunca has escuchado. Entonces, sacas tu teléfono, abres Shazam y sostienes tu dispositivo contra el techo. En solo un instante, la aplicación te dice cuál es la canción, quién es el artista y dónde transmitirla.

Son rápidos, notablemente precisos y pueden identificar incluso las canciones más oscuras. En pocas palabras, funcionan aislando la canción de una grabación y buscándola en una amplia base de datos de pistas. Pero la tecnología detrás de cómo lo hacen es bastante compleja e impresionante.

Es posible que se sorprenda al saber que la aplicación Shazam que conocemos hoy se lanzó en 2002, y el sistema era tan preciso y rápido entonces como lo es ahora. Eso es todo gracias a un algoritmo único que revolucionaría el mundo de la música.

No es solo la letra

A primera vista, las aplicaciones de identificación de música como Shazam pueden parecer simples. Puede pensar que simplemente escuchan la letra, al igual que cualquier asistente de voz, y la buscan en una base de datos de letras de canciones para decirle cuál es la canción.

Sin embargo, la mayoría de las aplicaciones de identificación de música son capaces de decir cuál es el título de un instrumental, o incluso el cantante de un cover. Eso es porque, en lugar de analizar la letra de la pista, están buscando «huellas digitales» que son únicas para cada canción en sus extensas bases de datos.

Tecnología de huellas dactilares

Shazam en un iPhone X

Es probable que tenga dispositivos que se pueden desbloquear con su huella digital, que es la disposición de las pequeñas líneas en su dedo que son exclusivas para usted. De manera similar, cuando sostienes el micrófono para grabar un breve clip de una canción, este clip se convierte en patrones de datos que Shazam u otra aplicación pueden buscar en su base de datos.

A primera vista, ese método parece propenso a varios problemas. La mayoría de las veces que escucha música en público, hay ruido de fondo y distorsión causada por los altavoces, lo que puede hacer que las canciones no sean identificables o dar como resultado coincidencias inexactas. Además, hay muchos datos capturados incluso en un breve clip de sonido, lo que puede hacer que la búsqueda de estos patrones en una base de datos de millones de canciones sea lenta.

En una entrevista con Científico americano en 2003, Avery Li-Chun Wang, el científico de datos jefe y cofundador de Shazam, explica cómo su algoritmo soluciona estos problemas. La información de un clip de audio se puede visualizar con un gráfico 3D conocido como espectrograma, que representa un cambio en las frecuencias durante un período de tiempo. También tiene en cuenta la amplitud, que es lo fuerte que es un sonido. Esto se representa en un espectrograma usando la intensidad del color.

Espectrograma musical de Shazam

De la misma manera que los humanos no pueden percibir el sonido a menos que estén en una frecuencia particular, en lugar de tener en cuenta la totalidad de una canción al realizar una búsqueda, Shazam solo toma «picos», que es el contenido de energía más alto dentro de un clip de audio. . Las huellas dactilares que captura solo toman los puntos de frecuencia más alta dentro de un marco de tiempo dado y luego los puntos de amplitud máxima dentro de esas frecuencias.

En un trabajo de investigación para Universidad de ColombiaWang declaró que el método les permite eliminar la mayoría de las partes innecesarias de un clip de audio, como el ruido de fondo, y eliminar la distorsión. También hace que el tamaño de las impresiones sea lo suficientemente pequeño como para que solo se necesiten milisegundos para identificar una canción entre su amplia base de datos.

Impacto de Shazam

Además de ser útiles para los oyentes promedio que escuchan una canción que les gusta, las aplicaciones de identificación de música también ayudan a dar forma al mundo de la música.

Las estaciones de radio y los servicios de transmisión a menudo usan los datos sobre lo que la gente está haciendo más Shazam para averiguar qué pistas está escuchando el público. Esto es útil porque indica el atractivo y la popularidad potencial de una canción, independientemente del artista. Cuando identifique una canción con la aplicación, verá inmediatamente cuántas personas también han intentado identificarla.

Identificación de música Soundhound

Desde el surgimiento de Shazam, también han aparecido algunos competidores. Soundhound afirma ser capaz de identificar una canción simplemente cantándola o tarareando, con resultados mixtos. También hay un identificador de canciones integrado con aplicaciones de voz como el Asistente de Google que funcionan de manera muy similar al sistema de Shazam.