Crédito de la foto: Deezer

Deezer está experimentando con algoritmos de entrenamiento para identificar letras explícitas en canciones.

Deezer está utilizando el aprendizaje automático para detectar letras explícitas a través del audio. Lo hace extrayendo voces y buscando instancias en las que una palabra coincida con entradas de diccionario de lenguaje soez. Un clasificador binario determina si la palabra es traviesa o agradable.

Deezer desarrolló una herramienta que llama Spleeter para ayudar a extraer las voces. Está disponible gratuitamente para que cualquiera lo use y es razonablemente competente para extraer voces de las canciones.

Las canciones con palabras “traviesas” reciben la etiqueta explícita de letras para revisión humana. Deezer dice que espera que el nuevo método para identificar letras explícitas reduzca el sesgo y mejore la precisión. Están alimentando al algoritmo cantidades iguales de canciones explícitas y limpias de múltiples géneros.

Eliminar el sesgo es uno de los mayores desafíos del aprendizaje automático. Un modelo puede adaptarse a los prejuicios presentes en los datos de muestra, un fenómeno llamado “caballo” en el análisis musical.

“Si no tiene cuidado al diseñar su experimento, puede terminar con un sistema que en lugar de detectar letras explícitas, detectará canciones de rap, simplemente porque tienen, en promedio, una mayor probabilidad de contener letras explícitas”, dice Deezer.

Si bien el nuevo enfoque es novedoso, Deezer dice que probablemente aún no sea práctico.

Puede detectar blasfemias individuales rápidamente, pero no alcanza la IA con acceso directo a las letras. Deezer dice que el objetivo es llevar la IA a un punto donde pueda funcionar sola, sin ayuda humana.

Eso podría aligerar la carga para las personas que etiquetan canciones. También reduce la posibilidad de que las canciones estén mal etiquetadas para el público equivocado. Por ahora, solo los humanos toman decisiones sobre si una canción debe etiquetarse como explícita o no.

“Esta tarea no está resuelta satisfactoriamente por las máquinas hasta hoy”, concluye el informe de Deezer.