logo móvil
Contáctanos

Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data

Autores: Vryzas, Nikolaos; Tsipas, Nikolaos; Dimoulas, Charalampos

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Radio
Medios digitales
Extracción de conocimiento
Aplicación web
Clasificación de altavoces
Red neuronal convolucional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La radio está evolucionando en un ecosistema de medios digitales en cambio. El audio bajo demanda ha moldeado el panorama de los grandes datos de audio no estructurados disponibles en línea. En este documento, se presenta un marco para la extracción de conocimiento, con el fin de mejorar la descubribilidad y el enriquecimiento del contenido proporcionado. Se desarrolla una aplicación web para la producción y transmisión de radio en vivo. La aplicación ofrece funcionalidad típica de mezcla y transmisión en vivo, mientras realiza anotaciones en tiempo real como un proceso en segundo plano al registrar eventos de operación del usuario. Para las necesidades de una estación de radio típica, se entrena un modelo de clasificación de hablantes supervisado para el reconocimiento de 24 hablantes conocidos. El modelo se basa en una arquitectura de red neuronal convolucional (CNN). Dado que no todos los hablantes son conocidos en los programas de radio, también se propone un método de diarización de hablantes basado en CNN. El modelo entrenado se utiliza para la extracción de vectores de identidad de tamaño fijo. Se evalúan varios algoritmos de agrupamiento, teniendo los vectores de identidad como entrada. El modelo de reconocimiento de hablantes supervisado para 24 hablantes obtiene una precisión del 88.34%, mientras que la diarización de hablantes no supervisada alcanza una precisión máxima del 87.22%, según se prueba en un archivo de audio con segmentos de habla de tres hablantes desconocidos. Los resultados se consideran alentadores en cuanto a la aplicabilidad de la metodología propuesta.

Otros recursos que podrían interesarte

Temas Virtualpro