Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data

Autores: Vryzas, Nikolaos; Tsipas, Nikolaos; Dimoulas, Charalampos

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Radio

Medios digitales

Extracción de conocimiento

Aplicación web

Clasificación de altavoces

Red neuronal convolucional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La radio está evolucionando en un ecosistema de medios digitales en cambio. El audio bajo demanda ha moldeado el panorama de los grandes datos de audio no estructurados disponibles en línea. En este documento, se presenta un marco para la extracción de conocimiento, con el fin de mejorar la descubribilidad y el enriquecimiento del contenido proporcionado. Se desarrolla una aplicación web para la producción y transmisión de radio en vivo. La aplicación ofrece funcionalidad típica de mezcla y transmisión en vivo, mientras realiza anotaciones en tiempo real como un proceso en segundo plano al registrar eventos de operación del usuario. Para las necesidades de una estación de radio típica, se entrena un modelo de clasificación de hablantes supervisado para el reconocimiento de 24 hablantes conocidos. El modelo se basa en una arquitectura de red neuronal convolucional (CNN). Dado que no todos los hablantes son conocidos en los programas de radio, también se propone un método de diarización de hablantes basado en CNN. El modelo entrenado se utiliza para la extracción de vectores de identidad de tamaño fijo. Se evalúan varios algoritmos de agrupamiento, teniendo los vectores de identidad como entrada. El modelo de reconocimiento de hablantes supervisado para 24 hablantes obtiene una precisión del 88.34%, mientras que la diarización de hablantes no supervisada alcanza una precisión máxima del 87.22%, según se prueba en un archivo de audio con segmentos de habla de tres hablantes desconocidos. Los resultados se consideran alentadores en cuanto a la aplicabilidad de la metodología propuesta.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro