Ampliando la Semántica de la Radiodifusión a Través de Automatizaciones de Segmentación de Audio Adaptativas
Autores: Kotsakis, Rigas; Dimoulas, Charalampos
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Ampliando la Semántica de la Radiodifusión a Través de Automatizaciones de Segmentación de Audio Adaptativas
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Adaptativo
Detección de audio
Técnicas de clasificación
Datos de voz
Transmisiones de radio
Taxonomías jerárquicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El presente documento se centra en técnicas de detección, segmentación y clasificación de audio adaptativas en contenido de transmisión de audio, dedicado principalmente a datos de voz. El marco sugerido aborda un escenario de caso real encontrado en servicios de medios y especialmente en transmisiones de radio, con el objetivo de satisfacer diversas necesidades de indexación/anotación y gestión (semi) automatizadas. En este contexto, se recopila contenido de radio agregado, que presenta pequeños conjuntos de datos de entrada, los cuales se utilizan para experimentos de clasificación adaptativa, sin buscar, en este momento, una solución genérica de reconocimiento de patrones. Se proponen taxonomías jerárquicas e híbridas, primero para discriminar datos de voz en transmisiones de radio y luego para detectar voces de un solo hablante, y cuando este es el caso, los experimentos avanzan a una capa final de clasificación de género. Vale la pena mencionar que se prueban técnicas supervisadas y de agrupamiento, tanto por separado como combinadas, junto con la sintonización de ventanas multivariadas, con el fin de extraer resultados significativos basados en tasas de rendimiento generales y parciales. Además, el trabajo actual, a través de mecanismos de aumento de datos, contribuye a la formulación de un Repositorio Dinámico de Clasificación de Audio Genérico que será sometido, en el futuro, a experimentación multilabel adaptativa con técnicas más sofisticadas, como arquitecturas profundas.
Descripción
El presente documento se centra en técnicas de detección, segmentación y clasificación de audio adaptativas en contenido de transmisión de audio, dedicado principalmente a datos de voz. El marco sugerido aborda un escenario de caso real encontrado en servicios de medios y especialmente en transmisiones de radio, con el objetivo de satisfacer diversas necesidades de indexación/anotación y gestión (semi) automatizadas. En este contexto, se recopila contenido de radio agregado, que presenta pequeños conjuntos de datos de entrada, los cuales se utilizan para experimentos de clasificación adaptativa, sin buscar, en este momento, una solución genérica de reconocimiento de patrones. Se proponen taxonomías jerárquicas e híbridas, primero para discriminar datos de voz en transmisiones de radio y luego para detectar voces de un solo hablante, y cuando este es el caso, los experimentos avanzan a una capa final de clasificación de género. Vale la pena mencionar que se prueban técnicas supervisadas y de agrupamiento, tanto por separado como combinadas, junto con la sintonización de ventanas multivariadas, con el fin de extraer resultados significativos basados en tasas de rendimiento generales y parciales. Además, el trabajo actual, a través de mecanismos de aumento de datos, contribuye a la formulación de un Repositorio Dinámico de Clasificación de Audio Genérico que será sometido, en el futuro, a experimentación multilabel adaptativa con técnicas más sofisticadas, como arquitecturas profundas.