logo móvil
Contáctanos

Reconsiderando la lectura y el habla espontánea: Perspectivas causales sobre la generación de datos de entrenamiento para el reconocimiento automático del habla

Autores: Gabler, Philipp; Geiger, Bernhard C.; Schuppler, Barbara; Kern, Roman

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Reconsiderando la lectura y el habla espontánea: Perspectivas causales sobre la generación de datos de entrenamiento para el reconocimiento automático del habla


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Datos de entrenamiento
Reconocimiento automático de voz
Habla leída
Habla espontánea
Causalidad
Generación de datos.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Superficialmente, el habla leída y el habla espontánea, los dos principales tipos de datos de entrenamiento para el reconocimiento automático del habla, parecen ser complementarios, pero son iguales: pares de textos y señales acústicas. Sin embargo, el habla espontánea es típicamente más difícil de reconocer. Esto se explica generalmente por diferentes tipos de variación y ruido, pero hay una desviación más fundamental en juego: para el habla leída, la señal de audio se produce mediante la recitación del texto dado, mientras que en el habla espontánea, el texto se transcribe a partir de una señal dada. En esta revisión, abrazamos esta diferencia presentando una primera introducción del razonamiento causal en el reconocimiento automático del habla y describiendo la causalidad como una herramienta para estudiar los estilos de habla y los datos de entrenamiento. Después de desglosar los procesos de generación de datos del habla leída y espontánea y analizar el dominio desde una perspectiva causal, destacamos cómo la generación de datos mediante anotación debe afectar la interpretación de la inferencia y el rendimiento. Nuestro trabajo discute cómo varios resultados de la literatura sobre causalidad respecto al impacto de la dirección de los mecanismos de generación de datos en el aprendizaje y la predicción se aplican a los datos de habla. Finalmente, argumentamos cómo una perspectiva causal puede apoyar la comprensión de los modelos en el procesamiento del habla en relación con su comportamiento, capacidades y limitaciones.

Otros recursos que podrían interesarte

Temas Virtualpro