Reconsiderando la lectura y el habla espontánea: Perspectivas causales sobre la generación de datos de entrenamiento para el reconocimiento automático del habla
Autores: Gabler, Philipp; Geiger, Bernhard C.; Schuppler, Barbara; Kern, Roman
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconsiderando la lectura y el habla espontánea: Perspectivas causales sobre la generación de datos de entrenamiento para el reconocimiento automático del habla
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos de entrenamiento
Reconocimiento automático de voz
Habla leída
Habla espontánea
Causalidad
Generación de datos.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Superficialmente, el habla leída y el habla espontánea, los dos principales tipos de datos de entrenamiento para el reconocimiento automático del habla, parecen ser complementarios, pero son iguales: pares de textos y señales acústicas. Sin embargo, el habla espontánea es típicamente más difícil de reconocer. Esto se explica generalmente por diferentes tipos de variación y ruido, pero hay una desviación más fundamental en juego: para el habla leída, la señal de audio se produce mediante la recitación del texto dado, mientras que en el habla espontánea, el texto se transcribe a partir de una señal dada. En esta revisión, abrazamos esta diferencia presentando una primera introducción del razonamiento causal en el reconocimiento automático del habla y describiendo la causalidad como una herramienta para estudiar los estilos de habla y los datos de entrenamiento. Después de desglosar los procesos de generación de datos del habla leída y espontánea y analizar el dominio desde una perspectiva causal, destacamos cómo la generación de datos mediante anotación debe afectar la interpretación de la inferencia y el rendimiento. Nuestro trabajo discute cómo varios resultados de la literatura sobre causalidad respecto al impacto de la dirección de los mecanismos de generación de datos en el aprendizaje y la predicción se aplican a los datos de habla. Finalmente, argumentamos cómo una perspectiva causal puede apoyar la comprensión de los modelos en el procesamiento del habla en relación con su comportamiento, capacidades y limitaciones.
Descripción
Superficialmente, el habla leída y el habla espontánea, los dos principales tipos de datos de entrenamiento para el reconocimiento automático del habla, parecen ser complementarios, pero son iguales: pares de textos y señales acústicas. Sin embargo, el habla espontánea es típicamente más difícil de reconocer. Esto se explica generalmente por diferentes tipos de variación y ruido, pero hay una desviación más fundamental en juego: para el habla leída, la señal de audio se produce mediante la recitación del texto dado, mientras que en el habla espontánea, el texto se transcribe a partir de una señal dada. En esta revisión, abrazamos esta diferencia presentando una primera introducción del razonamiento causal en el reconocimiento automático del habla y describiendo la causalidad como una herramienta para estudiar los estilos de habla y los datos de entrenamiento. Después de desglosar los procesos de generación de datos del habla leída y espontánea y analizar el dominio desde una perspectiva causal, destacamos cómo la generación de datos mediante anotación debe afectar la interpretación de la inferencia y el rendimiento. Nuestro trabajo discute cómo varios resultados de la literatura sobre causalidad respecto al impacto de la dirección de los mecanismos de generación de datos en el aprendizaje y la predicción se aplican a los datos de habla. Finalmente, argumentamos cómo una perspectiva causal puede apoyar la comprensión de los modelos en el procesamiento del habla en relación con su comportamiento, capacidades y limitaciones.