logo móvil
Contáctanos

Escucha atentamente: Seguimiento de fonemas auto-supervisado para la evaluación de la lectura en niños

Autores: Ollmann, Philipp; Sonnleitner, Erik; Kurz, Marc; Krösche, Jens; Selinger, Stephan

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Escucha atentamente: Seguimiento de fonemas auto-supervisado para la evaluación de la lectura en niños


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Competencia lectora
Infancia temprana
éxito académico
Desarrollo intelectual
Dificultades de lectura
Aprendizaje auto-supervisado
Modelo Wav2Vec2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La competencia lectora en la primera infancia es crucial para el éxito académico y el desarrollo intelectual. Sin embargo, cada vez más niños tienen dificultades con la lectura. Según el último estudio PISA en Austria, uno de cada cinco niños enfrenta dificultades de lectura. Las razones de esto son diversas, pero una aplicación que rastree a los niños mientras leen en voz alta y los guíe cuando experimentan dificultades podría ofrecer una ayuda significativa. Por lo tanto, esta propuesta explora un enfoque de prototipado para un componente central que rastrea la lectura de los niños utilizando un modelo Wav2Vec2 auto-supervisado con una cantidad limitada de datos. El aprendizaje auto-supervisado permite que los modelos aprendan representaciones generales a partir de grandes cantidades de audio no etiquetado, que luego pueden ser ajustadas en conjuntos de datos más pequeños y específicos para la tarea, lo que resulta especialmente útil cuando los datos etiquetados son limitados. Nuestro modelo opera a nivel fonético con la ayuda del Alfabeto Fonético Internacional (IPA). Para implementar esto, se utilizó el conjunto de datos KidsTALC de la Universidad Leibniz de Hannover, que contiene grabaciones de habla espontánea de niños de habla alemana. Para mejorar los datos de entrenamiento y aumentar la robustez, se aplicaron y evaluaron varias técnicas de aumento de datos, incluyendo el cambio de tono, el cambio de formantes y la variación de velocidad. Los modelos se entrenaron utilizando diferentes configuraciones de datos para comparar los efectos de la variedad y calidad de los datos en el rendimiento del reconocimiento. El mejor modelo entrenado en este trabajo logró una tasa de error de fonemas (PER) del 14.3% y una tasa de error de palabras (WER) del 31.6% en datos de habla infantil no vistos, demostrando el potencial de los modelos auto-supervisados para tales casos de uso.

Otros recursos que podrían interesarte

Temas Virtualpro