Combinando incrustaciones de transformador con características lingüísticas para la identificación de palabras complejas
Autores: Ortiz-Zambrano, Jenny A.; Espin-Riofrio, César; Montejo-Ráez, Arturo
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Combinando incrustaciones de transformador con características lingüísticas para la identificación de palabras complejas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Identificación de palabras
Análisis de complejidad del texto
Características lingüísticas
Redes neuronales
Aprendizaje automático.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Identificar qué palabras presentes en un texto pueden ser difíciles de entender para lectores comunes es una sub tarea bien conocida en el análisis de complejidad de textos. El advenimiento de modelos de lenguaje profundo también ha establecido el nuevo estado del arte en esta tarea mediante el uso de entrenamiento semi-supervisado (pre-entrenado) de extremo a extremo y entrenamiento descendente de, principalmente, redes neuronales basadas en transformadores. Sin embargo, la utilidad de características lingüísticas tradicionales en combinación con codificaciones neuronales vale la pena explorar, ya que el costo computacional necesario para entrenar y ejecutar dichas redes se está volviendo cada vez más relevante con restricciones de ahorro energético. Este estudio explora la predicción de complejidad léxica (LCP) combinando redes de transformadores pre-entrenadas y ajustadas con diferentes tipos de características lingüísticas tradicionales. Aplicamos estas características sobre clasificadores de aprendizaje automático clásicos. Nuestros mejores resultados se obtienen aplicando Máquinas de Vectores de Soporte en un corpus en inglés en una tarea de LCP resuelta como un problema de regresión. Los resultados muestran que las características lingüísticas pueden ser útiles en tareas de LCP y pueden mejorar el rendimiento de los sistemas de aprendizaje profundo.
Descripción
Identificar qué palabras presentes en un texto pueden ser difíciles de entender para lectores comunes es una sub tarea bien conocida en el análisis de complejidad de textos. El advenimiento de modelos de lenguaje profundo también ha establecido el nuevo estado del arte en esta tarea mediante el uso de entrenamiento semi-supervisado (pre-entrenado) de extremo a extremo y entrenamiento descendente de, principalmente, redes neuronales basadas en transformadores. Sin embargo, la utilidad de características lingüísticas tradicionales en combinación con codificaciones neuronales vale la pena explorar, ya que el costo computacional necesario para entrenar y ejecutar dichas redes se está volviendo cada vez más relevante con restricciones de ahorro energético. Este estudio explora la predicción de complejidad léxica (LCP) combinando redes de transformadores pre-entrenadas y ajustadas con diferentes tipos de características lingüísticas tradicionales. Aplicamos estas características sobre clasificadores de aprendizaje automático clásicos. Nuestros mejores resultados se obtienen aplicando Máquinas de Vectores de Soporte en un corpus en inglés en una tarea de LCP resuelta como un problema de regresión. Los resultados muestran que las características lingüísticas pueden ser útiles en tareas de LCP y pueden mejorar el rendimiento de los sistemas de aprendizaje profundo.