Benchmarking de Inferencia de Lenguaje Natural y Similaridad Textual Semántica para el Portugués
Autores: Fialho, Pedro; Coheur, Luísa; Quaresma, Paulo
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Benchmarking de Inferencia de Lenguaje Natural y Similaridad Textual Semántica para el Portugués
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Relaciones semánticas
Procesamiento del lenguaje natural
Modelos preentrenados
Características léxicas
Lengua portuguesa
Resultados de vanguardia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las oraciones pueden estar relacionadas de muchas maneras diferentes. Tareas distintas en el procesamiento del lenguaje natural tienen como objetivo identificar diferentes relaciones semánticas entre oraciones. Desarrollamos varios modelos para la inferencia del lenguaje natural y la similitud textual semántica para el idioma portugués. Aprovechamos modelos preentrenados (BERT); además, estudiamos los roles de las características léxicas. Probamos nuestros modelos en varios conjuntos de datos: ASSIN, SICK-BR y ASSIN2, y los mejores resultados se lograron generalmente con ptBERT-Large, entrenado en un corpus brasileño y ajustado en los últimos conjuntos de datos. Además de obtener resultados de vanguardia, este es, hasta donde sabemos, el estudio más completo sobre la inferencia del lenguaje natural y la similitud textual semántica para el idioma portugués.
Descripción
Las oraciones pueden estar relacionadas de muchas maneras diferentes. Tareas distintas en el procesamiento del lenguaje natural tienen como objetivo identificar diferentes relaciones semánticas entre oraciones. Desarrollamos varios modelos para la inferencia del lenguaje natural y la similitud textual semántica para el idioma portugués. Aprovechamos modelos preentrenados (BERT); además, estudiamos los roles de las características léxicas. Probamos nuestros modelos en varios conjuntos de datos: ASSIN, SICK-BR y ASSIN2, y los mejores resultados se lograron generalmente con ptBERT-Large, entrenado en un corpus brasileño y ajustado en los últimos conjuntos de datos. Además de obtener resultados de vanguardia, este es, hasta donde sabemos, el estudio más completo sobre la inferencia del lenguaje natural y la similitud textual semántica para el idioma portugués.