Reconocimiento de la Entailment Textual: Desafíos en el Idioma Portugués
Autores: Rocha, Gil; Lopes Cardoso, Henrique
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Reconocimiento de la Entailment Textual: Desafíos en el Idioma Portugués
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de la implicación textual
Relaciones de implicación semántica
Paráfrasis
Procesamiento del lenguaje natural
Corpus en portugués
Aprendizaje automático supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de la implicación textual comprende la tarea de determinar las relaciones de implicación semántica entre fragmentos de texto. Un fragmento de texto implica a otro fragmento de texto si, a partir del significado del primero, se puede inferir el significado del segundo. Si tal relación es bidireccional, entonces estamos ante una paráfrasis. Reconocer automáticamente las relaciones de implicación textual captura las principales necesidades de inferencia semántica en varias aplicaciones de procesamiento de lenguaje natural (NLP). Al igual que en muchas tareas de NLP, los corpus de implicación textual para el inglés abundan, mientras que lo mismo no es cierto para lenguas con menos recursos como el portugués. Aprovechando lo que parece ser el único corpus en portugués para implicación textual y paráfrasis (el corpus ASSIN), en este documento abordamos la tarea de reconocer automáticamente la implicación textual (RTE) y paráfrasis a partir de texto escrito en lengua portuguesa, empleando técnicas de aprendizaje automático supervisado. Utilizamos características léxicas, sintácticas y semánticas, y analizamos el impacto de usar enfoques basados en semántica en el rendimiento del sistema. Luego intentamos aprovechar la naturaleza bidialectal de ASSIN para compensar su tamaño limitado. Con el mismo objetivo, exploramos modelar la tarea de reconocer la implicación textual y paráfrasis como un problema de clasificación binaria al considerar la naturaleza bidireccional de las paráfrasis como relaciones de implicación. Al abordar la tarea como un problema de clasificación multiclase, logramos resultados en línea con el ganador del Desafío ASSIN. Además, concluimos que los enfoques basados en semántica son prometedores en esta tarea, y que combinar datos del portugués europeo y brasileño es menos directo de lo que puede parecer inicialmente. El modelado de clasificación binaria del problema no parece aportar ventajas al modelo original de clasificación multiclase, a pesar de los resultados sobresalientes obtenidos por el clasificador binario para reconocer implicaciones textuales.
Descripción
El reconocimiento de la implicación textual comprende la tarea de determinar las relaciones de implicación semántica entre fragmentos de texto. Un fragmento de texto implica a otro fragmento de texto si, a partir del significado del primero, se puede inferir el significado del segundo. Si tal relación es bidireccional, entonces estamos ante una paráfrasis. Reconocer automáticamente las relaciones de implicación textual captura las principales necesidades de inferencia semántica en varias aplicaciones de procesamiento de lenguaje natural (NLP). Al igual que en muchas tareas de NLP, los corpus de implicación textual para el inglés abundan, mientras que lo mismo no es cierto para lenguas con menos recursos como el portugués. Aprovechando lo que parece ser el único corpus en portugués para implicación textual y paráfrasis (el corpus ASSIN), en este documento abordamos la tarea de reconocer automáticamente la implicación textual (RTE) y paráfrasis a partir de texto escrito en lengua portuguesa, empleando técnicas de aprendizaje automático supervisado. Utilizamos características léxicas, sintácticas y semánticas, y analizamos el impacto de usar enfoques basados en semántica en el rendimiento del sistema. Luego intentamos aprovechar la naturaleza bidialectal de ASSIN para compensar su tamaño limitado. Con el mismo objetivo, exploramos modelar la tarea de reconocer la implicación textual y paráfrasis como un problema de clasificación binaria al considerar la naturaleza bidireccional de las paráfrasis como relaciones de implicación. Al abordar la tarea como un problema de clasificación multiclase, logramos resultados en línea con el ganador del Desafío ASSIN. Además, concluimos que los enfoques basados en semántica son prometedores en esta tarea, y que combinar datos del portugués europeo y brasileño es menos directo de lo que puede parecer inicialmente. El modelado de clasificación binaria del problema no parece aportar ventajas al modelo original de clasificación multiclase, a pesar de los resultados sobresalientes obtenidos por el clasificador binario para reconocer implicaciones textuales.