Dos nuevos conjuntos de datos para la resumición de texto abstractivo en lengua italiana
Autores: Landro, Nicola; Gallo, Ignazio; La Grassa, Riccardo; Federici, Edoardo
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Dos nuevos conjuntos de datos para la resumición de texto abstractivo en lengua italiana
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Resumen de texto
Italiano
Conjuntos de datos
Sitios web de noticias
Traducción automática
Evaluación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La resumición de textos tiene como objetivo producir un resumen corto que contenga las partes relevantes de un texto dado. Debido a la falta de datos para la resumición abstractiva en lenguas de bajo recurso como el italiano, proponemos dos nuevos conjuntos de datos originales recopilados de dos sitios web de noticias italianos con resúmenes de múltiples oraciones y artículos correspondientes, y de un conjunto de datos obtenido mediante traducción automática de un conjunto de datos de resumición en español. Estos dos conjuntos de datos son actualmente los únicos disponibles en italiano para esta tarea. Para evaluar la calidad de estos dos conjuntos de datos, los utilizamos para entrenar un modelo T5-base y un modelo mBART, obteniendo buenos resultados con ambos. Para evaluar mejor los resultados obtenidos, también comparamos los mismos modelos entrenados en conjuntos de datos traducidos automáticamente, y los resúmenes resultantes en el mismo idioma de entrenamiento, con los resúmenes traducidos automáticamente, lo que demostró la superioridad de los modelos obtenidos de los conjuntos de datos propuestos.
Descripción
La resumición de textos tiene como objetivo producir un resumen corto que contenga las partes relevantes de un texto dado. Debido a la falta de datos para la resumición abstractiva en lenguas de bajo recurso como el italiano, proponemos dos nuevos conjuntos de datos originales recopilados de dos sitios web de noticias italianos con resúmenes de múltiples oraciones y artículos correspondientes, y de un conjunto de datos obtenido mediante traducción automática de un conjunto de datos de resumición en español. Estos dos conjuntos de datos son actualmente los únicos disponibles en italiano para esta tarea. Para evaluar la calidad de estos dos conjuntos de datos, los utilizamos para entrenar un modelo T5-base y un modelo mBART, obteniendo buenos resultados con ambos. Para evaluar mejor los resultados obtenidos, también comparamos los mismos modelos entrenados en conjuntos de datos traducidos automáticamente, y los resúmenes resultantes en el mismo idioma de entrenamiento, con los resúmenes traducidos automáticamente, lo que demostró la superioridad de los modelos obtenidos de los conjuntos de datos propuestos.