Resumen multilingüe de textos en alemán utilizando modelos de transformadores
Autores: Alcantara, Tomas Humberto Montiel; Krütli, David; Ravada, Revathi; Hanne, Thomas
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Resumen multilingüe de textos en alemán utilizando modelos de transformadores
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aumentar
Resumen de texto
Tarea de PLN
Automático
Alemán
Métrica ROUGE-1
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El tremendo aumento de documentos disponibles en la Web ha convertido la búsqueda de la información relevante en una actividad desafiante, tediosa y que consume mucho tiempo. La resumición de textos es una tarea importante del procesamiento de lenguaje natural (NLP) utilizada para reducir los requisitos de lectura de un texto. La resumición automática de textos es una tarea de NLP que consiste en crear una versión más corta de un documento de texto que sea coherente y mantenga la información más relevante del texto original. En los últimos años, la resumición automática de textos ha recibido una atención significativa, ya que puede aplicarse a una amplia gama de aplicaciones, como la extracción de aspectos destacados de artículos científicos o la generación de resúmenes de artículos de noticias. En este proyecto de investigación, nos enfocamos principalmente en la resumición de textos abstractivos que extraen los contenidos más importantes de un texto en una forma parafraseada. El objetivo principal de este proyecto es resumir textos en alemán. Desafortunadamente, la mayoría de los modelos preentrenados solo están disponibles para inglés. Por lo tanto, nos centramos en el modelo multilingüe BERT en alemán y el modelo monolingüe BART para inglés, considerando las posibilidades de traducción. Como fuente del experimento, tomamos el conjunto de datos de artículos de Wikipedia en alemán y comparamos qué tan bien se desempeñó el modelo multilingüe para la resumición de textos en alemán en comparación con el uso de resúmenes de textos traducidos automáticamente de modelos de lenguaje monolingües en inglés. Utilizamos la métrica ROUGE-1 para analizar la calidad de la resumición de textos.
Descripción
El tremendo aumento de documentos disponibles en la Web ha convertido la búsqueda de la información relevante en una actividad desafiante, tediosa y que consume mucho tiempo. La resumición de textos es una tarea importante del procesamiento de lenguaje natural (NLP) utilizada para reducir los requisitos de lectura de un texto. La resumición automática de textos es una tarea de NLP que consiste en crear una versión más corta de un documento de texto que sea coherente y mantenga la información más relevante del texto original. En los últimos años, la resumición automática de textos ha recibido una atención significativa, ya que puede aplicarse a una amplia gama de aplicaciones, como la extracción de aspectos destacados de artículos científicos o la generación de resúmenes de artículos de noticias. En este proyecto de investigación, nos enfocamos principalmente en la resumición de textos abstractivos que extraen los contenidos más importantes de un texto en una forma parafraseada. El objetivo principal de este proyecto es resumir textos en alemán. Desafortunadamente, la mayoría de los modelos preentrenados solo están disponibles para inglés. Por lo tanto, nos centramos en el modelo multilingüe BERT en alemán y el modelo monolingüe BART para inglés, considerando las posibilidades de traducción. Como fuente del experimento, tomamos el conjunto de datos de artículos de Wikipedia en alemán y comparamos qué tan bien se desempeñó el modelo multilingüe para la resumición de textos en alemán en comparación con el uso de resúmenes de textos traducidos automáticamente de modelos de lenguaje monolingües en inglés. Utilizamos la métrica ROUGE-1 para analizar la calidad de la resumición de textos.