logo móvil
Contáctanos

Texto híbrido semántico en inglés-árabe basado en el ajuste fino de BERT

Autores: Alammar, Mai; El Hindi, Khalil; Al-Khalifa, Hend

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Texto híbrido semántico en inglés-árabe basado en el ajuste fino de BERT


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Segmentación semántica de texto
Paso de preprocesamiento
Tareas de PNL
Segmentación semántica de texto no supervisada
Modelos de lenguaje preentrenados
BERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
La segmentación semántica del texto se refiere a segmentar el texto en fragmentos semánticos de manera coherente, es decir, en conjuntos de declaraciones que están relacionadas semánticamente. La segmentación semántica es un paso de preprocesamiento esencial en varias tareas de procesamiento del lenguaje natural, por ejemplo, resumen de documentos, análisis de sentimientos y respuesta a preguntas. En este artículo, proponemos un método de segmentación semántica híbrida de dos pasos que combina la efectividad de la segmentación semántica del texto no supervisada basada en las similitudes entre las incrustaciones de oraciones y los modelos de lenguaje preentrenados (PLMs) especialmente BERT mediante el ajuste fino del BERT en la tarea de similitud textual semántica (STS) para proporcionar una segmentación semántica del texto flexible y efectiva. Evaluamos el método propuesto en inglés y árabe. Hasta donde sabemos, no existe un conjunto de datos en árabe creado para evaluar la segmentación semántica del texto a este nivel. Por lo tanto, creamos un AraWiki50k para evaluar nuestro método propuesto de segmentación de texto inspirado en un conjunto de datos en inglés existente. Nuestros experimentos mostraron que explotar el BERT preentrenado ajustado en STS mejora los resultados en comparación con la segmentación semántica no supervisada en un promedio de 7.4 en la métrica PK y en un promedio de 11.19 en la métrica WindowDiff en cuatro conjuntos de datos de evaluación en inglés, y 0.12 en la métrica PK y 2.29 en la métrica WindowDiff para el conjunto de datos en árabe.

Otros recursos que podrían interesarte

Temas Virtualpro