Texto híbrido semántico en inglés-árabe basado en el ajuste fino de BERT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Texto híbrido semántico en inglés-árabe basado en el ajuste fino de BERT

Autores: Alammar, Mai; El Hindi, Khalil; Al-Khalifa, Hend

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Texto híbrido semántico en inglés-árabe basado en el ajuste fino de BERT

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Segmentación semántica de texto

Paso de preprocesamiento

Tareas de PNL

Segmentación semántica de texto no supervisada

Modelos de lenguaje preentrenados

BERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

La segmentación semántica del texto se refiere a segmentar el texto en fragmentos semánticos de manera coherente, es decir, en conjuntos de declaraciones que están relacionadas semánticamente. La segmentación semántica es un paso de preprocesamiento esencial en varias tareas de procesamiento del lenguaje natural, por ejemplo, resumen de documentos, análisis de sentimientos y respuesta a preguntas. En este artículo, proponemos un método de segmentación semántica híbrida de dos pasos que combina la efectividad de la segmentación semántica del texto no supervisada basada en las similitudes entre las incrustaciones de oraciones y los modelos de lenguaje preentrenados (PLMs) especialmente BERT mediante el ajuste fino del BERT en la tarea de similitud textual semántica (STS) para proporcionar una segmentación semántica del texto flexible y efectiva. Evaluamos el método propuesto en inglés y árabe. Hasta donde sabemos, no existe un conjunto de datos en árabe creado para evaluar la segmentación semántica del texto a este nivel. Por lo tanto, creamos un AraWiki50k para evaluar nuestro método propuesto de segmentación de texto inspirado en un conjunto de datos en inglés existente. Nuestros experimentos mostraron que explotar el BERT preentrenado ajustado en STS mejora los resultados en comparación con la segmentación semántica no supervisada en un promedio de 7.4 en la métrica PK y en un promedio de 11.19 en la métrica WindowDiff en cuatro conjuntos de datos de evaluación en inglés, y 0.12 en la métrica PK y 2.29 en la métrica WindowDiff para el conjunto de datos en árabe.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro