Un Estudio Comparativo de Etiquetadores de Partes del Habla en Árabe Usando Muestras de Textos Literarios de Novelas Saudíes
Autores: Alluhaibi, Reyadh; Alfraidi, Tareq; Abdeen, Mohammad A. R.; Yatimi, Ahmed
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un Estudio Comparativo de Etiquetadores de Partes del Habla en Árabe Usando Muestras de Textos Literarios de Novelas Saudíes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Parte del habla
Etiquetado
árabe
Etiquetadores
Rendimiento
Novelas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El etiquetado de partes del discurso (POS) es una de las técnicas más comunes utilizadas en aplicaciones de procesamiento de lenguaje natural (NLP) y lingüística de corpus. Se han desarrollado varias herramientas de etiquetado POS para el árabe. Estos etiquetadores difieren en varios aspectos, como en sus técnicas de modelado, conjuntos de etiquetas y datos de entrenamiento y prueba. En este artículo, realizamos un estudio comparativo de cinco etiquetadores POS árabes, a saber: Stanford Arabic, CAMeL Tools, Farasa, MADAMIRA y Arabic Linguistic Pipeline (ALP), que examinan su rendimiento utilizando muestras de texto de novelas saudíes. Los datos de prueba se han extraído de diferentes novelas que representan diferentes tipos de narraciones. El resultado principal que hemos obtenido indica que el etiquetador ALP tiene un mejor rendimiento que los demás en este caso particular, y que el adjetivo es el tipo de POS mal etiquetado más frecuente en comparación con el sustantivo y el verbo.
Descripción
El etiquetado de partes del discurso (POS) es una de las técnicas más comunes utilizadas en aplicaciones de procesamiento de lenguaje natural (NLP) y lingüística de corpus. Se han desarrollado varias herramientas de etiquetado POS para el árabe. Estos etiquetadores difieren en varios aspectos, como en sus técnicas de modelado, conjuntos de etiquetas y datos de entrenamiento y prueba. En este artículo, realizamos un estudio comparativo de cinco etiquetadores POS árabes, a saber: Stanford Arabic, CAMeL Tools, Farasa, MADAMIRA y Arabic Linguistic Pipeline (ALP), que examinan su rendimiento utilizando muestras de texto de novelas saudíes. Los datos de prueba se han extraído de diferentes novelas que representan diferentes tipos de narraciones. El resultado principal que hemos obtenido indica que el etiquetador ALP tiene un mejor rendimiento que los demás en este caso particular, y que el adjetivo es el tipo de POS mal etiquetado más frecuente en comparación con el sustantivo y el verbo.