Enfoque basado en ontología semántica para mejorar la clasificación de texto en árabe
Autores: Hawalah, Ahmad
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Enfoque basado en ontología semántica para mejorar la clasificación de texto en árabe
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Clasificación de texto
Clases predefinidas
Categorías
Clasificación de texto árabe
Ontología
Mejora semántica
TF-IDF
Similitud del coseno
Documentos textuales en árabe.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
La clasificación de texto es un proceso de clasificación de contenidos textuales en un conjunto de clases y categorías predefinidas. Dado el enorme número de documentos y contenidos contextuales que se introducen diariamente en Internet, resulta esencial utilizar técnicas de clasificación de texto para diferentes propósitos, como mejorar la recuperación de búsquedas y los sistemas de recomendación. Se ha realizado mucho trabajo para estudiar diferentes aspectos de las técnicas de clasificación de texto en inglés. Sin embargo, se ha prestado poca atención al estudio de la clasificación de texto en árabe debido a la dificultad de procesar el idioma árabe. En consecuencia, en este documento, proponemos una arquitectura mejorada de descubrimiento de temas en árabe (EATA) que puede utilizar una ontología para proporcionar un mecanismo efectivo de clasificación de temas en árabe. Hemos introducido un modelo de mejora semántica para mejorar la clasificación de texto en árabe y la técnica de descubrimiento de temas mediante la utilización de la rica información semántica en la ontología árabe. En este estudio, confiamos en el modelo de espacio vectorial (frecuencia de término-frecuencia inversa de documento (TF-IDF)) así como en el enfoque de similitud de coseno para clasificar nuevos documentos textuales en árabe.
Descripción
La clasificación de texto es un proceso de clasificación de contenidos textuales en un conjunto de clases y categorías predefinidas. Dado el enorme número de documentos y contenidos contextuales que se introducen diariamente en Internet, resulta esencial utilizar técnicas de clasificación de texto para diferentes propósitos, como mejorar la recuperación de búsquedas y los sistemas de recomendación. Se ha realizado mucho trabajo para estudiar diferentes aspectos de las técnicas de clasificación de texto en inglés. Sin embargo, se ha prestado poca atención al estudio de la clasificación de texto en árabe debido a la dificultad de procesar el idioma árabe. En consecuencia, en este documento, proponemos una arquitectura mejorada de descubrimiento de temas en árabe (EATA) que puede utilizar una ontología para proporcionar un mecanismo efectivo de clasificación de temas en árabe. Hemos introducido un modelo de mejora semántica para mejorar la clasificación de texto en árabe y la técnica de descubrimiento de temas mediante la utilización de la rica información semántica en la ontología árabe. En este estudio, confiamos en el modelo de espacio vectorial (frecuencia de término-frecuencia inversa de documento (TF-IDF)) así como en el enfoque de similitud de coseno para clasificar nuevos documentos textuales en árabe.