Un enfoque híbrido para la construcción de ontologías para el idioma kurdo Badini
Autores: Azzat, Media; Jacksi, Karwan; Ali, Ismael
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un enfoque híbrido para la construcción de ontologías para el idioma kurdo Badini
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Ontologías semánticas
Procesamiento de lenguaje natural
Lengua kurda
Dialecto Badini
Extracción de ontologías
Modelo de etiquetado de partes del discurso
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las ontologías semánticas se han utilizado ampliamente como herramientas cruciales dentro del procesamiento del lenguaje natural, sustentando aplicaciones como la extracción de conocimiento, la respuesta a preguntas, la traducción automática, la comprensión de textos, la recuperación de información y la resumición de textos. Aunque el idioma kurdo, una lengua de bajos recursos, ha sido objeto de algunas investigaciones ontológicas en otros dialectos, una ontología de la web semántica para el dialecto Badini sigue ausente de manera conspicua. Este artículo aborda esta brecha presentando una metodología para construir y utilizar una ontología de la web semántica para el dialecto Badini del idioma kurdo. Se creó un corpus anotado en Badini (UOZBDN) que fue anotado manualmente con etiquetas de parte de discurso (POS). Posteriormente, se desarrolló un modelo de etiquetador de POS basado en HMM utilizando el corpus UOZBDN y se aplicó para anotar texto adicional para la extracción de ontología. La extracción de ontología se realizó empleando reglas predefinidas para identificar sustantivos y verbos del corpus anotado por el modelo y posteriormente formando predicados semánticos. Se adoptaron metodologías robustas para el desarrollo de la ontología, resultando en un alto grado de precisión. El modelo de etiquetado de POS alcanzó una precisión del 95.04% cuando se aplicó al corpus UOZBDN. Además, una evaluación manual realizada por expertos en el idioma kurdo Badini arrojó una tasa de precisión del 97.42% para la ontología extraída.
Descripción
Las ontologías semánticas se han utilizado ampliamente como herramientas cruciales dentro del procesamiento del lenguaje natural, sustentando aplicaciones como la extracción de conocimiento, la respuesta a preguntas, la traducción automática, la comprensión de textos, la recuperación de información y la resumición de textos. Aunque el idioma kurdo, una lengua de bajos recursos, ha sido objeto de algunas investigaciones ontológicas en otros dialectos, una ontología de la web semántica para el dialecto Badini sigue ausente de manera conspicua. Este artículo aborda esta brecha presentando una metodología para construir y utilizar una ontología de la web semántica para el dialecto Badini del idioma kurdo. Se creó un corpus anotado en Badini (UOZBDN) que fue anotado manualmente con etiquetas de parte de discurso (POS). Posteriormente, se desarrolló un modelo de etiquetador de POS basado en HMM utilizando el corpus UOZBDN y se aplicó para anotar texto adicional para la extracción de ontología. La extracción de ontología se realizó empleando reglas predefinidas para identificar sustantivos y verbos del corpus anotado por el modelo y posteriormente formando predicados semánticos. Se adoptaron metodologías robustas para el desarrollo de la ontología, resultando en un alto grado de precisión. El modelo de etiquetado de POS alcanzó una precisión del 95.04% cuando se aplicó al corpus UOZBDN. Además, una evaluación manual realizada por expertos en el idioma kurdo Badini arrojó una tasa de precisión del 97.42% para la ontología extraída.