Desarrollando Tecnologías Básicas para Lenguas Nguni con Escasez de Recursos
Autores: du Toit, Jakobus S.; Puttkammer, Martin J.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Desarrollando Tecnologías Básicas para Lenguas Nguni con Escasez de Recursos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Recursos lingüísticos
Investigación y desarrollo
Procesamiento del lenguaje natural
Lenguas sudafricanas
Anotación de corpora
Tecnologías lingüísticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La creación de recursos lingüísticos es crucial para el crecimiento continuo de los esfuerzos de investigación y desarrollo en el campo del procesamiento del lenguaje natural, especialmente para los idiomas con escasos recursos. En este documento, describimos la curaduría y anotación de corpora y el desarrollo de múltiples tecnologías lingüísticas para cuatro idiomas oficiales de Sudáfrica, a saber, isiNdebele, Siswati, isiXhosa e isiZulu. Los esfuerzos de desarrollo incluyeron la obtención de datos paralelos para estos idiomas y la anotación de cada uno en niveles de token, ortográfico, morfológico y morfosintáctico. Estos conjuntos se utilizaron a su vez para crear y evaluar tres tecnologías fundamentales, a saber, un lematizador, un etiquetador de partes del discurso y un analizador morfológico para cada uno de los idiomas. Informamos sobre la calidad de estas tecnologías que mejoran las tecnologías basadas en reglas desarrolladas anteriormente como parte de una iniciativa similar en 2013. Estos recursos se hacen accesibles al público a través de una agencia de recursos local con la intención de fomentar el desarrollo adicional tanto de recursos como de tecnologías que puedan beneficiar a la industria de PLN en Sudáfrica.
Descripción
La creación de recursos lingüísticos es crucial para el crecimiento continuo de los esfuerzos de investigación y desarrollo en el campo del procesamiento del lenguaje natural, especialmente para los idiomas con escasos recursos. En este documento, describimos la curaduría y anotación de corpora y el desarrollo de múltiples tecnologías lingüísticas para cuatro idiomas oficiales de Sudáfrica, a saber, isiNdebele, Siswati, isiXhosa e isiZulu. Los esfuerzos de desarrollo incluyeron la obtención de datos paralelos para estos idiomas y la anotación de cada uno en niveles de token, ortográfico, morfológico y morfosintáctico. Estos conjuntos se utilizaron a su vez para crear y evaluar tres tecnologías fundamentales, a saber, un lematizador, un etiquetador de partes del discurso y un analizador morfológico para cada uno de los idiomas. Informamos sobre la calidad de estas tecnologías que mejoran las tecnologías basadas en reglas desarrolladas anteriormente como parte de una iniciativa similar en 2013. Estos recursos se hacen accesibles al público a través de una agencia de recursos local con la intención de fomentar el desarrollo adicional tanto de recursos como de tecnologías que puedan beneficiar a la industria de PLN en Sudáfrica.