logo móvil
Contáctanos

Clasificación de documentos científicos en el idioma kazajo utilizando redes neuronales profundas y una fusión de imágenes y texto

Autores: Bogdanchikov, Andrey; Ayazbayev, Dauren; Varlamis, Iraklis

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Clasificación de documentos científicos en el idioma kazajo utilizando redes neuronales profundas y una fusión de imágenes y texto


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Procesamiento del lenguaje natural
Técnicas de aprendizaje profundo
Recursos lingüísticos
Modelos de lenguaje
Clasificación de documentos
Artículos científicos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
El rápido desarrollo del procesamiento del lenguaje natural y las técnicas de aprendizaje profundo ha mejorado el rendimiento de los algoritmos relacionados en varias tareas lingüísticas y de minería de texto. Como resultado, aplicaciones como la minería de opiniones, detección de noticias falsas o clasificación de documentos que asignan documentos a categorías predefinidas se han beneficiado significativamente de modelos de lenguaje pre-entrenados, embeddings de palabras o frases, corpora lingüísticos, grafos de conocimiento y otros recursos que abundan para los idiomas más populares (por ejemplo, inglés, chino, etc.). Los idiomas menos representados, como el kazajo, los idiomas balcánicos, etc., aún carecen de los recursos lingüísticos necesarios y, por lo tanto, el rendimiento de los métodos respectivos sigue siendo bajo. En este trabajo, desarrollamos un modelo que clasifica documentos científicos escritos en el idioma kazajo utilizando información tanto de texto como de imagen y demostramos que esta fusión de información puede ser beneficiosa para casos de idiomas que tienen recursos limitados para el entrenamiento de modelos de aprendizaje automático. Con esta fusión, mejoramos la precisión de clasificación en un 4,4499% en comparación con los modelos que utilizan solo información de texto o solo de imagen. El uso exitoso del método propuesto en la clasificación de documentos científicos allana el camino para modelos de clasificación más complejos y más aplicaciones en otros dominios, como la clasificación de noticias, análisis de sentimientos, etc., en el idioma kazajo.

Otros recursos que podrían interesarte

Temas Virtualpro