Clasificación de Texto: Cómo el Aprendizaje Automático Está Revolucionando la Categorización de Texto
Autores: Allam, Hesham; Makubvure, Lisa; Gyamfi, Benjamin; Graham, Kwadwo Nyarko; Akinwolere, Kehinde
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de Texto: Cómo el Aprendizaje Automático Está Revolucionando la Categorización de Texto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación automatizada
Categorización de texto
Aprendizaje automático
Representación de documentos
Reducción de dimensionalidad
Evaluación del rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación automatizada de textos en categorías predefinidas se ha vuelto cada vez más prominente, impulsada por el crecimiento exponencial de documentos digitales y la demanda de una organización eficiente. Este documento sirve como una encuesta en profundidad sobre la clasificación de textos y el aprendizaje automático, consolidando diversos aspectos del campo en un único recurso integral, una rareza en el actual cuerpo de literatura. Pocos estudios han logrado tal amplitud, y este trabajo tiene como objetivo proporcionar una perspectiva unificada, ofreciendo una contribución significativa a investigadores y a la comunidad académica. La encuesta examina la evolución del aprendizaje automático en la categorización de textos (TC), destacando sus ventajas transformadoras sobre la clasificación manual, como una mayor precisión, reducción del trabajo y adaptabilidad en diferentes dominios. Se adentra en varias tareas de TC y contrasta las metodologías de aprendizaje automático con enfoques de ingeniería del conocimiento, demostrando las fortalezas y la flexibilidad de las técnicas basadas en datos. Se exploran aplicaciones clave de TC, junto con un análisis de métodos críticos de aprendizaje automático, incluidas las técnicas de representación de documentos y estrategias de reducción de dimensionalidad. Además, este estudio evalúa una variedad de modelos de categorización de textos, identifica desafíos persistentes como el desequilibrio de clases y el sobreajuste, e investiga tendencias emergentes que están dando forma al futuro del campo. Se discuten componentes esenciales como la representación de documentos, la construcción de clasificadores y la evaluación del rendimiento, ofreciendo una comprensión completa del estado actual de TC. Importante, este documento también proporciona direcciones de investigación claras, enfatizando áreas que requieren más innovación, como metodologías híbridas, inteligencia artificial explicable (XAI) y enfoques escalables para lenguajes de bajos recursos. Al cerrar brechas en el conocimiento existente y sugerir caminos accionables hacia adelante, este trabajo se posiciona como un recurso vital para académicos y profesionales de la industria, fomentando una exploración y desarrollo más profundos en la clasificación de textos.
Descripción
La clasificación automatizada de textos en categorías predefinidas se ha vuelto cada vez más prominente, impulsada por el crecimiento exponencial de documentos digitales y la demanda de una organización eficiente. Este documento sirve como una encuesta en profundidad sobre la clasificación de textos y el aprendizaje automático, consolidando diversos aspectos del campo en un único recurso integral, una rareza en el actual cuerpo de literatura. Pocos estudios han logrado tal amplitud, y este trabajo tiene como objetivo proporcionar una perspectiva unificada, ofreciendo una contribución significativa a investigadores y a la comunidad académica. La encuesta examina la evolución del aprendizaje automático en la categorización de textos (TC), destacando sus ventajas transformadoras sobre la clasificación manual, como una mayor precisión, reducción del trabajo y adaptabilidad en diferentes dominios. Se adentra en varias tareas de TC y contrasta las metodologías de aprendizaje automático con enfoques de ingeniería del conocimiento, demostrando las fortalezas y la flexibilidad de las técnicas basadas en datos. Se exploran aplicaciones clave de TC, junto con un análisis de métodos críticos de aprendizaje automático, incluidas las técnicas de representación de documentos y estrategias de reducción de dimensionalidad. Además, este estudio evalúa una variedad de modelos de categorización de textos, identifica desafíos persistentes como el desequilibrio de clases y el sobreajuste, e investiga tendencias emergentes que están dando forma al futuro del campo. Se discuten componentes esenciales como la representación de documentos, la construcción de clasificadores y la evaluación del rendimiento, ofreciendo una comprensión completa del estado actual de TC. Importante, este documento también proporciona direcciones de investigación claras, enfatizando áreas que requieren más innovación, como metodologías híbridas, inteligencia artificial explicable (XAI) y enfoques escalables para lenguajes de bajos recursos. Al cerrar brechas en el conocimiento existente y sugerir caminos accionables hacia adelante, este trabajo se posiciona como un recurso vital para académicos y profesionales de la industria, fomentando una exploración y desarrollo más profundos en la clasificación de textos.