Una encuesta sobre algoritmos de clasificación de texto: De texto a predicciones
Autores: Gasparetto, Andrea; Marcuzzo, Matteo; Zangari, Alessandro; Albarelli, Andrea
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una encuesta sobre algoritmos de clasificación de texto: De texto a predicciones
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Crecimiento exponencial
Técnicas de clasificación de texto
Métodos de aprendizaje profundo
Algoritmos de modelado del lenguaje
Datos interpretables por máquinas
Conjuntos de datos multilabel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, el crecimiento exponencial de documentos digitales ha sido acompañado por un rápido progreso en las técnicas de clasificación de texto. Los nuevos algoritmos de aprendizaje automático propuestos aprovechan los últimos avances en métodos de aprendizaje profundo, lo que permite la extracción automática de características expresivas. El rápido desarrollo de estos métodos ha dado lugar a una plétora de estrategias para codificar el lenguaje natural en datos interpretables por máquinas. Los últimos algoritmos de modelado de lenguaje se utilizan junto con procedimientos de preprocesamiento ad hoc, cuya descripción a menudo se omite en favor de una explicación más detallada del paso de clasificación. Este artículo ofrece una revisión concisa de los modelos recientes de clasificación de texto, con énfasis en el flujo de datos, desde el texto en bruto hasta las etiquetas de salida. Destacamos las diferencias entre los métodos anteriores y los más recientes, basados en aprendizaje profundo, tanto en su funcionamiento como en cómo transforman los datos de entrada. Para dar una mejor perspectiva sobre el panorama de la clasificación de texto, proporcionamos una visión general de conjuntos de datos para el idioma inglés, así como instrucciones para la síntesis de dos nuevos conjuntos de datos multilabel, que encontramos particularmente escasos en este contexto. Finalmente, proporcionamos un esquema de nuevos resultados experimentales y discutimos los desafíos de investigación abiertos planteados por los modelos de lenguaje basados en aprendizaje profundo.
Descripción
En los últimos años, el crecimiento exponencial de documentos digitales ha sido acompañado por un rápido progreso en las técnicas de clasificación de texto. Los nuevos algoritmos de aprendizaje automático propuestos aprovechan los últimos avances en métodos de aprendizaje profundo, lo que permite la extracción automática de características expresivas. El rápido desarrollo de estos métodos ha dado lugar a una plétora de estrategias para codificar el lenguaje natural en datos interpretables por máquinas. Los últimos algoritmos de modelado de lenguaje se utilizan junto con procedimientos de preprocesamiento ad hoc, cuya descripción a menudo se omite en favor de una explicación más detallada del paso de clasificación. Este artículo ofrece una revisión concisa de los modelos recientes de clasificación de texto, con énfasis en el flujo de datos, desde el texto en bruto hasta las etiquetas de salida. Destacamos las diferencias entre los métodos anteriores y los más recientes, basados en aprendizaje profundo, tanto en su funcionamiento como en cómo transforman los datos de entrada. Para dar una mejor perspectiva sobre el panorama de la clasificación de texto, proporcionamos una visión general de conjuntos de datos para el idioma inglés, así como instrucciones para la síntesis de dos nuevos conjuntos de datos multilabel, que encontramos particularmente escasos en este contexto. Finalmente, proporcionamos un esquema de nuevos resultados experimentales y discutimos los desafíos de investigación abiertos planteados por los modelos de lenguaje basados en aprendizaje profundo.