logo móvil
Contáctanos

Una encuesta sobre algoritmos de clasificación de texto: De texto a predicciones

Autores: Gasparetto, Andrea; Marcuzzo, Matteo; Zangari, Alessandro; Albarelli, Andrea

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Una encuesta sobre algoritmos de clasificación de texto: De texto a predicciones


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Crecimiento exponencial
Técnicas de clasificación de texto
Métodos de aprendizaje profundo
Algoritmos de modelado del lenguaje
Datos interpretables por máquinas
Conjuntos de datos multilabel

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los últimos años, el crecimiento exponencial de documentos digitales ha sido acompañado por un rápido progreso en las técnicas de clasificación de texto. Los nuevos algoritmos de aprendizaje automático propuestos aprovechan los últimos avances en métodos de aprendizaje profundo, lo que permite la extracción automática de características expresivas. El rápido desarrollo de estos métodos ha dado lugar a una plétora de estrategias para codificar el lenguaje natural en datos interpretables por máquinas. Los últimos algoritmos de modelado de lenguaje se utilizan junto con procedimientos de preprocesamiento ad hoc, cuya descripción a menudo se omite en favor de una explicación más detallada del paso de clasificación. Este artículo ofrece una revisión concisa de los modelos recientes de clasificación de texto, con énfasis en el flujo de datos, desde el texto en bruto hasta las etiquetas de salida. Destacamos las diferencias entre los métodos anteriores y los más recientes, basados en aprendizaje profundo, tanto en su funcionamiento como en cómo transforman los datos de entrada. Para dar una mejor perspectiva sobre el panorama de la clasificación de texto, proporcionamos una visión general de conjuntos de datos para el idioma inglés, así como instrucciones para la síntesis de dos nuevos conjuntos de datos multilabel, que encontramos particularmente escasos en este contexto. Finalmente, proporcionamos un esquema de nuevos resultados experimentales y discutimos los desafíos de investigación abiertos planteados por los modelos de lenguaje basados en aprendizaje profundo.

Otros recursos que podrían interesarte

Temas Virtualpro