logo móvil
Contáctanos

Mejorando la precisión de las redes neuronales convolucionales al identificar y eliminar imágenes atípicas en conjuntos de datos utilizando t-SNE

Autores: Perez, Husein; Tah, Joseph H. M.

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Mejorando la precisión de las redes neuronales convolucionales al identificar y eliminar imágenes atípicas en conjuntos de datos utilizando t-SNE


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Atípicos
Calidad de datos
Ingeniería de características
T-SNE
ConvNet
Aprendizaje por transferencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
En el campo del aprendizaje automático supervisado, la calidad de un modelo clasificador está directamente correlacionada con la calidad de los datos que se utilizan para entrenar el modelo. La presencia de valores atípicos no deseados en los datos podría reducir significativamente la precisión de un modelo o, incluso peor, resultar en un modelo sesgado que conduzca a una clasificación inexacta. Identificar la presencia de valores atípicos y eliminarlos es, por lo tanto, crucial para construir conjuntos de datos de entrenamiento de buena calidad. Los procedimientos de preprocesamiento para tratar con datos faltantes y valores atípicos, comúnmente conocidos como ingeniería de características, son prácticas estándar en problemas de aprendizaje automático. Ayudan a hacer mejores suposiciones sobre los datos y también preparan conjuntos de datos de una manera que mejor exponga el problema subyacente a los algoritmos de aprendizaje automático. En este trabajo, proponemos un método multietapa para detectar y eliminar valores atípicos en datos de alta dimensionalidad. Nuestro método propuesto se basa en utilizar una técnica llamada incrustación estocástica de vecinos t-distribuida (t-SNE) para reducir un mapa de características de alta dimensionalidad en una distribución de densidad de probabilidad de dos dimensiones inferiores y luego utilizar un método estadístico descriptivo simple llamado rango intercuartílico (IQR) para identificar cualquier valor atípico de la distribución de densidad de las características. t-SNE es un algoritmo de aprendizaje automático y una técnica de reducción de dimensionalidad no lineal adecuada para incrustar datos de alta dimensionalidad para visualización en un espacio de dos o tres dimensiones de baja dimensionalidad. Aplicamos este método en un conjunto de datos que contiene imágenes para entrenar un modelo de red neuronal convolucional (ConvNet) para un problema de clasificación de imágenes. El conjunto de datos contiene cuatro clases diferentes de imágenes: tres clases contienen defectos en la construcción (moho, mancha y deterioro de la pintura) y una clase sin defectos (normal). Utilizamos la técnica de transfer learning para modificar un modelo VGG-16 pre-entrenado. Utilizamos este modelo como extractor de características y como punto de referencia para evaluar nuestro método. Hemos demostrado que, al utilizar este método, podemos identificar y eliminar las imágenes atípicas en el conjunto de datos. Después de eliminar las imágenes atípicas del conjunto de datos y volver a entrenar el modelo VGG-16, los resultados también han mostrado que la precisión de la clasificación ha mejorado significativamente y el número de casos mal clasificados también ha disminuido. Aunque muchas técnicas de ingeniería de características para manejar datos faltantes y valores atípicos son comunes en problemas de aprendizaje automático predictivo que involucran datos numéricos o categóricos, hay poco trabajo en el desarrollo de técnicas para manejar valores atípicos en datos de alta dimensionalidad que se pueden utilizar para mejorar la calidad de problemas de aprendizaje automático que involucran imágenes, como modelos ConvNet para clasificación de imágenes y problemas de detección de objetos.

Otros recursos que podrían interesarte

Temas Virtualpro