Mejorando la precisión de las redes neuronales convolucionales al identificar y eliminar imágenes atípicas en conjuntos de datos utilizando t-SNE
Autores: Perez, Husein; Tah, Joseph H. M.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Mejorando la precisión de las redes neuronales convolucionales al identificar y eliminar imágenes atípicas en conjuntos de datos utilizando t-SNE
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Atípicos
Calidad de datos
Ingeniería de características
T-SNE
ConvNet
Aprendizaje por transferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
En el campo del aprendizaje automático supervisado, la calidad de un modelo clasificador está directamente correlacionada con la calidad de los datos que se utilizan para entrenar el modelo. La presencia de valores atípicos no deseados en los datos podría reducir significativamente la precisión de un modelo o, incluso peor, resultar en un modelo sesgado que conduzca a una clasificación inexacta. Identificar la presencia de valores atípicos y eliminarlos es, por lo tanto, crucial para construir conjuntos de datos de entrenamiento de buena calidad. Los procedimientos de preprocesamiento para tratar con datos faltantes y valores atípicos, comúnmente conocidos como ingeniería de características, son prácticas estándar en problemas de aprendizaje automático. Ayudan a hacer mejores suposiciones sobre los datos y también preparan conjuntos de datos de una manera que mejor exponga el problema subyacente a los algoritmos de aprendizaje automático. En este trabajo, proponemos un método multietapa para detectar y eliminar valores atípicos en datos de alta dimensionalidad. Nuestro método propuesto se basa en utilizar una técnica llamada incrustación estocástica de vecinos t-distribuida (t-SNE) para reducir un mapa de características de alta dimensionalidad en una distribución de densidad de probabilidad de dos dimensiones inferiores y luego utilizar un método estadístico descriptivo simple llamado rango intercuartílico (IQR) para identificar cualquier valor atípico de la distribución de densidad de las características. t-SNE es un algoritmo de aprendizaje automático y una técnica de reducción de dimensionalidad no lineal adecuada para incrustar datos de alta dimensionalidad para visualización en un espacio de dos o tres dimensiones de baja dimensionalidad. Aplicamos este método en un conjunto de datos que contiene imágenes para entrenar un modelo de red neuronal convolucional (ConvNet) para un problema de clasificación de imágenes. El conjunto de datos contiene cuatro clases diferentes de imágenes: tres clases contienen defectos en la construcción (moho, mancha y deterioro de la pintura) y una clase sin defectos (normal). Utilizamos la técnica de transfer learning para modificar un modelo VGG-16 pre-entrenado. Utilizamos este modelo como extractor de características y como punto de referencia para evaluar nuestro método. Hemos demostrado que, al utilizar este método, podemos identificar y eliminar las imágenes atípicas en el conjunto de datos. Después de eliminar las imágenes atípicas del conjunto de datos y volver a entrenar el modelo VGG-16, los resultados también han mostrado que la precisión de la clasificación ha mejorado significativamente y el número de casos mal clasificados también ha disminuido. Aunque muchas técnicas de ingeniería de características para manejar datos faltantes y valores atípicos son comunes en problemas de aprendizaje automático predictivo que involucran datos numéricos o categóricos, hay poco trabajo en el desarrollo de técnicas para manejar valores atípicos en datos de alta dimensionalidad que se pueden utilizar para mejorar la calidad de problemas de aprendizaje automático que involucran imágenes, como modelos ConvNet para clasificación de imágenes y problemas de detección de objetos.
Descripción
En el campo del aprendizaje automático supervisado, la calidad de un modelo clasificador está directamente correlacionada con la calidad de los datos que se utilizan para entrenar el modelo. La presencia de valores atípicos no deseados en los datos podría reducir significativamente la precisión de un modelo o, incluso peor, resultar en un modelo sesgado que conduzca a una clasificación inexacta. Identificar la presencia de valores atípicos y eliminarlos es, por lo tanto, crucial para construir conjuntos de datos de entrenamiento de buena calidad. Los procedimientos de preprocesamiento para tratar con datos faltantes y valores atípicos, comúnmente conocidos como ingeniería de características, son prácticas estándar en problemas de aprendizaje automático. Ayudan a hacer mejores suposiciones sobre los datos y también preparan conjuntos de datos de una manera que mejor exponga el problema subyacente a los algoritmos de aprendizaje automático. En este trabajo, proponemos un método multietapa para detectar y eliminar valores atípicos en datos de alta dimensionalidad. Nuestro método propuesto se basa en utilizar una técnica llamada incrustación estocástica de vecinos t-distribuida (t-SNE) para reducir un mapa de características de alta dimensionalidad en una distribución de densidad de probabilidad de dos dimensiones inferiores y luego utilizar un método estadístico descriptivo simple llamado rango intercuartílico (IQR) para identificar cualquier valor atípico de la distribución de densidad de las características. t-SNE es un algoritmo de aprendizaje automático y una técnica de reducción de dimensionalidad no lineal adecuada para incrustar datos de alta dimensionalidad para visualización en un espacio de dos o tres dimensiones de baja dimensionalidad. Aplicamos este método en un conjunto de datos que contiene imágenes para entrenar un modelo de red neuronal convolucional (ConvNet) para un problema de clasificación de imágenes. El conjunto de datos contiene cuatro clases diferentes de imágenes: tres clases contienen defectos en la construcción (moho, mancha y deterioro de la pintura) y una clase sin defectos (normal). Utilizamos la técnica de transfer learning para modificar un modelo VGG-16 pre-entrenado. Utilizamos este modelo como extractor de características y como punto de referencia para evaluar nuestro método. Hemos demostrado que, al utilizar este método, podemos identificar y eliminar las imágenes atípicas en el conjunto de datos. Después de eliminar las imágenes atípicas del conjunto de datos y volver a entrenar el modelo VGG-16, los resultados también han mostrado que la precisión de la clasificación ha mejorado significativamente y el número de casos mal clasificados también ha disminuido. Aunque muchas técnicas de ingeniería de características para manejar datos faltantes y valores atípicos son comunes en problemas de aprendizaje automático predictivo que involucran datos numéricos o categóricos, hay poco trabajo en el desarrollo de técnicas para manejar valores atípicos en datos de alta dimensionalidad que se pueden utilizar para mejorar la calidad de problemas de aprendizaje automático que involucran imágenes, como modelos ConvNet para clasificación de imágenes y problemas de detección de objetos.