Aprendizaje de incrustación métrica en proyecciones multidireccionales
Autores: Kertész, Gábor
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Aprendizaje de incrustación métrica en proyecciones multidireccionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Imagen
Reconocimiento de instancias
Visión por computadora
Aprendizaje profundo
Extracción de características
Clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El reconocimiento de instancias basado en imágenes es un problema difícil, en algunos casos incluso para el ojo humano. Si bien los últimos avances en visión por computadora, en su mayoría impulsados por el aprendizaje profundo, han demostrado que se pueden diseñar modelos de alto rendimiento para la clasificación o categorización, el problema de discriminar objetos similares con un bajo número de muestras sigue siendo desafiante. Los avances de la clasificación multiclase se aplican a problemas de coincidencia de objetos, ya que las técnicas de extracción de características son las mismas; las redes convolucionales multicapa inspiradas en la naturaleza aprenden las representaciones, y la salida de dicho modelo las mapea a un espacio de codificación multidimensional. Una pérdida basada en métricas acerca las incrustaciones de la misma instancia entre sí. Si bien estas soluciones logran un alto rendimiento en clasificación, la baja eficiencia se debe al costo de memoria del alto número de parámetros, que está relacionado con el tamaño de la imagen de entrada. Al reducir la entrada, el modelo requiere menos parámetros entrenables, aunque el rendimiento disminuye. Esta desventaja se aborda mediante el uso de extracción de características comprimidas, por ejemplo, proyecciones. En este documento, se aplica una transformación de proyección de imagen multidireccional con longitudes de vector fijas (MDIPFL) para tareas de reconocimiento de una sola toma, entrenadas en arquitecturas Siamese y Triplet. Los resultados muestran que el enfoque basado en MDIPFL logra un rendimiento decente, a pesar del número significativamente menor de parámetros.
Descripción
El reconocimiento de instancias basado en imágenes es un problema difícil, en algunos casos incluso para el ojo humano. Si bien los últimos avances en visión por computadora, en su mayoría impulsados por el aprendizaje profundo, han demostrado que se pueden diseñar modelos de alto rendimiento para la clasificación o categorización, el problema de discriminar objetos similares con un bajo número de muestras sigue siendo desafiante. Los avances de la clasificación multiclase se aplican a problemas de coincidencia de objetos, ya que las técnicas de extracción de características son las mismas; las redes convolucionales multicapa inspiradas en la naturaleza aprenden las representaciones, y la salida de dicho modelo las mapea a un espacio de codificación multidimensional. Una pérdida basada en métricas acerca las incrustaciones de la misma instancia entre sí. Si bien estas soluciones logran un alto rendimiento en clasificación, la baja eficiencia se debe al costo de memoria del alto número de parámetros, que está relacionado con el tamaño de la imagen de entrada. Al reducir la entrada, el modelo requiere menos parámetros entrenables, aunque el rendimiento disminuye. Esta desventaja se aborda mediante el uso de extracción de características comprimidas, por ejemplo, proyecciones. En este documento, se aplica una transformación de proyección de imagen multidireccional con longitudes de vector fijas (MDIPFL) para tareas de reconocimiento de una sola toma, entrenadas en arquitecturas Siamese y Triplet. Los resultados muestran que el enfoque basado en MDIPFL logra un rendimiento decente, a pesar del número significativamente menor de parámetros.