logo móvil
Contáctanos

Aprendizaje de incrustación métrica en proyecciones multidireccionales

Autores: Kertész, Gábor

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Aprendizaje de incrustación métrica en proyecciones multidireccionales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Imagen
Reconocimiento de instancias
Visión por computadora
Aprendizaje profundo
Extracción de características
Clasificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
El reconocimiento de instancias basado en imágenes es un problema difícil, en algunos casos incluso para el ojo humano. Si bien los últimos avances en visión por computadora, en su mayoría impulsados por el aprendizaje profundo, han demostrado que se pueden diseñar modelos de alto rendimiento para la clasificación o categorización, el problema de discriminar objetos similares con un bajo número de muestras sigue siendo desafiante. Los avances de la clasificación multiclase se aplican a problemas de coincidencia de objetos, ya que las técnicas de extracción de características son las mismas; las redes convolucionales multicapa inspiradas en la naturaleza aprenden las representaciones, y la salida de dicho modelo las mapea a un espacio de codificación multidimensional. Una pérdida basada en métricas acerca las incrustaciones de la misma instancia entre sí. Si bien estas soluciones logran un alto rendimiento en clasificación, la baja eficiencia se debe al costo de memoria del alto número de parámetros, que está relacionado con el tamaño de la imagen de entrada. Al reducir la entrada, el modelo requiere menos parámetros entrenables, aunque el rendimiento disminuye. Esta desventaja se aborda mediante el uso de extracción de características comprimidas, por ejemplo, proyecciones. En este documento, se aplica una transformación de proyección de imagen multidireccional con longitudes de vector fijas (MDIPFL) para tareas de reconocimiento de una sola toma, entrenadas en arquitecturas Siamese y Triplet. Los resultados muestran que el enfoque basado en MDIPFL logra un rendimiento decente, a pesar del número significativamente menor de parámetros.

Otros recursos que podrían interesarte

Temas Virtualpro