Estimación de Pose Animal Basada en Aprendizaje Contrastivo con Prompts Condicionales Dinámicos
Autores: Hu, Xiaoling; Liu, Chang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Estimación de Pose Animal Basada en Aprendizaje Contrastivo con Prompts Condicionales Dinámicos
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Zootecnia
Palabras clave
Estimación de pose animal tradicional
Indicaciones condicionales dinámicas
Entrenamiento colaborativo multimodal
Modelo de aprendizaje contrastivo
Preentrenamiento de imagen-lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
Las técnicas tradicionales de estimación de poses de animales basadas en imágenes enfrentan obstáculos significativos, incluyendo la escasez de datos de entrenamiento, el costoso etiquetado de datos y los desafíos que plantea la deformación no rígida. Para abordar estos problemas, propusimos indicaciones condicionales dinámicas para el conocimiento previo de las poses de los animales en modalidades lingüísticas. Luego, utilizamos un modelo de entrenamiento colaborativo multimodal (lenguaje-imagen) y aprendizaje contrastivo para estimar las poses de los animales. Nuestro método aprovecha plantillas de indicaciones de texto y tokens condicionales de características de imagen para construir indicaciones condicionales dinámicas que integran un rico conocimiento lingüístico previo en profundidad. Las indicaciones de texto destacan puntos clave y descripciones relevantes de las poses de los animales, mejorando su representación en el proceso de aprendizaje. Mientras tanto, transformados a través de una red no lineal completamente conectada, los tokens condicionales de características de imagen incrustan de manera eficiente las características de la imagen en estas indicaciones. El vector de contexto resultante, derivado de la fusión de la plantilla de indicación de texto y el token condicional de características de imagen, genera una indicación condicional dinámica para cada muestra de entrada. Al utilizar un modelo de preentrenamiento contrastivo de lenguaje-imagen, nuestro enfoque sincroniza y fortalece de manera efectiva las interacciones de entrenamiento entre las características de imagen y texto, lo que resulta en una mejora en la precisión de la localización de puntos clave y la precisión general de la estimación de poses de animales. Los resultados experimentales muestran que el aprendizaje contrastivo basado en indicaciones condicionales dinámicas mejora la precisión promedio de la estimación de poses de animales en los conjuntos de datos AP-10K y Animal Pose.
Descripción
Las técnicas tradicionales de estimación de poses de animales basadas en imágenes enfrentan obstáculos significativos, incluyendo la escasez de datos de entrenamiento, el costoso etiquetado de datos y los desafíos que plantea la deformación no rígida. Para abordar estos problemas, propusimos indicaciones condicionales dinámicas para el conocimiento previo de las poses de los animales en modalidades lingüísticas. Luego, utilizamos un modelo de entrenamiento colaborativo multimodal (lenguaje-imagen) y aprendizaje contrastivo para estimar las poses de los animales. Nuestro método aprovecha plantillas de indicaciones de texto y tokens condicionales de características de imagen para construir indicaciones condicionales dinámicas que integran un rico conocimiento lingüístico previo en profundidad. Las indicaciones de texto destacan puntos clave y descripciones relevantes de las poses de los animales, mejorando su representación en el proceso de aprendizaje. Mientras tanto, transformados a través de una red no lineal completamente conectada, los tokens condicionales de características de imagen incrustan de manera eficiente las características de la imagen en estas indicaciones. El vector de contexto resultante, derivado de la fusión de la plantilla de indicación de texto y el token condicional de características de imagen, genera una indicación condicional dinámica para cada muestra de entrada. Al utilizar un modelo de preentrenamiento contrastivo de lenguaje-imagen, nuestro enfoque sincroniza y fortalece de manera efectiva las interacciones de entrenamiento entre las características de imagen y texto, lo que resulta en una mejora en la precisión de la localización de puntos clave y la precisión general de la estimación de poses de animales. Los resultados experimentales muestran que el aprendizaje contrastivo basado en indicaciones condicionales dinámicas mejora la precisión promedio de la estimación de poses de animales en los conjuntos de datos AP-10K y Animal Pose.