Sobre la robustez de la fusión multimodal desde la perspectiva de la robótica
Autores: Bednarek, Michal; Kicki, Piotr; Walas, Krzysztof
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Sobre la robustez de la fusión multimodal desde la perspectiva de la robótica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Eficiente
Fusión multimodal
Sistema de percepción robótica
Sensaciones hápticas
Aprendizaje automático multimodal
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 55
Citaciones: Sin citaciones
La fusión eficiente multimodal de flujos de datos de diferentes sensores es una habilidad crucial que un sistema de percepción robótica debe exhibir para garantizar robustez contra perturbaciones. Sin embargo, a medida que aumenta el volumen y la dimensionalidad de la retroalimentación sensorial, podría ser difícil diseñar manualmente un sistema de fusión de datos multimodal que pueda manejar datos heterogéneos. Hoy en día, el aprendizaje automático multimodal es un campo emergente con investigación centrada principalmente en el análisis de información visual y auditiva. Aunque, desde la perspectiva de la robótica, las sensaciones hápticas experimentadas durante la interacción con un entorno son esenciales para ejecutar tareas útiles con éxito. En nuestro trabajo, comparamos cuatro métodos de fusión multimodal basados en el aprendizaje en tres conjuntos de datos públicos que contienen señales hápticas, imágenes y poses de robots. Durante las pruebas, consideramos tres tareas que involucran dichos datos, a saber, clasificación del resultado de agarre, reconocimiento de texturas y, lo más desafiante, clasificación multi-etiqueta de adjetivos hápticos basados en datos hápticos y visuales. Los experimentos realizados se centraron no solo en la verificación del rendimiento de cada método, sino principalmente en su robustez contra la degradación de datos. Nos centramos en este aspecto de la fusión multimodal, ya que rara vez se consideraba en los documentos de investigación, y dicha degradación de la retroalimentación sensorial podría ocurrir durante la interacción del robot con su entorno. Además, verificamos la utilidad de la ampliación de datos para aumentar la robustez de los métodos de fusión de datos mencionados anteriormente.
Descripción
La fusión eficiente multimodal de flujos de datos de diferentes sensores es una habilidad crucial que un sistema de percepción robótica debe exhibir para garantizar robustez contra perturbaciones. Sin embargo, a medida que aumenta el volumen y la dimensionalidad de la retroalimentación sensorial, podría ser difícil diseñar manualmente un sistema de fusión de datos multimodal que pueda manejar datos heterogéneos. Hoy en día, el aprendizaje automático multimodal es un campo emergente con investigación centrada principalmente en el análisis de información visual y auditiva. Aunque, desde la perspectiva de la robótica, las sensaciones hápticas experimentadas durante la interacción con un entorno son esenciales para ejecutar tareas útiles con éxito. En nuestro trabajo, comparamos cuatro métodos de fusión multimodal basados en el aprendizaje en tres conjuntos de datos públicos que contienen señales hápticas, imágenes y poses de robots. Durante las pruebas, consideramos tres tareas que involucran dichos datos, a saber, clasificación del resultado de agarre, reconocimiento de texturas y, lo más desafiante, clasificación multi-etiqueta de adjetivos hápticos basados en datos hápticos y visuales. Los experimentos realizados se centraron no solo en la verificación del rendimiento de cada método, sino principalmente en su robustez contra la degradación de datos. Nos centramos en este aspecto de la fusión multimodal, ya que rara vez se consideraba en los documentos de investigación, y dicha degradación de la retroalimentación sensorial podría ocurrir durante la interacción del robot con su entorno. Además, verificamos la utilidad de la ampliación de datos para aumentar la robustez de los métodos de fusión de datos mencionados anteriormente.