Modelo de localización de persona basado en una fusión de entradas acústicas y visuales
Autores: Koren, Leon; Stipancic, Tomislav; Ricko, Andrija; Orsag, Luka
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Modelo de localización de persona basado en una fusión de entradas acústicas y visuales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Interactivo
Biomimético
Cabeza robótica
Comunicación no verbal
Estado emocional
Expresiones faciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 53
Citaciones: Sin citaciones
PLEA es una cabeza robótica interactiva y biomimética con capacidades de comunicación no verbal. El razonamiento de PLEA se basa en un enfoque multimodal que combina entradas de video y audio para determinar el estado emocional actual de una persona. PLEA expresa emociones utilizando expresiones faciales generadas en tiempo real, que se proyectan en una superficie facial en 3D. En este documento, se desarrolla y evalúa un mecanismo de cálculo más sofisticado. El modelo de separación de personas audiovisuales puede localizar a una persona hablando en un lugar concurrido combinando la entrada de la red ResNet con la entrada de un algoritmo diseñado a mano. La primera entrada se utiliza para encontrar rostros humanos en la habitación, y la segunda entrada se utiliza para determinar la dirección del sonido y enfocar la atención en una sola persona. Después de realizar un procedimiento de fusión de información, se empareja el rostro de la persona que habla con la dirección del sonido correspondiente. Como resultado de este procedimiento, el robot podría iniciar una interacción con la persona basada en señales no verbales. El modelo fue probado y evaluado en condiciones de laboratorio mediante la interacción con usuarios. Los resultados sugieren que la metodología puede utilizarse eficientemente para centrar la atención de un robot en una persona localizada.
Descripción
PLEA es una cabeza robótica interactiva y biomimética con capacidades de comunicación no verbal. El razonamiento de PLEA se basa en un enfoque multimodal que combina entradas de video y audio para determinar el estado emocional actual de una persona. PLEA expresa emociones utilizando expresiones faciales generadas en tiempo real, que se proyectan en una superficie facial en 3D. En este documento, se desarrolla y evalúa un mecanismo de cálculo más sofisticado. El modelo de separación de personas audiovisuales puede localizar a una persona hablando en un lugar concurrido combinando la entrada de la red ResNet con la entrada de un algoritmo diseñado a mano. La primera entrada se utiliza para encontrar rostros humanos en la habitación, y la segunda entrada se utiliza para determinar la dirección del sonido y enfocar la atención en una sola persona. Después de realizar un procedimiento de fusión de información, se empareja el rostro de la persona que habla con la dirección del sonido correspondiente. Como resultado de este procedimiento, el robot podría iniciar una interacción con la persona basada en señales no verbales. El modelo fue probado y evaluado en condiciones de laboratorio mediante la interacción con usuarios. Los resultados sugieren que la metodología puede utilizarse eficientemente para centrar la atención de un robot en una persona localizada.