Avances recientes en síntesis e interacción de habla, texto y visión
Autores: Orynbay, Laura; Razakhova, Bibigul; Peer, Peter; Meden, Bla; Emeri, iga
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Avances recientes en síntesis e interacción de habla, texto y visión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conversión
Imágenes
Descripciones de audio
Visión por computadora
Procesamiento de lenguaje natural
Síntesis de voz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
En los últimos años, ha habido un creciente interés en la conversión de imágenes en descripciones de audio. Este es un campo que se encuentra en la intersección de Visión por Computadora (CV) y Procesamiento del Lenguaje Natural (NLP), e implica diversas tareas, como la creación de descripciones textuales de imágenes y su conversión directa en representaciones auditivas. Otro aspecto de este campo es la síntesis de habla natural a partir de texto. Esto tiene un potencial significativo para mejorar la accesibilidad, la experiencia del usuario y las aplicaciones de Inteligencia Artificial (IA). En este artículo, revisamos una amplia gama de técnicas de conversión de imagen a audio. Se han explorado varios aspectos de la subtitulación de imágenes, la síntesis de habla y la conversión directa de imagen a habla, desde arquitecturas fundamentales codificador-decodificador hasta métodos más avanzados como transformadores y aprendizaje adversarial. Aunque el enfoque de esta revisión es en la síntesis de descripciones de audio a partir de datos visuales, también se aborda la tarea inversa de crear contenido visual a partir de descripciones en lenguaje natural. Este estudio proporciona una visión general completa de las técnicas y metodologías utilizadas en estos campos y destaca las fortalezas y debilidades de cada enfoque. El estudio enfatiza la importancia de diversos conjuntos de datos, como MS COCO, LibriTTS y VizWiz Captions, que desempeñan un papel crítico en el entrenamiento de modelos, su evaluación, la promoción de la inclusividad y la resolución de problemas del mundo real. Las implicaciones para el futuro sugieren el potencial de generar descripciones de audio más naturales y contextualizadas, mientras que las tareas de imagen a habla directa ofrecen oportunidades para representaciones auditivas intuitivas del contenido visual.
Descripción
En los últimos años, ha habido un creciente interés en la conversión de imágenes en descripciones de audio. Este es un campo que se encuentra en la intersección de Visión por Computadora (CV) y Procesamiento del Lenguaje Natural (NLP), e implica diversas tareas, como la creación de descripciones textuales de imágenes y su conversión directa en representaciones auditivas. Otro aspecto de este campo es la síntesis de habla natural a partir de texto. Esto tiene un potencial significativo para mejorar la accesibilidad, la experiencia del usuario y las aplicaciones de Inteligencia Artificial (IA). En este artículo, revisamos una amplia gama de técnicas de conversión de imagen a audio. Se han explorado varios aspectos de la subtitulación de imágenes, la síntesis de habla y la conversión directa de imagen a habla, desde arquitecturas fundamentales codificador-decodificador hasta métodos más avanzados como transformadores y aprendizaje adversarial. Aunque el enfoque de esta revisión es en la síntesis de descripciones de audio a partir de datos visuales, también se aborda la tarea inversa de crear contenido visual a partir de descripciones en lenguaje natural. Este estudio proporciona una visión general completa de las técnicas y metodologías utilizadas en estos campos y destaca las fortalezas y debilidades de cada enfoque. El estudio enfatiza la importancia de diversos conjuntos de datos, como MS COCO, LibriTTS y VizWiz Captions, que desempeñan un papel crítico en el entrenamiento de modelos, su evaluación, la promoción de la inclusividad y la resolución de problemas del mundo real. Las implicaciones para el futuro sugieren el potencial de generar descripciones de audio más naturales y contextualizadas, mientras que las tareas de imagen a habla directa ofrecen oportunidades para representaciones auditivas intuitivas del contenido visual.