Avances recientes en síntesis e interacción de habla, texto y visión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Avances recientes en síntesis e interacción de habla, texto y visión

Autores: Orynbay, Laura; Razakhova, Bibigul; Peer, Peter; Meden, Bla; Emeri, iga

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Avances recientes en síntesis e interacción de habla, texto y visión

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Conversión

Imágenes

Descripciones de audio

Visión por computadora

Procesamiento de lenguaje natural

Síntesis de voz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones

En los últimos años, ha habido un creciente interés en la conversión de imágenes en descripciones de audio. Este es un campo que se encuentra en la intersección de Visión por Computadora (CV) y Procesamiento del Lenguaje Natural (NLP), e implica diversas tareas, como la creación de descripciones textuales de imágenes y su conversión directa en representaciones auditivas. Otro aspecto de este campo es la síntesis de habla natural a partir de texto. Esto tiene un potencial significativo para mejorar la accesibilidad, la experiencia del usuario y las aplicaciones de Inteligencia Artificial (IA). En este artículo, revisamos una amplia gama de técnicas de conversión de imagen a audio. Se han explorado varios aspectos de la subtitulación de imágenes, la síntesis de habla y la conversión directa de imagen a habla, desde arquitecturas fundamentales codificador-decodificador hasta métodos más avanzados como transformadores y aprendizaje adversarial. Aunque el enfoque de esta revisión es en la síntesis de descripciones de audio a partir de datos visuales, también se aborda la tarea inversa de crear contenido visual a partir de descripciones en lenguaje natural. Este estudio proporciona una visión general completa de las técnicas y metodologías utilizadas en estos campos y destaca las fortalezas y debilidades de cada enfoque. El estudio enfatiza la importancia de diversos conjuntos de datos, como MS COCO, LibriTTS y VizWiz Captions, que desempeñan un papel crítico en el entrenamiento de modelos, su evaluación, la promoción de la inclusividad y la resolución de problemas del mundo real. Las implicaciones para el futuro sugieren el potencial de generar descripciones de audio más naturales y contextualizadas, mientras que las tareas de imagen a habla directa ofrecen oportunidades para representaciones auditivas intuitivas del contenido visual.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro