Detectar con Estilo: Un Marco de Aprendizaje Contrastivo para Detectar Imágenes Generadas por Computadora
Autores: Karantaidis, Georgios; Kotropoulos, Constantine
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detectar con Estilo: Un Marco de Aprendizaje Contrastivo para Detectar Imágenes Generadas por Computadora
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Contenido multimedia generado por computadora
Herramientas algorítmicas
Aprendizaje contrastivo supervisado
Red neuronal profunda
Promediado de pesos estocásticos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de contenido multimedia generado por computadora (CG) se ha vuelto de suma importancia debido a los avances en el procesamiento digital de imágenes y gráficos por computadora. Las imágenes CG realistas podrían ser utilizadas con fines fraudulentos debido a las capacidades de reconocimiento engañosas de los ojos humanos. Por lo tanto, existe la necesidad de implementar herramientas algorítmicas para distinguir las imágenes CG de las naturales dentro de la forensía multimedia. Aquí, se propone un marco de trabajo de extremo a extremo para abordar el problema de distinguir las imágenes CG de las naturales mediante el uso de aprendizaje contrastivo supervisado y transferencia de estilo arbitraria a través de una arquitectura de red neuronal profunda de dos etapas. Esta arquitectura permite la discriminación aprovechando las incrustaciones por clase y generando múltiples muestras de entrenamiento para aumentar la capacidad del modelo sin necesidad de una gran cantidad de datos iniciales. También se emplea el promedio de pesos estocásticos (SWA) para mejorar la generalización y estabilidad del marco propuesto. Se realizan extensos experimentos para investigar el impacto de diversas condiciones de ruido en la precisión de clasificación y la capacidad de generalización del marco propuesto. Los experimentos realizados demuestran un rendimiento superior sobre las metodologías existentes de vanguardia en los conjuntos de datos de referencia públicos DSTok, Rahmouni y LSCGB. Las pruebas de hipótesis afirman que las mejoras en la precisión de detección son estadísticamente significativas.
Descripción
La detección de contenido multimedia generado por computadora (CG) se ha vuelto de suma importancia debido a los avances en el procesamiento digital de imágenes y gráficos por computadora. Las imágenes CG realistas podrían ser utilizadas con fines fraudulentos debido a las capacidades de reconocimiento engañosas de los ojos humanos. Por lo tanto, existe la necesidad de implementar herramientas algorítmicas para distinguir las imágenes CG de las naturales dentro de la forensía multimedia. Aquí, se propone un marco de trabajo de extremo a extremo para abordar el problema de distinguir las imágenes CG de las naturales mediante el uso de aprendizaje contrastivo supervisado y transferencia de estilo arbitraria a través de una arquitectura de red neuronal profunda de dos etapas. Esta arquitectura permite la discriminación aprovechando las incrustaciones por clase y generando múltiples muestras de entrenamiento para aumentar la capacidad del modelo sin necesidad de una gran cantidad de datos iniciales. También se emplea el promedio de pesos estocásticos (SWA) para mejorar la generalización y estabilidad del marco propuesto. Se realizan extensos experimentos para investigar el impacto de diversas condiciones de ruido en la precisión de clasificación y la capacidad de generalización del marco propuesto. Los experimentos realizados demuestran un rendimiento superior sobre las metodologías existentes de vanguardia en los conjuntos de datos de referencia públicos DSTok, Rahmouni y LSCGB. Las pruebas de hipótesis afirman que las mejoras en la precisión de detección son estadísticamente significativas.