El mismo nombre no siempre es el mismo: correlacionando y rastreando los métodos de falsificación a través de varios conjuntos de datos de deepfake
Autores: Sun, Yi; Zheng, Jun; Lyn, Lingjuan; Zhao, Hanyu; Li, Jiaxing; Tan, Yunteng; Liu, Xinyu; Li, Yuanzhang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
El mismo nombre no siempre es el mismo: correlacionando y rastreando los métodos de falsificación a través de varios conjuntos de datos de deepfake
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Deepfakes
Conjuntos de datos
Características de falsificación
Agrupamiento K-medias
Índice de Calinski-Harabasz
Sistema KCE
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Los deepfakes se están volviendo cada vez más ubicuos, especialmente en la manipulación facial. Numerosos investigadores y empresas han publicado múltiples conjuntos de datos de deepfakes faciales etiquetados para indicar diferentes métodos de falsificación. Sin embargo, la denominación de estas etiquetas suele ser arbitraria e inconsistente, lo que lleva al hecho de que la mayoría de los investigadores ahora eligen usar solo uno de los conjuntos de datos para su trabajo de investigación. Sin embargo, los investigadores deben utilizar estos conjuntos de datos en aplicaciones prácticas y llevar a cabo investigaciones de trazabilidad. En este estudio, empleamos algunos modelos para extraer características de falsificación de varios conjuntos de datos de deepfake y utilizamos el método de clustering K-means para identificar conjuntos de datos con valores de características similares. Analizamos los valores de las características utilizando el método del Índice de Calinski Harabasz. Nuestros hallazgos revelan que los conjuntos de datos con las mismas o similares etiquetas en diferentes conjuntos de datos de deepfake muestran diferentes características de falsificación. Propusimos el sistema KCE para resolver este problema, que combina múltiples conjuntos de datos de deepfake según la similitud de características. Analizamos cuatro grupos de conjuntos de datos de prueba y encontramos que el modelo entrenado basado en datos combinados por KCE se enfrentó a tipos de datos desconocidos, y Calinski Harabasz obtuvo un 42,3% más alto que el combinado por nombres falsificados. Además, es un 2,5% más alto que el modelo que utiliza todos los datos, aunque este último tiene más datos de entrenamiento. Esto muestra que este método mejora la capacidad de generalización del modelo. Este artículo introduce una nueva perspectiva para evaluar y utilizar de manera efectiva diversos conjuntos de datos de deepfake y llevar a cabo investigaciones de trazabilidad de deepfake.
Descripción
Los deepfakes se están volviendo cada vez más ubicuos, especialmente en la manipulación facial. Numerosos investigadores y empresas han publicado múltiples conjuntos de datos de deepfakes faciales etiquetados para indicar diferentes métodos de falsificación. Sin embargo, la denominación de estas etiquetas suele ser arbitraria e inconsistente, lo que lleva al hecho de que la mayoría de los investigadores ahora eligen usar solo uno de los conjuntos de datos para su trabajo de investigación. Sin embargo, los investigadores deben utilizar estos conjuntos de datos en aplicaciones prácticas y llevar a cabo investigaciones de trazabilidad. En este estudio, empleamos algunos modelos para extraer características de falsificación de varios conjuntos de datos de deepfake y utilizamos el método de clustering K-means para identificar conjuntos de datos con valores de características similares. Analizamos los valores de las características utilizando el método del Índice de Calinski Harabasz. Nuestros hallazgos revelan que los conjuntos de datos con las mismas o similares etiquetas en diferentes conjuntos de datos de deepfake muestran diferentes características de falsificación. Propusimos el sistema KCE para resolver este problema, que combina múltiples conjuntos de datos de deepfake según la similitud de características. Analizamos cuatro grupos de conjuntos de datos de prueba y encontramos que el modelo entrenado basado en datos combinados por KCE se enfrentó a tipos de datos desconocidos, y Calinski Harabasz obtuvo un 42,3% más alto que el combinado por nombres falsificados. Además, es un 2,5% más alto que el modelo que utiliza todos los datos, aunque este último tiene más datos de entrenamiento. Esto muestra que este método mejora la capacidad de generalización del modelo. Este artículo introduce una nueva perspectiva para evaluar y utilizar de manera efectiva diversos conjuntos de datos de deepfake y llevar a cabo investigaciones de trazabilidad de deepfake.