Un método automático de limpieza de datos de video de duplicados cercanos basado en un anillo hash de características consistente
Autores: Qin, Yi; Ye, Ou; Fu, Yan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método automático de limpieza de datos de video de duplicados cercanos basado en un anillo hash de características consistente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Datos de video
Videos casi duplicados
Problemas de calidad de datos
Fusión automática
Características de alta dimensionalidad
Limpieza de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
En las últimas décadas, con la creciente escala de datos de video, continúan surgiendo videos casi duplicados. Los problemas de calidad de datos causados por videos casi duplicados son cada vez más prominentes, lo que ha afectado la aplicación de videos normales. Aunque los estudios actuales sobre la detección de videos casi duplicados pueden ayudar a descubrir problemas de calidad de datos para videos, aún carecen de un proceso de fusión automática para los datos de video representados por características de alta dimensión, lo que dificulta la limpieza automática de los videos casi duplicados para mejorar la calidad de datos de conjuntos de videos. En la actualidad, hay pocos estudios sobre la limpieza de datos de videos casi duplicados. Los estudios existentes tienen problemas sensibles de orden en los datos de video y centros de agrupamiento iniciales bajo una condición en la que la distribución previa es desconocida, lo que afecta seriamente la precisión de la limpieza de datos de videos casi duplicados. Para abordar los problemas anteriores, se propone en este documento un método automático de limpieza de datos de videos casi duplicados basado en un anillo de hash de características consistente. Primero, se integra una red residual con módulos de atención de bloques convolucionales, una red profunda de memoria a corto plazo y un modelo de atención para construir una red profunda RCLA con mecanismo de atención de múltiples cabezas para extraer características espacio-temporales de datos de video. Luego, se construye un anillo de hash de características consistente, que puede aliviar efectivamente la sensibilidad del orden de los datos de video al tiempo que proporciona una condición de fusión de videos casi duplicados. Para reducir la sensibilidad de los centros de agrupamiento iniciales a los resultados de la limpieza de videos casi duplicados, se construye un algoritmo de agrupamiento de distancia de características optimizado utilizando una función de pico de montaña en un anillo de hash de características consistente, que puede implementar la limpieza automática de datos de videos casi duplicados. Finalmente, se realizan experimentos basados en un conjunto de datos comúnmente utilizado llamado CC_WEB_VIDEO y un conjunto de datos de videos de minería de carbón. En comparación con algunos estudios existentes, los resultados de simulación demuestran el rendimiento del método propuesto.
Descripción
En las últimas décadas, con la creciente escala de datos de video, continúan surgiendo videos casi duplicados. Los problemas de calidad de datos causados por videos casi duplicados son cada vez más prominentes, lo que ha afectado la aplicación de videos normales. Aunque los estudios actuales sobre la detección de videos casi duplicados pueden ayudar a descubrir problemas de calidad de datos para videos, aún carecen de un proceso de fusión automática para los datos de video representados por características de alta dimensión, lo que dificulta la limpieza automática de los videos casi duplicados para mejorar la calidad de datos de conjuntos de videos. En la actualidad, hay pocos estudios sobre la limpieza de datos de videos casi duplicados. Los estudios existentes tienen problemas sensibles de orden en los datos de video y centros de agrupamiento iniciales bajo una condición en la que la distribución previa es desconocida, lo que afecta seriamente la precisión de la limpieza de datos de videos casi duplicados. Para abordar los problemas anteriores, se propone en este documento un método automático de limpieza de datos de videos casi duplicados basado en un anillo de hash de características consistente. Primero, se integra una red residual con módulos de atención de bloques convolucionales, una red profunda de memoria a corto plazo y un modelo de atención para construir una red profunda RCLA con mecanismo de atención de múltiples cabezas para extraer características espacio-temporales de datos de video. Luego, se construye un anillo de hash de características consistente, que puede aliviar efectivamente la sensibilidad del orden de los datos de video al tiempo que proporciona una condición de fusión de videos casi duplicados. Para reducir la sensibilidad de los centros de agrupamiento iniciales a los resultados de la limpieza de videos casi duplicados, se construye un algoritmo de agrupamiento de distancia de características optimizado utilizando una función de pico de montaña en un anillo de hash de características consistente, que puede implementar la limpieza automática de datos de videos casi duplicados. Finalmente, se realizan experimentos basados en un conjunto de datos comúnmente utilizado llamado CC_WEB_VIDEO y un conjunto de datos de videos de minería de carbón. En comparación con algunos estudios existentes, los resultados de simulación demuestran el rendimiento del método propuesto.