DDA-MSLD: Un algoritmo de detección de mentiras en el habla basado en múltiples características y una arquitectura profunda de doble flujo
Autores: Guo, Pengfei; Huang, Shucheng; Li, Mingxing
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
DDA-MSLD: Un algoritmo de detección de mentiras en el habla basado en múltiples características y una arquitectura profunda de doble flujo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de mentiras en el habla
Algoritmo
Características
Precisión de detección
Generalización
Arquitectura profunda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de mentiras en el habla es una técnica que analiza en detalle las señales de voz para determinar si un hablante está mintiendo. Tiene un valor de aplicación significativo y ha atraído la atención de varios campos. Sin embargo, los algoritmos existentes de detección de mentiras en el habla aún tienen ciertas limitaciones. Estos algoritmos no logran explorar completamente las características extraídas manualmente basadas en el conocimiento previo y también descuidan las características dinámicas del habla, así como el impacto del contexto temporal, lo que resulta en una reducción de la precisión y la generalización de la detección. Para abordar estos problemas, este artículo propone un algoritmo de detección de mentiras en el habla basado en una arquitectura profunda de doble flujo (DDA-MSLD). Este algoritmo emplea una estructura de doble flujo para aprender diferentes tipos de características simultáneamente. En primer lugar, combina una red de unidad recurrente con compuerta (GRU) con el mecanismo de atención. Esta combinación permite que la red capture de manera más integral el contexto de las señales de voz y se concentre en las partes que son más críticas para la detección de mentiras. Puede realizar un análisis profundo de patrones de secuencia en características prosódicas estáticas extraídas manualmente y características dinámicas no lineales, obteniendo características dinámicas de alto orden relacionadas con las mentiras. En segundo lugar, se utiliza la parte del codificador del transformador para capturar simultáneamente la estructura macroscópica y los detalles microscópicos de las señales de voz, específicamente para la extracción de características de alta precisión de las características del espectrograma de Mel de las señales de voz, obteniendo características profundas relacionadas con las mentiras. Esta estructura de doble flujo procesa varias características del habla simultáneamente, describiendo el estado subjetivo de las señales de voz desde diferentes perspectivas y mejorando así la precisión y la generalización de la detección. Se realizaron experimentos en el conjunto de datos de detección de mentiras en escenarios de múltiples personas CSC, y los resultados muestran que este algoritmo superó a los algoritmos existentes de última generación en rendimiento de detección. Considerando las diferencias significativas en el habla de mentiras en diferentes escenarios de mentira, y para evaluar aún más el rendimiento de generalización del algoritmo, se construyó un conjunto de datos de habla de mentira en chino en un escenario de una sola persona Local, y se realizaron experimentos sobre él. Los resultados indican que el algoritmo tiene una fuerte capacidad de generalización en diferentes escenarios.
Descripción
La detección de mentiras en el habla es una técnica que analiza en detalle las señales de voz para determinar si un hablante está mintiendo. Tiene un valor de aplicación significativo y ha atraído la atención de varios campos. Sin embargo, los algoritmos existentes de detección de mentiras en el habla aún tienen ciertas limitaciones. Estos algoritmos no logran explorar completamente las características extraídas manualmente basadas en el conocimiento previo y también descuidan las características dinámicas del habla, así como el impacto del contexto temporal, lo que resulta en una reducción de la precisión y la generalización de la detección. Para abordar estos problemas, este artículo propone un algoritmo de detección de mentiras en el habla basado en una arquitectura profunda de doble flujo (DDA-MSLD). Este algoritmo emplea una estructura de doble flujo para aprender diferentes tipos de características simultáneamente. En primer lugar, combina una red de unidad recurrente con compuerta (GRU) con el mecanismo de atención. Esta combinación permite que la red capture de manera más integral el contexto de las señales de voz y se concentre en las partes que son más críticas para la detección de mentiras. Puede realizar un análisis profundo de patrones de secuencia en características prosódicas estáticas extraídas manualmente y características dinámicas no lineales, obteniendo características dinámicas de alto orden relacionadas con las mentiras. En segundo lugar, se utiliza la parte del codificador del transformador para capturar simultáneamente la estructura macroscópica y los detalles microscópicos de las señales de voz, específicamente para la extracción de características de alta precisión de las características del espectrograma de Mel de las señales de voz, obteniendo características profundas relacionadas con las mentiras. Esta estructura de doble flujo procesa varias características del habla simultáneamente, describiendo el estado subjetivo de las señales de voz desde diferentes perspectivas y mejorando así la precisión y la generalización de la detección. Se realizaron experimentos en el conjunto de datos de detección de mentiras en escenarios de múltiples personas CSC, y los resultados muestran que este algoritmo superó a los algoritmos existentes de última generación en rendimiento de detección. Considerando las diferencias significativas en el habla de mentiras en diferentes escenarios de mentira, y para evaluar aún más el rendimiento de generalización del algoritmo, se construyó un conjunto de datos de habla de mentira en chino en un escenario de una sola persona Local, y se realizaron experimentos sobre él. Los resultados indican que el algoritmo tiene una fuerte capacidad de generalización en diferentes escenarios.