Un novedoso método confiable de detección de texto tóxico con aprendizaje de representación invariante orientado a la entropía para la comunidad portuguesa
Autores: Fan, Wenting; Song, Haoyan; Zhang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un novedoso método confiable de detección de texto tóxico con aprendizaje de representación invariante orientado a la entropía para la comunidad portuguesa
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desarrollo rápido
Tecnologías digitales
Métodos basados en datos
Detección de texto tóxico
Información semántica
Estimación de incertidumbre
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Con el rápido desarrollo de las tecnologías digitales, los métodos basados en datos han demostrado un rendimiento encomiable en la tarea de detección de texto tóxico. Sin embargo, persisten varios desafíos sin resolver, incluida la incapacidad de capturar completamente la información semántica matizada incrustada en los lenguajes de texto, la falta de mecanismos robustos para manejar la incertidumbre inherente de los lenguajes de texto y la utilización de estrategias estáticas de fusión para la información de múltiples vistas. Para abordar estos problemas, este documento propone un método de detección de texto tóxico integral y dinámico. Específicamente, diseñamos un módulo de aumento de características de múltiples vistas combinando memoria a corto y largo plazo bidireccional y BERT como un marco de doble flujo. Este módulo captura una representación más holística de la información semántica al aprender características locales y globales de los textos. A continuación, introducimos un módulo de aprendizaje invariante orientado a la entropía minimizando la entropía condicional entre representaciones específicas de vistas para alinear la información consistente, mejorando así la generalización de la representación. Mientras tanto, diseñamos un módulo de reconocimiento de texto confiable definiendo la función Dirichlet para modelar la estimación de incertidumbre de la predicción de texto. Luego, realizamos la estrategia de fusión de información basada en evidencia para agregar dinámicamente información de decisión entre vistas con la ayuda de la distribución de Dirichlet. A través de estos componentes, el método propuesto tiene como objetivo superar las limitaciones de los métodos tradicionales y proporcionar una solución más precisa y confiable para la detección de lenguaje tóxico. Finalmente, experimentos extensos en dos conjuntos de datos del mundo real muestran la efectividad y superioridad del método propuesto en comparación con siete métodos.
Descripción
Con el rápido desarrollo de las tecnologías digitales, los métodos basados en datos han demostrado un rendimiento encomiable en la tarea de detección de texto tóxico. Sin embargo, persisten varios desafíos sin resolver, incluida la incapacidad de capturar completamente la información semántica matizada incrustada en los lenguajes de texto, la falta de mecanismos robustos para manejar la incertidumbre inherente de los lenguajes de texto y la utilización de estrategias estáticas de fusión para la información de múltiples vistas. Para abordar estos problemas, este documento propone un método de detección de texto tóxico integral y dinámico. Específicamente, diseñamos un módulo de aumento de características de múltiples vistas combinando memoria a corto y largo plazo bidireccional y BERT como un marco de doble flujo. Este módulo captura una representación más holística de la información semántica al aprender características locales y globales de los textos. A continuación, introducimos un módulo de aprendizaje invariante orientado a la entropía minimizando la entropía condicional entre representaciones específicas de vistas para alinear la información consistente, mejorando así la generalización de la representación. Mientras tanto, diseñamos un módulo de reconocimiento de texto confiable definiendo la función Dirichlet para modelar la estimación de incertidumbre de la predicción de texto. Luego, realizamos la estrategia de fusión de información basada en evidencia para agregar dinámicamente información de decisión entre vistas con la ayuda de la distribución de Dirichlet. A través de estos componentes, el método propuesto tiene como objetivo superar las limitaciones de los métodos tradicionales y proporcionar una solución más precisa y confiable para la detección de lenguaje tóxico. Finalmente, experimentos extensos en dos conjuntos de datos del mundo real muestran la efectividad y superioridad del método propuesto en comparación con siete métodos.