La detección de sarcasmo en plataformas de redes sociales mediante un modelo basado en auto-codificador híbrido
Autores: Sharma, Dilip Kumar; Singh, Bhuvanesh; Agarwal, Saurabh; Kim, Hyunsung; Sharma, Raj
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
La detección de sarcasmo en plataformas de redes sociales mediante un modelo basado en auto-codificador híbrido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Sarcasmo
Redes sociales
Análisis de sentimientos
Automático
Procesamiento de lenguaje natural
Técnica híbrida
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El sarcasmo es una frase en lenguaje que transmite lo opuesto de lo que se está diciendo, generalmente algo muy desagradable para ofender o burlarse de alguien. El sarcasmo se utiliza ampliamente en plataformas de redes sociales todos los días. Dado que el sarcasmo puede cambiar el significado de una afirmación, el procedimiento de análisis de opiniones es propenso a errores. Las preocupaciones sobre la integridad de las analíticas han crecido a medida que se ha expandido el uso de herramientas automatizadas de análisis de redes sociales. Según investigaciones preliminares, las afirmaciones sarcásticas solas han reducido significativamente la precisión del análisis automático de sentimientos. Las frases sarcásticas también afectan a la detección automática de noticias falsas, lo que lleva a falsos positivos. Se han propuesto diversas técnicas individuales de procesamiento del lenguaje natural anteriormente, pero cada una tiene limitaciones de contexto textual y proximidad. No pueden manejar diversos tipos de contenido. En este artículo de investigación, proponemos una novedosa técnica basada en incrustación de oraciones híbridas utilizando un autoencoder. El marco propone utilizar la incrustación de oraciones de un autoencoder de memoria a corto y largo plazo, un codificador bidireccional de representación de transformadores y un codificador de oraciones universal. También se considera el texto sobre imágenes para manejar contenidos multimedia como imágenes y videos. El marco final se diseña después del estudio de ablación de diversas fusiones híbridas de modelos. El modelo propuesto se verifica en tres diversos conjuntos de datos de redes sociales del mundo real: el Corpus de Reddit autoanotado (SARC), un conjunto de datos de titulares y un conjunto de datos de Twitter. Se logra una precisión del 83.92%, 90.8% y 92.80%. Los valores métricos de precisión son mejores que los de marcos anteriores de vanguardia.
Descripción
El sarcasmo es una frase en lenguaje que transmite lo opuesto de lo que se está diciendo, generalmente algo muy desagradable para ofender o burlarse de alguien. El sarcasmo se utiliza ampliamente en plataformas de redes sociales todos los días. Dado que el sarcasmo puede cambiar el significado de una afirmación, el procedimiento de análisis de opiniones es propenso a errores. Las preocupaciones sobre la integridad de las analíticas han crecido a medida que se ha expandido el uso de herramientas automatizadas de análisis de redes sociales. Según investigaciones preliminares, las afirmaciones sarcásticas solas han reducido significativamente la precisión del análisis automático de sentimientos. Las frases sarcásticas también afectan a la detección automática de noticias falsas, lo que lleva a falsos positivos. Se han propuesto diversas técnicas individuales de procesamiento del lenguaje natural anteriormente, pero cada una tiene limitaciones de contexto textual y proximidad. No pueden manejar diversos tipos de contenido. En este artículo de investigación, proponemos una novedosa técnica basada en incrustación de oraciones híbridas utilizando un autoencoder. El marco propone utilizar la incrustación de oraciones de un autoencoder de memoria a corto y largo plazo, un codificador bidireccional de representación de transformadores y un codificador de oraciones universal. También se considera el texto sobre imágenes para manejar contenidos multimedia como imágenes y videos. El marco final se diseña después del estudio de ablación de diversas fusiones híbridas de modelos. El modelo propuesto se verifica en tres diversos conjuntos de datos de redes sociales del mundo real: el Corpus de Reddit autoanotado (SARC), un conjunto de datos de titulares y un conjunto de datos de Twitter. Se logra una precisión del 83.92%, 90.8% y 92.80%. Los valores métricos de precisión son mejores que los de marcos anteriores de vanguardia.