Un análisis de modelos de aprendizaje profundo y embeddings de palabras para la detección de toxicidad en comentarios textuales en línea
Autores: Dessì, Danilo; Recupero, Diego Reforgiato; Sack, Harald
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un análisis de modelos de aprendizaje profundo y embeddings de palabras para la detección de toxicidad en comentarios textuales en línea
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Números crecientes
Comunicación en línea
Detección de toxicidad
Aprendizaje profundo
Incrustaciones de palabras
Comentarios en línea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Hoy en día, un número creciente de personas interactúa en línea y se están produciendo muchos comentarios textuales debido a la explosión de la comunicación en línea. Sin embargo, una inconveniencia primordial dentro de los entornos en línea es que los comentarios compartidos en plataformas digitales pueden ocultar peligros, como noticias falsas, insultos, acoso y, en general, comentarios que pueden herir los sentimientos de alguien. En este escenario, la detección de este tipo de toxicidad tiene un papel importante para moderar la comunicación en línea. Las tecnologías de aprendizaje profundo han entregado recientemente un rendimiento impresionante en aplicaciones de Procesamiento del Lenguaje Natural que abarcan el Análisis de Sentimientos y la detección de emociones en numerosos conjuntos de datos. Tales modelos no necesitan características predefinidas seleccionadas a mano, sino que aprenden características sofisticadas de los conjuntos de datos de entrada por sí mismos. En este dominio, los embeddings de palabras se han utilizado ampliamente como una forma de representar palabras en tareas de Análisis de Sentimientos, demostrando ser muy efectivos. Por lo tanto, en este documento, investigamos el uso de aprendizaje profundo y embeddings de palabras para detectar seis tipos diferentes de toxicidad en comentarios en línea. Al hacerlo, se evalúan las capas de aprendizaje profundo más adecuadas y los embeddings de palabras de última generación para identificar la toxicidad. Los resultados sugieren que las capas de Memoria a Corto y Largo Plazo en combinación con embeddings de palabras emulados son una buena elección para esta tarea.
Descripción
Hoy en día, un número creciente de personas interactúa en línea y se están produciendo muchos comentarios textuales debido a la explosión de la comunicación en línea. Sin embargo, una inconveniencia primordial dentro de los entornos en línea es que los comentarios compartidos en plataformas digitales pueden ocultar peligros, como noticias falsas, insultos, acoso y, en general, comentarios que pueden herir los sentimientos de alguien. En este escenario, la detección de este tipo de toxicidad tiene un papel importante para moderar la comunicación en línea. Las tecnologías de aprendizaje profundo han entregado recientemente un rendimiento impresionante en aplicaciones de Procesamiento del Lenguaje Natural que abarcan el Análisis de Sentimientos y la detección de emociones en numerosos conjuntos de datos. Tales modelos no necesitan características predefinidas seleccionadas a mano, sino que aprenden características sofisticadas de los conjuntos de datos de entrada por sí mismos. En este dominio, los embeddings de palabras se han utilizado ampliamente como una forma de representar palabras en tareas de Análisis de Sentimientos, demostrando ser muy efectivos. Por lo tanto, en este documento, investigamos el uso de aprendizaje profundo y embeddings de palabras para detectar seis tipos diferentes de toxicidad en comentarios en línea. Al hacerlo, se evalúan las capas de aprendizaje profundo más adecuadas y los embeddings de palabras de última generación para identificar la toxicidad. Los resultados sugieren que las capas de Memoria a Corto y Largo Plazo en combinación con embeddings de palabras emulados son una buena elección para esta tarea.