Desarrollando un Corpus Multietiquetado de Textos Cortos de Twitter: Un Método Semi-Automático

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Desarrollando un Corpus Multietiquetado de Textos Cortos de Twitter: Un Método Semi-Automático

Autores: Liu, Xuan; Zhou, Guohui; Kong, Minghui; Yin, Zhengtong; Li, Xiaolu; Yin, Lirong; Zheng, Wenfeng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Desarrollando un Corpus Multietiquetado de Textos Cortos de Twitter: Un Método Semi-Automático

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Extracción

Textos en línea

Clasificación de sentimientos

Palabras emocionales

Corpora

Múltiples etiquetas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

Ante el rápido aumento de documentos electrónicos en la Era de los Medios Digitales, la necesidad de extraer características textuales de los textos en línea para una mejor comunicación está creciendo. La clasificación de sentimientos podría ser el método clave para captar las emociones de la comunicación en línea, y desarrollar corpora con anotación de emociones es el primer paso para lograr la clasificación de sentimientos. Sin embargo, la anotación manual, que es intensiva en mano de obra y costosa, ha resultado en la falta de corpora para palabras emocionales. Además, los corpora semánticos de etiqueta única difícilmente pueden satisfacer los requisitos del análisis moderno de las complicadas emociones de los usuarios, pero etiquetar palabras emocionales con múltiples etiquetas es aún más difícil de lo habitual. Se necesita urgentemente mejorar los métodos de etiquetado automático de emociones con múltiples etiquetas emocionales para construir nuevos corpora semánticos. Tomando los textos cortos de Twitter como caso, este estudio propone un nuevo método semi-automático para anotar textos cortos de Internet con múltiples etiquetas y formar un corpus multi-etiquetado para un entrenamiento de algoritmos posterior. Cada oración se etiqueta con la tendencia emocional y la polaridad, y cada tweet, que generalmente contiene varias oraciones, se etiqueta con las dos principales tendencias emocionales. La anotación multi-etiquetada semi-automática se logra a través del proceso de selección del corpus base y las etiquetas emocionales, preprocesamiento de datos, anotación automática mediante coincidencia de palabras y cálculo de pesos, y corrección manual en caso de que se encuentren múltiples tendencias emocionales. Los experimentos en el corpus de Twitter Sentiment140 publicado demuestran la efectividad del enfoque propuesto y muestran consistencia entre los resultados de la anotación semi-automática y la anotación manual. Al aplicar este método, este estudio resume la especificación de anotación y construye un corpus de emociones multi-etiquetado con 6500 tweets para un entrenamiento de algoritmos posterior.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro