Desarrollando un Corpus Multietiquetado de Textos Cortos de Twitter: Un Método Semi-Automático
Autores: Liu, Xuan; Zhou, Guohui; Kong, Minghui; Yin, Zhengtong; Li, Xiaolu; Yin, Lirong; Zheng, Wenfeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Desarrollando un Corpus Multietiquetado de Textos Cortos de Twitter: Un Método Semi-Automático
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Extracción
Textos en línea
Clasificación de sentimientos
Palabras emocionales
Corpora
Múltiples etiquetas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Ante el rápido aumento de documentos electrónicos en la Era de los Medios Digitales, la necesidad de extraer características textuales de los textos en línea para una mejor comunicación está creciendo. La clasificación de sentimientos podría ser el método clave para captar las emociones de la comunicación en línea, y desarrollar corpora con anotación de emociones es el primer paso para lograr la clasificación de sentimientos. Sin embargo, la anotación manual, que es intensiva en mano de obra y costosa, ha resultado en la falta de corpora para palabras emocionales. Además, los corpora semánticos de etiqueta única difícilmente pueden satisfacer los requisitos del análisis moderno de las complicadas emociones de los usuarios, pero etiquetar palabras emocionales con múltiples etiquetas es aún más difícil de lo habitual. Se necesita urgentemente mejorar los métodos de etiquetado automático de emociones con múltiples etiquetas emocionales para construir nuevos corpora semánticos. Tomando los textos cortos de Twitter como caso, este estudio propone un nuevo método semi-automático para anotar textos cortos de Internet con múltiples etiquetas y formar un corpus multi-etiquetado para un entrenamiento de algoritmos posterior. Cada oración se etiqueta con la tendencia emocional y la polaridad, y cada tweet, que generalmente contiene varias oraciones, se etiqueta con las dos principales tendencias emocionales. La anotación multi-etiquetada semi-automática se logra a través del proceso de selección del corpus base y las etiquetas emocionales, preprocesamiento de datos, anotación automática mediante coincidencia de palabras y cálculo de pesos, y corrección manual en caso de que se encuentren múltiples tendencias emocionales. Los experimentos en el corpus de Twitter Sentiment140 publicado demuestran la efectividad del enfoque propuesto y muestran consistencia entre los resultados de la anotación semi-automática y la anotación manual. Al aplicar este método, este estudio resume la especificación de anotación y construye un corpus de emociones multi-etiquetado con 6500 tweets para un entrenamiento de algoritmos posterior.
Descripción
Ante el rápido aumento de documentos electrónicos en la Era de los Medios Digitales, la necesidad de extraer características textuales de los textos en línea para una mejor comunicación está creciendo. La clasificación de sentimientos podría ser el método clave para captar las emociones de la comunicación en línea, y desarrollar corpora con anotación de emociones es el primer paso para lograr la clasificación de sentimientos. Sin embargo, la anotación manual, que es intensiva en mano de obra y costosa, ha resultado en la falta de corpora para palabras emocionales. Además, los corpora semánticos de etiqueta única difícilmente pueden satisfacer los requisitos del análisis moderno de las complicadas emociones de los usuarios, pero etiquetar palabras emocionales con múltiples etiquetas es aún más difícil de lo habitual. Se necesita urgentemente mejorar los métodos de etiquetado automático de emociones con múltiples etiquetas emocionales para construir nuevos corpora semánticos. Tomando los textos cortos de Twitter como caso, este estudio propone un nuevo método semi-automático para anotar textos cortos de Internet con múltiples etiquetas y formar un corpus multi-etiquetado para un entrenamiento de algoritmos posterior. Cada oración se etiqueta con la tendencia emocional y la polaridad, y cada tweet, que generalmente contiene varias oraciones, se etiqueta con las dos principales tendencias emocionales. La anotación multi-etiquetada semi-automática se logra a través del proceso de selección del corpus base y las etiquetas emocionales, preprocesamiento de datos, anotación automática mediante coincidencia de palabras y cálculo de pesos, y corrección manual en caso de que se encuentren múltiples tendencias emocionales. Los experimentos en el corpus de Twitter Sentiment140 publicado demuestran la efectividad del enfoque propuesto y muestran consistencia entre los resultados de la anotación semi-automática y la anotación manual. Al aplicar este método, este estudio resume la especificación de anotación y construye un corpus de emociones multi-etiquetado con 6500 tweets para un entrenamiento de algoritmos posterior.