logo móvil
Contáctanos

Identificación de la utilidad de la revisión utilizando características textuales y de contexto lingüístico novedosas

Autores: Khan, Muhammad Shehrayar; Rizwan, Atif; Faisal, Muhammad Shahzad; Ahmad, Tahir; Khan, Muhammad Saleem; Atteia, Ghada

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Identificación de la utilidad de la revisión utilizando características textuales y de contexto lingüístico novedosas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Sitios web de redes sociales
Minería de opiniones
Reseñas de películas
Word2Vec
Puntuaciones de F-Measure
Algoritmos de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Con la creciente cantidad de usuarios de sitios web de redes sociales como IMDb, un sitio web de películas, y el aumento de datos disponibles públicamente, la minería de opiniones es más accesible que nunca. En el campo de la investigación de comprensión del lenguaje, la categorización de críticas de películas puede ser desafiante debido a que el lenguaje humano es complejo, lo que lleva a escenarios donde existen palabras connotativas. Las palabras connotativas tienen un significado diferente al de sus significados literales. Al representar una palabra, el contexto en el que se utiliza la palabra cambia la semántica de las palabras. En este trabajo de investigación, se ha investigado la categorización de críticas de películas con buenos puntajes de F-Measure utilizando Word2Vec y se han inspeccionado tres aspectos diferentes de las características propuestas. En primer lugar, se extraen características psicológicas de las críticas: emoción positiva, emoción negativa, enojo, tristeza, influencia (nivel de confianza) y palabras de diccionario. En segundo lugar, se extraen características de legibilidad; se calculan el Índice de Legibilidad Automatizado (ARI), el Índice Coleman Liau (CLI) y el Recuento de Palabras (WC) para medir la puntuación de comprensibilidad de la crítica y se mide su impacto en el rendimiento de la clasificación de la crítica. Por último, también se extraen características lingüísticas de las críticas: adjetivos y adverbios. El modelo Word2Vec se entrena recopilando 50,000 críticas relacionadas con películas. Se utiliza un modelo Word2Vec autoentrenado para la incrustación contextualizada de palabras en vectores con 50, 100, 150 y 300 dimensiones. El modelo Word2Vec preentrenado convierte las palabras en vectores con 150 y 300 dimensiones. Se aplican y evalúan algoritmos de aprendizaje automático (ML) tradicionales y avanzados de acuerdo con medidas de rendimiento: precisión, sensibilidad y F-Measure. Los resultados indican que la Máquina de Soporte Vectorial (SVM) utilizando Word2Vec autoentrenado logró un 86% de F-Measure y utilizando características psicológicas, lingüísticas y de legibilidad con la concatenación de características de Word2Vec, SVM logró un 87.93% de F-Measure.

Otros recursos que podrían interesarte

Temas Virtualpro