La minería de opiniones en los comentarios de YouTube de canales de cocina en Marglish y Devanagari utilizando modelos de aprendizaje paramétricos y no paramétricos
Autores: Shah, Sonali Rajesh; Kaushik, Abhishek; Sharma, Shubham; Shah, Janice
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
La minería de opiniones en los comentarios de YouTube de canales de cocina en Marglish y Devanagari utilizando modelos de aprendizaje paramétricos y no paramétricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Youtube
India
Data
Code-mix
Sentiment analysis
Machine-learning
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 54
Citaciones: Sin citaciones
YouTube es una bendición, y a través de él las personas pueden educarse, entretenerse y expresarse sobre diversos temas. YouTube India actualmente tiene millones de usuarios activos. Dado que hay millones de usuarios activos, se puede entender que los datos presentes en YouTube serán grandes. Siendo India un país muy diverso, muchas personas son multilingües. Las personas expresan sus opiniones en forma de código mixto. La forma de código mixto es la mezcla de dos o más idiomas. Se ha vuelto una necesidad realizar Análisis de Sentimientos en los lenguajes de código mixto, ya que no hay mucha investigación sobre los datos de lenguaje de código mixto indio. En este documento, se realiza un Análisis de Sentimientos (SA) en el Marglish (Marathi + Inglés) así como en comentarios en Marathi Devanagari que se extraen de la API de YouTube de los principales canales en Marathi. Se aplican varios modelos de aprendizaje automático en el conjunto de datos junto con 3 técnicas de vectorización diferentes. El Perceptrón Multicapa (MLP) con el vectorizador de conteo proporciona la mejor precisión del 62.68% en el conjunto de datos de Marglish y Bernoulli Naïve Bayes junto con el vectorizador de conteo, que ofrece una precisión del 60.60% en el conjunto de datos de Devanagari. El Perceptrón Multicapa y el Bernoulli Naïve Bayes se consideran los algoritmos con mejor rendimiento. También se llevó a cabo una validación cruzada de 10 pliegues y pruebas estadísticas en el conjunto de datos para confirmar los resultados.
Descripción
YouTube es una bendición, y a través de él las personas pueden educarse, entretenerse y expresarse sobre diversos temas. YouTube India actualmente tiene millones de usuarios activos. Dado que hay millones de usuarios activos, se puede entender que los datos presentes en YouTube serán grandes. Siendo India un país muy diverso, muchas personas son multilingües. Las personas expresan sus opiniones en forma de código mixto. La forma de código mixto es la mezcla de dos o más idiomas. Se ha vuelto una necesidad realizar Análisis de Sentimientos en los lenguajes de código mixto, ya que no hay mucha investigación sobre los datos de lenguaje de código mixto indio. En este documento, se realiza un Análisis de Sentimientos (SA) en el Marglish (Marathi + Inglés) así como en comentarios en Marathi Devanagari que se extraen de la API de YouTube de los principales canales en Marathi. Se aplican varios modelos de aprendizaje automático en el conjunto de datos junto con 3 técnicas de vectorización diferentes. El Perceptrón Multicapa (MLP) con el vectorizador de conteo proporciona la mejor precisión del 62.68% en el conjunto de datos de Marglish y Bernoulli Naïve Bayes junto con el vectorizador de conteo, que ofrece una precisión del 60.60% en el conjunto de datos de Devanagari. El Perceptrón Multicapa y el Bernoulli Naïve Bayes se consideran los algoritmos con mejor rendimiento. También se llevó a cabo una validación cruzada de 10 pliegues y pruebas estadísticas en el conjunto de datos para confirmar los resultados.