Predicción de Taquilla de Películas Basada en Conjuntos de Múltiples Modelos
Autores: Ni, Yuan; Dong, Feixing; Zou, Meng; Li, Weiping
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Predicción de Taquilla de Películas Basada en Conjuntos de Múltiples Modelos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos de taquilla
China
Datos de películas
COVID-19
Modelo de predicción
LightGBM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este artículo se basa en los datos de taquilla de películas estrenadas en China en el pasado, que fueron recopilados de ENDATA el 30 de noviembre de 2021, proporcionando 5683 piezas de datos de películas y permitiendo la selección de las 2000 mejores piezas de datos de películas para ser utilizadas como el conjunto de datos de predicción de taquilla. En este artículo, se utilizan algunos tipos de microdatos chinos, y se introduce una búsqueda en Baidu del índice de datos de nombres de películas 30 días antes y después de la fecha de estreno, datos de la enfermedad por coronavirus 2019 (COVID-19) en China y otras características, y se optimiza el algoritmo de apilamiento adoptando una arquitectura de modelo de dos capas. Los aprendices base de la primera capa adoptan Extreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Categorical Boosting (CatBoost), Gradient Boosting Decision Tree (GBDT), random forest (RF) y regresión de soporte vectorial (SVR), y el meta-aprendiz de la segunda capa adopta un modelo de regresión lineal múltiple, para establecer un modelo de predicción de taquilla con un error de predicción, Error Porcentual Absoluto Medio (MAPE), del 14.49%. Además, para estudiar el impacto de la epidemia de COVID-19 en la taquilla de las películas, basado en los datos de 187 películas estrenadas desde enero de 2020 hasta noviembre de 2021, y combinado con varias características de datos introducidas anteriormente, este artículo utiliza LightGBM para establecer un modelo. Al verificar la importancia de las características del modelo, se encuentra que la situación de la epidemia de COVID-19 en el momento del estreno de la película tuvo un cierto impacto relacionado en la taquilla de la película.
Descripción
Este artículo se basa en los datos de taquilla de películas estrenadas en China en el pasado, que fueron recopilados de ENDATA el 30 de noviembre de 2021, proporcionando 5683 piezas de datos de películas y permitiendo la selección de las 2000 mejores piezas de datos de películas para ser utilizadas como el conjunto de datos de predicción de taquilla. En este artículo, se utilizan algunos tipos de microdatos chinos, y se introduce una búsqueda en Baidu del índice de datos de nombres de películas 30 días antes y después de la fecha de estreno, datos de la enfermedad por coronavirus 2019 (COVID-19) en China y otras características, y se optimiza el algoritmo de apilamiento adoptando una arquitectura de modelo de dos capas. Los aprendices base de la primera capa adoptan Extreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Categorical Boosting (CatBoost), Gradient Boosting Decision Tree (GBDT), random forest (RF) y regresión de soporte vectorial (SVR), y el meta-aprendiz de la segunda capa adopta un modelo de regresión lineal múltiple, para establecer un modelo de predicción de taquilla con un error de predicción, Error Porcentual Absoluto Medio (MAPE), del 14.49%. Además, para estudiar el impacto de la epidemia de COVID-19 en la taquilla de las películas, basado en los datos de 187 películas estrenadas desde enero de 2020 hasta noviembre de 2021, y combinado con varias características de datos introducidas anteriormente, este artículo utiliza LightGBM para establecer un modelo. Al verificar la importancia de las características del modelo, se encuentra que la situación de la epidemia de COVID-19 en el momento del estreno de la película tuvo un cierto impacto relacionado en la taquilla de la película.