Análisis de la Persistencia de Datos en Sistemas de Creación de Contenido Colaborativo: El Caso de Wikipedia
Autores: Bracciale, Lorenzo; Loreti, Pierpaolo; Detti, Andrea; Blefari Melazzi, Nicola
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Análisis de la Persistencia de Datos en Sistemas de Creación de Contenido Colaborativo: El Caso de Wikipedia
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Común
Contenido
Actualizaciones
Estadísticas
Relación
Análisis
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 3
Citaciones: Sin citaciones
Un problema muy común en el diseño de sistemas de almacenamiento en caché/prefetching, redes de distribución, motores de búsqueda y rastreadores web es determinar cuánto tiempo dura un contenido dado antes de ser actualizado, es decir, su frecuencia de actualización. De hecho, mientras que algunos contenidos no se actualizan con frecuencia (por ejemplo, videos), en otros casos las revisiones invalidan periódicamente los contenidos. En este trabajo, presentamos un análisis de Wikipedia, actualmente el 5º sitio web más visitado del mundo, evaluando las estadísticas de actualizaciones de sus páginas y su relación con las estadísticas de vistas de páginas. Descubrimos que el número de actualizaciones de una página sigue una distribución lognormal. Proporcionamos parámetros de ajuste así como un análisis de bondad de ajuste, mostrando la significancia estadística del modelo para describir los datos empíricos. Realizamos un análisis de la relación vistas-actualizaciones, mostrando que en un período de un mes, no hay una correlación evidente entre las páginas más actualizadas y las más vistas. Sin embargo, al observar páginas específicas, mostramos que hay una fuerte correlación entre los picos de vistas y actualizaciones, y encontramos que en más del 50% de los casos, la diferencia de tiempo entre los dos picos es de menos de una semana. Esto refleja el proceso subyacente por el cual un evento causa tanto un pico de actualización como un pico de visitas que ocurre con diferentes retrasos de tiempo. Este comportamiento puede allanar el camino para aplicaciones de análisis de tráfico predictivo basadas en estadísticas de actualización de contenido. Finalmente, mostramos cómo el modelo puede ser utilizado para evaluar el rendimiento de un escenario de almacenamiento en caché en la red.
Descripción
Un problema muy común en el diseño de sistemas de almacenamiento en caché/prefetching, redes de distribución, motores de búsqueda y rastreadores web es determinar cuánto tiempo dura un contenido dado antes de ser actualizado, es decir, su frecuencia de actualización. De hecho, mientras que algunos contenidos no se actualizan con frecuencia (por ejemplo, videos), en otros casos las revisiones invalidan periódicamente los contenidos. En este trabajo, presentamos un análisis de Wikipedia, actualmente el 5º sitio web más visitado del mundo, evaluando las estadísticas de actualizaciones de sus páginas y su relación con las estadísticas de vistas de páginas. Descubrimos que el número de actualizaciones de una página sigue una distribución lognormal. Proporcionamos parámetros de ajuste así como un análisis de bondad de ajuste, mostrando la significancia estadística del modelo para describir los datos empíricos. Realizamos un análisis de la relación vistas-actualizaciones, mostrando que en un período de un mes, no hay una correlación evidente entre las páginas más actualizadas y las más vistas. Sin embargo, al observar páginas específicas, mostramos que hay una fuerte correlación entre los picos de vistas y actualizaciones, y encontramos que en más del 50% de los casos, la diferencia de tiempo entre los dos picos es de menos de una semana. Esto refleja el proceso subyacente por el cual un evento causa tanto un pico de actualización como un pico de visitas que ocurre con diferentes retrasos de tiempo. Este comportamiento puede allanar el camino para aplicaciones de análisis de tráfico predictivo basadas en estadísticas de actualización de contenido. Finalmente, mostramos cómo el modelo puede ser utilizado para evaluar el rendimiento de un escenario de almacenamiento en caché en la red.