Un enfoque híbrido de aprendizaje automático para clasificar el discurso sobre cibercrimen indonesio utilizando una taxonomía de amenazas localizada
Autores: Arifman, Firman; Mantoro, Teddy; Handayani, Dini Oktarina Dwi
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un enfoque híbrido de aprendizaje automático para clasificar el discurso sobre cibercrimen indonesio utilizando una taxonomía de amenazas localizada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Indonesia
Amenazas cibernéticas
Redes sociales
Taxonomía del cibercrimen
Modelo IndoBERT
Clasificación híbrida
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El rápido crecimiento digital de Indonesia ha estado acompañado de amenazas cibernéticas en aumento, con el discurso público en las redes sociales emergiendo como una fuente crítica pero subutilizada de inteligencia sobre amenazas. Este discurso se caracteriza por un lenguaje informal y matices locales que hacen que las taxonomías internacionales existentes sobre ciberdelitos sean ineficaces, creando una brecha en la analítica de amenazas escalables y relevantes localmente. Este estudio presenta la Taxonomía de Amenazas de Ciberdelitos de Indonesia (ICTT), un novedoso marco de cinco dimensiones adaptado a los entornos en línea de Indonesia. Se desarrolló un pipeline de OSINT de extremo a extremo para recopilar 2344 muestras de X (anteriormente Twitter) y YouTube, empleando supervisión débil con 12 patrones regex de alta precisión para generar etiquetas de entrenamiento. Se ajustó un modelo IndoBERT de última generación a estos datos, y su rendimiento se comparó con modelos de clasificación basados en reglas y modelos híbridos. En un conjunto de datos de referencia anotado manualmente de 600 muestras, tanto los modelos IndoBERT como los híbridos lograron una precisión del 96.8%, superando significativamente la línea base basada en reglas (66.7%). Los modelos demostraron una fuerte generalización en ambas plataformas de redes sociales, y el enfoque híbrido proporcionó un equilibrio efectivo entre alto rendimiento e interpretabilidad. Esta investigación demuestra que el discurso público informal puede transformarse sistemáticamente en inteligencia sobre amenazas estructurada. La ICTT y el sistema de clasificación híbrido que la acompaña proporcionan una base escalable, interpretable y relevante localmente para la analítica de amenazas cibernéticas en Indonesia, estableciendo un plano metodológico para otros contextos de idiomas con pocos recursos.
Descripción
El rápido crecimiento digital de Indonesia ha estado acompañado de amenazas cibernéticas en aumento, con el discurso público en las redes sociales emergiendo como una fuente crítica pero subutilizada de inteligencia sobre amenazas. Este discurso se caracteriza por un lenguaje informal y matices locales que hacen que las taxonomías internacionales existentes sobre ciberdelitos sean ineficaces, creando una brecha en la analítica de amenazas escalables y relevantes localmente. Este estudio presenta la Taxonomía de Amenazas de Ciberdelitos de Indonesia (ICTT), un novedoso marco de cinco dimensiones adaptado a los entornos en línea de Indonesia. Se desarrolló un pipeline de OSINT de extremo a extremo para recopilar 2344 muestras de X (anteriormente Twitter) y YouTube, empleando supervisión débil con 12 patrones regex de alta precisión para generar etiquetas de entrenamiento. Se ajustó un modelo IndoBERT de última generación a estos datos, y su rendimiento se comparó con modelos de clasificación basados en reglas y modelos híbridos. En un conjunto de datos de referencia anotado manualmente de 600 muestras, tanto los modelos IndoBERT como los híbridos lograron una precisión del 96.8%, superando significativamente la línea base basada en reglas (66.7%). Los modelos demostraron una fuerte generalización en ambas plataformas de redes sociales, y el enfoque híbrido proporcionó un equilibrio efectivo entre alto rendimiento e interpretabilidad. Esta investigación demuestra que el discurso público informal puede transformarse sistemáticamente en inteligencia sobre amenazas estructurada. La ICTT y el sistema de clasificación híbrido que la acompaña proporcionan una base escalable, interpretable y relevante localmente para la analítica de amenazas cibernéticas en Indonesia, estableciendo un plano metodológico para otros contextos de idiomas con pocos recursos.