Método basado en Procesamiento de Lenguaje Natural para la Agrupación y Análisis de Narrativas de Seguridad en la Aviación
Autores: Rose, Rodrigo L.; Puranik, Tejas G.; Mavris, Dimitri N.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Método basado en Procesamiento de Lenguaje Natural para la Agrupación y Análisis de Narrativas de Seguridad en la Aviación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Complejidad
Operaciones de aviación comercial
Datos de vuelo
Marcos basados en datos
Seguridad en vuelo
Narrativas de seguridad en la aviación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La complejidad de las operaciones de aviación comercial ha crecido sustancialmente en los últimos años, junto con una diversificación de técnicas para recopilar y analizar datos de vuelo. Como resultado, los marcos impulsados por datos para mejorar la seguridad en vuelo han ganado popularidad. Las técnicas basadas en datos ofrecen una exploración eficiente y repetible de patrones y anomalías en grandes conjuntos de datos. Los datos de seguridad en vuelo basados en texto presentan un desafío único en su subjetividad y dependen de herramientas de procesamiento de lenguaje natural para extraer tendencias subyacentes de las narrativas. En este documento, se presenta una metodología para el análisis de narrativas de seguridad en aviación basadas en relatos textuales de eventos en vuelo y parámetros de metadatos categóricos que los acompañan. Se presenta una extensa rutina de preprocesamiento, incluyendo una comparación entre modelos numéricos de representación textual con el propósito de clasificación de documentos. Se presenta un marco para categorizar y visualizar narrativas a través de una combinación de agrupamiento k-means y mapeo 2-D con t-Distributed Stochastic Neighbor Embedding (t-SNE). Se desarrolla una rutina de post-procesamiento de clústeres para identificar factores determinantes en cada clúster y construir una estructura jerárquica de etiquetas de clúster y sub-clúster. El Sistema de Reporte de Seguridad en Aviación (ASRS), que incluye más de un millón de informes desidentificados presentados voluntariamente que describen incidentes de seguridad en aviación para vuelos comerciales, se analiza como un estudio de caso para la metodología. El método resulta en la identificación de 10 clústeres principales y un total de 31 sub-clústeres. Los agrupamientos identificados se post-procesan a través de un análisis estadístico basado en metadatos de los clústeres aprendidos. El método desarrollado muestra promesas para descubrir tendencias de clústeres que no son evidentes en las etiquetas de anomalía existentes en los datos y ofrece una nueva herramienta para obtener información de datos de seguridad basados en texto que complementan los enfoques existentes.
Descripción
La complejidad de las operaciones de aviación comercial ha crecido sustancialmente en los últimos años, junto con una diversificación de técnicas para recopilar y analizar datos de vuelo. Como resultado, los marcos impulsados por datos para mejorar la seguridad en vuelo han ganado popularidad. Las técnicas basadas en datos ofrecen una exploración eficiente y repetible de patrones y anomalías en grandes conjuntos de datos. Los datos de seguridad en vuelo basados en texto presentan un desafío único en su subjetividad y dependen de herramientas de procesamiento de lenguaje natural para extraer tendencias subyacentes de las narrativas. En este documento, se presenta una metodología para el análisis de narrativas de seguridad en aviación basadas en relatos textuales de eventos en vuelo y parámetros de metadatos categóricos que los acompañan. Se presenta una extensa rutina de preprocesamiento, incluyendo una comparación entre modelos numéricos de representación textual con el propósito de clasificación de documentos. Se presenta un marco para categorizar y visualizar narrativas a través de una combinación de agrupamiento k-means y mapeo 2-D con t-Distributed Stochastic Neighbor Embedding (t-SNE). Se desarrolla una rutina de post-procesamiento de clústeres para identificar factores determinantes en cada clúster y construir una estructura jerárquica de etiquetas de clúster y sub-clúster. El Sistema de Reporte de Seguridad en Aviación (ASRS), que incluye más de un millón de informes desidentificados presentados voluntariamente que describen incidentes de seguridad en aviación para vuelos comerciales, se analiza como un estudio de caso para la metodología. El método resulta en la identificación de 10 clústeres principales y un total de 31 sub-clústeres. Los agrupamientos identificados se post-procesan a través de un análisis estadístico basado en metadatos de los clústeres aprendidos. El método desarrollado muestra promesas para descubrir tendencias de clústeres que no son evidentes en las etiquetas de anomalía existentes en los datos y ofrece una nueva herramienta para obtener información de datos de seguridad basados en texto que complementan los enfoques existentes.