Curación Automática de Documentos Judiciales: Anonimización de Datos Personales
Autores: Garat, Diego; Wonsever, Dina
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Curación Automática de Documentos Judiciales: Anonimización de Datos Personales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Curaduría de datos
Control de calidad
Protección de la privacidad
Generación de metadatos
Procesos automáticos
Anonimización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para proporcionar acceso abierto a datos de interés público, a menudo es necesario realizar varios procesos de curaduría de datos. En algunos casos, como en bases de datos biológicas, la curaduría implica control de calidad para garantizar un soporte experimental fiable para los datos de secuencias biológicas. En otros, como en registros médicos o archivos judiciales, la publicación no debe interferir con el derecho a la privacidad de las personas involucradas. También hay intervenciones en los datos publicados con el objetivo de generar metadatos que permitan una mejor experiencia de consulta y navegación. En todos los casos, el proceso de curaduría constituye un cuello de botella que ralentiza el acceso general a los datos, por lo que es de gran interés contar con procesos de curaduría automáticos o semi-automáticos. En este artículo, presentamos una solución destinada a la curaduría automática de nuestra Base de Datos de Jurisprudencia Nacional, con especial énfasis en el proceso de anonimización de información personal. El proceso de anonimización tiene como objetivo ocultar los nombres de los participantes involucrados en un litigio sin perder el sentido de la narrativa de los hechos. Para lograr este objetivo, necesitamos no solo reconocer los nombres de las personas, sino también resolver co-referencias para asignar la misma etiqueta a todas las menciones de la misma persona. Nuestro corpus tiene diferencias significativas en la ortografía de los nombres de las personas, por lo que desde el principio quedó claro que las herramientas preexistentes no podrían alcanzar un buen rendimiento. El desafío fue encontrar una buena manera de inyectar conocimiento especializado sobre la sintaxis de los nombres de las personas mientras se aprovechaban las capacidades previas de herramientas preentrenadas. Ajustamos un analizador NER y construimos un algoritmo de clusterización para resolver co-referencias entre entidades nombradas. Presentamos nuestros primeros resultados, que, para ambas tareas, son prometedores: obtuvimos un 90.21% de F1-micro en la tarea de NER, de un 39.99% antes de volver a entrenar el mismo analizador en nuestro corpus, y un 95.95% de puntuación ARI en la clusterización para la resolución de co-referencias.
Descripción
Para proporcionar acceso abierto a datos de interés público, a menudo es necesario realizar varios procesos de curaduría de datos. En algunos casos, como en bases de datos biológicas, la curaduría implica control de calidad para garantizar un soporte experimental fiable para los datos de secuencias biológicas. En otros, como en registros médicos o archivos judiciales, la publicación no debe interferir con el derecho a la privacidad de las personas involucradas. También hay intervenciones en los datos publicados con el objetivo de generar metadatos que permitan una mejor experiencia de consulta y navegación. En todos los casos, el proceso de curaduría constituye un cuello de botella que ralentiza el acceso general a los datos, por lo que es de gran interés contar con procesos de curaduría automáticos o semi-automáticos. En este artículo, presentamos una solución destinada a la curaduría automática de nuestra Base de Datos de Jurisprudencia Nacional, con especial énfasis en el proceso de anonimización de información personal. El proceso de anonimización tiene como objetivo ocultar los nombres de los participantes involucrados en un litigio sin perder el sentido de la narrativa de los hechos. Para lograr este objetivo, necesitamos no solo reconocer los nombres de las personas, sino también resolver co-referencias para asignar la misma etiqueta a todas las menciones de la misma persona. Nuestro corpus tiene diferencias significativas en la ortografía de los nombres de las personas, por lo que desde el principio quedó claro que las herramientas preexistentes no podrían alcanzar un buen rendimiento. El desafío fue encontrar una buena manera de inyectar conocimiento especializado sobre la sintaxis de los nombres de las personas mientras se aprovechaban las capacidades previas de herramientas preentrenadas. Ajustamos un analizador NER y construimos un algoritmo de clusterización para resolver co-referencias entre entidades nombradas. Presentamos nuestros primeros resultados, que, para ambas tareas, son prometedores: obtuvimos un 90.21% de F1-micro en la tarea de NER, de un 39.99% antes de volver a entrenar el mismo analizador en nuestro corpus, y un 95.95% de puntuación ARI en la clusterización para la resolución de co-referencias.