logo móvil
Contáctanos

Curación Automática de Documentos Judiciales: Anonimización de Datos Personales

Autores: Garat, Diego; Wonsever, Dina

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Curación Automática de Documentos Judiciales: Anonimización de Datos Personales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Curaduría de datos
Control de calidad
Protección de la privacidad
Generación de metadatos
Procesos automáticos
Anonimización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para proporcionar acceso abierto a datos de interés público, a menudo es necesario realizar varios procesos de curaduría de datos. En algunos casos, como en bases de datos biológicas, la curaduría implica control de calidad para garantizar un soporte experimental fiable para los datos de secuencias biológicas. En otros, como en registros médicos o archivos judiciales, la publicación no debe interferir con el derecho a la privacidad de las personas involucradas. También hay intervenciones en los datos publicados con el objetivo de generar metadatos que permitan una mejor experiencia de consulta y navegación. En todos los casos, el proceso de curaduría constituye un cuello de botella que ralentiza el acceso general a los datos, por lo que es de gran interés contar con procesos de curaduría automáticos o semi-automáticos. En este artículo, presentamos una solución destinada a la curaduría automática de nuestra Base de Datos de Jurisprudencia Nacional, con especial énfasis en el proceso de anonimización de información personal. El proceso de anonimización tiene como objetivo ocultar los nombres de los participantes involucrados en un litigio sin perder el sentido de la narrativa de los hechos. Para lograr este objetivo, necesitamos no solo reconocer los nombres de las personas, sino también resolver co-referencias para asignar la misma etiqueta a todas las menciones de la misma persona. Nuestro corpus tiene diferencias significativas en la ortografía de los nombres de las personas, por lo que desde el principio quedó claro que las herramientas preexistentes no podrían alcanzar un buen rendimiento. El desafío fue encontrar una buena manera de inyectar conocimiento especializado sobre la sintaxis de los nombres de las personas mientras se aprovechaban las capacidades previas de herramientas preentrenadas. Ajustamos un analizador NER y construimos un algoritmo de clusterización para resolver co-referencias entre entidades nombradas. Presentamos nuestros primeros resultados, que, para ambas tareas, son prometedores: obtuvimos un 90.21% de F1-micro en la tarea de NER, de un 39.99% antes de volver a entrenar el mismo analizador en nuestro corpus, y un 95.95% de puntuación ARI en la clusterización para la resolución de co-referencias.

Otros recursos que podrían interesarte

Temas Virtualpro