Curación Automática de Documentos Judiciales: Anonimización de Datos Personales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Curación Automática de Documentos Judiciales: Anonimización de Datos Personales

Autores: Garat, Diego; Wonsever, Dina

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Curación Automática de Documentos Judiciales: Anonimización de Datos Personales

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Curaduría de datos

Control de calidad

Protección de la privacidad

Generación de metadatos

Procesos automáticos

Anonimización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Para proporcionar acceso abierto a datos de interés público, a menudo es necesario realizar varios procesos de curaduría de datos. En algunos casos, como en bases de datos biológicas, la curaduría implica control de calidad para garantizar un soporte experimental fiable para los datos de secuencias biológicas. En otros, como en registros médicos o archivos judiciales, la publicación no debe interferir con el derecho a la privacidad de las personas involucradas. También hay intervenciones en los datos publicados con el objetivo de generar metadatos que permitan una mejor experiencia de consulta y navegación. En todos los casos, el proceso de curaduría constituye un cuello de botella que ralentiza el acceso general a los datos, por lo que es de gran interés contar con procesos de curaduría automáticos o semi-automáticos. En este artículo, presentamos una solución destinada a la curaduría automática de nuestra Base de Datos de Jurisprudencia Nacional, con especial énfasis en el proceso de anonimización de información personal. El proceso de anonimización tiene como objetivo ocultar los nombres de los participantes involucrados en un litigio sin perder el sentido de la narrativa de los hechos. Para lograr este objetivo, necesitamos no solo reconocer los nombres de las personas, sino también resolver co-referencias para asignar la misma etiqueta a todas las menciones de la misma persona. Nuestro corpus tiene diferencias significativas en la ortografía de los nombres de las personas, por lo que desde el principio quedó claro que las herramientas preexistentes no podrían alcanzar un buen rendimiento. El desafío fue encontrar una buena manera de inyectar conocimiento especializado sobre la sintaxis de los nombres de las personas mientras se aprovechaban las capacidades previas de herramientas preentrenadas. Ajustamos un analizador NER y construimos un algoritmo de clusterización para resolver co-referencias entre entidades nombradas. Presentamos nuestros primeros resultados, que, para ambas tareas, son prometedores: obtuvimos un 90.21% de F1-micro en la tarea de NER, de un 39.99% antes de volver a entrenar el mismo analizador en nuestro corpus, y un 95.95% de puntuación ARI en la clusterización para la resolución de co-referencias.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro