Contextualizando los datos: Una aportación de la archivística a la calidad desde la modelización de los Sistemas de Información

La irrupción del Big Data, la inteligencia artificial así como la legislación en torno a la reutilización de datos del sector público y el inicio de las políticas Open Data ha espoleado la aparición de nuevas disciplinas y el relanzamiento de otras relacionadas con el proceso de tratamiento, refinamiento y vinculación de datos como sería el caso de la ciencia de datos, la bioestadística, determinadas áreas de las ciencias de la computación, etc. Asimismo, en el terreno de la cultura, las humanidades digitales han iniciado un proceso de reciclaje en la gestión de los datos de otros profesionales como los archiveros, bibliotecarios y museólogos. A todo ello se ha de sumar los esfuerzos que desde hace unas décadas viene llevando a cabo la comunidad del Web Wide Web en relación a la generación de nuevas tecnologías para la interconexión y procesamiento de los datos en el marco del desarrollo e implantación de la web semántica, ya sea en forma de costosas y pesadas ontologías o a partir de estrategias menos onerosas y de mayor alcance como el Open Linked Data que también confluyen en la estrategia de la semantización de la web tradicional.

Sin embargo, buena parte de los esfuerzos emprendidos por todos estos sectores centran sus recursos y estrategias en el tratamiento de la calidad de los datos en el momento de su apertura para agilizar su difusión y consumo, es decir al final del ciclo de vida del dato, en una estrategia cortoplacista que puede llegar a generar graves problemas de redundancia, duplicación de procesos además de una reducción de los indicadores que definen la calidad de los datos.

Este planteamiento va en detrimento, en muchas ocasiones, de la programación de costosos pero necesarios proyectos de reingeniería tendentes a la mejora de la calidad de los datos en origen, antes incluso de su creación, que permitan generar una verdadera cadena de valor posibilitando una correcta política de publicación y explotación des del inicio, durante el trascurso y al finalizar el ciclo de vida de los mismos dentro de la organización para iniciar el siguiente a través de su reutilización, donde la riqueza del tratamiento y del contexto de las fases previas podrán garantizar su procedencia, calidad y objetivos sin generar costos adicionales de refinamiento iterativo.

En este planteamiento, la gobernanza de los datos en las organizaciones se erige en una apuesta estratégica donde los archiveros juegan un rol fundamental a lo largo del ciclo de vida de los sistemas de información pero, en especial, en los procesos de definición y de reingeniería de las aplicaciones. Ello es necesario desde el momento en que las organizaciones se ven abocadas, cada vez más, a moverse en un entorno líquido, extraordinariamente dinámico y cambiante que obliga a trasladar las tradicionales políticas de difusión y reutilización de los datos desde el final de la cadena al inicio de la misma. Ello es especialmente relevante en la generación de conocimiento que pasa por procesos de enriquecimiento semántico de los datos desde el momento de su creación permitiendo la mejora de la gestión y explotación de los datos por parte de la Inteligencia Artificial. A ello se suma, igualmente, un cambio de paradigma de la profesión archivística orientada cada vez más a planteamientos data céntricos en detrimento del documento. En este sentido, la aparición e implementación de modelos conceptuales basados en ontologías y normas internacionales destinadas a fomentar la calidad, vinculación y reutilización de los datos como la reciente publicación de Records In Context (RIC) posterior a la CIDOC CRM (ISO 21127) y la nueva norma de tesauros (ISO 25964) que tiende a crear puentes entre cualquier sistema de clasificación, entre otros instrumentos, convierte al archivero en un activo más de la organización en los procesos de definición y modelado de datos.

El texto incluirá los siguientes ámbitos temáticos:

  1. Principios de calidad de los datos y contribución en origen a su consecución desde la perspectiva de la colaboración de los archiveros en el proceso de modelado de los sistemas de información.
  2. Principales estrategias de enriquecimiento de datos a través de vinculaciones con fuentes externas a través de la iniciativa Open Linked Data.
  3. Incorporación de esquemas de codificación o vocabularios controlados para garantizar la interoperabilidad entre sistemas en un entorno semántico.
  4. Modelización de datos a través de la implementación de modelos basados en ontologías: caso de la ISO 21127 (CIDOC CRM) i RIC (Record In Context).
  5. Aplicación de métricas para analizar la calidad de los datos y proceder a su rediseño.

Interviene:

  • Julio Quílez Mata. Vocal de Recerca i Innovació de la Associació de professionals de l’arxivística i gestió de documents de Catalunya – AAC.

Localización: Sala 7 Dia: 25 noviembre, 2021 Hora: 11:00 am - 11:30 am Julio Quílez Mata