Por Claudia Bauzer Medeiros
La gestión de datos científicos cubre todo el llamado “ciclo de vida” de los datos, es decir, desde su recolección hasta el almacenamiento a largo plazo, pasando por una serie de procesos de limpieza, curaduría, anotación, indexación y transformación. Gran parte de la investigación científica de hoy exige algún tipo de análisis y procesamiento de datos. Con esto, la planificación de la gestión de los datos utilizados y generados en una investigación pasó a formar parte integral de la metodología científica, siendo, inclusive, considerada como uno de los ítems necesarios de buenas prácticas de investigación.
Los proyectos de investigación se ocupan principalmente del inicio y medio del ciclo – es decir, la planificación de la recolección de los datos a ser usados, la eliminación de errores (también llamada “limpieza de datos”, o “data cleaning“) y su almacenamiento de forma adecuada , para entonces proceder a los análisis deseados para la producción de conocimiento. Todas estas actividades presentan grandes desafíos, tanto para los investigadores que van a usar y producir datos en sus investigaciones como para aquellos que desarrollan investigaciones sobre gestión de datos. Estos últimos pueden ser, por ejemplo, investigadores en Computación o los llamados “data librarians” (generalmente dedicados a actividades de curaduría y preservación). Independientemente de la denominación, la gestión de datos de investigación ha dado lugar a un gran número de nuevas líneas de investigación en Computación, y este número tiende a aumentar con la aparición de nuevos desafíos.
La figura arriba1, tomada del sitio web del JISC2, en el Reino Unido (https://www.jisc.ac.uk/), muestra una de las muchas visiones posibles del ciclo de vida de los datos de investigación.
La priorización, en la figura, a los aspectos de mantenimiento y preservación de datos, señala un hecho muy importante – la planificación de la gestión va mucho más allá de la duración de un proyecto, pues es necesario garantizar la disponibilidad de los datos por el mayor tiempo posible. Esto plantea el problema del costo asociado al ciclo de vida. Varios estudios muestran que el costo de preservación sube con el tiempo y que, a medio o largo plazo, supera en mucho el costo inicial de recolección (o generación) y limpieza. Una de las razones para esto es la evolución tecnológica de los medios digitales de almacenamiento – en algunos años se vuelven obsoletos, exigiendo a los curadores de datos la copia de los datos a otros medios, más modernos, so pena de llegar a ser ilegibles.
De esta forma, la actividad de curaduría también debe tener en cuenta qué conjuntos de datos deben preservarse, y por cuánto tiempo. Un estudio de 2013 constató que, después de 20 años, el 80% de los datos utilizados para producir artículos científicos ya no están disponibles.
La figura arriba3, extraída del artículo de Gibney y Van Norden4, ilustra la desaparición de esos datos.
La Ciencia Abierta presupone Datos Abiertos (donde el concepto de “datos” es muy amplio, incluyendo cualquier tipo de objeto digital almacenado). Existen varias definiciones para lo que son “datos abiertos”, pero quizás la más interesante es la que define que son conjuntos de datos cuyos metadatos son obligatoriamente públicos. En otras palabras, cualquier persona puede descubrir, utilizando los motores de búsqueda, si los datos existen, y cómo obtenerlos. Sin embargo, los datos propiamente dichos no son obligatoriamente públicos – e incluso, sólo pueden ser utilizados por grupos bien restringidos de investigación, por ejemplo por razones éticas o de privacidad.
En este contexto, la gestión de datos presenta otro desafío: ¿Cómo especificar los metadatos para permitir que los datos asociados se consideren “abiertos”? Esto requiere, a su vez, el desarrollo de nuevos patrones de metadatos, la organización de repositorios de metadatos y de sistemas de búsqueda y minería de metadatos.
Notas
1. KAYE, J. Storing and sharing research data after the ‘Space Race’ [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: https://www.jisc.ac.uk/blog/storing-and-sharing-research-data-after-the-space-race-25-feb-2015
2. Esta visión privilegia los aspectos de almacenamiento, preservación y organización de repositorios de datos científicos. El JISC es uno de los principales organismos británicos de apoyo a la gestión y curaduría de datos científicos asociados a la educación. Apoya, por lo tanto, a universidades e instituciones educativas en todos los aspectos relacionados con la gestión de datos. Otro organismo británico igualmente importante es el DCC (Digital Curation Center – http://www.dcc.ac.uk/), que se ocupa principalmente de la curaduría de datos. DCC y JISC ofrecen una gran cantidad de material didáctico sobre la gestión de datos científicos, ofreciendo también entrenamiento para investigadores y profesionales de la gestión de la información. Varios otros grandes centros que se ocupan de estos aspectos, como el ANDS (http://ands.org.au) australiano, o el DANS (https://dans.knaw.nl/en) en Holanda, o el Portage (https://portagenetwork.ca) canadiense.
3. GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: https://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416
4. Es importante resaltar que el artículo examinó sólo datos asociados a publicaciones. Sin embargo, hay enormes conjuntos de datos que sirven de base a investigaciones de todo tipo, pero que no están directamente asociados a un artículo específico. Un ejemplo típico son las series temporales de imágenes de satélite, que alimentan estudios de previsión de cosechas, o climatología. Aún otro ejemplo son datos de las torres de captura de carbono, instaladas en todo el mundo, usadas en investigaciones sobre calentamiento global. Estos tipos de datos, una vez recogidos y preservados, sirven durante varios años para una gran cantidad de estudios. Otro gran desafío de la gestión de datos se asocia con los procedimientos de preservación.
Referencias
GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: https://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416
KAYE, J. Storing and sharing research data after the ‘Space Race’ [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: https://www.jisc.ac.uk/blog/storing-and-sharing-research-data-after-the-space-race-25-feb-2015
Sobre Claudia Bauzer Medeiros
Profesora titular del Instituto de Computación de UNICAMP, con premios nacionales e internacionales por la excelencia en enseñanza, investigación, y por el trabajo de atracción de mujeres en TI. Coordina el programa de eScience y Data Science de la FAPESP. Comendadora de la Orden Nacional del Mérito Científico, Dr. Honoris Causa por las universidades Antenor Arrego (Perú) y París-Dauphine (Francia). Miembro del consejo de la Research Data Alliance.
Traducido del original en Portugués por Ernesto Spinak.
Como citar este post [ISO 690/2010]:
Cuando nos referimos en sentido general al ciclo de vida de la informacion, la gestion de datos se torna mas compleja. Recordemos que los contextos e interpretaciones cambian en los estudios interdisciplinarios.