Por Claudia Bauzer Medeiros
A gestão de dados científicos cobre todo o chamado “ciclo de vida” dos dados, ou seja, desde a sua coleta até o armazenamento de longo prazo, passando por uma série de processamentos de limpeza, curadoria, anotação, indexação e transformação. Grande parte da pesquisa científica de hoje exige algum tipo de análise e processamento de dados. Com isto, o planejamento da gestão dos dados utilizados e gerados em uma pesquisa passou a fazer parte integral da metodologia científica, sendo, inclusive, considerado como um dos itens necessários de boas práticas de pesquisa.
Projetos de pesquisa se ocupam principalmente do início e meio do ciclo – ou seja, planejamento da coleta dos dados a serem usados, a eliminação de erros (também chamada “limpeza de dados”, ou “ data cleaning”) e seu armazenamento de forma adequada, para então proceder às análises desejadas para produção de conhecimento. Todas essas atividades apresentam grandes desafios, tanto para os pesquisadores que irão usar e produzir dados em suas pesquisas quanto para aqueles que desenvolvem pesquisas sobre gestão de dados. Estes últimos podem ser, por exemplo, pesquisadores em Computação ou os chamados “data librarians” (geralmente dedicados a atividades de curadoria e preservação). Independente da denominação, a gestão de dados de pesquisa vem dando origem a um grande número de novas linhas de pesquisa em Computação, e este número tende a aumentar com o aparecimento de novos desafios.
A figura acima1, retirada do site do JISC, no Reino Unido (https://www.jisc.ac.uk/), mostra uma das muitas visões possíveis do ciclo de vida de dados de pesquisa. Esta visão privilegia os aspectos de armazenamento, preservação e organização de repositórios de dados científicos.
A priorização, na figura, aos aspectos de manutenção e preservação de dados, assinala um fato muito importante – o planejamento da gestão vai muito além da duração de um projeto, pois é preciso garantir a disponibilidade dos dados pelo maior tempo possível. Isto levanta o problema do custo associado ao ciclo de vida. Vários estudos mostram que o custo de preservação sobe com o tempo e que, a médio ou longo prazo, supera em muito o custo inicial de coleta (ou geração) e limpeza. Uma das razões para isto é a evolução tecnológica dos meios digitais de armazenamento – em alguns anos tornam-se obsoletos, exigindo de curadores de dados a cópia dos dados para outros meios, mais modernos, sob pena de se tornarem ilegíveis.
Desta forma, a atividade de curadoria precisa também levar em consideração quais conjuntos de dados devem ser preservados, e por quanto tempo. Um estudo de 2013 constatou que, após 20 anos, 80% dos dados usados para produzir artigos científicos não estão mais disponíveis.
A figura acima3, extraída do artigo de Gibney e Van Norden4, ilustra o desaparecimento desses dados.
A Ciência Aberta pressupõe Dados Abertos (onde o conceito de “dados” é bem vasto, incluindo qualquer tipo de objeto digital armazenado). Existem várias definições para o que sejam “dados abertos”, mas talvez a mais interessante é a os define como conjuntos de dados cujos metadados sejam obrigatoriamente públicos. Em outras palavras, qualquer pessoa pode descobrir, usando mecanismos de busca, se os dados existem, e como obtê-los. No entanto, os dados propriamente ditos não são obrigatoriamente públicos – e, inclusive, só podem ser usados por grupos bem restritos de pesquisa, por exemplo por razões éticas ou privacidade.
Neste contexto, a gestão de dados apresenta ainda outro desafio: Como especificar os metadados de forma a permitir que os dados associados sejam considerados “abertos”? Isto exige, por sua vez, desenvolvimento de novos padrões de metadados, organização de repositórios de metadados e de sistemas de busca e mineração dos metadados.
Notas
1. KAYE, J. Storing and sharing research data after the ‘Space Race’ [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: https://www.jisc.ac.uk/blog/storing-and-sharing-research-data-after-the-space-race-25-feb-2015
2. O JISC é um dos principais organismos britânicos de apoio à gestão e curadoria de dados científicos associados à educação. Apoia, portanto, universidades e instituições de ensino em todos os aspectos associados à gestão de dados. Outro organismo britânico igualmente importante é o DCC (Digital Curation Center – http://www.dcc.ac.uk/), que se ocupa principalmente da curadoria de dados. DCC e JISC disponibilizam uma grande quantidade de material didático sobre a gestão de dados científicos, oferecendo também treinamento para pesquisadores e profissionais da gestão da informação. Vários outros grandes centros que se ocupam destes aspectos, como o ANDS (http://ands.org.au) australiano, ou o DANS (https://dans.knaw.nl/en) na Holanda, ou ainda o Portage (https://portagenetwork.ca) canadense.
3. GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: https://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416
4. Vale ressaltar que o artigo examinou apenas dados associados a publicações. No entanto, há enormes conjuntos de dados que servem de base a pesquisas de todo tipo, mas que não estão diretamente associados a um artigo específico. Um exemplo típico são séries temporais de imagens de satélite, que alimentam estudos em previsão de safra, ou climatologia. Ainda outro exemplo são dados de torres de captura de carbono, instaladas em todo o mundo, usados em pesquisas sobre aquecimento global. Estes tipos de dados, uma vez coletados e preservados, servem durante vários anos para uma grande quantidade de estudos. Outro grande desafio da gestão de dados é, assim, associado aos procedimentos de preservação.
Referências
GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: https://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416
KAYE, J. Storing and sharing research data after the ‘Space Race’ [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: https://www.jisc.ac.uk/blog/storing-and-sharing-research-data-after-the-space-race-25-feb-2015
Sobre Claudia Bauzer Medeiros
Professora titular do Instituto de Computação da UNICAMP, com prêmios nacionais e internacionais pela excelência em ensino, pesquisa, e pelo trabalho de atração de mulheres em TI. Coordena o programa de eScience e Data Science da FAPESP. Comendadora da Ordem Nacional do Mérito Cientifico, Dr, Honoris Causa pelas universidades Antenor Arrego (Peru) e Paris-Dauphine (França). Membro do conselho da Research Data Alliance.
Como citar este post [ISO 690/2010]:
Leia o comentário em espanhol, por Javier Santovenia Diaz:
https://blog.scielo.org/es/2018/06/22/gestion-de-datos-cientificos-de-la-recoleccion-a-la-preservacion/#comment-41654