Promovendo e acelerando o compartilhamento de dados de pesquisa

Por Lilian Nassi-Calò

Imagem: freepik.

A disponibilização de dados de pesquisa em formato legível por máquina vem sendo amplamente discutida – e adotada – por instituições de pesquisa, governos e agências de fomento desde 2013, após a publicação do relatório McKinsey, Open data: Unlocking innovation and performance with liquid information1, reportado neste blog2.Um dos pilares da ciência aberta, a abertura dos dados de pesquisa é uma demanda da sociedade, dos governos e financiadores. Esta prática traz inúmeras vantagens ao tornar a ciência mais transparente, reprodutível, confiável e verificável, acelera as descobertas e economiza recursos, uma vez que os dados coletados podem ser reutilizados – e devidamente citados – por outros.

Como todo novo paradigma, a disponibilização de dados de pesquisa de forma aberta, como prevê o relatório McKinsey, causa preocupação – e até certo temor por parte dos pesquisadores. Publicar dados de pesquisa no formato requerido pode ser desafiador, consome tempo, recursos humanos e financeiros, e talvez não seja uma das prioridades mais prementes dos pesquisadores. No entanto, cada vez mais instituições, agências de fomento, governos e até publishers vêm solicitando a publicação de conjuntos de dados de pesquisa (datasets) em formato de artigos de dados (data papers) ou depositados em repositórios de dados abertos quase que simultaneamente à publicação dos artigos em periódicos.

Os conjuntos de dados, ao serem publicados em periódicos ou depositados em repositórios, recebem um identificador digital (Digital Object Identifier, DOI) e podem ser devidamente citados. Uma forma de estimular os autores a compartilhar seus dados seria conferir-lhes o devido crédito na forma de citação por ocasião da reutilização de seus dados, como acontece nas publicações tradicionais. Considerando esta importante fonte de citações, o Web of Science (WoS) criou o Data Citation Index. Assim, os autores podem contabilizar as citações provenientes da publicação de seus dados de pesquisa, além de seus artigos. Nesta mesma direção, o publisher Elsevier implementou em 2014 uma série de princípios para citação de dados para os periódicos que publica3 e participou do lançamento da FORCE11 Joint Declaration of Data Citation Principles, uma série de oito princípios para citação de dados de pesquisa.

A despeito da existência destas diretrizes para citação de conjuntos de dados, de acordo com o informe The State of Open Data 20184 produzido pela Digital Science e pelo Figshare em colaboração com a Springer Nature obteve 58% de respostas negativas para a pergunta “Você acha que os pesquisadores recebem crédito suficiente por compartilhar seus dados?”. Apenas 9% responderam afirmativamente.

O informe The State of Open Data 20184 entrevistou pesquisadores de todos os continentes sobre as motivações, hábitos, conhecimento e práticas de compartilhamento de dados. Os resultados, comparados aos informes de 2016 e 2017, trazem informação relevante sobre a evolução dos dados abertos de pesquisa em todo o mundo além de como fortalecer esta prática na academia, para que atinja os resultados esperados.

Encorajar o compartilhamento não é suficiente

O número de conjuntos de dados disponibilizados nos últimos dez anos vem crescendo de forma exponencial, tendo atingido a marca de cerca de 10.000 em 2018, motivado principalmente por mandatos institucionais ou de agências de fomento. No entanto, apesar do número crescente, a pesquisa encontrou que 60% dos respondentes nunca havia ouvido falar dos princípios FAIR que regem a disponibilização dos dados de pesquisa e cujo acrônimo significa Findable, Accessible, Interoperable and Reusable (encontrável, acessível, interoperável e reutilizável). Estes resultados, portanto, indicam que cumprir exigências de financiadores é uma coisa e realmente tornar os dados reutilizáveis é outra bem diferente. No entanto, mais de 60% dos pesquisadores responderam que apoiariam mandatos nacionais em seus países para tornar os dados de pesquisa disponíveis em acesso aberto; 25% se declararam neutros a este respeito e apenas 10% se oporiam.

ao momento da coleta de dados para o informe, menos de 30% dos respondentes estavam sujeitos à mandatos institucionais, governamentais ou de agências de fomento para tornar seus conjuntos de dados disponíveis, 40% afirmaram não estarem sujeitos a qualquer mandato e o restante não sabia informar.

Propriedade dos dados

Um aspecto que não está claro aos autores diz respeito à propriedade dos dados. Os entrevistados da pesquisa acreditam que a propriedade dos dados depende de a pesquisa ter sido publicada ou não.

Antes da publicação, 50% dos respondentes acreditam que os dados são de propriedade dos financiadores da pesquisa, 28% acham que pertence ao publisher e menos de 10% atribuem a propriedade aos autores do estudo. Após a publicação, o percentual que atribuía propriedade aos financiadores cai para 25%, a instituição é a opção de 17%, o publisher de 22%, e a percentagem atribuída aos autores permanece inalterada. Cerca de 30% não souberam opinar.

A possibilidade de perda de dados de pesquisa seria um forte incentivo para armazenar conjuntos de dados em repositórios de dados abertos ou para publicar artigos de dados. Embora 56% dos entrevistados indicassem que nunca perderam dados de pesquisa, a perda de dados afetou 30% dos pesquisadores ouvidos pela Digital Science. Quase metade das perdas se deve à falta de backup dos discos rígidos dos equipamentos dos pesquisadores. Dados armazenados em versões ultrapassadas de software também são responsáveis por cerca de 10% das perdas de dados.

Experiências pessoais

Entre os motivos mais frequentemente apontados pelos entrevistados para compartilhar dados estão: maior visibilidade e impacto da pesquisa (22%), benefício público (20%), transparência e reutilização da pesquisa (12%), requerimento do periódico/publisher (10%), e receber o devido crédito por compartilhar os dados da pesquisa (8%). Apesar de estar posicionada em quinto lugar, a citação dos dados na verdade motiva 67% dos entrevistados, e apenas 9% acham que os autores recebem suficiente crédito por compartilhar seus dados, ao passo que 56% consideram que os autores não recebem o devido crédito.

As principais preocupações quanto à disponibilizar os conjuntos de dados incluem: mau uso dos dados (12%), dúvidas sobre direitos autorais e licenças (11%), não receber crédito ou reconhecimento suficientes (11%), não saber como organizar os dados de forma correta/útil (11%), não estar certo se tem o direito de compartilhar os dados (10%), dados contêm informação sigilosa (10%), dúvidas sobre como escolher um repositório adequado (8%), entre outras.

Apesar das muitas dúvidas sobre o processo de compartilhamento de conjuntos de dados, 80% dos pesquisadores estão perfeitamente ao par da existência de dados abertos e 80% deles estão dispostos a utilizar os dados de outros autores em sua pesquisa.

Como acelerar o compartilhamento de dados?

Considerando os resultados do terceiro ano desta pesquisa, os números de 2018 mostraram progressos marcantes referentes à intenção dos autores em disponibilizar seus conjuntos de dados e utilizar dados de outros pesquisadores em seu trabalho.

Agências de fomento e instituições têm unido esforços no sentido de prover apoio de base aos autores para tornar a tarefa de compartilhar dados menos desafiadora e complicada. Uma coisa é certa: estabelecer políticas e mandatos apenas não é suficiente. É preciso destinar recursos específicos para curadoria e preparo dos dados para depósito em repositórios ou publicação como artigos de dados, além de treinamento e orientação.

A questão central, segundo a pesquisa realizada, reside nos mecanismos de recompensa auferidos do compartilhamento de dados. A pergunta “Quais mecanismos de crédito você considera que encorajaria mais pesquisadores a compartilhar seus dados?” gerou mais de 600 respostas livres que requerem uma análise cuidadosa. No entanto, os temas mais frequentes incluem citação, coautoria e colaboração, e crédito na avaliação da pesquisa.

Da mesma forma, as dúvidas que ainda persistem quanto à propriedade dos dados e como organizá-los mostram que os pesquisadores necessitam de orientação antes de se sentir confiantes em disponibilizar seus dados de forma aberta.

Talvez quando perceberem que o trabalho de preparar os dados para compartilhamento e sua disponibilização como dados abertos irá finalmente facilitar seu trabalho – e de todos os outros pesquisadores – iremos observar uma maior adesão ao movimento de dados abertos.

Notas

1. MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information

2. SPINAK, E. Dados Abertos: informação líquida, democracia, inovação… os tempos estão mudando [online]. SciELO em Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/blog/2013/11/18/dados-abertos-informacao-liquida-democracia-inovacao-os-tempos-estao-mudando/

3. Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation

4. DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058

Referências

Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation

DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058

MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information

Recommended practices to promote scholarly data citation and tracking [online]. Clarivate Analytics. 2017 [viewed 13 June 2019]. Available from: https://clarivate.com/wp-content/uploads/2018/03/Crv_SAR_DataCitation_WhitePaper_A4_FA_web-1.pdf

SPINAK, E. Dados Abertos: informação líquida, democracia, inovação… os tempos estão mudando [online]. SciELO em Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/blog/2013/11/18/dados-abertos-informacao-liquida-democracia-inovacao-os-tempos-estao-mudando/

Sobre Lilian Nassi-Calò

Lilian Nassi-Calò é química pelo Instituto de Química da USP e doutora em Bioquímica pela mesma instituição, a seguir foi bolsista da Fundação Alexander von Humboldt em Wuerzburg, Alemanha. Após concluir seus estudos, foi docente e pesquisadora no IQ-USP. Trabalhou na iniciativa privada como química industrial e atualmente é Coordenadora de Comunicação Científica na BIREME/OPAS/OMS e colaboradora do SciELO.

 

Como citar este post [ISO 690/2010]:

NASSI-CALÒ, L. Promovendo e acelerando o compartilhamento de dados de pesquisa [online]. SciELO em Perspectiva, 2019 [viewed ]. Available from: https://blog.scielo.org/blog/2019/06/13/promovendo-e-acelerando-o-compartilhamento-de-dados-de-pesquisa/

 

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation