Movimento Open Data se consolida internacionalmente

Fonte da imagem: JulieBeck.

Como anunciado neste blog¹, o primeiro número do periódico em acesso aberto Scientific Data² acaba de ser publicado no dia 24 de junho pelo Nature Publishing Group, o grupo editorial responsável pela prestigiosa coleção Nature. A nova publicação é um espaço destinado à publicação formal de descrições de datasets, denominados Data Descriptors³.

O periódico é revisado por pares e publicado apenas na versão eletrônica. Os autores pagam uma taxa de publicação (a partir de US$ 900, de acordo com o tipo da licença e o país de afiliação), o que assegura sua imediata disponibilização em Acesso Aberto, com seu conteúdo sob licença Creative Commons Attribution (CC-BY) e cujos metadados dos datasets ficam disponíveis no formato legível por computadores (machine readable).

O lançamento do periódico é produto da crescente conscientização por parte da academia, instituições de pesquisa, agências de fomento, setor privado, governos e a sociedade civil da importância em disponibilizar dados experimentais provenientes da pesquisa científica e prover a interoperabilidade destes com os artigos a que deram origem. A capacidade da ciência em progredir a partir de estudos realizados, e de se autocorrigir continuamente encontra na disponibilização aberta dos dados um de seus pilares.

O mundo assistiu há poucas décadas uma mudança de paradigma na comunicação científica através da Internet e das tecnologias digitais com a publicação digital online de periódicos e de novas formas de disseminação, avaliação, e comunicação entre autores, editores, pareceristas e leitores. Uma consequência natural deste processo – e possivelmente um novo paradigma – prevê que os dados que foram utilizados para gerar um artigo científico devam ser disponibilizados em repositórios de acesso aberto, da mesma forma que um número sempre crescente de artigos se torna disponível em acesso aberto, decorrido o período de embargo imposto pelos publishers (via verde), quando já não o são de imediato, no caso da via dourada.

Segundo o editorial do primeiro fascículo (2014) do Scientific Data, “a questão não é se os dados de pesquisa devem ser compartilhados, mas como tornar o compartilhamento efetivo dos dados uma parte comum, e digna de reconhecimento da cultura de pesquisa” (tradução livre). Com o novo periódico, abre-se um espaço aos pesquisadores que descrevam formalmente um conjunto de dados originais (datasets) e as técnicas utilizadas para sua obtenção, e referenciar aos leitores artigos que já tenham incorporado estes dados. Também permite dar o devido crédito a pesquisadores responsáveis pela produção de dados que não se qualificam como autores em uma publicação tradicional.

Com esta nova mudança de paradigma – o compartilhamento de datasets, que são devidamente arbitrados e citáveis–espera-se que a comunidade científica responda de forma a reconhecer e dar crédito aos autores destes dados, da mesma forma como hoje ocorre com a publicação em periódicos submetidos à revisão por pares.

O compartilhamento de datasets encontra particular relevância em ciências que estudam as mudanças climáticas e na saúde, na opinião do editor-chefe da Nature, Philip Campbell. Campbell visitou o Brasil em março de 2014, quando participou da conferência “Science as an open enterprise: open data for open Science“⁴ realizada na sede da FAPESP, em São Paulo. Na ocasião, o editor da Nature salientou que é necessário considerar os custos e as implicações da gestão de grandes quantidades de dados, e citou o relatório⁵ da Royal Society que tem o título da conferência, publicado em 2012 – um compêndio redigido por especialistas do Reino Unido que analisa o impacto das novas tecnologias que dominam a comunicação científica e orienta como os pesquisadores devem se adaptar às mudanças que virão. O relatório faz uma série de recomendações sobre como armazenar, disponibilizar, compartilhar e interoperar os dados de pesquisa para melhor utilização e reaproveitamento.

Além do interesse nos datasets pelos motivos expostos, é necessário considerar que esta prática deverá aumentar a reprodutibilidade dos resultados de pesquisa. Quanto mais pesquisadores disponibilizarem abertamente seus dados em repositórios de acesso aberto, maior a probabilidade de que outros possam replicar seu trabalho, com benefícios evidentes para todos. Como já comentado neste blog⁶, a falta de reprodutibilidade em resultados de pesquisa é um tema que preocupa não apenas a comunidade científica, mas a iniciativa privada, os governos e a sociedade.

Um motivo particularmente importante pelo qual é importante adotar politicas de armazenamento e compartilhamento dos datasets está ligado à preservação digital dos mesmos perenemente. Uma pesquisa realizada por pesquisadores do Canadá⁷ avaliou a preservação de dados pelos autores dos artigos a que deram origem, publicados entre dois e 22 anos atrás. Os resultados indicam que a perda de dados é maior quanto mais antiga é a publicação. A probabilidade de que os dados de um artigo tenham conservados pelo autor cai de um fator de 17% ao ano. Soma-se a isso a dificuldade de localizar os autores, uma vez que publicações mais antigas não incluem endereços eletrônicos ou estão desatualizados. A probabilidade de contatar um autor cai na razão de 7% ao ano. Desta forma, estima-se que 80% dos dados não deverão estar disponíveis decorridos 20 anos de sua geração.

As agências de fomento constituem importantes parceiros que vêm apoiando – e financiando iniciativas como repositórios para armazenamento, recuperação e compartilhamento de dados. O National Science Foundation dos Estados Unidos, por exemplo, implementou uma política detalhada sobre o depósito dos dados de pesquisa financiada pela instituição⁸.

As agências federais de fomento do Canadá estão desenvolvendo uma iniciativa comum para melhorar o acesso à pesquisa financiada com recursos públicos – e os dados referentes às mesmas – de acordo com normas e padrões internacionais. Os termos do Tri-Council Open Access Policy estão disponíveis na página da Universidade de Waterloo⁹.

Os datasets, como foi dito acima, são conteúdos arbitrados, constituindo uma fonte de referencial pela qual os autores receberão créditos, tal como acontece com publicações tradicionais em periódicos. Ademais, serão providos de DOI (digital object identifier), podendo ser citados. Neste sentido, é esperado que as citações ao artigo aumentem por meio da disponibilização aberta de seus dados.

Com vistas a esta ampla fonte de citações, a maior e mais conceituada base internacional de periódicos científicos do mundo – a Web of Science (Thomson Reuters) criou o Data Citation Index, complementando os já existentes Science Citation Index, Social Science Citation Index e o SciELO Citation Index, que começou a operar no início de 2014.

O Data Citation Index¹⁰, inaugurado em início de 2013,permitirá a pesquisadores acessar em uma única base de dados inúmeros repositórios de datasets, expondo o impacto da pesquisa além dos conteúdos publicados. Por meio da padronização da prática de citação de dados, os pesquisadores terão mais oportunidades de ganhar reconhecimento por seu trabalho. Da mesma forma, instituições de fomento ganharão maior visibilidade e impacto da pesquisa que financiam permitindo, inclusive, que os resultados obtidos possam ser utilizados por outros pesquisadores.

Tendo em vista o avanço do movimento opendata, muitos publishers já avançaram na elaboração de políticas e metodologias para armazenamento e recuperação de dados. A seguir veremos alguns exemplos.

PLoS

Como uma das iniciativas pioneiras mais importantes na publicação em acesso aberto, a Public Library of Science – PloS publicou em dezembro de 2013 a Data Access for the Open Access Literature: PLOS’s Data Policy¹¹ (Política de Acesso à Dados para a Literatura em Acesso Aberto), em vigor desde 1° de março de 2014.

O editor-chefe do PLoS Biology, Theo Blom, explica que em consonância com a política de acesso aberto da coleção, os dados básicos devem ser disponibilizados livremente aos pesquisadores, para replicação, reanálise, interpretação, ou inclusão em meta-análises, de forma a facilitar a reprodutibilidade da pesquisa e o progresso científico. Os periódicos PLoS requisitaram a disponibilidade dos dados desde sua criação, porém apenas em 2013 foi elaborado um conjunto de metodologias e políticas para seu armazenamento.

De acordo com esta política, ao submeter um manuscrito online, os autores devem prover uma Declaração de Disponibilidade de Dados (Data Availability Statement) a ser publicado quando da aprovação do manuscrito. A recusa em compartilhar dados e metadados relacionados constitui motivo suficiente para rejeição do artigo. A PLoS recomenda o depósito dos dados em repositórios públicos como o Dryad Dygital Repository. Sequencia gênicas, estrutura de proteínas, ensaios clínicos e modelos biológicos podem ser depositados em bases específicas, como GenBank, Protein Data Bank, e Clinical Trials.gov, respectivamente, e ainda define como minimal dataset o conjunto de dados utilizados para chegar às conclusões que constam no manuscrito e que deve estar devidamente disponibilizado.

Taylor and Francis

Este publisher ainda não definiu políticas para compartilhamento de datasets originários dos artigos publicados em seus periódicos (alguns de acesso aberto via dourada, outros híbridos), porém especifica em seu portal¹² que autores que utilizam datasets de outros em seus artigos devem indicar como estes dados foram selecionados e informar a URL da fonte dos dados para permitir que seus resultados sejam passíveis de reprodução por outros autores.

Springer

A editora informa em seu portal¹³ que a submissão de um manuscrito a um periódico de acesso aberto da coleção (Springer Open) implica que os materiais reprodutíveis descritos no manuscrito, incluindo dados básicos relevantes, devem ser disponibilizados para qualquer pesquisador que os queira utiliza-los com finalidades não comerciais. O publisher não dispõe de um repositório ou de políticas específicas para este procedimento, porém informa que repositórios com esta finalidade estão amplamente disponíveis, tais como bancos de dados para sequências de ácidos nucleicos e proteínas, e repositórios de agencias de fomento. Uma lista completa destes está disponível¹⁴.

SciELO

O Programa SciELO vem acompanhando de perto a tendência mundial referente ao compartilhamento de dados de pesquisa. Na Conferência SciELO 15 Anos, a preservação e compartilhamento de dados foi tema de palestra proferida por Todd Vision¹⁵, biólogo e pesquisador da University of North Carolina at Chapel Hill e co-fundador da Dryad Digital Repository, iniciativa que se ocupa da preservação e disponibilização em acesso aberto a datasets provenientes de literatura científica e médica, em parceria com periódicos, sociedades científicas e publishers.

O SciELO pretende, à partir de 2015, dar início à política de demandar dos autores que publicam nos periódicos da coleção a disponibilização dos dados de pesquisa em repositórios. O Programa está colaborando com a iniciativa DataFAIRport – Find, Access, Interoperate & Re-use. A iniciativa FAIRport, fundada em janeiro de 2014, tem por objetivo valorizar os dados de pesquisa que está sendo desenvolvida por uma rede de especialista e instituições.

Assim, um dos mais importantes programas de publicação de periódicos em acesso aberto do hemisfério sul – e do mundo – mais uma vez se destaca por adotar o estado da arte em políticas e metodologias em prol do acesso aberto sob todos os aspectos.

Notas

¹ Scientific Data: Nature Publishing Group avança a comunicação de dados científicos com nova publicação online em acesso aberto. SciELO em Perspectiva. [viewed 01 June 2014]. Available from: https://blog.scielo.org/blog/2014/02/04/scientific-data-nature-publishing-group-avanca-a-comunicacao-de-dados-cientificos-com-nova-publicacao-online-em-acesso-aberto/

² YU, Y., et al. Comprehensive RNA-Seq transcriptomic profiling across 11 organs, 4 ages, and 2 sexes of Fischer 344 rats. Scientific Data. 2014. Available from: http://www.nature.com/articles/sdata201413

³Data Descriptors – http://www.nature.com/sdata/

⁴ CAMPBELL, P. Conferencia Science as an Open Enterprise: open data for open Science. 2013. Available from: http://www.fapesp.br/eventos/scienceOpenEnterprise

⁵ Science as an open enterprise. The Royal Society Science Policy Centre report. 2012, n. 02. Available from: http://royalsociety.org/uploadedFiles/Royal_Society_Content/policy/projects/sape/2012-06-20-SAOE.pdf

⁶ Reprodutibilidade em resultados de pesquisa: a ponta do iceberg. SciELO em Perspectiva. [viewed 01 June 2014]. Available from: https://blog.scielo.org/blog/2014/02/27/reprodutibilidade-em-resultados-de-pesquisa-a-ponta-do-iceberg/

⁷ Vines, T. H., et al. The Availability of Research Data Declines Rapidly with Article Age. Curr. Biol. 2014, vol. 24, n. 1. Available from: http://www.cell.com/current-biology/abstract/S0960-9822%2813%2901400-0

⁸ Dissemination and Sharing of Research Results. NSF Data Sharing Policy. Available from: http://www.nsf.gov/bfa/dias/policy/dmp.jsp

⁹ Open data Guide. University of Waterloo. Available from: http://subjectguides.uwaterloo.ca/content.php?pid=333963&sid=3122909

¹⁰ Citation Index – http://wokinfo.com//products_tools/multidisciplinary/dci/

¹¹ Data Access for the Open Access Literature: PLOS’s Data Policy. Plos. Available from: http://www.plos.org/data-access-for-the-open-access-literature-ploss-data-policy/

¹² Datasets. Taylor & Francis Author Services. Available from: http://journalauthors.tandf.co.uk/preparation/writing.asp#link21

¹³ Availability of supporting data. Springer One. Available from: http://www.springeropen.com/about/supportingdata

¹⁴ DataCite. Repositórios para dados de pesquisa – http://www.datacite.org/repolist/

¹⁵ Conferencia SciELO 15 anos – http://www.scielo15.org/todd-vision/

Vídeo da apresentação (em inglês) – https://www.youtube.com/watch?v=-4xshxMqZsU

Referência

More bang for your byte. Editorial. Scientific Data. 2014. Available from: http://www.nature.com/articles/sdata201410

Links externos

Dryad Digital Repositort – http://datadryad.org/

BioModels database – http://clinicaltrials.gov/

GenBank – http://www.ncbi.nlm.nih.gov/Genbank/

Protein Data Bank – http://www.rcsb.org/pdb/

ClinicalTrials.gov – http://clinicaltrials.gov/

Data FAIRport initiative – http://www.datafairport.org/

DTL – http://www.dtls.nl/

ELIXIR – http://www.elixir-europe.org/

Force11 Data Citation Principles – https://www.force11.org/datacitation

Nature – Available from: http://www.nature.com/

Sobre Lilian Nassi-Calò

Lilian Nassi-Calò é química pelo Instituto de Química da USP e doutora em Bioquímica pela mesma instituição, a seguir foi bolsista da Fundação Alexander von Humboldt em Wuerzburg, Alemanha. Após concluir seus estudos, foi docente e pesquisadora no IQ-USP. Trabalhou na iniciativa privada como química industrial e atualmente é Coordenadora de Comunicação Científica na BIREME/OPAS/OMS e colaboradora do SciELO.

Lilian Nassi-Calò

See Full Bio

Posts relacionados:

Como citar este post [ISO 690/2010]:

NASSI-CALÒ, L. Movimento Open Data se consolida internacionalmente [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/blog/2014/07/14/movimento-open-data-se-consolida-internacionalmente/

2 Thoughts on “Movimento Open Data se consolida internacionalmente”

Leonardo Fontenelle on July 14, 2014 at 19:37 said:

Ao menos no contexto da medicina é impossível não destacar a iniciativa de dados abertos do periódico The BMJ: http://www.bmj.com/open-data

Reply↓
Pingback: Movimento Open Data se consolida internacionalmente | SciELO … | Governo Eletrônico

Movimento Open Data se consolida internacionalmente