O workshop de 2019 sobre infraestruturas de dados cientométricos Abertos na Universidade de Leiden [Publicado originalmente no blog do CWTS em agosto/2019]

Por Grischa Fraumann e Ludo Waltman

Dia 1

Imagem: katemangostar.

O workshop teve início com uma introdução sobre a trajetória histórica dos dados cientométricos abertos por Ludo Waltman (CWTS, o Centro para Estudos de Ciência e Tecnologia da Universidade de Leiden). O projeto OpenCitations pode ser considerado como um ponto de partida, que foi seguido pela Iniciativa para Citações Abertas (Initiative for Open Citations – I4OC). Enquanto o OpenCitations provê uma infraestrutura técnica para dados de citação aberta, o I4OC é um grupo de lobby para promover a abertura de dados de citação. Em dezembro de 2017, um grupo de cientometricistas publicou uma carta sobre citações abertas1 para apoiar o I4OC. Em setembro de 2018, uma oficina sobre citações abertas (Workshop on Open Citations) foi realizada na Universidade de Bolonha. Uma das razões para criar o periódico Quantitative Science Studies (QSS) em janeiro de 2019 foi que a Elsevier, editora do Journal of Informetrics, antecessor do QSS, não estava disposta a disponibilizar abertamente os dados de citação. Em março de 2019, quase 50% dos dados de citação no Crossref ainda devem ser abertos. Além disso, alguns publishers não depositam nenhum dado de referência no Crossref. A abertura de dados de citação também beneficia os softwares cientométricos, como o VOSviewer, que fornece funcionalidade para consultar o Crossref para visualizações bibliométricas.

Fonte: SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. (2018). Abrir citações para abrir a ciência. Recuperado de Open citations to open science2.

Figura 1. Signatários da carta sobre citações abertas, situação de abril de 2018

Nees Jan van Eck (CWTS) e Ludo Waltman (CWTS)apresentaram seu trabalho sobre a comparação de fontes de dados bibliométricos. A base de dados Dimensions, criada em 2018 pela Digital Science, é baseada principalmente em dados do Crossref, mas também se beneficia de dados adicionais disponibilizados pelos publishers. O Web of Science (WoS) e o Scopus têm a vantagem de fornecer os tipos de documentos, enquanto o Crossref e a Dimensions não conseguem distinguir entre diferentes tipos de documentos publicados em periódicos científicos. Comparações entre as diferentes fontes de dados também revelaram diferenças nos links de citação. O Crossref tem menos links de citação do que o WoS e o Scopus por causa dos publishers que não disponibilizam os dados de citação abertamente. O Dimensions enriquece os dados do Crossref por meio de acordos com publishers e, portanto, fornecem mais links de citação do que o Crossref. Apenas um número limitado de resumos é indexado em Crossref. Mesmo os publishers de acesso aberto nem sempre disponibilizam resumos no Crossref. Outros elementos de metadados, como afiliações, também estão ausentes com frequência. Houve amplo apoio entre os participantes do workshop para a ideia de que os metadados das publicações científicas deveriam ser disponibilizados abertamente.

Jochen Gläser (Universidade Técnica de Berlin) apresentou o projeto COPSSH (Communication Patterns in the Social Sciences and Humanities, Padrões de Comunicação nas Ciências Sociais e Humanas) – um resumo em alemão está disponível em Kommunikationsmuster in den Geistes- und Sozialwissenschaften3 –, que investiga os padrões de comunicação nas Ciências Sociais e Humanas (CSH). O projeto faz parte da linha de financiamento de pesquisa quantitativa sobre o setor de ciência do Ministério Federal Alemão de Educação e Pesquisa (BMBF) e é realizado em colaboração com o CWTS. A maneira como os pesquisadores de CSH publicam pesquisas difere daqueles de Ciência, Tecnologia, Engenharia e Matemática (STEM, Science, Technology, Engineering and Mathematics). Além disso, as CSH não são bem representados nas bases de dados bibliográficas tradicionais e nas publicações CSH há uma maior proporção de citações negativas em comparação com publicações STEM. A principal questão de pesquisa a ser investigada no projeto é: O que podemos aprender das práticas de comunicação nas CSH superando o problema de cobertura e combinando a análise de citações com a análise de contexto de citações? O projeto criará manualmente uma base de dados de publicação quase completa, que inclui listas de publicações, bases de dados de citação ou bases de dados nacionais, incluindo literatura citante e citada do Google Acadêmico. A história da arte e as relações internacionais na Alemanha serão comparadas às da Holanda. Finalmente, o projeto inclui entrevistas com pesquisadores para validar os resultados. O COPSSH é um projeto desafiador. Por exemplo, para algumas publicações, pode não haver arquivos PDF disponíveis ou estes arquivos podem não ter uma estrutura clara (por exemplo, notas laterais em vez de notas de rodapé e notas de fim de página em determinados artigos da história da arte). O projeto está atualmente testando os captadores de citação e seus recursos de aprendizado de máquina. Os dados da pesquisa devem ser publicados como um conjunto de dados aberto, incluindo a análise do contexto da citação.

David Shotton (Universidade de Oxford) e Silvio Peroni (Universidade de Bolonha) são os diretores do OpenCitations. Eles apresentaram desenvolvimentos recentes sobre o OpenCitations. O Open Citation Identifier (OCI) é igual ao DOI para citações. O projeto FREYA financiado pela UE reconhece os OCIs como identificadores persistentes para citações, e os identificadores são usados para citações em artigos da Wikipédia com dados do Wikidata, e para citações abertas DOI-para-DOI definidas por referências abertas no Crossref. Isso tornou possível publicar o COCI, o OpenCitations Index of Crossref, que abre citações DOI-para-DOI. O Índice COCI emprega chamadas ao vivo para a API do Crossref (Crossref Application Programming Interface) para extrair metadados de publicação não armazenados no Índice. WOCI, o OpenCitations Index of Wikidata Citations, será publicado em breve. Além disso, foi lançado o CROCI, o Crowdsourced Open Citations Index. A comunidade pode enviar dados de citação para o CROCI, mas o CROCI ainda precisa desenvolver conteúdo significativo após a chamada de dados de crowdsourcing para o CROCI, feita em fevereiro de 2019. Todos esses três índices são acessíveis por meio de uma API unificada do OpenCitations.

No futuro, o OpenCitations espera colher as referências extraídas do corpus do arXiv como parte do projeto EXCITE que é implementado no GESIS (Instituto Leibniz de Ciências Sociais) e no WeST (Instituto de Ciências e Tecnologias da Web). Além disso, está planejada uma iniciativa colaborativa com a OpenAIRE. Durante a discussão do workshop, foi mencionado que é quase impossível para uma organização hospedar todas as informações, e que os dados precisam ser enriquecidos de outras bases de dados, por exemplo, por meio de chamadas de API ao vivo ou por federação de base de dados.

Após a discussão dos desenvolvimentos relativos à OpenCitations, Silvio Peroni apresentou o Open Biomedical Citations in Context Corpus financiado pelo Wellcome Trust como parte do programa Open Research Fund, que teve início em julho de 2019. O projeto é sobre a colheita do contexto textual individual de indicadores de referência em texto no texto completo das publicações na literatura biomédica. Os dados serão derivados de um subconjunto de acesso aberto do Europe PMC (PubMed Central) usando a API EPMC para coletar documentos XML (Extensible Markup Language). O Europe PMC é uma base de dados abrangente de ciências da vida e pesquisa biomédica. Finalmente, o projeto também fornecerá uma descrição do fluxo de trabalho de ingresso.

Gianmarco Spinaci (Universidade de Bolonha) apresentou um projeto de pesquisa em andamento que visa analisar publicações de Artes e Humanidades (A&H) em grandes bases de dados bibliográficas, como o WoS, o Scopus, o Crossref, o Dimensions e o Microsoft Academic Graph. Um dos objetivos é identificar, contar e agrupar publicações de A&H nas diferentes bases de dados. Além disso, todos os campos de estudos A&H foram recuperados do Microsoft Academic Graph. O clustering será visualizado com o VOSviewer. Um resultado preliminar é a quantidade relativamente pequena de livros e séries de livros no WoS. Potenciais casos de uso adicional ainda estão sendo explorados.

Giovanni Colavizza (Universidade de Amsterdam e CWTS) apresentou o Scholar Index, que inclui um índice de citação para as Artes e Humanidades a partir das Artes e Humanidades. Recuperação de informação em A&H é um desafio. O índice acadêmico deve ser integrado no corpus OpenCitations e também na Europeana, que “provê acesso a mais de 50 milhões de itens digitalizados – livros, músicas, obras de arte e muito mais”. Atualmente, um protótipo está sendo desenvolvido para melhorar a recuperação da informação, conectando vários sistemas. O protótipo é focado na História de Veneza e também é possível adicionar ferramentas. Os coordenadores do Scholar Index estão atualmente procurando parceiros piloto em toda a Europa (por exemplo, bibliotecas e arquivos).

Thomas Franssen (CWTS) apresentou uma visão geral do projeto RISIS2 financiado pela Horizon 2020, que é o seguimento do recém-concluído projeto de RISIS (Research Infrastructure for Science and Innovation Policy Studies). Comparado ao primeiro projeto do RISIS, a interface (por exemplo, instalação central) deverá ser desenvolvido mais adiante. Várias infraestruturas de investigação estão disponíveis para os pesquisadores como parte do projeto RISIS2 e os parceiros do consórcio incluem vários institutos de pesquisa em toda a Europa.

Dia 2

O Segundo dia teve início com a apresentação por Rodrigo Costas (CWTS) sobre o uso de estatísticas de leitores de Mendeley para desenvolver um esquema de classificação aberta para o Crossref. O Crossref tem certas limitações que este projeto pretende resolver, como a falta de metadados sobre afiliações, reconhecimentos de financiamento e particularmente uma classificação homogênea para publicações de periódicos. Esta falta de metadados dificulta os esforços de pesquisa com base nos dados do Crossref, incluindo, por exemplo, o monitoramento da coleta disciplinar de citações abertas. Mendeley é um gerenciador de referências e uma rede social acadêmica da Elsevier que fornece acesso gratuito aos seus dados para fins de pesquisa (que podem ser consultados livremente usando a API do Mendeley. Para o estudo, foi feita uma classificação global gratuita do Crossref baseada em todos os DOIs disponíveis no Crossref. Esta classificação é baseada nas 28 áreas acadêmicas definidas por Mendeley, que classificam os usuários do Mendeley nestas áreas, quando criam seu perfil no Mendeley. A ideia principal do projeto é classificar as publicações da Crossref na(s) área (s) dos usuários do Mendeley que estão salvando-os em suas bibliotecas individuais. Por isso, é possível desenvolver um tipo de classificação “crowdsourced” das publicações do Crossref, independentemente de sua indexação em outras bases de dados (por exemplo, o Scopus ou o WoS). O estudo primeiro investigou classificações de periódicos, deixando classificações de publicações como próximo passo. O potencial do conjunto de dados Mendeley é fornecer uma classificação global gratuita para todas as publicações do Crossref. Durante a discussão do workshop, sugeriu-se explorar como alternativa o gerenciador de referência aberto Zotero, enquanto o Microsoft Academic Graph também poderia ser testado para desenvolver classificações abertas de publicações.

Grischa Fraumann (Centro Leibniz de Informação em Ciência e Tecnologia) apresentou um resumo sobre o projeto ROSI (Reference Implementation for Open Scientometric Indicators) que é realizado no Centro de Informação de Leibniz para Ciência e Tecnologia. O projeto visa desenvolver um protótipo que visualize indicadores cientométricos abertos, por exemplo, em um painel online. Este protótipo será testado com pesquisadores em entrevistas e workshops. O projeto ROSI também faz parte da linha de financiamento pesquisa quantitativa do setor de ciências do BMBF. A discussão do workshop enfocou o registo público das fontes de dados como parte do projeto e na sustentabilidade das infraestruturas de pesquisa.

Nees Jan van Eck, Ludo Waltman, David Shotton e Silvio Peronidiscutiram recentes desenvolvimentos em relação ao software VOSviewer e fontes de dados abertas que podem ser consultadas através de APIs. Historicamente, o VOSviewer suportava o WoS e o Scopus, que requerem assinatura. Fontes de dados mais recentes incluem Dimensions, Crossref, Wikidata e o OpenCitationsCorpus (OCC). Dimensions tem uma edição limitada que é de acesso livre. O Crossref está aberto, mas cerca de metade dos seus links de citação estão fechados. OCC é aberto, mas atualmente fornece apenas uma cobertura muito limitada da literatura científica. Crossref, OCC, Europe PMC, Wikidata e Semantic Scholar, uma fonte de dados criada pelo Allen Institute for Artificial Intelligence, podem ser consultados através de APIs. O suporte para essas APIs foi adicionado recentemente ao VOSviewer. Comparado aos downloads do WoS ou Scopus, trabalhar com APIs é mais conveniente. No entanto, as APIs das diferentes fontes de dados têm limitações, por exemplo, em sua velocidade e flexibilidade. No final, a discussão centrou-se na melhor maneira de o VOSviewer e outras ferramentas cientométricas suportarem as fontes de dados através de APIs. Foram desenvolvidas ideias para melhorar a interoperabilidade entre fontes de dados cientométricos e ferramentas cientométricas.

Figura 2. Exemplo de uma visualização criada pelo VOSviewer para a consulta “zika” por meio da API do Europe PMC.

Apresentações públicas e perspectivas

O workshop concluiu com breves apresentações das iniciativas e projetos acima mencionados. Estas apresentações foram abertas ao público e um número significativo de pesquisadores do CWTS e de outros institutos de pesquisa compareceram. As discussões levaram a um feedback útil para desenvolver ainda mais os projetos e iniciativas.

O workshop forneceu um resumo sobre desenvolvimentos recentes em infraestruturas de dados cientométricos abertos de algumas iniciativas e projetos selecionados. Será interessante ver os próximos passos nestes importantes desenvolvimentos. Para os interessados em saber mais sobre estes desenvolvimentos, será organizado um workshop intitulado Open Citations: Opportunities and Ongoing Developments, na Conferência ISSI 2019 na Universidade Sapienza, em Roma, em setembro de 2019.

Notas

1. Open citations: A letter from the scientometric community to scholarly publishers [online]. International Society for Scientomatrics and Informetrics. 2017 [viewed 22 August 2019]. Available from: http://www.issi-society.org/open-citations-letter/

2. SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. Open citations to open science [online]. International Society for Scientomatrics and Informetrics blog, 2018 [viewed 22 August 2019]. Available from: http://issi-society.org/blog/posts/2018/april/open-citations-to-open-science/

3. Kommunikationsmuster in den Geistes- und Sozialwissenschaften [online]. Bundesministerium für Bildung und Forschung [viewed 22 August 2019]. Available from: https://www.wihoforschung.de/de/kigs-2300.php

Referências

FRAUMANN, G. and LILIENTHAL, S. ROSI (Reference Implementation for Open Scientometric Indicators). In: ROSI (Reference Implementation for Open Scientometric Indicators), Leiden, 2019 [viewed 22 August 2019]. Available from: http://doi.org/10.5281/zenodo.2581132

Kommunikationsmuster in den Geistes- und Sozialwissenschaften [online]. Bundesministerium für Bildung und Forschung [viewed 22 August 2019]. Available from: https://www.wihoforschung.de/de/kigs-2300.php

Open citations: A letter from the scientometric community to scholarly publishers [online]. International Society for Scientomatrics and Informetrics. 2017 [viewed 22 August 2019]. Available from: http://www.issi-society.org/open-citations-letter/

SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. Open citations to open science [online]. International Society for Scientomatrics and Informetrics blog, 2018 [viewed 22 August 2019]. Available from: http://issi-society.org/blog/posts/2018/april/open-citations-to-open-science/

TULLNEY, M. Successful journal flipping: TIB supports new journal Quantitative Science Studies [online]. TIB Blog, 2019 [viewed 22 August 2019]. Available from: https://blogs.tib.eu/wp/tib/2019/01/14/support-journal-flipping-qss/

Links externos

Crossref <https://www.crossref.org/>

Dimensions database <https://app.dimensions.ai/discover/publication>

Europe PMC <https://europepmc.org/>

Europeana <https://www.europeana.eu/portal/>

EXCITE – Extraction of Citations from PDF Documents <https://www.gesis.org/en/research/external-funding-projects/overview-external-funding-projects/excite/>

FREYA project <https://www.project-freya.eu/en>

Giovanni Colavizza <https://www.cwts.nl/people/giovannicolavizza>

Grischa Fraumann <https://www.cwts.nl/people/grischa-fraumann>

History of Venice <https://scholarindex.monsieurcube.com/history/venice-scholar/>

Initiative for Open Citations (I4OC) <https://i4oc.org/>

ISSI Conference 2019 <https://www.issi2019.org/>

Mendeley <https://www.mendeley.com/>

Mendeley API <https://dev.mendeley.com/>

Nees Jan van Eck, PhD <https://www.cwts.nl/people/neesjanvaneck>

Open Biomedical Citations in Context Corpus <https://wellcome.ac.uk/funding/people-and-projects/grants-awarded/open-biomedical-citations-context-corpus>

Open Citations: Opportunities and Ongoing Developments Workshop <https://docs.wixstatic.com/ugd/aa54ce_e56dd3f90ef74597930bb2372b7d1949.pdf>

OpenAIRE <https://www.openaire.eu/>

OpenCitations <http://opencitations.net/>

Prof. Dr. Ludo Waltman <https://www.cwts.nl/people/ludowaltman>

Quantitative research on the science sector <https://www.wihoforschung.de/en/quantitative-research-on-the-science-sector-1573.php>

Registry of Scientometric Data Sources <https://labs.tib.eu/rosi/index.php>

RISIS2 project <https://www.risis2.eu/>

Rodrigo Costas, PhD <https://www.cwts.nl/people/rodrigocostas>

Scholar Index <https://scholarindex.eu/>

Semantic Scholar <https://www.semanticscholar.org/>

Thomas Franssen <https://www.cwts.nl/people/thomasfranssen>

VOSviewer <https://www.vosviewer.com/>

Wikidata <https://www.wikidata.org/>

Workshop on Open Citations <https://workshop-oc.github.io/>

Zotero <https://www.zotero.org/>

Sobre Grischa Fraumann

Assistente de Pesquisa do Centro Leibniz de Informação para Ciência e Tecnologia e Pesquisador Visitante do CWTS. A pesquisa de Grischa se concentra em altmetria, pesquisa em educação superior e política de pesquisa.

Sobre Ludo Waltman

Professor de Estudos Quantitativos da Ciência e vice-diretor do CWTS. Ludo lidera o grupo de pesquisa de Estudos Quantitativos da Ciência (QSS). É coordenador do Ranking Leiden do CWTS e codesenvolvedor do software VOSviewer para visualização bibliométrica.

Artigo original em inglês

https://www.cwts.nl/blog?article=n-r2x274&title=the-2019-workshop-on-open-scientometric-data-infrastructures-at-leiden-university

Traduzido do original em inglês por Lilian Nassi-Calò.

 

Como citar este post [ISO 690/2010]:

O workshop de 2019 sobre infraestruturas de dados cientométricos Abertos na Universidade de Leiden [Publicado originalmente no blog do CWTS em agosto/2019] [online]. SciELO em Perspectiva, 2019 [viewed ]. Available from: https://blog.scielo.org/blog/2019/08/22/o-workshop-de-2019-sobre-infraestruturas-de-dados-cientometricos-abertos/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation