El taller de 2019 sobre infraestructuras de datos cienciométricos abiertos en la Universidad de Leiden [Publicado originalmente en el blog CWTS en agosto/2019]

Por Grischa Fraumann e Ludo Waltman

Día 1

Imagen: katemangostar.

El taller comenzó con una introducción sobre la trayectoria histórica de los datos cienciométricos abiertos por Ludo Waltman (CWTS, el Centro de Estudios de Ciencia y Tecnología de la Universidad de Leiden). El proyecto OpenCitations puede considerarse como un punto de partida, seguido de la Iniciativa para las citas abiertas (I4OC). Mientras que OpenCitations proporciona una infraestructura técnica para los datos de citas abiertas, I4OC es un grupo de presión para promover la apertura de los datos de citas. En diciembre de 2017, varios cientometristas publicaron una carta de citas abierta1 para apoyar a I4OC. En septiembre de 2018, se realizó un taller sobre citas abiertas en la Universidad de Bolonia. Una de las razones para establecer la revista Quantitative Science Studies (QSS) en enero de 2019 fue que Elsevier, el editor de Journal of Informetrics, el predecesor de QSS, no estaba dispuesto a hacer que los datos de citas estén disponibles de forma abierta. A partir de marzo de 2019, casi el 50% de los datos de citas en Crossref aún deben abrirse. Además, algunos editores no depositan ningún dato de referencia en Crossref. La apertura de datos de citas también beneficia al software cienciométrico, como VOSviewer, que proporciona la funcionalidad para consultar Crossref para visualizaciones bibliométricas.

Fonte: SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. (2018). Citas abiertas para abrir la ciencia. Recuperado de Open citations to open science2.

Figura 1. Firmantes de la carta de citas abiertas, a partir de abril de 2018

Nees Jan van Eck (CWTS) y Ludo Waltman (CWTS) presentaron su trabajo para comparar fuentes de datos bibliométricos. La base de datos de Dimensions, establecida en 2018 por Digital Science, se basa principalmente en datos de Crossref, pero también se beneficia de datos adicionales puestos a disposición por los editores. Web of Science (WoS) y Scopus tienen la ventaja de proporcionar tipos de documentos, mientras que Crossref y Dimensions no pueden distinguir entre diferentes tipos de documentos publicados en revistas científicas. Las comparaciones de las diferentes fuentes de datos también revelaron diferencias en los enlaces de citas. Crossref tiene menos enlaces de citas que WoS y Scopus debido a que los editores no hacen que los datos de citas estén disponibles abiertamente. Dimensions enriquece los datos de Crossref a través de acuerdos con editores y, por lo tanto, proporciona más enlaces de citas que Crossref. Solo un número limitado de resúmenes están indexados en Crossref. Incluso los editores de acceso abierto no siempre ponen resúmenes disponibles en Crossref. A menudo faltan otros elementos de metadatos, como las afiliaciones. Hubo un amplio apoyo entre los participantes del taller para la idea de que los metadatos de las publicaciones científicas deberían estar disponibles abiertamente.

Jochen Gläser (Universidad Técnica de Berlín) presentó el proyecto COPSSH (Communication Patterns in the Social Sciences and Humanities, Patrones de comunicación en ciencias sociales y humanidades) – un resumen en alemán está disponible en Kommunikationsmuster in den Geistes- und Sozialwissenschaften3 –, que investiga los patrones de comunicación en Ciencias Sociales y Humanidades (SSH). El proyecto forma parte de la línea de financiación de investigación cuantitativa sobre el sector científico del Ministerio Federal de Educación e Investigación (BMBF) de Alemania y se lleva a cabo en colaboración con CWTS. La forma en que los investigadores de SSH publican investigaciones difiere de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM, Science, Technology, Engineering and Mathematics,). Además, los SSH no están bien representados en las bases de datos bibliográficas tradicionales, y dentro de las publicaciones SSH hay una mayor proporción de citas negativas en comparación con las publicaciones STEM. La principal pregunta de investigación que se investigará en el proyecto es: ¿Qué podemos aprender de las prácticas de comunicación en SSH al superar el problema de cobertura y combinar el análisis de citas con el análisis de contexto de citas? El proyecto creará manualmente una base de datos de publicaciones casi completa que incluye listas de publicaciones, bases de datos de citas o bases de datos nacionales, incluyendo citas y literatura citada de Google Académico. La historia del arte y las relaciones internacionales en Alemania se compararán con los Países Bajos. Finalmente, el proyecto incluye entrevistas con investigadores para validar los hallazgos. COPSSH es un proyecto desafiante. Por ejemplo, para algunas publicaciones, puede que no haya archivos PDF disponibles o que estos archivos no tengan una estructura clara (por ejemplo, notas al margen en lugar de notas al pie y notas al final en ciertos artículos de la historia del arte). El proyecto está probando actualmente los captadores de citas y sus capacidades de aprendizaje automático. Los datos de la investigación se publicarán como un conjunto de datos abierto que incluye análisis de contexto de citas.

David Shotton (Universidad de Oxford) y Silvio Peroni (Universidad de Bolonia) son los directores de OpenCitations. Presentaron desarrollos recientes con respecto a OpenCitations. Open Citation Identifier (OCI) es igual a DOI para las citas. El proyecto FREYA, financiado con fondos comunitarios, reconoce las OCI como identificadores persistentes para citas, y los identificadores se usan para citas en artículos de Wikipedia con datos de Wikidata, y para citas abiertas de DOI a DOI definidas por referencias abiertas en Crossref. Esto ha permitido publicar el COCI, OpenCitations Index of Crossref, que abre citas “DOI-to-DOI“. El índice COCI emplea llamadas en vivo a la API del Crossref para extraer metadatos de publicación no almacenados en el índice. WOCI, el OpenCitations Index of Wikidata Citations, se publicará próximamente. Además, se ha publicado CROCI, Crowdsourced Open Citations Index. La comunidad puede enviar datos de citas a CROCI, pero CROCI aún no ha desarrollado contenido significativo después de la solicitud de datos de crowdsourcing a CROCI realizada en febrero de 2019. Se puede acceder a estos tres índices a través de una API unificada de OpenCitations.

En el futuro, OpenCitations espera obtener referencias extraídas del corpus arXiv como parte del proyecto EXCITE que se lleva a cabo en GESIS (Instituto Leibniz de Ciencias Sociales) y en WeST (Instituto de Ciencia y Tecnologías Web). Además, se planea una iniciativa de colaboración con OpenAIRE. Durante la discusión del taller, se mencionó que es casi imposible que una organización aloje toda la información, y que los datos deben enriquecerse desde otras bases de datos, por ejemplo a través de llamadas API en vivo o por federación de bases de datos.

Después de la discusión de los desarrollos relacionados con OpenCitations, Silvio Peroni presentó las Open Biomedical Citations in Context Corpus financiadas por Wellcome Trust como parte del programa Open Research Fund, que comenzó en julio de 2019. El proyecto se trata de cosechar el contexto textual de cada puntero individual de referencia en el texto en el texto completo de publicaciones en la literatura biomédica. Los datos se derivarán de un subconjunto de acceso abierto de Europe PMC (PubMed Central) mediante el uso de la API EPMC para recopilar documentos XML (Extensible Markup Language). Europe PMC es una base de datos integral de ciencias biológicas e investigación biomédica. Finalmente, el proyecto también proporcionará una descripción del flujo de trabajo de ingestión.

Gianmarco Spinaci (Universidad de Bolonia) presentó un proyecto de investigación en curso que tiene como objetivo analizar las publicaciones de Artes y Humanidades (A&H) en las principales bases de datos bibliográficas, como WoS, Scopus, Crossref, Dimensions y Microsoft Academic Graph. Uno de los objetivos es identificar, contar y agrupar las publicaciones de A&H en las diferentes bases de datos. Además, todos los campos de estudios de A&H se recuperaron de Microsoft Academic Graph. La agrupación se visualizará con VOSviewer. Un resultado preliminar es la cantidad relativamente pequeña de libros y series de libros dentro de WoS. Los posibles casos de uso adicionales aún se están explorando.

Giovanni Colavizza (Universidad de Ámsterdam y CWTS) presentó el Scholar Index, que incluye un índice de citas para las Artes y Humanidades tomado de las Artes y Humanidades. La recuperación de información en A&H es un desafío. Scholar Index se integrará en el corpus de OpenCitations, así como en Europeana, que “proporciona acceso a más de 50 millones de artículos digitalizados: libros, música, obras de arte y más”. Actualmente, se está desarrollando un prototipo para mejorar la recuperación de información conectando varios sistemas. El prototipo se centra en la historia de Venecia, y también es posible agregar herramientas. Los coordinadores de Scholar Index están buscando socios piloto en toda Europa (por ejemplo, bibliotecas y archivos).

Thomas Franssen (CWTS) presentó una descripción general del proyecto RISIS2 financiado por Horizon 2020, que es el seguimiento del proyecto RISIS (Research Infrastructure for Science and Innovation Policy Studies) recientemente concluido. En comparación con el primer proyecto RISIS, la interfaz (por ejemplo, instalación central) se desarrollará más. Varias infraestructuras de investigación están disponibles para los investigadores como parte del proyecto RISIS2, y los socios del consorcio incluyen varios institutos de investigación de toda Europa.

Día 2

El segundo día comenzó con una presentación de Rodrigo Costas (CWTS) sobre el uso de las estadísticas de lecturas de Mendeley para desarrollar un esquema de clasificación abierta para Crossref. Crossref tiene ciertas limitaciones que este proyecto tiene como objetivo abordar, como la falta de metadatos sobre afiliaciones, reconocimientos de financiación y particularmente una clasificación homogénea para publicaciones en revistas. Esta falta de metadatos dificulta los esfuerzos de investigación basados en datos de Crossref, que incluyen, por ejemplo, el monitoreo de la captación disciplinaria de citas abiertas. Mendeley es un administrador de referencias y una red social académica de Elsevier que proporciona acceso gratuito a sus datos con fines de investigación (que se pueden consultar libremente utilizando la API de Mendeley. Para el estudio, una clasificación global gratuita de Crossref basada en todos los DOI disponibles en Crossref se llevó a cabo. Esta clasificación se basa en los 28 campos académicos definidos por Mendeley. Los usuarios de Mendeley se clasifican en estas áreas temáticas cuando crean su perfil en Mendeley. La idea principal del proyecto es clasificar las publicaciones Crossref en el/los campo(s) de los usuarios de Mendeley que los están guardando en sus bibliotecas individuales. Por lo tanto, es posible desarrollar una especie de clasificación “crowdsourced” de las publicaciones Crossref, independientemente de su indexación en otras bases de datos (por ejemplo, Scopus o WoS). El estudio primero investigó clasificaciones de revistas, dejando las clasificaciones de publicaciones como el siguiente paso. El potencial del conjunto de datos de Mendeley es proporcionar una clasificación global gratuita para todas las publicaciones de Crossref. Durante la discusión del taller, se sugirió explorar el administrador de referencia abierto Zotero como una alternativa, mientras que Microsoft Academic Graph también podría probarse para desarrollar clasificaciones abiertas de publicaciones.

Grischa Fraumann (Centro de Información de Leibniz para Ciencia y Tecnología) proporcionó un resumen sobre el proyecto ROSI (Reference Implementation for Open Scientometric Indicators) que se lleva a cabo en el Centro de información de Leibniz para ciencia y tecnología. El proyecto tiene como objetivo desarrollar un prototipo que visualice indicadores cienciométricos abiertos, por ejemplo, en un tablero en línea. Este prototipo será probado con investigadores en entrevistas y talleres. El proyecto ROSI también forma parte de la línea de financiación de la investigación cuantitativa sobre el sector científico del BMBF. La discusión del taller se centró en el registro público de fuentes de datos como parte del proyecto y en la sostenibilidad de las infraestructuras de investigación.

Nees Jan van Eck, Ludo Waltman David Shotton y Silvio Peroni discutieron los desarrollos recientes con respecto al software VOSviewer y las fuentes de datos abiertos que pueden consultarse a través de API. Históricamente, VOSviewer era compatible con WoS y Scopus, que requieren suscripción. Las fuentes de datos más recientes incluyen Dimensions, Crossref, Wikidata y OpenCitations Corpus (OCC). Dimensiones tiene una edición limitada de libre acceso. Crossref está abierto pero aproximadamente la mitad de sus enlaces de citas están cerrados. OCC está abierto, pero actualmente solo ofrece una cobertura muy limitada de la literatura científica. Crossref, OCC, Europe PMC, Wikidata y Semantic Scholar, una fuente de datos creada por el Allen Institute for Artificial Intelligence, se pueden consultar a través de API. El soporte para estas API se agregó recientemente a VOSviewer. En comparación con las descargas de WoS o Scopus, trabajar con API es más conveniente. Sin embargo, las API de las diferentes fuentes de datos tienen limitaciones, por ejemplo, en su velocidad y flexibilidad. Al final, la discusión se centró en la mejor manera para que VOSviewer y otras herramientas cienciométricas admitan fuentes de datos a través de API. Se desarrollaron ideas para mejorar la interoperabilidad entre fuentes de datos cienciométricos y herramientas cienciométricas.

Figura 2. Ejemplo de una visualización creada por VOSviewer para la consulta “zika” a través de las presentaciones y perspectivas públicas de la API de Europe PMC.

El taller concluyó con breves presentaciones de las iniciativas y proyectos mencionados anteriormente. Estas presentaciones fueron abiertas al público y asistieron un número significativo de investigadores de CWTS y otros institutos de investigación. Las discusiones generaron comentarios útiles para desarrollar aún más los proyectos e iniciativas.

El taller proporcionó un resumen de los desarrollos recientes en infraestructuras de datos cienciométricos abiertos de algunas iniciativas y proyectos seleccionados. Será interesante ver los próximos pasos en estos importantes desarrollos. Para aquellos interesados en aprender más sobre estos desarrollos, en la Conferencia ISSI 2019 en la Universidad Sapienza de Roma en septiembre de 2019, se organizará un taller titulado Open Citations: Opportunities and Ongoing Developments.

Notas

1. Open citations: A letter from the scientometric community to scholarly publishers [online]. International Society for Scientomatrics and Informetrics. 2017 [viewed 22 August 2019]. Available from: http://www.issi-society.org/open-citations-letter/

2. SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. Open citations to open science [online]. International Society for Scientomatrics and Informetrics blog, 2018 [viewed 22 August 2019]. Available from: http://issi-society.org/blog/posts/2018/april/open-citations-to-open-science/

3. Kommunikationsmuster in den Geistes- und Sozialwissenschaften [online]. Bundesministerium für Bildung und Forschung [viewed 22 August 2019]. Available from: https://www.wihoforschung.de/de/kigs-2300.php

Referencias

FRAUMANN, G. and LILIENTHAL, S. ROSI (Reference Implementation for Open Scientometric Indicators). In: ROSI (Reference Implementation for Open Scientometric Indicators), Leiden, 2019 [viewed 22 August 2019]. Available from: http://doi.org/10.5281/zenodo.2581132

Kommunikationsmuster in den Geistes- und Sozialwissenschaften [online]. Bundesministerium für Bildung und Forschung [viewed 22 August 2019]. Available from: https://www.wihoforschung.de/de/kigs-2300.php

Open citations: A letter from the scientometric community to scholarly publishers [online]. International Society for Scientomatrics and Informetrics. 2017 [viewed 22 August 2019]. Available from: http://www.issi-society.org/open-citations-letter/

SUGIMOTO, C.R., MURRAY, D.S. and LARIVIÈRE, V. Open citations to open science [online]. International Society for Scientomatrics and Informetrics blog, 2018 [viewed 22 August 2019]. Available from: http://issi-society.org/blog/posts/2018/april/open-citations-to-open-science/

TULLNEY, M. Successful journal flipping: TIB supports new journal Quantitative Science Studies [online]. TIB Blog, 2019 [viewed 22 August 2019]. Available from: https://blogs.tib.eu/wp/tib/2019/01/14/support-journal-flipping-qss/

Enlaces externos

Crossref <https://www.crossref.org/>

Dimensions database <https://app.dimensions.ai/discover/publication>

Europe PMC <https://europepmc.org/>

Europeana <https://www.europeana.eu/portal/>

EXCITE – Extraction of Citations from PDF Documents <https://www.gesis.org/en/research/external-funding-projects/overview-external-funding-projects/excite/>

FREYA project <https://www.project-freya.eu/en>

Giovanni Colavizza <https://www.cwts.nl/people/giovannicolavizza>

Grischa Fraumann <https://www.cwts.nl/people/grischa-fraumann>

History of Venice <https://scholarindex.monsieurcube.com/history/venice-scholar/>

Initiative for Open Citations (I4OC) <https://i4oc.org/>

ISSI Conference 2019 <https://www.issi2019.org/>

Mendeley <https://www.mendeley.com/>

Mendeley API <https://dev.mendeley.com/>

Nees Jan van Eck, PhD <https://www.cwts.nl/people/neesjanvaneck>

Open Biomedical Citations in Context Corpus <https://wellcome.ac.uk/funding/people-and-projects/grants-awarded/open-biomedical-citations-context-corpus>

Open Citations: Opportunities and Ongoing Developments Workshop <https://docs.wixstatic.com/ugd/aa54ce_e56dd3f90ef74597930bb2372b7d1949.pdf>

OpenAIRE <https://www.openaire.eu/>

OpenCitations <http://opencitations.net/>

Prof. Dr. Ludo Waltman <https://www.cwts.nl/people/ludowaltman>

Quantitative research on the science sector <https://www.wihoforschung.de/en/quantitative-research-on-the-science-sector-1573.php>

Registry of Scientometric Data Sources <https://labs.tib.eu/rosi/index.php>

RISIS2 project <https://www.risis2.eu/>

Rodrigo Costas, PhD <https://www.cwts.nl/people/rodrigocostas>

Scholar Index <https://scholarindex.eu/>

Semantic Scholar <https://www.semanticscholar.org/>

Thomas Franssen <https://www.cwts.nl/people/thomasfranssen>

VOSviewer <https://www.vosviewer.com/>

Wikidata <https://www.wikidata.org/>

Workshop on Open Citations <https://workshop-oc.github.io/>

Zotero <https://www.zotero.org/>

Sobre Grischa Fraumann

Asistente de Investigación en el Centro de Información de Leibniz para Ciencia y Tecnología e Investigador visitante en CWTS. La investigación de Grischa se centra en altmetrics, investigación de educación superior y política de investigación.

Sobre Ludo Waltman

Profesor de Estudios de Ciencias Cuantitativas y subdirector de CWTS. Ludo lidera el grupo de investigación de Estudios de Ciencia Cuantitativa (QSS). Es coordinador del CWTS Leiden Ranking y co-desarrollador del software VOSviewer para visualización bibliométrica.

Articulo original em inglés

https://www.cwts.nl/blog?article=n-r2x274&title=the-2019-workshop-on-open-scientometric-data-infrastructures-at-leiden-university

Traducido del original en inglés por Ernesto Spinak.

 

Como citar este post [ISO 690/2010]:

FRAUMANN, G. and WALTMAN, L. El taller de 2019 sobre infraestructuras de datos cienciométricos abiertos en la Universidad de Leiden [Publicado originalmente en el blog CWTS en agosto/2019] [online]. SciELO en Perspectiva, 2019 [viewed ]. Available from: https://blog.scielo.org/es/2019/08/22/el-taller-de-2019-sobre-infraestructuras-de-datos-cienciometricos-abiertos/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation