Por Lilian Nassi-Calò
La disponibilidad de datos de investigación en formato legible por máquina viene siendo ampliamente discutida – y adoptada – por instituciones de investigación, gobiernos y agencias de fomento desde 2013, tras la publicación del informe McKinsey, Open data: Unlocking innovation and performance con liquid information1, que se ha reportado en este blog2. Uno de los pilares de la ciencia abierta, la apertura de los datos de investigación es una demanda de la sociedad, de los gobiernos y financiadores. Esta práctica trae innumerables ventajas al hacer la ciencia más transparente, reproducible, confiable y verificable, acelera los descubrimientos y ahorra recursos, ya que los datos recopilados pueden ser reutilizados – y debidamente citados – por otros.
Como todo nuevo paradigma, la disponibilidad de datos de investigación de forma abierta, como prevé el informe McKinsey, causa preocupación, y hasta cierto temor por parte de los investigadores. Publicar datos de búsqueda en el formato requerido puede ser desafiante, consume tiempo, recursos humanos y financieros, y tal vez no sea una de las prioridades más apremiantes de los investigadores. Sin embargo, cada vez más instituciones, agencias de fomento, gobiernos e incluso editores vienen demandando publicar conjuntos de datos de búsqueda (datasets) en formato de artículos de datos (data papers) o depositados en repositorios de datos abiertos casi simultáneamente a la publicación de los artículos en revistas.
Los conjuntos de datos, al ser publicados en revistas o depositados en repositorios, reciben un identificador digital (Digital Object Identifier, DOI) y pueden ser debidamente citados. Una forma de estimular a los autores a compartir sus datos sería conferirles el debido crédito en la forma de citación con motivo de la reutilización de sus datos, como ocurre en las publicaciones tradicionales. Considerando esta importante fuente de citas, el Web of Science (WoS) creó el Data Citation Index. Así, los autores pueden contabilizar las citaciones provenientes de la publicación de sus datos de investigación, además de sus artículos. En esta misma dirección, la editorial Elsevier implementó en 2014 una serie de principios para citar datos para las revistas que publica3 y participó en el lanzamiento de la FORCE11 Joint Declaration of Data Citation Principles, una serie de ocho principios para citación de datos de investigación.
A pesar de la existencia de estas directrices para la citación de conjuntos de datos, de acuerdo con el informe The State of Open Data 20184 producido por Digital Science y Figshare en colaboración con la Springer Nature obtuvo 58% de respuestas negativas para la pregunta “¿Usted cree que los investigadores reciben crédito suficiente por compartir sus datos?”. Sólo el 9% respondió afirmativamente.
El informe The State of Open Data 20184 entrevistó a investigadores de todos los continentes sobre las motivaciones, hábitos, conocimiento y prácticas de intercambio de datos. Los resultados, comparados a los informes de 2016 y 2017, traen información relevante sobre la evolución de los datos abiertos de investigación en todo el mundo además de cómo fortalecer esta práctica en la academia, para que alcance los resultados esperados.
Alentar el compartir no es suficiente
El número de conjuntos de datos disponibles en los últimos diez años viene creciendo de forma exponencial, alcanzando la marca de cerca de 10.000 en 2018, motivados principalmente por mandatos institucionales o de agencias de fomento. Sin embargo, a pesar del número creciente, la encuesta encontró que el 60% de los encuestados nunca había oído hablar de los principios FAIR que rigen la disponibilidad de los datos de búsqueda y significan Findable, Accessible, Interoperable and Reusable (hallable, accesible, interoperable y reutilizable). Estos resultados, por lo tanto, indican que cumplir los requisitos de los financiadores es una cosa y realmente hacer que los datos reutilizables es otra bien diferente. Sin embargo, más del 60% de los investigadores respondieron que apoyaría mandatos nacionales en sus países para que los datos de investigación estuvieran disponibles en acceso abierto; el 25% se declaró neutral a este respecto y sólo el 10% se opondría.
En el momento de la recolección de datos para el informe, menos del 30% de los encuestados estaban sujetos a mandatos institucionales, gubernamentales o de agencias de fomento para hacer sus conjuntos de datos disponibles, el 40% afirmó no estar sujetos a ningún mandato y el resto no sabía informar.
Propiedad de los datos
Un aspecto que no está claro a los autores se refiere a la propiedad de los datos. Los entrevistados de la investigación creen que la propiedad de los datos depende de que la investigación haya sido publicada o no.
Antes de la publicación, el 50% de los encuestados creen que los datos son de propiedad de los financiadores de la investigación, el 28% cree que pertenece al editor y menos del 10% atribuyen la propiedad a los autores del estudio. Después de la publicación, el porcentaje que atribuía propiedad a los financiadores cae al 25%, la institución es la opción del 17%, el editor del 22% y el porcentaje asignado a los autores permanece inalterado. Alrededor del 30% no supieron opinar.
La posibilidad de pérdida de datos de investigación sería un fuerte incentivo para almacenar conjuntos de datos en repositorios de datos abiertos o para publicar artículos de datos. Aunque el 56% de los encuestados indicó que nunca perdieron datos de investigación, la pérdida de datos afectó al 30% de los investigadores escuchados por Digital Science. Casi la mitad de las pérdidas se debe a la falta de copia de seguridad de los discos duros de los equipos de los investigadores. Los datos almacenados en versiones anticuadas de software también son responsables de cerca del 10% de las pérdidas de datos.
Experiencias personales
Entre los motivos más frecuentemente señalados por los entrevistados para compartir datos están: mayor visibilidad e impacto de la investigación (22%), beneficio público (20%), transparencia y reutilización de la investigación (12%), solicitud de la revista/editor (10%), y recibir el debido crédito por compartir los datos de la investigación (8%). A pesar de estar situado en quinto lugar, la citación de los datos, en realidad motiva al 67% de los entrevistados, y sólo el 9% cree que los autores reciben suficiente crédito por compartir sus datos, mientras que el 56% considera que los autores no reciben el debido crédito.
Las principales preocupaciones en cuanto a la disponibilidad de los conjuntos de datos incluyen: mal uso de los datos (12%), dudas sobre derechos de autor y licencias (11%), no recibir suficiente crédito o reconocimiento (11%), no saber cómo organizar los datos de forma correcta (10%), los datos contienen información confidencial (10%), y dudas sobre cómo elegir un repositorio adecuado (8%), entre otras.
A pesar de las muchas dudas sobre el proceso de compartir conjuntos de datos, el 80% de los investigadores están perfectamente conscientes de la existencia de datos abiertos y 80% de ellos están dispuestos a utilizar los datos de otros autores en su investigación.
Cómo acelerar el uso compartido de datos?
Considerando los resultados del tercer año de esta investigación, las cifras de 2018 mostraron progresos marcados referentes a la intensión de los autores en disponibilizar sus conjuntos de datos y utilizar datos de otros investigadores en su trabajo.
Agencias de fomento e instituciones han unido esfuerzos para proporcionar apoyo de base a los autores para hacer la tarea de compartir datos menos desafiante y complicada. Una cosa es cierta: establecer políticas y mandatos sólo no es suficiente. Es necesario destinar recursos específicos para curaduría y preparación de los datos para depósito en repositorios o publicación como artículos de datos, además de entrenamiento y orientación.
La cuestión central, según la investigación realizada, reside en los mecanismos de recompensa obtenidos del intercambio de datos. La pregunta “¿Qué mecanismos de crédito usted considera que alentaría a más investigadores a compartir sus datos?” generó más de 600 respuestas libres que requieren un análisis cuidadoso. Sin embargo, los temas más frecuentes incluyen citación, coautoria y colaboración, y crédito en la evaluación de la investigación.
De la misma forma, las dudas que aún persisten en cuanto a la propiedad de los datos y cómo organizarlos demuestran que los investigadores necesitan orientación antes de sentirse confiados en disponibilizar sus datos de forma abierta.
Tal vez cuando perciban que el trabajo de preparar los datos para compartir y su puesta a disposición como datos abiertos finalmente facilitar su trabajo – y de todos los demás investigadores – observamos una mayor adhesión al movimiento de datos abiertos.
Notas
1. MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information
2. SPINAK, E. Datos Abiertos: información líquida, democracia, innovación… los tiempos se están cambiando [online]. SciELO en Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/es/2013/11/18/datos-abiertos-informacion-liquida-democracia-innovacion-los-tiempos-se-estan-cambiando/
3. Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation
4. DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058
Referências
Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation
DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058
MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information
Recommended practices to promote scholarly data citation and tracking [online]. Clarivate Analytics. 2017 [viewed 13 June 2019]. Available from: https://clarivate.com/wp-content/uploads/2018/03/Crv_SAR_DataCitation_WhitePaper_A4_FA_web-1.pdf
SPINAK, E. Datos Abiertos: información líquida, democracia, innovación… los tiempos se están cambiando [online]. SciELO en Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/es/2013/11/18/datos-abiertos-informacion-liquida-democracia-innovacion-los-tiempos-se-estan-cambiando/
Sobre Lilian Nassi-Calò
Lilian Nassi-Calò estudió química en el Instituto de Química de la USP, tiene un doctorado en Bioquímica por la misma institución y un pos doctorado como becaria de la Fundación Alexander von Humboldt en Wuerzburg, Alemania. Después de concluir sus estudios, fue docente e investigadora en el IQ-USP. Trabajó en la industria privada como química industrial y actualmente es Coordinadora de Comunicación Científica en BIREME/OPS/OMS y colaboradora de SciELO.
Traducido del original en portugués por Ernesto Spinak
Como citar este post [ISO 690/2010]:
Comentarios recientes