Por Ernesto Spinak y Abel L. Packer
Scientific Data1 es una nueva forma de publicación periódica online en acceso abierto para describir los datasets de investigaciones valiosas. Así es como se presenta en la misma introducción a esta novedosa iniciativa del grupo Nature Publication Group (NPG), que estará efectiva a partir del mayo de este año 2014.
El objetivo del proyecto Scientific Data es promover la documentación, intercambio y reutilización de los datos que sustentan las investigaciones, en modo abierto, para acelerar el paso de los descubrimientos científicos. Para lograr este objetivo se introduce un nuevo tipo de metadato llamado Data Descriptor. Estos metadatos podrían dar cumplimiento a una aspiración que progresivamente ha venido siendo solicitada por los investigadores, las agencias de financiación, las sociedades académicas, las revistas, los publishers e indexadores, para que los datos científicos estén públicamente disponibles, citables, y reproducibles, y que proporcionen mecanismos de arbitraje que aseguren la calidad y el cumplimiento de las normas de la comunidad científica.
El Programa SciELO ha definido como una de sus líneas de acción la promoción e implantación de soluciones de organización, descripción, publicación e indexación de los datos de las investigaciones científicas publicadas en las revistas SciELO de modo de aumentar la visibilidad e impacto de las investigaciones y de los artículos asociados. La propuesta que la Dirección de SciELO viene trabajando es la creación del SciELO Data compatible con las soluciones internacionales de indexación y publicación de datos científicos e implantada con el mismo modelo de los otros componentes de SciELO, a saber, como una red de colecciones de datasets de las investigaciones publicadas por las revistas SciELO. Esta línea de acción fue uno de los temas abordados en la Conferencia SciELO 15 Años.
Una cuestión importante y consensuada en este movimiento es la necesidad de asegurar la interoperabilidad en los datos.
La Research Data Alliance (RDA) es una iniciativa en curso orientada a la búsqueda de soluciones de descripción e interoperabilidad de datos. La alianza fue lanzada en marzo de 2013 con el objetivo explícito de perfeccionar el intercambio de datos. Desde entonces la alianza se desarrolla a través de Grupos de Trabajo y Grupos de Interés que son responsables por definir soluciones para superar las barreras para compartir datos. En base a las experiencias de trabajo multidisciplinar el proyecto de la RDA considera el desarrollo de building blocks de infraestructuras comunes así como de soluciones específicas de data bridge.
Además de acompañar el desarrollo de las diferentes iniciativas, SciELO participa de la propuesta de FAIRPORT que propone el establecimiento de una solución abierta para la operación de metadatos y servicios de interoperabilidad. El proyecto FAIRPORT realizó su primera reunión internacional en Leiden, entre los días 13 y 16 de enero de este año 2014 y los resultados serán publicados próximamente y divulgaremos en este blog.
En lo que se refiere a la interoperabilidad, Scientific Data ha adoptado seis principios claves que están alineados con los avances e iniciativas que vienen ocurriendo en la comunicación de datos científicos:
- Permitir que los datasets publicados en acceso abierto, mediante mecanismos de citación e índices de citación, generen los créditos y reconocimientos apropiados a sus autores que de otro modo no son registrados en los artículos tradicionales de las revistas.
- La descripción normalizada de los Data Descriptors, permitirá la recuperación, interpretación y preservación de los datos, lo que facilitará el intercambio de éstos en sucesivas investigaciones por equipos independientes.
- Un sistema de arbitraje proporcionado por NPG asegurará la calidad y preservación de las descripciones.
- La normalización de los Data Descriptors permitirá disponer de interfaces uniformes de recuperación y un sistema validado de links entre los repositorios de los datos y los artículos publicados en revistas relacionadas.
- Publicados bajo alguna de las licencias CC 3.0, permitirá el uso abierto a los datos y la creación de obras derivadas.
- La tecnología de NPG asegurará que los contenidos sean compatibles con los principales repositorios de datasets actuales, como Figshare o Dryad.
Los metadatos Data Descriptors agregan un nivel de descripción que los artículos tradicionales de revistas no contienen. Este tipo de metadatos incluyen información sobre la génesis o creación de los datasets, los pasos del experimento y cómo se vinculan con otros datasets. Asimismo los Data Descriptors podrán asociarse a los artículos publicados en un amplio conjunto de revistas, no solamente las publicadas por NPG. Los Data Descriptors estarán disponibles en Acceso Abierto CC 3.0, y serán publicados mediante el pago por el autor de una tasa de publicación (article-processing charge = APC).
El proyecto Scientific Data comenzará a publicar los datasets a partir de mayo de 2014, los que serán arbitrados, procesados y almacenados en repositorios asociados al proyecto, que al día de hoy son: Data Dryad; Biosharing; Figshare; ISA-Tools. Las disciplinas que están disponibles de momento son las ciencias de la vida, biomédicas y ambientales. Los investigadores de otras disciplinas deben solicitar instrucciones antes de enviar datos.
Los Data Descriptors podrán ser citados, y en el futuro próximo serán incluidos en PubMed, Scopus, WoS y otros servicios principales de indización. Con estos datos se anticipa que para el año 2016 podrán producirse métricas de medida de influencia e impacto de los datasets. Ciertamente SciELO, Google Scholar, CROSSREF y otros índices participarán de los procesos de indexación, búsqueda e interoperabilidad de los datasets.
La estructura de estos metadatos como lo presenta Scientific Data puede parecer un poco compleja para la mayoría de los autores (están pensados para ser procesados por máquina), pero no es necesario que los autores estén familiarizados con los detalles de las especificaciones, porque esos metadatos podrán ser creados automáticamente usando los programas que dispone el proyecto Scientific Data, una vez que la información haya sido aceptada por el proceso de arbitraje. De todos modos los usuarios avanzados podrán generar sus propios Data Descritpors usando las especificaciones de metatados debido a que las normas estarán disponibles en forma pública.
El sitio del proyecto Scientific Data ofrece además las siguientes secciones:
- Pautas de presentación conteniendo información detallada para ayudar a los autores a preparar el formato y presentar un manuscrito para generar los Data Descriptors2.
- Consejo Editorial y Asesor, compuesto por 26 representantes expertos procedentes de la academia, repositorios de datos, agencias de financiación3.
- Consejo Editorial, compuesto por más de 70 expertos de los campos de la ciencia que incluye esta iniciativa, quienes harán el arbitraje de los datos enviados4.
- Instrucciones a los autores5.
- Instrucciones para arbitraje6.
- Costo de publicación (APC)7.
- Ejemplos de la estructura de los Data Descriptors8.
Debido al incremento exponencial de los datos que producen los laboratorios de experimentación, y los requisitos que en forma creciente imponen las agencias que patrocinan esas investigaciones referentes a la preservación, reutilización e interoperabilidad de los datos, es importante que los laboratorios, grupos de investigadores e investigadores individualmente comiencen a hacer planes de administración de sus datasets de modo compatible con las soluciones estandarizadas que se están elaborando. La publicación de los Data Descriptors permitirá a los autores dar cumplimiento a una parte significativa de los planes de administración de datos requeridos por los financiadores y suministra una prueba demostrable de ese plan.
El tema de la comunicación de datos científicos es uno de los tópicos que el blog SciELO en Perspectiva priorizará en el futuro con contribuciones de las diferentes partes interesadas.
Manténgase alerta, participe con posts y/o comentarios.
Notas
1 Scientific Data – http://www.nature.com/scientificdata/
2 Submitting experimental metadata – http://www.nature.com/scientificdata/for-authors/submission-guidelines/#metadata
³Editors and Advisory Panel – http://www.nature.com/scientificdata/editors-and-advisory-panel/
⁴Editorial Board – http://www.nature.com/scientificdata/editorial-board/
5 For Authors- http://www.nature.com/scientificdata/for-authors
6 Guide to referees – http://www.nature.com/scientificdata/guide-to-referees/
7 Open Access – http://www.nature.com/scientificdata/open-access/
8 Sample Data Descriptors – http://www.nature.com/scientificdata/for-authors/sample-data-descriptors/
Enlaces externos
Lorentz Center – http://www.lorentzcenter.nl/lc/web/2014/602/info.php3?wsid=602&venue=Snellius
Scientific Data – http://www.nature.com/scientificdata/
Research Data Alliance – https://rd-alliance.org/
Data Dryad – http://datadryad.org/
Biosharing – http://biosharing.org/
Figshare – http://figshare.com/
ISA-Tools – http://isa-tools.org/
Fairport 1st Meeting – http://www.lorentzcenter.nl/lc/web/2014/602/info.php3?wsid=602&venue=Snellius
Sobre Ernesto Spinak
Colaborador do SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.
Como citar este post [ISO 690/2010]:
Pingback: Actividad en Twitter (enero-marzo 2014) | José Antonio Merlo Vega