{"id":2799,"date":"2018-06-22T16:00:06","date_gmt":"2018-06-22T19:00:06","guid":{"rendered":"http:\/\/blog.scielo.org\/es\/?p=2799"},"modified":"2018-07-05T11:45:05","modified_gmt":"2018-07-05T14:45:05","slug":"gestion-de-datos-cientificos-de-la-recoleccion-a-la-preservacion","status":"publish","type":"post","link":"https:\/\/blog.scielo.org\/es\/2018\/06\/22\/gestion-de-datos-cientificos-de-la-recoleccion-a-la-preservacion\/","title":{"rendered":"Gesti\u00f3n de Datos Cient\u00edficos \u2013 de la recolecci\u00f3n a la preservaci\u00f3n"},"content":{"rendered":"<p><strong>Por Claudia Bauzer Medeiros<\/strong><\/p>\n<div id=\"attachment_2801\" style=\"width: 310px\" class=\"wp-caption alignright\"><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados.jpg\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2801\" class=\"wp-image-2801 size-medium\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados-300x199.jpg\" alt=\"\" width=\"300\" height=\"199\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados-300x199.jpg 300w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados-768x510.jpg 768w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados-150x100.jpg 150w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/gestao-de-dados.jpg 1000w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-2801\" class=\"wp-caption-text\"><i>Imagen: <a href=\"https:\/\/www.flickr.com\/photos\/rh2ox\/9990024683\/\" target=\"_blank\" rel=\"noopener\">rh2ox<\/a>.<\/i><\/p><\/div>\n<p>La gesti\u00f3n de datos cient\u00edficos cubre todo el llamado &#8220;ciclo de vida&#8221; de los datos, es decir, desde su recolecci\u00f3n hasta el almacenamiento a largo plazo, pasando por una serie de procesos de limpieza, curadur\u00eda, anotaci\u00f3n, indexaci\u00f3n y transformaci\u00f3n. Gran parte de la investigaci\u00f3n cient\u00edfica de hoy exige alg\u00fan tipo de an\u00e1lisis y procesamiento de datos. Con esto, la planificaci\u00f3n de la gesti\u00f3n de los datos utilizados y generados en una investigaci\u00f3n pas\u00f3 a formar parte integral de la metodolog\u00eda cient\u00edfica, siendo, inclusive, considerada como uno de los \u00edtems necesarios de buenas pr\u00e1cticas de investigaci\u00f3n.<\/p>\n<p>Los proyectos de investigaci\u00f3n se ocupan principalmente del inicio y medio del ciclo \u2013 es decir, la planificaci\u00f3n de la recolecci\u00f3n de los datos a ser usados, la eliminaci\u00f3n de errores (tambi\u00e9n llamada &#8220;limpieza de datos&#8221;, o &#8220;<em>data cleaning<\/em>&#8220;) y su almacenamiento de forma adecuada , para entonces proceder a los an\u00e1lisis deseados para la producci\u00f3n de conocimiento. Todas estas actividades presentan grandes desaf\u00edos, tanto para los investigadores que van a usar y producir datos en sus investigaciones como para aquellos que desarrollan investigaciones sobre gesti\u00f3n de datos. Estos \u00faltimos pueden ser, por ejemplo, investigadores en Computaci\u00f3n o los llamados &#8220;<em>data librarians<\/em>&#8221; (generalmente dedicados a actividades de curadur\u00eda y preservaci\u00f3n). Independientemente de la denominaci\u00f3n, la gesti\u00f3n de datos de investigaci\u00f3n ha dado lugar a un gran n\u00famero de nuevas l\u00edneas de investigaci\u00f3n en Computaci\u00f3n, y este n\u00famero tiende a aumentar con la aparici\u00f3n de nuevos desaf\u00edos.<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-1.jpg\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2802 size-full\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-1.jpg\" alt=\"\" width=\"700\" height=\"702\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-1.jpg 700w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-1-150x150.jpg 150w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-1-300x300.jpg 300w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/p>\n<p style=\"text-align: center;\"><strong>La figura arriba<sup>1<\/sup>, tomada del sitio web del JISC<sup>2<\/sup>, en el Reino Unido (<a href=\"https:\/\/www.jisc.ac.uk\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.jisc.ac.uk\/<\/a>), muestra una de las muchas visiones posibles del ciclo de vida de los datos de investigaci\u00f3n.<\/strong><\/p>\n<p>La priorizaci\u00f3n, en la figura, a los aspectos de mantenimiento y preservaci\u00f3n de datos, se\u00f1ala un hecho muy importante \u2013 la planificaci\u00f3n de la gesti\u00f3n va mucho m\u00e1s all\u00e1 de la duraci\u00f3n de un proyecto, pues es necesario garantizar la disponibilidad de los datos por el mayor tiempo posible. Esto plantea el problema del costo asociado al ciclo de vida. Varios estudios muestran que el costo de preservaci\u00f3n sube con el tiempo y que, a medio o largo plazo, supera en mucho el costo inicial de recolecci\u00f3n (o generaci\u00f3n) y limpieza. Una de las razones para esto es la evoluci\u00f3n tecnol\u00f3gica de los medios digitales de almacenamiento \u2013 en algunos a\u00f1os se vuelven obsoletos, exigiendo a los curadores de datos la copia de los datos a otros medios, m\u00e1s modernos, so pena de llegar a ser ilegibles.<\/p>\n<p>De esta forma, la actividad de curadur\u00eda tambi\u00e9n debe tener en cuenta qu\u00e9 conjuntos de datos deben preservarse, y por cu\u00e1nto tiempo. Un estudio de 2013 constat\u00f3 que, despu\u00e9s de 20 a\u00f1os, el 80% de los datos utilizados para producir art\u00edculos cient\u00edficos ya no est\u00e1n disponibles.<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2.jpg\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-2803 size-full\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2.jpg\" alt=\"\" width=\"949\" height=\"776\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2.jpg 949w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2-300x245.jpg 300w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2-768x628.jpg 768w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/fig-2-150x123.jpg 150w\" sizes=\"auto, (max-width: 949px) 100vw, 949px\" \/><\/a><strong>La figura arriba<sup>3<\/sup>, extra\u00edda del art\u00edculo de Gibney y Van Norden<sup>4<\/sup>, ilustra la desaparici\u00f3n de esos datos.<\/strong><\/p>\n<p>La Ciencia Abierta presupone Datos Abiertos (donde el concepto de &#8220;datos&#8221; es muy amplio, incluyendo cualquier tipo de objeto digital almacenado). Existen varias definiciones para lo que son &#8220;datos abiertos&#8221;, pero quiz\u00e1s la m\u00e1s interesante es la que define que son conjuntos de datos cuyos metadatos son obligatoriamente p\u00fablicos. En otras palabras, cualquier persona puede descubrir, utilizando los motores de b\u00fasqueda, si los datos existen, y c\u00f3mo obtenerlos. Sin embargo, los datos propiamente dichos no son obligatoriamente p\u00fablicos \u2013 e incluso, s\u00f3lo pueden ser utilizados por grupos bien restringidos de investigaci\u00f3n, por ejemplo por razones \u00e9ticas o de privacidad.<\/p>\n<p>En este contexto, la gesti\u00f3n de datos presenta otro desaf\u00edo: \u00bfC\u00f3mo especificar los metadatos para permitir que los datos asociados se consideren &#8220;abiertos&#8221;? Esto requiere, a su vez, el desarrollo de nuevos patrones de metadatos, la organizaci\u00f3n de repositorios de metadatos y de sistemas de b\u00fasqueda y miner\u00eda de metadatos.<\/p>\n<h3>Notas<\/h3>\n<p>1. KAYE, J. Storing and sharing research data after the \u2018Space Race\u2019 [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: <a href=\"https:\/\/www.jisc.ac.uk\/blog\/storing-and-sharing-research-data-after-the-space-race-25-feb-2015\" target=\"_blank\" rel=\"noopener\">https:\/\/www.jisc.ac.uk\/blog\/storing-and-sharing-research-data-after-the-space-race-25-feb-2015<\/a><\/p>\n<p>2. Esta visi\u00f3n privilegia los aspectos de almacenamiento, preservaci\u00f3n y organizaci\u00f3n de repositorios de datos cient\u00edficos. El JISC es uno de los principales organismos brit\u00e1nicos de apoyo a la gesti\u00f3n y curadur\u00eda de datos cient\u00edficos asociados a la educaci\u00f3n. Apoya, por lo tanto, a universidades e instituciones educativas en todos los aspectos relacionados con la gesti\u00f3n de datos. Otro organismo brit\u00e1nico igualmente importante es el DCC (<em>Digital Curation Center<\/em> \u2013 <a href=\"http:\/\/www.dcc.ac.uk\/\" target=\"_blank\" rel=\"noopener\">http:\/\/www.dcc.ac.uk\/<\/a>), que se ocupa principalmente de la curadur\u00eda de datos. DCC y JISC ofrecen una gran cantidad de material did\u00e1ctico sobre la gesti\u00f3n de datos cient\u00edficos, ofreciendo tambi\u00e9n entrenamiento para investigadores y profesionales de la gesti\u00f3n de la informaci\u00f3n. Varios otros grandes centros que se ocupan de estos aspectos, como el ANDS (<a href=\"http:\/\/ands.org.au\" target=\"_blank\" rel=\"noopener\">http:\/\/ands.org.au<\/a>) australiano, o el DANS (<a href=\"https:\/\/dans.knaw.nl\/en\" target=\"_blank\" rel=\"noopener\">https:\/\/dans.knaw.nl\/en<\/a>) en Holanda, o el <em>Portage<\/em> (<a href=\"https:\/\/portagenetwork.ca\" target=\"_blank\" rel=\"noopener\">https:\/\/portagenetwork.ca<\/a>) canadiense.<\/p>\n<p>3. GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: <a href=\"https:\/\/www.nature.com\/news\/scientists-losing-data-at-a-rapid-rate-1.14416\" target=\"_blank\" rel=\"noopener\">https:\/\/www.nature.com\/news\/scientists-losing-data-at-a-rapid-rate-1.14416<\/a><\/p>\n<p>4. Es importante resaltar que el art\u00edculo examin\u00f3 s\u00f3lo datos asociados a publicaciones. Sin embargo, hay enormes conjuntos de datos que sirven de base a investigaciones de todo tipo, pero que no est\u00e1n directamente asociados a un art\u00edculo espec\u00edfico. Un ejemplo t\u00edpico son las series temporales de im\u00e1genes de sat\u00e9lite, que alimentan estudios de previsi\u00f3n de cosechas, o climatolog\u00eda. A\u00fan otro ejemplo son datos de las torres de captura de carbono, instaladas en todo el mundo, usadas en investigaciones sobre calentamiento global. Estos tipos de datos, una vez recogidos y preservados, sirven durante varios a\u00f1os para una gran cantidad de estudios. Otro gran desaf\u00edo de la gesti\u00f3n de datos se asocia con los procedimientos de preservaci\u00f3n.<\/p>\n<h3>Referencias<\/h3>\n<p>GIBNEY, E. and VAN NOORDEN, R. Scientists losing data at a rapid rate [online]. Nature. 2013 [viewed 22 June 2018]. Available from: <a href=\"https:\/\/www.nature.com\/news\/scientists-losing-data-at-a-rapid-rate-1.14416\" target=\"_blank\" rel=\"noopener\">https:\/\/www.nature.com\/news\/scientists-losing-data-at-a-rapid-rate-1.14416<\/a><\/p>\n<p>KAYE, J. Storing and sharing research data after the \u2018Space Race\u2019 [online]. Jisc. 2015 [viewed 22 June 2018]. Available from: <a href=\"https:\/\/www.jisc.ac.uk\/blog\/storing-and-sharing-research-data-after-the-space-race-25-feb-2015\" target=\"_blank\" rel=\"noopener\">https:\/\/www.jisc.ac.uk\/blog\/storing-and-sharing-research-data-after-the-space-race-25-feb-2015<\/a><\/p>\n<p>&nbsp;<\/p>\n<h3>Sobre Claudia Bauzer Medeiros<\/h3>\n<p><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/BauzerMedeiros-Claudia2_carousel.jpg\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright wp-image-2810 size-thumbnail\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/BauzerMedeiros-Claudia2_carousel-150x150.jpg\" alt=\"\" width=\"150\" height=\"150\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/BauzerMedeiros-Claudia2_carousel-150x150.jpg 150w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2018\/06\/BauzerMedeiros-Claudia2_carousel.jpg 300w\" sizes=\"auto, (max-width: 150px) 100vw, 150px\" \/><\/a><\/p>\n<p style=\"font-weight: 400;\">Profesora titular del Instituto de Computaci\u00f3n de UNICAMP, con premios nacionales e internacionales por la excelencia en ense\u00f1anza, investigaci\u00f3n, y por el trabajo de atracci\u00f3n de mujeres en TI. Coordina el programa de <em>eScience<\/em> y <em>Data Science<\/em> de la FAPESP. Comendadora de la Orden Nacional del M\u00e9rito Cient\u00edfico, Dr. <em>Honoris Causa<\/em> por las universidades Antenor Arrego (Per\u00fa) y Par\u00eds-Dauphine (Francia). Miembro del consejo de la <em>Research Data Alliance<\/em>.<\/p>\n<p>&nbsp;<\/p>\n<p>Traducido del original en <a href=\"https:\/\/blog.scielo.org\/blog\/2018\/06\/22\/gestao-de-dados-cientificos-da-coleta-a-preservacao\/\" target=\"_blank\" rel=\"noopener\">Portugu\u00e9s<\/a> por Ernesto Spinak.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>La gesti\u00f3n adecuada de los datos utilizados en investigaciones cient\u00edficas se ha convertido en parte obligatoria de las buenas pr\u00e1cticas de investigaci\u00f3n. La era de la Ciencia Abierta viene revolucionando la metodolog\u00eda cient\u00edfica, motivando el surgimiento de nuevas l\u00edneas de investigaci\u00f3n en todas las \u00e1reas del conocimiento. El post describe algunos desaf\u00edos de esta gesti\u00f3n desde el punto de vista computacional. <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/blog.scielo.org\/es\/2018\/06\/22\/gestion-de-datos-cientificos-de-la-recoleccion-a-la-preservacion\/\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":5,"featured_media":2800,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":"","_links_to":"","_links_to_target":""},"categories":[3],"tags":[63,48,44,61],"class_list":["post-2799","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analisis","tag-ciencia-abierta","tag-datos-abiertos","tag-preservacion-digital","tag-scielo-20-anos"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2799","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/comments?post=2799"}],"version-history":[{"count":4,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2799\/revisions"}],"predecessor-version":[{"id":2811,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2799\/revisions\/2811"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/media\/2800"}],"wp:attachment":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/media?parent=2799"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/categories?post=2799"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/tags?post=2799"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}