PLOS Collections¹ es una sección especial de la iniciativa Public Library of Science (PLOS) que presenta colecciones de artículos seleccionados por parte de este Sitio que es uno de los líderes del movimiento de Acceso Abierto (AA) a la publicación científica.
Se presentan en PLOS Collections siete áreas temáticas como ser la biología, la medicina, la genética, las enfermedades tropicales, etc., pero en particular queremos destacar en esta oportunidad dos sub-colecciones importantes para aquellos que estamos interesados en general en el AA y las posibilidades que se abren desde el punto de vista de las ciencias de la información.
En el post anterior se presentaron en forma breve algunos documentos destacados sobre el tema Open Access Collection², en este post destacaremos otras dos áreas especiales, que son la Minería de Datos (Text Mining³) y la Altmetría⁴.
Estas dos especialidades, potenciadas por el acceso libre a los textos completos, son las que permitirán en el futuro próximo mejorar increíblemente los sistemas de recuperación de información (por la implementación de la web semántica) y disponer de mediciones de la importancia y relevancia de la producción científica como alternativas al famoso (y criticado) Factor de Impacto.
Text Mining Collection
Esta colección de PLOS es muy interesante para los especialistas en ciencias de la información, en particular los que se interesan en interfaces avanzadas de recuperación dentro de los conceptos de la Web Semántica.
La Minería de Textos (Text Mining) no es un área de investigación precisamente nueva, pues los conceptos teóricos han sido estudiados desde los mismos orígenes de la computación. Pero el hecho de disponer hoy día de volúmenes importantes de textos completos, con acceso abierto, y estructurados bajo estándares abiertos, ha permitido avanzar desde la teoría en los laboratorios de computación a la práctica con productos reales y eficientes.
La Wikipedia⁵ explica de manera sencilla que la minería de texto es el proceso de derivar información del alta calidad a partir de los mismos textos. Esta información se obtiene a través del estudio estadístico de patrones de texto, del cual es posible extraer conceptos, su valor de novedad y grado de interés, las asociaciones significativas entre diferentes corpus de texto, y también mejorar la relevancia en la recuperación de información.
La Colección PLOS de Text Mining3,6 explica que el objetivo de esta área de investigación es resolver los problemas relativos a la recuperación, la extracción y el análisis de la información no estructurada en el texto digital, y de ese modo revolucionar la forma de acceder e interpretar los datos que podrían haber quedado sumergidos en la literatura. Se ofrecen en esta colección que describimos dos artículos de introducción al tema “Getting Started in Text Mining7,8”, para los no especialistas.
En el documento “Open Access: Taking Full Advantage of the Content6”,se explica la importancia que tiene que los editores preparen los textos de los originales digitales estructurados con lenguajes de marcado en XML, como los usados por la National Library of Medicine, y ajustados a una DTD especial con extensiones adecuadas para las necesidades de la disciplina, pues es posible entonces extraer significados semánticos e integrarlos a las bases de datos de la literatura.
Por último se ofrece un documento de ejemplo de la utilidad del marcado de texto con XML aplicado a un caso real, “Biomedical Text Mining and Its Applications9”.
Es interesante notar que en un reciente post de SciELO en perspectiva – “¿Porqué XML?10” – se anuncia que precisamente el lenguaje de marcado en XML es uno de los avances tecnológicos recientes de SciELO que se está implementando.Para el cumplimiento del objetivo del text mining, SciELO integra el XML usado para la preparación de las revistas y libros de sus colecciones, la DTD JATS que es precisamente la usada en PMC de NLM para el marcado de textos de acuerdo a la norma NISO.
Vea además el libro SciELO: 15 Años de Acceso Abierto (Un estudio analítico sobre Acceso Abierto y comunicación científica), en particular el Capítulo 5 – Producción de la colección y revistas SciELO.
Altmetrics Collection
La Altmetría es el estudio y el uso de medidas de impacto académico no tradicionales, que se basan en la actividad en el ambiente Web. A medida que la actividad académica se mueve hacia el espacio online, estas métricas rastrean las interacciones y la actividad generando datos de mayor granularidad, permitiendo a los investigadores y a los responsables de políticas generar un cuadro de mayor resolución sobre el impacto académico de la investigación
La colección PLOS de Altmetría, reúne un corpus emergente de esta investigación para alentar los estudios y el uso de la altmetría. La intención es cubrir un amplio abanico de temas incluyendo los análisis estadísticos de las fuentes de datos altmétricos, la validación de las medidas, y la identificación de los sesgos de esas medidas, la validación de modelos de descubrimiento y poder hacer recomendaciones basadas en la altmetría.
Para hacer frente a la cantidad creciente de información, los investigadores siempre han usado filtros para seleccionar lo más relevante. Los filtros tradicionalmente incorporan como uno de sus componentes los análisis de citas y factores de impacto. Pero al igual que la indexación manual que se practicaba hace 60 años, hoy día los volúmenes de la literatura requieren nuevos procedimientos que estén acompasados a la velocidad y a la diversidad. Como se sabe, los análisis de citaciones pueden estar sesgados, son lentos en acumularse, y pasan por alto los impactos sociales cada vez más importantes.
La comunidad cienciométrica está consciente de la insuficiencia de las medidas de citación, y recientemente ha propuesto métodos para reunir información más amplia acerca de esos impactos y proporcionar más detalles sobre el sistema de publicación científica. Gracias a la Web, la cienciometría ha comenzado a investigar algunos filtros que podrían ser prometedores.
Instrumento | ejemplo |
social media | Twitter y Facebook |
administradores de referencias | CiteULike, Zotero, y Mendeley |
enciclopedias colaborativas | Wikipedia |
blogs | académicos y para público general |
Redes sociales académicas | ResearchGate o Academia.edu |
Sitios de organización de conferencias | Lanyrd.com |
La colección Altmetrics de PLOS incluye trabajos que evalúan los análisis estadísticos y las validaciones métricas de las bases de datos que recopilan esta clase de información. También la fundamentación teórica del uso de la altmetría, y las comparaciones de estos resultados con los métodos tradicionales de la cienciometría. El artículo What Can Article-Level Metrics Do for You?11 ilustra con ejemplos para qué nos sirven estas nuevas medidas.
Por supuesto que todos nosotros en tiempos recientes ya hemos visto y leído presentaciones sobre la altmetría y los supuestos beneficios que tendremos en el corto plazo, pero la pregunta que surge naturalmente frente a cualquier novedad es, si esto realmente funciona o será una de tantas modas pasajeras. ¿Será verdad que la altmetría hace todo lo que se dice? Esta pregunta es motivo del trabajo publicado recientemente en la Altmetrics Collection: Do Altmetrics Work? Twitter and Ten Other Social Web Services12
Dice el artículo que a pesar de que existe una gran promoción sobre el uso de las medidas altmétricas como indicadores tempranos de futuro impacto y utilidad de una publicación, todavía no disponemos de evidencias sistemáticas que muestren una correlación significativa para ser usados como reales indicadores alternativos. Hasta ahora la literatura publicada ha consistido en estudios de casos para algunas áreas de investigación y unas pocas revistas. El trabajo que comentamos investigó los indicadores altmétricos para más de 200 mil artículos de PubMed publicados en 1.891 revistas. Se encontraron buenas correlaciones entre los artículos con altos índices de citación y valores altmétricos importantes provenientes de Twitter, Facebook, blogs, sin embargo hay baja correlación con Google+, y la evidencia es insuficiente con LinkedIn, Pinterest y Reddit. Por otra parte para los artículos sin valores altmétricos no fue posible establecer ninguna correlación. En general las correlaciones con Twitter son las mejores, pero para el resto en general son bajas y no es claro si serán suficientemente prevalentes para ser usadas en la práctica.
Reflexiones
El AA ha abierto nuevas áreas de investigación y estamos comenzando a ver productos que todavía deberán ser evaluados e incorporados como herramientas. PLOS Collections es un sitio al que vale la pena volver periódicamente para ver cómo se desarrolla el futuro de la información.
SciELO en Perspectiva seguirá publicando a lo largo del año actualizaciones del estado del arte de la ciencia de la información.
Notas
¹ Qué son las PLOS Collections – http://www.ploscollections.org/;jsessionid=7E86FB385236F1DD3425171788D264AB
² Open Access Collection – http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v01.i10
³ Text Mining Collection – http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v01.i14
⁴ Altmetrics Collection – http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v02.i19
⁵ Wikipedia – text mining – http://en.wikipedia.org/wiki/Text_mining
6 Open Access: Taking Full Advantage of the Content – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000037
7 Getting Started in Text Mining – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0040020
8 Getting Started in Text Mining: Part Two – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000411
9 Biomedical Text Mining and Its Applications – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000597
10 ¿Porqué XML?. SciELO en Perspectiva. [viewed 24 June 2014]. Available from: http://blog.scielo.org/es/2014/04/04/porque-xml/
11 What Can Article-Level Metrics Do for You? – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pbio.1001687
12 Do Altmetrics Work? Twitter and Ten Other Social Web Services – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0064841
Referencias
¿Qué son las Public Library of Science Collections? – Parte I. SciELO en Perspectiva. [viewed 24 June 2014]. Available from: http://blog.scielo.org/es/2014/06/03/que-son-las-public-library-of-science-collections-parte-i/
PACKER, AL. et al, orgs.SciELO: 15 Años de Acceso Abierto (Un estudio analítico sobre Acceso Abierto y comunicación científica). Paris: UNESCO, 2014.
Tenth Anniversary PLOS Biology Collection. PLOS Collection. Available from: http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v06.i03
Enlace externo
PLOS – http://www.plos.org/
Sobre Ernesto Spinak
Colaborador del SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.
Como citar este post [ISO 690/2010]:
Comentarios recientes