O que é a Public Library of Science Collections? – Parte II

plosPLoS Collections¹ é uma sessão especial da iniciativa Public Library of Science (PLOS) que apresenta coleções de artigos selecionados por parte deste site, um dos líderes do movimento de Acesso Aberto (AA) à publicação científica.

São apresentados em PLoS Collections sete áreas temáticas como a biologia, medicina, genética, doenças tropicais, etc., porém, em particular, queremos destacar nesta oportunidade duas subcoleções importantes para aqueles que estão interessados em AA em geral e nas possibilidades que se abrem do ponto de vista da ciência da informação.

No post anterior foram apresentados de forma breve alguns documentos destacados sobre o tema Open Access Collection², e neste post destacaremos outras duas áreas especiais, que são a Mineração de Dados (Text Mining³) e a Altmetria⁴.

Estas duas especialidades, potencializadas pelo acesso aberto aos textos completos, são as que permitirão no futuro próximo melhorar incrivelmente os sistemas de recuperação de informação (pela implementação da web semântica) e dispor de medidas da importância e relevância da produção científica como alternativas ao famoso (e criticado) Fator de Impacto.

Text Mining Collection

Esta coleção de PLOS é muito interessante para os especialistas em ciências da informação, em particular os que se interessam por interfaces avançadas de recuperação dentro dos conceitos da Web Semântica.

A Mineração de Textos (Text Mining) não é uma área de pesquisa precisamente nova, uma vez que os conceitos teóricos foram estudados desde as mesmas origens da computação. Porém o fato de dispor hoje em dia de volumes importantes de textos completos, com acesso aberto e estruturados sob padrões abertos, permitiu avançar desde a teoria nos laboratórios de computação até a prática com produtos reais e eficientes.

A Wikipedia⁵ explica de maneira simples que text mining é o processo de derivar informação de alta qualidade à partir dos mesmos textos. Esta informação é obtida através do estudo estatístico de padrões de texto, do qual é possível extrair conceitos, seu valor de novidade e grau de interesse, as associações significativas entre diferentes corpus de texto, e também melhorar a relevância na recuperação de informação.

A Coleção PLoS sobre Text Mining3,6 explica que o objetivo desta área de pesquisa é resolver os problemas relativos à recuperação, extração e análise da informação não estruturada no texto digital, e deste modo, revolucionar a forma de acessar e interpretar os dados que poderiam ter ficado submersos na literatura. São oferecidos nesta coleção que descrevemos dois artigos de introdução ao tema “Getting Started in Text Mining7,8”, para os não especialistas.

No documento “Open Access: Taking Full Advantage of the Content6”,se explica a importância para o fato de que os editores preparem os textos dos originais digitais estruturados com linguagens de marcação em XML, como aqueles usados pela National Library of Medicine, e ajustados a uma DTD especial com extensões adequadas para as necessidades da disciplina, uma vez que é possível extrair significados semânticos e integra-los às bases de dados da literatura.

Por último, é oferecido um documento de exemplo sobre a utilidade da marcação de texto com XML aplicado a um caso real, “Biomedical Text Mining and Its Applications9”.

É interessante notar que em um recente post do SciELO em perspectiva – “XML, por quê?10– se anuncia que precisamente a linguagem de marcação em XML é um dos avanços tecnológicos recentes do SciELO que está sendo implementando.Para o cumprimento do objetivo do text mining, SciELO integra o XML usado para a preparação dos periódicos e livros de suas coleções, a DTD JATS que é precisamente aquela usada no PMC da NLM para a marcação de textos de acordo com a norma ISO.

Veja também o livro SciELO – 15 Anos de Acesso Aberto (um estudo analítico sobre Acesso Aberto e comunicação científica), em particular o Capítulo 5 – Produção da coleção e periódicos SciELO.

Altmetrics Collection

A Altmetria é o estudo e uso de medidas de impacto acadêmica não tradicionais, que se baseiam na atividade no ambiente Web. À medida que a atividade acadêmica se move em direção ao espaço online, estas métricas rastreiam as interações e a atividade gerando dados de maior granularidade, permitindo aos pesquisadores e aos responsáveis por políticas gerar um quadro de maior resolução sobre o impacto acadêmico da pesquisa.

A coleção PLoS de Altmetria reúne um corpus emergente desta pesquisa para alentar os estudos e o uso da altmetria. A intensão é cobrir um amplo leque de temas, incluindo as análises estatísticas das fontes de dados altmétricos, a validação das medidas e a identificação dos vieses destas medidas, a validação de modelos de descobrimento e poder fazer recomendações baseadas na altmetria.

Para fazer frente à quantidade crescente de informação, os pesquisadores sempre usaram filtros para selecionar o mais relevante. Os filtros tradicionalmente incorporam como um de seus componentes as análises de citações e fator de impacto. Porém, da mesma forma como a indexação manual que se praticava faz 60 anos, hoje em dia os volumes da literatura requerem novos procedimentos que estejam de acordo com a velocidade e a diversidade. Como se sabe, as análises de citações podem estar enviesadas, são lentas para se acumular, e passam por cima dos impactos sociais, cada vez mais importantes.

A comunidade cienciométrica está consciente da insuficiência de medidas de citação, e recentemente propôs métodos para reunir informação mais ampla sobre este impacto e proporcionar mais detalhes sobre o sistema de publicação científica. Graças à Web, a cienciometria começou a pesquisar alguns filtros que poderiam ser promissores.

Instrumento Exemplo
Social media Twitter e Facebook
Administradores de referências CiteULike, Zotero, y Mendeley
Enciclopédias colaborativas Wikipedia
Blogs Acadêmicos e para o público em geral
Redes sociais acadêmicas ResearchGate ou Academia.edu
Sites de organização de conferências Lanyrd.com

 

A coleção Altmetrics da PLoS inclui trabalhos que avaliam as análises estatísticas e as validações métricas das bases de dados que recompilam esta classe de informação. Também a fundamentação teórica do uso da altmetria, e as comparações destes resultados com os métodos tradicionais da cienciometria. O artigo What Can Article-Level Metrics Do for You?11 ilustra com exemplos para que servem estas novas medidas.

Evidentemente que todos nós em tempos recentes já vimos e lemos apresentações sobre a altmetria e os supostos benefícios que teremos em curto prazo, porém a pergunta que surge naturalmente frente a qualquer novidade é, se isso realmente funciona ou será uma de tantas modas passageiras. Será verdade que a altmetria faz tudo o que se diz? Esta pergunta é motivo do trabalho publicado recentemente na Altmetrics Collection: Do Altmetrics Work? Twitter and Ten Other Social Web Services12.

Diz o artigo que, apesar de que existe uma grande promoção sobre o uso das medidas altmétricas como indicadores precoces de futuro impacto e utilidade de uma publicação, ainda não dispomos de evidências sistemáticas que mostrem uma correlação significativa que permitam seu uso como reais indicadores alternativos. Até agora, a literatura publicada consistiu de estudos de casos para algumas áreas de pesquisa e alguns poucos periódicos. O trabalho que comentamos investigou os indicadores altmétricos para mais de 200 mil artigos de PubMed publicados em 1.891 periódicos. Foram encontradas boas correlações entre os artigos com altos índices de citação e valores altmétricos importantes provenientes de Twitter, Facebook, blogs, entretanto, possui baixa correlação com Google+, e a evidencia é insuficiente com LinkedIn, Pinterest e Reddit. Por outra parte, para os artigos sem valores altmétricos, não foi possível estabelecer nenhuma correlação. Em geral as correlações com Twitter são as melhores, porém para o restante em geral são baixas e não está claro se serão suficientemente prevalentes para ser usadas na prática.

Reflexões

O AA abriu novas áreas de pesquisa e estamos começando a ver produtos que ainda deverão ser avaliados e incorporados como ferramentas. PLoS Collections é um site ao que vale a pena voltar periodicamente para ver como se desenvolve o futuro da informação.

SciELO em Perspectiva continuará publicando ao longo do ano atualizações sobre o estado da arte da ciência da informação.

Notas

¹ O que são as PLOS Collections – http://www.ploscollections.org/;jsessionid=7E86FB385236F1DD3425171788D264AB

² Open Access Collection –http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v01.i10

³ Text Mining Collection – http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v01.i14

⁴ Altmetrics Collection – http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v02.i19

⁵ Wikipedia – text mining – http://en.wikipedia.org/wiki/Text_mining

6 Open Access: Taking Full Advantage of the Content – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000037

7 Getting Started in Text Mining – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0040020

8 Getting Started in Text Mining: Part Two – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000411

9 Biomedical Text Mining and Its Applications – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000597

10 XML, por quê?. SciELO em Perspectiva. [viewed 15 May 2014]. Available from: http://blog.scielo.org/blog/2014/04/04/xml-porque/

11 What Can Article-Level Metrics Do for You? – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pbio.1001687

12 Do Altmetrics Work? Twitter and Ten Other Social Web Services – http://www.ploscollections.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0064841

Referências

O que é Public Library of Science Collections? – Parte I. SciELO em Perspectiva. [viewed 24 June 2014]. Available from: http://blog.scielo.org/blog/2014/06/03/o-que-e-public-library-of-science-collections-parte-i/

PACKER, AL. et al, orgs.SciELO – 15 Anos de Acesso Aberto (um estudo analítico sobre Acesso Aberto e comunicação científica). Paris: UNESCO, 2014.

Tenth Anniversary PLOS Biology Collection. PLOS Collection. Available from: http://www.ploscollections.org/article/browse/issue/info%3Adoi%2F10.1371%2Fissue.pcol.v06.i03

Link externo

PLOS – http://www.plos.org/

 

spinakSobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado em Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. O que é a Public Library of Science Collections? – Parte II [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: http://blog.scielo.org/blog/2014/06/24/o-que-e-a-public-library-of-science-collections-parte-ii/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

Post Navigation