Repositórios da América Latina têm pouca visibilidade no Google Scholar

O auto arquivamento é a forma de publicar em acesso aberto (AA) a produção acadêmica, seja pesquisas originais, teses, material de estudo ou de difusão, e outras atividades relacionadas com o conhecimento científico. Não é novidade que a maioria das universidades mantém repositórios institucionais, na Ibero América, mas principalmente nos países desenvolvidos. Para assegurar que estes esforços cumpram com seus objetivos o procedimento mais direto e abrangente é saber que presença e impacto têm os repositórios na Web, especialmente nos principais buscadores que são o Google e o Google Scholar (GS).

Um recente artigo “Are Latin-American repositories invisible on Google and Google Scholar¹”, apresentou resultados surpreendentemente pobres comparados às expectativas dos pesquisadores, o que foi motivo de uma interessante discussão na rede INCYT² na última semana do mês de junho passado.

Analisaremos neste post as possíveis razões que poderiam explicar o pobre desempenho dos repositórios, e também, o questionamento a este meio como instrumento para aumentar a visibilidade e, por conseguinte, o impacto científico, as conclusões da discussão no INCYT, e aportaremos material técnico adicional para sua justificativa.

A visibilidade, cobertura ou presença deficiente que têm os repositórios em geral nos buscadores Google/GS não é uma novidade, pois em 2012, um artigo seminal de Arlitsch e O’Brien³, que analisa 21 repositórios em universidades nos EUA, deixou em evidência que a cobertura da indexação de Google/GS é baixa com uma taxa de documentos indexados da ordem de 30% no GS. Posteriormente a esta pesquisa, uma análise similar foi realizada sobre o repositório de documentos do Banco Mundial⁴, revelando que apenas 17,5% dos mais de 15.000 documentos estão indexados no Google/GS. Finalmente, os resultados da pesquisa que comentamos, analisaram a visibilidade e impacto na Web de 127 repositórios Latino-Americanos que contém 113.000 documentos PDF, onde descobriram que Google chega apenas a uma cobertura de 48,3% e 2,5% apenas é detectado no GS. Se a busca é ampliada a todo tipo de documentos, a taxa de recuperação é bastante maior no Google, mas no GS só chega a um terço dos documentos existentes.

As perguntas que surgem são, pelo menos, as seguintes:

  • Por que os repositórios são tão pouco visíveis,
  • Como conseguir que sejam corretamente indexados para tornar visíveis seus documentos.
  • Como esta situação afeta a promoção da carreira de um pesquisador que deseja publicar em AA.
  • Serão os repositórios instrumentos idôneos para tornar visível a produção científica?

Algumas razões técnicas que explicam os pobres resultados seriam:

  • Problemas nos robôs do Google/GS, e nos procedimentos para recuperar documentos indexados. Devemos fazer notar que Google e GS usam bases de dados diferentes assim como diferentes robôs e critérios de indexação. Por esta razão os resultados são tão diferentes em um e no outro.
  • Problemas nas estruturas dos documentos depositados e nos metadados associados que não seguem “boas práticas”.
  • Problemas nas arquiteturas dos sites dos repositórios que alojam os documentos.

Isso não significa que os repositórios institucionais sejam mal administrados, ou que não mantenham estatísticas de seus conteúdos ou downloads, ou que não se possa recuperar neles a informação depositada. Dois exemplos de repositórios importantes de referência são a Biblioteca Digital da Unicamp, com mais de 40.000 teses, ou a Red Federada de Repositorios Institucionales de Publicaciones Científicas, com mais de 800.000 documentos. O problema é que, em geral, as pessoas que estão pesquisando não vão diretamente a um repositório específico para descobrir o que está depositado lá, na imensa maioria dos casos buscam através do Google/GS. Em outras palavras, a visibilidade dos conteúdos depende de forma importante destes buscadores. Anos atrás se dizia “se não estás na Internet não existes”, pois agora poderíamos dizer, “se estás na Internet, mas não é visível ao Google, tampouco existes”.

Alguns dos problemas técnicos dos repositórios são mencionados nas referências (ORDUÑA-MALEA 2014; TAY 2014; Inclusion Guidelines for Webmasters), que são descritas brevemente:

  • Os artigos no repositório devem oferecer em AA os textos completos dos artigos, ou ao menos, o resumo preparado pelo autor.
  • O repositório não deve solicitar aos usuários (ou aos robôs) para se registrar previamente para ingressar, nem instalar software especial, ou aceitar “disclaimers”, bloquear janelas emergentes (popup), insertar avisos, clicar links ou botões, ou rolar (scroll) as páginas para poder ler os resumos.
  • Os repositórios que têm páginas de logins, ou meras referências bibliográficas sem resumos não serão incluídas, ou serão removidas do GS se forem previamente indexadas.
  • Caso os robôs não possam recuperar as páginas devido a erros do servidor, configurações errôneas ou respostas lentas, é possível que os documentos, caso existam no Google/GS, sejam removidos da base de dados.
  • Os documentos, seja em HTML ou PDF, devem ser indexáveis, ou seja, devem poder ser buscados por palavras usando Adobe Acrobat Reader.
  • Cada documento deve ser menor que 5MB de tamanho. Se forem maiores ou se tiverem páginas com imagens, deveriam ser enviadas ao Google Book Search.
  • Uma das razões mais frequentes pela qual não são indexados corretamente é uso do Schema de metadados Dublin Core (DC). O Google indica expressamente nas Instruções para Webmasters, que DC é o sistema de metadados menos recomendado, dando preferência a outros esquemas como Highwire Press, JSTORE, e… de forma muito interessante, Google recomenda o Schema de indexação do SciELO (veja o parágrafo ao final da referência Inclusion Guidelines for Webmasters⁵). A razão pela qual GS não gosta de DC e não suporta OAI-PMH é que os metadados DC são muito pobres para a descrição de artigos em periódicos, devido ao fato de que são ambíguos para descrever o título do periódico, volume, fascículo e número de páginas. No artigo mencionado da Arlitsh (2012) sobre os repositórios de universidades Norte-Americanas, quando se mudou o Schema de indexação do Dublin Core para outros esquemas de metadados mais amigáveis com Google/GS, a visibilidade destes repositórios aumentou consideravelmente.
  • Google não inclui o texto completo dos artigos, GS é que sempre o faz. GS não é uma versão limitada de Google, é uma versão diferente, por exemplo, GS não inclui as entradas na Wikipedia ou os blogs, porém Google o faz. Somente GS inclui os textos completos em seu índice de recuperação. Por esta razão, GS negociou direitos especiais com as editoras Elsevier, ou Sage, ScienceDirect, etc., para indexar os textos completos de artigos que para sua leitura deve-se pagar, porém entregando somente os títulos e resumos nos resultados de consultas6.

Estas pesquisas destacam a insuficiente visibilidade que têm a produção acadêmica Latino-Americana na Web, que em sua maioria não é publicada em periódicos do mainstream, razão pela qual não aparecerão no WoS ou Scopus. A baixa cobertura de indexação do Google/GS aos repositórios afeta muito seriamente as vantagens do AA (em particular a via verde), porque esta massa de documentação permanecerá oculta aos usuários, não sendo acessível via GS e somente podendo ser localizados por meio do acesso direto aos repositórios.

Um dos motivos principais deste problema são os próprios erros de arquitetura com a qual são criados e mantidos os repositórios e, a outra causa importante, é usar Schemas de indexação não adequados, como é o DC. A superação destes problemas está nas mãos dos Latino-Americanos.

Os repositórios são ferramentas institucionais valiosas, onde se depositam materiais da atividade acadêmica que vão mais além do clássico artigo de periódico científico, como podem ser as apresentações em congressos, as teses, as apresentações em slides, vídeos, documentação estatística, etc. De modo que o valor destes repositórios deve ser medido de diferentes pontos de vista e objetivos, do mesmo modo que são avaliados os periódicos que não são “mainstream”.

Se um acadêmico deposita seu trabalho em um repositório, pois deve cumprir com o “ritual” de publish or perish, sua intenção principal não é gerar “impacto”, ou se publica em um periódico local por motivo de seu currículo (vanity journals), ou deposita o Power Point de sua apresentação, ou a tese com a que se gradua, o objetivo deste repositório cumpre funções legítimas que não têm a ver com a competência global de obter citações, impacto, etc.

O objetivo muda quando o pesquisador procura avançar em sua carreira competindo nas “grandes ligas”, neste caso o esforço será publicar nos melhores periódicos possíveis da especialidade, e ele depositará uma cópia em um repositório em AA como Plano B.

Minha reflexão

  • As políticas de avaliação da pesquisa, das instituições e departamentos de pesquisa, de grupos de pesquisadores e de pesquisadores individuais se baseiam nos índices cienciométricos clássicos em grande parte, quer gostemos ou não. Portanto, os repositórios não pesam nada ou apenas marginalmente na ponderação do desempenho de pesquisa científica e de seus atores.
  • Os repositórios, em geral, não têm critérios de seleção com base na qualidade e inovação científica, se bem que têm outras finalidades importantes, a saber:
    • controle bibliográfico,
    • preservação,
    • atender políticas institucionais e nacionais de acesso aberto,
    • complementar os índices bibliográficos como fontes de acesso aos textos completos.
  • A avaliação dos repositórios referidas às funções anteriores deveria ser realizada mediante comparações internas ao longo do tempo, medindo o crescimento em número de documentos, quantidade de downloads, quantidade de referências nas redes sociais, e comparando eventualmente com outros repositórios que sirvam de referência.
  • Finalmente, além dos problemas técnicos da gestão, interoperabilidade e visibilidade que têm os repositórios, a conclusão é que como meios de comunicação científica são muito limitados.
  • Se o alvo é melhorar o impacto e visibilidade da produção científica, a publicação de trabalhos deveria ser feita em periódicos que tenham apoio profissional, que cumpram com os maiores requisitos tecnológicos para obter a máxima indexação e impacto, assegurar-se que o processo editorial esteja atualizado ao melhor estado da arte, que seja um processo arbitrado, que tenha controle de plágio, DOIs, etc.

Isso é o que faz o Programa SciELO.

Notas

¹ ORDUÑA-MALEA, E., et al. Are Latin-American repositories invisible on Google and Google Scholar?.EC3 Google ScholarDigestReviews. 2014, nº 3.Available from: http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html

² INCYT: Indicadores en Ciencia y Tecnología. – http://listserv.rediris.es/cgi-bin/wa?A1=ind1406D&L=INCYT(archivo de Junio 2014).

³ ARLITSCH, K., andO’BRIAN, P.S. Invisible institutionalrepositories: addressingthelowindexing ratios of IRs in Google. Tech Library Hi Tech. 2012, vol. 30, nº 1, pp. 60-81. Available from: https://jira.duraspace.org/secure/attachment/13020/Invisible_institutional.pdf

⁴ MARTÍN-MARTÍN, A., et al.TheWorldBank’spolicyreports in Google Scholar. Are they visible, cited, and downloaded?.EC3 Google ScholarDigestReviews. 2014, nº 2.Available from: http://googlescholardigest.blogspot.com.es/2014/06/world-banks-policy-reports-google-scholar.html

⁵ InclusionGuidelinesforWebmasters. Google Scholar. Available from: http://scholar.google.com/intl/en/scholar/inclusion.html

6AaronTay – http://3.bp.blogspot.com/-5ASx7eh_exA/U46oG0wE51I/AAAAAAAALms/Rf1d3sqf0Z8/s1600/eslevier2013.png

Referências

Inclusion Guidelines for Webmasters. Google Scholar. Available from: http://scholar.google.com/intl/en/scholar/inclusion.html

Inclusion Guidelines for Webmasters: indexing. Google Scholar. Available from: http://scholar.google.com.sg/intl/en/scholar/inclusion.html#indexing

ORDUÑA-MALEA, E., and LÓPEZ-CÓZAR, E.D.The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Paper accepted for publication in the scientometrics. Available from: http://arxiv.org/ftp/arxiv/papers/1406/1406.4331.pdf

ORDUÑA-MALEA, E., et al. Are Latin-American repositories invisible on Google and Google Scholar?. EC3 Google ScholarDigestReviews. 2014, nº 3. Availablefrom: http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html

TAY, A. 8 surprising things I learnt about Google Scholar. Musings about librarianship. 2014. Available from: http://musingsaboutlibrarianship.blogspot.sg/2014/06/8-surprising-things-i-learnt-about.html#.U95p9fnZSYI

Links externos

Biblioteca Digital da Unicamp – http://www.bibliotecadigital.unicamp.br/indicadores/index.php

Red Federada de Repositorios Institucionales de Publicaciones Científicas –  http://www.lareferencia.info/vufind/

 

spinakSobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. Repositórios da América Latina têm pouca visibilidade no Google Scholar [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: http://blog.scielo.org/blog/2014/09/18/repositorios-da-america-latina-tem-pouca-visibilidade-no-google-scholar/

 

One Thought on “Repositórios da América Latina têm pouca visibilidade no Google Scholar

  1. Pingback: Repositórios da América Latina têm pouca visibilidade no Google Scholar | Blog da BC

Leave a Reply

Your email address will not be published. Required fields are marked *

Post Navigation