A principio era os plágios, agora também ‘papers’ automáticos falsos

Recentemente têm aparecido alguns artigos na imprensa que dão a impressão que o sistema editorial acadêmico está sendo inundado por trabalhos falsos criados por programas de computação e apresentados em conferências. A informação original foi publicada pelo artigo Publishers withdraw more than 120 gibberish papers¹, publicada no periódico Nature em 24 de fevereiro, do qual se fez eco rapidamente no The Guardian no artigo How computer-generated fake papers are flooding academia²; outros veículos de imprensa nos dias subsequentes publicaram comentários sobre o assunto (Scientific American, Reddit, etc.).

A notícia causou impacto porque estes trabalhos falsos, criados automaticamente por um programa de computação, haviam sido aceitos por publishers renomados, 16 deles pela alemã Springer, e mais de 100 foram publicados pelo Institute of Electrical and Electronic Engineers (IEEE) nos Estados Unidos. Entretanto, na realidade, nada disso deveria nos impressionar, pois na Internet existe o spamming, certo? Pois também existe na publicação científica. Para explicar meu ponto de vista vou contar o que fiz quando li o artigo da Nature, e convido os leitores a fazerem o mesmo, pois foi uma experiência muito interessante.

A notícia da Nature nos dizia que os trabalhos falsificados haviam sido criados por um programa chamado SCIgen – An automatic CS Paper generator³, desenvolvido no MIT por três estudantes graduados em 2005, que produz artigos inventados, porém com excelente redação e mantendo estritamente o formato científico. De acordo com a apresentação feita pelos próprios autores do programa:

SCIGEN é um programa que gera documentos aleatórios de pesquisa em Ciências da Computação, incluindo gráficos, figuras e referencias bibliográficas. Utiliza uma gramática livre de contexto escrita a mão para formar todos os elementos dos documentos. Nosso objetivo é maximizar a diversidade, em lugar da coerência³. (Tradução livre)

O programa SCIgen, criado em 2005 no MIT, foi analisado por um pesquisador francês, Cyril Labbé, do Laboratório de Informática da Universidade de Grenoble que criou o programa antiScigen e logo publicou em 2012 um trabalho em Scientometrics⁴ sobre os artigos falsos gerados por computador. Cyril Labbé também demostrou em 2010 a vulnerabilidade dos cálculos do índice-h baseados no Google Acadêmico alimentando-o com mais de 100 trabalhos gerados por SCIgen que se citavam entre si, e usando este método conseguiu classificar Ike Antkare (um autor inventado) como o mais citado na historia.

Então eu mesmo fiz um teste. Entrei no site, SCIgen³ e no formulário que diz Generate a Random Paper, ingressei com autoras varias de minhas amigas bibliotecárias. Fiz três artigos, combinando diferentes autoras, o que levou menos de 5 minutos. Logo gerei os PDFs destes trabalhos e fiz o download deles em meu computador para revisar. Formalmente irrepreensíveis. Até a bibliografia estava corretamente construída, que amavelmente incluía em algumas das referências bibliográficas minhas amigas bibliotecárias como autoras!!!

Preparados os trabalhos falsos segui adiante em minha pesquisa e procedi com o envio destes três artigos de minhas amigas bibliotecárias para que fossem revisados pelo “antiScigen”. Entrei na página AntiScigen⁵, o único requisito é que o pacote de arquivos PDFs seja enviado como um arquivo .zip. Assim foi feito e em dois minutos chegou o relatório na forma gráfica que se vê na imagem abaixo. No gráfico aparecem três árvores:

Em preto as sessões de texto singular (não responde a fingerprints conhecidos);
Em vermelho as sessões de texto que são reconhecidas como produzidas por SCIgen;
Em azul as sessões de texto que foram copiadas de outros textos no campo da computação, mas não geradas pelo programa.

Em menos de 10 minutos pudemos criar três trabalhos acadêmicos, e logo verificá-los com o programa antiScigen. Parece simples, não é mesmo?

Nada disso é novo na área das Ciências da Computação. Hoje em dia, com boa ou má fé, existe uma grande quantidade de imitadores que manipulam trabalhos, criam perfis falsos em Google Scholar Citations, e logo manipulam os dados. Não somente se fabricam papers de conferencias, mas também todo tipo de outros trabalhos. Como exemplo de geradores similares temos os dois seguintes, e vale a pena que você faça sua experiência para avaliar.

Gerador de ensaios acadêmicos⁶;
Gerador de propostas de financiamento⁷.

Porém o que considero mais surpreendente de todos foi o criado por Philip Parker, que em sua pequena companhia com a ajuda de alguns computadores e programadores, escreveu 200.000 livros e os vende na Amazon (9,10). Parker produz um livro a cada 20 minutos por um procedimento patenteado.

Pois bem, o spamming ingressou no seio da ciência. Como diz o artigo da Nature, dá no mesmo que os papers sejam submetidos a um mundo controlado (publishers e revistas de prestigio e com sistemas de revisão por pares) ou que sejam enviados a ambientes mais ou menos controlados, ou abertamente não controlados (páginas web, repositórios, etc.), como é o mundo Google. Não existem meios infalíveis que possam impedir que se produza a fraude, e como diz Emilio Delgado López-Cózar (2007) a respeito do peer-review como sistema de avaliação da fraude:

não existem meios infalíveis que possam impedir que a fraude seja produzida, nem a publicação por si só é um selo que garante a confiabilidade e validez de uma pesquisa, nem o sistema de avaliação por especialistas é capaz de detecta-la e neutraliza-la. Basicamente por duas razões. Em primeiro lugar, porque o edifício científico se assenta sobre um pilar axiomático que é falsificável: se baseia na boa vontade dos cientistas; … mas se um cientista quiser mentir, mentirá. … Em segundo lugar, porque o sistema de alerta que a ciência emprega para contrastar a verossimilhança e a veracidade de um descobrimento se aplica em muitos poucos casos… é impraticável dado o volume atual que a ciência adquiriu. (tradução livre)

No mundo da informática estamos acostumados aos vírus, troyan, hackers, phishing, spamming, etc., e para isso são instalados firewalls, antivírus, blacklists, senhas, e toda sorte de sistemas de segurança informática. Quem programa estas “criações informáticas” e as usam são graduados de ciências da computação, que muitas vezes desenvolvem estas atividades como parte de seus trabalhos de estudo ou apenas como desafios pessoais e até por diversão (just for fun).

Reflexões

Uma vez que os trabalhos fraudulentos são detectados, os publishers responsáveis seguramente removerão estes artigos, mas deveriam deixar uma nota explicando sua ausência. Cabe a pergunta, então, o que acontece com as contas e os índices do Google Scholar, se são reajustados reduzindo os indicadores, e o que acontece com os trabalhos e páginas que mantém links para estes trabalhos descartados, continuam sendo válidos?

Os pesquisadores científicos são como todos os seres humanos, e em um ambiente de alta competência, onde há muito dinheiro e prestígio envolvidos sempre haverá pessoas dispostas a “esquecer” as regras.

Os sistemas editoriais devem incorporar os controles correspondentes em seus procedimentos de arbitragem. Como comentamos em posts anteriores sobre o plágio, os editores participantes do Programa SciELO deveriam incorporar também procedimentos profissionais para evitar esta classe de publicações fraudulentas.

Notas

¹ NOORDEN, R. V. Publishers withdraw more than 120 gibberish papers. Conference proceedings removed from subscription databases after scientist reveals that they were computer-generated. Nature. [viewed 24 February 2014]. Available from: <http://www.nature.com/news/publishers-withdraw-more-than-120-gibberish-papers-1.14763>.

² How computer-generated fake papers are flooding academia. The Guardian. [viewed 27 February 2014]. Available from: <http://www.theguardian.com/technology/shortcuts/2014/feb/26/how-computer-generated-fake-papers-flooding-academia>.

³ SCIgen – An Automatic CS Paper Generator – http://pdos.csail.mit.edu/scigen/.

⁴ LABBÉ, C., and LABBÉ, D. Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science. Scientometrics. [viewed 22 June 2012]. Available from: <http://hal.archives-ouvertes.fr/docs/00/71/35/55/PDF/0-FakeDetectionSci-Perso.pdf>.

⁵ AntiScigen – http://scigendetection.imag.fr/main.php.

⁶An essay generator – http://www.essaygenerator.com/.

⁷ SBIR grant proposal generator. http://www.nadovich.com/chris/randprop/.

Referências

COHEN, N. He Wrote 200,000 Books (but Computers Did Some of the Work). The New Work Times. [14 April 2008]. Available from: <http://www.nytimes.com/2008/04/14/business/media/14link.html?pagewanted=all&_r=0>.

HILL, D.J. Patented book writing system creates, sells hundreds of thousands of books on amazon. Singularity HUB. [13 December 2012]. Available from: <http://singularityhub.com/2012/12/13/patented-book-writing-system-lets-one-professor-create-hundreds-of-thousands-of-amazon-books-and-counting/>.

LABBÉ, C. Ike Antkare one of the greatest stars in the scientific firmament. LIG Laboratory. [14 April 2010]. Available from: <http://hal.inria.fr/docs/00/71/35/64/PDF/TechReportV2.pdf>.

LÓPEZ-COZAR, E. D., SALINAS, D. T., and LÓPEZ, A. R. El fraude en la ciencia: reflexiones a partir del caso Hwang. El profesional de la información. 2007, marzo-abril, vol. 16, nº 2. Available from: <http://eprints.rclis.org/9979/1/g61n63522lg20818.pdf>.

Link externo

AntiScigen – http://scigendetection.imag.fr/main.php

Sobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

Posts relacionados:

IA: Como detectar textos produzidos por chatbox e…

Como citar este post [ISO 690/2010]:

SPINAK, E. A principio era os plágios, agora também ‘papers’ automáticos falsos [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/blog/2014/03/31/a-principio-era-os-plagios-agora-tambem-papers-automaticos-falsos/

4 Thoughts on “A principio era os plágios, agora também ‘papers’ automáticos falsos”

Pingback: SciCast #38 — Aquele com a sopa de letrinhas
Pingback: Perfil dos pesquisadores que integram o cerne da ciência mundial em publicações |
Pingback: #38: Altmetria | SciCast
Pingback: Scicast #38: Altmetria – Podflix - #SciCast - Podcast