Al principio eran los plagios, ahora también los ‘papers’ automáticos falsos

En días recientes han aparecido algunos artículos en la prensa que dan la impresión que el sistema editorial académico está siendo inundado por trabajos falsos creados por programas de computación y presentados en conferencias. La información original fue publicada por el artículo Publishers withdraw more than 120 gibberish papers¹, publicada en Nature el 24 de febrero, del cual se hizo eco rápidamente The Guardian en el artículo How computer-generated fake papers are flooding academia²; otros medios de prensa en los siguientes días publicaron comentarios sobre el asunto (Scientific American, Reddit, etc).

La noticia causó impacto porque estos trabajos falsos, creados automáticamente por un programa de computación, habían sido aceptados por editoriales prestigiosas, 16 de éstos por la editora alemana Springer, y más de 100 fueron publicados por el Institute of Electrical and Electronic Engineers (IEEE) en los Estados Unidos. Pero, en realidad, nada de esto debería impresionarnos, en Internet existe el spamming, ¿cierto?, pues también existe en la publicación científica. Para explicar mi punto de vista voy a contar qué hice cuando leí el artículo de Nature, e invito a los lectores a hacer lo mismo porque fue una experiencia muy entretenida.

La noticia de Nature nos decía que los trabajos falsificados habían sido creados por un programa llamado SCIgen – An automatic CS Paper generator³, desarrollado en el MIT por tres estudiantes graduados en el año 2005, que produce papers inventados, pero con excelente redacción y manteniendo estrictamente el formato científico. De acuerdo a la presentación que hacen los mismos autores del programa:

SCIGEN es un programa que genera documentos aleatorios de investigación en Ciencias de la Computación, incluyendo gráficos, figuras y referencias bibliográficas. Utiliza una gramática libre de contexto escrita a mano para formar todos los elementos de los documentos. Nuestro objetivo es maximizar la diversión, en lugar de la coherencia³. (Traducción libre)

El programa SCIgen creado en 2005 en el MIT, fue analizado por un investigador francés, Cyril Labbé, del Laboratorio de Informática de la Universidad de Grenoble quien creó el programa antiScigen y luego publicó en 2012 un trabajo en Scientometrics⁴ sobre los papers falsos generados por computadora. Cyril Labbé también en 2010 demostró la vulnerabilidad de los cálculos del índice-h basados en el Google Académico alimentándolo con más de 100 trabajos generados por SCIgen que se citaban entre sí, y usando este método consiguió clasificar a “Ike Antkare” (autor inventado) como el más citado en la historia.

Entonces yo mismo hice una prueba. Ingresé al sitio, SCIgen³ y en el formulario que dice “Generate a Random Paper”, ingresé como autoras a varias de mis bibliotecarias amigas. Hice tres papers, combinando diferentes autoras, todo lo que me llevó menos de 5 minutos. Luego generé los PDFs de esos trabajos y los bajé a mi computadora para revisar. Formalmente irreprochables. Hasta la bibliografía estaba correctamente construida, que amablemente incluía en algunas de las referencias bibliográficas a mis amigas bibliotecarias como autoras!!!

Preparados los trabajos falsos seguí adelante en mi investigación y procedí a enviar estos tres papers de mis amigas bibliotecarias para que fueran revisados por el “antiScigen”. Ingresé en la página AntiScigen⁵, lo único que requiere es que el paquete de archivos PDFs sean enviados como un archivo .zip. Así lo hicimos y en dos minutos vino el reporte en forma gráfica que se ve en la imagen adjunta. En el gráfico aparecen tres árboles:

  • En negro las secciones de texto singular (no responde a fingerprints conocidos);
  • En rojo secciones de texto que son reconocidas como producidas por SCIgen;
  • En azul secciones de texto que han sido copiadas de otros textos del campo de la computación, pero no generadas por el programa.

En menos de 10 minutos pudimos crear tres trabajos académicos, y luego verificarlos con el programa antiScigen. Parece simple, ¿verdad?

Nada de esto es nuevo en el área de las Ciencias de la Computación. Hoy día, con buena o mala fe, hay gran cantidad de imitadores que manipulan trabajos, crean perfiles falsos en Google Scholar Citations, y luego manipulan las cifras. No solamente se fabrican papers de conferencias, sino todo tipo de otros trabajos. Como ejemplo de generadores similares tenemos los dos siguientes, y vale la pena que haga su experiencia para evaluar.

  • Generador de ensayos académicos6;
  • Generador de propuestas de financiación7.

Pero el que considero más sorprendente de todos es el que hizo Philip Parker, que en su pequeña compañía con la ayuda de unas computadoras y programadores, escribió 200.000 libros y los vende en Amazon. Parker produce un libro cada 20 minutos por un procedimiento patentado.

Pues bien, el spamming ha ingresado al mismo corazón de la ciencia. Como dice el artículo de Nature, nos da igual que los papers se sometan a un mundo controlado (editoriales y revistas de prestigio y con sistemas de revisión por pares) o se envíen a entornos más o menos controlados, o abiertamente incontrolados (páginas web, repositorios, etc….) como es el mundo Google. No existen medios infalibles que puedan impedir que se produzca el fraude, y como dice Emilio Delgado López-Cózar (2007) respecto al peer-review como sistema de evaluación del fraude:

no existen medios infalibles que puedan impedir que el fraude se produzca, ni la publicación por si sola es un sello que garantice la fiabilidad y validez de una investigación, ni el sistema de evaluación por expertos es capaz de detectarlo y neutralizarlo. Básicamente por dos razones. En primer lugar, porque el edificio científico se asienta sobre un pilar axiomático que es falseable: se basa en la buena voluntad de los científicos; … pero si un científico quiere mentir mentirá. … En segundo lugar, porque el sistema de alerta que emplea la ciencia para contrastar la verosimilitud y veracidad de un descubrimiento se aplica en muy pocos casos…  es impracticable dado el volumen actual que ha adquirido la ciencia.

En el mundo de la informática estamos acostumbrados a los virus, troyanos, hackers, phishing, spamming, etc., y para esto se instalan firewalls, antivirus, blacklists, contraseñas, y toda clase de sistemas de seguridad informática. Quienes programan esos “engendros informáticos” y los usan son graduados de ciencias de la computación, quienes muchas veces desarrollan estas actividades como parte de sus trabajos de estudio o tan solo como desafíos personales y hasta por diversión (just for fun).

Reflexiones

Una vez que los trabajos fraudulentos son detectados, las editoriales responsables seguramente removerán esos artículos, pero deberían dejar nota explicando su ausencia. Cabe la pregunta entonces, qué pasa con las cuentas y los índices de Google Scholar, si se reajustan reduciendo los indicadores, y qué pasa con los trabajos y páginas que mantienen links a esos trabajos descartados, ¿siguen siendo válidos?

Los investigadores científicos son como todos los seres humanos, y en un ambiente de alta competencia, donde hay mucho dinero y prestigio envueltos siempre habrá personas dispuestas a “olvidarse” de las reglas.

Los sistemas editoriales deben incorporar los controles correspondientes en sus procedimientos de arbitraje. Como hemos comentado en posts anteriores sobre el plagio, los editores participantes en el Programa SciELO deberían incorporar también procedimientos profesionales para evitar esta clase de publicaciones fraudulentas.

Notas

¹ NOORDEN, R. V. Publishers withdraw more than 120 gibberish papers. Conference proceedings removed from subscription databases after scientist reveals that they were computer-generated. Nature. [viewed 24 February 2014]. Available from: <http://www.nature.com/news/publishers-withdraw-more-than-120-gibberish-papers-1.14763>.

² How computer-generated fake papers are flooding academia. The Guardian. [viewed 27 February 2014]. Available from: <http://www.theguardian.com/technology/shortcuts/2014/feb/26/how-computer-generated-fake-papers-flooding-academia>.

³ SCIgen – An Automatic CS Paper Generator – http://pdos.csail.mit.edu/scigen/.

⁴ LABBÉ, C., and LABBÉ, D. Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science. Scientometrics. [viewed 22 June 2012]. Available from: <http://hal.archives-ouvertes.fr/docs/00/71/35/55/PDF/0-FakeDetectionSci-Perso.pdf>.

⁵ AntiScigen – http://scigendetection.imag.fr/main.php.

6 An essay generator – http://www.essaygenerator.com/.

7 SBIR grant proposal generator. http://www.nadovich.com/chris/randprop/.

Referencias

COHEN, N. He Wrote 200,000 Books (but Computers Did Some of the Work). The New Work Times. [14 April 2008]. Available from: <http://www.nytimes.com/2008/04/14/business/media/14link.html?pagewanted=all&_r=0>.

HILL, D.J. Patented book writing system creates, sells hundreds of thousands of books on amazon. Singularity HUB. [13 December 2012]. Available from: <http://singularityhub.com/2012/12/13/patented-book-writing-system-lets-one-professor-create-hundreds-of-thousands-of-amazon-books-and-counting/>.

LABBÉ, C. Ike Antkare one of the greatest stars in the scientific firmament. LIG Laboratory. [14 April 2010]. Available from: <http://hal.inria.fr/docs/00/71/35/64/PDF/TechReportV2.pdf>.

LÓPEZ-COZAR, E. D., SALINAS, D. T., and LÓPEZ, A. R. El fraude en la ciencia: reflexiones a partir del caso Hwang. El profesional de la información. 2007, marzo-abril, vol. 16, nº 2. Available from: <http://eprints.rclis.org/9979/1/g61n63522lg20818.pdf>.

Enlace externo

AntiScigen – http://scigendetection.imag.fr/main.php

 

Ernesto SpinakSobre Ernesto Spinak

Colaborador do SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía,  con  Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España.  Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. Al principio eran los plagios, ahora también los ‘papers’ automáticos falsos [online]. SciELO en Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/es/2014/03/31/al-principio-eran-los-plagios-ahora-tambien-los-papers-automaticos-falsos/

 

2 Thoughts on “Al principio eran los plagios, ahora también los ‘papers’ automáticos falsos

  1. Pingback: SciELO participa de la Coalición global en defensa de las licencias Creative Commons de acceso a los artículos científicos |

  2. Pingback: Artículo analiza la saturación de los revisores por pares | SciELO en Perspectiva | Francisca Cuéllar Gragera

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation