Ética editorial – cómo detectar el plagio por medios automatizados

Como hemos visto en posts anteriores1,2,3, el plagio, a pesar de ser una práctica que viola las normas de la ética (además de los derechos de autor), es mucho más frecuente de lo que una persona ingenuamente podría pensar. La razón instrumental del incremento del plagio es la facilidad con la que se tiene acceso a los contenidos online. A tal grado ha crecido esta práctica en los últimos 10 años, que la National Science Foundation ha destinado desde 2011 casi 100 millones de dólares para el análisis de este problema, y las revistas científicas reportan que la cantidad de retractaciones ha crecido por 10 en los pasados 20 años.  Sobre retractación y plagio vea la nota al final del artículo.

En los ambientes académicos se han revelado cifras preocupantes. Por ejemplo una verificación de plagio llevada a cabo sobre 285.000 textos científicos en arXiv.org recuperó más de 500 documentos que muy probablemente fueron plagiados, además de otros 30.000 documentos (el 20% de la colección [sic]) que tenían fuertes indicios de excesivo auto-plagio.

Este problema hace necesario que los responsables editoriales de las publicaciones científicas, en particular las que se publican en SciELO, tomen todas las prevenciones necesarias para evitarlo, y estos procedimientos deben incluir también herramientas computacionales.

La detección de plagio es el proceso de localizar dentro de una obra o documento, secciones que han sido tomadas de otras fuentes sin hacer las referencias correspondientes. El plagio puede ocurrir en cualquier clase de documento, no solamente en los trabajos científicos, pues también ocurre en la prensa, en las tesis de graduación, en los códigos de programas de computadoras, diseños de arte, etc.

Los sistemas de detección de plagio (Plagiarism Detection Systems – PDS en inglés) con asistencia de computadoras tienen dos enfoques básicos, i. la comparación externa y ii. el análisis intrínseco. Los procesos de detección externa requieren tener acceso a una vasta colección de documentos, que se consideran “genuinos”, contra los cuales se compara la obra bajo análisis. Los análisis intrínsecos hacen reconocimientos estadísticos del vocabulario y del estilo de escritura, usando técnicas lingüísticas propias de la especialidad llamada estilometría4.

Una clasificación usual de los procedimientos de detección de plagio es la siguiente:

  • Fingerprinting (huella digital)
  • String matching (comparación de cadenas)
  • Recuperación en espacios vectoriales
  • Análisis de citaciones
  • Estilometría

En todos los casos, se usan algoritmos de computación para representar a los documentos mediante patrones de texto (fingerprints), o estructuras de argumentación, o patrones de citación con secuencias similares, y estas representaciones algorítmicas se usan para verificarlos contra los documentos sospechosos. Los algoritmos que usan la representación del texto forman parte de la teoría de la recuperación de información (information retrieval: IR). Los procesos, según sea su complejidad y la dimensión de la base de documentos “genuinos”, pueden llevar tiempos importantes de máquina, en particular cuando se usan fuentes en Internet para alimentar las bases de datos de documentos genuinos.

Pero, lamentablemente, esta es una visión simplista del problema, porque asume que el plagio es simplemente una copia literal (verbatim) y fácilmente detectable, del tipo “copy & paste”. Sin embargo la exactitud de la detección automatizada decrece a medida que el procedimiento de plagio se va encubriendo por alguna de las siguientes técnicas:

  • Plagio disfrazado
    • Copiar y mezclar segmentos de fuentes diferentes haciendo un texto coherente;
    • Plagio expansivo: al segmento copiado se insertan porciones de texto adicional;
    • Plagio contractivo: un resumen o texto original que ha sido “podado”;
    • Plagio en mosaico: se mezclan segmentos de diferentes fuentes, cambiando el orden de las palabras, usando sinónimos e insertando/borrando palabras de relleno.
  • Paráfrasis. Se re-escribe intencionalmente las ideas ajenas.
  • Traducción. Se traduce por máquina párrafos externos desde y hacia otros idiomas, y luego se los ajusta puliendo el estilo.
  • Plagio de ideas. Es la apropiación de métodos de investigación, procedimientos experimentales, estructuras argumentativas, fuentes de información. Lo que se copia no es el texto, sino los métodos.

Existen además otras formas más sofisticadas de manipulación de los textos para engañar a los algoritmos computacionales, en particular muy usados en idiomas que tienen diacríticos (escandinavos, cirílico, etc), o en alfabetos como el japonés y el hebreo.

Una técnica muy frecuente es uso de homoglyphs5, letras o secuencias de letras que se ven similares pero tienen representaciones internas diferentes, por ejemplo sustituir el 0 (cero) por la letra “o” mayúscula O, o la transcripción de letras del alfabeto griego o latino. Existe más de 40 sustituciones posibles y son de uso frecuente en los trabajos de graduación de estudiantes para evitar la detección del plagio, pues muy pocas aplicaciones de software son capaces de detectar estas sustituciones (Turnitin y Urkund son casi excepciones en PDS). El estado del arte de los PDS puede resumirse con la frase siguiente: “PDS encuentra copias, no plagio” (Gipp and Meuschke 2011).

Una búsqueda en Internet revela que existen docenas de aplicaciones de software, comerciales y gratuitas, con diferentes grados de eficacia, y se ha convertido en un área de investigación y desarrollo que ha crecido fuertemente en los últimos 10 años. Pero hay que tomar en cuenta que la tecnología actual de PDS es inexacta, y existen muchos mitos sobre el tema, uno de ellos es que cualquier trabajo copiado va a ser detectado. A pesar de que los sistemas comerciales más importantes, como iThenticate, Copyscape, Turnitin, Urkund disponen de bases de documentos “genuinos” que contienen decenas de miles de millones de páginas web, casi 100 millones de trabajos académicos offline, y casi 40 millones de artículos procedentes de decenas de miles de revistas científicas, esto no es suficiente, porque:

  • La información publicada va creciendo más rápidamente que la que Google puede indexar, y no existe una base de datos de documentos “genuinos” que contenga todo lo que se ha publicado.
  • Por ejemplo: los detectores de plagio pueden obviarse si se envían simultáneamente dos papers similares a dos revistas para publicar, puesto que al no estar publicados no son detectados.

El tema es tan importante que desde el año 2004 la University of Applied Sciences de la Hochschule für Technik und Wirtshaft Berlin (HTW, Berlin), mantiene un sitio especializado en software de PDS, y realiza competencias internacionales donde las aplicaciones son sometidas a rigurosas pruebas de esfuerzo. El portal sobre plagio es mantenido por la Dra. Debora Weber-Wulff, professor for media and computing at the HTW Berlin.

Los resultados de la competencia realizada en el año 2013, donde se analizaron 28 sistemas, de los cuales solamente 15 pudieron completar la serie de más de 70 pruebas a las que fueron sometidos, están disponibles en el Portal Plagiarism de la HTW6 y serán publicados en forma de libro a fin de enero de 20147.

Los problemas más complicados de resolver detectados en las pruebas fueron la alta presencia de falsos negativos y falsos positivos, causados en general por el uso de frases comunes en la especialidad temática que aborda el documento. Los errores por falos positivos son importantes porque si no se aplican criterios supervisados por personas, podrían causar daños en la reputación de los autores del trabajo analizado.

De acuerdo al informe de la HTW existen muchos problemas en la determinación mecánica del plagio y que requieren criterios humanos de decisión. Algunos de los problemas mencionados son:

  • ¿Qué constituye exactamente el plagio, el simple copy & paste, o también hacer paráfrasis sin dar la fuente, o tomar solamente las ideas?
  • ¿Cuánto puede copiarse de un trabajo sin que llegue a ser considerado plagio?
  • ¿Solamente es plagio cuando se copia con el propósito de engañar?
  • ¿Los PDS verifican el texto completo, o solamente extractos por muestreo?

Las pruebas de este año 2013 seleccionaron solamente tres aplicaciones en la categoría “parcialmente útiles”, (la más alta asignada), a saber: Urkund, Turnitin (usado por los productos iThenticate y WriteCheck) y Copyscape, teniendo Urkund mejor puntaje en la eficacia pero problemas de usabilidad.

Nota sobre retractación

De acuerdo con la Real Academía de la Lengua Española8, la retractación consiste en la acción de revocar expresamente lo que se ha dicho]. Para la National Lybrary of Medicine9 un artículo después de su publicación puede ser objeto de las siguientes modificaciones: errata, retractación – total o parcial -, corrección y republicación, plagio – publicación duplicada -, comentarios – incluye réplicas del autor -, versiones actualizadas y republicaciones – reimpresos -. De todas ellas, la retractación y el plagio tiene un mayor peso tanto científico como social.

El Programa SciELO da orientaciones sobre la forma de publicar las retractaciones10.

Conclusiones

Debido a que los resultados están mezclados, con pros y contras, no es posible recomendar el uso de un sistema en particular, especialmente cuando hay muchas situaciones diferentes, donde algunas aplicaciones pueden ser particularmente útiles para casos específicos, pero no en general.

Los software considerados como detección de plagio, en realidad no detectan el plagio, solamente pueden demostrar textos paralelos. La decisión de si es plagio o no reside finalmente en los revisores que usan el software. Lo que se dispone es de una herramienta y no una prueba.

Sería importante que la comunidad de editores de SciELO, que publican al día de hoy más de 1.000 revistas en 16 países, tomaran una iniciativa para el entrenamiento y uso de estas herramientas para mejorar la calidad de lo que se publica en la Red SciELO.

Notas

¹ Ética editorial y el problema del plagio – http://blog.scielo.org/es/2013/10/02/etica-editorial-y-el-problema-del-plagio/#.Usfw9Wx3u00

² Ética editorial y el problema del autoplagio – http://blog.scielo.org/es/2013/11/11/etica-editorial-y-el-problema-del-autoplagio/#.UsfxeGx3u00

³ Ética editorial –el Ghostwriting es una práctica insalubre – http://blog.scielo.org/es/2014/01/16/etica-editorial-el-ghostwriting-es-una-practica-insalubre/#.UuZDK7TJ2Hs

Stylometry – http://en.wikipedia.org/wiki/Stylometry

Homoglyph: In typography, a homoglyph is one of two or more characters, or glyphs, with shapes that either appear identical or cannot be differentiated by quick visual inspection. This designation is also applied to sequences of characters sharing these properties.

6 Results of the Plagiarism Detection System Test 2013 – http://plagiat.htw-berlin.de/software-en/test2013/

7 WEBER-WOLFF, D. False Feathers: A Perspective on Academic Plagiarism. 200p. 2014.

8 Real Academia Española – Retractar – http://buscon.rae.es/drae/?type=3&val=retractarse&val_aux=&origen=REDRAE

9 U.S. National Library of Medicine – http://www.nlm.nih.gov/pubs/factsheets/errata.html

10 SciELO – Procedimento para retractación de Artículos – http://www.scielo.org/php/level.php?lang=es&component=44&item=49

Referencias

The Scientist: exploring life, inspiring innovation. Defending Against Plagiarism: publishers need to be proactive about detecting and deterring copied text. June 1, 2013. Available from: <http://www.the-scientist.com/?articles.view/articleNo/35677/title/Defending-Against-Plagiarism/>.

SOROKINA, D., et al. Plagiarism Detection in arXiv. 2007. Available from: <http://arxiv.org/ftp/cs/papers/0702/0702012.pdf>.

GIPP, B., and MEUSCHKE, N. Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. Proceedings of the 11th ACM. 2011. Available from: <http://sciplore.org/wp-content/papercite-data/pdf/gipp11c.pdf>.

GIPP, B., MEUSCHKE, N., an BEEL, J. Comparative evaluation of text- and citation-based plagiarism detection approaches using guttenplag. In Proceedings of JCDL. pp. 255-258. 2011. Available from: <http://gipp.com/wp-content/papercite-data/pdf/gipp11.pdf>.

iThenticate. Plagiarism Detection Software Misconceptions. Free paper: 7 Misconceptions of Plagiarism Detection Software. Available from: <http://www.ithenticate.com/resources/papers/plagiarism-detection-software-misconceptions>.

Enlaces externos

ArXivarxiv.org

HTW, Berlin – http://plagiat.htw-berlin.de/software-en/

Urkund – http://www.urkund.com/int/en/

Turnitin – http://www.turnitin.com/

Copyscape – http://www.copyscape.com/

iThenticate – http://www.ithenticate.com/

WriteCheck – http://en.writecheck.com/

 

Ernesto SpinakSobre Ernesto Spinak

Colaborador do SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía,  con  Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España.  Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. Ética editorial – cómo detectar el plagio por medios automatizados [online]. SciELO en Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/es/2014/02/12/etica-editorial-como-detectar-el-plagio-por-medios-automatizados/

 

5 Thoughts on “Ética editorial – cómo detectar el plagio por medios automatizados

  1. Pingback: Como detectar o plágio nas publicações | spd fmusp

  2. Pingback: Perfil de los investigadores que integran el núcleo de la ciencia mundial en publicaciones |

  3. Un artículo muy interesante muchas gracias.

    Un saludo,

    Ben Steiner

  4. Pingback: Detectores de Plagio « Análisis Deportivo

  5. H. Bermeo on July 25, 2017 at 23:16 said:

    Artículo interesante e informativo sobre como funciona los denominados “sistemas de detección de plagio”. Desde el punto de vista de un estudiante es una información muy útil para evitar el plagio inintencionado.
    El artículo presenta un pequeño error ortográfico, omitieron la s en falsos en el siguiente párrafo: “Los errores por falsos positivos son importantes porque si no se aplican criterios supervisados por personas, podrían causar daños en la reputación de los autores del trabajo analizado.”

Leave a Reply to H. Bermeo Cancel reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation