Es de todos conocido el problema del plagio en la literatura científica. Un estudio reciente realizado por dos investigadores de la Cornell University publicado el pasado diciembre en los Proceedings of the National Academy of Sciences1, sobre el corpus de documentos de arXiv.org muestra que la costumbre de reutilizar textos de un artículo en otro es más común en algunos países que en otros, pero (afortunadamente) los resultados parecen demostrar que los autores que copian textos ajenos más extensamente son menos citados.
El estudio se realizó usando los 757.000 documentos a texto completo que arXiv ha recopilado entre 1991 y el año 2012. Este repositorio se especializa en Física, Matemáticas y Ciencias de la Computación recibiendo aproximadamente unas 80.000 entregas por año. La investigación buscó pasajes duplicados entre los documentos usando una técnica de lingüística computacional llamada “n-grama” (ver explicación en nota abajo). El hecho de que se encuentren segmentos de textos duplicados entre documentos no es una demostración de plagio, pero por encima de un cierto umbral puede considerarse una señal de alerta. De cualquier modo el término usado por los autores es “superposición de texto” (text overlap) que no es lo mismo que plagio, pues es solo un indicador de alerta.
El estudio tomó varias precauciones para evitar falsos positivos. Por ejemplo, el software tiene la capacidad de excluir los párrafos que son citas entrecomillada o en cursiva, citas correctamente referenciadas, los artículos de revisión, así como proceedings de conferencias, y disertaciones. Por otra parte, la investigación se realizó solamente con los documentos de arXiv, y no se realizaron estos análisis con textos completos procedentes de otras fuentes de editoriales o en la Web.
Usando los datos del estudio de Ginsparg investigadores de la revista ScienceInsider2 realizaron un mapa sobre los países informados por dichos autores. De los 151 países representados en arXiv.org, solo seleccionaron los 57 países que habían contribuido con más de 100 artículos cada uno, de modo que los resultados fueran representativos. El resultado general dio que un 6% del total de trabajos fueron marcados por alta tasa de “superposición de texto”. Pero el resultado no fue similar en los distintos países y regiones.
Los países que consistentemente, sin importar las métricas usadas, contienen los porcentajes más altos de artículos marcados son (en orden alfabético)
Arabia Saudita, Armenia, Bangladesh, Bielorrusia, Bulgaria, Chipre, Colombia, Egipto, Georgia, Grecia, Irán, Jordania, Kazajstán, Kirguizistán, Letonia, Luxemburgo, Micronesia, Moldava, Pakistán, Uzbekistán, Rumania.
Es muy importante tomar en cuenta la tradición científica de los países con esos resultados, pues en los Estados Unidos, Canadá y unos pocos países industrializados de Europa y Asiam, la cantidad de trabajos marcados estuvo en el orden del 1%, Japón del 6%, China e India llegando al doble del promedio con 10%, y valores más altos como Irán (15%) y Bulgaria (20%) que es ocho veces más alto que Nueva Zelanda.
Si bien el estudio fue realizado para algunas áreas de investigación (arXiv.org se especializa en física y matemática), no es posible extrapolarlo a otras disciplinas donde la reutilización de texto sea una práctica común, como la descripción de infraestructura o procedimientos experimentales. Por otra parte es reconocido por los autores de la investigación, a los efectos de reducir los falsos positivos, que los umbrales de alerta que se pusieron en el software, hace que la detección sea mucho más indulgente que la de cualquier publicación arbitrada.
Frente a la disparidad de resultados entre los países, los autores Ginsparg y Citron atribuyen estas prácticas, que se acercan al plagio científico, a “diferencias en infraestructura y tutorías o los incentivos que enfatizan la cantidad de publicaciones por encima de la calidad”.
Esto nos hace recordar un viejo refrán que dice: “los directores no pueden leer, solo pueden contar”.
Nota sobre el modelo de n-grama
El modelo de n-grama aplicado en la lingüística computacional se puede usar para la detección de duplicación de texto (o textos que se superponen). El procedimiento usado por Ginsparg y Citron usó 7-gramas, es decir secuencias de 7 palabras consecutivas extraídas en forma desplazante del texto. Por ejemplo si tenemos el texto de comienzos de este párrafo, el programa extraerá las siguientes claves:
El modelo de n-grama aplicado en la
modelo de n-grama aplicado en la lingüística
de n-grama aplicado en la lingüística computacional
n-grama aplicado en la lingüística computacional se
…
Hasta llegar al punto final de la frase, y se comienza con la siguiente frase sucesivamente hasta completar el documento.
Cada frase extraída se convierte en una clave, y el documento queda representado por un conjunto de claves que se expresan como un vector en un espacio de n dimensiones. Esta representación vectorial del documento se conoce como “fingerprint”. El procedimiento descarta las frases muy comunes, como por ejemplo “the rest of this article is organized”, para evitar falsos positivos.
Una vez que se tienen los fingerprints de todos los documentos del corpus se comienza el análisis de superposición de claves. Para ellos se toma cada par de documentos que existen en la colección, y a cada pareja se la caracteriza con el número de claves compartidas. Aquellas parejas de documentos con más de 100 7-gramas en común se las marca como “sospechosas”.
Notas
1 CITRON, D.T., GINSPARG, P. Patterns of text reuse in scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf.
2 BOHANNON, J. Study of massive preprint archive hints at the geography of plagiarism. ScienceInsider. Available from: http://news.sciencemag.org/scientific-community/2014/12/study-massive-preprint-archive-hints-geography-plagiarism.
Referencias
BOHANNON, J. Study of massive preprint archive hints at the geography of plagiarism. ScienceInsider. Available from: http://news.sciencemag.org/scientific-community/2014/12/study-massive-preprint-archive-hints-geography-plagiarism.
CITRON, D.T., GINSPARG, P. Patterns of text reuse in scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf.
CITRON, D.T., GINSPARG, P. Supplemental material for patterns of text resue in a scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf.
N-grama. Wikipedia. Available from: http://es.wikipedia.org/wiki/N-grama.
Enlace externo
arXiv – <http://arxiv.org>
Sobre Ernesto Spinak
Colaborador do SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.
Como citar este post [ISO 690/2010]:
Pingback: Ética editorial – la geografía del plagio | Journal of Pharmacy & Pharmacognosy Research: The Blog