Ética editorial – a geografia do plágio

É conhecido por todos o problema do plágio na literatura científica. Um estudo recente realizado por dois pesquisadores da Cornell University publicado em dezembro passado em Proceedings of the National Academy of Sciences¹, sobre o corpus de documentos do arXiv.org mostra que o hábito de reutilizar textos de um artigo em outro é mais comum em alguns países que em outros, porém (afortunadamente) os resultados parecem demostrar que os autores que copiam textos alheios mais extensamente são menos citados.

O estudo foi realizado usando os 757.000 documentos em texto completo que o arXiv recompilou entre 1991 e 2012. Este repositório se especializa em Física, Matemática e Ciências da Computação, recebendo aproximadamente 80.000 artigos por ano. A pesquisa buscou trechos duplicados entre os documentos usando uma técnica de linguística computacional chamada “n-grama” (ver explicação na nota abaixo). O fato de serem encontrados segmentos de textos duplicados nos documentos não é uma demonstração de plágio, porém ocorrendo isso acima de um certo grau pode-se considerar um sinal de alerta. De qualquer modo, o termo usado pelos autores é “superposição de texto” (text overlap) que não é o mesmo que plágio, pois esse é só um indicador de alerta.

O estudo tomou várias precauções para evitar falsos positivos. Por exemplo, o software tem a capacidade de excluir os parágrafos que são citações entre aspas ou em itálico, citações corretamente referenciadas, artigos de revisão, assim como proceedings de conferências, e dissertações. Por outro lado, a pesquisa foi realizada somente com os documentos do arXiv, e não realizou-se esta análise com textos completos procedentes de outras fontes de editoras ou na Web.

Usando os dados do estudo de Ginsparg, pesquisadores do periódico ScienceInsider² fizeram um mapa dos países informados por estes autores. Dos 151 países representados no arXiv.org, selecionam apenas os 57 países que haviam contribuído com mais de 100 artigos, cada um de modo que os resultados fossem representativos. O resultado geral foi que 6% do total de trabalhos foram marcados por alta taxa de “superposição de texto”. Porém, o resultado não foi similar nos distintos países e regiões.

Os países que consistentemente, sem importar as métricas usadas, contém as percentagens mais altas de artigos marcados são (em ordem alfabética):

Arábia Saudita, Armênia, Bangladesh, Bielorrússia, Bulgária, Chipre, Colômbia, Egito, Geórgia, Grécia, Irã, Jordânia, Cazaquistão, Quirguizistão, Letônia, Luxemburgo, Micronésia, Moldava, Paquistão, Uzbequistão, Romênia.

É muito importante levar em conta a tradição científica dos países com esses resultados, uma vez que nos Estados Unidos, Canadá e poucos países industrializados da Europa e Ásia, a quantidade de trabalhos marcados está na ordem de 1%, Japão 6%, China e Índia chegando ao dobro da média, com 10%, e valores mais altos como Irã (15%) e Bulgária (20%), que é oito vezes mais alto que o índice da Nova Zelândia.

Embora o estudo tenha sido realizado para algumas áreas de pesquisa (arXiv.org é especializado em física e matemática), não é possível extrapolá-lo a outras disciplinas onde a reutilização de texto seja uma prática comum, como a descrição de infraestrutura ou procedimentos experimentais. Por outro lado, é reconhecido pelos autores da pesquisa que, com a finalidade de reduzir falsos positivos, os graus de alerta que foram inseridos no software fazem com que a detecção seja muito mais indulgente que a de qualquer publicação arbitrada.

Frente à disparidade de resultados entre os países, os autores Ginsparg e Citron atribuem estas práticas, que se aproximam ao plagio científico, à “diferenças em infraestrutura e orientação, ou os incentivos que enfatizam a quantidade de publicações acima da qualidade”.

Isso nos faz recordar um velho ditado que diz: “os diretores não sabem ler, apenas contar”.

Nota sobre o modelo n-grama

O modelo de n-grama aplicado em linguística computacional pode ser usado para a detecção de duplicação de texto (ou textos que se superpõe). O procedimento usado por Ginsparg e Citron usou 7-gramas, quer dizer, sequências de 7 palavras consecutivas extraídas em forma deslocada do texto. Por exemplo, se temos o texto do início deste parágrafo, o programa extrairá as seguintes chaves:

O modelo de n-grama aplicado em
modelo de n-grama aplicado em linguística
de n-grama aplicado em linguística computacional
n-grama aplicado em linguística computacional pode
…

Até chegar ao ponto final da frase, e se recomeça com a frase seguinte, sucessivamente até completar o documento.

Cada frase extraída se converte em uma chave, e o documento fica representado por um conjunto de chaves que se expressam como um vetor em um espaço de n dimensões. Esta representação vetorial do documento é conhecida como “fingerprint”. O procedimento descarta as frases muito comuns, como por exemplo “the rest of this article is organized”, para evitar falsos positivos.

Uma vez que se tem os fingerprints de todos os documentos do corpus, começa-se a análise de superposição de chaves. Para isso, toma-se cada par de documentos que existem na coleção e cada par caracteriza-se com o número de chaves compartilhadas. Os pares de documentos com mais de 100 7-gramas em comum são marcadas como “suspeitos”.

Notas

¹ CITRON, D.T., GINSPARG, P. Patterns of text reuse in scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf

² BOHANNON, J. Study of massive preprint archive hints at the geography of plagiarism. ScienceInsider. Available from: http://news.sciencemag.org/scientific-community/2014/12/study-massive-preprint-archive-hints-geography-plagiarism

Referências

BOHANNON, J. Study of massive preprint archive hints at the geography of plagiarism. ScienceInsider. Available from: http://news.sciencemag.org/scientific-community/2014/12/study-massive-preprint-archive-hints-geography-plagiarism

CITRON, D.T., GINSPARG, P. Patterns of text reuse in scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf

CITRON, D.T., GINSPARG, P. Supplemental material for patterns of text resue in a scientific corpus. PNAS. 2014, vol. 112, nº 1. Available from: http://arxiv.org/ftp/arxiv/papers/1412/1412.2716.pdf

N-grama. Wikipedia. Available from: http://es.wikipedia.org/wiki/N-grama.

Link externo

arXiv – <http://arxiv.org>

Sobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado em Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

Posts relacionados:

Como citar este post [ISO 690/2010]:

SPINAK, E. Ética editorial – a geografia do plágio [online]. SciELO em Perspectiva, 2015 [viewed ]. Available from: https://blog.scielo.org/blog/2015/02/25/etica-editorial-a-geografia-do-plagio/