Ética editorial – como detectar o plágio por meios automatizados

Como vimos em posts anteriores^1,2,3, o plágio, apesar de ser uma prática que viola as normas da ética (além dos direitos de autor), é muito mais frequente do que uma pessoa ingenuamente poderia pensar. A razão instrumental do aumento do plágio é a facilidade com a qual se tem acesso aos conteúdos online. A tal ponto aumentou esta prática nos últimos 10 anos, que a National Science Foundation destinou desde 2011 quase 100 milhões de dólares para a análise deste problema, e os periódicos científicos reportam que a quantidade de retratações cresceu 10 vezes nos últimos 20 anos. Sobre retratação e plágio, veja a nota no final deste artigo.

Nos ambientes acadêmicos revelaram-se cifras preocupantes. Por exemplo, uma verificação de plágio conduzida sobre 285 mil textos científicos em arXiv.org recuperou mais de 500 documentos que muito provavelmente foram plagiados, além de outros 30.000 documentos (20% da coleção [sic]) que tinham fortes indícios de excessivo autoplagio.

Este problema torna necessário que os responsáveis editoriais das publicações científicas, em particular as que se publicam no SciELO, tomem todas as prevenções necessárias para evitá-lo, e estes procedimentos devem incluir também ferramentas computacionais.

A detecção de plágio consiste no processo de localizar dentro de uma obra ou documento, sessões que tenham sido tomadas de outras fontes sem fazer as referências correspondentes. O plágio pode ocorrer em qualquer classe de documento, não somente nos trabalhos científicos, mas também ocorre na imprensa, nas teses de pós-graduação, nos códigos de programas de computadores, desenhos de arte, etc.

Os sistemas de detecção de plágio (Plagiarism Detection Systems – PDS em inglês) com apoio de computadores têm dois enfoques básicos: (i) a comparação externa e (ii) a análise intrínseca. Os processos de detecção externa requerem acesso a uma vasta coleção de documentos, que são considerados “genuínos”, contra os quais se compara a obra a ser analisada. As análises intrínsecas fazem reconhecimentos estatísticos do vocabulário e do estilo de escrita, usando técnicas linguísticas próprias da especialidade chamada estilometria⁴.

Uma classificação usual dos procedimentos de detecção de plágio é a seguinte:

Fingerprinting (impressão digital)
String matching (comparação de cadeias)
Recuperação em espaços vetoriais
Análise de citações
Estilometria

Em todos os casos, se usam algoritmos de computação para representar os documentos mediante padrões de texto (fingerprints), estruturas de argumentação, ou padrões de citação com sequências similares, e estas representações algorítmicas são usadas para verificá-los contra os documentos suspeitosos. Os algoritmos que usam a representação do texto formam parte da teoria da recuperação de informação (information retrieval: IR). Os processos, segundo sua complexidade e a dimensão da base de documentos “genuínos”, podem levar tempos importantes de máquina, em particular quando se usam fontes da Internet para alimentar as bases de dados de documentos “genuínos”.

Todavia, lamentavelmente, esta é uma visão simplista do problema, porque assume que o plágio é simplesmente uma cópia literal (verbatim) e facilmente detectável, do tipo “copy & paste”. Entretanto, a exatidão da detecção automatizada decresce à medida que o procedimento de plágio é encoberto por alguma das seguintes técnicas:

Plágio disfarçado
- Copiar e misturar segmentos de fontes diferentes formando um texto coerente;
- Plágio expansivo: ao segmento copiado se inserem porções de texto adicional;
- Plagio contrativo: um resumo ou texto original que tenha sido “podado”;
- Plagio em mosaico: se misturam segmentos de diferentes fontes, mudando a ordem das palavras, usando sinónimos e insertando/removendo palavras de recheio.
Paráfrase. Reescrevem-se intencionalmente as ideias alheias.
Tradução. Traduzem-se por máquina parágrafos externos de e para outros idiomas, que em seguida são ajustados, melhorando o estilo.
Plágio de ideias. É a apropriação de métodos de pesquisa, procedimentos experimentais, estruturas argumentativas, fontes de informação. O que se copia não é o texto, mas os métodos.

Existem além desta outras formas mais sofisticadas de manipulação dos textos para “enganar” os algoritmos computacionais, em particular muitos usados em idiomas que tem diacrítico (escandinavo, cirílico, etc.), ou em alfabetos como japonês e hebraico.

Uma técnica muito frequente é o uso de homoglyphs⁵, letras ou sequências de letras que parecem similares, mas tem representações internas diferentes, por exemplo, substituir 0 (zero) pela letra “o” maiúscula O, ou a transcrição de letras do alfabeto grego ou latino. Existem mais de 40 substituições possíveis e são de uso frequente nos trabalhos de graduação de estudantes para evitar a detecção do plágio, uma vez que muito poucos aplicativos de software são capazes de detectar estas substituições (Turnitin e Urkund são quase exceções em PDS). O estado da arte dos PDS pode ser resumido na seguinte frase: “PDS encontra cópias, não plágio” (Gipp and Meuschke 2011).

Uma busca na web revela que existem dezenas de aplicativos de software, comerciais e gratuitos, com diferentes graus de eficácia, e estes se converteram em uma área de pesquisa e desenvolvimento que cresceu fortemente nos últimos 10 anos. Porém, deve ser levado em conta que a tecnologia atual de PDS é inexata, e existem muitos mitos sobre o tema, um deles é que qualquer trabalho copiado poderá ser detectado. Apesar de que os sistemas comerciais mais importantes, como iThenticate, Copyscape, Turnitin, e Urkund dispõe de bases de documentos “genuínos” que contém dezenas de bilhões de páginas web, quase 100 milhões de trabalhos acadêmicos off-line, e quase 40 milhões de artigos procedentes de dezenas de milhares de periódicos científicos, isso não é suficiente, pois:

A informação publicada cresce mais rapidamente do que aquela que o Google pode indexar, e não existe uma base de dados de documentos “genuínos” que contenha tudo o que se publicou.
Por exemplo: os detectores de plágio podem não prevenir que se enviem simultaneamente dois papers similares a dois periódicos para publicar, pois se não estão publicados não são detectados.

O tema é tão importante que desde o ano 2004, a University of Applied Sciences da Hochschule für Technik und Wirtshaft Berlin (HTW, Berlin), mantém um site especializado em software de PDS, e realiza competições internacionais onde as aplicações são submetidas a rigorosas provas de esforço. O portal sobre plágio é mantido pela Dra. Debora Weber-Wulff, professor for media and computing at the HTW Berlin.

Os resultados da competição realizada em 2013, onde se analisaram 28 sistemas, dos quais somente 15 puderam completar a série de mais de 70 testes a que foram submetidos, estão disponíveis no Portal Plagiarism da HTW⁶ e serão publicados em forma de livro ao final de janeiro de 2014⁷.

Os problemas mais complicados de resolver detectados nos testes foram a alta presença de falsos negativos e falsos positivos, causados em geral pelo uso de frases comuns na especialidade temática que aborda o documento. Os erros por falsos positivos são importantes porque se não se aplicam critérios supervisados por pessoas, poderiam causar danos à reputação dos autores do trabalho analisado.

De acordo com o informe da HTW existem muitos problemas na determinação mecânica do plágio e que requerem critérios humanos de decisão. Alguns dos problemas mencionados são:

O que constitui exatamente o plágio, o simples copy & paste, ou também fazer paráfrases sem citar a fonte, ou tomar somente as ideias?
Quanto se pode copiar de um trabalho sem que chegue a ser considerado plágio?
Somente é plágio quando se copia com o propósito de enganar?
Os PDS verificam o texto completo, ou somente extratos por amostra?

Os testes feitos em 2013 selecionaram somente três aplicativos na categoria “parcialmente úteis”, (o maior valor atribuído/maior pontuação), a saber: Urkund, Turnitin (usado pelos produtos iThenticate e WriteCheck) e Copyscape, sendo que a maior pontuação na eficácia foi atingida pelo Urkund, porém ainda encontra problemas de usabilidade.

Nota sobre retratação

De acordo com a Real Academía de la Lengua Española⁸, a retratação consiste na ação de revocar expressamente o que foi dito. Para a National Lybrary of Medicine⁹ um artigo depois de sua publicação pode ser objeto das seguintes modificações: errata, retratação – total ou parcial -, correção e republicação, plágio – publicação duplicada -, comentários – inclui réplicas do autor-, versões atualizadas e republicações -reimpressão-. De todas elas, a retratação e o plágio tem um peso maior tanto científico quanto social.

O Programa SciELO fornece orientação sobre a forma de publicar retratações¹⁰.

Conclusões

Devido ao fato que os resultados estão mesclados, com prós e contras, não é possível recomendar o uso de um sistema em particular, especialmente quando existem muitas situações diferentes, onde algumas aplicações podem ser particularmente úteis para casos específicos, mas não em geral.

Os softwares considerados para detecção de plágio, na realidade não detectam plágio, somente podem demostrar textos paralelos. A decisão sobre se é ou não plágio reside finalmente nos revisores que usam o software. O que está disponível é uma ferramenta e não uma prova.

Seria importante que a comunidade de editores do SciELO, que publica hoje em dia mais de mil periódicos em 16 países, tomasse uma iniciativa para o treinamento e uso destas ferramentas para melhorar a qualidade do que se publica na Rede SciELO.

Notas

¹ Ética editorial y el problema del plagio – https://blog.scielo.org/es/2013/10/02/etica-editorial-y-el-problema-del-plagio/#.Usfw9Wx3u00

² Ética editorial y el problema del autoplagio – https://blog.scielo.org/es/2013/11/11/etica-editorial-y-el-problema-del-autoplagio/#.UsfxeGx3u00

³ Ética editorial –el Ghostwriting es una práctica insalubre – https://blog.scielo.org/es/2014/01/16/etica-editorial-el-ghostwriting-es-una-practica-insalubre/#.UuZDK7TJ2Hs

⁴ Stylometry – http://en.wikipedia.org/wiki/Stylometry

⁵ Homoglyph: In typography, a homoglyph is one of two or more characters, or glyphs, with shapes that either appear identical or cannot be differentiated by quick visual inspection. This designation is also applied to sequences of characters sharing these properties.

⁶ Results of the Plagiarism Detection System Test 2013 – http://plagiat.htw-berlin.de/software-en/test2013/

⁷ WEBER-WOLFF, D. False Feathers: A Perspective on Academic Plagiarism. 200p. 2014.

⁸Real Academia Española – Retractar – http://buscon.rae.es/drae/?type=3&val=retractarse&val_aux=&origen=REDRAE

⁹U.S. National Library of Medicine – http://www.nlm.nih.gov/pubs/factsheets/errata.html

¹⁰SciELO – Procedimento para retractación de Artículos – http://www.scielo.org/php/level.php?lang=es&component=44&item=49

Referências

The Scientist: exploring life, inspiring innovation. Defending Against Plagiarism: publishers need to be proactive about detecting and deterring copied text. June 1, 2013. Available from: <http://www.the-scientist.com/?articles.view/articleNo/35677/title/Defending-Against-Plagiarism/>.

SOROKINA, D., et al. Plagiarism Detection in arXiv. 2007. Available from: <http://arxiv.org/ftp/cs/papers/0702/0702012.pdf>.

GIPP, B., and MEUSCHKE, N. Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. Proceedings of the 11^th ACM. 2011. Available from: <http://sciplore.org/wp-content/papercite-data/pdf/gipp11c.pdf>.

GIPP, B., MEUSCHKE, N., an BEEL, J. Comparative evaluation of text- and citation-based plagiarism detection approaches using guttenplag. In Proceedings of JCDL. pp. 255-258. 2011. Available from: <http://gipp.com/wp-content/papercite-data/pdf/gipp11.pdf>.

iThenticate. Plagiarism Detection Software Misconceptions. Free paper: 7 Misconceptions of Plagiarism Detection Software.Available from: <http://www.ithenticate.com/resources/papers/plagiarism-detection-software-misconceptions>.

Links externos

ArXiv – arxiv.org

HTW, Berlin – http://plagiat.htw-berlin.de/software-en/

Urkund – http://www.urkund.com/int/en/

Turnitin – http://www.turnitin.com/

Copyscape – http://www.copyscape.com/

iThenticate – http://www.ithenticate.com/

WriteCheck – http://en.writecheck.com/

Sobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

Posts relacionados:

Como citar este post [ISO 690/2010]:

SPINAK, E. Ética editorial – como detectar o plágio por meios automatizados [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/blog/2014/02/12/etica-editorial-como-detectar-o-plagio-por-meios-automatizados/

One Thought on “Ética editorial – como detectar o plágio por meios automatizados”

Pingback: BibSonomy :: url :: Ética editorial – como detectar o plágio por meios automatizados | SciELO em Perspectiva