Reprodução e replicação na pesquisa científica – parte 1

Por Ernesto Spinak

Introdução1,2

Captura de tela do filme Maniac (1934), em domínio público, mostrando Horace B. Carpenter como o personagem "Dr. Meirschultz".

Imagem: Maniac, 1934.

O empreendimento científico depende da capacidade da comunidade científica de examinar suas afirmações e ganhar confiança ao longo do tempo em resultados e inferências que resistiram a repetidos testes. A notificação de incertezas em resultados científicos é um princípio central do processo científico. Cabe aos cientistas transmitir a informação apropriada e o grau de incerteza na apresentação de suas afirmações. A ciência aponta para graus refinados de confiança, em vez de certeza completa.3

Muitos estudos científicos buscam medir, explicar e fazer previsões sobre fenômenos naturais. Outros estudos buscam detectar e medir os efeitos de uma intervenção em um sistema. A inferência estatística fornece um conceito e um marco computacional para abordar as questões científicas em cada ajuste. A estimativa e o teste de hipótese são agrupamentos amplos de procedimentos inferenciais.

A reprodutibilidade e a replicabilidade em relação aos dados e ao trabalho científico intensivo em computação receberam atenção com o uso de ferramentas computacionais estendidas. Na década de 1990, Jon Claerbout lançou o “movimento de pesquisa reprodutível”. A suposição era que a reanálise dos mesmos dados usando os mesmos métodos produziria os mesmos resultados.

Com o início da análise massiva de dados, particularmente nas ciências médicas, as seguintes questões foram introduzidas:

  • Como deveriam ser os estudos e pesquisas nas diversas disciplinas que utilizam o modelo computacional algorítmico?
  • As abordagens podem ser projetadas para gerar conhecimento confiável de forma eficiente?
  • Como as hipóteses e os resultados poderiam ser melhor comunicados para permitir que outros confirmem, refutem ou desenvolvam estes resultados?
  • Como os vieses potenciais dos cientistas podem ser compreendidos, identificados e expostos para melhorar a precisão na geração e interpretação dos resultados de pesquisa?

Para resumir, consideramos reprodutibilidade como “obtenção dos mesmos resultados em um estudo independente cujos procedimentos são os mais próximos possíveis do experimento original.” Porém isso não acabou sendo assim.

A sensação de crise começou com a conscientização generalizada pelo público das falhas de reprodutibilidade quando o Center for Open Science anunciou, em 2015, que poderia confirmar apenas 39 dos 100 estudos publicados em psicologia. Para muitos cientistas, no entanto, não apenas na psicologia, a reprodutibilidade não funcionou ou foi eficaz.

Por mais de uma década, a incapacidade de reproduzir descobertas em várias disciplinas, incluindo ciências biomédicas, comportamentais e sociais, levou alguns autores a afirmar a existência de uma chamada “crise de reprodutibilidade” nestas disciplinas. Alguns sintomas detectados foram:

  • Vários aspectos da reprodutibilidade dos estudos científicos, incluindo as definições de reprodutibilidade, foram interpretados de forma ambígua;
  • Foram identificadas diversas variáveis envolvidas na avaliação do sucesso das tentativas de reprodução de um estudo, bem como outros fatores sugeridos como responsáveis por falhas de reprodutibilidade;
  • Vários tipos de validade de estudos experimentais e ameaças à validade em relação à reprodutibilidade foram observados;
  • Estas ambiguidades e indefinições foram apresentadas como evidência de ameaças à reprodutibilidade na literatura de análise da ciência comportamental.

Muitas das críticas e comentários sobre reprodutibilidade e soluções para a crise, tanto reais quanto percebidas, focaram em estatísticas, metodologias e como as comunicações foram relatadas. Na última década, os estatísticos mostraram como as estatísticas podem ser mal utilizadas involuntariamente ou, em alguns casos, abusadas intencionalmente, à medida que os pesquisadores tentam produzir resultados que atraem colegas profissionais e potenciais financiadores.

A avaliação por pares também não nos protege o suficiente. Até hoje, a avaliação por pares é o que supostamente garante o que foi publicado, que os achados estão corretos e, implicitamente, que tais achados poderiam ser reproduzidos se outros pesquisadores tentassem. No entanto, como vários acadêmicos mostraram, a encarnação atual da avaliação por pares – na qual as submissões a periódicos são avaliadas por pares anônimos – é um acidente histórico, longe de ser um procedimento planejado capaz de separar a verdade da ficção.

No final da década de 1990, a avaliação por pares foi alvo de fortes críticas. Suas muitas falhas, que contribuem diretamente para as dificuldades de reprodutibilidade, tornaram-se bem conhecidas, mas vale a pena repetir: estudos com resultados negativos ou nulos raramente são relatados e poucos são publicados, abrindo a porta para falsos positivos. A expectativa é que a ciência aberta com as práticas de iniciar a comunicação da pesquisa por preprints, compartilhar os dados subjacentes aos textos e publicar os pareceres de avaliação possa amenizar este problema.

Os fracassos na reprodutibilidade aumentam os custos da pesquisa, principalmente nas ciências da saúde. Vejamos alguns artigos recentes como exemplos.

“As baixas taxas de reprodutibilidade na pesquisa em ciências da vida prejudicam a produção de conhecimento cumulativo e contribuem para atrasos e custos no desenvolvimento de medicamentos terapêuticos. Uma análise de estudos entre 2012 e 2015 indica que a prevalência cumulativa (total) de pesquisas pré-clínicas irreprodutíveis excede 50%, resultando em aproximadamente US$ 28 bilhões/ano gastos em pesquisas pré-clínicas não reprodutíveis, apenas nos Estados Unidos.”4

Também significativo foi um artigo de 2005 de John Ioannidis intitulado provocativamente Why Most Published Research Findings Are False.5 Ioannidis argumentou que “a maioria dos resultados de pesquisa são falsos para a maioria dos projetos de pesquisa e para a maioria dos campos disciplinares”5 devido a uma combinação de vieses de projeto, análise e apresentação de informes; testes realizados por várias equipes independentes levando à publicação de resultados falsos positivos; e projetos de pesquisa de baixo potencial. Admitindo que não haveria como obter 100% de certeza, Ioannidis pediu evidências de maior poder probatório, corrigindo o viés de publicação e abordando problemas com outras formas de viés.6

“Atualmente, muitos resultados de pesquisas publicados são falsos ou exagerados. Estima-se que 85% dos recursos de pesquisa são desperdiçados.”7

Para aqueles envolvidos em discussões sobre rigor, reprodutibilidade e replicação na ciência, as conversas sobre a “crise de reprodutibilidade” parecem mal estruturadas.

Aparentemente, muitas questões diferentes se enquadram neste rótulo, e não apenas aquelas relacionadas à “pureza dos reagentes, à acessibilidade do código de computador ou à estrutura de incentivos na pesquisa acadêmica”.

Trabalhos nas últimas duas décadas tentaram abordar estes problemas criando várias definições dos termos em discussão, como reprodutibilidade, replicabilidade etc. Uma análise de correspondência de terminologia em publicações científicas realizada por Nelson NC, (2021) Mapping the discursive dimensions of the reproducibility crisis: A mixed methods analysis8 identificou três grupos de discussão nos artigos: um grupo focado no uso de reagentes, outro sobre métodos estatísticos e um último grupo focado na heterogeneidade do mundo natural.

Daniele Fanelli e John Ioannidis do Meta-Research Innovation Center at Stanford, argumentaram que “o léxico de reprodutibilidade até hoje tem sido múltiplo e mal definido,”9 e que a falta de clareza sobre os tipos específicos de reprodutibilidade que são discutidos foram um impedimento para o progresso destas questões. Muitos comentaristas apontaram que há uma confusão considerável entre os termos reprodutibilidade e replicabilidade, e que estes termos são frequentemente usados de forma intercambiável na literatura. Victoria Stodden argumentou que há três principais tipos de reprodutibilidade: empírica, estatística e computacional, cada uma representando uma narrativa diferente ligada a uma disciplina diferente.

Até o momento, os acadêmicos tentaram abordar estas preocupações propondo definições esclarecedoras ou tipologias para orientar as discussões. O Relatório Reproducibility and Replicability in Science3 de 2019 das National Academies of Sciences, Engineering, and Medicine aponta o problema da confusão terminológica e cria uma distinção definidora entre reprodutibilidade e replicabilidade, uma distinção que se alinha com o uso destes termos na ciência da computação, mas está em desacordo com as formas mais flexíveis que são utilizadas por organizações relevantes como o Center for Open Science e os planos dos National Institutes of Health.

Muitos comentaristas argumentam que a reprodutibilidade é um problema social que exigirá mudanças na cultura da ciência e, ainda, metodologias projetadas para estudar variação e mudança cultural, como: observação participante, etnografia, comparações transculturais, análise qualitativa e análise de dados. Metodologias que raramente são utilizadas em objetivos científicos ou orientados à pesquisa da reprodutibilidade. Alcançar uma mudança duradoura nas culturas científicas exigirá primeiro uma abordagem mais sistemática e compreensão da variação em como os cientistas interpretam as questões de reprodutibilidade para criar intervenções “culturalmente competentes”.8

Antes de examinar as teorias subjacentes à falta de replicabilidade dos experimentos, vejamos algumas questões básicas que podem explicá-la. As bases formais e epistemológicas serão apresentadas em uma contribuição posterior, onde decomporemos o já mencionado documento das National Academies of Sciences.3

A seguir, se apresentam dois exemplos de estudos em que a não replicação dos resultados levou os pesquisadores a procurar a fonte das discrepâncias e, por fim, aumentou a compreensão dos sistemas em estudo e como eles são relatados.

Como se determina até que ponto uma tentativa de replicação foi bem-sucedida ou não? Às vezes, o problema é que o informe não é suficientemente claro ou detalhado nos procedimentos.

Dois laboratórios independentes estavam realizando experimentos com tecido mamário, usando o que supunham ser o mesmo protocolo, porém seus resultados continuaram a diferir. Quando os pesquisadores dos dois laboratórios se sentaram lado a lado para realizar o experimento, descobriram que um laboratório estava removendo suavemente as células do frasco, enquanto o outro laboratório estava usando um sistema de agitação mais vigoroso.

Ambos os métodos são comuns, então nenhum dos pesquisadores pensou em mencionar os detalhes do processo de agitação. Antes que estes pesquisadores descobrissem a variação na técnica, não se sabia que o método de agitação poderia afetar o resultado deste experimento. Após sua descoberta, esclarecer o tipo de técnica de agitação nos métodos de estudo tornou-se uma fonte evitável de falta de replicabilidade.

A não replicabilidade também pode ser resultado de erro humano ou de um pesquisador inexperiente. Deficiências no projeto, na condução de um estudo ou em sua comunicação posterior podem contribuir para a não replicabilidade. Consideramos aqui um conjunto selecionado de tais fontes evitáveis de não replicação, que serão explicadas em detalhes em notas futuras:

  • Viés de publicação;
  • Incentivos desalinhados para publicar;
  • O uso de inferência estatística inadequada;
  • Design deficiente de estudo;
  • Erros na condução do experimento;
  • Informe incompleto de um estudo.

Para completar a nota de hoje, são fornecidas algumas sugestões úteis:

Os sistemas necessários para promover pesquisas reprodutíveis devem vir das instituições; dos cientistas e dos patrocinadores, porque os periódicos não podem construí-los sozinhos. Estes tipos de mudanças exigirão recursos, infraestrutura, pessoal e trâmites adicionais. O ônus para as instituições e pesquisadores será real, mas também o é o ônus da pesquisa irreprodutível.

Para tornar a pesquisa publicada mais confiável, as práticas que melhoraram a credibilidade e a eficiência em campos específicos podem ser transplantadas para outras disciplinas para se beneficiar delas; possibilidades incluem a adoção de sistemas colaborativos em larga escala.

É necessário fazer modificações no sistema de incentivos e recompensas para a ciência, afetando, por exemplo, publicações, subvenções e compras de bens acadêmicos que estejam mais alinhados com pesquisas reprodutíveis.

Conclusão

Nesta edição, apresentamos um panorama atual dos problemas de Replicabilidade e Reprodutibilidade da comunicação científica. Nos próximos dois capítulos abordaremos os fundamentos filosóficos oferecidos pelas National Academies of Sciences, até que ponto estas diretrizes são aplicáveis às ciências sociais e humanas e qual a contribuição que a ciência aberta, a avaliação por pares aberta e os servidores de preprint podem oferecer.

A série Replicação na Pesquisa consiste em três posts

  1. Reprodução e replicação na pesquisa científica – parte 1
  2. Reprodução e replicação na pesquisa científica – parte 2
  3. Reprodução e replicação na pesquisa científica – parte 3

Notas

1. A questão da replicabilidade tem estado em “crise” na publicação científica, à qual dedicaremos, a partir desta nota, uma série de posts para tentar explicar os significados dos termos: Replicabilidade, Reprodutibilidade, Robustez e Generalização.

Também analisaremos como a replicabilidade é entendida nas diferentes disciplinas científicas, quais são os erros mais frequentes e que gravitação eles têm para a validação do conhecimento científico publicado.

A série Replicação na Pesquisa consistirá em três posts:

  1. Cenário da suposta “crise” de replicação na publicação científica.
  2. Comentários de especialistas sobre a terminologia utilizada: (a) o Guia publicado pelas National Academies of Sciences, Engineering, and Medicine tentando padronizar os conceitos; (b) Opiniões divergentes do Guia de disciplinas das Ciências Sociais e Humanas cujos paradigmas não se conformam com as ciências exatas, e (c) visões das ciências médicas que apontam para outros problemas.
  3. Resumo das notas anteriores com sugestões para resolver os maiores conflitos que apontam para a Ciência Aberta e o uso de servidores de preprints.

2. Muitos dos conceitos expressos nesta série de notas são adaptados de um documento de orientação publicado pela National Academies Press em 2019.3

3. NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

4. FREEDMAN, L.P., COCKBURN, I.M. and SIMCOE, T.S. The Economics of Reproducibility in Preclinical Research. PLoS Biol [online]. 2015, vol. 13, no. 6, e1002626 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pbio.1002165. Available from: https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002165

5. IOANNIDIS, J.P.A. Why Most Published Research Findings Are False. PLoS Med [online]. 2005, vol. 2, no. 8, e124 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pmed.0020124. Available from: https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124

6. SAYRE, F. and RIEGELMAN, A. The reproducibility crisis and academic libraries. College & Research Libraries [online]. 2018, vol. 79, no. 1 [viewed 19 May 2023]. https://doi.org/10.5860/crl.79.1.2. Available from: https://crl.acrl.org/index.php/crl/article/view/16846

7. IOANNIDIS, J.P.A. How to make more published research true. PLoS Med [online]. 2014, vol. 11, e1001747 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pmed.1001747. Available from: https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001747

8. NELSON, N.C., et al. (2021) Mapping the discursive dimensions of the reproducibility crisis: A mixed methods analysis. PLoS ONE [online]. 2021, vol. 16, no. 7, e0254090 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pone.0254090. Available from: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0254090

9. GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 19 May 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

Referências

CLAERBOUT, J.F., AND KARRENBACH, M. Electronic Documents Give Reproducible Research a New Meaning. SEG Technical Program Expanded Abstracts. 1992, 601-604 [viewed 19 May 2023]. https://doi.org/10.1190/1.1822162. Available from: https://library.seg.org/doi/abs/10.1190/1.1822162

COLLINS, F. AND TABAK, L. Policy: NIH plans to enhance reproducibility. Nature [online]. 2014, vol. 505, pp. 612–613 [viewed 19 May 2023]. https://doi.org/10.1038/505612a. Available from: https://www.nature.com/articles/505612a

FREEDMAN, L.P., COCKBURN, I.M. and SIMCOE, T.S. The Economics of Reproducibility in Preclinical Research. PLoS Biol [online]. 2015, vol. 13, no. 6, e1002626 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pbio.1002165. Available from: https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002165

GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 19 May 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

HARRIS, R.F. Rigor Mortis: How Sloppy Science Creates Worthless Cures, Crushes Hope, and Wastes Billions. New York: Basic Books, 2017.

HINES, W.C., et al. Sorting out the FACS: A Devil in the Details. Cell Reports. 2014, vol. 6, no. 5, pp. 779-781 [viewed 19 May 2023]. http://doi.org/10.1016/j.celrep.2014.02.021. Available from: https://www.cell.com/cell-reports/fulltext/S2211-1247(14)00121-1

IOANNIDIS, J.P.A. How to make more published research true. PLoS Med [online]. 2014, vol. 11, e1001747 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pmed.1001747. Available from: https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001747

IOANNIDIS, J.P.A. Why Most Published Research Findings Are False. PLoS Med [online]. 2005, vol. 2, no. 8, e124 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pmed.0020124. Available from: https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124

LARAWAY, S, et al. An Overview of Scientific Reproducibility: Consideration of Relevant Issues for Behavior Science/Analysis. Perspect Behav Sci [online]. 2019, vol.42, no. 1, pp. 33-57 [viewed 19 May 2023]. https://doi.org/10.1007/s40614-019-00193-3. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6701706/

NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

NELSON, N.C., et al. (2021) Mapping the discursive dimensions of the reproducibility crisis: A mixed methods analysis. PLoS ONE [online]. 2021, vol. 16, no. 7, e0254090 [viewed 19 May 2023]. https://doi.org/10.1371/journal.pone.0254090. Available from: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0254090

Open Science Collaboration. An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. Perspect Psychol Sci [online]. 2012, vol. 7, pp. 657–660 [viewed 19 May 2023]. https://doi.org/10.1177/1745691612462588. Available from: https://journals.sagepub.com/doi/10.1177/1745691612462588

POPPER, K. The Logic of Scientific Discovery. London: Routledge, 2005.

SAYRE, F. and RIEGELMAN, A. The reproducibility crisis and academic libraries. College & Research Libraries [online]. 2018, vol. 79, no. 1 [viewed 19 May 2023]. https://doi.org/10.5860/crl.79.1.2. Available from: https://crl.acrl.org/index.php/crl/article/view/16846

STODDEN, V. Resolving irreproducibility in empirical and computational research [online]. IMS Bulletin blog, 2013 [viewed 19 May 2023]. Available from: https://imstat.org/2013/11/17/resolving-irreproducibility-in-empirical-and-computational-research/

STUPPLE, A., SINGERMAN, D. and CELI, L.A. The reproducibility crisis in the age of digital medicine. npj Digit. Med. [online]. 2019, vol. 2, no. 1 [viewed 19 May 2023]. https://doi.org/10.1038/s41746-019-0079-z. Available from: https://www.nature.com/articles/s41746-019-0079-z

Link externo

Center for Open Science: https://www.cos.io/

 

Sobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado em Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Traduzido do original em espanhol por Lilian Nassi-Calò.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. Reprodução e replicação na pesquisa científica – parte 1 [online]. SciELO em Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/blog/2023/05/19/reproducao-e-replicacao-na-pesquisa-cientifica-parte-1/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation