Reprodutibilidade em resultados de pesquisa: os desafios da atribuição de confiabilidade

Por Lilian Nassi-Calò

Um dos pilares da pesquisa científica combina a idoneidade dos cientistas e a confiabilidade dos resultados, que, por sua vez, sustentam a hipótese que se pretende provar. Assim como a falta de ética na experimentação e publicação científica, a ausência de reprodutibilidade é considerada uma falha grave que contribui para pôr em risco a credibilidade da ciência como um todo.

Estudos apontam, entretanto, que mais da metade dos experimentos que envolvem ensaios clínicos com novas drogas e tratamentos são irreprodutíveis. John Ioannidis, da Universidade de Stanford, EUA, vai além ao afirmar que a maioria dos resultados de pesquisa é, na verdade, falso. Ioannidis é autor de um modelo matemático que prevê que quanto menor a amostra e menos rigorosos forem a metodologia experimental, definições, resultados e análise estatística, maior é a probabilidade de erro. Ademais, estudos que detém interesses financeiros e de outra natureza ou de grande impacto também estão mais propensos a falsos resultados.

A “hierarquia da ciência” que posiciona as ciências exatas no topo, as ciências humanas na base e as ciências biológicas entre ambos, tem mais de 200 anos, cita Daniele Fanelli1, então pesquisador da Universidade de Edimburgo, no Reino Unido (ele atualmente é pesquisador sênior na Universidade Stanford, EUA). Seu estudo correlaciona as áreas do conhecimento, a proporção de resultados positivos e a confiabilidade dos resultados com base no rigor empregado para testar a hipótese do autor, realizado com a análise de mais de dois mil artigos em todas as disciplinas. Seus resultados, entretanto, corroboram o status das ciências sociais contra inúmeros argumentos de que são preferencialmente subjetivas. Fanelli mostra que, quando uma abordagem científica é utilizada, seu grau de confiabilidade se situa próximo daquele das ciências naturais.

Neste cenário controverso surge um estudo denominado Projeto Reprodutibilidade: Psicologia (Reproducibility Project: Psychology)2 que se propôs a avaliar a reprodutibilidade de 100 artigos de pesquisa em psicologia, iniciado em 2011 e concluído em 2015, e movido por denúncias de fraude e análise estatística falha em estudos clássicos de psicologia. Os resultados, relatados em artigo da Nature em 20153, apontam que apenas 39 deles puderam ser reproduzidos. Os resultados deste estudo, entretanto, não são absolutos, e há várias nuances que vão desde “virtualmente idêntico” a “pouco similar” e “nada semelhante”. Entre os 61 estudos reprovados quanto à reprodutibilidade, os cientistas classificaram 24 deles como apresentando resultados “moderadamente similares” aos do experimento original, porém foram reprovados pelo fato de não atingir significância estatística, critério necessário para ser considerado uma replicação bem-sucedida.

Este resultado levaria à conclusão de que a psicologia não é uma ciência reprodutível. Entretanto, áreas como biologia do câncer e estudos sobre novas drogas tem índices de reprodutibilidade ainda menor, segundo Fanelli, que considera o resultado sobre o estudo da psicologia bastante aceitável. As equipes que conduziram os testes de reprodutibilidade nem sempre tiveram à disposição as mesmas condições experimentais e certamente não os mesmos pacientes que o estudo original. Isso certamente contribui para a baixa reprodutibilidade dos estudos.

Brian Nosek, psicólogo social e chefe do Center for Open Science nos EUA, líder do Projeto Reprodutibilidade, trabalhou diretamente com cerca de 270 colaboradores na replicação dos estudos de psicologia. Assim como Fanelli, ele relatou à Nature4 que não há forma segura de afirmar que um determinado artigo é confiável ou não a partir deste estudo. Pode ser que o original ou a replicação sejam falhos ou que existam diferenças substanciais entre ambos para permitir uma apreciação correta. Nosek salienta que o objetivo do Projeto Reprodutibilidade não é simplesmente atestar quantos artigos são confiáveis, porém alertar sobre a publicação de resultados que não resistiriam a um escrutínio mais detalhado e avaliar quantitativamente o viés presente em publicações na área de psicologia. Ele acredita que se apenas 3% dos recursos destinados à pesquisa fossem empregados em avaliação desta natureza, isso fariam uma enorme diferença.

Assim como em outras disciplinas, sabe-se que não é apenas o rigor metodológico ou a significância estatística que estão em jogo ao aprovar um artigo para publicação. Os periódicos querem atrair a atenção de seus leitores ao publicar preferencialmente resultados positivos ou polêmicos, por vezes validados por testes estatísticos escolhidos a dedo para atender às necessidades do autor. Isso é particularmente comum em biomedicina, e encontra-se em curso uma iniciativa semelhante, o Projeto Reprodutibilidade: Biologia do Câncer. Cabe ressaltar que sua execução enfrentava em meados de 2015 dificuldades em acessar os dados originais dos estudos em análise e não foi ainda concluído.

Entretanto, pesquisadores da área de psicologia retomaram o estudo do Projeto Reprodutibilidade: Psicologia e chegaram à conclusão que não há evidencias suficientes para duvidar da credibilidade das publicações, de acordo com Daniel Gilbert, psicólogo da Universidade Harvard, EUA, e um dos autores da reanálise publicada recentemente na Science5. Uma resposta6 publicada no mesmo número do periódico, entretanto, contesta a reanálise alegando que está baseada em suposições seletivas.

Gilbert defende a confiabilidade dos estudos de psicologia e afirma que eles são tão reprodutíveis como os de qualquer outra área. Ademais, em sua opinião, o percentual de resultados considerados confirmados pelo Projeto Reprodutibilidade (39%) é da mesma ordem de magnitude do que seria esperado por acaso, mesmo que o estudo original fosse verdadeiro. Analisando os protocolos experimentais do projeto, é possível constatar que cada estudo foi reproduzido apenas uma vez, evidenciando baixa significância estatística para confirmar ou não os resultados originais. De fato, um artigo publicado em fevereiro deste ano na PLoS7 reavalia os testes estatísticos do Projeto, e conclui que cerca de um terço das replicações é inconclusiva.

A controvérsia a respeito das tentativas de testar e atestar a reprodutibilidade de estudos científicos é vista com otimismo por Nosek e outros cientistas, pois ressalta que a transparência na metodologia científica e verificação estatística dos resultados é crucial em cada estudo. Quanto ao estudo contestatório de Gilbert e colegas, Nosek é de opinião que ele não pode ser avaliado como definitivo.

Um artigo sobre estudos de reprodutibilidade de autoria de David Allison, do Departamento de Bioestatística da Escola de Saúde Pública, Universidade do Alabama, EUA, e colaboradores, foi publicado na Nature em fevereiro deste ano8. No ensaio, os autores avaliam o quanto a ciência é sujeita a erros e até que ponto ela se autocorrige. Apesar de muitos artigos fraudados ou com metodologia falha vir à tona e acabarem retratados, essa, infelizmente, não é a regra geral. “Consultar um estatístico depois de concluído um experimento é como realizar uma autopsia. Será possível, talvez, encontrar a causa mortis do experimento” afirmou o estatístico Ronald Fisher, falecido em 2015. Em sua opinião, revisões pós publicação também são post mortems, pois atestam que os estudos foram conduzidos com metodologia falhas e validados por testes estatísticos igualmente falhos, porém pouco se pode fazer neste estágio.

Além da psicologia, estudos na área de economia se encontram sob avaliação quanto à reprodutibilidade. Um artigo publicado na Science9 no início de março relata um projeto para replicar 18 estudos em economia publicados em dois periódicos de renome entre 2011 e 2014. Os pesquisadores concluíram que 11 estudos puderam ser reproduzidos, número que subiu para 14 quando diferentes critérios foram utilizados para avaliar a reprodutibilidade.

De acordo com Nosek, estes resultados não necessariamente indicam que estudos em economia são mais reprodutíveis que os de psicologia, principalmente porque o número de estudos no primeiro caso foi menor e se concentrou em estudos com relações simples. Na opinião de John Bohannon, correspondente e colaborador da Science, a maior parte dos estudos que não puderam ser reproduzidos empregaram como teste estatístico um valor de p abaixo de 5% como significativo. Segundo o autor, apesar de muitos estarem de acordo com a fragilidade do teste, poucos estão dispostos a discuti-lo. Certos autores que tiveram seus resultados não reproduzidos afirmaram que a metodologia do estudo foi cuidadosa, correta e transparente, porém não concordam que isso signifique que o ensaio original tenha sido um falso positivo. “Acreditamos que é mais preciso interpretar a falha em replicar nosso estudo como uma falha de tratamento”10.

Pesquisadores que não estiveram envolvidos com qualquer dos projetos de reprodutibilidade acreditam que estes diferentes resultados são inerentes às ciências sociais, pois a população humana é muito heterogênea. A solução proposta, que serve para todas as áreas do conhecimento, seria basear conclusões em múltiplos estudos sobre o mesmo tema, para aumentar sua credibilidade.

Notas

1. FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

2. Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

3. BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

4. BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

5. GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

6. ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

7. ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

8. ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

9. CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

10. BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

Referências

ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

BEGLEY, C.G. and ELLIS, L.M. Drug development: Raise standards for preclinical cancer research. Nature. 2012, vol. 483, 7391, pp. 531-533. DOI: 10.1038/483531a

BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

IOANNIDIS, J. P. Why most published research findings are false. PLoS Med. 2005. DOI: 10.1371/journal.pmed.0020124. Available from: http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124.

NASSI-CALÒ, L. Reprodutibilidade em resultados de pesquisa: o olhar subjetivo. SciELO em Perspectiva. [viewed 06 March 2016]. Available from: https://blog.scielo.org/blog/2014/02/19/reprodutibilidade-em-resultados-de-pesquisa-o-olhar-subjetivo/

NASSI-CALÒ, L. Reprodutibilidade em resultados de pesquisa: a ponta do iceberg. SciELO em Perspectiva. [viewed 06 March 2016]. Available from: https://blog.scielo.org/blog/2014/02/27/reprodutibilidade-em-resultados-de-pesquisa-a-ponta-do-iceberg/

Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

PRINZ, F., SCHLANGE, T., and ASADULLAH, K. Believe it or not: how much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery. 2011, vol. 10, nº 712. DOI: 10.1038/nrd3439-c1. Available from: http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html

VAN NOORDEN, R. Sluggish data sharing hampers reproducibility effort. Nature. 2015. DOI: 10.1038/nature.2015.17694. Available from: http://www.nature.com/news/sluggish-data-sharing-hampers-reproducibility-effort-1.17694

Link externo

Reproducibility Project: Cancer Biology – <http://validation.scienceexchange.com/#/cancer-biology>

 

lilianSobre Lilian Nassi-Calò

Lilian Nassi-Calò é química pelo Instituto de Química da USP e doutora em Bioquímica pela mesma instituição, a seguir foi bolsista da Fundação Alexander von Humboldt em Wuerzburg, Alemanha. Após concluir seus estudos, foi docente e pesquisadora no IQ-USP. Trabalhou na iniciativa privada como química industrial e atualmente é Coordenadora de Comunicação Científica na BIREME/OPAS/OMS e colaboradora do SciELO.

 

Como citar este post [ISO 690/2010]:

NASSI-CALÒ, L. Reprodutibilidade em resultados de pesquisa: os desafios da atribuição de confiabilidade [online]. SciELO em Perspectiva, 2016 [viewed ]. Available from: https://blog.scielo.org/blog/2016/03/31/reprodutibilidade-em-resultados-de-pesquisa-os-desafios-da-atribuicao-de-confiabilidade/

 

5 Thoughts on “Reprodutibilidade em resultados de pesquisa: os desafios da atribuição de confiabilidade

  1. Pingback: Como os cientistas fazem descobertas? |

  2. Pingback: Como os cientistas fazem descobertas 2? |

  3. Pingback: Como os cientistas fazem descobertas 2 ? |

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation