Reprodução e replicação na pesquisa científica – parte 2

Por Ernesto Spinak

Introdução

Captura de tela do filme Maniac (1934), em domínio público. A câmera está fora de foco e mostra Horace B. Carpenter como o personagem "Dr. Meirschultz" atrás de um equipamento de laboratório.

Imagem: Maniac, 1934.

O empreendimento científico depende da capacidade da comunidade científica de examinar afirmações científicas e ganhar confiança ao longo do tempo em resultados e inferências que resistiram a repetidos testes. A inferência estatística fornece um conceito computacional e uma estrutura para abordar as questões científicas em cada configuração de conhecimento. A estimativa e o teste de hipóteses são conjuntos abrangentes de procedimentos inferenciais rigorosamente estudados.

A reprodutibilidade dos experimentos é importante para a verificação das inferências. Reprodutibilidade significa “obter os mesmos resultados em um estudo independente cujos procedimentos sejam o mais próximo possível do experimento original”.

Nesta nota, vamos analisar algumas propostas do guia metodológico elaborado pela National Academies of Sciences, Engineering, and Medicine (NASEM) em 2019,1 com o objetivo de padronizar conceitos e terminologias que vinham sendo discutidas há mais de uma década. O Guia1 foi elaborado com a colaboração de aproximadamente 120 especialistas e reflete a opinião de pelo menos sete subcomitês2 desta organização. Se nenhuma outra fonte for indicada, as citações incorporadas nesta nota provêm do referido Guia.1

Embora tenha havido um amplo consenso na elaboração deste Guia1 – conforme refletido nas definições e conceitos que seguem – eles expressam basicamente a visão advinda das ciências exatas, experimentais e computacionais, modeladas a partir de procedimentos algorítmicos. Consequentemente, inevitáveis discrepâncias e críticas surgiram nas bases filosóficas e epistemológicas apresentadas por pesquisadores das ciências sociais e da medicina em outros aspectos (isso será desenvolvido na próxima e última parte da série).

Alguns conceitos centrais e definições propostas no Guia1

  • Testando hipóteses3

A formulação comum do teste de hipótese é baseada na resposta à seguinte pergunta: “se a hipótese nula for verdadeira, qual é a probabilidade de se obter uma diferença pelo menos tão grande quanto aquela observada no experimento?”

Em geral, quanto maior a diferença observada, é menos provável que haja uma diferença tão grande quanto a observada do que quando a hipótese nula é verdadeira.

Esta probabilidade de obter uma diferença pelo menos tão grande quanto a observada, quando a hipótese nula é verdadeira, é chamada de “valor de p”. Como tradicionalmente interpretado, se um valor de “p” calculado for menor que um limite definido, os resultados podem ser considerados estatisticamente significativos. Um limite típico pode ser p ≤ 0,05.

Mas isso não é tão linear nem tão simples, pois, em comunicado emitido em 2016, o Conselho da American Statistical Association considerou:

Embora o valor de “p” possa ser uma medida estatística útil, geralmente é mal utilizado e mal interpretado. Isso levou alguns periódicos científicos a desaconselhar o uso de valor de “p” e alguns cientistas e estatísticos recomendar que seja abandonado.4

  • Rigor

Rigor é definido como “a aplicação estrita do método científico para garantir um projeto experimental robusto e imparcial”.

  • Transparência

A transparência tem uma longa tradição na ciência. Os cientistas compartilharam detalhes sobre suas pesquisas, incluindo desenho do estudo, materiais usados, detalhes do sistema em estudo, operacionalização de variáveis e técnicas de medição.

Em geral, quando um pesquisador relata o estudo de forma transparente e disponibiliza os artefatos digitais subjacentes, como dados e código, os resultados devem ser “computacionalmente reprodutíveis.

A transparência dos dados, código e métodos computacionais está diretamente relacionada à reprodutibilidade e se aplica à replicabilidade.

  • Reprodutibilidade

Conforme definido pelo comitê, a reprodutibilidade está estritamente relacionada à “reprodutibilidade computacional”, ou seja, obter resultados consistentes usando os mesmos dados de entrada, métodos computacionais e condições de análise.

Quando os resultados são produzidos por cálculos computacionais por meio de processos complexos que utilizam grandes volumes de dados, a seção de “Métodos” do artigo científico tradicional é insuficiente para transmitir a informação necessária para que outros reproduzam os resultados. Ou seja, a seção “Métodos” deve incluir os dados, métodos de estudo e ambiente computacional onde o estudo foi originalmente executado, por exemplo, o sistema operacional e a arquitetura de hardware.

O conjunto de tentativas de reprodutibilidade analisadas pelo comitê em diversas disciplinas nos permite apontar que vários esforços para reproduzir resultados computacionais falharam em mais da metade das tentativas feitas, principalmente devido ao detalhamento insuficiente sobre artefatos digitais, como dados, código e fluxo de trabalho computacional.1

É claro que a abordagem considerada no Guia1 é aplicável a ambientes algorítmicos, típicos das chamadas “ciências duras”, mas este paradigma não é automaticamente transferível para outros domínios da pesquisa. No entanto, levando em conta estas limitações filosóficas, o Guia1 apresenta com clareza e certeza o tratamento pobre e tendencioso de muitos experimentos publicados, devido aos métodos selecionados e ao manuseio incorreto das estatísticas, conforme explicado abaixo.

Problemas com inferências estatísticas inadequadas

  • Pesquisa confirmatória

A pesquisa confirmatória é aquela que começa com uma pesquisa bem definida, com perguntas e hipóteses a priori antes da coleta de dados; A pesquisa também pode ser chamada de “pesquisa de teste de hipóteses”.

Um princípio fundamental do teste de hipóteses é que os mesmos dados que foram usados para gerar uma hipótese não podem ser usados para testar esta hipótese. Para isso, um segundo estudo independente deve ser feito. Quando este princípio é violado, a importância dos testes, intervalos de confiança e controle de erros ficam comprometidos. Simplificando, quando a pesquisa exploratória é interpretada como pesquisa confirmatória, não pode haver resultados estatisticamente significativos legítimos. Esta é uma das fontes mais comuns de erros de design publicados: harking, p-hacking e cherry picking.

  • HARKing

Hipótese depois de conhecer os resultados – (Hypothesizing After the Results are Known), é definida como a apresentação no relatório de pesquisa de uma hipótese post hoc (baseada ou informada pelos resultados do mesmo experimento), como se fosse, de fato, uma hipótese a priori.

  • p-hacking e cherry picking

p-hacking é a prática de coletar, selecionando ou analisando dados até que um resultado com significância estatística seja encontrado. Diferentes formas de p-hack incluem: interromper a coleta de dados assim que p≤ 0,05 for atingido; analisando muitas relações diferentes e relatando apenas aquelas para as quais p≤ 0,05; variar as regras de exclusão e inclusão de dados de forma a obter p≤ 0,05; analisando diferentes subgrupos para obter p ≤ 0,05. Pesquisadores podem praticar p-hacking sem saber ou compreender as consequências.

Opiniões em discrepância com o Guia1

Segundo Francis Collins,5 as principais falhas na pesquisa não são problemas de terminologia ou coleta tendenciosa de estatísticas, mas uma série complexa de outros fatores que teriam contribuído para a falta de reprodutibilidade. Os fatores incluiriam: (a) treinamento deficiente de pesquisadores no planejamento de experimentos; (b) forte ênfase em fazer declarações provocativas em vez de apresentar detalhes técnicos; e (c) publicações que não relatam os elementos básicos do planejamento experimental. Alguns informes irreprodutíveis são provavelmente consequência de resultados de coincidências que não chegam a alcançar significância estatística.

A seguir, há o problema de porque algumas pesquisas não são publicadas (viés de publicação). São poucos os veículos nos quais os pesquisadores conseguem publicar resultados negativos ou artigos que apontem falhas científicas em estudos anteriores de trabalhos publicados. Somando-se ao problema, está a dificuldade de acessar dados não publicados e a falta de financiamento para as agências estabelecerem ou aplicarem políticas que recomendam acesso aos dados.

Fontes de falta de reprodutibilidade

As conclusões acima levantam questões-chave: O que torna a reprodutibilidade tão difícil de alcançar? Segue uma lista seletiva retirada das referências 4,6.

  • Informes não transparentes: os pesquisadores originais não relataram de forma transparente, forneceram acesso aberto ou arquivaram os dados digitais relevantes necessários para a reprodutibilidade.
  • Obsolescência dos artefatos digitais: Com o tempo, os artefatos digitais no compêndio de pesquisa são comprometidos devido à mudança, evolução da tecnologia ou falta de curadoria contínua de dados.
  • Tentativas fracassadas de reproduzir a pesquisa de outros: os pesquisadores que tentaram reproduzir os artigos não tinham experiência ou não seguiram corretamente os protocolos de pesquisa.
  • Barreiras na cultura da pesquisa: Falta de recursos e incentivos para adotar pesquisa computacionalmente reprodutível e transparente por meio de outras disciplinas ou pesquisadores.

Avaliação de literatura inédita

Uma abordagem para combater o viés de publicação é procurar e incluir artigos e resultados não publicados ao conduzir uma revisão sistemática da literatura. Em tais revisões, não é prática padrão procurar trabalhos não publicados ou resultados negativos. As estimativas para revisões que incluem trabalho não publicado variam de 6 a 50 por cento.

Minha reflexão

Uma grande questão que tem se evidenciado é a falta de preparo adequado no uso da estatística, ou na forma como as amostras são selecionadas, ou se os dados estão realmente disponíveis. Obviamente, a ausência de dados brutos significa a ausência de ciência. No caso em questão, a necessidade de compartilhar dados brutos (como em dados abertos) é claramente demonstrada. No sistema atual, onde assumimos que todos os pesquisadores são honestos e não é necessário enviar os dados brutos, a consequência é que dados fabricados escapam ao escrutínio, vazam nas arbitragens e acabam publicados em comunicações. A suposição de que todos são honestos não pode ser válida se, ao mesmo tempo, houver uma situação em que mais da metade dos pesquisadores supõem que cerca de 25% de todos os estudos sejam baseados em dados inexistentes.

Não parece realista supor que todos os coautores vejam e revisem todos os dados brutos em um grande artigo interdisciplinar publicado em um periódico de alto impacto. Assumimos que é chegado o momento de conceber um sistema, baseado num raciocínio equilibrado, onde nem todos são honestos a priori. O procedimento adequado deve ser publicar como preprint, com dados abertos e comentários abertos. Isso significa que as comunicações junto com os dados devem ser discutidas pelos especialistas em cada campo da ciência. Além disso, algum consenso deve ser alcançado para que os dados possam ser compartilhados sistematicamente por meio de reanálise e onde a mineração de dados possa ser facilmente realizada.

O Guia1 revisado marcou um avanço para ordenar conceitos e definições que, embora não fosse adequado o suficiente para contemplar as expectativas das ciências sociais e humanas, ao menos deixou claro que nas ciências exatas e experimentais havia situações que claramente precisavam ser corrigidas. Pelo menos a metodologia, a estatística, as comunicações que são publicadas e os vieses de publicação.

Trataremos das discrepâncias filosóficas e metodológicas das ciências sociais e humanas na parte III desta comunicação.

A série Replicação na Pesquisa consiste em três posts

  1. Reprodução e replicação na pesquisa científica – parte 1
  2. Reprodução e replicação na pesquisa científica – parte 2
  3. Reprodução e replicação na pesquisa científica – parte 3

Notas

1. NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019 [viewed 2 June 2023]. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

2. Board on Behavioral, Cognitive, and Sensory Sciences; Committee on National Statistics; Nuclear and Radiation Studies Board; Board on Mathematical Sciences and Analytics; Committee on Applied and Theoretical Statistics; Board on Research Data and Information; e Committee on Science, Engineering, Medicine, and Public Policy.

3. Na pesquisa científica, a hipótese nula H0 é a afirmação de que não há relação entre dois conjuntos de dados ou variáveis sendo testadas. A hipótese nula é que qualquer diferença observada experimentalmente se deve apenas ao acaso e não há relação causal subjacente entre duas variáveis, daí o termo “nulo”. Além da hipótese nula, também é desenvolvida uma hipótese alternativa H1, que afirma que existe uma relação entre duas variáveis.

4. WASSERSTEIN, R.L. and LAZAR, N.A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician [online]. 2016, vol. 70, no. 2, pp. 129-133 [viewed 2 June 2023]. https://doi.org/10.1080/00031305.2016.1154108. Available from: https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

5. Francis S. Collins, geneticista norte-americano, foi diretor do Projeto Genoma Humano por nove anos. Em 2009 foi nomeado diretor dos National Institutes of Health dos Estados Unidos pelo presidente Barack Obama que o considerou “um dos melhores cientistas do mundo”.

6. GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 2 June 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

Referências

COLLINS, F. AND TABAK, L. Policy: NIH plans to enhance reproducibility. Nature [online]. 2014, vol. 505, pp. 612–613 [viewed 2 June 2023]. https://doi.org/10.1038/505612a. Available from: https://www.nature.com/articles/505612a

FEEST, U. Why replication is overrated. Philosophy of Science [online]. 2019, vol. 86, pp. 895–905 [viewed 2 June 2023]. https://doi.org/10.1086/705451. Available from: https://www.cambridge.org/core/journals/philosophy-of-science/article/abs/why-replication-is-overrated/67510952274FECACE4DC2EB6A1354F2E

GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 2 June 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

HARTLING, L., et al. Grey Literature in Systematic Reviews: A Cross-Sectional Study of the Contribution of Non-English Reports, Unpublished Studies and Dissertations to the Results of Meta-Analyses in Child-Relevant Reviews. BMC Medical Research Methodology [online]. 2017, vol. 17, no. 1, 64 [viewed 2 June 2023]. https://doi.org/10.1136/bmjopen-2017-017737. Available from: https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-017-0347-z

KERR, N.L. HARKing: hypothesizing after the results are known. Personal Soc Psychol Rev [online]. 1998; vol. 2, no. 3, pp. 196–217 [viewed 2 June 2023]. https://doi.org/10.1207/s15327957pspr0203_4. Available from: https://journals.sagepub.com/doi/10.1207/s15327957pspr0203_4

MIYAKAWA, T. No raw data, no science: another possible source of the reproducibility crisis. Mol Brain [online]. 2020, vol. 13, 24 [viewed 2 June 2023]. https://doi.org/10.1186/s13041-020-0552-2. Available from: https://molecularbrain.biomedcentral.com/articles/10.1186/s13041-020-0552-2

NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019 [viewed 2 June 2023]. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

WASSERSTEIN, R.L. and LAZAR, N.A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician [online]. 2016, vol. 70, no. 2, pp. 129-133 [viewed 2 June 2023]. https://doi.org/10.1080/00031305.2016.1154108. Available from: https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

ZIAI, H., et al. Search for Unpublished Data by Systematic Reviewers: An Audit. BMJ Open [online]. 2017, vol. 7, no. 10, e017737 [viewed 2 June 2023]. https://doi.org/10.1136/bmjopen2017-017737. Available from: https://bmjopen.bmj.com/content/7/10/e017737

Link externo

HARKing – Wikipedia: https://en.wikipedia.org/wiki/HARKing

 

Sobre Ernesto Spinak

Colaborador do SciELO, engenheiro de Sistemas e licenciado em Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información” pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Traduzido do original em espanhol por Lilian Nassi-Calò.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. Reprodução e replicação na pesquisa científica – parte 2 [online]. SciELO em Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/blog/2023/06/02/reproducao-e-replicacao-na-pesquisa-cientifica-parte-2/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation