Reproducción & Replicación en investigación científica – parte 2

Por Ernesto Spinak

Introducción

Captura de pantalla de la película Maniac (1934), de dominio público. La cámara está desenfocada y muestra a Horace B. Carpenter como el personaje "Dr. Meirschultz" detrás de un equipo de laboratorio.

Imagen: Maniac, 1934.

La empresa científica depende de la capacidad de la comunidad científica para examinar las afirmaciones científicas y ganar confianza a lo largo del tiempo en resultados e inferencias que han resistido repetidas pruebas. La inferencia estadística proporciona un concepto y marco computacional para abordar las cuestiones científicas en cada ajuste de conocimientos. La estimación y la prueba de hipótesis son conjuntos amplios de procedimientos inferenciales rigurosamente estudiados.

La reproducibilidad de los experimentos es importante para la comprobación de las inferencias. Reproducibilidad significa “obtener los mismos resultados en un estudio independiente cuyos procedimientos son lo más parecido posible al experimento original. Pero, en los hechos, no resulta ser siempre así.

En esta nota vamos a analizar algunas propuestas de la guía metodológica elaborada por la National Academies of Sciences, Engineering, and Medicine (NASEM) en 2019,1 con el propósito de normalizar conceptos y teminología que se venían discutiendo por más de una década. La Guía1 fue generada con la cooperación de aproximadamente 120 expertos y refleja la opinión de por lo menos siete subcomisiones2 de esa organización. Si no se indica otra fuente, las citas incorporadas en esta nota provienen de la Guía1 mencionada.

Aunque hubo amplios consensos al preparar esta Guía1 –tal como se refleja en las definiciones y conceptos que siguen– básicamente expresan la visión proveniente de las ciencias exactas, experimentales y computacionales, modeladas sobre el fondo de los procedimientos algorítmicos. En consecuencia, surgieron discrepancias y críticas inevitables sobre bases filosóficas y epistemológicas presentadas por los investigadores provenientes las ciencias sociales, y la medicina sobre otros aspectos. (Esto se desarrollará en la siguiente y última parte de la serie).

Algunos conceptos centrales y definiciones propuestos en la Guía1

  • Prueba de hipótesis3

La formulación común de la prueba de hipótesis se basa en la respuesta a la siguiente pregunta: “si la hipótesis nula es verdadera, ¿cuál es la probabilidad de obtener una diferencia que sea por lo menos tan grande como la observada en el experimento?”

En general, cuanto mayor sea la diferencia observada, menor es la probabilidad de que se produzca una diferencia tan grande como la observada respecto a la que se obtendría cuando la hipótesis nula es verdadera.

Esta probabilidad de obtener una diferencia al menos tan grande como la observada, cuando la hipótesis nula es verdadera, se denomina valor p”. Como tradicionalmente se interpreta, si un valor “p” calculado es menor que un umbral definido, los resultados pueden considerarse estadísticamente significativos. Un umbral típico puede ser p ≤ 0.05.

Pero esto no resulta ser tan lineal ni tan simple, porque en una declaración emitida en 2016, la Junta de la American Statistical Association consideró:

Si bien el valor p puede ser una medida estadística útil, es comúnmente mal utilizado y mal interpretado. Esto ha llevado a que algunas revistas científicas desaconsejen el uso de valores “p”, y algunos científicos y estadísticos recomiendan su abandono.4

  • Rigor

El rigor se define como “la aplicación estricta del método científico para asegurar un diseño experimental robusto e imparcial”.

  • Transparencia

La transparencia tiene una larga tradición en la ciencia. Los científicos han compartido detalles sobre su investigación, incluido el diseño del estudio, los materiales utilizados, los detalles del sistema en estudio, operacionalización de variables, y técnicas de medición.

En general, cuando un investigador informa de manera transparente el estudio y pone a disposición los artefactos digitales subyacentes, como ser los datos y el código, los resultados deberían ser “computacionalmente reproducibles.

La transparencia de datos, código y métodos computacionales están directamente relacionados con la reproducibilidad, y también se aplica a la replicabilidad.

  • Reproducibilidad

Según lo definido por el comité, la reproducibilidad se relaciona estrictamente con “reproducibilidad computacional”, esto es obtener resultados consistentes usando los mismos datos de entrada, métodos computacionales y condiciones de análisis.

Cuando los resultados son producidos por cálculos computacionales mediante procesos complejos que utilizan grandes volúmenes de datos, la sección “Métodos” del artículo científico tradicional es insuficiente para transmitir la información necesaria para que otros reproduzcan los resultados. Es decir, la sección “Métodos” debería incluir los datos, métodos de estudio y entorno computacional donde se realiza el estudio que se ejecutó originalmente, por ejemplo el sistema operativo y arquitectura de hardware.

El conjunto de intentos de reproducibilidad analizados por el comité a través de una variedad de disciplinas permite señalar que una serie de esfuerzos para reproducir los resultados computacionales han fracasado en más de la mitad de los intentos realizados, principalmente debido a detalles insuficientes sobre artefactos digitales, tales como datos, código y flujo de trabajo computacional.1

Es claro que el enfoque dado en la Guía1 es aplicable a entornos algorítmicos, propio de las llamadas “ciencias duras”, pero este paradigma no es automáticamente transferible a otros dominios de investigación. Sin embargo, tomando en consideración dichas limitaciones filosóficas, la Guía1 presenta con claridad y certeza los manejos pobres y sesgados de muchos experimentos publicados, debido a los métodos seleccionados y el mal manejo de las estadísticas, como se explica a continuación.

Problemas con inferencias estadísticas inapropiadas

  • Investigación confirmatoria

La investigación confirmatoria es aquella que comienza con una investigación bien definida, con preguntas e hipótesis a priori antes de la recogida de datos; la investigación también puede llamarse “investigación de prueba de hipótesis”.

Un principio fundamental de la prueba de hipótesis es que los mismos datos que se usaron para generar una hipótesis no se pueden usar para probar esa hipótesis. Para ello, debe hacerse un segundo estudio independiente. Cuando se viola este principio, la importancia de las pruebas, los intervalos de confianza y el control de errores se ven comprometidos. En pocas palabras, cuando la investigación exploratoria se interpreta como si fuera una investigación confirmatoria, no puede haber ningún resultado estadísticamente significativo legítimo. Esto es una de las fuentes de errores muy comunes de diseño publicados: harking, p-hacking y cherry picking.

  • HARKing

Hipótesis después de conocer los resultados – (Hypothesizing After the Results are Known), se define como la presentación en el informe de investigación de una hipótesis post hoc (basada o informada por los resultados del mismo experimento), como si fuera, de hecho, una hipótesis a priori.

  • p-hacking y cherry picking

p-hacking es la práctica de coleccionar, seleccionando o analizando datos hasta que se encuentra un resultado de significación estadística. Las diferentes formas de p-hack incluyen: detener la recopilación de datos una vez que es alcanzado un p≤ 0.05; analizando muchas relaciones diferentes y solo reportando aquellas para el cual p≤ 0.05; variando las reglas de exclusión e inclusión de datos de manera que se obtenga p≤ 0.05; analizando diferentes subgrupos para obtener p ≤ 0.05. Los investigadores pueden p-hackear sin saber o sin entender el consecuencias.

Opiniones en discrepancia con la Guía1

Según Francis Collins,5 las fallas mayores en las investigaciones no eran los problemas terminológicos o la recopilación sesgada de estadísticas, sino una serie compleja de otros factores que habrían contribuido a la falta de reproducibilidad. Los factores incluirían: (a) pobre formación de los investigadores en el diseño de experimentos; (b) gran énfasis en hacer declaraciones provocativas en lugar de presentar detalles técnicos; y (c) publicaciones que no reportan los elementos básicos del diseño experimental. Algunos informes irreproducibles son probablemente el resultado de hallazgos de coincidencias que no llegan a alcanzar significación estadística.

Luego está el problema de por qué hay investigaciones que no son publicadas (sesgo de publicación). Hay pocos lugares para que los investigadores puedan publicar datos negativos o artículos que señalan fallas científicas en estudios anteriores de obras publicadas. Como adicional del problema es la dificultad de acceder a datos no publicados y la falta de financiación de agencias para establecer o hacer cumplir políticas que insisten en el acceso a los datos.

Fuentes de no reproducibilidad

Las conclusiones anteriores plantean preguntas claves: ¿Qué hace que la reproducibilidad sea tan difícil de lograr? Sigue una lista selectiva tomada de 4,6.

  • Informes no transparentes: los investigadores originales no informaron de forma transparente, no proporcionan acceso abierto ni archivaron los datos pertinentes digitales necesarios para la reproducibilidad.
  • Obsolescencia de los artefactos digitales: Con el tiempo, los artefactos digitales en el compendio de investigación están comprometidos debido a la tecnología cambiante en evolución o la falta de curación continua de los datos.
  • Intentos fallidos de reproducir la investigación de otros: los investigadores que intentaron reproducir los trabajos carecían de experiencia o no lograron seguir correctamente los protocolos de investigación.
  • Barreras en la cultura de la investigación: Falta de recursos e incentivos para adoptar investigaciones computacionalmente reproducibles y transparentes a través de otras disciplinas o investigadores.

Evaluación de la literatura inédita

Un enfoque para contrarrestar el sesgo de publicación es buscar e incluir artículos y resultados no publicados al realizar una revisión sistemática de la literatura. En dichas revisiones no es una práctica estándar buscar trabajos no publicados o resultados negativos. Las estimaciones de las revisiones que incluyen trabajos no publicados varian desde 6 al 50 por ciento.

Mis reflexiones

Un gran tema que ha quedado en evidencia, es la falta de preparación adecuada en el uso de estadísticas, o en cómo se seleccionan las muestras, o si efectivamente los datos están. Obviamente que la ausencia de datos sin procesar significa la ausencia de ciencia. Para el caso que nos ocupa claramente se demuestra la necesidad de compartir datos en bruto (como en open data). En el sistema actual, donde asumimos que todo investigador es honesto, y no se requiere presentar los datos sin procesar, la consecuencia es que los datos fabricados escapan al escrutinio, se filtran en los arbitrajes, y terminan publicados en las comunicaciones. La suposición que todo el mundo sea honesto no puede ser válida si al mismo tiempo hay una situación en la que más de la mitad de los investigadores suponen que alrededor del 25% de todos los estudios se basan en datos inexistentes.

No parece que sea realista suponer que todos los coautores vean y revisen todos los datos sin procesar en un artículo enorme e interdisciplinario publicado en una revista de alto impacto. Suponemos que ha llegado el momento de diseñar un sistema, basado en un razonamiento ecuánime, donde no todo el mundo es honesto a priori. El procedimiento adecuado debería ser publicar como preprint, con los datos abiertos y los comentarios abiertos. Esto significa que las comunicaciones junto con los datos deben ser discutidos por los expertos en cada campo de la ciencia. Además se debe llegar a cierto consenso para que los datos se puedan compartir de manera sistemática mediante el reanálisis y donde la minería de datos pueda llevarse a cabo fácilmente.

La Guía1 reseñada marcó un avance para ordenar conceptos y definiciones que, si bien no fue suficientente adecuada para incluir las expectativas de las ciencias sociales y humanas, al menos quedó claro que en las ciencias exactas y experimentales, habían situaciones que claramente precisaban corregirse. Al menos: las metodologías, las estadísticas, las comunicaciones que se publican y los sesgos de publicación.

Sobre las discrepancias filosóficas y metodológicas con las ciencias sociales y humanas nos encargaremos en la parte III de esta comunicación.

La serie Replicación en la investigación consta de tres posts

  1. Reproducción & Replicación en investigación científica – parte 1
  2. Reproducción & Replicación en investigación científica – parte 2
  3. Reproducción & Replicación en investigación científica – parte 3

Notas

1. NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019 [viewed 2 June 2023]. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

2. Board on Behavioral, Cognitive, and Sensory Sciences; Committee on National Statistics; Nuclear and Radiation Studies Board; Board on Mathematical Sciences and Analytics; Committee on Applied and Theoretical Statistics; Board on Research Data and Information; e Committee on Science, Engineering, Medicine, and Public Policy.

3. En la investigación científica, la hipótesis nula H0 es la afirmación de que no existe relación entre dos conjuntos de datos o variables que se analizan. La hipótesis nula es que cualquier diferencia observada experimentalmente se debe solo al azar y no existe una relación causal subyacente entre dos variables, de ahí el término “nula”. Además de la hipótesis nula, también se desarrolla una hipótesis alternativa H1, que afirma que sí existe una relación entre dos variables.

4. WASSERSTEIN, R.L. and LAZAR, N.A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician [online]. 2016, vol. 70, no. 2, pp. 129-133 [viewed 2 June 2023]. https://doi.org/10.1080/00031305.2016.1154108. Available from: https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

5. Francis S. Collins, genetista estadounidense, fue director del Proyecto Genoma Humano durante nueve años. En 2009 fue nombrado director de los National Institutes of Health de Estados Unidos por el presidente Barack Obama quien lo consideró como “uno de los mejores científicos del mundo”.

6. GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 2 June 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

Referencias

COLLINS, F. AND TABAK, L. Policy: NIH plans to enhance reproducibility. Nature [online]. 2014, vol. 505, pp. 612–613 [viewed 2 June 2023]. https://doi.org/10.1038/505612a. Available from: https://www.nature.com/articles/505612a

FEEST, U. Why replication is overrated. Philosophy of Science [online]. 2019, vol. 86, pp. 895–905 [viewed 2 June 2023]. https://doi.org/10.1086/705451. Available from: https://www.cambridge.org/core/journals/philosophy-of-science/article/abs/why-replication-is-overrated/67510952274FECACE4DC2EB6A1354F2E

GOODMAN, S.N., FANELLI, D. and IOANNIDIS, J.P.A. What does research reproducibility mean? Science Translational Medicine [online]. 2016, vol. 8, no. 341, 341ps12 [viewed 2 June 2023]. https://doi.org/10.1126/scitranslmed.aaf5027. Available from: https://www.science.org/doi/10.1126/scitranslmed.aaf5027

HARTLING, L., et al. Grey Literature in Systematic Reviews: A Cross-Sectional Study of the Contribution of Non-English Reports, Unpublished Studies and Dissertations to the Results of Meta-Analyses in Child-Relevant Reviews. BMC Medical Research Methodology [online]. 2017, vol. 17, no. 1, 64 [viewed 2 June 2023]. https://doi.org/10.1136/bmjopen-2017-017737. Available from: https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-017-0347-z

KERR, N.L. HARKing: hypothesizing after the results are known. Personal Soc Psychol Rev [online]. 1998; vol. 2, no. 3, pp. 196–217 [viewed 2 June 2023]. https://doi.org/10.1207/s15327957pspr0203_4. Available from: https://journals.sagepub.com/doi/10.1207/s15327957pspr0203_4

MIYAKAWA, T. No raw data, no science: another possible source of the reproducibility crisis. Mol Brain [online]. 2020, vol. 13, 24 [viewed 2 June 2023]. https://doi.org/10.1186/s13041-020-0552-2. Available from: https://molecularbrain.biomedcentral.com/articles/10.1186/s13041-020-0552-2

NATIONAL ACADEMIES OF SCIENCES, ENGINEERING, AND MEDICINE. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press, 2019 [viewed 2 June 2023]. https://doi.org/10.17226/25303. Available from: https://nap.nationalacademies.org/catalog/25303/reproducibility-and-replicability-in-science

WASSERSTEIN, R.L. and LAZAR, N.A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician [online]. 2016, vol. 70, no. 2, pp. 129-133 [viewed 2 June 2023]. https://doi.org/10.1080/00031305.2016.1154108. Available from: https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

ZIAI, H., et al. Search for Unpublished Data by Systematic Reviewers: An Audit. BMJ Open [online]. 2017, vol. 7, no. 10, e017737 [viewed 2 June 2023]. https://doi.org/10.1136/bmjopen2017-017737. Available from: https://bmjopen.bmj.com/content/7/10/e017737

Enlace externo

HARKing – Wikipedia: https://en.wikipedia.org/wiki/HARKing

 

Sobre Ernesto Spinak

Colaborador de SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

author avatar
Ernesto Spinak
Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información" pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Como citar este post [ISO 690/2010]:

Reproducción & Replicación en investigación científica – parte 2 [online]. SciELO en Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/es/2023/06/02/reproduccion-replicacion-en-investigacion-cientifica-parte-2/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation