Reproducibilidad en resultados de investigación: los desafíos de asignar fiabilidad

Por Lilian Nassi-Calò

Uno de los pilares de la investigación científica combina la idoneidad de los científicos y la fiabilidad de los resultados, que, a su vez, sustentan la hipótesis que se pretende probar. Así como la falta de ética en la experimentación y publicación científica, la ausencia de reproducibilidad se considera una falla grave que contribuye a poner en riesgo la credibilidad de la ciencia como un todo.

Sin embargo, hay estudios que señalan que más de la mitad de los experimentos que incluyen ensayos clínicos con nuevas drogas y tratamientos son irreproducibles. John Ioannidis, de la Universidad de Stanford, EUA, pasa a decir que la mayoría de los resultados de investigación son, en verdad, falsos. Ioannidis es autor de un modelo matemático que predice que cuanto más pequeña es la muestra y menos estricta la metodología experimental, definiciones, resultados y análisis estadístico, mayor es la probabilidad de error. Además, los estudios que poseen intereses financieros y de otra naturaleza o de gran impacto, también están más propensos a resultados falsos.

La “jerarquía de la ciencia”, que posiciona a las ciencias exactas en la parte superior, las humanidades en la base y las ciencias biológicas en una posición entre ellas, tiene más de 200 años, cita Daniele Fanelli¹, en ese entonces investigador de la Universidad de Edimburgo, en el Reino Unido (elle actualmente es investigador senior en la Universidad de Stanford, EUA). Su estudio correlaciona las áreas del conocimiento, la proporción de resultados positivos y la fiabilidad de los resultados en base al rigor empleado para verificar la hipótesis del autor, realizado con un análisis de más de dos mil artículos en todas las disciplinas. Sus resultados, sin embargo, corroboran el estatus de las ciencias sociales contra innumerables argumentos de que son bastante subjetivas. Fanelli muestra que, cuando se usa un enfoque científico, el grado de fiabilidad se encuentra próximo al de las ciencias naturales.

En este escenario de controversia surge un estudio denominado Proyecto Reproducibilidad: Psicología (Reproducibility Project: Psychology)² que se propone evaluar la reproducibilidad de 100 artículos de investigación en psicología, iniciado en 2011 y concluido en 2015, y motivado por las denuncias de fraude y falla en análisis estadístico en estudios clásicos de psicología. Los resultados en el artículo de Nature en 2015³, señalan que apenas 39 de ellos pudieron ser reproducidos. Los resultados de este estudio, sin embargo, no son absolutos y hay varios matices que van desde “prácticamente idéntico“ a “algo similar” y “nada semejante”. Entre los 61 estudios reprobados en cuanto a reproducibilidad, los científicos clasificaron 24 de estos como presentando resultados “moderadamente similares” a los del experimento original, sin embargo fueron reprobados por el hecho de no alcanzar significación estadística, criterio necesario para ser considerado una replicación correcta.

Este resultado llevaría a la conclusión de que la psicología no es una ciencia reproducible. Sin embargo, áreas como la biología del cáncer y estudios sobre nuevos fármacos tienen índices de reproducibilidad menores, según Fanelli, que considera el resultado sobre el estudio de la psicología bastante aceptable. Los equipos que llevaron a cabo las pruebas de reproducibilidad no siempre tienen a disposición las mismas condiciones experimentales y, ciertamente, no los mismos pacientes que el estudio original. Esto sin duda contribuye a la baja reproducibilidad de los estudios.

Brian Nosek, psicólogo social y jefe del Center for Open Science de EUA, líder del Proyecto Reproducibilidad, trabajó directamente con cerca de 270 colaboradores en la replicación de los estudios de psicología. Al igual que Fanelli, relató a Nature⁴ que no hay forma segura de afirmar que un determinado artículo es confiable o no a partir de este estudio. Puede ser que el original o la replicación son defectuosos o que existan diferencias sustanciales entre ellos para permitir una evaluación adecuada. Nosek hace hincapié en que el objetivo del Proyecto Reproducibilidad no es responder simplemente cuántos artículos son confiables, pero advierten sobre la publicación de resultados que no resistirían un escrutinio más detallado y evaluar cuantitativamente el sesgo presente en las publicaciones en el área de psicología. Él cree que si sólo el 3% del los recursos destinados a la investigación fueran empleados en la evaluación de esta naturaleza, harían una gran diferencia.

Al igual que en otras disciplinas, se sabe que no es solamente el rigor metodológico o el significado estadístico lo que está en juego al aprobar un artículo para publicación. Las revistas quieren atraer la atención de sus lectores al publicar preferentemente resultados positivos o polémicos, a veces validados por pruebas estadísticas cuidadosamente seleccionados para satisfacer las necesidades del autor. Esto es particularmente común en biomedicina, y se encuentra en curso una iniciativa semejante, el Proyecto Reproducibilidad: Biología del Cáncer. Vale la pena resaltar que su aplicación enfrentó a mediados de 2015 dificultades para acceder a los datos originales de los estudios revisados y todavía no se ha completado.

Sin embargo, los investigadores en el área de psicología reanudaron el estudio del Proyecto Reproducibilidad: Psicología y llegaron a la conclusión de que no hay evidencias suficientes para dudar de la credibilidad de las publicaciones, de acuerdo con Daniel Gilbert, psicólogo de la Universidad de Harvard, EUA, y uno de los autores del re análisis publicado recientemente en Science⁵. Una respuesta⁶ publicada en el mismo número de la revista, sin embargo, se opone al re análisis alegando que está basado en suposiciones selectivas.

Gilbert defiende la fiabilidad de los estudios de psicología y afirma que son tan reproducibles como los de cualquier otra área. Además, en su opinión, el porcentaje de resultados considerados confirmados por el Proyecto Reproducibilidad (39%) es del mismo orden de magnitud de lo que cabría esperar por azar, incluso si el estudio original fuese verdadero. Analizando los protocolos experimentales del proyecto, es posible constatar que cada estudio fue reproducido una vez, mostrando la baja significación estadística para confirmar o no los resultados originales. De hecho, un artículo publicado en febrero de este año en PloS⁷ vuelve a evaluar las pruebas estadísticas del Proyecto, y concluye que alrededor de un tercio de las replicaciones no son concluyentes.

La controversia sobre los intentos de probar y certificar la reproducibilidad de estudios científicos se ve con optimismo por Nosek y otros científicos, pues destaca que la transparencia en la metodología científica y la verificación estadística es crucial en cada estudio. En cuanto al estudio contestatario de Gilbert y colegas, Nosek es de la opinión que no puede ser evaluado como definitivo.

Un artículo sobre estudios de reproducibilidad de autoría de David Allison, del Departamento de Bioestadística de la Escuela de Salud Pública, Universidad de Alabama, en EUA, y colaboradores, fue publicado en Nature en febrero de este año⁸. En el ensayo, los autores evalúan en cuánto la ciencia está sujeta a errores y hasta qué punto ella misma se corrige. A pesar de muchos artículos fraudulentos o con metodología fallada que acabaron retractados, eso no es la regla general. “Consultar a un estadístico después de realizado un experimento es como realizar una autopsia. Será posible tal vez encontrar la causa de la muerte del experimento” afirmó el estadístico Ronald Fisher, fallecido en 2015. En su opinión, las revisiones posteriores a la publicación también son post mortem, pues dan fe de que los estudios fueron realizados con metodología defectuosa y validados por pruebas estadísticas igualmente defectuosas, sin embargo poco se puede hacer en esta etapa.

Además de la psicología, se están evaluando estudios en el área de la economía en cuanto a la reproducibilidad. Un artículo publicado en Science⁹ al inicio de marzo informa de un proyecto para replicar 18 estudios en economía publicados en dos revistas de referencia entre 2011 y 2014. Los investigadores concluyeron que 11 estudios pueden ser reproducidos, ese número se elevó a 14 cuando se utilizaron diferentes criterios para evaluar la reproducibilidad.

De acuerdo con Nosek, estos resultados no indican necesariamente que los estudios en economía son más reproducibles que los de psicología, sobre todo porque el número de estudios en el primer caso fue menor y se concentró en estudios con relaciones simples. En la opinión de John Bohannon, corresponsal y colaborador de Science, la mayor parte de los estudios que no pudieron ser reproducidos emplearon como prueba estadística un valor de p inferior al 5% como significativo. Según el autor, a pesar de que muchos estarían de acuerdo con la fragilidad de la prueba, pocos estarían dispuestos a discutirlo. Algunos autores que sus resultados no fueron reproducidos afirman que la metodología del estudio fue cuidadosa, correcta y transparente, sin embargo no están de acuerdo en que eso signifique que el ensayo original haya sido un falso positivo. “Creemos que es más preciso interpretar la falla en replicar nuestro estudio como un fracaso del tratamiento”¹⁰.

Los investigadores que no estuvieron involucrados con cualquiera de los proyectos de reproducibilidad creen que estos resultados diferentes son inherentes a las ciencias sociales, pues la población humana es muy heterogénea. La solución propuesta, que sirve para todas las áreas del conocimiento, sería basar las conclusiones en múltiples estudios sobre el mismo tema, para aumentar la credibilidad.

Notas

1. FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

2. Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

3. BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

4. BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

5. GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

6. ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

7. ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

8. ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

9. CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

10. BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

Referencias

ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

BEGLEY, C.G. and ELLIS, L.M. Drug development: Raise standards for preclinical cancer research. Nature. 2012, vol. 483, 7391, pp. 531-533. DOI: 10.1038/483531a

BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

IOANNIDIS, J. P. Why most published research findings are false. PLoS Med. 2005. DOI: 10.1371/journal.pmed.0020124. Available from: http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124.

NASSI-CALÒ, L. La reproducibilidad en los resultados de investigación: la mirada subjetiva. SciELO en Perspectiva. [viewed 06 March 2016]. Available from: http://blog.scielo.org/es/2014/02/19/la-reproducibilidad-en-los-resultados-de-investigacion-la-mirada-subjetiva/

NASSI-CALÒ, L. La reproducibilidad en los resultados de investigación: la punta del iceberg. SciELO en Perspectiva. [viewed 06 March 2016]. Available from: http://blog.scielo.org/es/2014/02/27/la-reproducibilidad-en-los-resultados-de-investigacion-la-punta-del-iceberg/

Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

PRINZ, F., SCHLANGE, T., and ASADULLAH, K. Believe it or not: how much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery. 2011, vol. 10, nº 712. DOI: 10.1038/nrd3439-c1. Available from: http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html

VAN NOORDEN, R. Sluggish data sharing hampers reproducibility effort. Nature. 2015. DOI: 10.1038/nature.2015.17694. Available from: http://www.nature.com/news/sluggish-data-sharing-hampers-reproducibility-effort-1.17694

Enlace externo

Reproducibility Project: Cancer Biology – <http://validation.scienceexchange.com/#/cancer-biology>

Sobre Lilian Nassi-Calò

Lilian Nassi-Calò estudió química en el Instituto de Química de la USP, tiene un doctorado en Bioquímica por la misma institución y un pos doctorado como becaria de la Fundación Alexander von Humboldt en Wuerzburg, Alemania. Después de concluir sus estudios, fue docente e investigadora en el IQ-USP. Trabajó en la industria privada como química industrial y actualmente es Coordinadora de Comunicación Científica en BIREME/OPS/OMS y colaboradora de SciELO.

Traducido del original en portugués por Ernesto Spinak.

Posts relacionados:

Como citar este post [ISO 690/2010]:

NASSI-CALÒ, L. Reproducibilidad en resultados de investigación: los desafíos de asignar fiabilidad [online]. SciELO en Perspectiva, 2016 [viewed ]. Available from: https://blog.scielo.org/es/2016/03/31/reproducibilidad-en-resultados-de-investigacion-los-desafios-de-asignar-fiabilidad/

4 Thoughts on “Reproducibilidad en resultados de investigación: los desafíos de asignar fiabilidad”

Psicólogo de Madrid on December 10, 2016 at 12:05 said:

Un trabajo impresionante, el qe Lilian ha llevado a cabo. Es un trabajo completo, extenso, muy bien documentado y con una bibliografía rigurosa y actual. Mi enhorabuena

Saludos desde Madrid

Reply↓
PSICOLOGOS MADRID CENTRO CEPSIM on January 25, 2017 at 21:44 said:

Lilian, eres estupenda, y escribiendo de las mejores que conozco.
Expresión perfecta y lecturas siempre muy entretenidas que incitan a leerlas hasta el final.

Sólo una cosa que no estoy del todo de acuerdo en este texto:

“…llevaría a la conclusión de que la psicología no es una ciencia reproducible.”

Creo recordar haber leído al respecto algo que contradice esta afiermación. Lamento no poder decir exactamente en la lectura que me baso para ello, pero si la encuentro volveré aquí para aclarar mi afirmación.

Gracias por la información!

Reply↓
Pingback: La evaluación sobre la reproducibilidad de los resultados de investigación trae más preguntas que respuestas | SciELO en Perspectiva
Psicologa on June 24, 2022 at 05:45 said:

Muy interesante el trabajo, es evidente que si el estudio no es reproducible y falseable no podríamos hablar de ciencia. Ciertamente la psicología abnadona la esfera de las ideas y se enlaza con la ciencia de modo ineludible.

Reply↓