{"id":2488,"date":"2017-10-25T10:49:48","date_gmt":"2017-10-25T12:49:48","guid":{"rendered":"http:\/\/blog.scielo.org\/es\/?p=2488"},"modified":"2017-10-25T10:49:48","modified_gmt":"2017-10-25T12:49:48","slug":"una-solucion-estadistica-para-la-crisis-de-la-replicacion-en-ciencia-publicado-originalmente-en-the-conversation-en-octubre2017","status":"publish","type":"post","link":"https:\/\/blog.scielo.org\/es\/2017\/10\/25\/una-solucion-estadistica-para-la-crisis-de-la-replicacion-en-ciencia-publicado-originalmente-en-the-conversation-en-octubre2017\/","title":{"rendered":"Una soluci\u00f3n estad\u00edstica para la crisis de la replicaci\u00f3n en ciencia [Publicado originalmente en The Conversation en Octubre\/2017]"},"content":{"rendered":"<p><strong>Por Valen E. Johnson<\/strong><\/p>\n<div id=\"attachment_2492\" style=\"width: 310px\" class=\"wp-caption alignright\"><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1.png\" target=\"_blank\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2492\" class=\"wp-image-2492 size-medium\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1-300x180.png\" alt=\"\" width=\"300\" height=\"180\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1-300x180.png 300w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1-768x461.png 768w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1-1024x615.png 1024w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/the-conversation-1-150x90.png 150w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-2492\" class=\"wp-caption-text\">Imagen: <a href=\"https:\/\/www.freepik.com\" target=\"_blank\">mario_luengo \/ Freepik<\/a><\/p><\/div>\n<p>En un ensayo de un nuevo medicamento para curar el c\u00e1ncer, el 44 por ciento de 50 pacientes lograron la remisi\u00f3n despu\u00e9s del tratamiento. Sin el medicamente, s\u00f3lo el 32 por ciento de pacientes anteriores hicieron lo mismo. El nuevo tratamiento parece prometedor, pero \u00bfes mejor que el est\u00e1ndar?<\/p>\n<p>Esta pregunta es dif\u00edcil, por lo que los estad\u00edsticos tienden a responder una pregunta diferente. Miran sus resultados y calculan algo llamado valor-p. Si el valor-p es menor que 0,05, los resultados son \u201cestad\u00edsticamente significativos\u201d \u2013 en otras palabras, es poco probable que sean causados por la casualidad.<\/p>\n<p>El problema es que muchos resultados estad\u00edsticamente significativos no son replicables. Un tratamiento que parece prometedor en un ensayo no muestra ning\u00fan beneficio en absoluto cuando se administra al siguiente grupo de pacientes. Este problema se ha vuelto tan severo que una revista de psicolog\u00eda realmente prohibi\u00f3 por completo los valores-p.<\/p>\n<p>Mis colegas y yo hemos estudiado este problema, y creemos que sabemos lo que lo est\u00e1 causando. La barrera para reclamar significaci\u00f3n estad\u00edstica simplemente es demasiado baja.<\/p>\n<h3>La mayor\u00eda de las hip\u00f3tesis son falsas<\/h3>\n<p>La <em>Open Science Collaboration<\/em>, una organizaci\u00f3n sin fines de lucro enfocada en la investigaci\u00f3n cient\u00edfica, intent\u00f3 replicar 100 experimentos de psicolog\u00eda publicados. Mientras que 97 de los experimentos iniciales informaron hallazgos estad\u00edsticamente significativos, s\u00f3lo 36 de los estudios replicados s\u00ed lo hicieron.<\/p>\n<p>Varios estudiantes de posgrado y yo usamos estos datos para estimar la probabilidad de que un experimento de psicolog\u00eda elegido al azar pruebe un efecto real. Descubrimos que solo un 7 por ciento lo hace. En un estudio similar<sup>1<\/sup>, la economista Anna Dreber y sus colegas estimaron que solo el 9 por ciento de los experimentos se replicar\u00edan.<\/p>\n<p>Ambos an\u00e1lisis sugieren que s\u00f3lo uno en 13 nuevos tratamientos experimentales en psicolog\u00eda \u2013 y probablemente en muchas otras ciencias sociales \u2013 resultar\u00e1n ser un \u00e9xito.<\/p>\n<p>Esto tiene implicaciones importantes a la hora de interpretar valores-p, particularmente cuando est\u00e1n cerca de 0,05.<\/p>\n<h3>El factor de Bayes<\/h3>\n<p>Los valores-p cercanos a 0,05 tienen m\u00e1s probabilidades de ser debidos a una probabilidad aleatoria de lo que la mayor\u00eda de la gente cree. Para entender el problema, regresemos a nuestro ensayo imaginario del medicamento. Recuerde, 22 de 50 pacientes con el nuevo medicamento entraron en remisi\u00f3n, en comparaci\u00f3n con un promedio de s\u00f3lo 16 pacientes de 50 con el tratamiento anterior.<\/p>\n<p>La probabilidad de ver 22 o m\u00e1s \u00e9xitos de 50 es 0,05 si el nuevo medicamento no es mejor que el anterior. Esto significa que el valor-p para este experimento es estad\u00edsticamente significativo. Pero queremos saber si el nuevo tratamiento realmente es una mejora, o si no es mejor que la forma anterior de hacer las cosas.<\/p>\n<p>Para averiguarlo, debemos combinar la informaci\u00f3n contenida en los datos con la informaci\u00f3n disponible antes de realizar el experimento, o las \u201cprobabilidades previas\u201d. Las probabilidades anteriores reflejan factores que no se miden directamente en el estudio. Por ejemplo, podr\u00edan explicar el hecho de que en otros 10 ensayos con medicamentos similares, ninguno result\u00f3 exitoso.<\/p>\n<p>Si el nuevo medicamento no es mejor que el anterior, entonces las estad\u00edsticas nos dicen que la probabilidad de ver exactamente 22 de 50 \u00e9xitos en este ensayo es 0,0235 \u2013 relativamente bajo.<\/p>\n<p>\u00bfQu\u00e9 pasa si el nuevo medicamento es en realidad mejor? En realidad no conocemos la tasa de \u00e9xito del nuevo medicamento, pero creemos que est\u00e1 cerca de la tasa de \u00e9xito observada, 22 en 50. Si asumimos eso, entonces la probabilidad de observar 22 \u00e9xitos en 50 es 0,0113 \u2013 aproximadamente 5 veces m\u00e1s probable. (No es casi 20 veces m\u00e1s probable, sin embargo, como se podr\u00eda adivinar si supiera que el valor-p del experimento era 0,05).<\/p>\n<p>Este ratio de probabilidades se llama factor Bayes. Podemos usar el teorema de Bayes para combinar el factor de Bayes con las probabilidades anteriores para calcular la probabilidad de que el nuevo tratamiento sea mejor.<\/p>\n<div id=\"attachment_2491\" style=\"width: 985px\" class=\"wp-caption aligncenter\"><a href=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es.png\" target=\"_blank\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-2491\" class=\"wp-image-2491 size-full\" src=\"http:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es.png\" alt=\"\" width=\"975\" height=\"884\" srcset=\"https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es.png 975w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es-300x272.png 300w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es-768x696.png 768w, https:\/\/blog.scielo.org\/es\/wp-content\/uploads\/sites\/3\/2017\/10\/a-statistical-fix-for-the-replication-crisis-in-science_es-150x136.png 150w\" sizes=\"auto, (max-width: 975px) 100vw, 975px\" \/><\/a><p id=\"caption-attachment-2491\" class=\"wp-caption-text\">Adaptado de lo original: <a href=\"https:\/\/images.theconversation.com\/files\/190907\/original\/file-20171018-32341-1i70yms.jpg?ixlib=rb-1.1.0&amp;q=45&amp;auto=format&amp;w=1000&amp;fit=clip\" target=\"_blank\">Valen Johnson<\/a><\/p><\/div>\n<p style=\"text-align: center;\"><strong>\u00bfCu\u00e1l es la probabilidad de observar el \u00e9xito en 50 ensayos? La curva azul representa las probabilidades bajo la \u201chip\u00f3tesis nula\u201d, cuando el nuevo tratamiento no es mejor que el anterior. La curva roja representa las probabilidades cuando el nuevo tratamiento es mejor. El \u00e1rea sombreada representa el valor-p. En este caso, el ratio de probabilidades asignado a 22 \u00e9xitos es A dividido por B, o sea 0.21.<\/strong><\/p>\n<p>Por el bien del argumento, supongamos que solo 1 de cada 13 tratamientos experimentales contra el c\u00e1ncer ser\u00e1 un \u00e9xito. Eso est\u00e1 cerca del valor que estimamos para los experimentos de psicolog\u00eda.<\/p>\n<p>Cuando combinamos estas probabilidades anteriores con el factor de Bayes, resulta que la probabilidad de que el nuevo tratamiento sea mejor que el anterior es al menos 0,71. \u00a1Pero el valor-p estad\u00edsticamente significativo de 0,05 sugiere exactamente lo contrario!<\/p>\n<h3>Un nuevo enfoque<\/h3>\n<p>Esta inconsistencia es t\u00edpica de muchos estudios cient\u00edficos. Es particularmente com\u00fan para valores-p cercanos a 0,05. Esto explica por qu\u00e9 una alta proporci\u00f3n de resultados estad\u00edsticamente significativos no replican.<\/p>\n<p>Entonces, \u00bfc\u00f3mo debemos evaluar las afirmaciones iniciales de un descubrimiento cient\u00edfico? En septiembre, mis colegas y yo propusimos una nueva idea: s\u00f3lo los valores-p mejores a 0,005 deber\u00edan ser considerados estad\u00edsticamente significativos. Valores-p entre 0,005 y 0,05 simplemente deber\u00edan llamarse sugestivos.<\/p>\n<p>En nuestra propuesta, los resultados estad\u00edsticamente significativos es m\u00e1s probable que se repliquen, incluso despu\u00e9s de tener en cuenta las peque\u00f1as probabilidades previas que normalmente corresponden a los estudios en las ciencias sociales, biol\u00f3gicas y m\u00e9dicas.<\/p>\n<p>Adem\u00e1s, creemos que la significaci\u00f3n estad\u00edstica no deber\u00eda servir como un umbral de l\u00ednea brillante para la publicaci\u00f3n. Los resultados estad\u00edsticamente sugestivos \u2013 o incluso los resultados que son en gran medida no concluyentes \u2013 tambi\u00e9n podr\u00edan publicarse, en funci\u00f3n de si informan o no la evidencia preliminar importante con respecto a la posibilidad que una nueva teor\u00eda sea cierta.<\/p>\n<p>El 11 de octubre presentamos esta idea a un grupo de estad\u00edsticos en el Simposio ASA sobre Inferencia Estad\u00edstica en Bethesda, Maryland. Nuestro objetivo al cambiar la definici\u00f3n de significaci\u00f3n estad\u00edstica es restablecer el significado previsto de este t\u00e9rmino: que los datos han proporcionado un apoyo sustancial para un descubrimiento cient\u00edfico o efecto de tratamiento.<\/p>\n<h3>Cr\u00edtica de nuestra idea<\/h3>\n<p>No todos est\u00e1n de acuerdo con nuestra propuesta, incluyendo otro grupo de cient\u00edficos dirigidos por el psic\u00f3logo Daniel Lakens.<\/p>\n<p>Argumentan que la definici\u00f3n de los factores de Bayes es demasiada subjetiva, y que los investigadores pueden hacer otras suposiciones que podr\u00edan cambiar sus conclusiones. En el ensayo cl\u00ednico, por ejemplo, Lakens podr\u00eda argumentar que los investigadores podr\u00edan informar la tasa de remisi\u00f3n a los tres meses en lugar de a los seis meses, si proporciona evidencia m\u00e1s s\u00f3lida en favor del nuevo medicamento.<\/p>\n<p>Lakens y su grupo tambi\u00e9n consideran que la estimaci\u00f3n de que s\u00f3lo uno de cada 13 experimentos se replicar\u00e1 es demasiado baja. Se\u00f1alan que este c\u00e1lculo no incluye efectos como p-hacking, un t\u00e9rmino usado cuando los investigadores analizan repetidamente sus datos hasta que encuentran un valor-p fuerte.<\/p>\n<p>En lugar de elevar la barrera de la significaci\u00f3n estad\u00edstica, el grupo de Lakens cree que los investigadores deber\u00edan establecer su propio nivel de significaci\u00f3n estad\u00edstica antes de realizar sus experimentos.<\/p>\n<p>Estoy en desacuerdo con muchas de las afirmaciones del grupo de Lakens y, desde una perspectiva puramente pr\u00e1ctica, siento que su propuesta es imposible. La mayor\u00eda de las revistas cient\u00edficas no proporcionan un mecanismo para que los investigadores registren y justifiquen su elecci\u00f3n de los valores-p antes de realizar experimentos. Lo que es m\u00e1s importante, permitir que los investigadores establezcan sus propios umbrales de evidencia no parece una buena manera de mejorar la reproducibilidad de la investigaci\u00f3n cient\u00edfica.<\/p>\n<p>La propuesta de Lakens solo funcionar\u00eda si los editores de revistas y las agencias de financiaci\u00f3n acordaran por adelantado en publicar informes de experimentos que no se hayan realizado seg\u00fan los criterios impuestos por los propios investigadores a s\u00ed mismos. Creo que es poco probable que esto suceda en alg\u00fan momento del futuro cercano.<\/p>\n<p>Hasta que esto ocurra, yo recomiendo que no conf\u00ede en las aseveraciones de estudios cient\u00edficos basados en valores-p cercanos a 0,05. Insista en est\u00e1ndares m\u00e1s elevados.<\/p>\n<h3>Nota<\/h3>\n<p>1. DREBER, A., et al. Using prediction markets to estimate the reproducibility of scientific research. <em>Proceedings of the National Academy of Sciences<\/em> [online]. 2015, vol. 112, no. 50, pp. 15343-15347 [viewed 18 October 2017]. DOI: 10.1073\/pnas.1516179112. Available from: <a href=\"http:\/\/www.pnas.org\/content\/112\/50\/15343\" target=\"_blank\">http:\/\/www.pnas.org\/content\/112\/50\/15343<\/a><\/p>\n<h3>Refer\u00eancias<\/h3>\n<p>American Statistical Association releases statement on statistical significance and p-values [online]. American Statistical Association (ASA). 2016 [viewed 18 October 2017]. Available from: <a href=\"http:\/\/www.amstat.org\/asa\/files\/pdfs\/P-ValueStatement.pdf\" target=\"_blank\">http:\/\/www.amstat.org\/asa\/files\/pdfs\/P-ValueStatement.pdf<\/a><\/p>\n<p>BENJAMIN, D. J., et al. Redefine statistical significance. <em>Nature Human Behaviour<\/em> [online]. 2017 [viewed 18 October 2017]. DOI: 10.1038\/s41562-017-0189-z. Available from: <a href=\"https:\/\/www.nature.com\/articles\/s41562-017-0189-z\" target=\"_blank\">https:\/\/www.nature.com\/articles\/s41562-017-0189-z<\/a><\/p>\n<p>DREBER, A., <em>et al<\/em>. Using prediction markets to estimate the reproducibility of scientific research. <em>Proceedings of the National Academy of Sciences<\/em> [online]. 2015, vol. 112, no. 50, pp. 15343-15347 [viewed 18 October 2017]. DOI: 10.1073\/pnas.1516179112. Available from: <a href=\"http:\/\/www.pnas.org\/content\/112\/50\/15343\" target=\"_blank\">http:\/\/www.pnas.org\/content\/112\/50\/15343<\/a><\/p>\n<p>HEAD, M. L. The Extent and Consequences of P-Hacking in Science. <em>PLOS Biology<\/em> [online]. 2015, vol. 13, no. 3, e1002106 [viewed 18 October 2017]. DOI: 10.1371\/journal.pbio.1002106. Available from: <a href=\"http:\/\/journals.plos.org\/plosbiology\/article?id=10.1371\/journal.pbio.1002106\" target=\"_blank\">http:\/\/journals.plos.org\/plosbiology\/article?id=10.1371\/journal.pbio.1002106<\/a><\/p>\n<p>JOHNSON, V. E. Revised standards for statistical evidence. <em>Proceedings of the National Academy of Sciences<\/em> [online]. 2013, vol. 110, no. 48, pp. 19313-19317 [viewed 18 October 2017]. DOI: 10.1073\/pnas.1313476110. Available from: <a href=\"http:\/\/www.pnas.org\/content\/110\/48\/19313\" target=\"_blank\">http:\/\/www.pnas.org\/content\/110\/48\/19313<\/a><\/p>\n<p>JOHNSON, V. E., <em>et al<\/em>. On the Reproducibility of Psychological Science. <em>Journal of the American Statistical Association<\/em> [online]. 2017, vol. 112, no. 517, ISSN: 1537-274X [viewed 18 October 2017]. DOI: 10.1080\/01621459.2016.1240079. Available from: <a href=\"http:\/\/www.tandfonline.com\/doi\/full\/10.1080\/01621459.2016.1240079\" target=\"_blank\">http:\/\/www.tandfonline.com\/doi\/full\/10.1080\/01621459.2016.1240079<\/a><\/p>\n<p>LAKENS, D., <em>et al<\/em>. Justify Your Alpha: A Response to \u201cRedefine Statistical Significance\u201d. <em>PsyArXiv Preprints<\/em> [online]. 2017 [viewed 18 October 2017]. DOI: 10.17605\/OSF.IO\/9S3Y6. Available from: <a href=\"https:\/\/psyarxiv.com\/9s3y6\/\" target=\"_blank\">https:\/\/psyarxiv.com\/9s3y6\/<\/a><\/p>\n<p>McGRAYNE, S. B. The Theory That Would Not Die: How Bayes&#8217; Rule Cracked the Enigma Code, Hunted Down Russian Submarines, &amp; Emerged Triumphant. New Haven: Yale University Press, 2012.<\/p>\n<p>WOOLSTON, C. Psychology journal bans P values [online]. Nature. 2015 [viewed 18 October 2017]. Available from: <a href=\"http:\/\/www.nature.com\/news\/psychology-journal-bans-p-values-1.17001\" target=\"_blank\">http:\/\/www.nature.com\/news\/psychology-journal-bans-p-values-1.17001<\/a><\/p>\n<h3>Articulo original em ingl\u00e9s<\/h3>\n<p><a href=\"https:\/\/theconversation.com\/a-statistical-fix-for-the-replication-crisis-in-science-84896\" target=\"_blank\">https:\/\/theconversation.com\/a-statistical-fix-for-the-replication-crisis-in-science-84896<\/a><\/p>\n<p>&nbsp;<\/p>\n<p>Traducido del original en <a href=\"https:\/\/theconversation.com\/a-statistical-fix-for-the-replication-crisis-in-science-84896\" target=\"_blank\">ingl\u00e9s<\/a> por Ernesto Spinak.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00bfC\u00f3mo debemos evaluar las afirmaciones iniciales de un descubrimiento cient\u00edfico? Aqu\u00ed hay una nueva idea: s\u00f3lo los valores-p mejores a 0,005 deber\u00edan ser considerados estad\u00edsticamente significativos. Valores-p entre 0,005 y 0,05 simplemente deber\u00edan llamarse sugestivos, pero, la significaci\u00f3n estad\u00edstica no deber\u00eda servir como un umbral de l\u00ednea brillante para la publicaci\u00f3n. <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/blog.scielo.org\/es\/2017\/10\/25\/una-solucion-estadistica-para-la-crisis-de-la-replicacion-en-ciencia-publicado-originalmente-en-the-conversation-en-octubre2017\/\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":5,"featured_media":2490,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":"","_links_to":"","_links_to_target":""},"categories":[3],"tags":[7,37,40,58],"class_list":["post-2488","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analisis","tag-comunicacion-cientifica","tag-etica-en-la-comunicacion-cientifica","tag-evaluacion-de-la-ciencia","tag-reproducibilidad"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2488","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/comments?post=2488"}],"version-history":[{"count":4,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2488\/revisions"}],"predecessor-version":[{"id":2497,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/posts\/2488\/revisions\/2497"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/media\/2490"}],"wp:attachment":[{"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/media?parent=2488"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/categories?post=2488"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.scielo.org\/es\/wp-json\/wp\/v2\/tags?post=2488"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}