Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasCorrección de Bonferroni
image_pdf

Tanto va el cántaro a la fuente…

…que termina por romperse. ¿Qué se rompe, el cántaro o la fuente?. El refrán se refiere, claro está, al cántaro. El dicho hace referencia a los tiempos en que no había agua en las casas y había que ir hasta la fuente a por ella, de forma que, más tarde o más temprano, el cántaro se rompía, ya fuese por desgaste por un uso excesivo o por algún desgraciado accidente que acababa con él hecho pedazos. Supongo que la fuente podía romperse también, pero para eso ya había que ser muy bestia, así que el refrán no contempla esa posibilidad.

En la actualidad empleamos esta frase para referirnos al hecho de que si repetimos una acción con demasiada insistencia podemos  acabar teniendo algún contratiempo.

Por ejemplo, hagamos un paralelismo entre ir a la fuente con el cántaro y hacer un contraste de hipótesis. ¿Creéis que no tienen nada que ver?. Pues lo tienen: si hacemos contrastes de hipótesis de forma insistente podemos acabar llevándonos un disgusto, que no será otro que el de cometer un error de tipo I. Me explicaré para que no penséis que me he dado con el cántaro en la cabeza en uno de los viajes a la fuente.

Recordemos que siempre que hacemos un contraste de hipótesis establecemos una hipótesis nula (H0) que dice que la diferencia observada entre los grupos de comparación se debe al azar. A continuación, calculamos la probabilidad de que la diferencia se deba al azar y, si es menor que un valor determinado (habitualmente 0,05), rechazamos H0 y afirmamos que es altamente improbable que la diferencia se deba al azar, por lo que la consideramos real. Pero claro, altamente improbable no significa seguro. Siempre hay un 5% de probabilidad de que, siendo H0 cierta, la rechacemos, dando por bueno un efecto que en realidad no existe. Esto es lo que se llama cometer un error de tipo I.

Si hacemos múltiples comparaciones la probabilidad de cometer un error aumenta. Por ejemplo, si hacemos 100 comparaciones, esperaremos equivocarnos aproximadamente cinco veces, ya que la probabilidad de equivocarnos en cada ocasión será del 5% (y la de acertar del 95%).

Así que podemos preguntarnos, si hacemos n comparaciones, ¿cuál es la probabilidad de tener al menos un falso positivo?. Esto es un poco laborioso de calcular, porque habría que calcular la probabilidad de 1,2,…,n-1 y n falsos positivos utilizando probabilidad binomial. Así que recurrimos a un truco muy utilizado en el cálculo de probabilidades, que es calcular la probabilidad del suceso complementario. Me explico. La probabilidad de algún falso positivo más la probabilidad de ninguno será de 1 (100%). Luego la probabilidad de algún falso positivo será igual a 1 menos la probabilidad de ninguno.

¿Y cuál es la probabilidad de ninguno?. La de no cometer error en cada contraste ya hemos dicho que es de 0,95. La de no cometer errores en n contrastes será de 0,95n. Así que la probabilidad de tener al menos un falso positivo será de 1 – 0,95n.

Imaginaos que hacemos 20 comparaciones. La probabilidad de cometer, como mínimo, un error de tipo I será de 1-0,9520 = 0,64. Habrá un 64% de probabilidad de que cometamos un error y demos por existente un efecto que en realidad no existe por puro azar.

Pues que chorrada, me diréis. ¿Quién se va a poner a hacer tantas comparaciones sabiendo el peligro que tiene?. Pues, si os paráis a pensarlo, lo habéis visto muchas veces. ¿Quién no ha leído un artículo sobre un ensayo que incluía un estudio post hoc con múltiples comparaciones?. Es bastante frecuente cuando el ensayo no da resultados con significación estadística. Los autores tienden a exprimir y torturar los datos hasta que encuentran un resultado satisfactorio.

Sin embargo, desconfiad siempre de los estudios post hoc. El ensayo debe tratar de responder a una pregunta previamente establecida y no buscar respuestas a preguntas que nos podemos hacer después de finalizarlo, dividiendo los participantes en grupos según características que no tienen nada que ver con la aleatorización inicial.

De todas formas, como es una costumbre difícil de erradicar, sí que podemos exigir a los autores de los ensayos que tengan una serie de precauciones si quieren hacer estudios post hoc con múltiples contrastes de hipótesis. Lo primero, todo análisis que se haga con los resultados del ensayo debe especificarse cuando se planifica el ensayo y no una vez terminado. Segundo, los grupos deben tener cierta plausibilidad biológica. Tercero, debe evitarse hacer comparaciones múltiples con subgrupos si los resultados generales del ensayo no son significativos. Y, por último, utilizar siempre alguna técnica que permita mantener la probabilidad de error de tipo I por debajo del 5%, como la corrección de Bonferroni o cualquier otra.

A nosotros nos quedará un último consejo: valorar con precaución las diferencias que se puedan encontrar entre los distintos subgrupos, sobre todo cuando los valores de p son discretos, entre 0,01 y 0,05.

Y aquí dejamos los estudios post hoc y sus trampas. No hemos comentado que hay más ejemplos de comparaciones múltiples además del análisis de subgrupos postaleatorización. Se me ocurre el ejemplo de los estudios de cohortes que estudian diferentes efectos producto de una misma exposición, o el de los análisis intermedios que se hacen durante los ensayos secuenciales para ver si se cumple la regla de finalización preestablecida. Pero esa es otra historia…

Cuando los ceros de la p sí importan

Ya sabemos que para contrastar la igualdad de medias de dos muestras que se distribuyan de forma normal podemos utilizar la prueba de la t de Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula (que es lo que queremos la mayor parte de las veces) y asumimos que las medias son diferentes.

Este valor de p, también llamado alfa, es totalmente arbitrario y representa simplemente la probabilidad de que la diferencia observada se deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos conformamos con el riesgo de error del 5%, llamado error de tipo I, de rechazar la hipótesis nula cuando es cierta y la diferencia se debe al azar.

La cosa se complica un poco más cuando comparamos las medias de más de dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al análisis de la varianza (si las muestras se distribuyen de forma normal y sus varianzas son iguales), que nos proporciona otro valor de p. Una vez más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de esas medias son diferentes entre sí y cuáles no?.

Lo primero que se nos pasa por la cabeza es hacer un contraste con la prueba de la t de Student tomando las muestras dos a dos. El número de comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así hasta que nos aburramos.

Sin embargo, si hacemos esto correremos el riesgo de meter la pata, tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un poco porqué esto es así.

Al hacer cada contraste, la probabilidad de un significativo es de 0,05 y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20 comparaciones independientes: la probabilidad de que ninguno sea significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de 0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar el número de comparaciones y que podemos encontrar una diferencia falsamente significativa solo por azar.

Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la probabilidad de que al menos uno sea significativo será de 1-Probabilidad de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a 0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de probabilidades de identificar una diferencia como significativa cuando en realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.

¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra ayuda con su célebre corrección.

La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos dicho que es (1-alfa)20. Ahora os pido que me creáis si os digo que (1-alfa)20 es aproximadamente igual a 1-20xalfa.  Luego 0,95 = 1-20alfa. Si despejamos alfa obtenemos la corrección de Bonferroni:

alfa de cada comparación = alfa general / número de comparaciones.

Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por parejas consideraremos que podemos rechazar la hipótesis nula de igualdad cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones, el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.

A esto es a lo que me refiero con lo de la importancia de los ceros de la p. Cuanto más comparaciones, más ceros tendrá que tener para poder considerar la diferencia estadísticamente significativa sin aumentar el riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc entre varios subgrupos de un ensayo clínico o en los estudios de asociación genómica que, bajo ese nombre tan elegante, no son más que estudios de casos y controles camuflados.

Como es fácil comprender, esta corrección penaliza el valor de p y hace que el contraste sea mucho más conservador en el sentido de no poder rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue siendo significativa, la credibilidad de los resultados será mucho mayor.

Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único en dar una solución para este problema de las comparaciones múltiples. Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel, etc y el usar una u otra puede depender únicamente del programa estadístico de que dispongamos. Pero esa es otra historia…