Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Cuando los ceros de la p sí importan

This post is also available in: Inglés

image_pdf

Ya sabemos que para contrastar la igualdad de medias de dos muestras que se distribuyan de forma normal podemos utilizar la prueba de la t de Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula (que es lo que queremos la mayor parte de las veces) y asumimos que las medias son diferentes.

Este valor de p, también llamado alfa, es totalmente arbitrario y representa simplemente la probabilidad de que la diferencia observada se deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos conformamos con el riesgo de error del 5%, llamado error de tipo I, de rechazar la hipótesis nula cuando es cierta y la diferencia se debe al azar.

La cosa se complica un poco más cuando comparamos las medias de más de dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al análisis de la varianza (si las muestras se distribuyen de forma normal y sus varianzas son iguales), que nos proporciona otro valor de p. Una vez más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de esas medias son diferentes entre sí y cuáles no?.

Lo primero que se nos pasa por la cabeza es hacer un contraste con la prueba de la t de Student tomando las muestras dos a dos. El número de comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así hasta que nos aburramos.

Sin embargo, si hacemos esto correremos el riesgo de meter la pata, tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un poco porqué esto es así.

Al hacer cada contraste, la probabilidad de un significativo es de 0,05 y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20 comparaciones independientes: la probabilidad de que ninguno sea significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de 0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar el número de comparaciones y que podemos encontrar una diferencia falsamente significativa solo por azar.

Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la probabilidad de que al menos uno sea significativo será de 1-Probabilidad de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a 0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de probabilidades de identificar una diferencia como significativa cuando en realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.

¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra ayuda con su célebre corrección.

La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos dicho que es (1-alfa)20. Ahora os pido que me creáis si os digo que (1-alfa)20 es aproximadamente igual a 1-20xalfa.  Luego 0,95 = 1-20alfa. Si despejamos alfa obtenemos la corrección de Bonferroni:

alfa de cada comparación = alfa general / número de comparaciones.

Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por parejas consideraremos que podemos rechazar la hipótesis nula de igualdad cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones, el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.

A esto es a lo que me refiero con lo de la importancia de los ceros de la p. Cuanto más comparaciones, más ceros tendrá que tener para poder considerar la diferencia estadísticamente significativa sin aumentar el riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc entre varios subgrupos de un ensayo clínico o en los estudios de asociación genómica que, bajo ese nombre tan elegante, no son más que estudios de casos y controles camuflados.

Como es fácil comprender, esta corrección penaliza el valor de p y hace que el contraste sea mucho más conservador en el sentido de no poder rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue siendo significativa, la credibilidad de los resultados será mucho mayor.

Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único en dar una solución para este problema de las comparaciones múltiples. Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel, etc y el usar una u otra puede depender únicamente del programa estadístico de que dispongamos. Pero esa es otra historia…

Deja un comentario

A %d blogueros les gusta esto: