Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasANOVA @es
image_pdf

Cuando los ceros de la p sí importan

Ya sabemos que para contrastar la igualdad de medias de dos muestras que se distribuyan de forma normal podemos utilizar la prueba de la t de Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula (que es lo que queremos la mayor parte de las veces) y asumimos que las medias son diferentes.

Este valor de p, también llamado alfa, es totalmente arbitrario y representa simplemente la probabilidad de que la diferencia observada se deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos conformamos con el riesgo de error del 5%, llamado error de tipo I, de rechazar la hipótesis nula cuando es cierta y la diferencia se debe al azar.

La cosa se complica un poco más cuando comparamos las medias de más de dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al análisis de la varianza (si las muestras se distribuyen de forma normal y sus varianzas son iguales), que nos proporciona otro valor de p. Una vez más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de esas medias son diferentes entre sí y cuáles no?.

Lo primero que se nos pasa por la cabeza es hacer un contraste con la prueba de la t de Student tomando las muestras dos a dos. El número de comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así hasta que nos aburramos.

Sin embargo, si hacemos esto correremos el riesgo de meter la pata, tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un poco porqué esto es así.

Al hacer cada contraste, la probabilidad de un significativo es de 0,05 y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20 comparaciones independientes: la probabilidad de que ninguno sea significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de 0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar el número de comparaciones y que podemos encontrar una diferencia falsamente significativa solo por azar.

Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la probabilidad de que al menos uno sea significativo será de 1-Probabilidad de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a 0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de probabilidades de identificar una diferencia como significativa cuando en realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.

¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra ayuda con su célebre corrección.

La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos dicho que es (1-alfa)20. Ahora os pido que me creáis si os digo que (1-alfa)20 es aproximadamente igual a 1-20xalfa.  Luego 0,95 = 1-20alfa. Si despejamos alfa obtenemos la corrección de Bonferroni:

alfa de cada comparación = alfa general / número de comparaciones.

Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por parejas consideraremos que podemos rechazar la hipótesis nula de igualdad cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones, el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.

A esto es a lo que me refiero con lo de la importancia de los ceros de la p. Cuanto más comparaciones, más ceros tendrá que tener para poder considerar la diferencia estadísticamente significativa sin aumentar el riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc entre varios subgrupos de un ensayo clínico o en los estudios de asociación genómica que, bajo ese nombre tan elegante, no son más que estudios de casos y controles camuflados.

Como es fácil comprender, esta corrección penaliza el valor de p y hace que el contraste sea mucho más conservador en el sentido de no poder rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue siendo significativa, la credibilidad de los resultados será mucho mayor.

Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único en dar una solución para este problema de las comparaciones múltiples. Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel, etc y el usar una u otra puede depender únicamente del programa estadístico de que dispongamos. Pero esa es otra historia…

Más de dos son multitud

Al menos cuando hablamos de contraste de medias.

Supongamos que queremos saber si una población de esquimales come una cantidad de carne de foca superior a un valor determinado. Podemos calcular la media en la muestra, estimar su intervalo de confianza en la población y ver si incluye o no dicho valor.

Supongamos ahora que tenemos dos poblaciones de esquimales y queremos saber si hay diferencia en su consumo de carne de foca. No tenemos más que calcular las medias y hacer una sencilla prueba de la t de Student para comparar sus medias. También podríamos calcular sus intervalos de confianza y ver si hay solapamiento.

Pero, ¿qué pasa si tenemos tres o más poblaciones?. Pues que no nos vale ni la t de Student ni la comparación de intervalos. En estos casos tenemos que utilizar una técnica que tiene el engañoso nombre de análisis de la varianza (ANOVA, de sus siglas en inglés). Y digo engañoso nombre porque lo que se comparan son medias, no varianzas. Eso sí, para compararlas utilizamos la forma en la que varían los datos, siguiendo un razonamiento bastante ingenioso. Vamos a tratar de explicarlo ayudándonos de un ejemplo de la vida real.

Como en un chiste de mi infancia, tenemos cinco franceses, cinco españoles y cinco italianos (en los chistes suele haber un francés, un italiano y un español, pero poca varianza podríamos analizar con tan poca gente). A estas 15 personas les preguntamos cuántos litros de vino se beben al mes, obteniendo la distribución que veis en la tabla.vino_ANOVA

Si calculamos los valores medios de cada grupo veremos que los franceses beben 33,2 litros al mes, los italianos 35 y los españoles 32,2. ¿Quiere esto decir que en Italia son más borrachos que en Francia y en Francia más que en España?. Pues solo con las medias no podemos saberlo. Aunque las muestras que hemos escogido fuesen representativas de sus poblaciones, siempre cabe la posibilidad de que las diferencias se deban al más puro azar. Así que, como siempre, tenemos que hacer un contraste de hipótesis para poder averiguarlo.

Como primer paso establecemos la hipótesis nula de que no existen diferencias reales entre los tres grupos y que las diferencias observadas se deben al azar. La hipótesis alternativa, por su parte, dice que sí hay diferencias entre los tres grupos. Así que, bajo la asunción de la hipótesis nula, vamos a hacer el análisis de la varianza de un factor, que sería el país de procedencia.

El consumo de vino medio de nuestros 15 borrachos es de 33,5 litros al mes. Suponiendo cierta la hipótesis nula, si tomamos uno al azar, de cualquier país, el consumo esperado sería de 33,5. Sin embargo, es fácil de entender que la mayor parte de los sujetos extraídos al azar tendrán un valor diferente a la media esperada. El valor de ese individuo lo podemos descomponer en tres partes: la media, la variación debida al país de procedencia y la variación debida al azar. Si me permitís una formulita, sería la siguiente:

x = media + efecto del país + efecto del error aleatorio

Si la hipótesis nula es cierta y no hay diferencias entre grupos, la variación debida al país será muy pequeña (similar a la del azar), mientras que si es falsa, esta variación será mayor. Pensad ahora en el valor del cociente país/error aleatorio. Si no hay diferencias debidas al grupo (la hipótesis nula es cierta), el cociente valdrá 1 o menos de 1. Si los grupos tienen medias diferentes, el cociente valdrá más de 1, tanto más cuánto mayores sean las diferencias entre grupos, ya que el error aleatorio será siempre más o menos el mismo.

Pues bien, ya casi lo tenemos. Sabemos que la varianza es la suma media de los cuadrados de la distancia de cada valor respecto de la media. Recordad que se elevaban al cuadrado estas distancias para que las negativas no se anulasen con las positivas.

Esta varianza puede descomponerse en los dos componentes que hemos explicado: el debido a la varianza entre grupos, llamado suma de cuadrados, y el debido al azar, llamado residual de cuadrados:

Suma total de cuadrados = suma de cuadrados por grupo + residual de cuadrados.

No os voy a poner las fórmulas para calcular estas sumas de cuadrados, aunque no son muy complejas y un ejemplo como el que estamos viendo puede resolverse perfectamente con una sencilla calculadora. No merece la pena complicarse la vida. Cualquier programa de estadística calcula estas sumas de cuadrados sin esfuerzo.

Y una vez que tenemos las sumas de cuadrados es donde aparece la magia de los números, porque da la casualidad de que el cociente de los cuadrados partido por los residuales (país/aleatorio) sigue una distribución de probabilidad conocida, que no es otra que una F de Snedecor con grupos-1, n-grupos grados de libertad.

Si lo calculamos (yo lo he hecho empleando el comando aov del programa R), obtenemos una F de 1,14. La probabilidad de obtener este valor de F con estos grados de libertad es de 0,35. Como es mayor de 0,05, no podemos rechazar la hipótesis nula, así que no nos queda más remedio que asumir que franceses, italianos y españoles somos igual de borrachos.

Solo un par de comentarios más antes de terminar. Primero, para poder hacer este tipo de análisis deben cumplirse tres circunstancias: las muestras deben ser independientes, deben seguir una distribución normal y deben tener varianzas iguales (lo que se conoce con el simpático nombre de homocedasticidad). Nosotros hemos asumido las tres condiciones.

Segundo, si hubiésemos obtenido una F con p<0,05 y hubiésemos rechazado la hipótesis nula habríamos podido decir que había diferencias en los consumos de vino pero, ¿entre qué grupos?. Lo primero que se nos pasa por la cabeza es tomar los grupos de dos en dos y hacer el contraste con dos medias, pero esto no se puede hacer así sin más. Cuántas más parejas comparemos, más probable es que cometamos un error de tipo I y encontremos una diferencia significativa por puro azar, ya que la significación global varía al comparar las medias dos a dos. Para hacerlo tendríamos que utilizar otras técnicas que tienen en cuenta este efecto, como la de Bonferroni o la de Tukey. Pero esa es otra historia…