Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasPruebas no paramétricas
image_pdf

No todo es normal

Dice el diccionario que una cosa es normal cuando se halla en un estado natural o que se ajusta a unas normas fijadas de antemano. Y este es su significado más normal. Pero como muchas otras palabras, normal tiene otros muchos significados. En estadística, al hablar de normal nos referimos a una distribución de probabilidad determinada, la llamada distribución normal, la famosa campana de Gauss.

Esta distribución se caracteriza por su simetría alrededor de una media, que coincide con la mediana, además que otras características que ya comentamos en una entrada anterior. La gran ventaja de la distribución normal es que nos permite calcular probabilidades de aparición de datos de esa distribución, lo que tiene como consecuencia la posibilidad de inferir datos de la población a partir de los obtenidos de una muestra de la misma.

Así, prácticamente todas las pruebas paramétricas de contraste de hipótesis necesitan que los datos sigan una distribución normal. Podría pensarse que esto no es un gran problema. Si se llama normal será porque los datos biológicos suelen seguir, más o menos, esta distribución. Craso error, muchos datos siguen una distribución que se aparta de la normalidad. Pensemos, por ejemplo, en el consumo de alcohol. Los datos no se agruparán de forma simétrica alrededor de una media. Al contrario, la distribución tendrá un sesgo positivo (hacia la derecha): habrá un número grande alrededor del cero (los abstemios o bebedores muy ocasionales) y una larga cola hacia la derecha formada por personas con un consumo más alto. La cola se prolongará mucho hacia la derecha con los valores de consumo de esas personas que se desayunan con cazalla.

¿Y en qué nos afecta para nuestros cálculos estadísticos que la variable no siga una normal?. ¿Qué tenemos que hacer si los datos no son normales?.

curva_normalLo primero que tenemos que hacer es darnos cuenta de que la variable no sigue una distribución normal. Ya vimos que existen una serie de métodos gráficos que nos permiten aproximar de forma visual si los datos siguen la normal. El histograma o el diagrama de cajas (box-plot) nos permiten comprobar si la distribución está sesgada, si es demasiado plana o picuda, o si tiene valores extremos. El gráfico más específico para este fin es el de probabilidad normal (q-q plot), en el que los valores se ajustan a la línea diagonal si la distribución sigue una normal.

Otra posibilidad es emplear pruebas de contraste numéricas como la de Shapiro-Wilk o la de Kolmogorov-Smirnov. El problema de estas pruebas es que son muy sensibles al efecto del tamaño de la muestra. Si la muestra es grande pueden afectarse por desviaciones de la normalidad poco importantes. Al contrario, si la muestra es pequeña, pueden fracasar en la detección de desviaciones grandes de la normalidad. Pero es que estas pruebas, además, tienen otro inconveniente que entenderéis mejor tras un pequeño inciso.

Ya sabemos que en un contraste de hipótesis se establece una hipótesis nula que, habitualmente, dice lo contrario de lo que queremos demostrar. Así, si el valor de significación estadística es menor de valor definido (habitualmente 0,05), rechazamos la hipótesis nula y nos quedamos con la alternativa, que dirá precisamente lo que queremos demostrar. El problema es que la hipótesis nula es solo falsable, nunca podemos decir que sea verdadera. Simplemente, si la significación estadística es alta, no podremos rechazar que sea falsa, pero eso no quiere tampoco decir que sea cierta. Puede ocurrir que el estudio no tenga potencia suficiente para descartar una hipótesis nula que, en realidad, es falsa.

Pues bien, da la casualidad de que los contrastes de normalidad están planteados con una hipótesis nula que dice que los datos siguen una normal. Por eso, si la significación es pequeña, podremos descartarla y decir que los datos no son normales. Pero si la significación es alta, simplemente no podremos rechazarla y diremos que no tenemos capacidad para decir que los datos no siguen una normal, lo que no es lo mismo que poder afirmar que son normales. Por estos motivos, siempre es conveniente complementar los contrastes numéricos con algún método gráfico para comprobar la normalidad de la variable.

Una vez que sabemos que los datos no son normales, tendremos que tenerlo en cuenta a la hora de describirlos. Si la distribución es muy sesgada no podremos utilizar la media como medida de centralización y tendremos que recurrir a otros estimadores robustos, como la mediana o el otro abanico de medias disponibles para estas situaciones.

Además, la ausencia de normalidad puede desaconsejar el uso de pruebas paramétricas de contraste. La prueba de la t de Student o el análisis de la varianza (ANOVA) precisan que la distribución sea normal. La t de Student es bastante robusta en este sentido, de forma que si la muestra es grande (n > 80) puede emplearse con cierta seguridad. Pero si la muestra es pequeña o la distribución se aparta mucho de la normal, no podremos utilizar pruebas paramétricas de contraste.

Una de las posibles soluciones a este problema sería intentar una transformación de los datos. La más frecuentemente empleada en biología es la transformación logarítmica, muy útil para aproximar a una normal aquellas distribuciones con sesgo positivo (hacia la derecha). No hay que olvidar deshacer la transformación de los datos una vez realizado el contraste con la prueba en cuestión.

La otra posibilidad es emplear pruebas no paramétricas, que no precisan de ninguna asunción sobre la distribución de la variable. Así, para comparar dos medias de datos no pareados emplearemos el test de la suma de rangos de Wilcoxon (también llamado test de la U de Mann-Withney). Si los datos son pareados habrá que usar el test de los signos de los rangos de Wilcoxon. En caso de comparaciones de más de dos medias medias, el test de Kruskal-Wallis será el equivalente no paramétrico de la ANOVA. Por último, comentar que el equivalente no paramétrico del coeficiente de correlación de Pearson es el coeficiente de correlación de Spearman.

El problema de las pruebas no paramétricas es que son más exigentes para conseguir significación estadística que sus equivalentes paramétricos, pero deben emplearse en cuanto haya la menor duda sobre la normalidad de la variable que estemos contrastando.

Y aquí lo vamos a dejar por hoy. Podríamos hablar de una tercera posibilidad de enfrentarnos a una variable no normal, mucho más exótica que las mencionadas. Se trata de la utilización de técnicas de remuestreo como el bootstrapping, que consiste en hacer una distribución empírica de las medias de muchas muestras extraídas de nuestros datos para poder hacer inferencias con los resultados obtenidos, conservando así las unidades originales de la variable y evitando el vaivén de las técnicas de trasformación de datos. Pero esa es otra historia…

A bulto

En el mundo de la ciencia en general, y de la medicina en particular, estamos habituados a hacer todo de forma muy precisa y detallada. ¿Quién no ha pautado alguna vez 123,5 mg de amoxicilina cada ocho horas?. Sin embargo, las cosas pueden hacerse también a bulto y sin hacer ninguna chapuza. Claro que el bulto tiene que seguir unas reglas determinadas. Veamos un ejemplo.

Supongamos que queremos saber si nuestro sistema educativo es tan bueno como debería. Tomamos una clase de veinte alumnos de primer año de secundaria y les pasamos dos exámenes facilitos, uno sobre ciencias naturales y otro sobre literaura. Las notas podéis verlas en la tabla adjunta.

 notas_a bulto

Si os molestáis en calcularlo, los alumnos sacan en ciencias una media de 6,8 puntos con una desviación estándar (DS) de 1,6. Por su parte, en literatura sacan una media de 6,4 con una DS de 1,7. Parece, pues, que nuestros alumnos están mejor preparados en ciencias naturales que en sociales. La pregunta es inmediata: ¿esto puede extrapolarse a todos los alumnos de nuestro sistema educativo?.

Para saberlo solo tenemos que hacer una prueba de la t de Student, suponiendo que la distribución de las notas se ajuste a una normal, lo cual parece razonable. Podríamos pedírselo a un programa de estadística o hacerlo nosotros calculando la diferencia de medias y el error estándar de la diferencia para obtener la t y ver su probabilidad, para así saber si podemos aceptar o rechazar nuestra hipótesis nula, que en este caso es que la diferencia observada se debe al azar y los conocimientos de nuestros chicos son similares en ambas asignaturas.

Pero hemos dicho que lo íbamos a hacer a bulto, de forma mucho más simple. Si os fijáis, la mayor parte de los alumnos (quince) tienen mejor nota en ciencias, mientras que solo cinco (los números 4, 8, 14, 17 y 20) tienen mejor nota en literatura. Pensemos ahora un poco.

Si la hipótesis nula de que los conocimientos de las dos asignaturas son similares fuese cierta, la probabilidad de tener mayor nota en cualquiera de las dos sería del 50% (0,5). Quiere decir que diez alumnos tendrían mejor nota en ciencias y diez en literatura. Así que nos preguntamos: ¿cuál es la probabilidad de que la diferencia observada (quince en lugar de diez) se deba al azar?.

Y esto, señoras y señores, es un típico caso de probabilidad binominal, donde n=20, p=0,5 y k>14 (siendo n el total de alumnos, p la probabilidad de tener más nota en ciencias y k el número de alumnos con más nota en ciencias). Podemos resolver la ecuación según la fórmula de la probabilidad binomial o utilizar una de las calculadoras disponibles en Internet para llegar a la conclusión de que la probabilidad de que quince saquen más nota en ciencias por azar es del 2,07%. Por tanto, al ser menor del 5%, rechazamos nuestra hipótesis nula y concluimos que a nuestros alumnos se les dan mejor las ciencias, siempre, claro está, con una probabilidad de error de tipo 1 del 2,07%.

Esta prueba que acabamos de ver tiene el bonito nombre de prueba de los signos, y es una de las muchas pruebas no paramétricas que pueden utilizarse para realizar inferencia estadística. Como habéis visto, no tiene en cuenta ni el valor de los parámetros (por algo se llama no paramétrica) ni la magnitud de las diferencias, pero tampoco necesita que los datos sigan una distribución normal ni que la muestra sea muy grande.

Por eso suelen utilizarse las pruebas no paramétricas cuando no puede asumirse normalidad o cuando la muestra es pequeña, pero podríamos usarlas en cualquier situación. ¿Y por qué no se usan siempre?. Pues fundamentalmente porque son más exigentes que las pruebas paramétricas y precisan que la magnitud del efecto sea mayor para poder rechazar la hipótesis nula.

Y con esto terminamos esta entrada. No penséis que todas las pruebas no paramétricas son igual de sencillas. Aquí os he contado la prueba de los signos, pero el equivalente no paramétrico de la comparación de medias es la prueba de Wilcoxon, que ordena las diferencias entre los datos pareados de mayor a menor, por lo que se llama también prueba de los rangos. Pero esa es otra historia…