Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasDistribución normal
image_pdf

Hay comparaciones que no son odiosas

Suele decirse que las comparaciones son odiosas. Y la verdad es que no es muy conveniente comparar personas o cosas entre sí, ya que cada cual tiene sus valores y no tiene porqué sentirse menospreciado por ser o hacer algo de forma diferente. Así que no es de extrañar que el mismo Quijote dijese que las comparaciones son siempre odiosas.

Claro que esto puede referirse a la vida cotidiana, porque en medicina nos pasamos el tiempo comparando unas cosas con otras, a veces de forma más que provechosa.

Hoy vamos a hablar de cómo comparar dos distribuciones de datos de forma gráfica y vamos a fijarnos en una aplicación de este tipo de comparaciones que nos sirve para comprobar si nuestros datos siguen una distribución normal.

Imaginad por un momento que tenemos una serie de cien valores de colesterol sérico de niños escolares. ¿Qué pasaría si representásemos los valores frente a sí mismos de forma lineal?. Sencillo: el resultado sería una línea recta perfecta que cruzaría la diagonal del gráfico.

Ahora pensemos que pasaría si en vez de compararla consigo misma la comparamos con otra distribución diferente. Si las dos distribuciones de datos son muy parecidas, los puntos del gráfico se colocarán muy cerca de la diagonal. Si las distribuciones difieren, los puntos se irán lejos de la diagonal, tanto más lejos cuanto más diferentes sean las dos distribuciones. Veamos algún ejemplo.dos_curvas_lineas

Supongamos que dividimos nuestra distribución en dos partes, el colesterol de los niños y el de las niñas. Según nos dice nuestra imaginación, nuestros niños comen más bollería industrial que las niñas, así que sus valores de colesterol son mayores, como podéis comprobar si comparáis la curva de las niñas (negro) con la de los niños (azul). Ahora, si representamos los valores de las niñas frente a los de los niños de forma lineal, tal como puede verse en gráfico, los valores se alejan de la diagonal, estando de manera uniforme por encima de ella. ¿Esto a que se debe?. A que los valores de los niños son mayores y diferentes de los de las niñas.

Me diréis que todo esto está muy bien pero que puede resultar un poco innecesario. Total, si queremos saber cuáles tienen el valor más alto no tenemos más que mirar las curvas. Y tendréis razón en este caso, pero este tipo de gráficos se ha ideado para otra cosa, que no es otra que para comparar una distribución con su equivalente normal.

Imaginad que tenemos nuestra primera distribución y queremos saber si sigue una distribución normal. No tenemos más que calcular su media y su desviación estándar y representar sus quantiles frente a los quantiles de la distribución estándar teórica con la misma media y desviación. Si nuestra distribución es normal, los datos se alinearán cerca de la diagonal del gráfico. Cuanto más se alejen, menos probable será que nuestros datos sigan una distribución normal. Este tipo de gráfico se conoce como gráfico de quantil-quantil o, más comúnmente, por su nombre abreviado en inglés, q-q plot.

Veamos algún ejemplo de q-q plot para entenderlo mejor. En el segundo gráfico veis dos curvas, una azul que representa una distribución normal y una negra que sigue una t de Student. A la derecha podéis ver el q-q plot de la distribución de la t de Student. Los datos de la parte central se ajustan bastante bien a la diagonal, pero los extremos lo hacen peor, variando la pendiente de la recta. Esto nos indica que hay más datos en las zonas de las colas de los que habría si la distribución fuese normal. Claro que esto no debería extrañarnos, ya que sabemos que las “colas pobladas” son una de las características de la distribución de Student.curva_sesgadacurva_normal

Por último, en el tercer gráfico veis una distribución normal y su q-q plot, en el que podemos ver cómo los datos se ajustan bastante bien a la diagonal del gráfico.

Veis, pues, como el q-q- plot es un método gráfico sencillo para determinar si una distribución de datos sigue una normal. Me diréis que puede resultar un poco latoso calcular los cuantiles de nuestra distribución y los de la normal para poder representar unos frente a otros, pero recordad que la mayor parte de los programas de estadística lo hacen sin esfuerzo. Sin ir más lejos, R tiene una función llamada qqnorm() que dibuja el q-q plot en un parpadeo.

Y aquí vamos a dejar los ajustes a la normal por hoy. Recordaos que hay otros métodos más exactos de tipo numérico para saber si los datos se ajustan a la distribución normal, como la prueba de Kolmogorov-Smirnov o la de Shapiro-Wilk. Pero esa es otra historia…

La gran familia

Que no se confundan los cinéfilos. No vamos a hablar de aquella película del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos a hablar de otra familia más relacionada con las funciones de densidad de probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de la película.

No cabe duda de que la reina de las funciones de densidad es la distribución normal, la de forma de campana. Esta es una distribución de probabilidad que se definía por su media y su desviación estándar y que está en el centro de todo el cálculo de probabilidades y de inferencia estadística. Pero hay otras funciones continuas de probabilidad que se parecen algo o mucho a la distribución normal y que también son muy utilizadas cuando se realiza contraste de hipótesis.

La primera de la que vamos a hablar es la distribución de la t de Student. Para los curiosos de la historia de la ciencia os diré que el inventor de la t realmente se llamaba William Sealy Gosset, pero como debía gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student. De ahí que el estadístico se conozca como la t de Student.normal_studentnormal_student

La forma de su función de densidad es la de una campana simétrica distribuida alrededor de la media. Es muy parecida a la curva normal, aunque con unas colas más pobladas, motivo que ocasiona que las estimaciones con esta distribución tengan menos precisión con muestras pequeñas, ya que tener más datos en las colas implica la posibilidad siempre de tener resultados alejados de la media con más probabilidad. Hay infinitas funciones de distribución de la t de Student, caracterizadas por la media, la varianza y los grados de libertad, pero cuando la muestra es superior a 30 (cuando aumentan los grados de libertad), la t se parece tanto a la normal que podemos utilizar una normal sin cometer grandes errores.

La t de Student se utiliza para comparar medias de poblaciones que se distribuyen de forma normal cuando los tamaños muestrales son pequeños o cuando se desconoce el valor de la varianza poblacional. Y esto funciona así porque si a una muestra de variables le restamos la media y la dividimos por el error estándar, el valor que obtenemos sigue esta distribución.

Otro miembro de esta familia de distribuciones continuas es la chi-cuadrado, que juega también un papel muy importante en estadística. Si tenemos una muestra de variables que siguen una distribución normal, las elevamos al cuadrado y las sumamos, la suma sigue una distribución de la chi-cuadrado con un número de grados de libertad igual al tamaño muestral. En la práctica, cuando tenemos una serie de valores de una variable, podemos restarle los valores esperados de esa variable bajo el supuesto de nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver la probabilidad del valor obtenido según la función de densidad de la chi-cuadrado, con lo que podremos así decidir si rechazamos o no nuestra hipótesis nula.

Esta aplicación tiene tres utilidades básicas: la determinación de la bondad del ajuste de una población a una teórica, la prueba de homogeneidad de dos poblaciones y el contraste de independencia de dos variables.

Al contrario que la normal, la función de densidad de la chi-cuadrado solo tiene valores positivos, por lo que es asimétrica con una larga cola hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica al aumentar los grados de libertad, pareciéndose cada vez más a una distribución normal.f_chi

La última de la que vamos a hablar hoy es la distribución de la F de Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la invención de este estadístico participó también un tal Fisher.

Esta distribución está más relacionada con la chi-cuadrado que con la normal, ya que es la función de densidad que sigue el cociente de dos distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene valores positivos y su forma depende del número de grados de libertad de las dos distribuciones de la chi-cuadrado que la determinan. Esta distribución se utiliza para el contraste de varianzas (ANOVA).

En resumen, vemos que hay varias funciones de densidad muy parecidas que sirven para calcular probabilidades, por lo que son útiles en diversos contrastes de hipótesis. Hay muchas más, como la normal bivariada, la binomial negativa, la distribución uniforme, la beta o la gamma, por nombrar algunas. Pero esa es otra historia…

La más famosa de las campanas

Dice el diccionario que una campana es un dispositivo simple que emite un sonido. Pero una campana puede ser muchas cosas más. Creo que hay hasta una planta con ese nombre y una flor con su diminutivo. Y no nos olvidemos de las campanas extractoras de las cocinas.

Pero, sin duda, la más famosa de todas las campanas es la célebre campana de Gauss, la más querida y venerada por estadísticos y científicos de distinto pelaje.

Pero, ¿qué es la campana de Gauss?. Pues no es nada más, ni nada menos, que una función de densidad de probabilidad. Dicho de otra forma, es una distribución continua de probabilidad que tiene forma de campana simétrica, de ahí la primera parte de su nombre. Y digo la primera parte porque la segunda es algo más polémica, ya que no está tan claro que Gauss sea el padre de la criatura.

Parece que el primero en utilizar esta función de densidad fue un tal Moivre, que estaba estudiando qué pasaba con una distribución binomial cuando el tamaño de la muestra se iba haciendo grande. Sin embargo, otra de las muchas injusticias de la historia, el nombre de la función se asocia con Gauss, que la utilizó unos 50 años después para registrar los datos de sus estudios astronómicos. Claro que, para defensa de Gauss, hay quien dice que los dos descubrieron la función de densidad de manera independiente.

Nosotros, para no polemizar, a partir de ahora vamos a denominarla por su otro nombre, diferente al de campana de Gauss: distribución normal. Y parece que la bautizaron así porque al principio pensaron que la mayor parte de los fenómenos naturales se ajustaban a esta distribución. Más tarde se vio que hay otras distribuciones que son muy frecuentes en biología, como la de Poisson o la binomial.

Como ocurre con cualquier función de densidad, la utilidad de la curva normal radica en que representa la distribución de probabilidades de aparición de la variable aleatoria que estemos midiendo. Por ejemplo, si medimos los pesos de una población de individuos y los representamos gráficamente veremos que se distribuyen siguiendo una distribución normal. Así, el área bajo la curva entre dos puntos del eje x representa la probabilidad de aparición de esos valores. El área total bajo la curva es igual a uno, lo que quiere decir que hay un 100% de probabilidades (uno en tantos por uno) de que se encuentre cualquiera de los valores de la distribución.

Existen infinitas distribuciones normales, todas ellas perfectamente caracterizadas por su media y su desviación estándar. Así, cualquier punto del eje horizontal puede expresarse como la media más o menos un número de veces la desviación estándar, pudiendo calcularse su probabilidad usando la fórmula de la función de densidad, que no me atrevo a enseñaros aquí. También podemos utilizar un ordenador para calcular la probabilidad de una variable dentro de una distribución normal, pero en la práctica se hace algo más sencillo: estandarizar.

Se dice que la distribución normal estándar es aquella que tiene una media igual a cero y una desviación estándar igual a uno. La ventaja de contar con la distribución estándar es doble. Primero, conocemos su distribución de probabilidades para los distintos puntos del eje horizontal. Así, entre la media más menos una desviación se encuentra el 68% de la población, entre la media y más menos dos el 95% y entre más menos tres el 99%, aproximadamente.

La segunda ventaja es que cualquier distribución normal puede convertirse en una estándar. Basta con restar la media al valor y dividirlo por la desviación estándar de la distribución. Calculamos así el score z, que es el equivalente del valor de nuestra variable en una distribución normal estándar de media cero y desviación estándar uno.

Veis la utilidad del asunto. Ya no necesitamos programas informáticos para calcular la probabilidad. Nos basta con estandarizar y usar una simple tabla, si es que no conocemos el valor de memoria. Pero es que la cosa va incluso más allá.

Gracias a la magia del teorema central del límite, otras distribuciones pueden aproximarse a una normal y puede utilizarse la técnica de estandarizar para calcular la distribución de probabilidades de los valores de las variables. Por ejemplo, aunque nuestra variable siga una distribución binomial podremos aproximarla a una normal cuando el tamaño muestral sea grande. En la práctica, cuando np y n(1-p) sean mayores de cinco. Lo mismo ocurre con la distribución de Poisson, que puede aproximarse a una normal cuando la media es mayor de 10.

Y la magia es doble, porque además de poder prescindir de herramientas complejas y calcular con más facilidad probabilidades o intervalos de confianza, hay que tener en cuenta que tanto la distribución binomial como la de Poisson son funciones de masa discretas, mientras que la normal es una función de densidad continua.

Y este es el final por hoy. Solo deciros que hay otras funciones de densidad continuas distintas a la normal y que también pueden aproximarse a una normal cuando las muestras son grandes. Pero esa es otra historia…