Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasF de Snédecor
image_pdf

La gran familia

Que no se confundan los cinéfilos. No vamos a hablar de aquella película del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos a hablar de otra familia más relacionada con las funciones de densidad de probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de la película.

No cabe duda de que la reina de las funciones de densidad es la distribución normal, la de forma de campana. Esta es una distribución de probabilidad que se definía por su media y su desviación estándar y que está en el centro de todo el cálculo de probabilidades y de inferencia estadística. Pero hay otras funciones continuas de probabilidad que se parecen algo o mucho a la distribución normal y que también son muy utilizadas cuando se realiza contraste de hipótesis.

La primera de la que vamos a hablar es la distribución de la t de Student. Para los curiosos de la historia de la ciencia os diré que el inventor de la t realmente se llamaba William Sealy Gosset, pero como debía gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student. De ahí que el estadístico se conozca como la t de Student.normal_studentnormal_student

La forma de su función de densidad es la de una campana simétrica distribuida alrededor de la media. Es muy parecida a la curva normal, aunque con unas colas más pobladas, motivo que ocasiona que las estimaciones con esta distribución tengan menos precisión con muestras pequeñas, ya que tener más datos en las colas implica la posibilidad siempre de tener resultados alejados de la media con más probabilidad. Hay infinitas funciones de distribución de la t de Student, caracterizadas por la media, la varianza y los grados de libertad, pero cuando la muestra es superior a 30 (cuando aumentan los grados de libertad), la t se parece tanto a la normal que podemos utilizar una normal sin cometer grandes errores.

La t de Student se utiliza para comparar medias de poblaciones que se distribuyen de forma normal cuando los tamaños muestrales son pequeños o cuando se desconoce el valor de la varianza poblacional. Y esto funciona así porque si a una muestra de variables le restamos la media y la dividimos por el error estándar, el valor que obtenemos sigue esta distribución.

Otro miembro de esta familia de distribuciones continuas es la chi-cuadrado, que juega también un papel muy importante en estadística. Si tenemos una muestra de variables que siguen una distribución normal, las elevamos al cuadrado y las sumamos, la suma sigue una distribución de la chi-cuadrado con un número de grados de libertad igual al tamaño muestral. En la práctica, cuando tenemos una serie de valores de una variable, podemos restarle los valores esperados de esa variable bajo el supuesto de nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver la probabilidad del valor obtenido según la función de densidad de la chi-cuadrado, con lo que podremos así decidir si rechazamos o no nuestra hipótesis nula.

Esta aplicación tiene tres utilidades básicas: la determinación de la bondad del ajuste de una población a una teórica, la prueba de homogeneidad de dos poblaciones y el contraste de independencia de dos variables.

Al contrario que la normal, la función de densidad de la chi-cuadrado solo tiene valores positivos, por lo que es asimétrica con una larga cola hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica al aumentar los grados de libertad, pareciéndose cada vez más a una distribución normal.f_chi

La última de la que vamos a hablar hoy es la distribución de la F de Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la invención de este estadístico participó también un tal Fisher.

Esta distribución está más relacionada con la chi-cuadrado que con la normal, ya que es la función de densidad que sigue el cociente de dos distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene valores positivos y su forma depende del número de grados de libertad de las dos distribuciones de la chi-cuadrado que la determinan. Esta distribución se utiliza para el contraste de varianzas (ANOVA).

En resumen, vemos que hay varias funciones de densidad muy parecidas que sirven para calcular probabilidades, por lo que son útiles en diversos contrastes de hipótesis. Hay muchas más, como la normal bivariada, la binomial negativa, la distribución uniforme, la beta o la gamma, por nombrar algunas. Pero esa es otra historia…