Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasChi-cuadrado
image_pdf

La gran familia

Que no se confundan los cinéfilos. No vamos a hablar de aquella película del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos a hablar de otra familia más relacionada con las funciones de densidad de probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de la película.

No cabe duda de que la reina de las funciones de densidad es la distribución normal, la de forma de campana. Esta es una distribución de probabilidad que se definía por su media y su desviación estándar y que está en el centro de todo el cálculo de probabilidades y de inferencia estadística. Pero hay otras funciones continuas de probabilidad que se parecen algo o mucho a la distribución normal y que también son muy utilizadas cuando se realiza contraste de hipótesis.

La primera de la que vamos a hablar es la distribución de la t de Student. Para los curiosos de la historia de la ciencia os diré que el inventor de la t realmente se llamaba William Sealy Gosset, pero como debía gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student. De ahí que el estadístico se conozca como la t de Student.normal_studentnormal_student

La forma de su función de densidad es la de una campana simétrica distribuida alrededor de la media. Es muy parecida a la curva normal, aunque con unas colas más pobladas, motivo que ocasiona que las estimaciones con esta distribución tengan menos precisión con muestras pequeñas, ya que tener más datos en las colas implica la posibilidad siempre de tener resultados alejados de la media con más probabilidad. Hay infinitas funciones de distribución de la t de Student, caracterizadas por la media, la varianza y los grados de libertad, pero cuando la muestra es superior a 30 (cuando aumentan los grados de libertad), la t se parece tanto a la normal que podemos utilizar una normal sin cometer grandes errores.

La t de Student se utiliza para comparar medias de poblaciones que se distribuyen de forma normal cuando los tamaños muestrales son pequeños o cuando se desconoce el valor de la varianza poblacional. Y esto funciona así porque si a una muestra de variables le restamos la media y la dividimos por el error estándar, el valor que obtenemos sigue esta distribución.

Otro miembro de esta familia de distribuciones continuas es la chi-cuadrado, que juega también un papel muy importante en estadística. Si tenemos una muestra de variables que siguen una distribución normal, las elevamos al cuadrado y las sumamos, la suma sigue una distribución de la chi-cuadrado con un número de grados de libertad igual al tamaño muestral. En la práctica, cuando tenemos una serie de valores de una variable, podemos restarle los valores esperados de esa variable bajo el supuesto de nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver la probabilidad del valor obtenido según la función de densidad de la chi-cuadrado, con lo que podremos así decidir si rechazamos o no nuestra hipótesis nula.

Esta aplicación tiene tres utilidades básicas: la determinación de la bondad del ajuste de una población a una teórica, la prueba de homogeneidad de dos poblaciones y el contraste de independencia de dos variables.

Al contrario que la normal, la función de densidad de la chi-cuadrado solo tiene valores positivos, por lo que es asimétrica con una larga cola hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica al aumentar los grados de libertad, pareciéndose cada vez más a una distribución normal.f_chi

La última de la que vamos a hablar hoy es la distribución de la F de Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la invención de este estadístico participó también un tal Fisher.

Esta distribución está más relacionada con la chi-cuadrado que con la normal, ya que es la función de densidad que sigue el cociente de dos distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene valores positivos y su forma depende del número de grados de libertad de las dos distribuciones de la chi-cuadrado que la determinan. Esta distribución se utiliza para el contraste de varianzas (ANOVA).

En resumen, vemos que hay varias funciones de densidad muy parecidas que sirven para calcular probabilidades, por lo que son útiles en diversos contrastes de hipótesis. Hay muchas más, como la normal bivariada, la binomial negativa, la distribución uniforme, la beta o la gamma, por nombrar algunas. Pero esa es otra historia…

Contando ovejas

No hay ser más incomprendido que una oveja negra. Ya sabemos que habitualmente se usa el término para referirse a alguien que destaca dentro de un grupo o de una familia, generalmente por algún aspecto negativo. Pero las ovejas negras, en el sentido literal de la palabra, existen en el mundo real. Y como su lana es menos cotizada que la de las ovejas blancas, es fácil comprender el disgusto del pastor cuando ve una oveja negra en su rebaño.

Así que, nosotros, para compensar un poco la discriminación que sufren las ovejas negras vamos a contar ovejas, pero solo negras. Supongamos que durante un ataque alucinatorio decidimos que queremos convertirnos en pastores de ovejas. Nos vamos a una feria de ganado y buscamos un rebaño para comprarlo.

Pero claro, como somos nuevos en el negocio, nos tratarán de vender los rebaños con más ovejas negras que tengan en la feria. Así que tomamos tres muestras de 100 ovejas al azar de tres rebaños A, B y C y contamos el número de ovejas negras: 15, 17 y 12. ¿Quiere esto decir que el rebaño C es el que menos ovejas negras tiene?. No podemos saberlo solo con estos datos. Puede ser que, por azar, hayamos seleccionado una muestra con menos ovejas negras cuando en realidad este rebaño sea el que más tenga. Como las diferencias son pequeñas, podemos aventurarnos a pensar que no hay grandes diferencias entre los tres rebaños y que las que observamos son debidas simplemente a un error del muestreo aleatorio. Esta será nuestra hipótesis nula: los tres rebaños son similares en cuanto a proporción de ovejas negras. Solo nos queda hacer nuestro contraste de hipótesis.

Sabemos que para comparar medias de diferentes poblaciones podemos utilizar el análisis de la varianza, que se basa en ver si las diferencias entre los grupos son mayores que las diferencias aleatorias debidas al error de muestreo. Ahora bien, en nuestro ejemplo no tenemos medias, sino porcentajes. ¿Cómo hacemos entonces el contraste?. Cuando lo que queremos comparar son contajes o porcentajes tenemos que recurrir a la prueba de la chi-cuadrado, pero el razonamiento es similar: ver si las diferencias entre los valores esperados y los observados son lo suficientemente grandes.

ovejas negrasConstruyamos primero nuestra tabla de contingencia con los valores observados y esperados. Para calcular los valores esperados de una celda solo tenemos que multiplicar el marginal de su fila por el marginal de la columna y dividir por el total de la tabla. El que quiera saber por qué se hace así, puede leerlo en la entrada en la que lo explicábamos.

Una vez que tenemos los valores observado y esperado calculamos las diferencias entre ellos. Si ahora las sumáramos, las diferencias positivas se anularían con las negativas, así que previamente las elevamos al cuadrado, como hacíamos para calcular la desviación estándar de una distribución de datos. Por último, hay que estandarizar estas diferencias dividiéndolas entre el valor esperado. No es lo mismo esperar uno y observar dos que esperar 10 y observar 11, aunque la diferencia en estos casos sea de uno. Y una vez que tenemos todos estos residuos estandarizados solo nos queda sumarlos para obtener un valor que alguien bautizó como estadístico de Pearson, más conocido como λ.

Si hacéis el cálculo veréis que λ = 1,01. ¿Y eso es mucho o poco?. Pues da la casualidad de que λ sigue, aproximadamente, una distribución de chi-cuadrado con, en nuestro caso, dos grados de libertad (filas-1 por columnas-1), así que podemos calcular la probabilidad de que valga 1,01. Este valor es el valor de la p, que es de 0,60. Al ser mayor que 0,05 no podemos rechazar nuestra hipótesis nula, así que concluiremos que no hay diferencias estadísticamente significativas entre los tres rebaños. Yo compraría el más barato de los tres.

Estos cálculos pueden hacerse con facilidad con una simple calculadora, pero suele ser más rápido utilizar cualquier programa de estadística, sobre todo si tenemos tablas de contingencia más grandes o con números más altos o con muchos decimales.

Y aquí dejamos de contar ovejas. Hemos visto la utilidad de la prueba de la chi-cuadrado para el contraste de homogeneidad de poblaciones, pero la chi-cuadrado sirve para más cosas, como para contrastar la bondad del ajuste de dos poblaciones o la independencia de dos variables. Pero esa es otra historia…

Gestión de residuos

Vivimos casi en una economía de subsistencia. No se tira nada. Y lo que no hay más remedio que tirar, se recicla. Sí, el reciclaje es una buena práctica, con sus ventajas económicas y ecológicas. Y es que los residuos son siempre aprovechables.

Pero además de no tirarse, en el campo de la estadística y de la epidemiología los residuos son muy importantes para interpretar los datos a partir de los que proceden. ¿Alguien no lo cree?. Imaginemos un ejemplo absurdo pero muy ilustrativo.

Supongamos que queremos saber qué tipo de pescado gusta más en la Europa Mediterránea. La razón para querer saber esto debe ser tan estúpida que todavía no se me ha ocurrido, pero hacemos una encuesta entre 5.281 habitantes de cuatro países del Sur de Europa.

Lo más útil y sencillo es lo que suele hacerse siempre en primer lugar: construir una tabla de contingencia con las frecuencias de los resultados, tal como la que os muestro a continuación.Web

Las tablas de contingencia suelen utilizarse para estudiar la asociación o relación entre dos variables cualitativas. En nuestro caso sería pescado favorito y lugar de residencia. Normalmente se intenta explicar una variable (la dependiente) en función de la otra (la independiente). En nuestro ejemplo queremos ver si la nacionalidad del encuestado influye sobre sus gustos alimentarios.

La tabla de valores totales ya es informativa. Por ejemplo, vemos que el mero y el pez espada gustan bastante más que la merluza, que a los italianos les gusta el atún menos que a los españoles, etc. Sin embargo, en tablas grandes como la nuestra puede ser laborioso y difícil sacar muchas conclusiones con los totales. Por eso, una alternativa útil es construir la tabla con los porcentajes de filas, columnas o de todas las celdas, como la que veis a continuación.Web

Resulta útil comparar los porcentajes de las columnas entre si para ver el efecto de una variable independiente (la nacionalidad, en nuestro ejemplo) con la dependiente (el pescado preferido). Por otra parte, los porcentajes de las filas nos muestran la distribución de frecuencias de la variable dependiente según las categorías de la independiente (el país en nuestro ejemplo). Pero, de los dos, los más interesantes son los porcentajes de columna: si son muy distintos entre las distintas categorías de la variable independiente (los países) nos hará sospechar que pueda haber asociación estadística entre las variables.

En nuestro ejemplo, los porcentajes dentro de cada columna son muy diferentes, así que sospechamos que no gustan los mismos peces en todos los países. Claro que esto hay que cuantificarlo de forma objetiva para saber que el resultado no es fruto de la casualidad. ¿Cómo?. Utilizando los residuos, que en seguida veremos qué son y cómo obtenerlos.

Lo primero que tenemos que hacer es construir una tabla con los valores esperados si el gusto por el pescado no se influyese por el país de origen. Esto es necesario porque buena parte de los estadísticos de asociación y de significación se basan en la comparación entre frecuencias observadas y frecuencias esperadas. Para calcular la frecuencia esperada de cada celda si las variables no tuviesen relación multiplicamos el marginal de la fila (el total de esa fila) por el marginal de la columna y lo dividimos por el total de la tabla. Obtenemos así la tabla de valores observados y esperados que os muestro a continuación.Web

En el caso de que las variables no estén relacionadas los valores observados y esperados serán prácticamente los mismos, con las pequeñas diferencias debidas al error de muestreo que nos produce el azar. Si las diferencias son grandes, probablemente haya alguna relación entre las dos variables que las expliquen. Y a la hora de valorar estas diferencias es donde entran en juego nuestros residuos.

El residuo no es más que la diferencia entre el valor esperado y el observado. Ya hemos dicho que cuando el residuo se aleja del cero puede haber significación pero, ¿cuánto se tiene que alejar?.Web

Podemos transformar los residuos dividiéndolos por la raíz cuadrada del valor esperado. Obtenemos así el residuo estandarizado o residuo de Pearson. A su vez, los residuos de Pearson pueden dividirse por la desviación estándar de los residuos, obteniendo así los residuos ajustados. Construimos ahora la tabla de residuos que veis al lado.

La gran utilidad del residuo ajustado es que es un valor estandarizado, así que podemos comparar los de las diferentes celdas. Además, el residuo ajustado sigue una distribución de frecuencias normal estándar (de media cero y desviación típica uno), por lo que podemos usar un programa informático o una tabla de probabilidades para conocer la probabilidad de que el valor del residuo no se deba al azar. En una distribución normal, el 95% de los valores están entre la media más menos dos desviaciones típicas, aproximadamente. Así que si el valor del residuo ajustado es mayor de 2 o menor de menos dos, la probabilidad de que esta diferencia se deba al azar será menor del 5% y diremos que ese residuo es significativo.  Por ejemplo, en nuestra tabla vemos que a los franceses les gusta el besugo más de lo que sería esperable si el país no influyese, al mismo tiempo que aborrecen el atún.

Estos residuos ajustados nos permiten valorar la significación de cada celda, pero si queremos saber si hay una asociación global tenemos que sumarlos todos. Y es que la suma de los residuos ajustados sigue también una distribución de frecuencias, pero esta vez una chi-cuadrado con (filas-1) x (columnas-1) grados de libertad. Si calculamos el valor para nuestra tabla obtendremos una chi2=368,3921, con una p<0,001, con lo que podremos concluir que existe una relación estadísticamente significativa entre las dos variables.

Como veis, los residuos son muy útiles, y no solo para calcular la chi, sino también muchos otros estadísticos. Sin embargo, los epidemiólogos prefieren utilizar otro tipo de medidas de asociación con las tablas de contingencia. Y esto es así porque la chi-cuadrado no varía de cero a uno, con lo que nos dice si existe significación estadística pero no nos da ninguna información sobre la fuerza de la asociación. Para eso necesitamos otros parámetros que sí oscilan de cero a uno, como el riesgo relativo y la odds ratio. Pero esa es otra historia…