Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasResiduo estandarizado
image_pdf

Gestión de residuos

Vivimos casi en una economía de subsistencia. No se tira nada. Y lo que no hay más remedio que tirar, se recicla. Sí, el reciclaje es una buena práctica, con sus ventajas económicas y ecológicas. Y es que los residuos son siempre aprovechables.

Pero además de no tirarse, en el campo de la estadística y de la epidemiología los residuos son muy importantes para interpretar los datos a partir de los que proceden. ¿Alguien no lo cree?. Imaginemos un ejemplo absurdo pero muy ilustrativo.

Supongamos que queremos saber qué tipo de pescado gusta más en la Europa Mediterránea. La razón para querer saber esto debe ser tan estúpida que todavía no se me ha ocurrido, pero hacemos una encuesta entre 5.281 habitantes de cuatro países del Sur de Europa.

Lo más útil y sencillo es lo que suele hacerse siempre en primer lugar: construir una tabla de contingencia con las frecuencias de los resultados, tal como la que os muestro a continuación.Web

Las tablas de contingencia suelen utilizarse para estudiar la asociación o relación entre dos variables cualitativas. En nuestro caso sería pescado favorito y lugar de residencia. Normalmente se intenta explicar una variable (la dependiente) en función de la otra (la independiente). En nuestro ejemplo queremos ver si la nacionalidad del encuestado influye sobre sus gustos alimentarios.

La tabla de valores totales ya es informativa. Por ejemplo, vemos que el mero y el pez espada gustan bastante más que la merluza, que a los italianos les gusta el atún menos que a los españoles, etc. Sin embargo, en tablas grandes como la nuestra puede ser laborioso y difícil sacar muchas conclusiones con los totales. Por eso, una alternativa útil es construir la tabla con los porcentajes de filas, columnas o de todas las celdas, como la que veis a continuación.Web

Resulta útil comparar los porcentajes de las columnas entre si para ver el efecto de una variable independiente (la nacionalidad, en nuestro ejemplo) con la dependiente (el pescado preferido). Por otra parte, los porcentajes de las filas nos muestran la distribución de frecuencias de la variable dependiente según las categorías de la independiente (el país en nuestro ejemplo). Pero, de los dos, los más interesantes son los porcentajes de columna: si son muy distintos entre las distintas categorías de la variable independiente (los países) nos hará sospechar que pueda haber asociación estadística entre las variables.

En nuestro ejemplo, los porcentajes dentro de cada columna son muy diferentes, así que sospechamos que no gustan los mismos peces en todos los países. Claro que esto hay que cuantificarlo de forma objetiva para saber que el resultado no es fruto de la casualidad. ¿Cómo?. Utilizando los residuos, que en seguida veremos qué son y cómo obtenerlos.

Lo primero que tenemos que hacer es construir una tabla con los valores esperados si el gusto por el pescado no se influyese por el país de origen. Esto es necesario porque buena parte de los estadísticos de asociación y de significación se basan en la comparación entre frecuencias observadas y frecuencias esperadas. Para calcular la frecuencia esperada de cada celda si las variables no tuviesen relación multiplicamos el marginal de la fila (el total de esa fila) por el marginal de la columna y lo dividimos por el total de la tabla. Obtenemos así la tabla de valores observados y esperados que os muestro a continuación.Web

En el caso de que las variables no estén relacionadas los valores observados y esperados serán prácticamente los mismos, con las pequeñas diferencias debidas al error de muestreo que nos produce el azar. Si las diferencias son grandes, probablemente haya alguna relación entre las dos variables que las expliquen. Y a la hora de valorar estas diferencias es donde entran en juego nuestros residuos.

El residuo no es más que la diferencia entre el valor esperado y el observado. Ya hemos dicho que cuando el residuo se aleja del cero puede haber significación pero, ¿cuánto se tiene que alejar?.Web

Podemos transformar los residuos dividiéndolos por la raíz cuadrada del valor esperado. Obtenemos así el residuo estandarizado o residuo de Pearson. A su vez, los residuos de Pearson pueden dividirse por la desviación estándar de los residuos, obteniendo así los residuos ajustados. Construimos ahora la tabla de residuos que veis al lado.

La gran utilidad del residuo ajustado es que es un valor estandarizado, así que podemos comparar los de las diferentes celdas. Además, el residuo ajustado sigue una distribución de frecuencias normal estándar (de media cero y desviación típica uno), por lo que podemos usar un programa informático o una tabla de probabilidades para conocer la probabilidad de que el valor del residuo no se deba al azar. En una distribución normal, el 95% de los valores están entre la media más menos dos desviaciones típicas, aproximadamente. Así que si el valor del residuo ajustado es mayor de 2 o menor de menos dos, la probabilidad de que esta diferencia se deba al azar será menor del 5% y diremos que ese residuo es significativo.  Por ejemplo, en nuestra tabla vemos que a los franceses les gusta el besugo más de lo que sería esperable si el país no influyese, al mismo tiempo que aborrecen el atún.

Estos residuos ajustados nos permiten valorar la significación de cada celda, pero si queremos saber si hay una asociación global tenemos que sumarlos todos. Y es que la suma de los residuos ajustados sigue también una distribución de frecuencias, pero esta vez una chi-cuadrado con (filas-1) x (columnas-1) grados de libertad. Si calculamos el valor para nuestra tabla obtendremos una chi2=368,3921, con una p<0,001, con lo que podremos concluir que existe una relación estadísticamente significativa entre las dos variables.

Como veis, los residuos son muy útiles, y no solo para calcular la chi, sino también muchos otros estadísticos. Sin embargo, los epidemiólogos prefieren utilizar otro tipo de medidas de asociación con las tablas de contingencia. Y esto es así porque la chi-cuadrado no varía de cero a uno, con lo que nos dice si existe significación estadística pero no nos da ninguna información sobre la fuerza de la asociación. Para eso necesitamos otros parámetros que sí oscilan de cero a uno, como el riesgo relativo y la odds ratio. Pero esa es otra historia…