Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

¿Estudias o trabajas?

This post is also available in: Inglés

image_pdf

Supongo que a los más jóvenes esta frase no os dirá nada o, a lo sumo, os hará reír de lo pasada de moda que está. Pero a los de mi quinta, y a otros más mayores, seguro que les trae buenos recuerdos. Qué tiempos aquellos cuando empezabas una conversación con esta frase, sabiendo que te importaba bien poco cuál era la respuesta, con tal de que no te mandasen a hacer puñetas. Aquello podía ser el origen de una gran amistad… y de otras cosas.

Así que como se da el caso de que yo, por suerte o por desgracia, llevo eones sin pronunciarla, voy a inventarme uno de mis ejemplos sin sentido para tener la excusa de volverla a utilizar y, de paso, meteros un rollo sobre las bondades de la chi cuadrado. Veréis cómo.

Supongamos que por alguna razón quiero saber si el nivel de estudios influye en tener hábitos como el fumar o beber bebidas alcohólicas. Así que tomo una muestra aleatoria de 585 chicas de 21 años y les pregunto, y aquí viene lo bueno: ¿estudias o trabajas?.  Clasifico así el nivel de estudios (universitarios y de escuela secundaria) y, acto seguido, registro si tienen uno de los dos hábitos, los dos o ninguno. Con los resultados construyo mi consabida tabla de contingencia.estudias

Vemos que, en nuestra muestra, las universitarias tienen más incidencia de hábito tabáquico y de ingesta de alcohol. Solo un 19% (72 de las 362) no sigue ninguno de los. Este porcentaje sube al 38% (85 de 223) entre las de secundaria. Por lo tanto, el consumo de tabaco y alcohol es más frecuente en las primeras pero, ¿esto es extrapolable a la población general o las diferencias que observamos pueden deberse al azar por el error del muestreo aleatorio?. Para responder a esta pregunta es para lo que recurrimos a nuestra prueba de la chi cuadrado.

Lo primero que hacemos es calcular los valores esperados, multiplicando el valor marginal de cada fila por el marginal de la columna y dividiendo por el total. Por ejemplo, para la primera celda el cálculo sería (125×362)/585 = 77,3. Así hacemos para todas las celdas.

Una vez que tenemos los valores esperados, lo que nos interesa saber es cuánto se alejan de los observados y si esa diferencia puede explicarse por el azar. Claro que si calculamos las diferencias y las sumamos, las positivas y las negativas se nos van a anular unas con otras y el valor total será cero. Por eso recurrimos al mismo truco que se emplea para el cálculo de la desviación estándar: elevar las diferencias al cuadrado, con lo que los signos negativos desaparecen.

Pero, además, un mismo valor de diferencia puede tener mayor o menor importancia según los valores esperados. Hay más error si esperamos uno y obtenemos tres que si esperamos 25 y obtenemos 27, aunque la diferencia en ambos casos sea dos. Para compensar este efecto lo que hacemos es estandarizar las diferencias dividiéndolas por el valor esperado.

Y ahora sí, sumamos todos estos valores y obtenemos el total de todas las celdas, que en nuestro ejemplo es de 26,64. Solo nos queda responder a la pregunta de si 26,64 es mucho o es poco para poder ser explicado por el azar.

Sabemos que este valor sigue, aproximadamente, una distribución de frecuencias de chi cuadrado con un número de grados de libertad de (filas-1) más (columnas-1), dos en nuestro caso. Así que solo tenemos que calcular la probabilidad de encontrar ese valor o, lo que es lo mismo, la p.

En este caso voy a utilizar R, un programa de estadística que podéis encontrar y bajaros de Internet. El comando es

pchisq(c(26.64), df=2, lower.tail=FALSE)

El resultado es una p menor de 0,001. Como p<0,05, rechazamos nuestra hipótesis nula que, como suele ser habitual, dice que las dos variables (nivel de estudios y hábitos nocivos) son independientes y las diferencias se deben al azar.

¿Y qué quiere decir esto?. Pues simplemente que las dos variables no son independientes. Pero que a nadie se le ocurra pensar que esto implica causalidad entre las dos. Esto no quiere decir que estudiar más te haga fumar o beber, sino simplemente que la distribución de las dos variables es distinta de la que podría esperarse solo por azar. La explicación puede estar en estas o en otras variables que no hayamos considerado. Por ejemplo, se me ocurre que la edad de los dos grupos podría ser una explicación más lógica de este ejemplo que, por otra parte, es solo producto de mi imaginación.

Y una vez que sabemos que las dos variables son dependientes, ¿la relación será más fuerte cuanto mayor sea la chi o menor la p?. Ni hablar. Cuanto mayor sea la chi o menor la sea la p, menor será la probabilidad de equivocarnos y cometer un error de tipo 1. Si queremos conocer la fuerza de la asociación tenemos que recurrir a otros indicadores, como el riesgo relativo o la odds ratio. Pero esa es otra historia…

Deja un comentario

A %d blogueros les gusta esto: