Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasPrueba de la chi-cuadrado
image_pdf

Todos los caminos llevan a Roma

Esta expresión tiene su origen en la manía que les entró a los romanos por hacer carreteras entre la capital del Imperio y las provincias más alejadas. Había un momento en que cualquier camino que tomases te llevaba a Roma, de ahí el dicho.

En la actualidad los caminos te pueden llevar a cualquier parte, pero la frase se conserva para usarla cuando queremos decir que hay varias maneras de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay dependencia entre dos variables y si su diferencia es estadísticamente significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.

Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible, para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que, ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes son más listos, los romanos o los cartagineses.

Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses que pillamos despistados en la batalla de Cannas y les pasamos un test de inteligencia para ver qué proporción tiene un cociente de inteligencia mayor de 120, lo que vamos a considerar como ser bastante listo.

roma_cartagoLos resultados podéis verlos en la tabla que os adjunto. Podemos ver que el 25% de los romanos (63 de 251) y el 16% de los cartagineses (40 de 249) pueden ser calificados como listos. A primera vista uno pensaría que los romanos eran más listos pero claro, siempre hay posibilidad de que esta diferencia sea debida al azar por error de muestreo.

Así que planteamos nuestra hipótesis nula de que todos son igual de listos, elegimos un estadístico cuya distribución de probabilidad bajo la hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis nula, así que concluiremos que todos eran igual de listos y que la diferencia observada se debe al azar.

roma_cartago_chiEl primer estadístico que se me ocurre es la chi-cuadrado. Como ya sabemos, ésta valora la diferencia entre valores observados y esperados y calcula un valor que sigue una distribución conocida (chi-cuadrado), por lo que podemos calcular su valor de p. De esta forma, construimos la tabla de valores observados y esperados y obtenemos un valor de chi-cuadrado igual a 6,35. Ahora podemos calcular el valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de 0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en efecto, más listos que los cartagineses, lo que explicaría que ganasen las tres guerras púnicas, aunque la segunda se les atragantase un poco.

Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de llegar a la p sería comparar las dos proporciones y ver si su diferencia es estadísticamente significativa. Una vez más, nuestra hipótesis nula dice que no hay diferencias entre las dos, así que la resta de las dos proporciones, si la hipótesis nula es cierta, debería valer cero.

De esta manera, lo que tenemos que hacer es calcular la diferencia de proporciones y estandarizarla dividiéndola por su error estándar, obteniendo así un valor z que seguirá una distribución de probabilidad normal.

La fórmula es la siguiente

z= \frac{p_{1} - p_{2}}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n^{_{2}}}}}= \frac{0,25 - 0,16}{\sqrt{\frac{0,25(1-0,25)}{251}+\frac{0,16(1-0,16)}{249}}}= \frac{0,09}{0,0358}= 2,51

Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra calculadora de probabilidad para calcular lo que queda fuera de la media ± z (el contraste es bilateral), veremos que el valor de p = 0,01. Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.

Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula (error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.

Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado (6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51). Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado todos los valores de una distribución de frecuencias normal y volvemos a representar los resultados obtendremos una distribución de frecuencias de la chi-cuadrado. Curioso, ¿verdad?.

También podríamos realizar una prueba exacta de Fisher en lugar de una chi-cuadrado y obtendríamos unos resultados similares.

Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros que todavía hay más caminos para demostrar si la diferencia de proporciones es significativa o no. Podríamos haber calculado el intervalo de confianza de la diferencia o el del cociente de proporciones (el riesgo relativo) o, incluso, el de la odds ratio entre las dos proporciones y ver si los intervalos incluían el valor nulo para determinar si eran estadísticamente significativos. Pero esa es otra historia…

Ni tanto ni tan calvos

¿Os habéis preguntado alguna vez por qué la gente se queda calva, especialmente los varones a determinada edad?. Creo que tiene algo que ver con las hormonas. El caso es que es algo que suele gustar poco al afectado, y eso que hay una creencia popular que dice que los calvos son más inteligentes. A mí me parece que no tiene nada de malo ser calvo (es mucho peor ser gilipollas), claro que yo tengo todo mi pelo en la cabeza.

Siguiendo el hilo de la calvicie, supongamos que queremos saber si el color de pelo tiene algo que ver con quedarse calvo antes o después. Montamos un ensayo absurdo en el que reunimos 50 rubios y 50 morenos para estudiar cuántos se quedan calvos y en qué momento lo hacen.

Este ejemplo nos sirve para ilustrar los diferentes tipos de variables que podemos encontrarnos en un ensayo clínico y los diferentes métodos que debemos utilizar para comparar cada una de ellas.

Algunas variables son de tipo cuantitativo continuo. Por ejemplo, el peso de los participantes, su talla, su sueldo, el número de pelos por centímetro cuadrado, etc. Otras son de tipo cualitativo, como el color de pelo. En nuestro caso lo simplificaríamos a una variable binaria: rubio o moreno. Por último, encontramos variables llamadas de tiempo a evento, que nos muestran el tiempo que tardan los participantes en sufrir el evento en estudio, en nuestro caso, la calvicie.

Pues bien, a la hora de comparar si existen diferencias entre estas variables entre los dos grupos el método que elijamos vendrá determinado por el tipo de variable que estemos considerando.

Si queremos comparar una variable continua como la edad o el peso entre calvos y peludos, o entre rubios y morenos, tendremos que utilizar la prueba de la t de Student, siempre que nuestros datos se ajusten a una distribución normal. En el caso de que no sea así, la prueba no paramétrica que tendríamos que utilizar es la de Mann-Withney.

¿Y qué pasa si queremos comparar varias variables continuas a la vez?. Pues que podremos utilizar la regresión lineal múltiple para hacer las comparaciones entre variables.

En el caso de las variables cualitativas el enfoque es diferente. Para saber si existe dependencia estadísticamente significativa entre dos variables tendremos que construir la tabla de contingencia y recurrir a la prueba de la chi-cuadrado o a la prueba exacta de Fisher, según la naturaleza de los datos. Ante la duda podemos hacer siempre la prueba de Fisher. Aunque implica un cálculo más complejo, esto no es problema para cualquiera de los paquetes estadísticos disponibles hoy en día.

Otra posibilidad es calcular una medida de asociación como el riesgo relativo o la odds ratio con sus correspondientes intervalos de confianza. Si los intervalos no cruzan la línea de efecto nulo (el uno), consideraremos que la asociación es estadísticamente significativa.

Pero puede ocurrir que lo que queramos comparar sean varias variables cualitativas. En estos casos podremos utilizar un modelo de regresión logística.

Por último, vamos a hablar de las variables de tiempo a evento, algo más complicadas de comparar. Si utilizamos una variable como puede ser el tiempo que tardan en quedarse calvos nuestros sujetos podemos construir una curva de supervivencia o de Kaplan-Meier, que nos muestra de forma gráfica que porcentaje de sujetos queda en cada momento sin presentar el evento (o que porcentaje ya lo ha presentado, según como la leamos). Ahora bien, podemos comparar las curvas de supervivencia de rubios y morenos y ver si existen diferencias en la velocidad a la que se quedan calvos los dos grupos. Para esto utilizamos la prueba de los rangos logarítmicos, más conocida por su nombre en inglés: log rank test.

Este método se basa en la comparación entre las dos curvas en base a las diferencias entre los valores observados y los esperados si la supervivencia (la producción del evento en estudio, que no tiene porqué ser muerte) fuese igual en los dos grupos. Con este método podemos obtener un valor de p que nos indica si la diferencia entre las dos curvas de supervivencia es o no estadísticamente significativa, aunque no nos dice nada de la magnitud de la diferencia.

El caso de cálculo más complejo sería el supuesto de que queramos comparar más de dos variables. Para el análisis multivariado hay que servirse de un modelo de regresión de riesgos proporcionales de Cox. Este modelo es más complejo que los anteriores pero, una vez más, los programas informáticos lo llevan a cabo sin la menor dificultad si les introducimos los datos adecuados.

Y vamos a dejar a los calvos tranquilos de una vez. Podríamos hablar más acerca de las variables de tiempo a evento. Las curvas de Kaplan-Meier nos dan una idea de quién va presentando el evento a lo largo del tiempo, pero no nos dicen nada del riesgo de presentarlo en cada momento. Para eso necesitamos otro indicador, que es el cociente de riesgos instantáneos o hazard ratio. Pero esa es otra historia…

El porqué de las cosas

¿Recordáis la pasada entrada en la que hablábamos de chicas estudiantes con hábitos nocivos para la salud?. Para aquellos de memoria floja, hagamos un breve recordatorio.

Resulta que entrevistábamos a 585 chicas y averiguábamos su nivel de estudios y si bebían, fumaban, ambas cosas o ninguna. Con los resultados construíamos la tabla de contingencia que os vuelvo a mostrar aquí.estudias

Nosotros queríamos saber si había alguna relación entre el nivel de estudios y el tener hábitos nocivos, para lo cual empezábamos por establecer nuestra hipótesis nula de que ambas variables cualitativas eran independientes.

Así que procedíamos a realizar una prueba de la chi cuadrado para llegar a una conclusión. Lo primero que teníamos que hacer era calcular los valores esperados de cada celda, cosa que es muy sencilla, ya que solo hay que multiplicar el total de la fila por el total de la columna y dividirlo por el total de la tabla… Alto! ¿Y por qué?. ¿De dónde sale esta regla?. ¿Sabéis por qué ese producto dividido por el total equivale al número esperado de esa celda?. Está bien tener reglas que nos faciliten las tareas, pero a mí me gusta saber de dónde salen las cosas y seguro que pocos os habéis parado a pensarlo. Vamos a verlo.

Partimos de la base de que vamos a razonar bajo el supuesto de la hipótesis nula de que las variables hábito nocivo y nivel de estudios son independientes. Vamos a calcular el valor esperado de la celda que corresponde a las estudiantes de secundaria con dos hábitos nocivos.

Como ambas situaciones (haber estudiado hasta secundaria y fumar y beber) son independientes, la probabilidad de que las dos ocurran será igual a la probabilidad de una por la probabilidad de la otra:

P(secundaria y dos hábitos) = P(secundaria) x P(dos hábitos)

Sabemos que P(secundaria) será igual al número total de chicas con nivel de secundaria dividido por el total de entrevistadas. Igualmente, P(dos hábitos) será igual a todas las que beben y fuman dividido por el total de entrevistadas (el total de la tabla). Si sustituimos la expresión anterior por sus valores, obtenemos:

P(secundaria y dos hábitos) = (223/585) x (303/585)

Ya sabemos cuál es la probabilidad de cada una de pertenecer a esa celda. ¿Cuál es el número esperado?. Pues muy sencillo, la probabilidad de cada una multiplicado por el número total de chicas entrevistadas:

P(secundaria y dos hábitos) = 585 x (223/585) x (303/585)

Y si anulamos los 585 de numerador y denominador y simplificamos la expresión, nos quedará:

P(secundaria y dos hábitos) = (223 x 303) / 585

Que no es otra cosa que el marginal de la fila por el marginal de la columna y dividido por el total de la tabla y cuyo resultado, en nuestro ejemplo, es de 115,5.

Veis, pues, de donde sale la regla para calcular el número de ocurrencias esperadas en una tabla de contingencia. Claro que ya sabéis que para averiguar si son o no variables independientes todavía quedaría estandarizar los cuadrados de las diferencias, calcular la suma y obtener su probabilidad según la distribución de la chi cuadrado. Pero esa es otra historia…

¿Estudias o trabajas?

Supongo que a los más jóvenes esta frase no os dirá nada o, a lo sumo, os hará reír de lo pasada de moda que está. Pero a los de mi quinta, y a otros más mayores, seguro que les trae buenos recuerdos. Qué tiempos aquellos cuando empezabas una conversación con esta frase, sabiendo que te importaba bien poco cuál era la respuesta, con tal de que no te mandasen a hacer puñetas. Aquello podía ser el origen de una gran amistad… y de otras cosas.

Así que como se da el caso de que yo, por suerte o por desgracia, llevo eones sin pronunciarla, voy a inventarme uno de mis ejemplos sin sentido para tener la excusa de volverla a utilizar y, de paso, meteros un rollo sobre las bondades de la chi cuadrado. Veréis cómo.

Supongamos que por alguna razón quiero saber si el nivel de estudios influye en tener hábitos como el fumar o beber bebidas alcohólicas. Así que tomo una muestra aleatoria de 585 chicas de 21 años y les pregunto, y aquí viene lo bueno: ¿estudias o trabajas?.  Clasifico así el nivel de estudios (universitarios y de escuela secundaria) y, acto seguido, registro si tienen uno de los dos hábitos, los dos o ninguno. Con los resultados construyo mi consabida tabla de contingencia.estudias

Vemos que, en nuestra muestra, las universitarias tienen más incidencia de hábito tabáquico y de ingesta de alcohol. Solo un 19% (72 de las 362) no sigue ninguno de los. Este porcentaje sube al 38% (85 de 223) entre las de secundaria. Por lo tanto, el consumo de tabaco y alcohol es más frecuente en las primeras pero, ¿esto es extrapolable a la población general o las diferencias que observamos pueden deberse al azar por el error del muestreo aleatorio?. Para responder a esta pregunta es para lo que recurrimos a nuestra prueba de la chi cuadrado.

Lo primero que hacemos es calcular los valores esperados, multiplicando el valor marginal de cada fila por el marginal de la columna y dividiendo por el total. Por ejemplo, para la primera celda el cálculo sería (125×362)/585 = 77,3. Así hacemos para todas las celdas.

Una vez que tenemos los valores esperados, lo que nos interesa saber es cuánto se alejan de los observados y si esa diferencia puede explicarse por el azar. Claro que si calculamos las diferencias y las sumamos, las positivas y las negativas se nos van a anular unas con otras y el valor total será cero. Por eso recurrimos al mismo truco que se emplea para el cálculo de la desviación estándar: elevar las diferencias al cuadrado, con lo que los signos negativos desaparecen.

Pero, además, un mismo valor de diferencia puede tener mayor o menor importancia según los valores esperados. Hay más error si esperamos uno y obtenemos tres que si esperamos 25 y obtenemos 27, aunque la diferencia en ambos casos sea dos. Para compensar este efecto lo que hacemos es estandarizar las diferencias dividiéndolas por el valor esperado.

Y ahora sí, sumamos todos estos valores y obtenemos el total de todas las celdas, que en nuestro ejemplo es de 26,64. Solo nos queda responder a la pregunta de si 26,64 es mucho o es poco para poder ser explicado por el azar.

Sabemos que este valor sigue, aproximadamente, una distribución de frecuencias de chi cuadrado con un número de grados de libertad de (filas-1) más (columnas-1), dos en nuestro caso. Así que solo tenemos que calcular la probabilidad de encontrar ese valor o, lo que es lo mismo, la p.

En este caso voy a utilizar R, un programa de estadística que podéis encontrar y bajaros de Internet. El comando es

pchisq(c(26.64), df=2, lower.tail=FALSE)

El resultado es una p menor de 0,001. Como p<0,05, rechazamos nuestra hipótesis nula que, como suele ser habitual, dice que las dos variables (nivel de estudios y hábitos nocivos) son independientes y las diferencias se deben al azar.

¿Y qué quiere decir esto?. Pues simplemente que las dos variables no son independientes. Pero que a nadie se le ocurra pensar que esto implica causalidad entre las dos. Esto no quiere decir que estudiar más te haga fumar o beber, sino simplemente que la distribución de las dos variables es distinta de la que podría esperarse solo por azar. La explicación puede estar en estas o en otras variables que no hayamos considerado. Por ejemplo, se me ocurre que la edad de los dos grupos podría ser una explicación más lógica de este ejemplo que, por otra parte, es solo producto de mi imaginación.

Y una vez que sabemos que las dos variables son dependientes, ¿la relación será más fuerte cuanto mayor sea la chi o menor la p?. Ni hablar. Cuanto mayor sea la chi o menor la sea la p, menor será la probabilidad de equivocarnos y cometer un error de tipo 1. Si queremos conocer la fuerza de la asociación tenemos que recurrir a otros indicadores, como el riesgo relativo o la odds ratio. Pero esa es otra historia…

Decisiones salomónicas

¡Cuánto no habría dado el rey Salomón por saber algo más sobre cálculo de probabilidades!. Y eso que ya era bastante sabio. Pero no cabe duda, si hubiese tenido unas mínimas nociones de estadística, sus decisiones habrían sido mucho más fáciles. Y, desde luego, casi seguro que no habría tenido que partir niños por la mitad. Claro que entonces no sería famoso. A los personajes históricos les pasa como a las fiestas populares: cuanto más salvaje, más gustan.

Y para demostraros de qué estoy hablando os voy a poner, como es habitual, un ejemplo tan estúpido que se os van a acabar las ganas de seguir leyendo.

Supongamos por un delirante momento que soy un vigilante de seguridad en una tienda de caramelos gigante. Me avisan porque han pillado a un niño con una bolsa de caramelos que, presuntamente, ha robado del barril gigante de caramelos de la tienda. El pobre crío dice que él no ha hecho nada malo y que los caramelos son de otra tienda pero, claro, ¿qué va a decir?. ¿Qué podemos hacer?. Ya sé… partir al niño por la mitad, como haría el rey Salomón.

Pero cualquiera se da cuenta en seguida que esa solución no es muy buena. ¿Quién sabe si el pobre es inocente, como él dice?. Así que vamos a pensar un poco cómo podemos averiguar si los caramelos de la bolsa son de nuestra tienda o de la otra que nos hace la competencia.

Nos dice el encargado de nuestra tienda que en el barril el 25% de los caramelos son de naranja, el 20% de fresa, el 20% de menta, el 25% de café y el 10% de chocolate. Así que miramos en la bolsa del niño y vemos que tiene 100 caramelos de los siguientes sabores: 27 de naranja, 18 de fresa, 20 de menta, 22 de café y 13 de chocolate.

Si los caramelos procediesen de nuestro barril la proporción de los sabores sería la misma en el barril y en la bolsa ya que, a efectos prácticos, podríamos asumir que el ladrón metió la mano y sacó al azar 100 caramelos del barril (este método no nos vale si ha seleccionado los caramelos por su sabor).

Así que la pregunta es sencilla: ¿el reparto de los caramelos del niño es compatible con que los caramelos provengan de una muestra aleatoria de nuestros caramelos?. Las pequeñas diferencias se deberían al error de muestreo, así que planteamos nuestra hipótesis nula de que el niño nos ha robado los caramelos.

En primer lugar planteamos la distribución teórica que tendrían que tener los caramelos y la que tienen en realidad, siempre asumiendo que la hipótesis nula es cierta.

caramelos_chiA nosotros nos interesa saber si la diferencia entre el reparto teórico y el observado puede explicarse por el azar. Pero si sumamos las diferencias se anulan una con otras y el resultado final es cero. Como sabemos que esto siempre nos va a ocurrir, lo que hacemos es elevar las diferencias al cuadrado (para eliminar los negativos) antes de sumarlas. El problema es que no es lo mismo esperar 2 y obtener 7 que esperar 35 y obtener 40. Aunque en ambos ejemplos la diferencia sea de cinco, parece evidente que el margen de error es mayor en el primer ejemplo. Por eso estandarizamos la diferencia entre observado y esperado dividiéndola por el valor esperado. Y ahora sí, sumamos estos resultados para obtener un valor determinado, que en nuestro caso es de 1,08.

Y 1,08, ¿es mucho o es poco?. Pues depende, unas veces será mucho y otras poco. Lo que sí sabemos que es este valor sigue, aproximadamente, una distribución de probabilidad de chi-cuadrado con un número de grados de libertad igual al número de categorías (sabores en nuestro ejemplo) menos una.

Así que si buscamos la probabilidad de un valor de chi de 1,08 con 4 grados de libertad, para lo que podemos usar un programa informático, una tabla de probabilidades o una de las calculadoras disponibles en Internet. Obtenemos de esta forma una p = 0.89 (89%). Como es mayor del 5% no podemos rechazar la hipótesis nula, así que llegamos a la conclusión de que el niño es, además de ladrón, bastante mentiroso. Su bolsa de caramelos es representativa de una muestra aleatoria obtenida de nuestro barril.

Ya veis qué fácil es comprobar la procedencia de una muestra aplicando la prueba de la chi-cuadrado. Pero esta prueba no solo sirve para estudiar la procedencia de muestras aleatorias, sino que también puede utilizarse para comprobar si existe alguna relación de dependencia entre variables cualitativas. Pero esa es otra historia…