Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado porseptiembre 2013
image_pdf

La maldición

El otro día leí que existe la creencia de que pesa una maldición sobre la revista Sports Illustrated. Dicen que todos los que aparecen en la portada, que son deportistas de éxito, no tardan mucho tiempo en bajar su rendimiento deportivo.

Pensaréis que esta creencia es una leyenda urbana más, como la de la chica de la curva, pero yo creo que en este caso puede haber algo de verdad. Y no porque la revista esté maldita, sino por culpa de un fenómeno conocido como regresión a la media.

Este fenómeno dice que si medimos una variable por primera vez en un individuo determinado y obtenemos un valor extremo, la próxima vez que la midamos obtendremos un valor más próximo a la media del valor de esa variable. Esto podemos aplicarlo al caso de los deportistas.

Para salir en la portada de Sports Illustrated el deportista en cuestión tiene que estar en lo más alto de su carrera. Y desde lo más alto solo se puede ir en una dirección: hacia abajo. Así se explicaría que después de aparecer en la portada pueda verse una disminución de su rendimiento respecto al momento en que se ve encumbrado a la fama.

¿No os han dicho nunca, después de que algo os salga muy mal: no te preocupes, la próxima vez te saldrá mejor?. Pues va a resultar que hay algo de verdad matemática en esto.

Este fenómeno se utiliza en muchas facetas de la vida. Hay quien lo utiliza incluso para ganar dinero en bolsa, aunque no os recomiendo que lo intentéis, por lo que pueda pasar.

Pero este fenómeno tan simpático puede ser fuente de muchos errores en la interpretación de los resultados de experimentos científicos. Si lo pensáis, los sanos solo pueden cambiar a enfermar. Por su parte, los enfermos cambiarán (si cambian) para mejorar.

Como los tratamientos suelen ensayarse con enfermedades o factores de riesgo con valores fuera de lo común, puede ocurrir que las subsecuentes mediciones sean menos extremas por el fenómeno de regresión a la media y no por el efecto beneficioso de la intervención.

Esto explica muchas veces cómo intervenciones no eficaces pueden parecer serlo. Si tenemos un dolor horroroso y vamos probando, cuando estemos muy mal solo podremos mejorar algo. Si ese momento coincide con un remedio alternativo, pensaremos que esa es la razón de nuestra mejoría.

El fenómeno es aún más frecuente cuando seleccionamos individuos con alguna característica que varía a lo largo del tiempo, ya que la variación encontrada en las sucesivas mediciones puede deberse a la regresión a la media y no a la intervención que estemos ensayando.

¿Podemos librarnos de este engorroso fenómeno cuando hagamos nuestros estudios?. La respuesta es no. No podemos hacer que desaparezca, pero sí podemos controlarlo si utilizamos un grupo control adecuado. Como se producirá en los dos grupos, de control y de intervención, podremos distinguir el efecto de la intervención del efecto de la regresión a la media.

Para terminar deciros que este no es el único efecto que puede confundirnos a la hora de interpretar la eficacia de una intervención. Hay otros como el conocido efecto placebo (el efecto que se experimenta por ser tratado con cualquier cosa) y el efecto Hawthorne, que es el que experimentan algunos solo por saber que están siendo estudiados. Pero esa es otra historia…

El porqué de las cosas

¿Recordáis la pasada entrada en la que hablábamos de chicas estudiantes con hábitos nocivos para la salud?. Para aquellos de memoria floja, hagamos un breve recordatorio.

Resulta que entrevistábamos a 585 chicas y averiguábamos su nivel de estudios y si bebían, fumaban, ambas cosas o ninguna. Con los resultados construíamos la tabla de contingencia que os vuelvo a mostrar aquí.estudias

Nosotros queríamos saber si había alguna relación entre el nivel de estudios y el tener hábitos nocivos, para lo cual empezábamos por establecer nuestra hipótesis nula de que ambas variables cualitativas eran independientes.

Así que procedíamos a realizar una prueba de la chi cuadrado para llegar a una conclusión. Lo primero que teníamos que hacer era calcular los valores esperados de cada celda, cosa que es muy sencilla, ya que solo hay que multiplicar el total de la fila por el total de la columna y dividirlo por el total de la tabla… Alto! ¿Y por qué?. ¿De dónde sale esta regla?. ¿Sabéis por qué ese producto dividido por el total equivale al número esperado de esa celda?. Está bien tener reglas que nos faciliten las tareas, pero a mí me gusta saber de dónde salen las cosas y seguro que pocos os habéis parado a pensarlo. Vamos a verlo.

Partimos de la base de que vamos a razonar bajo el supuesto de la hipótesis nula de que las variables hábito nocivo y nivel de estudios son independientes. Vamos a calcular el valor esperado de la celda que corresponde a las estudiantes de secundaria con dos hábitos nocivos.

Como ambas situaciones (haber estudiado hasta secundaria y fumar y beber) son independientes, la probabilidad de que las dos ocurran será igual a la probabilidad de una por la probabilidad de la otra:

P(secundaria y dos hábitos) = P(secundaria) x P(dos hábitos)

Sabemos que P(secundaria) será igual al número total de chicas con nivel de secundaria dividido por el total de entrevistadas. Igualmente, P(dos hábitos) será igual a todas las que beben y fuman dividido por el total de entrevistadas (el total de la tabla). Si sustituimos la expresión anterior por sus valores, obtenemos:

P(secundaria y dos hábitos) = (223/585) x (303/585)

Ya sabemos cuál es la probabilidad de cada una de pertenecer a esa celda. ¿Cuál es el número esperado?. Pues muy sencillo, la probabilidad de cada una multiplicado por el número total de chicas entrevistadas:

P(secundaria y dos hábitos) = 585 x (223/585) x (303/585)

Y si anulamos los 585 de numerador y denominador y simplificamos la expresión, nos quedará:

P(secundaria y dos hábitos) = (223 x 303) / 585

Que no es otra cosa que el marginal de la fila por el marginal de la columna y dividido por el total de la tabla y cuyo resultado, en nuestro ejemplo, es de 115,5.

Veis, pues, de donde sale la regla para calcular el número de ocurrencias esperadas en una tabla de contingencia. Claro que ya sabéis que para averiguar si son o no variables independientes todavía quedaría estandarizar los cuadrados de las diferencias, calcular la suma y obtener su probabilidad según la distribución de la chi cuadrado. Pero esa es otra historia…

¿Estudias o trabajas?

Supongo que a los más jóvenes esta frase no os dirá nada o, a lo sumo, os hará reír de lo pasada de moda que está. Pero a los de mi quinta, y a otros más mayores, seguro que les trae buenos recuerdos. Qué tiempos aquellos cuando empezabas una conversación con esta frase, sabiendo que te importaba bien poco cuál era la respuesta, con tal de que no te mandasen a hacer puñetas. Aquello podía ser el origen de una gran amistad… y de otras cosas.

Así que como se da el caso de que yo, por suerte o por desgracia, llevo eones sin pronunciarla, voy a inventarme uno de mis ejemplos sin sentido para tener la excusa de volverla a utilizar y, de paso, meteros un rollo sobre las bondades de la chi cuadrado. Veréis cómo.

Supongamos que por alguna razón quiero saber si el nivel de estudios influye en tener hábitos como el fumar o beber bebidas alcohólicas. Así que tomo una muestra aleatoria de 585 chicas de 21 años y les pregunto, y aquí viene lo bueno: ¿estudias o trabajas?.  Clasifico así el nivel de estudios (universitarios y de escuela secundaria) y, acto seguido, registro si tienen uno de los dos hábitos, los dos o ninguno. Con los resultados construyo mi consabida tabla de contingencia.estudias

Vemos que, en nuestra muestra, las universitarias tienen más incidencia de hábito tabáquico y de ingesta de alcohol. Solo un 19% (72 de las 362) no sigue ninguno de los. Este porcentaje sube al 38% (85 de 223) entre las de secundaria. Por lo tanto, el consumo de tabaco y alcohol es más frecuente en las primeras pero, ¿esto es extrapolable a la población general o las diferencias que observamos pueden deberse al azar por el error del muestreo aleatorio?. Para responder a esta pregunta es para lo que recurrimos a nuestra prueba de la chi cuadrado.

Lo primero que hacemos es calcular los valores esperados, multiplicando el valor marginal de cada fila por el marginal de la columna y dividiendo por el total. Por ejemplo, para la primera celda el cálculo sería (125×362)/585 = 77,3. Así hacemos para todas las celdas.

Una vez que tenemos los valores esperados, lo que nos interesa saber es cuánto se alejan de los observados y si esa diferencia puede explicarse por el azar. Claro que si calculamos las diferencias y las sumamos, las positivas y las negativas se nos van a anular unas con otras y el valor total será cero. Por eso recurrimos al mismo truco que se emplea para el cálculo de la desviación estándar: elevar las diferencias al cuadrado, con lo que los signos negativos desaparecen.

Pero, además, un mismo valor de diferencia puede tener mayor o menor importancia según los valores esperados. Hay más error si esperamos uno y obtenemos tres que si esperamos 25 y obtenemos 27, aunque la diferencia en ambos casos sea dos. Para compensar este efecto lo que hacemos es estandarizar las diferencias dividiéndolas por el valor esperado.

Y ahora sí, sumamos todos estos valores y obtenemos el total de todas las celdas, que en nuestro ejemplo es de 26,64. Solo nos queda responder a la pregunta de si 26,64 es mucho o es poco para poder ser explicado por el azar.

Sabemos que este valor sigue, aproximadamente, una distribución de frecuencias de chi cuadrado con un número de grados de libertad de (filas-1) más (columnas-1), dos en nuestro caso. Así que solo tenemos que calcular la probabilidad de encontrar ese valor o, lo que es lo mismo, la p.

En este caso voy a utilizar R, un programa de estadística que podéis encontrar y bajaros de Internet. El comando es

pchisq(c(26.64), df=2, lower.tail=FALSE)

El resultado es una p menor de 0,001. Como p<0,05, rechazamos nuestra hipótesis nula que, como suele ser habitual, dice que las dos variables (nivel de estudios y hábitos nocivos) son independientes y las diferencias se deben al azar.

¿Y qué quiere decir esto?. Pues simplemente que las dos variables no son independientes. Pero que a nadie se le ocurra pensar que esto implica causalidad entre las dos. Esto no quiere decir que estudiar más te haga fumar o beber, sino simplemente que la distribución de las dos variables es distinta de la que podría esperarse solo por azar. La explicación puede estar en estas o en otras variables que no hayamos considerado. Por ejemplo, se me ocurre que la edad de los dos grupos podría ser una explicación más lógica de este ejemplo que, por otra parte, es solo producto de mi imaginación.

Y una vez que sabemos que las dos variables son dependientes, ¿la relación será más fuerte cuanto mayor sea la chi o menor la p?. Ni hablar. Cuanto mayor sea la chi o menor la sea la p, menor será la probabilidad de equivocarnos y cometer un error de tipo 1. Si queremos conocer la fuerza de la asociación tenemos que recurrir a otros indicadores, como el riesgo relativo o la odds ratio. Pero esa es otra historia…

Decisiones salomónicas

¡Cuánto no habría dado el rey Salomón por saber algo más sobre cálculo de probabilidades!. Y eso que ya era bastante sabio. Pero no cabe duda, si hubiese tenido unas mínimas nociones de estadística, sus decisiones habrían sido mucho más fáciles. Y, desde luego, casi seguro que no habría tenido que partir niños por la mitad. Claro que entonces no sería famoso. A los personajes históricos les pasa como a las fiestas populares: cuanto más salvaje, más gustan.

Y para demostraros de qué estoy hablando os voy a poner, como es habitual, un ejemplo tan estúpido que se os van a acabar las ganas de seguir leyendo.

Supongamos por un delirante momento que soy un vigilante de seguridad en una tienda de caramelos gigante. Me avisan porque han pillado a un niño con una bolsa de caramelos que, presuntamente, ha robado del barril gigante de caramelos de la tienda. El pobre crío dice que él no ha hecho nada malo y que los caramelos son de otra tienda pero, claro, ¿qué va a decir?. ¿Qué podemos hacer?. Ya sé… partir al niño por la mitad, como haría el rey Salomón.

Pero cualquiera se da cuenta en seguida que esa solución no es muy buena. ¿Quién sabe si el pobre es inocente, como él dice?. Así que vamos a pensar un poco cómo podemos averiguar si los caramelos de la bolsa son de nuestra tienda o de la otra que nos hace la competencia.

Nos dice el encargado de nuestra tienda que en el barril el 25% de los caramelos son de naranja, el 20% de fresa, el 20% de menta, el 25% de café y el 10% de chocolate. Así que miramos en la bolsa del niño y vemos que tiene 100 caramelos de los siguientes sabores: 27 de naranja, 18 de fresa, 20 de menta, 22 de café y 13 de chocolate.

Si los caramelos procediesen de nuestro barril la proporción de los sabores sería la misma en el barril y en la bolsa ya que, a efectos prácticos, podríamos asumir que el ladrón metió la mano y sacó al azar 100 caramelos del barril (este método no nos vale si ha seleccionado los caramelos por su sabor).

Así que la pregunta es sencilla: ¿el reparto de los caramelos del niño es compatible con que los caramelos provengan de una muestra aleatoria de nuestros caramelos?. Las pequeñas diferencias se deberían al error de muestreo, así que planteamos nuestra hipótesis nula de que el niño nos ha robado los caramelos.

En primer lugar planteamos la distribución teórica que tendrían que tener los caramelos y la que tienen en realidad, siempre asumiendo que la hipótesis nula es cierta.

caramelos_chiA nosotros nos interesa saber si la diferencia entre el reparto teórico y el observado puede explicarse por el azar. Pero si sumamos las diferencias se anulan una con otras y el resultado final es cero. Como sabemos que esto siempre nos va a ocurrir, lo que hacemos es elevar las diferencias al cuadrado (para eliminar los negativos) antes de sumarlas. El problema es que no es lo mismo esperar 2 y obtener 7 que esperar 35 y obtener 40. Aunque en ambos ejemplos la diferencia sea de cinco, parece evidente que el margen de error es mayor en el primer ejemplo. Por eso estandarizamos la diferencia entre observado y esperado dividiéndola por el valor esperado. Y ahora sí, sumamos estos resultados para obtener un valor determinado, que en nuestro caso es de 1,08.

Y 1,08, ¿es mucho o es poco?. Pues depende, unas veces será mucho y otras poco. Lo que sí sabemos que es este valor sigue, aproximadamente, una distribución de probabilidad de chi-cuadrado con un número de grados de libertad igual al número de categorías (sabores en nuestro ejemplo) menos una.

Así que si buscamos la probabilidad de un valor de chi de 1,08 con 4 grados de libertad, para lo que podemos usar un programa informático, una tabla de probabilidades o una de las calculadoras disponibles en Internet. Obtenemos de esta forma una p = 0.89 (89%). Como es mayor del 5% no podemos rechazar la hipótesis nula, así que llegamos a la conclusión de que el niño es, además de ladrón, bastante mentiroso. Su bolsa de caramelos es representativa de una muestra aleatoria obtenida de nuestro barril.

Ya veis qué fácil es comprobar la procedencia de una muestra aplicando la prueba de la chi-cuadrado. Pero esta prueba no solo sirve para estudiar la procedencia de muestras aleatorias, sino que también puede utilizarse para comprobar si existe alguna relación de dependencia entre variables cualitativas. Pero esa es otra historia…