Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado pornoviembre 2013
image_pdf

Más de dos son multitud

Al menos cuando hablamos de contraste de medias.

Supongamos que queremos saber si una población de esquimales come una cantidad de carne de foca superior a un valor determinado. Podemos calcular la media en la muestra, estimar su intervalo de confianza en la población y ver si incluye o no dicho valor.

Supongamos ahora que tenemos dos poblaciones de esquimales y queremos saber si hay diferencia en su consumo de carne de foca. No tenemos más que calcular las medias y hacer una sencilla prueba de la t de Student para comparar sus medias. También podríamos calcular sus intervalos de confianza y ver si hay solapamiento.

Pero, ¿qué pasa si tenemos tres o más poblaciones?. Pues que no nos vale ni la t de Student ni la comparación de intervalos. En estos casos tenemos que utilizar una técnica que tiene el engañoso nombre de análisis de la varianza (ANOVA, de sus siglas en inglés). Y digo engañoso nombre porque lo que se comparan son medias, no varianzas. Eso sí, para compararlas utilizamos la forma en la que varían los datos, siguiendo un razonamiento bastante ingenioso. Vamos a tratar de explicarlo ayudándonos de un ejemplo de la vida real.

Como en un chiste de mi infancia, tenemos cinco franceses, cinco españoles y cinco italianos (en los chistes suele haber un francés, un italiano y un español, pero poca varianza podríamos analizar con tan poca gente). A estas 15 personas les preguntamos cuántos litros de vino se beben al mes, obteniendo la distribución que veis en la tabla.vino_ANOVA

Si calculamos los valores medios de cada grupo veremos que los franceses beben 33,2 litros al mes, los italianos 35 y los españoles 32,2. ¿Quiere esto decir que en Italia son más borrachos que en Francia y en Francia más que en España?. Pues solo con las medias no podemos saberlo. Aunque las muestras que hemos escogido fuesen representativas de sus poblaciones, siempre cabe la posibilidad de que las diferencias se deban al más puro azar. Así que, como siempre, tenemos que hacer un contraste de hipótesis para poder averiguarlo.

Como primer paso establecemos la hipótesis nula de que no existen diferencias reales entre los tres grupos y que las diferencias observadas se deben al azar. La hipótesis alternativa, por su parte, dice que sí hay diferencias entre los tres grupos. Así que, bajo la asunción de la hipótesis nula, vamos a hacer el análisis de la varianza de un factor, que sería el país de procedencia.

El consumo de vino medio de nuestros 15 borrachos es de 33,5 litros al mes. Suponiendo cierta la hipótesis nula, si tomamos uno al azar, de cualquier país, el consumo esperado sería de 33,5. Sin embargo, es fácil de entender que la mayor parte de los sujetos extraídos al azar tendrán un valor diferente a la media esperada. El valor de ese individuo lo podemos descomponer en tres partes: la media, la variación debida al país de procedencia y la variación debida al azar. Si me permitís una formulita, sería la siguiente:

x = media + efecto del país + efecto del error aleatorio

Si la hipótesis nula es cierta y no hay diferencias entre grupos, la variación debida al país será muy pequeña (similar a la del azar), mientras que si es falsa, esta variación será mayor. Pensad ahora en el valor del cociente país/error aleatorio. Si no hay diferencias debidas al grupo (la hipótesis nula es cierta), el cociente valdrá 1 o menos de 1. Si los grupos tienen medias diferentes, el cociente valdrá más de 1, tanto más cuánto mayores sean las diferencias entre grupos, ya que el error aleatorio será siempre más o menos el mismo.

Pues bien, ya casi lo tenemos. Sabemos que la varianza es la suma media de los cuadrados de la distancia de cada valor respecto de la media. Recordad que se elevaban al cuadrado estas distancias para que las negativas no se anulasen con las positivas.

Esta varianza puede descomponerse en los dos componentes que hemos explicado: el debido a la varianza entre grupos, llamado suma de cuadrados, y el debido al azar, llamado residual de cuadrados:

Suma total de cuadrados = suma de cuadrados por grupo + residual de cuadrados.

No os voy a poner las fórmulas para calcular estas sumas de cuadrados, aunque no son muy complejas y un ejemplo como el que estamos viendo puede resolverse perfectamente con una sencilla calculadora. No merece la pena complicarse la vida. Cualquier programa de estadística calcula estas sumas de cuadrados sin esfuerzo.

Y una vez que tenemos las sumas de cuadrados es donde aparece la magia de los números, porque da la casualidad de que el cociente de los cuadrados partido por los residuales (país/aleatorio) sigue una distribución de probabilidad conocida, que no es otra que una F de Snedecor con grupos-1, n-grupos grados de libertad.

Si lo calculamos (yo lo he hecho empleando el comando aov del programa R), obtenemos una F de 1,14. La probabilidad de obtener este valor de F con estos grados de libertad es de 0,35. Como es mayor de 0,05, no podemos rechazar la hipótesis nula, así que no nos queda más remedio que asumir que franceses, italianos y españoles somos igual de borrachos.

Solo un par de comentarios más antes de terminar. Primero, para poder hacer este tipo de análisis deben cumplirse tres circunstancias: las muestras deben ser independientes, deben seguir una distribución normal y deben tener varianzas iguales (lo que se conoce con el simpático nombre de homocedasticidad). Nosotros hemos asumido las tres condiciones.

Segundo, si hubiésemos obtenido una F con p<0,05 y hubiésemos rechazado la hipótesis nula habríamos podido decir que había diferencias en los consumos de vino pero, ¿entre qué grupos?. Lo primero que se nos pasa por la cabeza es tomar los grupos de dos en dos y hacer el contraste con dos medias, pero esto no se puede hacer así sin más. Cuántas más parejas comparemos, más probable es que cometamos un error de tipo I y encontremos una diferencia significativa por puro azar, ya que la significación global varía al comparar las medias dos a dos. Para hacerlo tendríamos que utilizar otras técnicas que tienen en cuenta este efecto, como la de Bonferroni o la de Tukey. Pero esa es otra historia…

La vida no es de color de rosa

Los llamados seres humanos tenemos la tendencia a ser demasiado categóricos. Nos gusta mucho ver las cosas blancas o negras, cuando la realidad es que la vida no es ni blanca ni negra, sino que se manifiesta en una amplia gama de grises. Hay quien piensa que la vida es de color de rosa o que el color depende del cristal con el que se mire, pero no lo creáis: la vida es de colores grises.

Y esa tendencia a ser demasiado categóricos nos lleva, en ocasiones, a sacar conclusiones muy diferentes sobre un tema en concreto según el color, blanco o negro, del cristal con el que lo miremos. No es raro que, sobre determinados temas, podamos observar opiniones opuestas.

Y lo mismo puede ocurrir en medicina. Cuando surge un nuevo tratamiento y empiezan a publicarse trabajos sobre su eficacia o su toxicidad, no es raro encontrar estudios muy similares en los que los autores llegan a conclusiones muy diferentes. Muchas veces esto se debe al empeño en ver las cosas blancas o negras, sacando conclusiones categóricas de parámetros como el valor de la significación estadística, el valor de la p. En realidad, en muchos de estos casos los datos no dicen cosas tan diferentes, pero tenemos que mirar la gama de grises que nos brindan los intervalos de confianza.

Como me imagino que no entendéis bien de qué leches estoy hablando, voy a tratar de explicarme mejor y de poner algún ejemplo.

Ya sabéis que nunca nunca nunca podemos probar la hipótesis nula. Solo podemos rechazarla o ser incapaces de rechazarla (en este caso asumimos que es cierta, pero con una probabilidad de error). Por eso cuando queremos estudiar el efecto de una intervención planteamos la hipótesis nula de que el efecto no existe y diseñamos el estudio para que nos dé información sobre si podemos o no rechazarla. En el caso de rechazarla asumimos la hipótesis alternativa de que el efecto de la intervención existe. Una vez más, siempre con una probabilidad de error, que es el valor de la p o la significación estadística.

En resumen, si la rechazamos asumimos que la intervención tiene un efecto y si no podemos rechazarla asumimos que no la tiene. ¿Os dais cuenta?: blanco o negro. Esta interpretación tan simplista no tiene en cuenta la gama de grises que tienen que ver con factores relevantes como la importancia clínica, la precisión de la estimación o la potencia del estudio.

En un ensayo clínico es habitual proporcionar la diferencia encontrada entre el grupo de intervención y el de control. Esta estimación es puntual pero, como el ensayo lo hemos hecho con una muestra de una población, lo correcto es acompañar la estimación puntual de un intervalo de confianza que nos proporcione el rango en el que se incluye el valor real de la población inaccesible con una probabilidad o confianza determinada. Por convenio, la mayor parte de las veces está confianza se establece en el 95%.

Este 95% se elige habitualmente porque suelen usarse también niveles de significación estadística del 5%, pero no debemos olvidar que es un valor arbitrario. La gran cualidad que tiene el intervalo de confianza frente a la p es que no permite establecer conclusiones dicotómicas, del tipo de blanco o negro.

El intervalo de confianza no es significativo cuando cruza la línea de efecto nulo, que es el 1 para riesgos relativos y odds ratios y el 0 para riesgos absolutos y diferencias de medias. Si solo miramos el valor de p solo podemos concluir si se alcanza o no significación estadística, llegando a veces a conclusiones diferentes con intervalos muy parecidos.

blanco y negroVeamos un ejemplo. En el gráfico están representados los intervalos de confianza de dos estudios sobre los efectos adversos cardiovasculares de un nuevo tratamiento. Veis que ambos intervalos son muy similares, pero el del ensayo A es estadísticamente significativo mientras que el del B no lo es. Si a los autores les gusta el blanco y negro, el de A dirá que el tratamiento tiene toxicidad cardiovascular, mientras que el de B dirá que no existe diferencia estadísticamente significativa entre la intervención y el control en lo que respecta a la toxicidad cardiovascular.

Sin embargo, el intervalo de B abarca desde algo menos de 1 hasta casi 3. Esto quiere decir que el valor de la población puede estar en cualquier valor del intervalo. Igual es 1, pero igual es 3, con lo que no es imposible que la toxicidad sea tres veces mayor que en el grupo de tratamiento. Si los efectos adversos son graves, no sería adecuado recomendar el tratamiento hasta disponer de estudios más concluyentes, con intervalos más precisos. Esto es a lo que me refiero con la gama de grises. No es prudente sacar conclusiones en blanco y negro cuando hay solapamiento de los intervalos de confianza.

Así que seguid mi consejo. Haced menos caso a la p y buscad siempre la información sobre el rango posible de efecto que proporcionan los intervalos de confianza.

Y aquí lo dejamos por hoy. Podríamos hablar más acerca de situaciones similares pero cuando tratamos con estudios de eficacia, de superioridad o de no-inferioridad. Pero esa es otra historia…

El valor de la independencia

Los médicos estamos todo el día midiendo cosas. Es lo que mejor se nos da. Si fuésemos tan capaces para curar a nuestros pacientes como para medir cosas en ellos, la mitad de los médicos estaríamos de más por falta de enfermos. Solo hay una cosa que nos gusta más que medir: prohibir. Nos encanta prohibir a la gente todo aquello que les gusta, con las excusas más variadas. Y ahora que se van aproximando las fiestas de fin de año llega nuestra hora feliz de prohibir a diestro y siniestro: que si el alcohol, que si el turrón, que si las fiestas, que si esto o aquello.

Pero, hasta que llegue el momento, tendremos que conformarnos con medir. Habitualmente medimos variables, que son datos que, como su propio nombre indica, varían de persona a persona. Una vez que hemos medido muchas variables en un grupo de personas tenemos que empezar a trabajar con los datos para poder sacar alguna conclusión de provecho.

Lo primero que haremos será describir los datos con medidas de tendencia central y medidas de dispersión. Acto seguido aplicaremos pruebas estadísticas diversas para comparar unas variables con otras. Y es aquí donde juega un papel fundamental el concepto de independencia de las variables estudiadas, ya que los procedimientos estadísticos pueden variar enormemente según trabajemos con variables dependientes o variables independientes y, si no lo tenemos en cuenta, podemos cometer graves errores a la hora de hacer cualquier tipo de inferencia estadística.

Dicho de una forma muy sencilla, dos variables son independientes cuando el conocer una de ellas no nos da ninguna información sobre el valor que puede tener la otra. Por el contrario, son dependientes cuando el valor de una puede darnos una idea de cómo va a ser la otra.

Imaginemos dos variables dependientes: el peso y el índice de masa corporal. Si sabemos que un individuo pesa 18 kilos, ya podemos imaginar que su índice de masa corporal va a ser minúsculo (a excepción, claro está, que sea uno de los enanitos del cuento). Al revés, si tiene un índice de 60, ya podremos ir reparando la báscula después de haberle pesado.

Este ejemplo es muy claro, pero no siempre es tan fácil discernir si dos variables son dependientes o independientes. Supongamos que medimos la altura de los alumnos de una clase. La talla de un chico cualquiera no nos dice cómo va a ser la de otra chica cualquiera de la clase, salvo que sean hermanos o algo parecido. Podremos comparar las tallas de ambos sexos considerándolas variables independientes.

Ahora pensad que hacemos un estudio longitudinal de crecimiento con los mismos alumnos. Los valores de la talla de cada uno nos indicarán más o menos como serán sus valores sucesivos, así que no podremos considerar como independientes los pares de valores de cada alumno en particular.

Por último, vamos a plantear un ejemplo algo más complejo. Supongamos que medimos la talla a un grupo de madres y a sus hijos. A primera vista podría considerarse que las medias de tallas en niños y madres son independientes pero, ¿qué pasaría si las madres más bajas tuviesen más hijos que las más altas?. Probablemente la media de talla en los hijos sería diferente a la que obtendríamos si todas tuviesen el mismo número de hijos.

Otro ejemplo no tan evidente de dependencia es la de los estudios hechos por conglomerados. Imaginaos que estudiamos una técnica diagnóstica y la aplicamos en unos hospitales y en otros no para evitar la contaminación dentro del mismo centro. Habría que tener en cuenta esta relación entre centro y técnica utilizada a la hora de realizar conclusiones sobre los resultados obtenidos.

Para finalizar la entrada de hoy, solo advertiros que no debéis confundir el concepto de independencia que hemos explicado con los conceptos de variable dependiente e independiente de los modelos de regresión. En estos casos el término variable dependiente hace referencia a la variable de resultado, mientras que el de independiente se refiere a la variable explicativa. Pero esa es otra historia…

La falsa moneda

Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos monedas, una de ellas legal y la otra más falsa que Judas Iscariote, cargada de forma que dé más caras que cruces cuando la lanzamos. Os aconsejo que os pongáis cómodos antes de empezar.

Resulta que tenemos una moneda trucada. Por definición, la probabilidad de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.

Ahora supongamos que hemos sido tan despistados como para guardar la moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70. Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en el número de caras, decidiremos si está trucada o no. Así que, de forma arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si sacamos menos de 65 diremos que es legal.

Pero cualquiera se da cuenta en seguida que este método no es infalible. Por una parte, podemos sacar 67 caras con una moneda legal y concluir que está trucada, cuando no lo está. Pero es que también puede dar la casualidad que saquemos 60 con la trucada y nos creamos que es una moneda legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la verdad es que no podemos, pero lo que sí podemos es medir la probabilidad que tenemos de equivocarnos.

Si utilizamos una calculadora de probabilidad binomial (los más valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65 caras o más con una moneda legal es del 0,17%, mientras que la probabilidad de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden presentar cuatro situaciones que os represento en la tabla adjunta.

En este caso, nuestra hipótesis nula dice que la moneda es legal, mientras que la alternativa dice que la moneda está trucada a favor de las caras.

Empecemos por los casos en que la prueba concluye que la moneda es legal (sacamos menos de 65 caras). La primera posibilidad es que la moneda sea, en efecto, legal. Pues habremos acertado. No tenemos más que decir de este supuesto.

La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la moneda sea más falsa que el beso de una suegra. Pues esta vez hemos cometido un error que alguien con muy poca imaginación bautizó como error de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal cuando en realidad está trucada.

Vamos a suponer ahora que nuestra prueba concluye que la moneda está trucada. Si la moneda es, en realidad, legal, habremos vuelto a equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I. En este caso hemos rechazado la hipótesis nula de que la moneda es legal siendo cierto que es legal.

Por último, si concluimos que es falsa y realmente está trucada, habremos acertado una vez más.

Vemos en la tabla que la probabilidad de cometer un error de tipo I es, en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra prueba, que no es más que la probabilidad de rechazar nuestra hipótesis nula de que la moneda es legal (decir que es falsa) cuando en realidad lo es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda es falsa es del 88%. A esta probabilidad se le llama potencia, que no es más que la probabilidad de acertar cuando la prueba dice que está trucada (acertar cuando rechazamos la hipótesis nula).

Si pensáis un poco veréis que el error de tipo II es el complementario de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que es legal cuando no lo es (error de tipo II) más la probabilidad de acertar y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 – potencia.

Esta significación estadística que hemos visto es el famoso valor de la p. La significación estadística no es más que la probabilidad de cometer un error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05 (5%), ya que, en general, es preferible no aceptar como buenas hipótesis que son falsas. Por eso en los estudios científicos se buscan valores bajos de significación y altos de potencia, aunque los dos están relacionados, por lo que al aumentar la significación disminuye la potencia, y viceversa.

Y aquí terminamos. Al que haya llegado hasta aquí a través de este galimatías sin perderse del todo, mi más sincera enhorabuena, porque la verdad es que esta entrada parece un juego de palabras. Y eso que podríamos haber comentado algo sobre significación y cálculo de intervalos de confianza, tamaños muestrales, etc. Pero esa es otra historia…