Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasError de tipo I
image_pdf

Tanto va el cántaro a la fuente…

…que termina por romperse. ¿Qué se rompe, el cántaro o la fuente?. El refrán se refiere, claro está, al cántaro. El dicho hace referencia a los tiempos en que no había agua en las casas y había que ir hasta la fuente a por ella, de forma que, más tarde o más temprano, el cántaro se rompía, ya fuese por desgaste por un uso excesivo o por algún desgraciado accidente que acababa con él hecho pedazos. Supongo que la fuente podía romperse también, pero para eso ya había que ser muy bestia, así que el refrán no contempla esa posibilidad.

En la actualidad empleamos esta frase para referirnos al hecho de que si repetimos una acción con demasiada insistencia podemos  acabar teniendo algún contratiempo.

Por ejemplo, hagamos un paralelismo entre ir a la fuente con el cántaro y hacer un contraste de hipótesis. ¿Creéis que no tienen nada que ver?. Pues lo tienen: si hacemos contrastes de hipótesis de forma insistente podemos acabar llevándonos un disgusto, que no será otro que el de cometer un error de tipo I. Me explicaré para que no penséis que me he dado con el cántaro en la cabeza en uno de los viajes a la fuente.

Recordemos que siempre que hacemos un contraste de hipótesis establecemos una hipótesis nula (H0) que dice que la diferencia observada entre los grupos de comparación se debe al azar. A continuación, calculamos la probabilidad de que la diferencia se deba al azar y, si es menor que un valor determinado (habitualmente 0,05), rechazamos H0 y afirmamos que es altamente improbable que la diferencia se deba al azar, por lo que la consideramos real. Pero claro, altamente improbable no significa seguro. Siempre hay un 5% de probabilidad de que, siendo H0 cierta, la rechacemos, dando por bueno un efecto que en realidad no existe. Esto es lo que se llama cometer un error de tipo I.

Si hacemos múltiples comparaciones la probabilidad de cometer un error aumenta. Por ejemplo, si hacemos 100 comparaciones, esperaremos equivocarnos aproximadamente cinco veces, ya que la probabilidad de equivocarnos en cada ocasión será del 5% (y la de acertar del 95%).

Así que podemos preguntarnos, si hacemos n comparaciones, ¿cuál es la probabilidad de tener al menos un falso positivo?. Esto es un poco laborioso de calcular, porque habría que calcular la probabilidad de 1,2,…,n-1 y n falsos positivos utilizando probabilidad binomial. Así que recurrimos a un truco muy utilizado en el cálculo de probabilidades, que es calcular la probabilidad del suceso complementario. Me explico. La probabilidad de algún falso positivo más la probabilidad de ninguno será de 1 (100%). Luego la probabilidad de algún falso positivo será igual a 1 menos la probabilidad de ninguno.

¿Y cuál es la probabilidad de ninguno?. La de no cometer error en cada contraste ya hemos dicho que es de 0,95. La de no cometer errores en n contrastes será de 0,95n. Así que la probabilidad de tener al menos un falso positivo será de 1 – 0,95n.

Imaginaos que hacemos 20 comparaciones. La probabilidad de cometer, como mínimo, un error de tipo I será de 1-0,9520 = 0,64. Habrá un 64% de probabilidad de que cometamos un error y demos por existente un efecto que en realidad no existe por puro azar.

Pues que chorrada, me diréis. ¿Quién se va a poner a hacer tantas comparaciones sabiendo el peligro que tiene?. Pues, si os paráis a pensarlo, lo habéis visto muchas veces. ¿Quién no ha leído un artículo sobre un ensayo que incluía un estudio post hoc con múltiples comparaciones?. Es bastante frecuente cuando el ensayo no da resultados con significación estadística. Los autores tienden a exprimir y torturar los datos hasta que encuentran un resultado satisfactorio.

Sin embargo, desconfiad siempre de los estudios post hoc. El ensayo debe tratar de responder a una pregunta previamente establecida y no buscar respuestas a preguntas que nos podemos hacer después de finalizarlo, dividiendo los participantes en grupos según características que no tienen nada que ver con la aleatorización inicial.

De todas formas, como es una costumbre difícil de erradicar, sí que podemos exigir a los autores de los ensayos que tengan una serie de precauciones si quieren hacer estudios post hoc con múltiples contrastes de hipótesis. Lo primero, todo análisis que se haga con los resultados del ensayo debe especificarse cuando se planifica el ensayo y no una vez terminado. Segundo, los grupos deben tener cierta plausibilidad biológica. Tercero, debe evitarse hacer comparaciones múltiples con subgrupos si los resultados generales del ensayo no son significativos. Y, por último, utilizar siempre alguna técnica que permita mantener la probabilidad de error de tipo I por debajo del 5%, como la corrección de Bonferroni o cualquier otra.

A nosotros nos quedará un último consejo: valorar con precaución las diferencias que se puedan encontrar entre los distintos subgrupos, sobre todo cuando los valores de p son discretos, entre 0,01 y 0,05.

Y aquí dejamos los estudios post hoc y sus trampas. No hemos comentado que hay más ejemplos de comparaciones múltiples además del análisis de subgrupos postaleatorización. Se me ocurre el ejemplo de los estudios de cohortes que estudian diferentes efectos producto de una misma exposición, o el de los análisis intermedios que se hacen durante los ensayos secuenciales para ver si se cumple la regla de finalización preestablecida. Pero esa es otra historia…

Todos los caminos llevan a Roma

Esta expresión tiene su origen en la manía que les entró a los romanos por hacer carreteras entre la capital del Imperio y las provincias más alejadas. Había un momento en que cualquier camino que tomases te llevaba a Roma, de ahí el dicho.

En la actualidad los caminos te pueden llevar a cualquier parte, pero la frase se conserva para usarla cuando queremos decir que hay varias maneras de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay dependencia entre dos variables y si su diferencia es estadísticamente significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.

Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible, para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que, ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes son más listos, los romanos o los cartagineses.

Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses que pillamos despistados en la batalla de Cannas y les pasamos un test de inteligencia para ver qué proporción tiene un cociente de inteligencia mayor de 120, lo que vamos a considerar como ser bastante listo.

roma_cartagoLos resultados podéis verlos en la tabla que os adjunto. Podemos ver que el 25% de los romanos (63 de 251) y el 16% de los cartagineses (40 de 249) pueden ser calificados como listos. A primera vista uno pensaría que los romanos eran más listos pero claro, siempre hay posibilidad de que esta diferencia sea debida al azar por error de muestreo.

Así que planteamos nuestra hipótesis nula de que todos son igual de listos, elegimos un estadístico cuya distribución de probabilidad bajo la hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis nula, así que concluiremos que todos eran igual de listos y que la diferencia observada se debe al azar.

roma_cartago_chiEl primer estadístico que se me ocurre es la chi-cuadrado. Como ya sabemos, ésta valora la diferencia entre valores observados y esperados y calcula un valor que sigue una distribución conocida (chi-cuadrado), por lo que podemos calcular su valor de p. De esta forma, construimos la tabla de valores observados y esperados y obtenemos un valor de chi-cuadrado igual a 6,35. Ahora podemos calcular el valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de 0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en efecto, más listos que los cartagineses, lo que explicaría que ganasen las tres guerras púnicas, aunque la segunda se les atragantase un poco.

Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de llegar a la p sería comparar las dos proporciones y ver si su diferencia es estadísticamente significativa. Una vez más, nuestra hipótesis nula dice que no hay diferencias entre las dos, así que la resta de las dos proporciones, si la hipótesis nula es cierta, debería valer cero.

De esta manera, lo que tenemos que hacer es calcular la diferencia de proporciones y estandarizarla dividiéndola por su error estándar, obteniendo así un valor z que seguirá una distribución de probabilidad normal.

La fórmula es la siguiente

z= \frac{p_{1} - p_{2}}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n^{_{2}}}}}= \frac{0,25 - 0,16}{\sqrt{\frac{0,25(1-0,25)}{251}+\frac{0,16(1-0,16)}{249}}}= \frac{0,09}{0,0358}= 2,51

Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra calculadora de probabilidad para calcular lo que queda fuera de la media ± z (el contraste es bilateral), veremos que el valor de p = 0,01. Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.

Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula (error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.

Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado (6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51). Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado todos los valores de una distribución de frecuencias normal y volvemos a representar los resultados obtendremos una distribución de frecuencias de la chi-cuadrado. Curioso, ¿verdad?.

También podríamos realizar una prueba exacta de Fisher en lugar de una chi-cuadrado y obtendríamos unos resultados similares.

Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros que todavía hay más caminos para demostrar si la diferencia de proporciones es significativa o no. Podríamos haber calculado el intervalo de confianza de la diferencia o el del cociente de proporciones (el riesgo relativo) o, incluso, el de la odds ratio entre las dos proporciones y ver si los intervalos incluían el valor nulo para determinar si eran estadísticamente significativos. Pero esa es otra historia…

La falsa moneda

Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos monedas, una de ellas legal y la otra más falsa que Judas Iscariote, cargada de forma que dé más caras que cruces cuando la lanzamos. Os aconsejo que os pongáis cómodos antes de empezar.

Resulta que tenemos una moneda trucada. Por definición, la probabilidad de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.

Ahora supongamos que hemos sido tan despistados como para guardar la moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70. Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en el número de caras, decidiremos si está trucada o no. Así que, de forma arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si sacamos menos de 65 diremos que es legal.

Pero cualquiera se da cuenta en seguida que este método no es infalible. Por una parte, podemos sacar 67 caras con una moneda legal y concluir que está trucada, cuando no lo está. Pero es que también puede dar la casualidad que saquemos 60 con la trucada y nos creamos que es una moneda legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la verdad es que no podemos, pero lo que sí podemos es medir la probabilidad que tenemos de equivocarnos.

Si utilizamos una calculadora de probabilidad binomial (los más valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65 caras o más con una moneda legal es del 0,17%, mientras que la probabilidad de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden presentar cuatro situaciones que os represento en la tabla adjunta.

En este caso, nuestra hipótesis nula dice que la moneda es legal, mientras que la alternativa dice que la moneda está trucada a favor de las caras.

Empecemos por los casos en que la prueba concluye que la moneda es legal (sacamos menos de 65 caras). La primera posibilidad es que la moneda sea, en efecto, legal. Pues habremos acertado. No tenemos más que decir de este supuesto.

La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la moneda sea más falsa que el beso de una suegra. Pues esta vez hemos cometido un error que alguien con muy poca imaginación bautizó como error de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal cuando en realidad está trucada.

Vamos a suponer ahora que nuestra prueba concluye que la moneda está trucada. Si la moneda es, en realidad, legal, habremos vuelto a equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I. En este caso hemos rechazado la hipótesis nula de que la moneda es legal siendo cierto que es legal.

Por último, si concluimos que es falsa y realmente está trucada, habremos acertado una vez más.

Vemos en la tabla que la probabilidad de cometer un error de tipo I es, en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra prueba, que no es más que la probabilidad de rechazar nuestra hipótesis nula de que la moneda es legal (decir que es falsa) cuando en realidad lo es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda es falsa es del 88%. A esta probabilidad se le llama potencia, que no es más que la probabilidad de acertar cuando la prueba dice que está trucada (acertar cuando rechazamos la hipótesis nula).

Si pensáis un poco veréis que el error de tipo II es el complementario de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que es legal cuando no lo es (error de tipo II) más la probabilidad de acertar y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 – potencia.

Esta significación estadística que hemos visto es el famoso valor de la p. La significación estadística no es más que la probabilidad de cometer un error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05 (5%), ya que, en general, es preferible no aceptar como buenas hipótesis que son falsas. Por eso en los estudios científicos se buscan valores bajos de significación y altos de potencia, aunque los dos están relacionados, por lo que al aumentar la significación disminuye la potencia, y viceversa.

Y aquí terminamos. Al que haya llegado hasta aquí a través de este galimatías sin perderse del todo, mi más sincera enhorabuena, porque la verdad es que esta entrada parece un juego de palabras. Y eso que podríamos haber comentado algo sobre significación y cálculo de intervalos de confianza, tamaños muestrales, etc. Pero esa es otra historia…