Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasPotencia
image_pdf

La falsa moneda

Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos monedas, una de ellas legal y la otra más falsa que Judas Iscariote, cargada de forma que dé más caras que cruces cuando la lanzamos. Os aconsejo que os pongáis cómodos antes de empezar.

Resulta que tenemos una moneda trucada. Por definición, la probabilidad de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.

Ahora supongamos que hemos sido tan despistados como para guardar la moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70. Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en el número de caras, decidiremos si está trucada o no. Así que, de forma arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si sacamos menos de 65 diremos que es legal.

Pero cualquiera se da cuenta en seguida que este método no es infalible. Por una parte, podemos sacar 67 caras con una moneda legal y concluir que está trucada, cuando no lo está. Pero es que también puede dar la casualidad que saquemos 60 con la trucada y nos creamos que es una moneda legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la verdad es que no podemos, pero lo que sí podemos es medir la probabilidad que tenemos de equivocarnos.

Si utilizamos una calculadora de probabilidad binomial (los más valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65 caras o más con una moneda legal es del 0,17%, mientras que la probabilidad de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden presentar cuatro situaciones que os represento en la tabla adjunta.

En este caso, nuestra hipótesis nula dice que la moneda es legal, mientras que la alternativa dice que la moneda está trucada a favor de las caras.

Empecemos por los casos en que la prueba concluye que la moneda es legal (sacamos menos de 65 caras). La primera posibilidad es que la moneda sea, en efecto, legal. Pues habremos acertado. No tenemos más que decir de este supuesto.

La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la moneda sea más falsa que el beso de una suegra. Pues esta vez hemos cometido un error que alguien con muy poca imaginación bautizó como error de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal cuando en realidad está trucada.

Vamos a suponer ahora que nuestra prueba concluye que la moneda está trucada. Si la moneda es, en realidad, legal, habremos vuelto a equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I. En este caso hemos rechazado la hipótesis nula de que la moneda es legal siendo cierto que es legal.

Por último, si concluimos que es falsa y realmente está trucada, habremos acertado una vez más.

Vemos en la tabla que la probabilidad de cometer un error de tipo I es, en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra prueba, que no es más que la probabilidad de rechazar nuestra hipótesis nula de que la moneda es legal (decir que es falsa) cuando en realidad lo es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda es falsa es del 88%. A esta probabilidad se le llama potencia, que no es más que la probabilidad de acertar cuando la prueba dice que está trucada (acertar cuando rechazamos la hipótesis nula).

Si pensáis un poco veréis que el error de tipo II es el complementario de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que es legal cuando no lo es (error de tipo II) más la probabilidad de acertar y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 – potencia.

Esta significación estadística que hemos visto es el famoso valor de la p. La significación estadística no es más que la probabilidad de cometer un error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05 (5%), ya que, en general, es preferible no aceptar como buenas hipótesis que son falsas. Por eso en los estudios científicos se buscan valores bajos de significación y altos de potencia, aunque los dos están relacionados, por lo que al aumentar la significación disminuye la potencia, y viceversa.

Y aquí terminamos. Al que haya llegado hasta aquí a través de este galimatías sin perderse del todo, mi más sincera enhorabuena, porque la verdad es que esta entrada parece un juego de palabras. Y eso que podríamos haber comentado algo sobre significación y cálculo de intervalos de confianza, tamaños muestrales, etc. Pero esa es otra historia…

Las colas de la p

Que me perdonen mis amigos que están al otro lado del Atlántico, pero no me refiero al tipo de colas que muchas mentes perversas están pensando. Lejos de eso, hoy vamos a hablar de unas colas mucho más aburridas pero que son muy importantes siempre que queramos realizar un contraste de hipótesis. Y, como suele ser habitual, lo vamos a ilustrar con un ejemplo para ver si lo entendemos mejor.

Supongamos que tomamos una moneda y, armados de una paciencia infinita, la tiramos al aire 1000 veces, obteniendo cara 560 veces. Todos sabemos que la probabilidad de sacar cara es de 0,5, así que si tiramos la moneda 1000 veces el número medio esperado de caras será de 500. Pero nosotros hemos sacado 560, así que podemos plantearnos dos posibilidades que se nos ocurren de forma inmediata.

Primera, la moneda es legal y hemos sacado 60 caras de más por puro azar. Esta será nuestra hipótesis nula, que dice que la probabilidad de sacar cara [P(cara)] es igual a 0,5. Segunda, nuestra moneda no es legal y está cargada para sacar más caras. Será nuestra hipótesis alternativa (Ha), que dice que P(cara) > 0,5.

Pues bien, vamos a hacer el contraste de hipótesis sirviéndonos de una calculadora de probabilidad binomial de las que hay disponibles en Internet. Si asumimos la hipótesis nula de que la moneda es legal, la probabilidad de que obtengamos 560 caras o más es de 0,008%. Dado que es menor de 5%, rechazamos nuestra hipótesis nula: la moneda está trucada.

Ahora, si os fijáis, la Ha tiene una direccionalidad hacia P(cara) > 0,5, pero podríamos haber planteado la hipótesis como que la moneda no fuese legal, sin presuponer ni que está cargada a favor de las caras ni de las cruces: P(cara) distinto de 0,5. En este caso calcularíamos la probabilidad de que el número de caras estuviese 60 por encima o por debajo de los 500, en las dos direcciones. La probabilidad que obtendríamos es de 0,016, rechazando nuestra hipótesis nula y concluyendo que la moneda no es legal. El problema es que la prueba no nos dice si está cargada en uno u otro sentido, pero por los resultados suponemos que es en sentido hacia las caras. En el primer caso hemos hecho una prueba con una cola, mientras que en el segundo lo hemos hecho con dos colas.

WebEn el gráfico podéis ver el área de probabilidades de cada una de las dos pruebas. En una cola el área pequeña de la derecha es la probabilidad de que la diferencia respecto al valor esperado se deba al azar. Con dos colas, esta área es doble y situada a ambos lados de la distribución. Veis que la p con dos colas vale el doble que con una cola. En nuestro ejemplo el valor de p es tan bajo que en cualquier caso nos permite rechazar la hipótesis nula. Pero esto no siempre es así, y puede haber ocasiones en que el investigador elija hacer la prueba con una cola porque con dos no consiga la significación estadística que le da la prueba con una de las colas.

Y digo una de las colas porque en el ejemplo de una cola hemos calculado la de la derecha, pero también podemos calcular el valor de la probabilidad de la cola de la izquierda. Pensemos en el improbable caso de que la moneda esté cargada en el sentido de sacar más cruces pero que, por azar, nosotros hemos sacado más caras. Nuestra Ha diría que P(cara) < 0,5. En este caso calcularíamos la probabilidad de que, asumiendo que es legal, la moneda nos de 560 caras o menos. El valor de p es de 99,9%, luego no podemos rechazar nuestra hipótesis nula de que la moneda es legal.

¿Pero qué pasa aquí?, preguntaréis. El primer contraste de hipótesis que planteamos decía que podíamos rechazar la hipótesis nula y este dice lo contrario. Si es la misma moneda y los mismos datos, ¿no deberíamos llegar a la misma conclusión?. Pues resulta que no. Recordad que no poder rechazar la hipótesis nula no es lo mismo que concluir que es cierta, cosa que nunca podremos asegurar. En este último ejemplo, la hipótesis nula de legalidad de la moneda es mejor opción que la alternativa de que está cargada para dar más cruces. Sin embargo, eso no quiere decir que podamos concluir que la moneda es legal.

Veis pues, cómo hay que tener muy claro el significado de las hipótesis nula y alternativa cuando plateemos un contraste de hipótesis. Y recordad siempre que aunque no podamos rechazar la hipótesis nula eso no quiere obligadamente decir que sea cierta. Simplemente no tenemos potencia suficiente para rechazarla. Lo cual me lleva a pensar en los errores de tipo I y tipo II y su relación con la potencia del estudio y el tamaño de la muestra. Pero esa es otra historia…

Libertad en grados

La libertad es uno de esos conceptos que todo el mundo entiende con facilidad pero que es tremendamente difícil definir. Si no me creéis, intentad enunciar una definición de libertad y veréis que no es tan fácil. En seguida entraremos en conflicto con la libertad de los demás cuando tratemos de definir la nuestra, o nos preguntaremos a qué tipo de libertad nos estamos refiriendo en nuestra definición.

Sin embargo, a los grados de libertad les ocurre justamente lo contrario. Son bastante más fáciles de definir, pero muchos tienen problemas para entender el significado exacto de este concepto, aparentemente tan abstracto.

El número de grados de libertad se refiere al número de observaciones de una muestra que pueden tomar cualquier valor posible (que son “libres” de tomar cualquier valor) una vez que se ha calculado previamente y de forma independiente la estimación de un determinado parámetro en la muestra o en la población de origen. ¿Comprendéis ahora por qué os digo que es fácil de definir pero no tanto de entender?. Vamos a ver un ejemplo para intentar aclararnos un poco.

En un alarde de imaginación delirante, vamos a suponer que somos maestros de escuela. El director del colegio nos dice que hay un concurso entre los colegios de la zona y que tenemos que seleccionar cinco alumnos para representar a nuestra clase. La única condición es que la calificación media final de los cinco alumnos tiene que ser de siete. Supongamos también que da la casualidad de que nuestro hijo mayor, que tiene uno ocho, está en la clase. Actuando con imparcialidad le elegimos para representar a sus compañeros. Nos quedan cuatro así que, por qué no seguir con nuestro sentido de la justicia y escoger a sus cuatro amigos. Su amigo Felipe tiene 9, Juan 6, Luis 5 (aprueba por los pelos) y Evaristo un 10 (el muy empollón). ¿Cuál es el problema? Pues que la media de los cinco es 7,6 y nos piden que sea de 7. ¿Qué podemos hacer?.

Supongamos que quitamos a Luis, que para eso es el que tiene peores notas. Tendremos que escoger a un alumno con una nota de 2 para que la media sea de 7. Pero no podemos llevar a un alumno que haya suspendido. Pues quitamos al empollón de Evaristo, pero entonces necesitaremos buscar un alumno con un 7. Si lo pensáis, podemos hacer todas las combinaciones con los cinco amigos, pero siempre eligiendo solo a cuatro, ya que el quinto sería obligado por el valor de la media de los cinco que hemos predeterminado. Pues esto quiere decir, ni más ni menos, que tenemos cuatro grados de libertad.

Cuando realizamos una inferencia estadística sobre una población, si queremos que los resultados sean fiables debemos hacer cada estimación de forma independiente. Por ejemplo, si calculamos la media y la desviación típica deberíamos hacerlo de forma independiente, pero lo habitual es que esto no sea así, ya que para calcular la desviación necesitamos previamente una estimación de la media. Así, no todas las estimaciones pueden considerarse libres e independientes de la media. Al menos una de ellas estará condicionada por el valor previo de la media.

Así que ya vemos que el número de grados de libertad nos está indicando el número de observaciones independientes que están implicadas en la estimación de un parámetro de la población.

Esto tiene su importancia porque los estimadores siguen distribuciones de frecuencias específicas cuya forma depende del número de grados de libertad asociados con su estimación. Cuanto mayor sea el número de grados de libertad, más estrecha será la distribución de frecuencias y mayor será la potencia del estudio para realizar la estimación. De esta manera, potencia y grados de libertad se relacionan positivamente con el tamaño de la muestra, de tal forma que cuanto mayor sea el tamaño de la muestra mayor será el número de grados de libertad y, por tanto, mayor será la potencia.

Calcular el número de grados de libertad de una prueba suele ser sencillo, pero es diferente según la prueba en cuestión. El caso más sencillo sería el del cálculo de la media de una muestra, que ya vimos que es igual a n-1, siendo n el tamaño muestral. De forma parecida, cuando hay dos muestras y dos medias, el número de grados de libertad es de n1+n2-2. En general, cuando se calculan varios parámetros, los grados de libertad se calculan como n-p-1, siendo p el número de parámetros a estimar. Esto es útil cuando hacemos un análisis de la varianza para comparar dos o más medias.

Y así podríamos dar ejemplos para el cálculo de cada prueba o estadístico en particular que queramos llevar a cabo. Pero esa es otra historia…

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n∝((1-β)×σ^2)/(SE×α)

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…