Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasHipótesis nula
image_pdf

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n \propto \frac{{(1-\beta )\sigma _{}}^{2}}{SE\alpha }

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…

Todo gira alrededor de la hipótesis nula

La hipótesis nula, familiarmente conocida como H0, tiene un nombre engañoso. A pesar de lo que uno pudiera pensar, ese nombre no le impide ser el centro de todo contraste de hipótesis.

¿Y qué es un contraste de hipótesis? Veámoslo con un ejemplo.

Supongamos que queremos saber si los residentes (como ellos creen) son más listos que sus adjuntos. Tomamos una muestra al azar de 30 adjuntos y 30 residentes del hospital y les medimos el CI, obteniendo los adjuntos una media de 110 y los residentes de 98 (lo siento, pero yo soy adjunto y para eso pongo el ejemplo). Ante este resultado nos preguntamos: ¿cuál es la probabilidad de que los adjuntos seleccionados sean más listos que los residentes del estudio?. La respuesta es simple: el 100% (si les hemos pasado a todos el test correcto y no una encuesta de satisfacción laboral, claro). El problema es que lo que a nosotros nos interesa saber es si los adjuntos (en general) son más listos que los resis (en general). Solo hemos medido el CI de 60 personas y, claro, queremos saber qué pasa en la población general.

Llegados a este punto nos planteamos dos hipótesis:
1. Que los dos colectivos son igual de inteligentes (este ejemplo es pura ficción) y que las diferencias que hemos encontrado se deben a la casualidad (al azar). Esta, señores y señoras, es la hipótesis nula o H0. La enunciaríamos así

H0: CIA = CIR

2. Que en realidad los dos colectivos no son igual de listos. Esta sería la hipótesis alternativa

H1: CIA  ≠  CIR

Esta hipótesis la podríamos plantear como que un CI es mayor o menor que el otro, pero de momento vamos a dejarlo así.

En principio, siempre asumimos que la H0 es la verdadera (para que luego la llamen nula), así que cuando cojamos nuestro programa de estadística y comparemos las dos medias (ya veremos cómo algún día), el test que utilicemos nos dará un estadístico (un numerito que dependerá del test) con la probabilidad de que la diferencia que observamos se deba a la casualidad (la famosa p). Si la p que obtenemos en menor de 0,05 (este es el valor que se suele elegir por convenio) podremos decir que la probabilidad de que H0 sea cierta es menor del 5%, por lo que podremos rechazar la hipótesis nula. Supongamos que hacemos la prueba y obtenemos una p = 0,02. La conclusión que sacamos es que es mentira que seamos igual de listos y que la diferencia observada en el estudio se deba al azar (cosa que en este caso resultaba evidente desde el comienzo, pero que en otros puede no estar tan claro).

Y si la p es mayor de 0,05 ¿quiere decir que la hipótesis nula es cierta? Pues a lo mejor sí, a lo mejor no. Lo único que podremos decir es que el estudio no tiene la potencia necesaria para rechazar la hipótesis nula, pero si la aceptamos sin más nos podríamos columpiar (en realidad podríamos cometer un error de tipo II, pero esa es otra historia…).