Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasBeta @es
image_pdf

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n \propto \frac{{(1-\beta )\sigma _{}}^{2}}{SE\alpha }

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…