Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasTamaño muestral
image_pdf

Libertad en grados

La libertad es uno de esos conceptos que todo el mundo entiende con facilidad pero que es tremendamente difícil definir. Si no me creéis, intentad enunciar una definición de libertad y veréis que no es tan fácil. En seguida entraremos en conflicto con la libertad de los demás cuando tratemos de definir la nuestra, o nos preguntaremos a qué tipo de libertad nos estamos refiriendo en nuestra definición.

Sin embargo, a los grados de libertad les ocurre justamente lo contrario. Son bastante más fáciles de definir, pero muchos tienen problemas para entender el significado exacto de este concepto, aparentemente tan abstracto.

El número de grados de libertad se refiere al número de observaciones de una muestra que pueden tomar cualquier valor posible (que son “libres” de tomar cualquier valor) una vez que se ha calculado previamente y de forma independiente la estimación de un determinado parámetro en la muestra o en la población de origen. ¿Comprendéis ahora por qué os digo que es fácil de definir pero no tanto de entender?. Vamos a ver un ejemplo para intentar aclararnos un poco.

En un alarde de imaginación delirante, vamos a suponer que somos maestros de escuela. El director del colegio nos dice que hay un concurso entre los colegios de la zona y que tenemos que seleccionar cinco alumnos para representar a nuestra clase. La única condición es que la calificación media final de los cinco alumnos tiene que ser de siete. Supongamos también que da la casualidad de que nuestro hijo mayor, que tiene uno ocho, está en la clase. Actuando con imparcialidad le elegimos para representar a sus compañeros. Nos quedan cuatro así que, por qué no seguir con nuestro sentido de la justicia y escoger a sus cuatro amigos. Su amigo Felipe tiene 9, Juan 6, Luis 5 (aprueba por los pelos) y Evaristo un 10 (el muy empollón). ¿Cuál es el problema? Pues que la media de los cinco es 7,6 y nos piden que sea de 7. ¿Qué podemos hacer?.

Supongamos que quitamos a Luis, que para eso es el que tiene peores notas. Tendremos que escoger a un alumno con una nota de 2 para que la media sea de 7. Pero no podemos llevar a un alumno que haya suspendido. Pues quitamos al empollón de Evaristo, pero entonces necesitaremos buscar un alumno con un 7. Si lo pensáis, podemos hacer todas las combinaciones con los cinco amigos, pero siempre eligiendo solo a cuatro, ya que el quinto sería obligado por el valor de la media de los cinco que hemos predeterminado. Pues esto quiere decir, ni más ni menos, que tenemos cuatro grados de libertad.

Cuando realizamos una inferencia estadística sobre una población, si queremos que los resultados sean fiables debemos hacer cada estimación de forma independiente. Por ejemplo, si calculamos la media y la desviación típica deberíamos hacerlo de forma independiente, pero lo habitual es que esto no sea así, ya que para calcular la desviación necesitamos previamente una estimación de la media. Así, no todas las estimaciones pueden considerarse libres e independientes de la media. Al menos una de ellas estará condicionada por el valor previo de la media.

Así que ya vemos que el número de grados de libertad nos está indicando el número de observaciones independientes que están implicadas en la estimación de un parámetro de la población.

Esto tiene su importancia porque los estimadores siguen distribuciones de frecuencias específicas cuya forma depende del número de grados de libertad asociados con su estimación. Cuanto mayor sea el número de grados de libertad, más estrecha será la distribución de frecuencias y mayor será la potencia del estudio para realizar la estimación. De esta manera, potencia y grados de libertad se relacionan positivamente con el tamaño de la muestra, de tal forma que cuanto mayor sea el tamaño de la muestra mayor será el número de grados de libertad y, por tanto, mayor será la potencia.

Calcular el número de grados de libertad de una prueba suele ser sencillo, pero es diferente según la prueba en cuestión. El caso más sencillo sería el del cálculo de la media de una muestra, que ya vimos que es igual a n-1, siendo n el tamaño muestral. De forma parecida, cuando hay dos muestras y dos medias, el número de grados de libertad es de n1+n2-2. En general, cuando se calculan varios parámetros, los grados de libertad se calculan como n-p-1, siendo p el número de parámetros a estimar. Esto es útil cuando hacemos un análisis de la varianza para comparar dos o más medias.

Y así podríamos dar ejemplos para el cálculo de cada prueba o estadístico en particular que queramos llevar a cabo. Pero esa es otra historia…

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n∝((1-β)×σ^2)/(SE×α)

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…