Por tus acciones te juzgarán

Tamaño muestral en estudios de supervivencia

Hoy me vais a perdonar, pero vengo un poco bíblico. Y es que estaba pensando en el cálculo del tamaño de la muestra para los estudios de supervivencia y me ha recordado el mensaje que nos transmite Ezequiel: según tus caminos y tus obras te juzgarán.

Una vez más, pensaréis que de tanto darle vueltas a la medicina basada en la evidencia se me ha ido un poco la cabeza, pero si aguantáis un poco y seguís leyendo, veréis que la analogía tiene su punto.

Una pequeña introducción

Uno de los indicadores de calidad metodológica más valorados de un estudio es el cálculo previo del tamaño muestral necesario para demostrar (o rechazar) la hipótesis de trabajo. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori), teniendo en cuenta para ello el nivel de significación y la potencia que queramos que tenga el estudio.

En resumen, si detectamos el tamaño de efecto que previamente establecimos, la diferencia entre los dos grupos será estadísticamente significativa (nuestra ansiada p<0,05). Por el contrario, si no hay diferencia significativa, probablemente no exista diferencia real, aunque siempre con el riesgo de cometer un error de tipo 2 que es igual a 1 menos la potencia del estudio.

Hasta aquí parece que está claro, tenemos que calcular el número de participantes que necesitamos. Pero esto no es tan sencillo para los estudios de supervivencia.

El planteamiento del problema

Los estudios de supervivencia agrupan una serie de técnicas estadísticas para aquellas situaciones en las que no basta observar un suceso, sino que es fundamental el tiempo que transcurre hasta que el suceso se produce. En estos casos, la variable de resultado no será ni cuantitativa ni cualitativa, sino de tiempo a suceso. Es una especie de variable mixta que tiene una parte dicotómica (el suceso se produce o no) y una cuantitativa (cuánto tarda en producirse).

El nombre de estudios de supervivencia es un poco engañoso y uno puede pensar que el suceso en estudio será la muerte de los participantes, pero nada más lejos de la realidad. El suceso puede ser cualquier tipo de evento, bueno o malo para el participante. Lo que ocurre es que los primeros estudios se aplicaron a situaciones en los que el suceso de interés era la muerte y el nombre ha prevalecido.

En estos estudios, el periodo de seguimiento de los participantes suele ser desigual e, incluso, algunos pueden terminar el estudio sin presentar el suceso de interés o perderse del estudio antes de que finalice.

Por estos motivos, si queremos saber si hay diferencias entre la presentación del suceso de interés en las dos ramas del estudio, para calcular la muestra no será tan importante el número de sujetos que participen, sino el número de sucesos que necesitamos para que la diferencia sea significativa si se alcanza la diferencia clínicamente importante, que deberemos establecer a priori.

Vamos a ver cómo se hace, dependiendo del tipo de contraste que tengamos pensado utilizar.

Tamaño muestral en estudios de supervivencia

Si solo queremos determinar el número de sucesos necesarios que tenemos que observar para detectar una diferencia entre un grupo determinado y la población de la que procede, la fórmula para hacerlo es la siguiente:

Donde E es el número de sucesos que necesitamos observar, K es el valor determinado por el nivel de confianza y la potencia del estudio y lnTR es el logaritmo natural de la tasa de riesgo.

Cálculo del valor de K según el nivel de confianza, el tipo de contraste y la potencia del estudio. K = (Zα + Zβ)2El valor de K se calcula como (Zα + Zβ)2, siendo z el valor estandarizado para el nivel de confianza y de potencia elegido. Lo más habitual es realizar un contraste bilateral (con dos colas) con un nivel de confianza de 0,05 y una potencia de 80%. En este caso, los valores son Zα = 1,96, Zβ = 0,84 y K = 7,9. En la tabla adjunta os dejo los valores más frecuentes de K, para que no tengáis que calcularlos.

La tasa de riesgo es el cociente entre el riesgo del grupo en estudio y el riesgo en la población, que se supone que conocemos. Se define como Sm1/Sm2, donde Sm1 es el tiempo medio de aparición del evento en la población y Sm2 el que esperamos en el grupo de estudio.

Vamos a poner un ejemplo para entender mejor lo dicho hasta ahora.

Supongamos que los pacientes que toman un determinado fármaco (que llamaremos A para no esforzarnos mucho) tienen riesgo de desarrollar úlcera de estómago durante el primer año de tratamiento. Ahora seleccionamos un grupo y les damos un tratamiento (B, esta vez) que actúa como profilaxis, de tal forma que esperamos que el evento tarde un año más en producirse. ¿Cuántas úlceras tenemos que observar para un estudio con un nivel de confianza de 0,05 y una potencia de 0,8 (80%)?

K sabemos que vale 7,9. Sm1 = 1 y Sm2 = 2. Sustituimos sus valores en la fórmula que ya conocemos:

Necesitaremos observar 33 úlceras durante el seguimiento. Ahora ya podemos calcular cuántos pacientes tenemos que incluir en el estudio (veo complicado reclutar úlceras).

Vamos a suponer que podemos reclutar 12 pacientes anuales. Si tenemos que observar 33 úlceras, el seguimiento se deberá prolongar durante 33/12 = 2,75, o sea, 3 años. Para más seguridad, planificaríamos un seguimiento un poco superior.

Comparación de curvas de supervivencia

Este es el caso más sencillo. Cuando lo que queremos es comparar las dos curvas de supervivencia (pensamos hacer una prueba de log-rank), el cálculo del tamaño muestral es un pelín más complejo, pero no mucho. Al fin y al cabo, ya estaremos comparando las curvas de probabilidad de supervivencia de los dos grupos.

En estos casos, la fórmula para el cálculo del número de sucesos necesarios es la siguiente:

Nos encontramos un parámetro nuevo, C, que es la relación de participantes entre un grupo y el otro (1:1, 1:2, etc.).

Pero hay otra diferencia con el supuesto anterior. En estos casos la TR se calcula como el cociente de los logaritmos naturales de π1 y π2, que son las proporciones de participantes de cada grupo que presentan el evento en un periodo de tiempo determinado.

Siguiendo el ejemplo anterior, supongamos que conocemos que el riesgo de úlcera en los que toman A es del 50% en los 6 primeros meses y el de los que toman B del 20%. ¿Cuántas úlceras necesitamos observar con el mismo nivel de confianza y la misma potencia del estudio?

Sustituyamos los valores en la fórmula anterior:

Necesitaremos observar 50 úlceras durante el estudio. Ahora necesitamos saber cuántos participantes (no sucesos) necesitamos en cada rama del estudio. Lo podemos obtener con la siguiente fórmula:

Si sustituimos nuestros valores en la ecuación, obtenemos un valor de 29,4, así que necesitaremos 30 pacientes en cada rama del estudio, 60 en total.

Para ir terminando ya, vamos a ver que pasaría si queremos una proporción de participantes diferente de la más fácil, 1:1. En ese caso, el cálculo de n con la última fórmula debe ajustarse teniendo en cuenta esta proporción, que es nuestra conocida C:

Supongamos que queremos una relación 2:1. Sustituimos los valores en la ecuación:

Necesitaríamos 23 participantes en una rama y 46, el doble, en la otra, 69 en total.

Nos vamos…

Y aquí lo dejamos por hoy.

Como siempre, todo lo que hemos dicho en esta entrada es para que podamos comprender los fundamentos del cálculo del tamaño muestral. De todos modos, os aconsejo que, si tenéis que hacerlo alguna vez, utilicéis un programa estadístico o una calculadora de tamaño muestral. Hay muchas disponibles y algunas hasta son totalmente gratis.

Espero que ahora comprendáis lo de Ezequiel: son más importantes las cosas que hacemos (o padecemos) que cuántos las hacemos (o padecemos). Hemos visto la forma más sencilla para calcular el tamaño de la muestra de un estudio de supervivencia. Todavía podríamos complicarnos la vida y calcular el tamaño muestral basándonos en estimaciones de los riesgos relativos o de las tasas de riesgos instantáneos, nuestras queridas hazard ratios. Pero esa es otra historia…

¿Rioja o Ribera?

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Libertad en grados

La libertad es uno de esos conceptos que todo el mundo entiende con facilidad pero que es tremendamente difícil definir. Si no me creéis, intentad enunciar una definición de libertad y veréis que no es tan fácil. En seguida entraremos en conflicto con la libertad de los demás cuando tratemos de definir la nuestra, o nos preguntaremos a qué tipo de libertad nos estamos refiriendo en nuestra definición.

Sin embargo, a los grados de libertad les ocurre justamente lo contrario. Son bastante más fáciles de definir, pero muchos tienen problemas para entender el significado exacto de este concepto, aparentemente tan abstracto.

El número de grados de libertad se refiere al número de observaciones de una muestra que pueden tomar cualquier valor posible (que son “libres” de tomar cualquier valor) una vez que se ha calculado previamente y de forma independiente la estimación de un determinado parámetro en la muestra o en la población de origen. ¿Comprendéis ahora por qué os digo que es fácil de definir pero no tanto de entender?. Vamos a ver un ejemplo para intentar aclararnos un poco.

En un alarde de imaginación delirante, vamos a suponer que somos maestros de escuela. El director del colegio nos dice que hay un concurso entre los colegios de la zona y que tenemos que seleccionar cinco alumnos para representar a nuestra clase. La única condición es que la calificación media final de los cinco alumnos tiene que ser de siete. Supongamos también que da la casualidad de que nuestro hijo mayor, que tiene uno ocho, está en la clase. Actuando con imparcialidad le elegimos para representar a sus compañeros. Nos quedan cuatro así que, por qué no seguir con nuestro sentido de la justicia y escoger a sus cuatro amigos. Su amigo Felipe tiene 9, Juan 6, Luis 5 (aprueba por los pelos) y Evaristo un 10 (el muy empollón). ¿Cuál es el problema? Pues que la media de los cinco es 7,6 y nos piden que sea de 7. ¿Qué podemos hacer?.

Supongamos que quitamos a Luis, que para eso es el que tiene peores notas. Tendremos que escoger a un alumno con una nota de 2 para que la media sea de 7. Pero no podemos llevar a un alumno que haya suspendido. Pues quitamos al empollón de Evaristo, pero entonces necesitaremos buscar un alumno con un 7. Si lo pensáis, podemos hacer todas las combinaciones con los cinco amigos, pero siempre eligiendo solo a cuatro, ya que el quinto sería obligado por el valor de la media de los cinco que hemos predeterminado. Pues esto quiere decir, ni más ni menos, que tenemos cuatro grados de libertad.

Cuando realizamos una inferencia estadística sobre una población, si queremos que los resultados sean fiables debemos hacer cada estimación de forma independiente. Por ejemplo, si calculamos la media y la desviación típica deberíamos hacerlo de forma independiente, pero lo habitual es que esto no sea así, ya que para calcular la desviación necesitamos previamente una estimación de la media. Así, no todas las estimaciones pueden considerarse libres e independientes de la media. Al menos una de ellas estará condicionada por el valor previo de la media.

Así que ya vemos que el número de grados de libertad nos está indicando el número de observaciones independientes que están implicadas en la estimación de un parámetro de la población.

Esto tiene su importancia porque los estimadores siguen distribuciones de frecuencias específicas cuya forma depende del número de grados de libertad asociados con su estimación. Cuanto mayor sea el número de grados de libertad, más estrecha será la distribución de frecuencias y mayor será la potencia del estudio para realizar la estimación. De esta manera, potencia y grados de libertad se relacionan positivamente con el tamaño de la muestra, de tal forma que cuanto mayor sea el tamaño de la muestra mayor será el número de grados de libertad y, por tanto, mayor será la potencia.

Calcular el número de grados de libertad de una prueba suele ser sencillo, pero es diferente según la prueba en cuestión. El caso más sencillo sería el del cálculo de la media de una muestra, que ya vimos que es igual a n-1, siendo n el tamaño muestral. De forma parecida, cuando hay dos muestras y dos medias, el número de grados de libertad es de n1+n2-2. En general, cuando se calculan varios parámetros, los grados de libertad se calculan como n-p-1, siendo p el número de parámetros a estimar. Esto es útil cuando hacemos un análisis de la varianza para comparar dos o más medias.

Y así podríamos dar ejemplos para el cálculo de cada prueba o estadístico en particular que queramos llevar a cabo. Pero esa es otra historia…

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n∝((1-β)×σ^2)/(SE×α)

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…