¿Rioja o Ribera?

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Libertad en grados

La libertad es uno de esos conceptos que todo el mundo entiende con facilidad pero que es tremendamente difícil definir. Si no me creéis, intentad enunciar una definición de libertad y veréis que no es tan fácil. En seguida entraremos en conflicto con la libertad de los demás cuando tratemos de definir la nuestra, o nos preguntaremos a qué tipo de libertad nos estamos refiriendo en nuestra definición.

Sin embargo, a los grados de libertad les ocurre justamente lo contrario. Son bastante más fáciles de definir, pero muchos tienen problemas para entender el significado exacto de este concepto, aparentemente tan abstracto.

El número de grados de libertad se refiere al número de observaciones de una muestra que pueden tomar cualquier valor posible (que son “libres” de tomar cualquier valor) una vez que se ha calculado previamente y de forma independiente la estimación de un determinado parámetro en la muestra o en la población de origen. ¿Comprendéis ahora por qué os digo que es fácil de definir pero no tanto de entender?. Vamos a ver un ejemplo para intentar aclararnos un poco.

En un alarde de imaginación delirante, vamos a suponer que somos maestros de escuela. El director del colegio nos dice que hay un concurso entre los colegios de la zona y que tenemos que seleccionar cinco alumnos para representar a nuestra clase. La única condición es que la calificación media final de los cinco alumnos tiene que ser de siete. Supongamos también que da la casualidad de que nuestro hijo mayor, que tiene uno ocho, está en la clase. Actuando con imparcialidad le elegimos para representar a sus compañeros. Nos quedan cuatro así que, por qué no seguir con nuestro sentido de la justicia y escoger a sus cuatro amigos. Su amigo Felipe tiene 9, Juan 6, Luis 5 (aprueba por los pelos) y Evaristo un 10 (el muy empollón). ¿Cuál es el problema? Pues que la media de los cinco es 7,6 y nos piden que sea de 7. ¿Qué podemos hacer?.

Supongamos que quitamos a Luis, que para eso es el que tiene peores notas. Tendremos que escoger a un alumno con una nota de 2 para que la media sea de 7. Pero no podemos llevar a un alumno que haya suspendido. Pues quitamos al empollón de Evaristo, pero entonces necesitaremos buscar un alumno con un 7. Si lo pensáis, podemos hacer todas las combinaciones con los cinco amigos, pero siempre eligiendo solo a cuatro, ya que el quinto sería obligado por el valor de la media de los cinco que hemos predeterminado. Pues esto quiere decir, ni más ni menos, que tenemos cuatro grados de libertad.

Cuando realizamos una inferencia estadística sobre una población, si queremos que los resultados sean fiables debemos hacer cada estimación de forma independiente. Por ejemplo, si calculamos la media y la desviación típica deberíamos hacerlo de forma independiente, pero lo habitual es que esto no sea así, ya que para calcular la desviación necesitamos previamente una estimación de la media. Así, no todas las estimaciones pueden considerarse libres e independientes de la media. Al menos una de ellas estará condicionada por el valor previo de la media.

Así que ya vemos que el número de grados de libertad nos está indicando el número de observaciones independientes que están implicadas en la estimación de un parámetro de la población.

Esto tiene su importancia porque los estimadores siguen distribuciones de frecuencias específicas cuya forma depende del número de grados de libertad asociados con su estimación. Cuanto mayor sea el número de grados de libertad, más estrecha será la distribución de frecuencias y mayor será la potencia del estudio para realizar la estimación. De esta manera, potencia y grados de libertad se relacionan positivamente con el tamaño de la muestra, de tal forma que cuanto mayor sea el tamaño de la muestra mayor será el número de grados de libertad y, por tanto, mayor será la potencia.

Calcular el número de grados de libertad de una prueba suele ser sencillo, pero es diferente según la prueba en cuestión. El caso más sencillo sería el del cálculo de la media de una muestra, que ya vimos que es igual a n-1, siendo n el tamaño muestral. De forma parecida, cuando hay dos muestras y dos medias, el número de grados de libertad es de n1+n2-2. En general, cuando se calculan varios parámetros, los grados de libertad se calculan como n-p-1, siendo p el número de parámetros a estimar. Esto es útil cuando hacemos un análisis de la varianza para comparar dos o más medias.

Y así podríamos dar ejemplos para el cálculo de cada prueba o estadístico en particular que queramos llevar a cabo. Pero esa es otra historia…

Potencia y tamaño

Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores implicados, como vamos a ver dentro de unos momentos.

Supongamos que estamos midiendo la media de una variable en dos poblaciones para ver si existen diferencias entre las dos. Ya sabemos que, simplemente por azar de muestreo, los resultados de las dos muestras van a ser diferentes pero, ¿justifica la diferencia el poder decir que realmente son distintas?.

Para esto realizamos el contraste de hipótesis con el estadístico apropiado. En nuestro caso, supongamos que utilizamos una t de Student. Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la mayoría de los estadísticos, sigue una distribución de frecuencias o probabilidades específica. Estas distribuciones suelen ser acampanadas, más o menos simétricas y centradas alrededor de un valor. De esta forma, los valores más cercanos al central tienen una mayor probabilidad de ocurrir, mientras que los más extremos son menos probables. Por convenio, suele decirse que cuando esta probabilidad es menor del 5% consideramos el suceso o parámetro medido poco probable.

Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir que, por azar, hayamos obtenido una muestra que no está centrada sobre el mismo valor que la población de referencia, por lo que el valor ocurre a pesar de su poca probabilidad en esa población.

Y esto es importante porque puede llevarnos a errores en nuestras conclusiones. Recordáis que cuando obtenemos los dos valores a comparar establecemos la hipótesis nula (H0) de que los dos valores son iguales y de que la diferencia es debida al azar por el error de muestreo. Entonces, si conocemos su distribución de frecuencias, podemos calcular la probabilidad de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir que es poco probable que sea casual y que rechazamos H0: la diferencia no se debe al azar y hay un efecto o diferencia real.

Pero claro, poco probable no es imposible. Si hemos tenido la mala suerte de elegir una muestra sesgada respecto a la población, podremos rechazar la hipótesis nula sin que exista tal efecto y cometer un error de tipo 1.

Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay un pequeño matiz de concepto que tiene su importancia. La hipótesis nula solo es falsable. Esto quiere decir que podemos rechazarla, pero no afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos el error de no detectar una tendencia o efecto que, en realidad, sí existe. Este es el error de tipo 2.

Como en general interesa aceptar teorías con la mayor seguridad posible, lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del 5%. Este es el valor conocido como alfa. Pero ambos errores están relacionados, por lo que una alfa muy baja nos condiciona a aceptar una probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.

El valor recíproco a beta es lo que se conoce como potencia del estudio (1-beta).  Esta potencia es la probabilidad de detectar un efecto siempre que éste exista o, lo que es lo mismo, la probabilidad de no cometer un error de tipo 2.

Para entender los factores que afectan la potencia del estudio, me vais a permitir que os castigue con una pequeña ecuación:

1-\beta \propto \frac{SE\sqrt{n}\alpha }{\sigma }

SE representa el error estándar. Al estar en el numerador implica que cuanto menor sea (más sutil sea la diferencia) menor será la potencia del estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel de significación con el que nos conformemos (con mayor riesgo de error de tipo 1), mayor será la potencia del estudio. Por último, s es la desviación estándar: cuanta más variabilidad haya en la población, menor será la potencia del estudio.

La utilidad de la ecuación anterior radica en que podemos despejar el tamaño de la muestra para obtener la siguiente:

n∝((1-β)×σ^2)/(SE×α)

Con esta podemos calcular el tamaño muestral necesario para la potencia del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s suelen obtenerse de estudios piloto o de datos o normativas previas y, si no existen, los marca el investigador. Por último, ya hemos dicho que alfa suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer un error de tipo 1 podemos establecerla en 0,01.

Para terminar, me gustaría llamar vuestra atención sobre la relación entre n y alfa en la primera ecuación. Pensad que la potencia no varía si aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel de significación. Esto nos lleva a la situación de que, en ocasiones, obtener significación estadística es solo cuestión de aumentar el tamaño muestral lo suficiente. Por eso es fundamental valorar el impacto clínico de los resultados y no solo el valor de p. Pero esa es otra historia…