¿Rioja o Ribera?

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

La falsa moneda

Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos monedas, una de ellas legal y la otra más falsa que Judas Iscariote, cargada de forma que dé más caras que cruces cuando la lanzamos. Os aconsejo que os pongáis cómodos antes de empezar.

Resulta que tenemos una moneda trucada. Por definición, la probabilidad de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.

Ahora supongamos que hemos sido tan despistados como para guardar la moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70. Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en el número de caras, decidiremos si está trucada o no. Así que, de forma arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si sacamos menos de 65 diremos que es legal.

Pero cualquiera se da cuenta en seguida que este método no es infalible. Por una parte, podemos sacar 67 caras con una moneda legal y concluir que está trucada, cuando no lo está. Pero es que también puede dar la casualidad que saquemos 60 con la trucada y nos creamos que es una moneda legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la verdad es que no podemos, pero lo que sí podemos es medir la probabilidad que tenemos de equivocarnos.

Si utilizamos una calculadora de probabilidad binomial (los más valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65 caras o más con una moneda legal es del 0,17%, mientras que la probabilidad de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden presentar cuatro situaciones que os represento en la tabla adjunta.

En este caso, nuestra hipótesis nula dice que la moneda es legal, mientras que la alternativa dice que la moneda está trucada a favor de las caras.

Empecemos por los casos en que la prueba concluye que la moneda es legal (sacamos menos de 65 caras). La primera posibilidad es que la moneda sea, en efecto, legal. Pues habremos acertado. No tenemos más que decir de este supuesto.

La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la moneda sea más falsa que el beso de una suegra. Pues esta vez hemos cometido un error que alguien con muy poca imaginación bautizó como error de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal cuando en realidad está trucada.

Vamos a suponer ahora que nuestra prueba concluye que la moneda está trucada. Si la moneda es, en realidad, legal, habremos vuelto a equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I. En este caso hemos rechazado la hipótesis nula de que la moneda es legal siendo cierto que es legal.

Por último, si concluimos que es falsa y realmente está trucada, habremos acertado una vez más.

Vemos en la tabla que la probabilidad de cometer un error de tipo I es, en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra prueba, que no es más que la probabilidad de rechazar nuestra hipótesis nula de que la moneda es legal (decir que es falsa) cuando en realidad lo es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda es falsa es del 88%. A esta probabilidad se le llama potencia, que no es más que la probabilidad de acertar cuando la prueba dice que está trucada (acertar cuando rechazamos la hipótesis nula).

Si pensáis un poco veréis que el error de tipo II es el complementario de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que es legal cuando no lo es (error de tipo II) más la probabilidad de acertar y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 – potencia.

Esta significación estadística que hemos visto es el famoso valor de la p. La significación estadística no es más que la probabilidad de cometer un error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05 (5%), ya que, en general, es preferible no aceptar como buenas hipótesis que son falsas. Por eso en los estudios científicos se buscan valores bajos de significación y altos de potencia, aunque los dos están relacionados, por lo que al aumentar la significación disminuye la potencia, y viceversa.

Y aquí terminamos. Al que haya llegado hasta aquí a través de este galimatías sin perderse del todo, mi más sincera enhorabuena, porque la verdad es que esta entrada parece un juego de palabras. Y eso que podríamos haber comentado algo sobre significación y cálculo de intervalos de confianza, tamaños muestrales, etc. Pero esa es otra historia…