¿Rioja o Ribera?

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Idolatrada, pero incomprendida

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…

La falacia de la p pequeña

Una falacia es un argumento que parece válido pero no lo es. A veces se usan para engañar a la gente y darles gato por liebre, pero la mayor parte de las veces se utilizan por una razón mucho más triste: por pura ignorancia.

Hoy vamos a hablar de una de estas falacias, muy poco reconocida, pero en la que se cae con una gran frecuencia a la hora de interpretar resultados de contrastes de hipótesis.

Cada vez más vemos que las publicaciones científicas nos proporcionan el valor exacto de p, de forma que tendemos a pensar que cuánto menor es el valor de p mayor es la plausibilidad del efecto observado.

Para entender lo que vamos a explicar, recordemos primero la lógica de la falsificación de la hipótesis nula (H0). Partimos de una H0 de que el efecto no existe, por lo que calculamos la probabilidad de, por azar, encontrar unos resultados tan extremos o más que los que hemos encontrado, siendo H0 cierta. Esta probabilidad es el valor de p, de forma que cuanto menor sea, menos probable es que el resultado sea debido al azar y, por tanto, más probable que el efecto sea real. El problema es que, por muy pequeña que sea la p, siempre hay una probabilidad de cometer un error de tipo I y rechazar la H0 siendo cierta (o lo que es lo mismo, obtener un falso positivo y dar por bueno un efecto que en realidad no existe).

Es importante tener en cuenta que el valor de p solo indica si hemos alcanzado el umbral de significación estadística, que es un valor totalmente arbitrario. Si obtenemos un valor umbral de p = 0,05 tendemos a pensar una de las cuatro posibilidades siguientes:

  1. Que hay un 5% de probabilidades de que el resultado sea un falso positivo (de que H0 sea cierta).
  2. Que hay un 95% de probabilidades de que el efecto sea real (de que H0 sea falsa).
  3. Que la probabilidad de que el efecto observado se deba al azar es del 5%.
  4. Que la tasa de error de tipo I es del 5%.

Sin embargo, todo lo anterior es incorrecto, ya que estamos cayendo en la falacia inversa o falacia de la transposición de los condicionales. Todo es un problema de entender mal las probabilidades condicionadas. Vamos a verlo despacio.

A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados si la hipótesis nula es cierta, o sea, P(resultados|H0).

Vamos a verlo con un ejemplo sencillo. La probabilidad de ser español si uno es andaluz es alta (debería ser del 100%). La inversa es más baja. La probabilidad de tener cefalea si uno tiene una meningitis es alta. La inversa es más baja. Si los eventos son frecuentes, la probabilidad será más alta que si son raros. Así, como nosotros queremos saber P(H0|resultados), deberemos valorar la probabilidad basal de la H0 para evitar sobrestimar las pruebas que apoyan que el efecto es cierto.

Si lo pensamos despacio, es bastante intuitivo. La probabilidad de H0 antes del estudio es una medida de la creencia subjetiva que refleja su plausibilidad basada en estudios previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Ni que decir tiene que existe un método matemático para calcular la probabilidad posterior de H0 en función de su probabilidad basal y el valor de p, pero sería una grosería poner un formulón enorme a estas alturas de la entrada.

heldEn su lugar, vamos a utilizar un método más sencillo, recurriendo a un recurso gráfico que se llama nomograma de Held y que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos.

Imaginad un estudio con un valor marginal de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real.

Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos así como la probabilidad posterior cambia según la probabilidad previa.

Y aquí lo dejamos. Seguro que esto del nomograma de Held os ha recordado a otro nomograma mucho más famoso pero con una filosofía similar, el nomograma de Fagan. Este se utiliza para calcular la probabilidad postprueba en función de la probabilidad preprueba y el cociente de probabilidad de una prueba diagnóstica. Pero esa es otra historia…