Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasSignificación estadística
image_pdf

El fallo de la democracia

Que nadie se preocupe que hoy no vamos a hablar de política. En su lugar, hoy trataremos de algo bastante más interesante. Hoy vamos a hablar de las votaciones en las revisiones narrativas. ¿De qué estoy hablando?. Sigue leyendo y lo comprenderás.

Vamos a ilustrarlo con un ejemplo totalmente ficticio, además de absurdo. Supongamos que queremos saber si los que ven más de dos horas de televisión al día tienen más riesgo de presentar ataques agudos de caspa. Nos vamos a nuestra base de datos favorita, que puede ser TripDatabase o Pubmed y hacemos una búsqueda. Obtenemos una revisión narrativa con seis trabajos, cuatro de los cuales no obtienen un riesgo relativo mayor en los teleadictos de presentar ataques de caspa y dos en los que se encuentran diferencias significativas entre los que ven mucha o poca televisión.

¿Qué conclusión sacamos?. ¿Es o no es un riesgo ver mucha tele?. Lo primero que se nos pasa por la cabeza es aplicar la norma democrática. Contamos cuántos estudios obtienen un riesgo con un valor de p significativo y en cuántos el valor de la p no es estadísticamente significativo (tomando el valor arbitrario de p = 0,05).

Qué bien, parece una solución razonable. Tenemos dos a favor y cuatro en contra, por lo que parece claro que ganan los de “en contra”, así que podemos concluir tranquilamente que el ver la tele no es un factor de riesgo para presentar ataques de caspa. El problema es que podemos estar metiendo la pata, también tranquilamente.

Esto es así porque estamos cometiendo un error bastante habitual. Cuando hacemos un contraste de hipótesis partimos de la hipótesis nula de que no existe efecto. Nosotros al hacer el experimento siempre obtenemos una diferencia entre los dos grupos, aunque sea por puro azar. Así que calculamos la probabilidad de, por azar, encontrar una diferencia como la que hemos obtenido o mayor. Este es el valor de p. Si es menor de 0,05 (según el convenio habitual) decimos que es muy poco probable que se deba al azar, por lo que la diferencia debe ser real.

Resumiendo, una p estadísticamente significativa indica que el efecto existe. El problema, y ahí radica nuestro error en el ejemplo que hemos puesto, es que lo contrario no se cumple. Si la p es mayor de 0,05 (no es estadísticamente significativa) puede significar que el efecto no existe, pero también que el efecto sí que existe pero el estudio no tiene la potencia estadística suficiente para detectarlo.

Como sabemos, la potencia depende del tamaño del efecto y del tamaño de la muestra. Aunque el efecto sea grande, puede no ser estadísticamente significativo si el tamaño de la muestra no es suficiente. Así, ante una p > 0,05 no podemos concluir con seguridad que el efecto no es real (simplemente, no podemos rechazar la hipótesis nula de no efecto).

Visto esto, ¿cómo vamos a hacer una votación contando cuántos estudios hay a favor y cuántos en contra?. En algunos de los que no se detecta significación puede ser por falta de potencia y no porque el efecto sea real. En nuestro ejemplo hay cuatro estudios no significativos frente a dos pero, ¿podemos estar seguros de que los cuatro indican ausencia de efecto?. Ya hemos visto que la respuesta es no.

votacionesLo correcto en estos casos es aplicar técnicas de metanálisis y obtener un valor resumen ponderado de todos los estudios de la revisión. Veamos otro ejemplo con los cinco estudios que veis en la figura que os adjunto. Aunque los riesgos relativos de los cinco estudios indican un efecto protector (son menores de 1, el valor nulo) ninguno alcanza significación estadística porque sus intervalos de confianza cruzan el valor nulo, que es el uno para los riesgos relativos.

Sin embargo, si obtenemos un resumen ponderado, éste tiene mayor precisión que los estudios individuales, por lo que, aunque el valor del riesgo relativo es el mismo, el intervalo de confianza es más estrecho y ya no cruza el valor nulo: es estadísticamente significativo.

Aplicando el método de los votos habríamos concluido que no existe efecto protector, mientras que parece probable que sí existe cuando aplicamos el método adecuado. En resumen, el método de la votación no es fiable y no debe emplearse.

Y esto es todo por hoy. Ya veis que la democracia, aunque buena en política, no lo es tanto al hablar de estadística. No hemos hablado nada de cómo se obtiene un valor resumen ponderado de todos los estudios de la revisión. Hay varios métodos que se siguen según el metanálisis aplique un modelo de efecto fijo o de efectos aleatorios. Pero esa es otra historia…

La falacia de la p pequeña

Una falacia es un argumento que parece válido pero no lo es. A veces se usan para engañar a la gente y darles gato por liebre, pero la mayor parte de las veces se utilizan por una razón mucho más triste: por pura ignorancia.

Hoy vamos a hablar de una de estas falacias, muy poco reconocida, pero en la que se cae con una gran frecuencia a la hora de interpretar resultados de contrastes de hipótesis.

Cada vez más vemos que las publicaciones científicas nos proporcionan el valor exacto de p, de forma que tendemos a pensar que cuánto menor es el valor de p mayor es la plausibilidad del efecto observado.

Para entender lo que vamos a explicar, recordemos primero la lógica de la falsificación de la hipótesis nula (H0). Partimos de una H0 de que el efecto no existe, por lo que calculamos la probabilidad de, por azar, encontrar unos resultados tan extremos o más que los que hemos encontrado, siendo H0 cierta. Esta probabilidad es el valor de p, de forma que cuanto menor sea, menos probable es que el resultado sea debido al azar y, por tanto, más probable que el efecto sea real. El problema es que, por muy pequeña que sea la p, siempre hay una probabilidad de cometer un error de tipo I y rechazar la H0 siendo cierta (o lo que es lo mismo, obtener un falso positivo y dar por bueno un efecto que en realidad no existe).

Es importante tener en cuenta que el valor de p solo indica si hemos alcanzado el umbral de significación estadística, que es un valor totalmente arbitrario. Si obtenemos un valor umbral de p = 0,05 tendemos a pensar una de las cuatro posibilidades siguientes:

  1. Que hay un 5% de probabilidades de que el resultado sea un falso positivo (de que H0 sea cierta).
  2. Que hay un 95% de probabilidades de que el efecto sea real (de que H0 sea falsa).
  3. Que la probabilidad de que el efecto observado se deba al azar es del 5%.
  4. Que la tasa de error de tipo I es del 5%.

Sin embargo, todo lo anterior es incorrecto, ya que estamos cayendo en la falacia inversa o falacia de la transposición de los condicionales. Todo es un problema de entender mal las probabilidades condicionadas. Vamos a verlo despacio.

A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados si la hipótesis nula es cierta, o sea, P(resultados|H0).

Vamos a verlo con un ejemplo sencillo. La probabilidad de ser español si uno es andaluz es alta (debería ser del 100%). La inversa es más baja. La probabilidad de tener cefalea si uno tiene una meningitis es alta. La inversa es más baja. Si los eventos son frecuentes, la probabilidad será más alta que si son raros. Así, como nosotros queremos saber P(H0|resultados), deberemos valorar la probabilidad basal de la H0 para evitar sobrestimar las pruebas que apoyan que el efecto es cierto.

Si lo pensamos despacio, es bastante intuitivo. La probabilidad de H0 antes del estudio es una medida de la creencia subjetiva que refleja su plausibilidad basada en estudios previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Ni que decir tiene que existe un método matemático para calcular la probabilidad posterior de H0 en función de su probabilidad basal y el valor de p, pero sería una grosería poner un formulón enorme a estas alturas de la entrada.

heldEn su lugar, vamos a utilizar un método más sencillo, recurriendo a un recurso gráfico que se llama nomograma de Held y que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos.

Imaginad un estudio con un valor marginal de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real.

Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos así como la probabilidad posterior cambia según la probabilidad previa.

Y aquí lo dejamos. Seguro que esto del nomograma de Held os ha recordado a otro nomograma mucho más famoso pero con una filosofía similar, el nomograma de Fagan. Este se utiliza para calcular la probabilidad postprueba en función de la probabilidad preprueba y el cociente de probabilidad de una prueba diagnóstica. Pero esa es otra historia…

Teniendo la n grande, ¿quién necesita una p pequeña?

El culto a la p es una de las religiones más extendidas en Medicina. Sus creyentes buscan siempre los valores de p cuando leen un trabajo científico y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada de ceros.

Pero a este culto le ha surgido en los últimos tiempos un serio competidor: los adoradores de la n que, como todos sabemos, representa el tamaño de la muestra. Y es que con las herramientas de manejo de información de que se dispone en la actualidad es relativamente fácil hacer estudios con tamaños muestrales enormes. Muy bien, pensaréis, podemos combinar las dos creencias en una y venerar aquellos trabajos que, con tamaños de muestra enormes, consiguen valores de p minúsculos. El problema es que esto nos desvía de la que debería ser nuestra verdadera religión, que no debe ser otra que la valoración del tamaño del efecto observado y de su importancia clínica.

Cuando observamos una diferencia de efecto entre las dos ramas de un ensayo debemos preguntarnos si esa diferencia es real o es simplemente debida al azar. Lo que hacemos es establecer una hipótesis nula que dice que la diferencia se debe al azar y calculamos un estadístico que nos da el valor de probabilidad de que la diferencia sea debida, en efecto, al azar. Este es el valor de significación estadística, nuestra p. El valor de p solo indica eso: la probabilidad de que la diferencia se deba al azar. Habitualmente se toma por convenio el límite de 0,05, de forma que si p vale menos de ese valor se considera razonablemente improbable que la diferencia se deba al azar y consideramos que el efecto realmente existe.

El valor de p que podemos obtener depende de varios factores, como la dispersión de la variable que estemos midiendo, el tamaño del efecto y el tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los valores de p, manteniendo el resto de factores sin modificar, son más pequeños cuanto mayor sea el tamaño muestral.

Imaginemos que comparamos presión arterial media con dos fármacos en un ensayo clínico y tenemos una diferencia de medias entre los dos grupos de 5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser significativo (ser mayor de 0,05), pero es muy probable que esta misma diferencia sea significativa si en el ensayo participan 10000 pacientes. En efecto, en muchas ocasiones el alcanzar significación estadística puede ser solo cuestión de aumentar el tamaño de la muestra. Esto hace que con muestras muy grandes tengamos significación para tamaños de efecto muy pequeños. En nuestro ejemplo, un intervalo de confianza de diferencias de medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero, valor nulo para las diferencias de medias), aunque probablemente el efecto es insignificante desde el punto de vista clínico. La diferencia es real, aunque su importancia clínica puede ser inexistente.

En resumen, cualquier efecto, por insignificante que sea, puede llegar a ser estadísticamente significativo si la muestra es lo suficientemente grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.

El mínimo coeficiente de correlación que alcanzará una significación estadística (p<0,05) para un tamaño de muestra determinado valdrá, aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las fórmulas de cálculo del intervalo de confianza del 95% de R).

Esto quiere decir que si n=10, cualquier valor de R > 0,63 será estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable para establecer la correlación entre las dos variables, es posible que tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable dependiente se explica por los cambios en la independiente. Pero pensad un momento que pasaría si n=100000. Cualquier valor de R>0,006 será significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por muy significativa que sea, ya que será despreciable la cantidad de variabilidad de una de las variables que se pueda explicar por los cambios en la otra.

El problema que se plantea en la práctica es que es mucho más difícil definir los límites de la significación clínica que los de la estadística. Como regla general, un efecto es estadísticamente significativo cuando su intervalo de confianza no cruza el valor nulo. Por otra parte, será clínicamente relevante cuando algunos de los valores de dentro del intervalo sean considerados importantes por el investigador.

Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de terminar. He simplificado un poco el razonamiento de la relación entre la n y la p, exagerando un poco para demostrar que las muestras grandes pueden ser tan discriminativas que el valor de p pierde un poco su razón de ser. Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del tamaño del menor grupo analizado, así que cuando el efecto estudiado sea muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra historia…

La fragilidad de la emPeratriz

Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones.

El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar.

En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar.

Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.

Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos.

Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02.

Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?.

A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo.

Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados.

Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo.

Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados.

Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia…

Todos los caminos llevan a Roma

Esta expresión tiene su origen en la manía que les entró a los romanos por hacer carreteras entre la capital del Imperio y las provincias más alejadas. Había un momento en que cualquier camino que tomases te llevaba a Roma, de ahí el dicho.

En la actualidad los caminos te pueden llevar a cualquier parte, pero la frase se conserva para usarla cuando queremos decir que hay varias maneras de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay dependencia entre dos variables y si su diferencia es estadísticamente significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.

Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible, para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que, ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes son más listos, los romanos o los cartagineses.

Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses que pillamos despistados en la batalla de Cannas y les pasamos un test de inteligencia para ver qué proporción tiene un cociente de inteligencia mayor de 120, lo que vamos a considerar como ser bastante listo.

roma_cartagoLos resultados podéis verlos en la tabla que os adjunto. Podemos ver que el 25% de los romanos (63 de 251) y el 16% de los cartagineses (40 de 249) pueden ser calificados como listos. A primera vista uno pensaría que los romanos eran más listos pero claro, siempre hay posibilidad de que esta diferencia sea debida al azar por error de muestreo.

Así que planteamos nuestra hipótesis nula de que todos son igual de listos, elegimos un estadístico cuya distribución de probabilidad bajo la hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis nula, así que concluiremos que todos eran igual de listos y que la diferencia observada se debe al azar.

roma_cartago_chiEl primer estadístico que se me ocurre es la chi-cuadrado. Como ya sabemos, ésta valora la diferencia entre valores observados y esperados y calcula un valor que sigue una distribución conocida (chi-cuadrado), por lo que podemos calcular su valor de p. De esta forma, construimos la tabla de valores observados y esperados y obtenemos un valor de chi-cuadrado igual a 6,35. Ahora podemos calcular el valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de 0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en efecto, más listos que los cartagineses, lo que explicaría que ganasen las tres guerras púnicas, aunque la segunda se les atragantase un poco.

Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de llegar a la p sería comparar las dos proporciones y ver si su diferencia es estadísticamente significativa. Una vez más, nuestra hipótesis nula dice que no hay diferencias entre las dos, así que la resta de las dos proporciones, si la hipótesis nula es cierta, debería valer cero.

De esta manera, lo que tenemos que hacer es calcular la diferencia de proporciones y estandarizarla dividiéndola por su error estándar, obteniendo así un valor z que seguirá una distribución de probabilidad normal.

La fórmula es la siguiente

z= \frac{p_{1} - p_{2}}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n^{_{2}}}}}= \frac{0,25 - 0,16}{\sqrt{\frac{0,25(1-0,25)}{251}+\frac{0,16(1-0,16)}{249}}}= \frac{0,09}{0,0358}= 2,51

Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra calculadora de probabilidad para calcular lo que queda fuera de la media ± z (el contraste es bilateral), veremos que el valor de p = 0,01. Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.

Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula (error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.

Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado (6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51). Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado todos los valores de una distribución de frecuencias normal y volvemos a representar los resultados obtendremos una distribución de frecuencias de la chi-cuadrado. Curioso, ¿verdad?.

También podríamos realizar una prueba exacta de Fisher en lugar de una chi-cuadrado y obtendríamos unos resultados similares.

Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros que todavía hay más caminos para demostrar si la diferencia de proporciones es significativa o no. Podríamos haber calculado el intervalo de confianza de la diferencia o el del cociente de proporciones (el riesgo relativo) o, incluso, el de la odds ratio entre las dos proporciones y ver si los intervalos incluían el valor nulo para determinar si eran estadísticamente significativos. Pero esa es otra historia…

La vida no es de color de rosa

Los llamados seres humanos tenemos la tendencia a ser demasiado categóricos. Nos gusta mucho ver las cosas blancas o negras, cuando la realidad es que la vida no es ni blanca ni negra, sino que se manifiesta en una amplia gama de grises. Hay quien piensa que la vida es de color de rosa o que el color depende del cristal con el que se mire, pero no lo creáis: la vida es de colores grises.

Y esa tendencia a ser demasiado categóricos nos lleva, en ocasiones, a sacar conclusiones muy diferentes sobre un tema en concreto según el color, blanco o negro, del cristal con el que lo miremos. No es raro que, sobre determinados temas, podamos observar opiniones opuestas.

Y lo mismo puede ocurrir en medicina. Cuando surge un nuevo tratamiento y empiezan a publicarse trabajos sobre su eficacia o su toxicidad, no es raro encontrar estudios muy similares en los que los autores llegan a conclusiones muy diferentes. Muchas veces esto se debe al empeño en ver las cosas blancas o negras, sacando conclusiones categóricas de parámetros como el valor de la significación estadística, el valor de la p. En realidad, en muchos de estos casos los datos no dicen cosas tan diferentes, pero tenemos que mirar la gama de grises que nos brindan los intervalos de confianza.

Como me imagino que no entendéis bien de qué leches estoy hablando, voy a tratar de explicarme mejor y de poner algún ejemplo.

Ya sabéis que nunca nunca nunca podemos probar la hipótesis nula. Solo podemos rechazarla o ser incapaces de rechazarla (en este caso asumimos que es cierta, pero con una probabilidad de error). Por eso cuando queremos estudiar el efecto de una intervención planteamos la hipótesis nula de que el efecto no existe y diseñamos el estudio para que nos dé información sobre si podemos o no rechazarla. En el caso de rechazarla asumimos la hipótesis alternativa de que el efecto de la intervención existe. Una vez más, siempre con una probabilidad de error, que es el valor de la p o la significación estadística.

En resumen, si la rechazamos asumimos que la intervención tiene un efecto y si no podemos rechazarla asumimos que no la tiene. ¿Os dais cuenta?: blanco o negro. Esta interpretación tan simplista no tiene en cuenta la gama de grises que tienen que ver con factores relevantes como la importancia clínica, la precisión de la estimación o la potencia del estudio.

En un ensayo clínico es habitual proporcionar la diferencia encontrada entre el grupo de intervención y el de control. Esta estimación es puntual pero, como el ensayo lo hemos hecho con una muestra de una población, lo correcto es acompañar la estimación puntual de un intervalo de confianza que nos proporcione el rango en el que se incluye el valor real de la población inaccesible con una probabilidad o confianza determinada. Por convenio, la mayor parte de las veces está confianza se establece en el 95%.

Este 95% se elige habitualmente porque suelen usarse también niveles de significación estadística del 5%, pero no debemos olvidar que es un valor arbitrario. La gran cualidad que tiene el intervalo de confianza frente a la p es que no permite establecer conclusiones dicotómicas, del tipo de blanco o negro.

El intervalo de confianza no es significativo cuando cruza la línea de efecto nulo, que es el 1 para riesgos relativos y odds ratios y el 0 para riesgos absolutos y diferencias de medias. Si solo miramos el valor de p solo podemos concluir si se alcanza o no significación estadística, llegando a veces a conclusiones diferentes con intervalos muy parecidos.

blanco y negroVeamos un ejemplo. En el gráfico están representados los intervalos de confianza de dos estudios sobre los efectos adversos cardiovasculares de un nuevo tratamiento. Veis que ambos intervalos son muy similares, pero el del ensayo A es estadísticamente significativo mientras que el del B no lo es. Si a los autores les gusta el blanco y negro, el de A dirá que el tratamiento tiene toxicidad cardiovascular, mientras que el de B dirá que no existe diferencia estadísticamente significativa entre la intervención y el control en lo que respecta a la toxicidad cardiovascular.

Sin embargo, el intervalo de B abarca desde algo menos de 1 hasta casi 3. Esto quiere decir que el valor de la población puede estar en cualquier valor del intervalo. Igual es 1, pero igual es 3, con lo que no es imposible que la toxicidad sea tres veces mayor que en el grupo de tratamiento. Si los efectos adversos son graves, no sería adecuado recomendar el tratamiento hasta disponer de estudios más concluyentes, con intervalos más precisos. Esto es a lo que me refiero con la gama de grises. No es prudente sacar conclusiones en blanco y negro cuando hay solapamiento de los intervalos de confianza.

Así que seguid mi consejo. Haced menos caso a la p y buscad siempre la información sobre el rango posible de efecto que proporcionan los intervalos de confianza.

Y aquí lo dejamos por hoy. Podríamos hablar más acerca de situaciones similares pero cuando tratamos con estudios de eficacia, de superioridad o de no-inferioridad. Pero esa es otra historia…

La falsa moneda

Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos monedas, una de ellas legal y la otra más falsa que Judas Iscariote, cargada de forma que dé más caras que cruces cuando la lanzamos. Os aconsejo que os pongáis cómodos antes de empezar.

Resulta que tenemos una moneda trucada. Por definición, la probabilidad de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.

Ahora supongamos que hemos sido tan despistados como para guardar la moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70. Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en el número de caras, decidiremos si está trucada o no. Así que, de forma arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si sacamos menos de 65 diremos que es legal.

Pero cualquiera se da cuenta en seguida que este método no es infalible. Por una parte, podemos sacar 67 caras con una moneda legal y concluir que está trucada, cuando no lo está. Pero es que también puede dar la casualidad que saquemos 60 con la trucada y nos creamos que es una moneda legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la verdad es que no podemos, pero lo que sí podemos es medir la probabilidad que tenemos de equivocarnos.

Si utilizamos una calculadora de probabilidad binomial (los más valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65 caras o más con una moneda legal es del 0,17%, mientras que la probabilidad de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden presentar cuatro situaciones que os represento en la tabla adjunta.falsa moneda

En este caso, nuestra hipótesis nula dice que la moneda es legal, mientras que la alternativa dice que la moneda está trucada a favor de las caras.

Empecemos por los casos en que la prueba concluye que la moneda es legal (sacamos menos de 65 caras). La primera posibilidad es que la moneda sea, en efecto, legal. Pues habremos acertado. No tenemos más que decir de este supuesto.

La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la moneda sea más falsa que el beso de una suegra. Pues esta vez hemos cometido un error que alguien con muy poca imaginación bautizó como error de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal cuando en realidad está trucada.

Vamos a suponer ahora que nuestra prueba concluye que la moneda está trucada. Si la moneda es, en realidad, legal, habremos vuelto a equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I. En este caso hemos rechazado la hipótesis nula de que la moneda es legal siendo cierto que es legal.

Por último, si concluimos que es falsa y realmente está trucada, habremos acertado una vez más.

Vemos en la tabla que la probabilidad de cometer un error de tipo I es, en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra prueba, que no es más que la probabilidad de rechazar nuestra hipótesis nula de que la moneda es legal (decir que es falsa) cuando en realidad lo es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda es falsa es del 91%. A esta probabilidad se le llama potencia, que no es más que la probabilidad de acertar cuando la prueba dice que está trucada (acertar cuando rechazamos la hipótesis nula).

Si pensáis un poco veréis que el error de tipo II es el complementario de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que es legal cuando no lo es (error de tipo II) más la probabilidad de acertar y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 – potencia.

Esta significación estadística que hemos visto es el famoso valor de la p. La significación estadística no es más que la probabilidad de cometer un error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05 (5%), ya que, en general, es preferible no aceptar como buenas hipótesis que son falsas. Por eso en los estudios científicos se buscan valores bajos de significación y altos de potencia, aunque los dos están relacionados, por lo que al aumentar la significación disminuye la potencia, y viceversa.

Y aquí terminamos. Al que haya llegado hasta aquí a través de este galimatías sin perderse del todo, mi más sincera enhorabuena, porque la verdad es que esta entrada parece un juego de palabras. Y eso que podríamos haber comentado algo sobre significación y cálculo de intervalos de confianza, tamaños muestrales, etc. Pero esa es otra historia…

El consuelo de no ser peor

Vivimos en un mundo frenético y altamente competitivo. Continuamente nos vemos inundados por mensajes sobre lo bueno que es ser el mejor en esto y en aquello. En lo que sea, en realidad. Pero la mayoría de nosotros nos damos cuenta pronto de que es imposible ser el mejor en todo lo que hacemos. Poco a poco, incluso, nos damos cuenta de que es muy difícil ser el mejor en algo, no ya en todo en general. Al final, más tarde o más temprano, el común de los mortales se conforma con, al menos, no ser de los peores en lo que hace.

Pero esto no es malo. No siempre se puede ser el mejor, ni falta que hace. Pensemos, por ejemplo, que tenemos un tratamiento estupendo para una enfermedad muy mala. Este tratamiento es eficaz, barato, fácil de usar y bien tolerado. ¿Tendremos interés en cambiarlo por otro?. Probablemente no. Pero pensemos ahora, por ejemplo, que produce una aplasia medular irreversible en el 3% de los que lo toman. En este caso sí que querríamos buscar otro tratamiento mejor.

¿Mejor?. Bueno, no realmente mejor. Con que fuese igual en todo pero no produjese aplasia, ya cambiaríamos al nuevo fármaco.

El planteamiento más habitual de los ensayos clínicos es el de demostrar la superioridad de una intervención frente al placebo o el tratamiento habitual. Pero, cada vez más, se realizan ensayos cuyo único objetivo es demostrar que el nuevo tratamiento es equivalente al actual. La planificación de estos ensayos de equivalencia debe ser cuidadosa y prestar atención a una serie de aspectos.

En primer lugar, no existe la equivalencia desde el punto de vista absoluto, por lo que hay que extremar las precauciones para mantener la igualdad de condiciones en las dos ramas de intervención del ensayo. Además, hay que establecer previamente el nivel de sensibilidad que vamos a necesitar en el estudio. Para ello, primero definimos el margen de equivalencia, que será la máxima diferencia entre las dos intervenciones que se considerará aceptable desde el punto de vista clínico. Segundo, calcularemos el tamaño muestral necesario para poder discriminar esta diferencia desde el punto de vista de significación estadístico.

Es importante comprender que el margen de equivalencia lo marca el investigador basándose en la importancia clínica de lo que se esté valorando. Cuánto más estrecho sea este margen, mayor deberá ser el tamaño de la muestra para poder alcanzar significación estadística y rechazar la hipótesis nula de que las diferencias que observemos se deban al azar. En contra de lo que pueda parecer a primera vista, los estudios de equivalencia suelen necesitar muestras más grandes que los estudios de superioridad.

Una vez obtenidos los resultados, analizaremos los intervalos de confianza de las diferencias de efecto entre las dos intervenciones. Solo aquellos intervalos que no crucen la línea de efecto nulo (uno para riesgos relativos y odds ratio y cero para diferencias de medias) serán estadísticamente significativos. Si, además, caen completamente dentro del margen de equivalencia previamente definido, se considerarán equivalentes con la probabilidad de error elegida para el intervalo de confianza, habitualmente el 5%. Si el intervalo queda fuera del margen de equivalencia, las intervenciones se considerarán no equivalentes. En el caso de que cruce alguno de los límites del margen de equivalencia, el estudio no será concluyente en cuanto a demostrar o rechazar la equivalencia de las dos intervenciones, aunque habrá que valorar la amplitud y distribución del intervalo respecto al margen de equivalencia para valorar su posible importancia desde el punto de vista clínico. En ocasiones, resultados sin significación estadística o que caen fuera de los límites del margen de equivalencia pueden también proporcionar información clínica útil.

equivalenciaVeamos el ejemplo de la figura para entender mejor lo que hemos dicho hasta ahora. Tenemos los intervalos de nueve estudios representados con su posición respecto a la línea de efecto nulo y los límites del margen de equivalencia. Solo los estudios A, B, D, G y H muestran una diferencia estadísticamente significativa, porque son los que no cruzan la línea de efecto nulo. La intervención del estudio A es superior, mientras que la del estudio H se demuestra inferior. Sin embargo, solo en el caso del estudio D puede concluirse la equivalencia de las dos intervenciones, mientras que son inconcluyentes, en lo que respecta a equivalencia, los estudios B y G.

En el caso del estudio E puede concluirse también la equivalencia de las dos intervenciones. Fijaos que, aunque la diferencia obtenida en el D es estadísticamente significativa, sigue sin superar los límites del margen de equivalencia: es superior al estudio E desde el punto de vista estadístico, pero parece que esta diferencia no tiene relevancia clínica.

Además de en  los estudios B y G ya comentados, en los estudios C, F e I, no puede concluirse si son o no equivalentes. Sin embargo, el C probablemente no sea inferior y el F podría sea inferior. Podría, incluso, estimarse la probabilidad de estas suposiciones según el área que ocupan los intervalos de confianza respecto a los márgenes de equivalencia.

Un aspecto importante de los estudios de equivalencia es el método de análisis de resultados empleado. Sabemos que el análisis por intención de tratar es siempre preferible al de análisis por protocolo, ya que mantiene las ventajas de la aleatorización respecto a otras variables conocidas o desconocidas que puedan influir en los resultados. El problema es que el análisis por intención de tratar va a favor de la hipótesis nula, minimizando las diferencias, si existen. Esto es una ventaja en los estudios de superioridad: si encontramos diferencia, refuerza el hallazgo. Sin embargo, en los estudios de equivalencia no nos interesa tanto este aspecto. Por su parte, el análisis por protocolo tendería a aumentar cualquier diferencia, pero esto no siempre es así y puede variar según la causa de las violaciones de protocolo o, dicho más sencillo, las causas que hayan motivado las pérdidas o equivocaciones de asignación de tratamiento en las dos ramas de intervención. Lo que se suele aconsejar es realizar el análisis de las dos formas y pedir que, en ambas, las intervenciones se muestren equivalentes. Habrá, además, que tener muy en cuenta las pérdidas durante el estudio y analizar la información de los casos en los que no se cumpla el protocolo.

Un caso particular de este tipo de ensayos es el de no inferioridad. En este caso, los investigadores se conforman con demostrar que la nueva intervención no es peor que la de comparación. Vale todo lo que hemos dicho para los de equivalencia, pero considerando solo el límite inferior del margen de equivalencia.

Una última cosa. Los estudios de superioridad son para demostrar superioridad y los de equivalencia son para demostrar equivalencia. El diseño de un objetivo no suele servir para demostrar el otro. Además, el que un estudio de superioridad fracase en demostrarla no quiere decir exactamente que las dos intervenciones sean equivalentes.

Hemos llegado al final sin haber hablado nada de otros estudios de equivalencia característicos: los estudios de bioequivalencia. Estos son ensayos de fase I realizados por las casas farmacéuticas para comprobar la equivalencia de diferentes presentaciones de un mismo fármaco y tienen algunas peculiaridades de diseño. Pero esa es otra historia…

El tamaño sí importa

Hablamos de muestras, claro…

Por razones diversas, los estudios científicos suelen utilizar muestras extraídas de una población sobre la que se quiere obtener una conclusión determinada. Esta muestra tendrá que haber sido seleccionada de forma que represente fielmente a la población de la que procede pero, ¿conviene que sea grande o pequeña?. Pues ni una cosa ni otra: la muestra debe ser del tamaño apropiado.

Después de razonar hasta llegar hasta esta conclusión necesitaría reposar un poco, pero antes trataremos de ver los problemas que nos pueden causar las muestras demasiado grandes o demasiado pequeñas.

Los inconvenientes de las muestras más grandes de lo necesario son obvios: mayor gasto de tiempo y recursos. Pero es que, además, como sabemos que muchas veces para obtener significación estadística basta con aumentar el tamaño de la muestra, si lo hacemos en exceso podemos obtenerla con diferencias tan pequeñas que, aunque puedan ser reales, carezcan del menor interés desde el punto de vista clínico. De esta forma malgastamos tiempo y energías (y dinero) y podemos inducir a error sobre la importancia de la diferencia encontrada. Así que, como en otros muchos aspectos de la vida y de la medicina, al hablar de muestras no siempre más es mejor (ni es mejor tenerla más grande).

¿Qué pasa si la muestra es pequeña? Pues pasa un poco lo contrario. Cuánto más pequeña sea la muestra más imprecisión tendremos en los resultados (los intervalos de confianza de los parámetros estudiados serán más amplios). De esta manera, las diferencias tendrán que ser mayores para poder alcanzar significación estadística. Corremos así el riesgo de que, aunque exista una diferencia real, no podamos asegurar su existencia por ser la muestra demasiado pequeña, perdiendo la ocasión de demostrar diferencias que, aunque pequeñas, pueden ser clínicamente muy importantes.

Queda claro, pues, que la muestra tiene que ser del tamaño apropiado y que, para evitar males mayores, debemos calcularla antes de realizar el estudio.

Las fórmulas para calcular el tamaño de la muestra dependen del estadístico que estemos midiendo y de si estimamos uno en la población (una media, por ejemplo) o queremos hacer un contraste de hipótesis entre dos variables o muestras (comparar dos muestras, dos proporciones, etc). En cualquier caso, la mayoría de los programas de estadística son capaces de calcularla de forma rápida y sin protestar. Nosotros solo tendremos que decidir tres parámetros: el error de tipo 1, la potencia del estudio y la mínima diferencia clínicamente importante.

El error de tipo 1 es la probabilidad de rechazar la hipótesis nula siendo cierta, concluyendo que existe una diferencia que, en realidad, no es real. Se suele aceptar que esta probabilidad, llamada alfa, debe ser menor del 5% y no es más que el nivel de significación estadística empleado en el contraste de hipótesis.

El error de tipo 2 es la probabilidad de concluir que no hay diferencia (no rechazamos la hipótesis nula) cuando en realidad sí que la hay. Este valor se conoce como beta y se admite como bueno un mínimo de 80%. Su complementario (1-beta o 100-beta si preferimos los %) es lo que se conoce como potencia del estudio.

Por último, la mínima diferencia clínicamente importante es la que debe ser capaz de detectar el estudio, en el caso de que exista realmente. Este es un valor que decide el investigador según el contexto clínico y que no tiene nada que ver con la significación estadística del estudio.

Con estos tres parámetros calcularemos el tamaño de la muestra necesario para detectar la diferencia que creamos importante desde el punto de vista clínico y con el margen de error deseado.

En ocasiones el razonamiento puede hacerse al revés. Si la muestra tiene un tamaño máximo por la razón que sea, podemos estimar antes del estudio qué diferencia vamos a poder detectar. Si esta diferencia es inferior a la clínicamente importante, podemos ahorrarnos el trabajo, ya que correremos el riesgo de que no sea concluyente por tener una muestra pequeña e inducir a error dando a entender que la diferencia no existe. Del mismo modo, si nos vemos obligados a interrumpir el estudio antes de su finalización programada deberemos calcular si con la muestra alcanzada tenemos capacidad para discriminar la diferencia que nos habíamos propuesto inicialmente.

Según la variable que estemos midiendo, en ocasiones necesitaremos otros datos como su media o su desviación estándar en la población para poder estimar el tamaño de muestra necesario. Si no los conocemos, podemos hacer un estudio piloto con unos pocos pacientes (a criterio del investigador) y calcular el tamaño de la muestra con los resultados preliminares.

Una última reflexión antes de irnos a poner la cabeza en remojo. El tamaño muestral se calcula para estimar la variable principal de resultado, pero esto no garantiza que tengamos la muestra adecuada para todo lo que midamos en el estudio. Esto produce, con relativa frecuencia, que trabajos que demuestran muy bien la eficacia de un tratamiento fracasen en dar datos concluyentes sobre la seguridad del mismo, pero esa es otra historia…

Hasta las p no significativas pueden tener su corazoncito

Los resultados y la validez de cualquier trabajo epidemiológico están siempre sometidos a dos temibles peligros: el error aleatorio y los errores sistemáticos.

Los errores sistemáticos, sesgos para los amigos, están relacionados con defectos del diseño del estudio en cualquiera de sus fases, por lo que debemos ser cuidadosos a la hora de evitarlos para no comprometer la validez de los resultados.

El error aleatorio es harina de otro costal. Es inevitable y se debe a variaciones que no podemos controlar y que se producen durante los procesos de medición y recogida de datos, alterando la precisión de nuestros resultados. Pero que nadie desespere: no podremos evitar el azar, pero sí podemos controlarlo (dentro de unos límites) y medirlo.

Supongamos que medimos la diferencia de saturación de oxígeno en extremidad superior e inferior en veinte recién nacidos sanos y calculamos la media: 2,2%. Si repetimos el experimento, incluso con los mismos neonatos, ¿qué valor obtendremos?. Con toda probabilidad, cualquiera menos 2,2% (aunque se parecerá bastante si hemos hecho las dos tomas en las mismas condiciones). Ese es el efecto del azar: la repetición tiende a producir resultados diferentes, aunque cercanos al valor verdadero que queremos medir.

El error aleatorio puede reducirse aumentando el tamaño de la muestra (con cien niños en lugar de veinte las medias serán más parecidas si repetimos el experimento), pero nunca nos libraremos completamente de él. Para empeorar las cosas, ni siquiera queremos saber la media de la diferencia de saturación en estos veinte, sino en la población de la cual proceden. ¿Cómo salimos de este laberinto?. Lo habéis adivinado, utilizando intervalos de confianza.

Cuando establezcamos la hipótesis nula de que no hay diferencias entre tomar la saturación en la pierna o en el brazo y realicemos la comparación de las medias con el test estadístico apropiado, el valor de la p nos indicará la probabilidad de que la diferencia encontrada se deba al azar. Si p < 0,05, asumiremos que la probabilidad de que la diferencia se deba al azar es tan pequeña como para rechazar con tranquilidad la hipótesis nula y abrazar la hipótesis alternativa: no es lo mismo tomar la saturación en la pierna que en el brazo. Por otro lado, si la p no es significativa, no podremos rechazar la hipótesis nula, pero siempre nos quedará la duda de cuál habría sido el valor de p con 100 niños, o con 1000. Es posible que entonces la p sí hubiese alcanzado significación estadística y hubiésemos podido rechazar H0.

Si calculamos el intervalo de confianza de nuestra variable tendremos el rango en el cual se encuentra su valor real con una probabilidad determinada (habitualmente 95%). Esto nos informará de la precisión del estudio. No será lo mismo obtener como resultado que la diferencia de saturación es de 2 a 2,5% que de 2 a 25% (en este caso, el estudio habría que valorarlo con desconfianza aunque la p tuviese cinco ceros).

¿Y qué pasa si la p no es significativa?. ¿Podemos sacar conclusiones del estudio?. Pues eso dependerá en gran medida de la importancia de lo que estemos midiendo, de su impacto clínico. Si consideramos una diferencia de saturación significativa desde el punto de vista clínico del 10% y el intervalo está por debajo, aunque la p sea significativa el impacto clínico del hallazgo será mínimo. Pero lo bueno es que este razonamiento puede también hacerse al revés: intervalos no significativos pueden tener gran impacto si alguno de sus límites entra en la zona de importancia clínica.

Veámoslo con unos ejemplos en el gráfico siguiente, en el que se ha supuesto una diferencia importante desde el punto de vista clínico del 5% en la saturación de oxígeno (perdonadme los neonatólogos, pero de la saturación solo sé que la mide una máquina que muchas veces no capta bien y pita).

El estudio A no tiene significación estadística (el intervalo de confianza incluye el valor nulo, en este caso el cero) y, además, clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente podría ser importante, ya que el límite superior del intervalo cae en la zona de relevancia clínica. Si aumentásemos la precisión del estudio (aumentando la muestra), ¿quién nos asegura que el intervalo no se podría estrechar y quedar por encima del nivel nulo, alcanzando significación estadística? En este caso la duda no parece muy trascendente porque la variable que estamos midiendo como ejemplo es un poco chorra, pero pensad cómo cambiaría esto si estuviésemos considerando una variable más dura, como mortalidad.

Los estudios C y D alcanzan significación estadística, pero solo los resultados del D son clínicamente importantes. El estudio C mostraría una diferencia, pero su impacto clínico y, por tanto, su interés son mínimos.

Así que, como veis, hay ocasiones en las que un resultado con una p no significativa puede proporcionar información de interés desde el punto de vista clínico, y viceversa. Además, todo esto que hemos comentado es importante para entender el planteamiento de los ensayos de superioridad, equivalencia y no inferioridad, pero esa es otra historia…