Cuando nada malo pasa, ¿va todo bien?

Tengo un cuñado que cada vez tiene más miedo a subirse a un avión. Es capaz de hacer viajes por carretera durante varios días seguidos con tal de no despegarse del suelo. Pero resulta que, el pobrecillo, no tiene más remedio que hacer un viaje transcontinental y no le queda otra que tomar un avión para hacer el desplazamiento.

Eso sí, mi cuñado, además de miedoso, es una persona ocurrente. Se ha dedicado a contar el número de viajes de las diferentes compañías aéreas y el número de accidentes que ha tenido cada una para poder calcular la probabilidad de tener un percance con cada una de ellas y volar con la más segura. El asunto es muy sencillo si recordamos aquello de probabilidad igual a casos favorables dividido por casos posibles.

Además, está feliz porque hay una compañía que ha hecho 1500 vuelos y nunca ha tenido ningún accidente, luego la probabilidad de tener un accidente volando en sus aviones será, según mi cuñado, de 0/1500 = 0. Se ha quedado tan tranquilo y, casi, hasta se le ha quitado el miedo. Matemáticamente es prácticamente seguro que no le vaya a pasar nada. ¿Qué pensáis de mi cuñado?

Muchos de vosotros ya estaréis pensando que utilizar a los cuñados para estos ejemplos tiene estos problemas. Todos sabemos cómo son los cuñados… Pero no seáis injustos con ellos. Como dice el famoso humorista Joaquín Reyes, “cuñados somos todos”, así que no os paséis de la raya. De lo que no hay duda, en eso estaremos todos de acuerdo, es de que mi cuñado se equivoca: el que no haya habido ningún percance en los 1500 vuelos no da seguridad de que no se caiga el siguiente. Dicho de otro modo, aunque el numerador de la proporción sea cero, si hacemos una estimación del riesgo real sería incorrecto quedarnos con el cero como resultado.

Esta situación se presenta con cierta frecuencia en los estudios de investigación de Biomedicina. Para dejar tranquilas a las compañías aéreas y a los aerofóbicos, pensad que tenemos un nuevo fármaco con el que queremos prevenir esa terrible enfermedad que es la fildulastrosis. Tomamos 150 personas sanas y les damos el antifildulín durante 1 año y, al cabo de este periodo, no detectamos ningún nuevo caso de enfermedad. ¿Podemos concluir entonces que el tratamiento previene con seguridad absoluta el desarrollo de la enfermedad? Obviamente, no. Pensemos un poco.

Hacer inferencias sobre probabilidades cuando el numerador de la proporción es cero puede resultar algo truculento, ya que tendemos a pensar que la no ocurrencia de eventos es algo cualitativamente diferente de la ocurrencia de uno, pocos o muchos eventos, y esto no es realmente así. Un numerador igual a cero no quiere decir que el riesgo sea cero, así como tampoco nos impide hacer inferencias acerca del tamaño del riesgo, ya que podemos aplicar los mismos principios estadísticos que a los numeradores distintos de cero.

Volviendo a nuestro ejemplo, supongamos que la incidencia de fildulastrosis en la población general es de 3 casos por cada 2000 personas al año (1,5 por mil, 0,15% o 0,0015). ¿Podemos inferir con nuestro experimento si el tomar antifildulín aumenta, disminuye o no modifica el riesgo de fildulastrosis? Siguiendo la conocida frase, sí, podemos.

Vamos a seguir nuestra costumbre de considerar la hipótesis nula de igualdad de efecto, de forma que el riesgo de enfermedad no se modifique por el nuevo tratamiento. Así, el riesgo de cada uno de los 150 participantes de enfermar a lo largo del estudio será de 0,0015. Dicho de otro modo, el riesgo de no enfermar será de 1-0,0015 = 0,9985. ¿Cuál será la probabilidad de que no enferme ninguno durante el año del estudio? Como son 150 sucesos independientes, la probabilidad de que 150 sujetos no enfermen será de 0,9985150 = 0,8. Vemos, pues, que aunque el riesgo sea el mismo que el de la población general, con este número de pacientes tenemos un 80% de probabilidades de no detectar ningún evento (fildulastrosis) durante el estudio, así que sería más sorprendente encontrar algún enfermo que no el hecho de no tener ninguno. Pero lo más sorprendente es que estamos, así, dando la probabilidad de que no tengamos ningún enfermo en nuestra muestra: que no haya ningún enfermo, como piensa mi cuñado, no tiene una probabilidad de 0 (0/150), ¡sino del 80%!

Y lo peor es que, visto este resultado, el pesimismo nos invade: es posible, incluso, que el riesgo de enfermedad con el nuevo fármaco sea mayor y no estemos detectándolo. Supongamos que el riesgo con la medicación es del 1% (frente al 0,15% de la población general). El riesgo de que no enferme ninguno sería de (1-0,01)150 = 0,22. Incluso con un riesgo del 2%, el riesgo de que no enferme ninguno es de (1-0,02)150 = 0,048. Recordad que el 5% es el valor que solemos adoptar como límite “seguro” para rechazar la hipótesis nula sin cometer un error de tipo 1.

Llegados a este punto, podemos preguntarnos si estamos gafados y no hemos tenido la suerte de detectar casos de enfermedad cuando el riesgo es alto o, por el contrario, que no somos tan desgraciados y, en realidad, el riesgo debe ser bajo. Para aclararnos, podemos volver a nuestro límite de confianza habitual del 5% y ver con qué riesgo de enfermar con el tratamiento tenemos, al menos, un 5% de probabilidades de detectar algún enfermo:

– Riesgo de 1,5/1000: (1-0,0015)150 = 0,8.

– Riesgo de 1/1000: (1-0,001)150 = 0,86.

– Riesgo de 1/200: (1-0,005)150 = 0,47.

– Riesgo de 1/100: (1-0,01)150 = 0,22.

– Riesgo de 1/50: (1-0,02)150 = 0,048.

– Riesgo de 1/25: (1-0,04)150 = 0,002.

Como vemos en la serie anterior, nuestro rango de “seguridad” del 5% se alcanza cuando el riesgo está por debajo de 1/50 (2% o 0,02). Esto quiere decir que, con una probabilidad de equivocarnos de un 5%, el riesgo de presentar fildulastrosis tomando el antifuldulín es igual o menor de 2%. En otras palabras, el intervalo de confianza del 95% de nuestra estimación valdría de 0 a 0,02 (y no 0, si calculamos la probabilidad de una forma simplista).

Para evitar que nuestras recalentadas neuronas terminen por fundirse, vamos a ver una forma más sencilla de automatizar este proceso. Para ello empleamos la conocida como regla del 3. Si hacemos el estudio con n pacientes y ninguno presenta el evento, podemos afirmar que la probabilidad del evento no es cero, sino menor o igual a 3/n. En nuestro ejemplo, 3/150 = 0,02, la probabilidad que calculamos con el método laborioso de más arriba. A esta regla llegaremos tras resolver la ecuación que utilizamos con el método anterior:

(1 – riesgo máximo)n = 0,05

Primero, la reescribimos:

1 – riesgo máximo = 0,051/n

Si n es mayor de 30, 0,051/n se aproxima a (n-3)/n, que es lo mismo que 1-(3/n). De esta manera, podemos reescribir la ecuación como:

1- riesgo máximo = 1 – (3/n)

con lo que podemos resolver la ecuación y obtener la regla final:

Riesgo máximo = 3/n.

Habéis visto que hemos hecho la consideración de que n sea mayor de 30. Esto es debido a que, por debajo de 30, la regla tiende a sobreestimar el riesgo ligeramente, lo que tendremos que tener en cuenta si la usamos con muestras reducidas.

Y con esto vamos a ir dando fin a esta entrada con algunas consideraciones. La primera, y como es fácil de imaginar, los programas estadísticos calculan los intervalos de confianza del riesgo sin mayor esfuerzo aunque el numerador valga cero. De igual manera, puede hacerse también de forma manual y mucho más elegante recurriendo a la distribución de probabilidad de Poisson, aunque el resultado es similar al que se obtiene con la regla del 3.

La segunda, ¿qué pasa si el numerador no vale 0 pero es un número pequeño? ¿Puede aplicarse una regla similar? La respuesta, de nuevo, es sí. Aunque no existe una regla general, sí se han desarrollado extensiones de la regla para un número de eventos de hasta 4. Pero esa es otra historia…

Que no te la den con queso

Si tenéis por casa un vino que se os haya estropeado un poco, hacedme caso, no lo tiréis. Esperad a que vaya alguna de esas visitas gorronas (¡yo no he mencionado a ningún cuñado!) y ponédselo para que se lo beban. Eso sí, tenéis que acompañarlo de un queso fuertecillo. Cuánto más fuerte el queso, mejor sabrá el vino (vosotros podéis tomaros otra cosa con cualquier excusa). Pues bien, este truco, tan viejo casi como la especie humana, tiene sus paralelismos en la presentación de los resultados de trabajos científicos.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la reducción relativa del riesgo (RRR) y la reducción absoluta del riesgo (RRA). La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,6, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el número necesario a tratar (NNT) = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado con el vino y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Una última reflexión para cerrar este tema. Existe cierta tendencia y confusión a la hora de utilizar o analizar otra medida de asociación utilizada en ciertos estudios observacionales: la odds ratio. Aunque en algunas ocasiones puedan ser equiparables, como cuando la prevalencia del efecto es muy pequeña, en general la odds ratio tiene otras implicaciones en cuanto a significado e interpretación, pero esa es otra historia…