Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasNNT

Las tribulaciones de un intervalo

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

¿A qué lo atribuye?

Parece que fue ayer. Yo empezaba mis andanzas en los hospitales y tenía mis primeros contactos con El Paciente. Y de enfermedades no es que supiese demasiado, por cierto, pero sabía sin necesidad de pensar en ello cuáles eran las tres preguntas con las que se iniciaba toda buena historia clínica: ¿qué le pasa?, ¿desde cuándo?, ¿a qué lo atribuye?.

Y es que la necesidad de saber el porqué de las cosas es inherente a la naturaleza humana y, por supuesto, tiene gran importancia en medicina. Todo el mundo está loco por establecer relaciones de causa-efecto, por lo que a veces estas relaciones se hacen sin mucho rigor y llega uno a creerse que el culpable de su catarro de verano es el fulano del supermercado, que ha puesto el aire acondicionado muy fuerte. Por eso es de capital importancia que los estudios sobre etiología se realicen y se valoren con rigor. Por eso, y porque cuando hablamos de causa nos referimos también a las que hacen daño, incluidas nuestras propias acciones (lo que la gente culta llama iatrogenia).

Esta es la razón de que los estudios de etiología/daño tengan diseños similares. El ideal sería el ensayo clínico, y podemos usarlo, por ejemplo, para saber si un tratamiento es la causa de la curación del paciente. Pero cuando estudiamos factores de riesgo o exposiciones nocivas, el principio ético de no maleficencia nos impide aleatorizar las exposiciones, por lo que hemos de recurrir a estudios observacionales como los estudios de cohortes o los estudios de casos y controles, aunque siempre el nivel de evidencia será menor que el de los estudios experimentales.

Para valorar críticamente un trabajo sobre etiología/daño recurriremos a nuestros consabidos pilares: validez, importancia y aplicabilidad.

En primer lugar nos centraremos en la VALIDEZ o rigor científico del trabajo, que debe responder a la pregunta sobre si el factor o la intervención que estudiamos fue la causa del efecto adverso o la enfermedad producida.

Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen, dejaremos el trabajo y nos dedicaremos a otra cosa más provechosa. Lo primero será determinar si se han comparado grupos similares en cuanto a otros factores determinantes del efecto diferentes de la exposición estudiada. La aleatorización de los ensayos clínicos facilita que los grupos sean homogéneos, pero no podemos contar con ella en el caso de estudios observacionales. La homogeneidad de las dos cohortes es fundamental y sin ella el estudio no tendrá validez. Uno siempre se puede defender diciendo que ha estratificado por las diferencias entre los dos grupos o que ha hecho un análisis multivariante para controlar el efecto de las variables confusoras conocidas pero, ¿qué hacemos con las desconocidas?. Lo mismo se aplica a los estudios de casos y controles, mucho más sensibles a sesgos y confusiones.

¿Se han valorado la exposición y el efecto de la misma forma en todos los grupos?. En los ensayos y cohortes debemos comprobar que el efecto ha tenido la misma probabilidad de aparecer y ser detectado en los dos grupos. Por otra parte, en los estudios de casos y controles es muy importante valorar adecuadamente la exposición previa, por lo que debemos investigar si ha habido posibles sesgos de recogida de datos, como el sesgo de memoria (los enfermos suelen acordarse mejor de sus síntomas pasados que los sanos). Por último, debemos considerar si el seguimiento ha sido lo suficientemente largo y completo. Las pérdidas durante el estudio, frecuentes en los diseños observacionales, pueden sesgar los resultados.

Si hemos contestado sí a las tres preguntas anteriores, pasamos a considerar los criterios secundarios de validez. Los resultados del estudio deben ser evaluados para determinar si la asociación entre exposición y efecto satisface las pruebas de causalidad razonable. HillUna herramienta que podemos usar son los criterios de Hill, que fue un señor que sugirió utilizar una serie de aspectos para tratar de distinguir el carácter causal o no causal de una asociación. Estos criterios son los siguientes: a) fuerza de la asociación, que es la razón de riesgos de exposición y efecto, que consideraremos en breve; b) consistencia, que es la reproducibilidad en poblaciones o situaciones diferentes; c) especificidad, que quiere decir que una causa produce un único efecto y no múltiples; d) temporalidad: es fundamental que la causa preceda al efecto; e) gradiente biológico: a más intensidad de causa, mayor intensidad de efecto; f) plausibilidad: tiene que tener su lógica según nuestros conocimientos biológicos; g) coherencia, que no entre en conflicto con lo que se sabe de la enfermedad o el efecto; h) evidencia experimental, difícil de obtener muchas veces en humanos por problemas éticos; y, finalmente, i) analogía con otras situaciones conocidas. Aunque estos criterios son ya viejecillos y alguno puede ser irrelevante (evidencia experimental o analogía) o erróneo (especificidad), pueden servirnos de orientación. El criterio de temporalidad sería necesario y se complementaría muy bien con los de gradiente biológico, plausibilidad y coherencia.

Otro aspecto importante es estudiar si, al margen de la intervención en estudio, se han tratado los dos grupos de forma similar. En este tipo de estudios en los que el doble ciego brilla por su ausencia es en los que hay más riesgo de sesgo debido a cointervenciones, sobre todo si éstas son tratamientos con un efecto mucho mayor que la exposición en estudio.

En cuanto a la IMPORTANCIA de los resultados, debemos considerar la magnitud y la precisión de la asociación entre exposición y efecto.

¿Cuál fue la fuerza de la asociación?. La medida de asociación más habitual es el riesgo relativo (RR), que podremos usar en los ensayos y en los estudios de cohortes. Sin embargo, en los estudios de casos y controles desconocemos la incidencia del efecto (ya se ha producido al realizarse el estudio), por lo que utilizamos la odds ratio (OR). Como ya sabemos, la interpretación de los dos parámetros es similar. Incluso los dos son similares cuando la frecuencia del efecto es muy baja. Sin embargo, cuánto mayor es la magnitud o la frecuencia del efecto, más diferentes son RR y OR, con la peculiaridad de que la OR tiende a sobreestimar la fuerza de la asociación cuando es mayor que 1 y a subestimarla cuando es menor que 1. De todas formas, estos caprichos de la OR excepcionalmente nos modificarán la interpretación cualitativa de los resultados.

Hay que tener en cuenta que en un ensayo es válido cualquier valor de OR o RR cuyo intervalo de confianza no incluya el uno, pero en estudios observacionales hay que ser un poco más exigente. Así, en un estudio de cohortes daremos valor a RR mayores o iguales a tres y, en uno de casos y controles, a OR de cuatro o más.

Otro parámetro muy útil (en ensayos y cohortes) es la diferencia de riesgos o diferencia de incidencias, que es una forma rebuscada de llamar a nuestra conocida reducción absoluta de riesgo (RAR), que nos permite calcular el NNT (o NND, número necesario a dañar), parámetro que mejor nos cuantifica la importancia clínica de la asociación. También, similar a la reducción relativa del riesgo (RRR), contamos con la fracción atribuible en los expuestos, que es el porcentaje de riesgo observado en los expuestos que se debe a la exposición.

Y, ¿cuál es la precisión de los resultados?. Como ya sabemos, tiraremos de nuestros queridos intervalos de confianza, que nos servirán para determinar la precisión de la estimación del parámetro en la población. Siempre es conveniente disponer de todos estos parámetros, por lo que deben figurar en el estudio o debe ser posible su cálculo a partir de los datos proporcionados por los autores.

Para finalizar, nos fijaremos en la APLICABILIDAD de los resultados en nuestra práctica.

¿Son aplicables los resultados a nuestros pacientes?. Buscaremos si hay diferencias que desaconsejen extrapolar los resultados del trabajo a nuestro medio. Además, consideraremos cuál es la magnitud del riesgo en nuestros pacientes en función de los resultados del estudio y de las características del paciente en quien queramos aplicarlos. Y, finalmente, teniendo todos estos datos en mente, habrá que pensar en nuestras condiciones de trabajo, las alternativas que tenemos y las preferencias del paciente para decidir si hay que evitar la exposición que se ha estudiado. Por ejemplo, si la magnitud del riesgo es alta y disponemos de una alternativa eficaz la decisión está clara, pero las cosas no siempre serán tan sencillas.

Como siempre, os aconsejo que utilicéis los recursos CASPe para valorar los trabajos, tanto las parrillas adecuadas a cada diseño para hacer la lectura crítica, como las calculadoras para valorar la importancia de los resultados.

Antes de acabar, dejadme aclarar una cosa. Aunque hemos comentado que en las cohortes y ensayos usamos RR y en los casos y controles usamos OR, podemos usar OR en cualquier tipo de estudio (no así RR, para los cuáles hay que conocer la incidencia del efecto). El problema es que son algo menos precisas, por lo que se prefieren los RR y los NNT, cuando es posible utilizarlos. De todas formas, la OR es cada vez más popular por otro motivo, y es su utilización en los modelos de regresión logística, que nos permiten obtener estimadores ajustados por las diferentes variables de confusión. Pero esa es otra historia…