Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado por elEpidemiología Categora
image_pdf

Simplificando el impacto

En los estudios epidemiológicos es habitual encontrar un conjunto de medidas de efecto como pueden ser los riesgos en expuestos y no expuestos, los riesgos relativos y las reducciones de riesgo. Sin embargo, para que el análisis de un estudio pueda considerarse bien hecho, conviene que las medidas de efecto se acompañen de una serie de medidas de impacto, que son las que nos informan de forma más precisa sobre el verdadero efecto de la exposición o intervención sobre el efecto que estamos estudiando.

Por ejemplo, si realizamos un estudio sobre la prevención de la mortalidad por una enfermedad con un tratamiento X, un riesgo relativo de 0,5 nos dirá que existe la mitad de probabilidad de morirse si tomamos el fármaco, pero no podemos ver de forma clara el impacto del tratamiento. Sin embargo, si calculamos el número necesario a tratar (NNT) y nos sale que es de dos, sabremos que uno de cada dos personas tratadas evitarán la muerte por esa enfermedad. Esta medida de impacto, el NNT, sí nos da una idea más clara del efecto real de la intervención en nuestra práctica.

Existen diversas medidas de impacto, además del NNT. En los estudios de cohortes, que son en los que nos vamos a centrar hoy, podemos calcular la diferencia de incidencias entre expuestos y no expuestos, la proporción atribuible en expuestos (PAE), la proporción evitable en expuestos (PEE) y la proporción atribuible poblacional (PAP).

La PAE nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. La PEE nos informaría de los casos de enfermedad en el grupo expuesto que podrían haberse evitado si no hubiese existido la exposición. formulas_cohortesPor último, la PAP es un riesgo específico atribuible que describe la proporción de casos que se podrían prevenir en la población si se eliminase completamente el factor de riesgo en estudio. Como un cuarto parámetro, considerando la presencia de exposición y enfermedad, podemos calcular la fracción de exposición en los casos (FEc), que define la proporción de casos expuestos que son atribuibles al factor de riesgo.

En la tabla que os adjunto podéis ver las fórmulas para el cálculo de estos parámetros.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo de los NNT, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la PAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FEc. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE).

numeros-impactoVeamos un ejemplo con los datos de la tabla adjunta, que se corresponden a un estudio ficticio sobre el efecto de la mortalidad coronaria por el hábito de fumar. Yo he usado una calculadora epidemiológica de las muchas que hay disponibles en Internet y he calculado una diferencia de riesgos de 0,0027, una PAP de 0,16 y una FEc de 0,4. Ya podemos calcular nuestros números de impacto.

El NIE será de 1/0,0027 = 366. Redondeando, de cada 365 fumadores, uno morirá por una cardiopatía atribuible al tabaco.

El NIC será de 1/0,16 = 6,25. De cada seis muertos por cardiopatía en la población, uno será atribuible al tabaco.

Por fin, el NICE será de 1/0,4 = 2,5. Aproximadamente, por cada tres muertos por cardiopatía entre los que fumaban, uno sería atribuible al vicio del tabaco.

Y aquí lo dejamos por hoy. No olvidéis que los datos del ejemplo son ficticios y no sé si se ajustan mucho a la realidad.

Hemos hablado solo de las estimaciones puntuales de los números de impacto pero, como siempre, lo preferible es el cálculo de sus intervalos de confianza. Los tres se pueden calcular con los límites de los intervalos de las medidas a partir de las que se obtienen los números de impacto, pero lo mejor es utilizar una calculadora que lo haga por nosotros. El cálculo de los intervalos de algunos parámetros como, por ejemplo, de la PAP puede ser complejo. Pero esa es otra historia…

Las tribulaciones de un intervalo

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

Clientes habituales

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

La escopeta de feria

Hace unos días estuve con mi primo en las fiestas de nuestro barrio y, para entretenernos un rato, estuvimos disparando unos perdigones en una de las casetas, a ver si conseguíamos llevarnos el osito de peluche.

Pero, nada, ni por casualidad.

Yo disparé un montón de veces, pero no metí ni un perdigón en la diana. Todos quedaron alrededor, pero ni uno solo en el centro. Mi primo, sin embargo, es un tirador de primera. El problema es que le dieron una escopeta con la mira torcida, así que le salieron todos los perdigones desviados y tampoco metió ninguno dentro de la diana. En resumen, nos quedamos sin peluche. En la figura que os adjunto podéis ver el destrozo de disparos que hicimos los dos.error sistematico y aleatorio

De todas formas y para sacar provecho de esta situación, mirando las dianas se me ocurre que guardan algún parecido con los dos tipos de error que podemos tener en nuestros estudios epidemiológicos.

Estos son, en sentido general, dos: el error aleatorio y el error sistemático.

El error aleatorio se debe a nuestro amigo el azar, del que no hay manera de librarse. Puede tener dos causas fundamentales. La primera, el error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas.

La otra fuente de error aleatorio es la propia variabilidad en la medición. Si nos tomamos la presión arterial varias veces, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos.

Este error aleatorio se relacionará con la precisión del resultado. Una medida será tanto más precisa cuanto menor sea el componente aleatorio, por lo que puede aumentarse la precisión aumentando el tamaño de la muestra o siendo más cuidadoso con las mediciones.

En nuestro ejemplo del tiro, yo representaría el error aleatorio. Se me desvían los tiros al azar, de modo que por la nube de impactos puede uno imaginarse por donde está la diana, pero ningún disparo la alcanza. Lógicamente, cuantos más disparos haga, más probabilidad habrá de dar en el centro, aunque sea por azar.

El segundo error que mencionamos es el error sistemático, también llamado sesgo. Este se debe a un error en el diseño o en el análisis del estudio, que produce una estimación incorrecta o no válida del efecto que estamos estudiando. En nuestro ejemplo, como ya habréis adivinado, mi primo representa el error sistemático. El tira muy bien, pero como la escopeta está mal calibrada, los tiros dan fuera de la diana, desviándose todos sistemáticamente en una misma dirección. Viendo solo los tiros no podemos imaginar donde está el centro, como veíamos con mis disparos en mi diana, porque pensaríamos que el centro está en una localización que, en realidad, no le corresponde. Así, el error aleatorio afecta a la precisión, mientras que el sistemático compromete la validez de los resultados. Y otra cosa, por más que mi primo aumente el número de disparos, le seguirán saliendo torcidos. El error sistemático no disminuye porque aumentemos el tamaño de la muestra.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de los tipos de errores sistemáticos, que hay varios. Se pueden dividir en sesgos de selección, de información y de análisis que, a su vez, pueden dividirse en otros muchos. Pero esa es otra historia…

Juntos, pero no revueltos

Los estudios observacionales son aquellos en los que, como su propio nombre indica, el investigador se limita a observar lo que pasa. Bueno, a observar y a analizar, pero no tiene ningún papel activo sobre la exposición o intervención en estudio. Dentro de estos estudios observacionales, todos conocemos los estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Por su parte en un estudio de casos y controles, se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y actúa como control.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso.

Vamos a empezar con el de casos y controles anidados. Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte).

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Y aquí vamos a dejarlo por hoy. Para resumir un poco, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudio convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte). Pero esa es otra historia…

Las generalizaciones son peligrosas

A todos nos gusta generalizar y a los estadísticos y epidemiólogos más que a nadie. A fin de cuentas, uno de los propósitos principales de estas dos ciencias es sacar conclusiones de una población inaccesible a partir de los resultados obtenidos en una muestra más pequeña y, por tanto, más manejable.

Por ejemplo, cuando hacemos un estudio sobre el efecto de un factor de riesgo sobre una determinada enfermedad, normalmente lo hacemos con un pequeño número de casos, que es nuestra muestra, pero para sacar conclusiones que podamos extrapolar a toda la población. Claro que, para poder hacerlo, necesitamos que la muestra sea la adecuada  y sea representativa de la población en la que queremos generalizar los resultados. Vamos a ver con un ejemplo qué pasa cuando esta premisa no se cumple.

Berkson1Supongamos que queremos estudiar si los sujetos afectos de neumonía tienen más riesgo de tener hipertensión arterial. Si vamos a lo más fácil, podemos usar nuestra base de datos de ingresos hospitalarios y obtener nuestra muestra de estudio tal como observamos en la primera tabla. Vemos que nuestra muestra engloba 135 pacientes que han requerido ingreso, 19 de los cuales tuvieron neumonía y cuatro, además hipertensión. Por otra parte, también podemos ver el número de hipertensos que es de 10, cuatro con neumonía y seis sin ella.

En primer lugar, vamos a ver si hay asociación entre las dos variables. Para ello podemos hacer un test de la chi-cuadrado bajo la hipótesis nula de no asociación. Yo he usado el programa R para calcularlo. Primero construyo la tabla con el siguiente comando:

Ingreso <- matrix(c(4,6,15,110), ncol=2)

y luego calculo la chi aplicando la corrección de Yates (hay una celda con valor menor de cinco):

chisq.test(Ingreso, correct=T)

Obtengo así un valor de chi = 3,91, que para un grado de libertad corresponde a una p=0,04. Como es menor de 0,05, rechazo la hipótesis nula de no asociación y concluyo que sí hay asociación entre las dos variables.

Ahora, para calcular la fuerza de la asociación calculo su odds ratio, utilizando para ello cualquiera de las calculadoras de epidemiología disponibles en Internet. La odds ratio es de 4,89, con un intervalo de confianza del 95% de 1,24 a 19,34. Concluimos así que los pacientes con neumonía tienen casi cinco veces más riesgo de tener hipertensión.

Y hasta aquí todo va bien. El problema surgiría si caemos en la tentación de generalizar el resultado a la población general. Y esto es así porque la odds ratio mide la fuerza de la asociación entre dos variables siempre que la muestra se haya obtenido de forma aleatoria, lo que no es nuestro caso. Veamos qué pasa si repetimos el experimento con una muestra más grande obtenida, no de nuestro registro hospitalario, sino de la población general (donde están incluidos los participantes en el primer experimento).

berkson2Obtenemos así la segunda tabla de contingencia, que engloba 2591 pacientes, 211 de los cuales son hipertensos. Siguiendo el mismo procedimiento del primer experimento, calculamos primero la chi-cuadrado, que, en este caso, tiene un valor de 1,86, al que le corresponde una p=0,17. Al ser mayor de 0,05 no podemos rechazar la hipótesis nula, luego tenemos que concluir que no hay asociación entre las dos variables.

Ya no tiene mucho sentido calcular la odds ratio, pero si lo hacemos veremos que vale 0,96, con un intervalo de confianza del 95% de 0,73 a 1,21. Como incluye el valor  uno, la odds ratio tampoco es significativa.

¿Por qué ocurre esta diferencia entre los dos resultados?.  Esto ocurre porque los riesgos de hospitalización son diferentes entre los distintos grupos. De los 100 individuos que tienen neumonía (segunda tabla), cuatro precisan ingreso (primera tabla), luego el riesgo es de 4/10 = 0,4. El riesgo entre los que tienen solo hipertensión es de 6/111 = 0,05, y el de los que no tienen ninguna enfermedad es de 110/1230 = 0,09.

De esta forma, vemos que los pacientes con neumonía tienen más riesgo que el resto de ser hospitalizados.  Si cometemos el error de incluir solo pacientes hospitalizados, nuestros resultados estarán sesgados respecto a la población general, observando así una asociación que, en realidad, no existe. Este tipo de asociación espuria entre variables que se produce por una elección incorrecta de la muestra se conoce con el nombre de falacia de Berkson.

Y aquí lo dejamos. Vemos que el modo de elegir la muestra es de importancia capital a la hora de generalizar los resultados de un estudio. Es lo que suele ocurrir con los ensayos clínicos con criterios de inclusión muy estrictos, que es difícil generalizar sus resultados. Por eso hay autores que prefieren realizar ensayos clínicos pragmáticos, más pegados a la realidad cotidiana y mucho más generalizables. Pero esa es otra historia…

Yo me lo guiso, yo me lo como

Cuando queremos conocer la relación entre una exposición o intervención y un efecto, lo ideal es poder hacer un ensayo clínico controlado y aleatorizado. Claro que eso no siempre es posible, generalmente debido a la naturaleza de la exposición. Por ejemplo, supongamos que queremos conocer el efecto del tabaquismo sobre el infarto de miocardio. Como cualquiera puede comprender, no podemos aleatorizar dos grupos y poner a uno de ellos a fumar dos cajetillas al día para ver si se infartan. La ética y el sentido común nos lo impiden, además de la dificultad para encontrar participantes para un ensayo de estas características.

En casos similares tenemos que recurrir a estudios observacionales. En nuestro ejemplo, nos valdría con un estudio de casos y controles. Así, seleccionaríamos dos grupos en función de si han tenido infarto (los casos) o si no lo han tenido (los controles) y compararíamos el nivel de exposición entre los dos grupos para tratar de dilucidar si hay asociación entre exposición (tabaco) y efecto (infarto).

El punto clave de este tipo de estudios está en la selección de los controles, que tienen que ser representativos del nivel de exposición al factor de riesgo evaluado en la población de la que proceden los casos.

Una selección adecuada de los controles es aún más difícil cuando el efecto es de producción brusca. Por ejemplo, si queremos saber si una comida copiosa aumenta el riesgo de infarto tendríamos más dificultad en recoger controles representativos de la población, ya que los factores de riesgo pueden actuar instantes antes del evento.

Para evitar estas dificultades se aplicó el principio de “yo me guiso, yo me lo como” y se diseñó un tipo de estudio en el que cada participante actúa, a la vez, como su propio control. Son los estudios cruzados, también llamados de casos y autocontroles.

Estos estudios se centran en el momento en que se produce el evento y tratan de ver si se ha producido algo inusual que los haya favorecido, comparando las exposiciones de momentos inmediatos al evento con otros anteriores que sirven de control. Por tanto, comparamos momentos casos con momentos controles, actuando cada individuo como su propio control.

Para que el estudio tenga validez desde el punto de vista metodológico, los autores tienen que describir con claridad una serie de periodos de tiempo característicos. El primero es el periodo de inducción, que es tiempo de retraso que se produce desde el inicio de la exposición hasta la producción del efecto.

periodos caso cruzadoEl segundo es el periodo de efecto, que es el intervalo durante el cual la exposición puede desencadenar el efecto. Por último, el periodo de riesgo sería la suma de los dos periodos previos, desde que se produce la exposición hasta el inicio del evento.

El periodo de inducción suele ser muy breve la mayor parte de las veces, así que periodo de riesgo y efecto suelen ser equivalentes. En la figura adjunta os muestro la relación entre los tres periodos para que la entendáis mejor.

Es fundamental que estos tres periodos se especifiquen con claridad, ya que una mala estimación del periodo de efecto, tanto por exceso como por defecto produce una dilución del efecto de la exposición y dificulta su detección.

Algunos de vosotros me diréis que estos estudios son similares a otros estudios con autocontroles, como el de casos y controles emparejados. La diferencia es que en este último se eligen uno o varios controles similares por cada caso, mientras que en el autocontrolado cada uno es su propio control. También se parecen un poco a los ensayos clínicos cruzados, en el que todos los participantes son sometidos a la intervención y al control, pero éstos son estudios experimentales en los que el investigador interviene en la producción de la exposición, mientras que los autocontrolados son estudios observacionales.

En lo que sí se parecen a los casos y controles emparejados es en el análisis estadístico, solo que aquí se analizan momentos casos y momentos control. De esta forma, lo habitual es utilizar modelos de regresión logística condicional, siendo la medida de asociación más habitual  la odds ratio.

Y aquí dejamos el tema por hoy. Solo comentar que todo lo que hemos dicho se refiere a los denominados estudios cruzados unidireccionales, en los que existe una relación temporal muy puntual entre exposición y efecto. Para los casos en que la exposición es más mantenida pueden emplearse otros tipos de estudios cruzados llamados bidireccionales, en los que se seleccionan periodos de control anteriores y posteriores al efecto. Pero esa es otra historia…

Del triángulo a la tarta

Las cosas no ocurren porque sí. Y las enfermedades tampoco. ¿Por qué una persona que está sana de repente enferma y otra no? Pues porque hay una serie de factores que se distribuyen en la población que hacen que algunas personas tengan más riesgo de enfermar que otras.

Esto ha llamado la atención de los epidemiólogos desde siempre, de ahí que hayan intentado describir modelos para ilustrar la relación entre enfermos y enfermedades, para tratar de comprender cuáles son las causas de la enfermedad.

El modelo más sencillo lo forma un triángulo perverso entre tres elementos: el agente, el huésped y el ambiente. Estos tres elementos interrelacionan en una forma más o menos compleja para dar lugar a la aparición de la enfermedad.

Este modelo se ideó inicialmente para enfermedades infecciosas, así que el agente es el microorganismo en cuestión que puede producir la enfermedad. Por ejemplo, el plasmodio que produce el paludismo. Como es lógico, diferentes enfermedades dependen de la presencia de diferentes agentes, además de distintas interacciones entre agente, huésped y ambiente.

El huésped es el pobre sujeto que adquiere la enfermedad. No todos los huéspedes son igual de susceptibles a la enfermedad. Puede existir una serie de factores de riesgo intrínsecos al huésped que aumenten o disminuyan el riesgo de enfermar, aunque entre en contacto con el agente. En nuestro ejemplo del paludismo, los sujetos con anemia drepanocítica tienen menor riesgo de contraer el paludismo que los portadores de una hemoglobina normal.

El tercer lado de este triángulo lo constituye el ambiente, cuya función fundamental sería poner en contacto al agente con el huésped para producir la enfermedad. Si no hay mosquitos que trasmitan el parásito no tendremos casos de paludismo, por mucho plasmodio que haya en la charca.

El problema de este modelo tan elegante es que explica mucho mejor las enfermedades infecciosas que otros tipos de padecimientos. Tomemos el ejemplo del tabaco y el cáncer de pulmón. Todos sabemos que fumar provoca cáncer, pero ni todos los que fuman lo sufren ni todos los pacientes con cáncer han sido fumadores. Parece, pues, que esto de las causas es algo bastante más complejo.

Y aquí es donde nos topamos con la tarta. Imaginad todas las causas que se puedan relacionar con una enfermedad como los pedazos de una tarta. Si la tarta tiene las porciones necesarias, la enfermedad se produce. En caso contrario, la enfermedad no llega a producirse.

Pero no todos los pedazos de la tarta tienen la misma importancia. Así, reconocemos varias categorías de causas. Una porción podría ser una causa componente, que es cada uno de los componentes individuales que pueden dar lugar a la enfermedad.

Una causa componente puede estar constituida por factores relacionados con el agente, con el huésped y con el ambiente, pero por si solas no suelen ser suficientes para que la enfermedad aparezca. Uno puede estar expuesto años al agente y no desarrollar la enfermedad. Por ejemplo, la exposición a un virus no garantiza la infección si el huésped no tiene, además, otros factores de susceptibilidad.

Por otro lado estarían las causas necesarias. Sin ellas la enfermedad no se produce aunque concurran varias causas componentes. Pensemos por ejemplo en una infección por un germen oportunista en un inmunodeprimido. El germen no es capaz de producir la infección si el sistema inmune está indemne, luego la inmunodepresión sería causa necesaria para que se produzca la infección.

Por último, el pedazo más grande de la tarta, la causa suficiente. Este trozo completa por sí solo la tarta. Esta causa sola da lugar a la enfermedad sin necesidad de causas componentes o necesarias. Una enfermedad puede tener una o varias causas suficientes. Por último, podemos pensar como causa suficiente la concurrencia de varias causas componentes.

Para acabar, podemos rizar el rizo con esto de los tipos de causas y combinarlos en los siguientes:

– Necesaria y no suficiente: sin la causa no hay enfermedad, pero su presencia no la garantiza. Por ejemplo, el virus del papiloma y el cáncer de útero.

– No necesaria y suficiente: produce la enfermedad, pero esta puede darse también por otros factores causales que pueden actuar por sí solos. Por ejemplo, pensad en un tumor que pueda ser producido por la radiación, pero también por cancerígenos químicos.

– No necesaria y no suficiente: ninguno de los factores del huésped es imprescindible para la enfermedad y ninguno la causa por sí solo. Por ejemplo, todos los factores de riesgo de diabetes o de enfermedad coronaria.

Y aquí dejamos los triángulos y las tartas, no sin antes hacer una pequeña reflexión. Todo lo que hemos dicho sobre causas de enfermedades podríamos haberlo dicho sobre factores protectores contra el desarrollo de la enfermedad. Por ejemplo, la eliminación del tabaco sería un factor componente para la prevención del cáncer de pulmón. Pero esa es otra historia…

La liebre y la tortuga

Todos conocemos la fábula de la liebre y la tortuga. Resulta que, por alguna razón que no alcanzo a comprender, a alguien se le ocurre hacer una carrera con dos participantes: una tortuga y una liebre. Como es lógico, la gran favorita de la carrera es la liebre, infinitamente más rápida que la tortuga. Pero resulta que la liebre se confía en exceso y se echa a dormir, de forma que cuando quiere darse cuenta ya no puede recuperar la ventaja de la tortuga y pierde la carrera contra todo pronóstico. Moraleja: nunca menosprecies a los demás y no te duerma en los laureles, no sea que te pase como a la liebre.

En ocasiones, podemos pensar en el ensayo clínico como una carrera entre los participantes. Esto es así cuando la variable principal de resultado es una variable de tiempo a suceso. Estas variables miden cuántos participantes presentan el suceso en cuestión y, lo que es más importante, el tiempo que tardan en presentarlo. Las variables de tiempo a suceso se llaman también variables de supervivencia, aunque no tienen por qué estar relacionadas con la mortalidad.

Veamos un ejemplo. Supongamos que queremos saber la eficacia de un fármaco sobre el control de la presión arterial. Le damos el fármaco a los del grupo de intervención y un placebo a los del grupo control para ver cuántos se controlan mejor y en cuánto tiempo lo hacen.

Una posibilidad sería utilizar riesgos relativos. Dividimos la proporción de pacientes que se controlan en el grupo de intervención por la proporción que se controla en el de control y obtenemos nuestro riesgo relativo. El problema es que obtendremos información de cuántos más mejoran en un grupo que en otro, pero no nos dirá nada del aspecto temporal. No sabemos si lo hacen pronto o no.

Otra posibilidad es tomar como variable de resultado dicotómica el controlar la presión arterial (sí o no) y calcular un modelo de regresión logística. Con este modelo obtendremos una odds ratio, que nos dará una información similar a la del riesgo relativo, pero que tampoco tendrá en cuenta el aspecto temporal de la aparición del suceso.

El método adecuado de analizar este problema sería establecer la medida dicotómica de control arterial, pero calculando un modelo de regresión de riesgo proporcionales o regresión de Cox. Este modelo de regresión sí tiene en cuenta el tiempo que tarda en producirse el suceso.

El modelo de regresión de Cox calcula el riesgo de presentar el suceso en expuestos a la intervención frente a no expuestos en cada  momento dado. Para esto calcula cuánto más probable es que se produzca el suceso, en el intervalo temporal siguiente, entre los sujetos que todavía no lo han presentado. Llevando esta medida al límite, si vamos acortando el intervalo de tiempo hasta que vale cero llegamos al riesgo instantáneo, que va oscilando con el tiempo, pero del que el modelo nos calcula una extrapolación media. Este índice es el llamado cociente de riesgos instantáneos, más conocido por su nombre en inglés, hazard ratio (HR).

La HR puede tener valores entre cero e infinito. El valor neutro es uno, que indica el mismo riesgo en los dos grupos. Un valor menor que uno indica menor riesgo en el grupo expuesto. Por último, un valor mayor de uno indica mayor riesgo en expuestos, tanto mayor cuanto mayor sea el valor de la HR.

La HR no es una medida de probabilidad, sino una odds, por lo que su interpretación es similar a la de la odds ratio, solo que, además, tiene en cuenta el aspecto temporal. Un error frecuente es pensar que la HR informa de la duración temporal hasta el suceso. Por ejemplo, una HR = 2 no significa que los expuestos desarrollan el suceso dos veces más rápido, sino que los que todavía no lo han presentado tienen el doble de probabilidad de presentarlo que los no expuesto.

Si queremos información sobre la velocidad a la que se produce el suceso podemos recurrir a otro de los índices que nos proporciona la regresión de Cox, que es la mediana de tiempo en que presentan el suceso el 50% de los participantes.

Volviendo a nuestra fábula de la carrera, la HR nos diría quién tiene más probabilidades de ganar la carrera, mientras que la mediana nos diría cuánto ventaja sacaría el ganador al perdedor.

Y aquí dejamos el asunto de la liebre, la tortuga y la regresión de riesgos proporcionales. No hemos hablado nada de la forma de representar los resultados del modelo de regresión de Cox. Para ellos se utilizan un tipo especial de gráficos denominados curvas de supervivencia o de Kaplan-Meier. Pero esa es otra historia…

Torciendo paralelas

Dicen los matemáticos que dos líneas paralelas son aquellas que, por más que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es mucha distancia. No creo que nadie haya prolongado dos paralelas lo suficiente como para estar seguro de esta afirmación. Claro que, por otro lado, si llegan a juntarse es que no eran paralelas, ¿verdad?

Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo clínico cruzado.

En un ensayo clínico en paralelo clásico cada participante se asigna aleatoriamente a una, y solo una, de las ramas del ensayo, la de intervención en estudio o la de control. Sin embargo, podemos cruzar las paralelas y conseguir un diseño que permite que cada paciente reciba tanto la intervención en estudio como la de control siempre, eso sí, estableciendo un orden determinado y durante un periodo de tiempo establecido. ensayo cruzadoAsí, cada sujeto actúa como su propio control, experimentando ambas intervenciones en una secuencia de periodos establecida de modo aleatorio y separado ambos periodos por uno de estabilización o periodo de lavado. Podéis ver un esquema de este diseño en la figura que os adjunto.

Existen algunas variaciones sobre el tema de los ensayos cruzados, según todos los participantes sean sometidos a las dos intervenciones (ensayo completo) o algunos solo a una de ellas (ensayo incompleto). Además, es posible extender este tipo de diseño y probar más de dos intervenciones, dando lugar a distintos órdenes de secuencia que reciben nombres como diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a profundizar en esta entrada.

La ventaja principal de los estudios cruzados radica en una característica que ya hemos comentado: cada sujeto actúa como su propio control. Esto, que puede parecer una chorrada sin importancia, no es tal. Si lo pensamos un poco, lo que hacemos es valorar el efecto de la intervención activa y de la de control en el mismo sujeto, con lo cual obtendremos menor variabilidad que si comparamos los efectos en participantes diferentes, como se hace en el ensayo en paralelo, en el que cada participante se expone solo a una de las dos intervenciones.

Al ser menor la variabilidad, la precisión de las observaciones será mayor, con lo que el tamaño muestral necesario para detectar una determinada diferencia de efecto del tratamiento será menor. Y no un poco menor, sino que la muestra necesaria puede verse reducida de forma importante en comparación con la que haría falta en el ensayo paralelo correspondiente.

Esta reducción del tamaño de la muestra depende de la correlación entre las distintas medidas de resultado del estudio. En el peor de los casos, con una correlación cero, la muestra se ve dividida por la mitad. Si la correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero es que esta reducción es cada vez mayor según el valor de la correlación se vaya aproximando a uno.

Por si fuera poco, además de una estimación más precisa, ésta es menos sesgada, ya que se asume una respuesta constante de cada sujeto a las dos intervenciones probadas, mientras que en el ensayo en paralelo esta respuesta es más variable por medirse en sujetos diferentes.

Pero no todo va a ser ventajas a favor de los diseños cruzados. También plantean algunos inconvenientes. La mayor limitación es el coñazo que se les da a los participantes con tanta intervención y tanto periodo. Y esto es importante no solo por la consideración que podamos sentir hacia los participantes, sino porque aumenta el riesgo de pérdidas durante el estudio. Y resulta que los estudios cruzados son más sensibles a las pérdidas durante el seguimiento que los paralelos, sobre todo si el número de participantes que completan cada secuencia es diferente.

Otra limitación es que es importante que los sujetos sean similares al comienzo de cada periodo, por lo que estos estudios solo sirven si se trata de enfermos crónicos con síntomas estables. Tampoco sirven si la variable de resultado produce un efecto permanente. Pensemos en la más permanente de todas, la mortalidad. Si el participante se muere en el primer periodo, será más que difícil valorar su respuesta en el periodo siguiente.

Además, alguna de sus ventajas, como el reducido tamaño muestral, se torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en estudios de fase III, en los que queramos valorar seguridad, tolerancia, eficacia, detección de efectos adversos impredecibles, etc. En estos casos, la muestra pequeña no solo no es imprescindible, sino que puede resultar inadecuada.

Por último, referirnos a tres debilidades desde el punto de vista de diseño, los llamados efecto residual, efecto secuencia y efecto periodo.

El efecto residual se produce cuando en un periodo persiste el efecto de la intervención del periodo anterior. Pensemos que hemos dado un fármaco y quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando el periodo de lavado, pero hay ocasiones en que esto no es tan fácil. Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo periodo sea más favorable por el simple hecho de estar incluido en el estudio (efecto placebo).

El efecto secuencia se produce cuando el orden de las intervenciones afecta el resultado final, con lo que solo podríamos valorar adecuadamente los resultados de la primera intervención.

Por último, puede ocurrir que las características del paciente cambien a lo largo del estudio, modificando su respuesta a las diferentes intervenciones. Nos encontramos ante un efecto periodo.

Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a tamaño muestral que los ensayos paralelos, siempre que se cumplan las condiciones óptimas para su empleo. Son muy útiles para estudios de fase I y fase II en los que queremos conocer la farmacocinética y farmacodinámica, la seguridad, la titulación de dosis, etc. En fases posteriores del desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya hemos comentado, no se trata de enfermedades crónicas con sintomatología estable.

Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis estadístico de los resultados. En el caso del ensayo en paralelo los resultados de las dos ramas pueden compararse directamente, pero esto no es así con los ensayos cruzados, en los que deberemos asegurarnos de que no se haya producido efectos residual, efecto secuencia o efecto periodo. Pero esa es otra historia…