Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Un sesgo por ausencia

image_pdf

La unión hace la fuerza. Es un hecho. Los grandes objetivos se logran con más facilidad con la unión del esfuerzo de muchos. Y esto también se cumple en estadística.
En efecto, hay ocasiones en que los ensayos clínicos no tienen la potencia necesaria para demostrar lo que persiguen, ya sea por falta de muestra por motivos de tiempo, dinero o dificultad para reclutar participantes, o por otro tipo de limitaciones de tipo metodológico. En estos casos, es posible recurrir a una técnica que nos permite, en ocasiones, aunar el esfuerzo de múltiples ensayos para poder alcanzar la conclusión a la que no llegaríamos con ninguno de los ensayos por separado. Esta técnica es el metanálisis.
El metanálisis nos da una síntesis matemática cuantitativa exacta de los estudios incluidos en el análisis, generalmente los estudios recuperados durante la realización de una revisión sistemática. Lógicamente, si incluimos todos los estudios que se hayan realizado sobre un tema (o, al menos, todos los que sean relevantes para nuestra investigación), esa síntesis reflejará el conocimiento actual sobre el tema. Sin embargo, si la recogida está sesgada y nos faltan estudios, el resultado será reflejo solo de los artículos recogidos, no del total del conocimiento disponible.
Cuando planeamos la revisión debemos establecer una estructura de búsqueda global para tratar de encontrar todos los trabajos. Si no lo hacemos así podemos cometer un sesgo de recuperación, que tendrá el mismo efecto sobre el análisis cuantitativo que el sesgo de publicación. Pero, incluso con las búsquedas electrónicas modernas, es muy difícil encontrar toda la información relevante sobre un tema concreto.
En los casos de que falten estudios, la importancia del efecto dependerá de cómo se pierdan los estudios. Si se pierden al azar, todo quedará en un problema de menor información, con lo que la precisión de nuestros resultados será menor y los intervalos de confianza serán más amplios, pero puede que nuestras conclusiones sean correctas. Sin embargo, si los trabajos que no encontramos son sistemáticamente diferentes de los que encontramos, el resultado de nuestro análisis puede estar sesgado, ya que nuestras conclusiones solo podrán aplicarse a la muestra de trabajos, que será una muestra sesgada.
Existen una serie de factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo.
En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.
Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).
Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.
Existen herramientas para valorar el riesgo de sesgo de publicación. Quizás lo más sencillo puede ser representar un forest plot ordenado con los estudios más precisos en la parte superior y los menos en la inferior. Según nos desplazamos hacia abajo disminuye la precisión de los resultados, con lo que el efecto debe oscilar hacia ambos lados de la medida resumen de resultado. Si solo oscila hacia uno de los lados, podemos suponer de forma indirecta que no hemos detectado los trabajos que deben existir que oscilen hacia el lado contrario, por lo que seguramente tendremos un sesgo de publicación.
funnel_sesgoOtro procedimiento similar es la utilización del gráfico de embudo o funnel plot, tal como veis en la imagen adjunta. En este gráfico se representa en el eje X el tamaño del efecto y en el eje Y una medida de la varianza o el tamaño muestral, invertido. Así, en la parte superior estarán los estudios más grandes y precisos. Una vez más, según bajamos por el gráfico, la precisión de los estudios es menor y se van desplazando hacia los lados por error aleatorio. Cuando existe sesgo de publicación este desplazamiento es asimétrico. El problema del gráfico en embudo (funnel plot para los ingleses) es que su interpretación puede ser subjetiva, por lo que hay métodos numéricos para tratar de detectar el sesgo de publicación.
Y, llegados a este punto, ¿qué debemos hacer ante un sesgo de publicación? Quizás lo más adecuado será no preguntarse si existe el sesgo, sino cuánto afecta mis resultados (y dar por hecho que nos hemos dejado estudios sin incluir en el análisis).
La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.
Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.
El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método. El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud. Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.
Y aquí dejamos los metanálisis y el sesgo de publicación por hoy. No hemos hablado nada de otros métodos matemáticos para detectar el sesgo de publicación como el de Begg y el de Egger. Hay incluso algún método gráfico aparte de los que hemos mencionado, como el de ajuste y relleno. Pero esa es otra historia…

Tres patas de un gato

image_pdf

Lo de buscarle tres pies al gato, o tres patas, es un dicho muy popular. Parece que se dice que busca tres pies a un gato aquél que trata de demostrar alguna cosa imposible, generalmente con tretas y engaños. En realidad, el refrán inicial hacía referencia a buscar cinco pies en lugar de tres. Esto parece más lógico, ya que como los gatos tienen cuatro patas, encontrarles tres de ellas es cosa fácil, pero encontrar cinco es algo imposible, a no ser que consideremos la cola del gato como otro pie, lo cual no tiene mucho sentido.

Pero hoy no vamos a hablar de gatos con tres, cuatro o cinco pies. Vamos a hablar sobre algo un poco más etéreo, como son los modelos multivariables de regresión lineal múltiple. Este sí que es un gato con multitud de pies, pero nosotros nos vamos a fijar únicamente en tres de ellos que reciben los nombres de colinealidad, tolerancia y factor de inflación (o incremento) de la varianza. Que nadie se desanime, es más fácil de lo que puede parecer de entrada.

Ya vimos en una entrada anterior cómo los modelos de regresión lineal simple relacionaban dos variables entre sí, de forma que las variaciones de una de ellas (la variable independiente o predictora) podían servir para calcular cómo iba a variar la otra variable (la variable dependiente). Estos modelos se representaban según la ecuación y = a + bx, donde x es la variable independiente e y la dependiente.

Pues bien, la regresión lineal múltiple añade más variables independientes, de tal manera que permite hacer predicciones de la variable dependiente según los valores de las variables predictoras o independientes. La fórmula genérica sería la siguiente:

y = a + bx1 + cx2 + dx3 + … + nxn, siendo n el número de variables independientes.

Una de las condiciones para que el modelo de regresión lineal múltiple funcione adecuadamente es que las variables independientes sean realmente independientes y no estén correlacionadas entre sí.

Imaginad un ejemplo absurdo en el que metemos en el modelo el peso en kilogramos y el peso en libras. Ambas variables variarán del mismo modo. De hecho el coeficiente de correlación, R, será 1, ya que prácticamente las dos representan la misma variable. Ejemplos tan tontos es difícil verlos en los trabajos científicos, pero hay otros menos evidentes (como incluir, por ejemplo la talla y el índice de masa corporal, que se calcula a partir del peso y de la talla) y otros que no son evidentes en absoluto para el investigador. Esto es lo que se llama colinealidad, que no es más que la existencia de una asociación lineal entre el conjunto de las variables independientes.

La colinealidad es un grave problema para el modelo multivariable, ya que las estimaciones obtenidas por el mismo son muy inestables, al hacerse más difícil separar el efecto de cada variable predictora.

Pues bien, para determinar si nuestro modelo sufre de colinealidad podemos construir una matriz donde se muestran los coeficientes de correlación, R, de unas variables con otras. En aquellos casos en los que observemos R altos, podremos sospechar que existe colinealidad. Ahora bien, si queremos cuantificar esto recurriremos a las otras dos patas del gato que hemos comentado al inicio: tolerancia y factor de inflación de la varianza.

Si elevamos el coeficiente R al cuadrado obtenemos el coeficiente de determinación (R2), que representa el porcentaje de la variación (o varianza) de una variable que es explicada por la variación en la otra variable. Así, nos encontramos con el concepto de tolerancia, que se calcula como el complementario de R2 (1-R2) y que representa la proporción de la variabilidad de dicha variable que no se explica por el resto de las variables independientes incluidas en el modelo de regresión.

De esta forma, cuanto más baja sea la tolerancia, más probable será que exista colinealidad. Suele considerarse que existe colinealidad cuando R2 es superior a 0,9 y, por tanto, la tolerancia está por debajo de 0,1.

Ya solo nos queda la tercera pata, que es el factor de inflación de la varianza. Este se calcula como el inverso de la tolerancia (1/T) y representa la proporción de la variabilidad (o varianza) de la variable que es explicada por el resto de las variables predictoras del modelo. Como es lógico, cuanto mayor sea el factor de inflación de la varianza, mayor será la probabilidad de que exista colinealidad. Generalmente se considera que existe colinealidad cuando el factor de inflación entre dos variables es mayor de 10 o cuando la media de todos los factores de inflación de todas las variables independientes es muy superior a uno.

Y aquí vamos a dejar los modelos multivariables por hoy. Ni que decir tiene que todo lo que hemos contado en la práctica se hace recurriendo a programas informáticos que nos calculan estos parámetros de manera sencilla.

Hemos visto aquí algunos de los aspectos de la regresión lineal múltiple, quizás el más utilizado de los modelos multivariables. Pero hay otros, como el análisis multivariante de la varianza (MANOVA), el análisis factorial o el análisis por conglomerados o clústeres. Pero esa es otra historia…

En busca de la causalidad

image_pdf

En Medicina es frecuente que tratemos de buscar relaciones de causa efecto. Si queremos demostrar que el fármaco X produce un efecto, no tenemos más que tomar dos grupos de personas, a un grupo le damos el fármaco, al otro grupo no se lo damos y vemos si hay diferencias.

Pero la cosa no es tan sencilla, porque nunca podemos estar seguros de que las diferencias en efecto entre los dos grupos se deban en realidad a otros factores distintos al tratamiento que hemos empleado. Estos factores son los llamados factores de confusión, que pueden ser conocidos o desconocidos y que nos pueden sesgar los resultados de la comparación.

Para resolver este problema se inventó el elemento clave de un ensayo clínico, la aleatorización. Si repartimos los participantes en el ensayo entre las dos ramas de forma aleatoria conseguiremos que estas variables de confusión se repartan de forma homogénea entre las dos ramas del ensayo, con lo que cualquier diferencia entre las dos tendrá que ser debida a la intervención. Solo así podremos establecer relaciones de causa-efecto entre nuestra exposición o tratamiento y la variable de resultado que midamos.

El problema de los estudios cuasi-experimentales y de los observacionales es que carecen de aleatorización. Por este motivo, nunca podremos estar seguros de que las diferencias se deban a la exposición y no a cualquier variable confusora, por lo que no podemos establecer con seguridad relaciones causales.

Este es un inconveniente molesto, ya que muchas veces será imposible realizar ensayos aleatorizados ya sea por motivos éticos, económicos, de la naturaleza de la intervención o de lo que sea. Por eso se han inventado algunas argucias para poder establecer relaciones causales en ausencia de aleatorización. Una de estas técnicas es la de los propensity score que vimos en una entrada anterior. Otra es la que vamos a desarrollar hoy, que tiene el bonito nombre de regresión discontinua.

La regresión discontinua es un diseño cuasi-experimental que permite realizar inferencia causal en ausencia de aleatorización. Se puede aplicar cuando la exposición de interés se asigna, al menos parcialmente, según el valor de una variable aleatoria continua si esta variable cae por encima o por debajo de un determinado valor umbral.regresion-discontinua_umbral Pensemos, por ejemplo, en un fármaco hipocolesterolemiante que pautaremos cuando el colesterol LDL aumente por encima de un valor determinado, o de una terapia antirretroviral en un enfermo de sida que indicaremos cuando su contaje de CD4 disminuya por debajo de determinado valor. Existe una discontinuidad en el valor umbral de la variable que produce un cambio brusco en la probabilidad de asignación al grupo de intervención, tal como os muestro en la figura adjunta.

En estos casos en los que la asignación del tratamiento depende, al menos en parte, del valor de una variable continua, la asignación en las proximidades del umbral es casi como si fuese aleatoria. ¿Por qué? Porque las determinaciones están sujetas a una variabilidad aleatoria por error de muestreo (además de la propia variabilidad de las variables biológicas), lo que hace que los individuos que están muy cerca del umbral, por encima o por debajo, sean muy similares en cuanto a las variables que puedan actuar como confusoras (el estar por encima o por debajo del umbral puede depender de la variabilidad aleatoria del resultado de la medición de la variable), de manera similar a como ocurre en un ensayo clínico. A fin de cuentas, podemos pensar que un ensayo clínico no es más que un diseño de discontinuidad en el que el umbral es un número aleatorio.

La matemática de la regresión discontinua es solo para iniciados y no es mi intención explicarla aquí (primero tendría que entenderla yo), así que nos vamos a conformar con conocer algunos términos que nos servirán para entender los trabajos que empleen esta metodología.

La regresión discontinua puede ser nítida o difusa. En la nítida, la probabilidad de asignación cambia de cero a uno en el umbral (la asignación del tratamiento sigue una regla determinista). Por ejemplo, se inicia el tratamiento cuando se cruza el umbral, con independencia de otros factores. Por otra parte, en la difusa hay otros factores en juego que hacen que en el umbral la probabilidad de asignación cambie, pero no de cero a uno, sino que puede depender de esos otros factores añadidos.

Así, el resultado del modelo de regresión varía un poco según se trate de una regresión discontinua nítida o difusa. En el caso de la regresión nítida se calcula el llamado efecto causal medio, según el cual los participantes son asignados a la intervención con seguridad si traspasan el umbral. En el caso de la regresión difusa, la asignación ya no se realiza según un modelo determinista, sino según uno probabilístico (según el valor respecto al umbral y el de otros factores que el investigador puede considerar importantes). En estos casos hay que hacer un análisis por intención de tratamiento según la diferencia de la probabilidad de asignación cerca del punto de corte (algunos pueden no traspasar el umbral pero ser asignados a la intervención porque así lo considere el investigador según los otros factores).

Así, en el modelo probabilístico habrá que medir el efecto en los cumplidores (los asignados a la intervención), por lo que el modelo de regresión nos dará el efecto causal medio de los cumplidores, que es la medida típica de la regresión discontinua difusa.

Y creo que aquí lo vamos a dejar por hoy. No hemos hablado nada sobre la ecuación de regresión, pero baste decir que tiene en cuenta las pendientes de la función de probabilidad de asignación antes y después del umbral y una variable de interacción para la posibilidad de que los efectos del tratamiento sean heterogéneos a ambos lados del umbral. Como veis, todo bastante complicado, pero para eso están los paquetes estadísticos como R o Stata que implementan estos modelos sin apenas esfuerzo.

Para terminar, decir solo que lo habitual es ver modelos que utilizan regresión lineal para variables de resultado cuantitativas, pero existen extensiones del modelo que utilizan variables dicotómicas y técnicas de regresión logística, e incluso modelos con estudios de supervivencia y variables de tiempo a suceso. Pero esa es otra historia…

Censura

image_pdf

En el sentido más conocido de la palabra, censura es la acción de examinar una obra destinada al público, suprimiendo o modificando la parte que no se ajusta a determinados planteamientos políticos, morales o religiosos, para determinar si se puede o no publicar o exhibir. Entonces, ¿qué queremos decir en estadística cuando hablamos de datos censurados?. Nada que ver con la política, moral ni la religión. Para explicar lo que es un dato censurado tendremos que hablar primero de las variables de tiempo a suceso y de los análisis de supervivencia.

De manera general, podemos decir que hay tres tipos de variables: cuantitativas, cualitativas y de tiempo a suceso. Las dos primeras se entienden bastante bien en general, pero las de tiempo a suceso son un poco más complicadas de entender.

Imaginemos que queremos estudiar la mortalidad de esa terrible enfermedad que es la fildulastrosis. Podríamos contar el número de fallecidos al final del periodo del estudio y dividirlos por la población total al inicio. Por ejemplo, si al inicio hay 50 enfermos y se nos mueren cuatro durante el seguimiento, podríamos calcular la mortalidad como 4/50 = 0,08, o sea del 8%. Así, si hemos seguido a la población durante cinco años, podremos decir que la supervivencia de la enfermedad a los cinco años es del 92% (100-8 = 92).

Sencillo, ¿verdad? El problema es que esto solo es válido cuando todos los sujetos tienen el mismo periodo de seguimiento y no se producen pérdidas o abandonos a lo largo del estudio, situación que suele estar lejos de la realidad en la mayor parte de los casos.

En estos casos, lo correcto es medir no solo si se produce el fallecimiento (que sería una variable dicotómica), sino también cuándo se produce, teniendo en cuenta además el diferente periodo de seguimiento y las pérdidas. Así, utilizaríamos una variable de tiempo a suceso, que está compuesta por una variable dicotómica (el suceso que se mide) y una continua (el tiempo de seguimiento cuando se produce).

Siguiendo el ejemplo anterior, los participantes en el estudio podrían clasificarse en tres tipos: aquéllos que fallecen durante el seguimiento, los que permaneces vivos al final del estudio y los que se pierden durante el seguimiento.

De los que se mueren podemos calcular su supervivencia pero, ¿cuál es la supervivencia de los que están vivos al final del estudio? ¿Y cuál es la supervivencia de los que se pierden durante el seguimiento? Está claro que algunos de los perdidos pueden haber fallecido al final del estudio sin que nosotros lo detectemos, por lo que nuestra medida de la mortalidad no será exacta.

Y aquí es donde nos encontramos con los datos censurados. Todos aquellos que no presentan el evento durante un estudio de supervivencia se denominan censurados (las pérdidas y los que acaban el estudio sin presentar el evento). La importancia de estos datos censurados es que hay que tenerlos en cuenta al hacer el estudio de supervivencia, tal como veremos a continuación.

La metodología a seguir es confeccionar una tabla de supervivencia que tenga en cuenta los sucesos (en este caso las muertes) y los datos censurados, tal como vemos en la tabla adjunta.

Las columnas de la tabla representan lo siguiente: x, el número de año del seguimiento; Nx, el número de participantes vivos al inicio de ese año; Cx, el número de pérdidas de ese año (censurados); Mx, el número de fallecidos durante ese periodo; PM, probabilidad de morir en ese periodo; PSP, la probabilidad de sobrevivir en ese periodo (la probabilidad de no presentar el evento); y PSG, la probabilidad de supervivencia hasta ese momento.censuraComo vemos, el primer año partimos de 50 participantes, de los cuales uno fallece. La probabilidad de fallecer en ese periodo es de 1/50 = 0,02, con lo que la probabilidad de supervivencia en el periodo (que es igual a la global por ser el primer periodo) es de 1-0,02 = 0,98.

En el segundo periodo partimos de 49 y no fallece ni se pierde nadie. La PM en el periodo es cero y la de supervivencia uno. Así, la probabilidad global será de 1×0,98 = 0,98.

En el tercer periodo seguimos con 49. Se pierden dos y fallece uno. La PM es de 1/49 = 0,0204 y la PSP de 1-0,0204 = 0,9796. Si multiplicamos la PSP por la global del periodo anterior, obtenemos la supervivencia global de este periodo: 0,9796×0,98 = 0,96.

En el cuarto periodo partimos de 46 participantes, produciéndose cinco pérdidas y dos fallecimientos. La PM será de 2/46 = 0,0434, la PSP de 1-0,0434 = 0,9566 y la PSG de 0,9566×0,96 = 0,9183.

Por último, en el quinto periodo partimos de 39 participantes. Tenemos dos censurados y ningún evento (fallecimiento). PM es cero, PSP es igual a uno (no se muere nadie en este periodo) y PSG 1×0,9183 = 0,9183.

Finalmente, teniendo en cuenta los datos censurados, podemos decir que la supervivencia global de la fildulastrosis es del 91,83% a los cinco años.

Y con esto vamos a dejarlo por hoy. Hemos visto cómo se construye una tabla de supervivencia con datos censurados para tener en cuenta el seguimiento desigual de los participantes y las pérdidas durante el seguimiento.

Solo dos reflexiones antes de terminar. En primer lugar, aunque se hable de análisis de supervivencia, el evento no tiene porqué ser el fallecimiento de los participantes. Puede ser cualquier evento que se produzca a lo largo del seguimiento del estudio.

En segundo lugar, las variables de tiempo a suceso y los datos censurados son la base para realizar otras técnicas estadísticas que estiman la probabilidad de producirse el evento en estudio en un momento determinado, como los modelos de regresión de Cox. Pero esa es otra historia…

Simplificando el impacto

image_pdf

En los estudios epidemiológicos es habitual encontrar un conjunto de medidas de efecto como pueden ser los riesgos en expuestos y no expuestos, los riesgos relativos y las reducciones de riesgo. Sin embargo, para que el análisis de un estudio pueda considerarse bien hecho, conviene que las medidas de efecto se acompañen de una serie de medidas de impacto, que son las que nos informan de forma más precisa sobre el verdadero efecto de la exposición o intervención sobre el efecto que estamos estudiando.

Por ejemplo, si realizamos un estudio sobre la prevención de la mortalidad por una enfermedad con un tratamiento X, un riesgo relativo de 0,5 nos dirá que existe la mitad de probabilidad de morirse si tomamos el fármaco, pero no podemos ver de forma clara el impacto del tratamiento. Sin embargo, si calculamos el número necesario a tratar (NNT) y nos sale que es de dos, sabremos que uno de cada dos personas tratadas evitarán la muerte por esa enfermedad. Esta medida de impacto, el NNT, sí nos da una idea más clara del efecto real de la intervención en nuestra práctica.

Existen diversas medidas de impacto, además del NNT. En los estudios de cohortes, que son en los que nos vamos a centrar hoy, podemos calcular la diferencia de incidencias entre expuestos y no expuestos, la proporción atribuible en expuestos (PAE), la proporción evitable en expuestos (PEE) y la proporción atribuible poblacional (PAP).

La PAE nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. La PEE nos informaría de los casos de enfermedad en el grupo expuesto que podrían haberse evitado si no hubiese existido la exposición. formulas_cohortesPor último, la PAP es un riesgo específico atribuible que describe la proporción de casos que se podrían prevenir en la población si se eliminase completamente el factor de riesgo en estudio. Como un cuarto parámetro, considerando la presencia de exposición y enfermedad, podemos calcular la fracción de exposición en los casos (FEc), que define la proporción de casos expuestos que son atribuibles al factor de riesgo.

En la tabla que os adjunto podéis ver las fórmulas para el cálculo de estos parámetros.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo de los NNT, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la PAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FEc. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE).

numeros-impactoVeamos un ejemplo con los datos de la tabla adjunta, que se corresponden a un estudio ficticio sobre el efecto de la mortalidad coronaria por el hábito de fumar. Yo he usado una calculadora epidemiológica de las muchas que hay disponibles en Internet y he calculado una diferencia de riesgos de 0,0027, una PAP de 0,16 y una FEc de 0,4. Ya podemos calcular nuestros números de impacto.

El NIE será de 1/0,0027 = 366. Redondeando, de cada 365 fumadores, uno morirá por una cardiopatía atribuible al tabaco.

El NIC será de 1/0,16 = 6,25. De cada seis muertos por cardiopatía en la población, uno será atribuible al tabaco.

Por fin, el NICE será de 1/0,4 = 2,5. Aproximadamente, por cada tres muertos por cardiopatía entre los que fumaban, uno sería atribuible al vicio del tabaco.

Y aquí lo dejamos por hoy. No olvidéis que los datos del ejemplo son ficticios y no sé si se ajustan mucho a la realidad.

Hemos hablado solo de las estimaciones puntuales de los números de impacto pero, como siempre, lo preferible es el cálculo de sus intervalos de confianza. Los tres se pueden calcular con los límites de los intervalos de las medidas a partir de las que se obtienen los números de impacto, pero lo mejor es utilizar una calculadora que lo haga por nosotros. El cálculo de los intervalos de algunos parámetros como, por ejemplo, de la PAP puede ser complejo. Pero esa es otra historia…

Las tribulaciones de un intervalo

image_pdf

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

Un caso de probabilidad engañosa

image_pdf

Hoy vamos a ver otro de esos ejemplos en los que la intuición sobre el valor de determinadas probabilidades nos juega malas pasadas. Y, para ello, vamos a utilizar nada menos que el teorema de Bayes, jugando un poco con las probabilidades condicionadas. Vamos a ver paso a paso cómo funciona.

¿Cuál es la probabilidad de que se produzcan dos sucesos? La probabilidad de que ocurra un suceso A es P(A) y la de que ocurra B, P(B). Pues bien, la probabilidad de que ocurran los dos es P(A∩B) que, si los dos sucesos son independientes, es igual a P(A) x P(B).

Imaginemos que tenemos un dado con seis caras. Si lo lanzamos una vez, la probabilidad de sacar, por ejemplo, un cinco es de 1/6 (un resultado entre los seis posibles). La de sacar un cuatro es, igualmente, 1/6. ¿Cuál será la probabilidad de sacar un cuatro, una vez que en la primera tirada sacamos un cinco?. Como las dos tiradas son independientes, la probabilidad de la combinación cinco seguida de cuatro será de 1/6 x 1/6 = 1/36.

Ahora pensemos otro ejemplo. Supongamos que en un grupo de 10 personas hay cuatro médicos, dos de los cuáles son cirujanos. Si tomamos uno al azar, la probabilidad de que sea médico es de 4/10 = 0,4 y la de que sea cirujano es de 2/10 = 0,2. Pero, si sacamos a uno y sabemos que es médico, la probabilidad de que sea cirujano ya no será de 0,2, porque los dos sucesos, ser médico y cirujano, no son independientes. Si es médico, la probabilidad de que sea cirujano será de 0,5 (la mitad de los médicos de nuestro grupo son cirujanos).

Cuando dos sucesos son dependientes, la probabilidad de que ocurran los dos será la probabilidad de ocurrir el primero, una vez que ocurre el segundo, por la probabilidad de ocurrir el segundo. Así que la P(médico∩cirujano) = P(cirujano|médico) x P(médico). Podemos generalizar la expresión de la siguiente manera:

P(A∩B) = P(A|B) x P(B), y cambiando de orden los componentes de la expresión, obtenemos la llamada regla de Bayes, de la siguiente forma:

P(A|B) = P(A∩B) / P(B).

La P(A∩B) será la probabilidad de B, una vez que se produce A, por la probabilidad de A = P(B|A) x P(A). Por otra parte, la probabilidad de B será igual a la suma de la probabilidad de producirse B una vez que se produzca A más la probabilidad de producirse B sin que ocurra A, lo que puesto de forma matemática queda de la siguiente forma:

P(B|A) x P(A) + P(B|Ac) x P(Ac), siendo P(Ac) la probabilidad de que no ocurra A.

Si sustituimos la regla inicial por sus valores desarrollados, obtendremos la expresión más conocida del teorema de Bayes:

P(A|B)=\frac{P(B|A) \times P(A)}{P(B|A) \times P(A)+P(B|A^{{c}}) \times P(A^{{c}})}Vamos a ver cómo se aplica el teorema de Bayes con un ejemplo práctico. Pensemos en el caso de la fildulastrosis aguda, una grave enfermedad cuya prevalencia en la población es, afortunadamente, bastante baja, de uno por cada 1000 habitantes. Luego, la P(F) = 0,001.

Por suerte tenemos una buena prueba diagnóstica, con una sensibilidad del 98% y una especificidad del 95%. Supongamos ahora que yo me hago la prueba y me da un resultado positivo. ¿Tengo que asustarme mucho? ¿Cuál es la probabilidad de que realmente tenga la enfermedad? ¿Os parece que será alta o baja? Veámoslo.

Una sensibilidad del 98% quiere decir que la probabilidad de dar positivo cuando se tiene la enfermedad es de 0,98. Matemáticamente, P(POS|F) = 0,98. Por otra parte, una especificidad del 95% quiere decir que la probabilidad de que dé un resultado negativo estando sano es de 0,95. O sea, P(NEG|Fc) = 0,95. Pero nosotros lo que queremos saber no es ninguna de estas dos cosas, sino que realmente buscamos cuál es la probabilidad de estar enfermo una vez que damos positivo en la prueba, o sea, la P(F|POS).

Para calcularla, no tenemos más que aplicar el teorema de Bayes:

P(F|POS)=\frac{P(POS|F) \times P(F)}{P(POS|F) \times P(F)+P(POS|F^{{c}}) \times P(F^{{c}})}A continuación, sustituimos los símbolos con sus valores y resolvemos la ecuación:

P(F|POS)=\frac{0,98 \times 0,001}{0,98 \times 0,001+[(1-0,95) \times (1-0,001)]}=0,02Así que vemos que, en principio, no tengo que asustarme mucho cuando la prueba me da un  resultado positivo, ya que la probabilidad de estar enfermo es solo de un 2%. Como veis, mucho más baja de lo que la intuición nos diría con una sensibilidad y una especificidad tan altas. ¿Por qué ocurre esto? Muy sencillo, porque la prevalencia de la enfermedad es muy baja. Vamos a repetir el experimento suponiendo ahora que la prevalencia es del 10% (0,1):

P(F|POS)=\frac{0,98 \times 0,1}{0,98 \times 0,1+[(1-0,95) \times (1-0,1)]}=0,68Como veis, en este caso la probabilidad de estar enfermo si doy positivo sube hasta el 68%. Esta probabilidad es el conocido valor predictivo positivo que, como podemos comprobar, puede variar enormemente según la frecuencia del efecto que estemos estudiando.

Y aquí lo dejamos por hoy. Antes de terminar, dejadme advertiros que no busquéis qué es la fildulastrosis. Me sorprendería mucho que alguien la encontrase en algún libro de medicina. Además, tened cuidado de no confundir P(POS|F) con P(F|POS), ya que incurriríais en un pecado llamado falacia inversa o falacia de la transposición de los condicionales, que es un error grave.

Hemos visto como el cálculo de probabilidades se complica un poco cuando los sucesos no son independientes. También hemos aprendido lo poco de fiar que son los valores predictivos cuando cambia la prevalencia de la enfermedad. Por eso se inventaron los cocientes de probabilidades, que no dependen tanto de la prevalencia de la enfermedad que se diagnostica y permiten valorar mejor de forma global la potencia de la prueba diagnóstica. Pero esa es otra historia…

Clientes habituales

image_pdf

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

La escopeta de feria

image_pdf

Hace unos días estuve con mi primo en las fiestas de nuestro barrio y, para entretenernos un rato, estuvimos disparando unos perdigones en una de las casetas, a ver si conseguíamos llevarnos el osito de peluche.

Pero, nada, ni por casualidad.

Yo disparé un montón de veces, pero no metí ni un perdigón en la diana. Todos quedaron alrededor, pero ni uno solo en el centro. Mi primo, sin embargo, es un tirador de primera. El problema es que le dieron una escopeta con la mira torcida, así que le salieron todos los perdigones desviados y tampoco metió ninguno dentro de la diana. En resumen, nos quedamos sin peluche. En la figura que os adjunto podéis ver el destrozo de disparos que hicimos los dos.error sistematico y aleatorio

De todas formas y para sacar provecho de esta situación, mirando las dianas se me ocurre que guardan algún parecido con los dos tipos de error que podemos tener en nuestros estudios epidemiológicos.

Estos son, en sentido general, dos: el error aleatorio y el error sistemático.

El error aleatorio se debe a nuestro amigo el azar, del que no hay manera de librarse. Puede tener dos causas fundamentales. La primera, el error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas.

La otra fuente de error aleatorio es la propia variabilidad en la medición. Si nos tomamos la presión arterial varias veces, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos.

Este error aleatorio se relacionará con la precisión del resultado. Una medida será tanto más precisa cuanto menor sea el componente aleatorio, por lo que puede aumentarse la precisión aumentando el tamaño de la muestra o siendo más cuidadoso con las mediciones.

En nuestro ejemplo del tiro, yo representaría el error aleatorio. Se me desvían los tiros al azar, de modo que por la nube de impactos puede uno imaginarse por donde está la diana, pero ningún disparo la alcanza. Lógicamente, cuantos más disparos haga, más probabilidad habrá de dar en el centro, aunque sea por azar.

El segundo error que mencionamos es el error sistemático, también llamado sesgo. Este se debe a un error en el diseño o en el análisis del estudio, que produce una estimación incorrecta o no válida del efecto que estamos estudiando. En nuestro ejemplo, como ya habréis adivinado, mi primo representa el error sistemático. El tira muy bien, pero como la escopeta está mal calibrada, los tiros dan fuera de la diana, desviándose todos sistemáticamente en una misma dirección. Viendo solo los tiros no podemos imaginar donde está el centro, como veíamos con mis disparos en mi diana, porque pensaríamos que el centro está en una localización que, en realidad, no le corresponde. Así, el error aleatorio afecta a la precisión, mientras que el sistemático compromete la validez de los resultados. Y otra cosa, por más que mi primo aumente el número de disparos, le seguirán saliendo torcidos. El error sistemático no disminuye porque aumentemos el tamaño de la muestra.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de los tipos de errores sistemáticos, que hay varios. Se pueden dividir en sesgos de selección, de información y de análisis que, a su vez, pueden dividirse en otros muchos. Pero esa es otra historia…

Juntos, pero no revueltos

image_pdf

Los estudios observacionales son aquellos en los que, como su propio nombre indica, el investigador se limita a observar lo que pasa. Bueno, a observar y a analizar, pero no tiene ningún papel activo sobre la exposición o intervención en estudio. Dentro de estos estudios observacionales, todos conocemos los estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Por su parte en un estudio de casos y controles, se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y actúa como control.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso.

Vamos a empezar con el de casos y controles anidados. Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte).

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Y aquí vamos a dejarlo por hoy. Para resumir un poco, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudio convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte). Pero esa es otra historia…