Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado por elEpidemiología Categora
image_pdfimage_print

Rey de reyes

No cabe duda de que a la hora de realizar un trabajo de investigación en biomedicina podemos elegir entre un gran número de diseños posibles, todos ellos con sus ventajas e inconvenientes. Pero en esta corte tan diversa y poblada, entre malabaristas, sabios, jardineros y flautistas púrpuras, reina por encima de todos el verdadero Rey Carmesí de la epidemiología: el ensayo clínico aleatorizado.

El ensayo clínico es un estudio de intervención, analítico, de dirección anterógrada y temporalidad concurrente, con muestreo de cohorte cerrada con control de la exposición. En un ensayo se selecciona una muestra de una población y se divide al azar en dos grupos. Uno de los grupos (grupo de intervención) sufre la intervención que queremos estudiar, mientras que el otro (grupo de control) nos sirve de referencia para comparar los resultados. Tras un periodo de seguimiento determinado se analizan los resultados y se comparan las diferencias entre los dos grupos. Podemos así evaluar los beneficios de los tratamientos o intervenciones al mismo tiempo que controlamos los sesgos de otros tipos de estudios: la aleatorización favorece que los posibles factores de confusión, conocidos o no, se repartan de forma uniforme entre los dos grupos, de forma que si al final detectamos alguna diferencia, esta tiene que ser debida a la intervención en estudio. Esto es lo que nos permite establecer una relación causal entre exposición y efecto.

Por lo dicho hasta ahora, se comprende fácilmente que el ensayo clínico aleatorizado sea el diseño más adecuado para valorar la eficacia de cualquier intervención en medicina y es el que proporciona, como ya hemos comentado, una evidencia de mayor calidad para demostrar la relación de causalidad entre la intervención y los resultados observados.

Pero para disfrutar de todos estos beneficios es necesario ser escrupuloso en el planteamiento y metodología de los ensayos. Existen listas de verificación publicadas por sabios que entienden mucho de estos temas, como es el caso de la lista CONSORT, que nos pueden ayudar a valorar la calidad del diseño del ensayo. Pero entre todos estos aspectos, reflexionemos un poco sobre aquellos que son cruciales para la validez del ensayo clínico.

Todo empieza con una laguna de conocimiento que nos lleva a formular una pregunta clínica estructurada. El único objetivo del ensayo debe ser responder a esta pregunta y basta con que se responda de forma adecuada a una sola pregunta. Desconfiad de los ensayos clínicos que tratan de responder a muchas preguntas, ya que, en muchas ocasiones, al final no responden bien a ninguna. Además, el planteamiento debe basarse en lo que los inventores de jerga metodológica llaman el principio de incertidumbre (la equipoise de los que hablan inglés), que no quiere decir más que, en el fondo de nuestro corazón, desconocemos de verdad cuál de las dos intervenciones es más beneficiosa para el paciente (habría que ser un poco perro desde el punto de vista ético para realizar una comparación si ya sabemos con seguridad cuál de las dos intervenciones es mejor). Es curioso en este sentido cómo los ensayos patrocinados por la industria farmacéutica tienen más tendencia a incumplir el principio de incertidumbre, ya que tienen preferencia por comparar con placebo o con “no intervención” para poder demostrar con más facilidad la eficacia de sus productos.A continuación debemos elegir cuidadosamente la muestra sobre la que realizaremos el ensayo. Idealmente, todos los miembros de la población deberían tener la misma probabilidad no solo de ser elegidos, sino también de acabar en cualquiera de las dos ramas del ensayo. Aquí nos encontramos con un pequeño dilema. Si somos muy estrictos con los criterios de inclusión y exclusión la muestra será muy homogénea y la validez interna del estudio saldrá fortalecida, pero será más difícil extender los resultados a la población general (esta es la actitud explicativa de selección de la muestra). Por otra parte, si no somos tan rígidos los resultados se parecerán más a los de la población general, pero puede verse comprometida la validez interna del estudio (esta es la actitud pragmática).

La aleatorización (¿quién ha dicho randomización?) es uno de los puntos clave del ensayo clínico. Es la que nos asegura que podemos comparar los dos grupos, ya que tiende a distribuir por igual las variables conocidas y, más importante, también las desconocidas entre los dos grupos. Pero no nos relajemos demasiado: este reparto no está en absoluto garantizado, solo es más probable que ocurra si aleatorizamos de forma correcta, así que siempre deberemos comprobar la homogeneidad de los dos grupos, sobre todo con muestras pequeñas.

Además, la aleatorización nos permite realizar de forma adecuada el enmascaramiento, con lo que realizamos una medición no sesgada de la variable de respuesta, evitando los sesgos de información. Estos resultados del grupo de intervención los podemos comparar con los del grupo control de tres formas. Una de ellas es comparar con un placebo. El placebo debe ser un preparado de características físicas indistinguibles del fármaco de intervención pero sin sus efectos farmacológicos. Esto sirve para controlar el efecto placebo (que depende de la personalidad del paciente, de sus sentimientos hacia a la intervención, de su cariño por el equipo investigador, etc), pero también los efectos secundarios que son debidos a la intervención y no al efecto farmacológico (pensemos, por ejemplo, en el porcentaje de infecciones locales en un ensayo con medicación administrada por vía intramuscular).

La otra forma de comparar es con el tratamiento aceptado como más eficaz hasta el momento. Si existe un tratamiento que funciona, lo lógico (y más ético) es que lo usemos para investigar si el nuevo aporta beneficios. También suele ser el método de comparación habitual en los estudios de equivalencia o de no-inferioridad. Por último, la tercera posibilidad es comparar con la no intervención, aunque en realidad esto es una forma rebuscada de decir que solo se le aplican los cuidados habituales que recibiría cualquier paciente en su situación clínica.

Es imprescindible que todos los participantes en el ensayo sean sometidos a la misma pauta de seguimiento, que debe ser lo suficientemente prolongado como para permitir que se produzca la respuesta esperada. Deben detallarse y analizarse todas las pérdidas que se produzcan durante el seguimiento, ya que pueden comprometer la validez y la potencia del estudio para detectar diferencias significativas. ¿Y qué hacemos con los que se pierden o acaban en una rama diferente a la asignada?. Si son muchos, lo más razonable puede ser rechazar el estudio. Otra posibilidad es excluirlos y hacer como si no hubiesen existido nunca, pero podemos sesgar los resultados del ensayo. Una tercera posibilidad es incluirlos en el análisis en la rama del ensayo en la que han participado (siempre hay alguno que se confunde y se toma lo que no le toca), lo que se conoce como análisis por tratamiento o análisis por protocolo. Y la cuarta, y última opción que tenemos, es analizarlos en la rama que se les asignó inicialmente con independencia de lo que hayan hecho durante el estudio. Esto se denomina análisis por intención de tratar, y es la única de las cuatro posibilidades que nos permite conservar todos los beneficios que previamente nos había proporcionado la aleatorización.

Como fase final, nos quedaría el análisis y comparación de los datos para extraer las conclusiones del ensayo, utilizando para ello las medidas de asociación y medidas de impacto oportunas que, en el caso del ensayo clínico, suelen ser la tasa de respuesta, el riesgo relativo (RR), la reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT). Vamos a verlos con un ejemplo.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A para no calentarnos mucho la cabeza) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles. Podéis ver en la tabla adjunta cómo se calculan estas medidas.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la RRR y la RAR. La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,4, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el NNT = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo que también os muestro en la tabla. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado para meteros el vino barato y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Hasta ahora todo lo que hemos dicho hace referencia al diseño clásico de ensayo clínico en paralelo, pero el rey de los diseños tiene muchas caras y, con mucha frecuencia, podemos encontrar trabajos en los que se nos muestra de forma un poco diferente, lo que puede implicar que el análisis de los resultados tenga peculiaridades especiales.

Vamos a empezar con una de las variaciones más frecuentes. Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. Como podéis ver en la figura adjunta, en este tipo de ensayo cada sujeto es aleatorizado a un grupo, se le somete a la intervención, se deja pasar un periodo de lavado o blanqueo y se le somete a la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo? Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Acabo ya. La verdad es que esta entrada me ha quedado un poco larga (y espero que no demasiado coñazo), pero es que el Rey se lo merece. De todas formas, si pensáis que está todo dicho sobre ensayos clínicos no tenéis ni idea de todo lo que queda por decir sobre tipos de muestreos, de aleatorización, etc, etc, etc. Pero esa es otra historia…

De la gallina al huevo

Seguro que alguna persona que rebosaba ingenio a raudales os ha preguntado en alguna ocasión, con mirada de suficiencia, ¿qué fue antes, el huevo o la gallina? Pues bien, la próxima vez que os encontréis con alguien así podéis responder con otra pregunta: ¿es qué tienen algo que ver el huevo y la gallina? Porque primero habrá que saber, no solo si para tener gallinas hay primero que tener huevos (con perdón), sino también qué probabilidad hay de acabar teniéndolas, con huevos o sin ellos (alguna mente retorcida dirá que la pregunta se podría plantear al revés, pero es que yo soy de los que piensan que lo primero que hay que tener, sin ánimo de ofender, son huevos).

Este planteamiento nos llevaría al diseño de un estudio de casos y controles, que es un estudio observacional y analítico en la que el muestreo se hace en base a presentar una determinada enfermedad o efecto (los casos) y se compara ese grupo con otro grupo que no lo presenta (los controles), con el objetivo de determinar si existe diferencia en la frecuencia de exposición a un determinado factor de riesgo entre los dos grupos. Estos estudios son de direccionalidad retrógrada y de temporalidad mixta, por lo que la mayor parte son de naturaleza retrospectiva aunque, al igual que ocurría con los estudios de cohortes, pueden ser también prospectivos (quizás la clave más útil para distinguir entre los dos sea el muestreo de cada uno, en base a la exposición en los estudios de cohortes y en base al efecto en los de casos y controles).

En la figura que os adjunto podéis ver el diseño típico de un estudio de casos y controles. En estos estudios se parte de una población determinada de la que se extrae una muestra de casos que habitualmente suele englobar todos los casos diagnosticados y disponibles, y se comparan con un grupo control formado por una muestra balanceada de sujetos sanos que proceden de la misma población que los sanos. Sin embargo, cada vez es más frecuente encontrarse con variaciones del diseño básico que combinan características de los estudios de cohortes y de casos y controles, comparando los casos que van apareciendo en una cohorte estable a lo largo del tiempo con controles de una muestra parcial extraída de esa misma cohorte.

El más conocido de este tipo de diseños mixto es el de casos y controles anidado en una cohorte. En estos casos partimos de una cohorte ya conocida en la que vamos identificando los casos que se van produciendo. Cada vez que aparece un caso, se empareja con uno o varios controles sacados también de la cohorte inicial. Si lo pensamos brevemente, es posible que un sujeto que sea seleccionado inicialmente como control se convierta en caso a lo largo del tiempo (desarrolle la enfermedad en estudio). Aunque pueda parecer que esto pueda sesgar los resultados, esto no debe ser así, ya que se trata de medir el efecto de la exposición en el momento de realizar el análisis. Este diseño puede hacerse con cohortes más pequeñas, por lo que puede ser más sencillo y económico. Además, es especialmente útil en cohortes muy dinámicas con muchas entradas y salidas a lo largo del tiempo, sobre todo si la incidencia de la enfermedad en estudio es baja.

Otra variante del diseño básico son los estudios de cohorte y casos. En este, inicialmente tenemos una cohorte muy grande de la que seleccionaremos una subcohorte más pequeña. Los casos serán los enfermos que se vayan produciendo en cualquiera de las dos cohortes, mientras que los controles serán los sujetos de la subcohorte más pequeña (y más manejable). Estos estudios tienen un método de análisis un poco más complicado que los diseños básicos, ya que tienen que compensar el hecho de que los casos se ven sobrerrepresentados al poder provenir de las dos cohortes. La gran ventaja de este diseño es que permite estudiar varias enfermedades a la vez, comparando las diversas cohortes de enfermos con la subcohorte elegida como control.

Por fin, una última variación que vamos a tratar es la de los polisémicos estudios de caso-cohorte, también llamados de casos y controles cruzados, también llamados de casos autocontrolados. En este diseño pareado, cada individuo sirve como su propio control, comparándose la exposición durante el periodo de tiempo más cercano a la aparición de la enfermedad (periodo caso) con la exposición durante el periodo de tiempo previo (periodo control). Este planteamiento de estudio es útil cuando la exposición es corta, con un tiempo de actuación previsible y produce una enfermedad de corta duración en el tiempo. Son muy utilizados, por ejemplo, para estudiar los efectos adversos de las vacunas.

Al igual que en los estudios de cohortes, los estudios de casos y controles permiten el cálculo de toda una serie de medidas de asociación e impacto. Claro que aquí nos encontramos con una diferencia fundamental con los estudios de cohortes. En estos partíamos de una cohorte sin enfermos en la que iban apareciendo los enfermos a lo largo del seguimiento, lo que nos permitía calcular el riesgo de enfermar a lo largo del tiempo (incidencia). Así, el cociente entre incidencias de expuestos y no expuestos nos proporcionaba el riesgo relativo, la principal medida de asociación.

Sin embargo, como puede deducirse del diseño de los estudios de casos y controles, en estos casos no podemos hacer una estimación directa ni de la incidencia ni de la prevalencia de la enfermedad, ya que la proporción de expuestos y enfermos viene determinada por los criterios de selección del investigador y no por la incidencia en la población (se seleccionan de entrada un número fijo de casos y de controles, pero no podemos calcular el riesgo de ser caso en la población). Así, ante la imposibilidad de calcular el riesgo relativo recurriremos al cálculo de la odds ratio (OR), tal como véis en la segunda figura.

La OR tiene una lectura similar a la del riesgo relativo, pudiendo valer desde cero hasta infinito. Una OR=1 quiere decir que no hay asociación entre exposición y efecto. Una OR<1 quiere decir que la exposición es un factor de protección frente al efecto. Por último, una OR>1 indica que la exposición es un factor de riesgo, tanto mayor cuanto mayor sea el valor de la OR.

De todos modos, y solo para los que gusten de meterse en complicaciones, os diré que es posible calcular las tasas de incidencia a partir de los resultados de un estudio de casos y controles. Si la incidencia de la enfermedad en estudio es baja (por debajo del 10%), pueden equipararse OR y riesgo relativo, así que podemos estimar la incidencia de forma aproximada. Si la incidencia de la enfermedad es mayor, la OR tiende a sobreestimar el riesgo relativo, así que no podemos equiparalos. De todas formas, en estos casos, si conocemos previamente la incidencia de la enfermedad en la población (obtenida de otro tipo de estudios), podemos calcular la incidencia utilizando las siguientes fórmulas:

I0 = It / (OR x Pe) + P0

Ie = I0 x OR,

donde It es la incidencia total, Ie la incidencia en expuestos, I0 la incidencia en no expuestos, Pe la proporción de expuestos y P0 la proporción de no expuestos.

Aunque la OR permite estimar la fuerza de la asociación entre la exposición y el efecto, no informa sobre el efecto potencial que tendría eliminar la exposición sobre la salud de la población. Para ello, tendremos que recurrir a las medidas de riesgo atribuible (tal como hacíamos con los estudios de cohortes), que pueden ser absolutas o relativas.

Las medidas absolutas de riesgo atribuible son dos. La primera es el riesgo atribuible en expuestos (RAE), que es la diferencia entre la incidencia en expuestos y no expuestos y representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en los expuestos. La segunda es el riesgo atribuible poblacional (RAP), que representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en la población general.

Por su parte, las medidas relativas de riesgo atribuible (también conocidas como proporciones o fracciones atribuibles o etiológicas) son también dos. La primera, la fracción atribuible en expuestos (FAE), que representa la diferencia de riesgo relativo a la incidencia en el grupo de expuestos al factor. La segunda, la fracción atribuible poblacional (FAP), que representa la diferencia de riesgo relativo a la incidencia en la población general.

En la tabla adjunta os muestro las fórmulas para el cálculo de estos parámetros, que es algo más complejo que en el caso de los estudios de cohortes.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo del número necesario a tratar (NNT) de los ensayos clínicos, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos entre expuestos y no expuestos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la FAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FAE. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE). Será de utilidad que intentemos calcularlos si los autores del estudio no lo hacen, ya que nos darán una idea del impacto real de la exposición sobre el efecto.

Como colofón a los tres anteriores, podríamos estimar el efecto de la exposición en toda la población calculando el número de impacto en la población (NIP), para lo cual no tenemos más que hacer el inverso del RAP. Así, un NIP de 3000 quiere decir que por cada 3000 sujetos de la población se producirá un caso de enfermedad debida a la exposición.

Además de la valoración de las medidas de asociación e impacto, cuando valoremos un estudio de casos y controles tendremos que prestar especial atención a la presencia de sesgos, ya que son los estudios observacionales que tienen más riesgo de presentarlos.

Los estudios de casos y controles son relativamente sencillos de hacer, generalmente tienen menor coste que otros estudios observacionales (como los estudios de cohortes), permiten estudiar varios factores de exposición al mismo tiempo y saber cómo interactúan entre ellos y son ideales para enfermedades o factores de exposición de frecuencia muy baja. El problema de este tipo de diseño es que hay que ser sumamente cuidadoso para seleccionar los casos y los controles, ya que, como ya hemos dicho, es muy fácil caer en una lista de sesgos que, a día de hoy, no tiene aún un final conocido.

En general, los criterios de selección deberían ser los mismos para casos y controles, pero, como para ser caso hay que estar diagnosticado de la enfermedad y estar disponible para el estudio, es muy probable que los casos no sean totalmente representativos de la población. Por ejemplo, si los criterios de diagnóstico son poco sensibles y específicos habrá muchos falsos positivos y negativos, con lo que el efecto de la exposición al factor se diluirá.

Otro posible problema depende de que elijamos casos incidentes (de nuevo diagnóstico) o prevalentes. Los estudios basados en prevalencia favorecen la selección de supervivientes (hasta ahora no se conoce ningún caso de un muerto que haya accedido a participar en ningún estudio) y, si la supervivencia está relacionada con la exposición, el riesgo detectado será menor que con casos incidentes. Este efecto es todavía más evidente cuando el factor de exposición es de buen pronóstico, situación en la que los estudios prevalentes producen una mayor sobreestimación de la asociación. Un ejemplo para comprender mejor estos aspectos:  supongamos que el riesgo de infarto es mayor cuanto más se fuma. Si solo incluimos casos prevalentes excluiremos a los muertos por infarto más grave, que presumiblemente deberían ser los que más fumasen, con lo cual el efecto del tabaco podría infraestimarse.

Pero si lo de los casos parece complicado, no es nada comparado con una buena selección de los controles. Lo ideal es que los controles hayan tenido la misma probabilidad de exposición que los casos o, dicho de otra forma más elegante, deben ser representativos de la población de la que proceden los casos. Además, esto hay que compatibilizarlo con la exclusión de aquéllos que tengan alguna enfermedad que se relacione de forma positiva o negativa con el factor de exposición. Por ejemplo, si nos sobra tiempo y queremos ver la asociación entre pasajeros de avión que tienen una tromboflebitis y la ingesta previa de aspirina, tendremos que excluir de los controles a los que tengan cualquier otra enfermedad que se trate con aspirina, aunque no la hubiesen tomado antes de emprender el viaje.

También hay que ser crítico con algunos hábitos de selección de controles. Por ejemplo, los pacientes que van al hospital por otro motivo distinto al estudiado están muy a mano, suelen ser muy colaboradores y, al ser enfermos, seguramente recordarán mejor las exposiciones pasadas a factores de riesgo. Pero el problema es ese, que son enfermos, por lo que pueden tener hábitos de exposición a factores de riesgo diferentes a los de la población general.

Otro recurso es reclutar a vecinos, amigos, familiares, etc. Éstos suelen ser muy comparables y colaboradores, pero tenemos el riesgo de que haya emparejamiento de hábitos de exposición que nos alteren los resultados del estudio. Todos estos problemas se evitan tomando los controles de la población general, pero esto es más costoso en esfuerzo y dinero, suelen ser menos colaboradores y, sobre todo, mucho más olvidadizos (los sanos recuerdan menos la exposición a factores de riesgo pasados), con lo que la calidad de la información que obtengamos de casos y controles puede ser muy diferente.

Solo una reflexión más para terminar con este tema tan ameno. Los estudios de casos y controles comparten una característica con el resto de los estudios observacionales: detectan la asociación entre la exposición y el efecto, pero no nos permiten establecer con seguridad relaciones de causalidad, para lo cual necesitamos otro tipo de estudios como los ensayos clínicos aleatorizados. Pero esa es otra historia…

Una de romanos

¡Qué tíos esos romanos!. Iban, veían y vencían. Con esas legiones, cada una con sus diez cohortes, cada cohorte con sus casi quinientos romanos con su falda y sus sandalias de correas. Las cohortes eran grupos de soldados que estaban al alcance de la arenga de un mismo jefe y siempre avanzaban, nunca retrocedían. Así se puede conquistar la Galia (aunque no en su totalidad, como es bien sabido).

En epidemiología, una cohorte es también un grupo de personas que comparten algo, pero en lugar de ser la arenga de su jefe es la exposición a un factor que se estudia a lo largo del tiempo (tampoco son imprescindibles ni la falda ni las sandalias). Así, un estudio de cohortes es un tipo de diseño observacional, analítico, de direccionalidad anterógrada y de temporalidad concurrente o mixta que compara la frecuencia con la que ocurre un determinado efecto (generalmente una enfermedad) en dos grupos diferentes (las cohortes), uno de ellos expuesto a un factor y otro no expuesto al mismo factor (ver figura adjunta). Por lo tanto, el muestreo está relacionado con la exposición al factor. Ambas cohortes se estudian a lo largo del tiempo, por lo que la mayor parte de los estudios de cohortes son prospectivos o de temporalidad concurrente (van hacia delante, como las cohortes romanas). Sin embargo, es posible hacer estudios de cohortes retrospectivos una vez ocurridos tanto la exposición como el efecto. En estos casos, el investigador identifica la exposición en el pasado, reconstruye la experiencia de la cohorte a lo largo del tiempo y asiste en el presente a la aparición del efecto, por lo que son estudios de temporalidad mixta.

Podemos clasificar también los estudios de cohortes según utilicen un grupo de comparación interno o externo. En ocasiones podemos utilizar dos cohortes internas pertenecientes a la misma población general, clasificando a los sujetos en una u otra cohorte según el nivel de exposición al factor. Sin embargo, otras veces la cohorte expuesta nos interesará por su alto nivel de exposición, por lo que preferiremos seleccionar una cohorte externa de sujetos no expuestos para realizar la comparación entre ambas.

Otro aspecto importante a la hora de clasificar los estudios de cohortes es el momento de inclusión de los sujetos en el estudio. Cuando solo seleccionamos los sujetos que cumplen los criterios de inclusión al comienzo del estudio hablamos de cohorte fija, mientras que hablaremos de cohorte abierta o dinámica cuando siguen entrando sujetos en el estudio a lo largo del seguimiento. Este aspecto tendrá importancia, como veremos después, a la hora de calcular las medidas de asociación entre exposición y efecto.

Por último, y como curiosidad, también podemos hacer un estudio con una sola cohorte si queremos estudiar la incidencia o la evolución de una determinada enfermedad. Aunque siempre podemos comparar los resultados con otros datos conocidos de la población general, este tipo de diseños carece de grupo de comparación en sentido estricto, por lo que se engloba dentro de los estudios descriptivos longitudinales.

Al realizarse un seguimiento a lo largo del tiempo, los estudios de cohortes permiten calcular la incidencia del efecto entre expuestos y no expuestos, calculando a partir de ellas una serie de medidas de asociación y de medidas de impacto características.

En los estudios con cohortes cerradas en las que el número de participantes es fijo, la medida de asociación es el riesgo relativo (RR), que es la proporción entre la incidencia de expuestos (Ie) y no expuestos (I0): RR = Ie/I0.

Como ya sabemos, el RR puede valer desde 0 a infinito. Un RR=1 quiere decir que no hay asociación entre exposición y efecto. Un RR<1 quiere decir que la exposición es un factor de protección frente al efecto. Por último, un RR>1 indica que la exposición es un factor de riesgo, tanto mayor cuanto mayor sea el valor del RR.

El caso de los estudios con cohortes abiertas en los que pueden entrar y salir participantes a lo largo del seguimiento es un poco más complejo, ya que en lugar de incidencias calcularemos densidades de incidencia, término que hace referencia al número de casos del efecto o enfermedad que se producen referidas al número de personas seguidas por tiempo de seguimiento de cada una (por ejemplo, número de casos por 100 personas-año). En estos casos, en lugar del RR calcularemos la razón de densidades de incidencia, que es el cociente de la densidad de incidencia en expuestos dividida por la densidad en no expuestos.

Estas medidas nos permiten estimar la fuerza de la asociación entre la exposición al factor y el efecto, pero no nos informan sobre el impacto potencial que tiene la exposición sobre la salud de la población (el efecto que tendría eliminar ese factor sobre la salud de la población). Para ello, tendremos que recurrir a las medidas de riesgo atribuible, que pueden ser absolutas o relativas.

Las medidas absolutas de riesgo atribuible son dos. La primera es el riesgo atribuible en expuestos (RAE), que es la diferencia entre la incidencia en expuestos y no expuestos y representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en los expuestos. La segunda es el riesgo atribuible poblacional (RAP), que representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en la población general.

Por su parte, las medidas relativas de riesgo atribuible (también conocidas como proporciones o fracciones atribuibles o etiológicas) son también dos. La primera, la fracción atribuible en expuestos (FAE), que representa la diferencia de riesgo relativo a la incidencia en el grupo de expuestos al factor. La segunda, la fracción atribuible poblacional (FAP), que representa la diferencia de riesgo relativo a la incidencia en la población general.

En la tabla que os adjunto podéis ver las fórmulas que se emplean para el cálculo de estas medidas de impacto.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo del número necesario a tratar (NNT) de los ensayos clínicos, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos entre expuestos y no expuestos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la FAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FAE. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE). Será de utilidad que intentemos calcularlos si los autores del estudio no lo hacen, ya que nos darán una idea del impacto real de la exposición sobre el efecto. En la segunda tabla os pongo las fórmulas que podéis utilizar para obtenerlos.

Como colofón a los tres anteriores, podríamos estimar el efecto de la exposición en toda la población calculando el número de impacto en la población (NIP), para lo cual no tenemos más que hacer el inverso del RAP. Así, un NIP de 3000 quiere decir que por cada 3000 sujetos de la población se producirá un caso de enfermedad debida a la exposición.

Otro aspecto que debemos tener en cuenta al tratar de los estudios de cohortes es su riesgo de sesgos. En general, los estudios observacionales tienen mayor riesgo de sesgo que los experimentales, además de ser susceptibles a la influencia de factores de confusión y de variables modificadoras de efecto.

El sesgo de selección debe considerarse siempre, ya que puede comprometer la validez interna y externa de los resultados del estudio. La dos cohortes deben ser comparables en todos los aspectos, además de ser representativas de la población de la que proceden.

Otro sesgo muy típico de los estudios de cohortes es el sesgo de clasificación, que se produce cuando se realiza una clasificación errónea de los participantes en cuanto a su exposición o a la detección del efecto (en el fondo no es más que otro sesgo de información). El sesgo de clasificación puede ser no diferencial cuando el error se produce al azar de forma independiente de las variables de estudio. Este tipo de sesgo de clasificación va a favor de la hipótesis nula, o sea, que nos dificulta detectar la asociación entre exposición y efecto, si es que esta existe. Si, a pesar del sesgo, detectamos la asociación, pues no pasará nada malo, pero si no la detectamos no sabremos si es que no existe o si no la vemos por la mala clasificación de los participantes. Por otra parte, el sesgo de clasificación es diferencial cuando se realiza de forma diferente entre las dos cohortes y tiene que ver con alguna de las variables del estudio. En este caso no hay perdón ni posibilidad de enmienda: la dirección de este sesgo es impredecible y compromete de forma mortal la validez de los resultados.

Por último, siempre debemos estar atentos a la posibilidad de que haya sesgo de confusión (por variables de confusión) o sesgo de interacción (por variables modificadoras de efecto). Lo ideal es prevenirlos en la fase de diseño, pero no está de más controlar los factores de confusión en la fase de análisis, fundamentalmente mediante análisis estratificados y estudios multivariados.

Y con esto llegamos al final de esta entrada. Vemos, pues, que los estudios de cohortes son muy útiles para calcular la asociación y el impacto entre efecto y exposición pero, cuidado, no sirven para establecer relaciones causales. Para eso son necesarios otros tipos de estudios.

El problema con los estudios de cohortes es que son difíciles (y costosos) de realizar de forma adecuada, suelen requerir muestran grandes y, a veces, periodos de seguimiento prolongados (con el consiguiente riesgo de pérdidas). Además, son poco útiles para enfermedades raras. Y no debemos olvidar que no nos permiten establecer relaciones de causalidad con la seguridad suficiente, aunque para ello sean mejores que sus primos los estudios de casos y controles, pero esa es otra historia…

Y tú ¿de quién eres?

Como ya sabemos por entradas previas, la sistemática de la medicina basada en la evidencia comienza con una laguna de conocimiento que nos mueve a realizar una pregunta clínica estructurada. Una vez que tenemos elaborada la pregunta, utilizaremos sus componentes para hacer una búsqueda bibliográfica y obtener las mejores pruebas disponibles para solucionar nuestra duda.

Y aquí viene, quizás, la parte más temida de la medicina basada en la evidencia: la lectura crítica de los trabajos encontrados. En realidad, la cosa no es para tanto ya que, con un poco de práctica, la lectura crítica consiste únicamente en aplicar de forma sistemática una serie de preguntas sobre el trabajo que estamos analizando. El problema viene a veces en saber qué preguntas tenemos que hacer, ya que esta sistemática tiene diferencias según el diseño del estudio que estemos valorando.

Decir que por diseño entendemos el conjunto de procedimientos, métodos y técnicas utilizados con los participantes del estudio, durante la recopilación de los datos y durante el análisis e interpretación de los resultados para obtener las conclusiones del estudio. Y es que hay una miríada de diseños de estudios posibles, sobre todo en los últimos tiempos en que a los epidemiólogos les ha dado por hacer diseños mixtos de estudios observacionales. Además, la terminología puede a veces ser confusa y utilizar términos que no nos aclaran bien cuál es el diseño que tenemos delante. Es como cuando llegamos a una boda de alguien de una familia numerosa y nos encontramos con un primo que no sabemos de dónde sale. Aunque busquemos los parecidos físicos, lo más seguro serán acabar preguntándole: y tú, ¿de quién eres? Solo así sabremos si es de la parte del novio o de la novia.

Lo que vamos a hacer en esta entrada es algo parecido. Vamos a tratar de establecer una serie de criterios de clasificación de estudios para, finalmente, establecer una serie de preguntas cuyas respuestas nos permitan identificar a qué familia pertenece.

Para empezar, el tipo de pregunta clínica a la que trata de responder el trabajo puede darnos alguna orientación. Si la pregunta es de tipo diagnóstico, lo más probable es que nos encontremos ante lo que se denomina estudio de pruebas diagnósticas, que suele ser un diseño en el que a una serie de participantes se les somete, de forma sistemática e independiente, a la prueba en estudio y al patrón de referencia (el gold standard, para aquellos que sepan inglés). Es un tipo de diseño especialmente pensado para este tipo de preguntas pero no os confiéis: a veces podremos ver preguntas de diagnóstico que tratan de responderse con otros tipos de estudios.

Si la pregunta es de tratamiento, lo más probable es que nos encontremos ante un ensayo clínico o, a veces, ante una revisión sistemática de ensayos clínicos. Sin embargo, no siempre existen ensayos sobre todo lo que busquemos y puede ocurrir que tengamos que conformarnos con un estudio observacional, como los de casos y controles o los de cohortes.

En caso de preguntas de pronóstico y de etiología/daño podremos encontrarnos ante un ensayo clínico, pero lo más habitual es que no sea posible realizar ensayos y solo existan estudios observacionales.

Una vez analizado este aspecto es posible que nos queden dudas sobre el tipo de diseño al que nos enfrentamos. Será entonces la hora de recurrir a nuestras preguntas acerca de seis criterios relacionados con el diseño metodológico: objetivo general de la pregunta clínica, direccionalidad del estudio, tipo de muestreo de los participantes, temporalidad de los sucesos, asignación de los factores de estudio y unidades de estudio utilizadas. Veamos con detalle qué significa cada uno de estos seis criterios, que veis resumidos en la tabla que os adjunto.

Según el objetivo, los estudios pueden ser descriptivos o analíticos. Un estudio descriptivo es aquel que, como su nombre indica, solo tiene la finalidad descriptiva de relatar cómo están las cosas, pero sin intención de establecer relaciones causales entre el factor de riesgo o exposición y el efecto estudiado (una determinada enfermedad o suceso de salud, en la mayor parte de los casos). Estos estudios responden a preguntas no muy complejas como ¿a cuántos? ¿dónde? o ¿a quién?, por lo que suelen ser sencillos y sirven para elaborar hipótesis que posteriormente necesitarán de estudios más complejos para su demostración.

Por el contrario, los estudios analíticos sí que tratan de establecer este tipo de relaciones, respondiendo a preguntas más del tipo ¿por qué? ¿cómo tratar? o ¿cómo prevenir? Como es lógico, para poder establecer este tipo de relaciones necesitarán tener un grupo con el que comparar (el grupo control). Esta será una pista útil para distinguir entre analíticos y descriptivos si nos queda alguna duda: la presencia de grupo de comparación será propia de los estudios analíticos.

La direccionalidad del estudio se refiere al orden en que se investigan la exposición y el efecto de esa exposición. El estudio tendrá una direccionalidad anterógrada cuando la exposición se estudia antes que el efecto y una direccionalidad retrógrada cuando se haga al contrario. Por ejemplo, si queremos investigar el efecto del tabaco sobre la mortalidad coronaria, podemos tomar una conjunto de fumadores y ver cuántos se mueren del corazón (anterógrada) o, al revés, tomar un conjunto de fallecidos por enfermedad coronaria y mirar a ver cuántos fumaban (retrógrada). Como es lógico, solo los estudios con direccionalidad anterógrada pueden asegurar que la exposición precede en el tiempo al efecto (¡ojo! no estoy diciendo que una sea causa del otro). Por último, decir que a veces podremos encontrarnos con estudios en los que exposición y efecto se estudian a la vez, hablando entonces de direccionalidad simultánea.

El tipo de muestreo tiene que ver con la forma de seleccionar los participantes del estudio. Estos pueden ser elegidos por estar sometidos al factor de exposición que nos interese, por haber presentado el efecto o por una combinación de los dos o, incluso, otros criterios ajenos a exposición y efecto.

Nuestro cuarto criterio es la temporalidad, que hace referencia a la relación en el tiempo entre el investigador y el factor de exposición o el efecto que se estudie. Un estudio tendrá una temporalidad histórica cuando efecto y exposición ya hayan ocurrido cuando se inicia el estudio. Por otra parte, cuando estos hechos tienen lugar durante la realización del estudio, este tendrá una temporalidad concurrente. A veces la exposición puede ser histórica y el efecto concurrente, hablándose entonces de temporalidad mixta.

Aquí me gustaría hacer un inciso sobre dos términos empleados por muchos autores y que os resultarán más familiares: prospectivos y retrospectivos. Serían estudios prospectivos aquellos en los que exposición y efecto no se han producido al inicio del estudio, mientras que serían retrospectivos aquellos en los que los hechos ya se han producido en el momento de realizar el estudio. Para rizar el rizo, cuando se combinan ambas situaciones hablaríamos de estudios ambispectivos. El problema con estos términos es que a veces se emplean de forma indistinta para expresar direccionalidad o temporalidad, que son cosas diferentes. Además, suelen asociarse con diseños determinados: los prospectivos con los estudios de cohortes y los retrospectivos con los de casos y controles. Quizás sea mejor emplear los criterios específicos de direccionalidad y temporalidad, que expresan los aspectos del diseño de forma más precisa.

Otros dos términos relacionados con la temporalidad son los de estudios transversales y longitudinales. Los transversales son aquellos que nos proporcionan una instantánea de cómo están las cosas en un momento dado, por lo que no permiten establecer relaciones temporales ni de causalidad. Suelen ser estudios de prevalencia y siempre de naturaleza descriptiva.

Por otra parte, en los longitudinales las variables se miden a lo largo de un periodo de tiempo, por lo que sí permiten establecer relaciones temporales, aunque sin control de cómo se asigna la exposición a los participantes. Estos pueden tener una direccionalidad anterógrada (como en los estudios de cohortes) o retrógrada (como en los estudios de casos y controles).

El penúltimo de los seis criterios que vamos a tener en cuenta es la asignación de los factores de estudio. En este sentido, un estudio será observacional cuando los investigadores sean meros observadores que no actúan sobre la asignación de los factores de exposición. En estos casos, la relación entre exposición y efecto puede verse afectada por otros factores, denominados de confusión, por lo que no permiten extraer conclusiones de causalidad. Por otra parte, cuando el investigador asigna de una forma controlada el efecto según un protocolo previo establecido, hablaremos de estudios experimentales o de intervención. Estos estudios experimentales con aleatorización son los únicos que permiten establecer relaciones de causa-efecto y son, por definición, estudios analíticos.

El último de los criterios se refiere a las unidades de estudio. Los estudios pueden estar realizados sobre participantes individuales o sobre grupos de población. Estos últimos son los estudios ecológicos y los ensayos comunitarios, que tienen unas características de diseño específicas.En la figura adjunta podéis ver un esquema de cómo clasificar los diferentes diseños epidemiológicos según estos criterios. Cuando tengáis duda de qué diseño se corresponde con el trabajo que estéis valorando, seguid este esquema. Lo primero será decidir si el estudio es de carácter observacional o experimental. Esto suele ser sencillo, así que pasamos al siguiente punto. Un observacional descriptivo (sin grupo de comparación) se corresponderá con una serie de casos o con un estudio transversal.

Si el estudio observacional es analítico pasaremos a ver el tipo de muestreo, que podrá ser por la enfermedad o efecto de estudio (estudio de casos y controles) o por la exposición al factor de riesgo o protección (estudio de cohortes).

Por último, si el estudio es experimental buscaremos si la exposición o intervención ha sido asignada de forma aleatoria y con grupo de comparación. En caso afirmativo nos encontraremos ante un ensayo clínico aleatorizado y controlado. En caso negativo, probablemente se trate de un ensayo no controlado u otro tipo de diseño cuasiexperimental.

Y aquí lo vamos a dejar por hoy. Hemos visto cómo identificar los tipos de diseños metodológicos más habituales. Pero hay muchos más. Algunos con una finalidad muy específica y un diseño propio, como los estudios económicos. Y otros que combinan características de diseños básicos, como los estudio de caso-cohorte o los estudios anidados. Pero esa es otra historia…

Simplificando el impacto

En los estudios epidemiológicos es habitual encontrar un conjunto de medidas de efecto como pueden ser los riesgos en expuestos y no expuestos, los riesgos relativos y las reducciones de riesgo. Sin embargo, para que el análisis de un estudio pueda considerarse bien hecho, conviene que las medidas de efecto se acompañen de una serie de medidas de impacto, que son las que nos informan de forma más precisa sobre el verdadero efecto de la exposición o intervención sobre el efecto que estamos estudiando.

Por ejemplo, si realizamos un estudio sobre la prevención de la mortalidad por una enfermedad con un tratamiento X, un riesgo relativo de 0,5 nos dirá que existe la mitad de probabilidad de morirse si tomamos el fármaco, pero no podemos ver de forma clara el impacto del tratamiento. Sin embargo, si calculamos el número necesario a tratar (NNT) y nos sale que es de dos, sabremos que uno de cada dos personas tratadas evitarán la muerte por esa enfermedad. Esta medida de impacto, el NNT, sí nos da una idea más clara del efecto real de la intervención en nuestra práctica.

Existen diversas medidas de impacto, además del NNT. En los estudios de cohortes, que son en los que nos vamos a centrar hoy, podemos calcular la diferencia de incidencias entre expuestos y no expuestos, la proporción atribuible en expuestos (PAE), la proporción evitable en expuestos (PEE) y la proporción atribuible poblacional (PAP).

La PAE nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. La PEE nos informaría de los casos de enfermedad en el grupo expuesto que podrían haberse evitado si no hubiese existido la exposición. formulas_cohortesPor último, la PAP es un riesgo específico atribuible que describe la proporción de casos que se podrían prevenir en la población si se eliminase completamente el factor de riesgo en estudio. Como un cuarto parámetro, considerando la presencia de exposición y enfermedad, podemos calcular la fracción de exposición en los casos (FEc), que define la proporción de casos expuestos que son atribuibles al factor de riesgo.

En la tabla que os adjunto podéis ver las fórmulas para el cálculo de estos parámetros.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo de los NNT, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la PAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FEc. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE).

numeros-impactoVeamos un ejemplo con los datos de la tabla adjunta, que se corresponden a un estudio ficticio sobre el efecto de la mortalidad coronaria por el hábito de fumar. Yo he usado una calculadora epidemiológica de las muchas que hay disponibles en Internet y he calculado una diferencia de riesgos de 0,0027, una PAP de 0,16 y una FEc de 0,4. Ya podemos calcular nuestros números de impacto.

El NIE será de 1/0,0027 = 366. Redondeando, de cada 365 fumadores, uno morirá por una cardiopatía atribuible al tabaco.

El NIC será de 1/0,16 = 6,25. De cada seis muertos por cardiopatía en la población, uno será atribuible al tabaco.

Por fin, el NICE será de 1/0,4 = 2,5. Aproximadamente, por cada tres muertos por cardiopatía entre los que fumaban, uno sería atribuible al vicio del tabaco.

Y aquí lo dejamos por hoy. No olvidéis que los datos del ejemplo son ficticios y no sé si se ajustan mucho a la realidad.

Hemos hablado solo de las estimaciones puntuales de los números de impacto pero, como siempre, lo preferible es el cálculo de sus intervalos de confianza. Los tres se pueden calcular con los límites de los intervalos de las medidas a partir de las que se obtienen los números de impacto, pero lo mejor es utilizar una calculadora que lo haga por nosotros. El cálculo de los intervalos de algunos parámetros como, por ejemplo, de la PAP puede ser complejo. Pero esa es otra historia…

Las tribulaciones de un intervalo

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

Clientes habituales

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

La escopeta de feria

Hace unos días estuve con mi primo en las fiestas de nuestro barrio y, para entretenernos un rato, estuvimos disparando unos perdigones en una de las casetas, a ver si conseguíamos llevarnos el osito de peluche.

Pero, nada, ni por casualidad.

Yo disparé un montón de veces, pero no metí ni un perdigón en la diana. Todos quedaron alrededor, pero ni uno solo en el centro. Mi primo, sin embargo, es un tirador de primera. El problema es que le dieron una escopeta con la mira torcida, así que le salieron todos los perdigones desviados y tampoco metió ninguno dentro de la diana. En resumen, nos quedamos sin peluche. En la figura que os adjunto podéis ver el destrozo de disparos que hicimos los dos.error sistematico y aleatorio

De todas formas y para sacar provecho de esta situación, mirando las dianas se me ocurre que guardan algún parecido con los dos tipos de error que podemos tener en nuestros estudios epidemiológicos.

Estos son, en sentido general, dos: el error aleatorio y el error sistemático.

El error aleatorio se debe a nuestro amigo el azar, del que no hay manera de librarse. Puede tener dos causas fundamentales. La primera, el error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas.

La otra fuente de error aleatorio es la propia variabilidad en la medición. Si nos tomamos la presión arterial varias veces, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos.

Este error aleatorio se relacionará con la precisión del resultado. Una medida será tanto más precisa cuanto menor sea el componente aleatorio, por lo que puede aumentarse la precisión aumentando el tamaño de la muestra o siendo más cuidadoso con las mediciones.

En nuestro ejemplo del tiro, yo representaría el error aleatorio. Se me desvían los tiros al azar, de modo que por la nube de impactos puede uno imaginarse por donde está la diana, pero ningún disparo la alcanza. Lógicamente, cuantos más disparos haga, más probabilidad habrá de dar en el centro, aunque sea por azar.

El segundo error que mencionamos es el error sistemático, también llamado sesgo. Este se debe a un error en el diseño o en el análisis del estudio, que produce una estimación incorrecta o no válida del efecto que estamos estudiando. En nuestro ejemplo, como ya habréis adivinado, mi primo representa el error sistemático. El tira muy bien, pero como la escopeta está mal calibrada, los tiros dan fuera de la diana, desviándose todos sistemáticamente en una misma dirección. Viendo solo los tiros no podemos imaginar donde está el centro, como veíamos con mis disparos en mi diana, porque pensaríamos que el centro está en una localización que, en realidad, no le corresponde. Así, el error aleatorio afecta a la precisión, mientras que el sistemático compromete la validez de los resultados. Y otra cosa, por más que mi primo aumente el número de disparos, le seguirán saliendo torcidos. El error sistemático no disminuye porque aumentemos el tamaño de la muestra.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de los tipos de errores sistemáticos, que hay varios. Se pueden dividir en sesgos de selección, de información y de análisis que, a su vez, pueden dividirse en otros muchos. Pero esa es otra historia…

Juntos, pero no revueltos

Los estudios observacionales son aquellos en los que, como su propio nombre indica, el investigador se limita a observar lo que pasa. Bueno, a observar y a analizar, pero no tiene ningún papel activo sobre la exposición o intervención en estudio. Dentro de estos estudios observacionales, todos conocemos los estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Por su parte en un estudio de casos y controles, se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y actúa como control.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso.

Vamos a empezar con el de casos y controles anidados. Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte).

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Y aquí vamos a dejarlo por hoy. Para resumir un poco, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudio convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte). Pero esa es otra historia…

Las generalizaciones son peligrosas

A todos nos gusta generalizar y a los estadísticos y epidemiólogos más que a nadie. A fin de cuentas, uno de los propósitos principales de estas dos ciencias es sacar conclusiones de una población inaccesible a partir de los resultados obtenidos en una muestra más pequeña y, por tanto, más manejable.

Por ejemplo, cuando hacemos un estudio sobre el efecto de un factor de riesgo sobre una determinada enfermedad, normalmente lo hacemos con un pequeño número de casos, que es nuestra muestra, pero para sacar conclusiones que podamos extrapolar a toda la población. Claro que, para poder hacerlo, necesitamos que la muestra sea la adecuada  y sea representativa de la población en la que queremos generalizar los resultados. Vamos a ver con un ejemplo qué pasa cuando esta premisa no se cumple.

Berkson1Supongamos que queremos estudiar si los sujetos afectos de neumonía tienen más riesgo de tener hipertensión arterial. Si vamos a lo más fácil, podemos usar nuestra base de datos de ingresos hospitalarios y obtener nuestra muestra de estudio tal como observamos en la primera tabla. Vemos que nuestra muestra engloba 135 pacientes que han requerido ingreso, 19 de los cuales tuvieron neumonía y cuatro, además hipertensión. Por otra parte, también podemos ver el número de hipertensos que es de 10, cuatro con neumonía y seis sin ella.

En primer lugar, vamos a ver si hay asociación entre las dos variables. Para ello podemos hacer un test de la chi-cuadrado bajo la hipótesis nula de no asociación. Yo he usado el programa R para calcularlo. Primero construyo la tabla con el siguiente comando:

Ingreso <- matrix(c(4,6,15,110), ncol=2)

y luego calculo la chi aplicando la corrección de Yates (hay una celda con valor menor de cinco):

chisq.test(Ingreso, correct=T)

Obtengo así un valor de chi = 3,91, que para un grado de libertad corresponde a una p=0,04. Como es menor de 0,05, rechazo la hipótesis nula de no asociación y concluyo que sí hay asociación entre las dos variables.

Ahora, para calcular la fuerza de la asociación calculo su odds ratio, utilizando para ello cualquiera de las calculadoras de epidemiología disponibles en Internet. La odds ratio es de 4,89, con un intervalo de confianza del 95% de 1,24 a 19,34. Concluimos así que los pacientes con neumonía tienen casi cinco veces más riesgo de tener hipertensión.

Y hasta aquí todo va bien. El problema surgiría si caemos en la tentación de generalizar el resultado a la población general. Y esto es así porque la odds ratio mide la fuerza de la asociación entre dos variables siempre que la muestra se haya obtenido de forma aleatoria, lo que no es nuestro caso. Veamos qué pasa si repetimos el experimento con una muestra más grande obtenida, no de nuestro registro hospitalario, sino de la población general (donde están incluidos los participantes en el primer experimento).

berkson2Obtenemos así la segunda tabla de contingencia, que engloba 2591 pacientes, 211 de los cuales son hipertensos. Siguiendo el mismo procedimiento del primer experimento, calculamos primero la chi-cuadrado, que, en este caso, tiene un valor de 1,86, al que le corresponde una p=0,17. Al ser mayor de 0,05 no podemos rechazar la hipótesis nula, luego tenemos que concluir que no hay asociación entre las dos variables.

Ya no tiene mucho sentido calcular la odds ratio, pero si lo hacemos veremos que vale 0,96, con un intervalo de confianza del 95% de 0,73 a 1,21. Como incluye el valor  uno, la odds ratio tampoco es significativa.

¿Por qué ocurre esta diferencia entre los dos resultados?.  Esto ocurre porque los riesgos de hospitalización son diferentes entre los distintos grupos. De los 100 individuos que tienen neumonía (segunda tabla), cuatro precisan ingreso (primera tabla), luego el riesgo es de 4/10 = 0,4. El riesgo entre los que tienen solo hipertensión es de 6/111 = 0,05, y el de los que no tienen ninguna enfermedad es de 110/1230 = 0,09.

De esta forma, vemos que los pacientes con neumonía tienen más riesgo que el resto de ser hospitalizados.  Si cometemos el error de incluir solo pacientes hospitalizados, nuestros resultados estarán sesgados respecto a la población general, observando así una asociación que, en realidad, no existe. Este tipo de asociación espuria entre variables que se produce por una elección incorrecta de la muestra se conoce con el nombre de falacia de Berkson.

Y aquí lo dejamos. Vemos que el modo de elegir la muestra es de importancia capital a la hora de generalizar los resultados de un estudio. Es lo que suele ocurrir con los ensayos clínicos con criterios de inclusión muy estrictos, que es difícil generalizar sus resultados. Por eso hay autores que prefieren realizar ensayos clínicos pragmáticos, más pegados a la realidad cotidiana y mucho más generalizables. Pero esa es otra historia…