Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasVariable de confusión
image_pdf

Ménage à trois

En esta entrada vamos a dar otra vuelta de tuerca al asunto de las variables que pueden enturbiar la armoniosa relación de la pareja formada por exposición y efecto, así que todas aquellas mentes sucias que esperaban otra cosa al leer el título pueden pasar al siguiente resultado de Google, que seguro que aciertan con lo que andaban buscando.

Ya vimos como existen variables de confusión que se relacionan con el efecto y la exposición y cómo pueden alterar nuestras estimaciones de las medidas de asociación si estas variables no se reparten de forma homogénea entre los grupos de estudio. Hablamos de nuestra puerta trasera, de cómo evitarla y de cómo cerrarla, tanto en los estudios de cohortes como en los de casos y controles.

Pero, en ocasiones, el efecto de la exposición sobre el resultado estudiado no es siempre el mismo, pudiendo variar en intensidad según se modifica el valor o nivel de una tercera variable. Al igual que ocurría con la confusión, lo observamos mejor al estratificar los resultados para hacer el análisis, pero en estos casos no se debe a la distribución desigual de la variable, sino a que el efecto de la exposición se ve realmente modificado por la magnitud de esta variable, que recibe el nombre de variable de interacción o variable modificadora de efecto.

Como es lógico, es fundamental diferenciar entre variable de confusión y variable de interacción. El efecto de la variable de confusión depende de su distribución entre los grupos de estudio. En el caso de estudios experimentales, esta distribución puede ser diferente según se haya producido el reparto al hacer la aleatorización, por lo que una variable puede actuar como confusora en un ensayo y no en otro. Sin embargo, en los estudios observacionales siempre ejercen su efecto, ya que se encuentran asociadas tanto al factor como a la exposición. Cuando encontramos una variable confusora nuestro objetivo será controlar su efecto y estimar una medida de asociación ajustada.

Por otra parte, las variables modificadoras de efecto reflejan una característica de la relación entre exposición y efecto, cuya intensidad depende del ménage à trois que forman con esta tercera variable de interacción. Si pensamos un poco, en el caso de que exista una modificación de efecto no nos interesará calcular una medida ajustada de la asociación, como la que obtendríamos con la prueba de Mantel-Haenszel, ya que no sería representativa del efecto global de la exposición sobre el efecto. Tampoco es buena idea hacer una simple media aritmética de las medidas de asociación que observamos en cada estrato. En todo caso lo que tenemos que hacer es describirla y no tratar de controlarla, como hacemos con las variables confusoras.

Antes de poder decir que existe una variable modificadora de efecto debemos descartar que las diferencias observadas se deban al azar, a confusión o a sesgos de nuestro estudio. Observar los intervalos de confianza de las medidas de estimación nos puede ayudar a descartar el azar, que será más improbable si los intervalos no se solapan. Podemos calcular también si las diferencias entre los estratos son estadísticamente significativas, utilizando para ello es test apropiado a cada diseño de estudio.

¿Y podemos estimar una medida global de la influencia de la exposición sobre el efecto que tenga en cuenta la existencia de una variable de interacción?. Pues claro que podemos, ¿alguien lo dudaba?.

Quizás la forma más sencilla es calcular una medida estandarizada. Para ello comparamos dos medidas diferentes, una que asume que cada elemento de cada estrato de la población tiene el riesgo de los expuestos y otra que asume lo mismo pero de los no expuestos. Se estima así una medida de la asociación en la población global estándar que hemos definido. ¿Confuso?. Veamos un ejemplo.Vamos a seguir aburriendo hasta la extenuación con los pobres fumadores y su enfermedad coronaria. En la primera tabla están los resultados de un estudio que me acabo de inventar sobre tabaco e infarto de miocardio.

variable_interferenciaVemos que, de forma global, los fumadores tienen un riesgo siete veces superior de sufrir infarto que los no fumadores (riesgo relativo, RR = 7). Vamos a suponer que fumadores y no fumadores tienen una distribución de edad semejante, pero que al desglosar los datos en dos grupos de edad los riesgos son diferentes. El RR en menores de 50 años es de 2, frente al de los mayores, cuyo riesgo de infarto es tres veces mayor para los fumadores que para los no fumadores.

RR_estandarizadoVamos a calcular las dos medidas de asociación, una suponiendo que todos fuman y la otra suponiendo que no fuma ninguno. En menores de 50 años, el riesgo de infarto si todos fuman es de 5/197 = 0,02. Si tenemos 454 menores de 50 años, el número de casos de infarto esperables sería de 454×0,02 = 9,1. El riesgo en no fumadores sería de 3/257 = 0,01, luego esperaríamos encontrar 0,01×454 = 4,5 infartos en no fumadores.

Hacemos los mismos cálculos con los mayores de 50 años y sumamos el total de personas (770), el total de infartos en fumadores (47,1) y en no fumadores (10,8). El riesgo estandarizado en los fumadores de esta población es de 47,1/770 = 0,06. El riesgo estandarizado en no fumadores, 10,8/770 = 0,01. Por último, calculamos el RR estandarizado: 0,06/0,01 = 6. Esto significa que, de forma global, fumar multiplica por seis el riesgo de infarto, pero no olvidemos que este resultado es válido solo para esta población estándar y que no lo sería probablemente para otra población diferente.

Solo una cosa más antes de acabar. Como ocurre con el análisis de las variables de confusión, el análisis de la modificación de efecto puede hacerse también mediante regresión, introduciendo en la ecuación obtenida unos coeficientes de interacción que corrigen el efecto. Además, estos coeficientes nos resultan muy útiles porque su significación estadística nos sirve para distinguir entre confusión e interacción. Pero esa es otra historia…

Una cuestión de parejas

Vimos en la entrada anterior cómo los estudios observacionales, más concretamente los estudios de cohortes y los de casos y controles, están llenos de trampas y vericuetos. Una de estas trampas es la puerta de atrás por la que se nos escapan los datos, de forma que obtenemos medidas de estimación de asociación erróneas. Esta puerta trasera son los llamados factores de confusión.

Ya sabemos que hay varias formas de controlar la confusión. Una de ellas, el emparejamiento, tiene sus peculiaridades según la empleemos con estudios de cohortes o con estudios de casos y controles.

Cuando se trata de estudios de cohortes, el emparejar por el factor de confusión nos permite obtener una medida de asociación ajustada. Esto es así porque controlamos la influencia de la variable confusora sobre la exposición y sobre el efecto. Sin embargo, lo anterior no se cumple cuando utilizamos la técnica de emparejamiento en un estudio de casos y controles. El diseño de este tipo de estudios nos impone la obligación de realizar el emparejamiento una vez que se ha producido el efecto. De esta forma, los pacientes que actúan como controles no constituyen un conjunto de individuos independientes elegidos al azar, ya que cada control fue seleccionado cumpliendo una serie de criterios determinados según el caso con el que se emparejó. Esto, lógicamente, evita que podamos seleccionar otros individuos de la población que no cumplen los criterios especificados pero que serían potencialmente incluibles en el estudio. Si nos olvidamos de este pequeño detalle y aplicamos la misma metodología de análisis que usaríamos en un estudio de cohortes incurriríamos en un sesgo de selección que invalidaría nuestros resultados. Además, aunque conseguimos forzar una distribución similar del factor de confusión, solo controlamos totalmente su influencia sobre el efecto, pero no sobre la exposición.

Así que la mentalidad del análisis varía un poco cuando valoramos los resultados de un estudio de casos y controles en los que hemos utilizado la técnica de emparejamiento para controlar factores de confusión. Mientras que en un estudio sin emparejamiento analizamos la asociación entre exposición y efecto en el grupo global, cuando hemos emparejado debemos estudiar el efecto en las parejas de caso-control.

cada oveja_casos controlesVamos a verlo continuando con el ejemplo del efecto del tabaco sobre la aparición de carcinoma laríngeo de la entrada anterior.

En la tabla superior vemos los datos globales del estudio. Si analizamos los datos sin tener en cuenta que hemos utilizado el emparejamiento para seleccionar los controles obtenemos una odds ratio de 2,18, como vimos en la entrada anterior. Sin embargo, sabemos que esta estimación es errónea. ¿Qué hacemos?. Considerar el efecto de las parejas, pero solo de las mal avenidas.

Vemos en la tabla inferior la distribución de las parejas en función de su exposición al tabaco. Tenemos 208 parejas en las que tanto el caso (persona con cáncer laríngeo) como el control son fumadores. Al estar los dos sometidos a la exposición no nos servirán para estimar su asociación con el efecto. Lo mismo puede decirse de las 46 parejas en las que ni el caso ni el control fuman. Las parejas que nos interesan son las 14 en las que el control fuma pero el caso no lo hace y las 62 en las que solo fuma el caso, pero no el control.

Estas parejas discordantes son las únicas que nos dan información sobre el efecto del tabaco sobre la aparición del cáncer de laringe. Si calculamos la odds ratio vemos que es de 62/14 = 4,4, una medida de asociación más fuerte que la que obtuvimos previamente y, sin duda, mucho más próxima a la realidad.

Por último, solo me resta hacer tres consideraciones antes de terminar. La primera es, aunque no creo que haga falta, recordaros que los datos son producto de mi imaginación y que el ejemplo es totalmente ficticio aunque no parezca tan estúpido como otros que inventé en otras entradas. La segunda, que estos cálculos suelen hacerse con programas informáticos, utilizando la prueba de Mantel-Haenszel o la prueba de McNemar. La tercera, comentar que en todos estos ejemplos hemos utilizado un emparejamiento con una relación 1:1 (un control por cada caso), pero esto no tiene por qué ser obligatoriamente así ya que, en algunas ocasiones, puede interesar utilizar más de un control por cada caso. Esto conlleva sus diferencias sobre la influencia del factor de confusión sobre la medida de asociación estimada y sus consideraciones a la hora de realizar el análisis. Pero esa es otra historia…

Cada oveja, con su pareja

En ocasiones, no podemos evitar que en nuestros estudios se nos metan factores de confusión, conocidos o desconocidos. Estas variables confusoras abren una puerta trasera por la que se cuelan nuestros datos, haciendo que las medidas de asociación entre exposición y efecto que estimamos mediante el estudio no se correspondan con la realidad.

En la fase de análisis suelen utilizarse técnicas como la estratificación, o modelos de regresión para medir la asociación ajustando por la variable confusora. Pero también podemos intentar prevenir la confusión en la fase de diseño. Una forma es restringiendo los criterios de inclusión según la variable de confusión. Otra estrategia consiste en seleccionar los controles para que tengan la misma distribución de la variable confusora que el grupo de intervención. Esto es lo que se conoce como emparejamiento.

cada oveja_poblacion generalSupongamos que queremos determinar el efecto del tabaco sobre la frecuencia de aparición de cáncer laríngeo, en una población con la distribución que veis en la primera tabla. Podemos ver que el 80% de los fumadores son hombres, mientras que solo el 20% de los no fumadores lo son. Nos inventamos que el riesgo de cáncer en hombres es del 2%, pero que sube hasta el 6% para los fumadores. Por su parte, el riesgo en mujeres es del 1%, llegando hasta un 3% si fuman. Así que, aunque todos doblan el riesgo si se apuntan al más antisocial de los vicios, los hombres siempre tienen el doble de riesgo que las mujeres (a igualdad de exposición al tabaco entre los dos sexos, porque los que fuman tienen seis veces más riesgo que las no fumadoras). En resumen, el sexo actúa como factor de confusión: influye sobre la probabilidad de sufrir la exposición y sobre la probabilidad de padecer el efecto, pero no forma parte de la secuencia causal entre tabaco y cáncer de laringe. Esto tendríamos que tenerlo en cuenta a la hora del análisis y calcular el riesgo relativo ajustado mediante la técnica de Mantel-Haenszel o utilizando un  modelo de regresión logística.

Pero otra posibilidad, si conocemos el factor de confusión, es intentar prevenir su efecto durante la fase de planificación del estudio. Supongamos que partimos de una cohorte de 500 fumadores, el 80% hombres y el 20% mujeres. En lugar de tomar 500 controles no fumadores al azar (solo el 20% serían hombres), incluímos en la cohorte no expuesta un no fumador por cada fumador de la cohorte expuesta y una no fumadora por cada fumadora de la cohorte expuesta. Tendremos dos cohortes con una distribución similar de la variable de confusión y, lógicamente, también similares en la distribución del resto de las variables conocidas (en caso contrario no podríamos compararlas).

¿Hemos solucionado el problema de la confusión?. Vamos a comprobarlo.

puerta_trasera_edadesVemos la tabla de contingencia de nuestro estudio con 1000 personas, puerta_trasera_edadesel 80% hombres y el 20% mujeres en los dos grupos, expuestos y no expuestos. Como sabemos el riesgo de desarrollar cáncer en función del sexo y el estado de fumador, podemos calcular el número de personas que esperamos que desarrollen cáncer a lo largo del estudio: 24 fumadores (el 6% de 400), ocho no fumadores (2% de 400), tres fumadoras (3% de 100) y una mujer no fumadora (1% de 100).

Con estos datos podemos construir las tablas de contingencia, global y estratificadas por sexos, que esperamos encontrar al finalizar el seguimiento. Si calculamos la medida de asociación (en este caso, el riesgo relativo) en hombres y mujeres por separado vemos que coincide (RR = 3). Además, es el mismo riesgo que el de la cohorte global, así que parece que hemos conseguido cerrar la puerta trasera. Ya sabemos que, en un estudio de cohortes, el emparejamiento por el factor de confusión nos permite contrarrestar su efecto.

Ahora supongamos que en lugar de un estudio de cohortes queremos realizar un estudio de casos y controles. ¿Podemos usar el emparejamiento?. Pues claro que podemos, ¿quién nos lo va a impedir?. Pero hay un pequeño problema.

Si pensamos un poco, nos daremos cuenta de que el emparejamiento con las cohortes influye tanto sobre la exposición como sobre el efecto. Sin embargo, en los estudios de casos y controles, el forzar una distribución similar del factor de confusión afecta solo a su influencia sobre el efecto y no a la que tiene sobre la exposición. Esto es así porque al homogeneizar según el factor de confusión se hace también según otros factores relacionados con él, entre otros, la propia exposición. Por este motivo, el emparejamiento no nos garantiza el cierre de la puerta trasera en los estudios de casos y controles.

¿Alguien no se lo cree?. Vamopuerta_trasera_edadess a suponer que, al finalizar el estudio de cohortes, seleccionamos 330 personas con cáncer laríngeo (80% hombres y 20% mujeres). Para hacer el estudio de casos y controles seleccionamos como controles un grupo de personas de la misma población que no tenga cáncer laríngeo (es lo que se denomina un estudio de casos y controles anidado en un estudio de cohortes).

El número de expuestos y no expuestos lo conocemos de los datos que dimos al principio de la población general, conociendo el riesgo de cáncer que se presenta según el género y la exposición al tabaco. Por otra parte, podemos también construir la tabla de los controles, ya que sabemos el porcentaje de exposición al tabaco según el sexo.

Por último, con los datos de estas tres tablas podremos construir las tablas de contingencia para el estudio global y las correspondientes a hombres y mujeres.

En este caso, la medida de asociación idónea es la odds ratio, que tiene un valor de tres para hombres y mujeres, pero que es de 2,18 para la población global del estudio. Vemos, pues, que no coinciden,puerta_trasera_edades lo que nos está diciendo que no nos hemos librado completamente del efecto de la variable de confusión aunque hayamos utilizado la técnica de emparejamiento para seleccionar el grupo control.

Entonces, ¿no puede utilizarse el emparejamiento en los estudios de casos y controles?. Pues sí, sí que se puede, aunque el análisis de los resultados para estimar la medida de asociación ajustada es un poco diferente. Pero esa es otra historia…

La puerta de atrás

¡Cómo me gustaría tener una máquina del tiempo!. Pensadlo un momento. No tendríamos que trabajar (habríamos ganado la lotería varias veces), podríamos anticiparnos a todas nuestras desgracias, tomar siempre la mejor decisión… Sería como en la película de “El día de la marmota”, pero sin hacer tanto el panoli.

Claro que si tuviésemos una máquina del tiempo que funcionase, habría profesiones que podrían desaparecer. Por ejemplo, los epidemiólogos lo llevarían crudo. Si quisiéramos saber, imaginemos, si el tabaco es un factor de riesgo para tener enfermedad coronaria, solo tendríamos que tomar un grupo de personas, decirles que no fumasen y ver qué pasaba veinte años después. Entonces haríamos retroceder el tiempo, les obligaríamos a fumar, veríamos que pasaba veinte años después y compararíamos los dos resultados. ¡Qué fácil!, ¿no?. ¿Quién necesitaría un epidemiólogo y toda su compleja ciencia de asociaciones y diseños de estudios?. Podríamos estudiar la influencia de la exposición (el tabaco) sobre el efecto (la enfermedad coronaria) comparando estos dos resultados potenciales, también llamados resultados contrafactuales (perdón por el palabro).

Sin embargo, a falta de máquina del tiempo, la realidad es que no podemos medir los dos resultados en una misma persona y, aunque parezca una obviedad, lo que quiere decir, en realidad, es que no podemos medir de forma directa el efecto de la exposición en una persona determinada.

Por eso los epidemiólogos recurren al estudio de poblaciones. Normalmente en una población habrá sujetos expuestos y no expuestos, así que podemos tratar de estimar el efecto contrafactual de cada grupo para calcular cuál sería el efecto medio de la exposición sobre la población en conjunto. Por ejemplo, la incidencia de enfermedad coronaria en no fumadores puede servirnos para estimar cuál habría sido la incidencia de enfermedad en los fumadores si no hubiesen fumado. Esto posibilita que la diferencia de enfermedad entre los dos grupos (la diferencia entre sus resultados factuales), expresada mediante la medida de asociación que corresponda, sea un estimador del efecto medio de fumar sobre la incidencia de enfermedad coronaria en la población.

Todo esto que hemos dicho exige un requisito previo: que los resultados contrafactuales sean intercambiables. Esto quiere decir, en nuestro caso, que la incidencia de enfermedad de los fumadores, si no hubiesen fumado, hubiese sido la misma que la que tienen los no fumadores, que no han fumado nunca. Y viceversa: si el grupo de no fumadores hubiese fumado tendría la incidencia que ahora observamos en los fumadores. Esto parece otra obviedad, pero no siempre es así, ya que en estas relaciones entre factor y exposición existen, con frecuencia, puertas traseras que hacen que los resultados contrafactuales de los dos grupos no sean intercambiables, por lo que las estimaciones de las medidas de asociación pueden no ser las correctas. Esto es lo que llamamos factores o variables de confusión.

Vamos a aclararnos un poco con un ejemplo ficticio. puerta_trasera_globalEn la primera tabla os presento los resultados de un estudio de cohortes (que me acabo de inventar) que evalúa los efectos del tabaquismo sobre la incidencia de enfermedad coronaria. El riesgo de enfermar es de 0,36 (394/1090) entre los fumadores y de 0,34 (381/1127) entre los no fumadores, así que el riesgo relativo (RR, la medida de asociación pertinente en este caso) es de 0,36/0,34 = 1,05. ¡Lo sabía!. ¡Si ya lo dijo Woody Allen en “El dormilón”!. El tabaco no es tan malo como se pensaba. Mañana mismo vuelvo a fumar.

¿Seguro?. Resulta que, dándole vueltas al asunto, se me ocurre que igual hay algo que puede estar mal. La muestra es grande, así que es poco probable que el azar me haya jugado una mala jugada. El estudio no tiene, aparentemente, riesgo importante de sesgos, aunque nunca te puedes fiar completamente. Así que, dando por supuesto que Woody Allen se equivocaba en su película, solo queda la posibilidad de que se nos haya metido una variable confusora que nos esté alterando los resultados.

La variable confusora tiene que cumplir tres requisitos. Primero, debe estar asociada con la exposición. Segunda, debe estar asociada con el efecto de forma independiente a la exposición que estemos estudiando. Tercero, no debe formar parte de la cadena de causa-efecto entre la exposición y el efecto.

Aquí es donde entra en juego la imaginación del investigador, que tiene que pensar qué variables pueden actuar como confusoras. A mí, en este caso, la primera que se me ocurre es la edad. Cumple el segundo punto (los más viejos tienen más riesgo de enfermedad coronaria) y el tercero (por muy malo que sea el tabaco, no te aumenta el riesgo de enfermar porque te haga más viejo). Pero, ¿satisface el primero?. ¿Hay una asociación entre edad y el hecho de fumar?. Resulta que no lo habíamos pensado antes, pero si esto fuese así, podría explicarlo todo. Por ejemplo, si los fumadores fuesen más jóvenes, el efecto perjudicial del tabaco podría verse contrarrestado por el “beneficioso” de la edad. Y viceversa, el beneficio de los más mayores por no fumar se esfumaría por culpa del mayor riesgo de la edad.

¿Cómo podemos comprobar este punto?. Vamos a separar los datos de los menores y mayores de 50 años y vamos a calcular de nuevo los riesgos. Si los riesgos relativos son diferentes, probablemente querrá decir que la edad está actuando como variable confusora. Por el contrario, si son iguales no habrá más remedio que darle la razón a Woody Allen.puerta_trasera_edades

Veamos la tabla de los más jóvenes. El riesgo de enfermar es de 0,28 (166/591) en los fumadores y de 0,11 (68/605) en los no fumadores, luego el RR es de 2,5. Por su parte, en los mayores de 50 años, el riesgo de enfermar es de 0,58 (227/387) en los fumadores y de 0,49 (314/634) en los no fumadores, con lo que el RR es de 1,18. Lo siento por los que fumáis, pero El Dormilón no tenía razón: el tabaco es malo.

Con este ejemplo nos damos cuenta de lo importante que es lo que dijimos antes de que los resultados contrafactuales sean intercambiables. Si la distribución de edad es diferente entre expuestos y no expuestos y tenemos la desgracia de que la edad es una variable confusora, el resultado observado en los fumadores ya no será intercambiable con el resultado contrafactual de los no fumadores, y viceversa.

¿Podemos evitar este efecto?. Sí, lo que no podemos es evitar el efecto de la variable confusora, y esto supone un problema todavía mayor cuando desconocemos que nos puede jugar esta mala pasada. Por esto es esencial tomar una serie de medidas al diseñar el estudio que minimicen el riesgo de que ocurra y de que tengamos puertas traseras por donde se cuelen los datos.

Una de ellas es la aleatorización, con la que trataremos que ambos grupos sean similares en cuanto a la distribución de variables confusoras, conocidas y no conocidas. Otra sería restringir la inclusión en el estudio a un grupo determinado como, en este ejemplo, los menores de 50 años. El problema es que esto no podemos hacerlo para variables confusoras desconocidas. Otra tercera posibilidad es utilizar datos pareados, de tal forma que por cada fumador joven incluyamos un no fumador joven, y lo mismo para los mayores. Para aplicar este emparejamiento también hace falta conocer previamente el papel de la variable confusora.

¿Y qué hacemos una vez que ya hemos terminado el estudio y comprobamos con horror que hay una puerta trasera?. Lo primero, no desesperar. Siempre podemos utilizar los múltiples recursos de la epidemiología para calcular una medida de asociación ajustada que nos estime la relación entre exposición y efecto sin tener en cuenta el efecto de confusión. Además, hay varios métodos para hacer este análisis, unos más sencillos y otros más complejos, aunque todos ellos muy elegantes. Pero esa es otra historia…