Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado pormarzo 2013
image_pdf

La falacia del chocolate

Blanco, negro, relleno, en onzas, a la taza, en polvo, helado, con avellanas, con almendras, con frutas, con leche, puro, fondant, amargo, en pasteles, en bombones, en bebidas calientes o frías, etc, etc, etc. Todos me gustan.

chocolate_nobelAsí que podréis fácilmente imaginar mi alegría cuando mi lector de RSS me mostró el título del artículo del New England que decía que había una relación entre consumo de chocolate y premios Nobel. Ya me veía comiendo chocolate a montones con mi copia del artículo en el bolsillo para tapar la boca a todos lo que viniesen a fastidiarme la fiesta diciéndome que me estaba pasando con las calorías, la grasa, el azúcar, o lo que fuese. Al fin y al cabo, ¿qué puede ser más importante que trabajar para conseguir un Nobel?.

Llegados a este punto, podéis también fácilmente imaginar mi frustración al leer el trabajo y ver que el título tenía gato encerrado. Resulta que se trataba de un estudio ecológico.

En los estudios epidemiológicos que estamos más habituados a leer, las unidades de análisis suelen ser elementos aislados. Sin embargo, en los estudios ecológicos estas unidades se forman con agregados de individuos.

En cada unidad se obtiene una medida sintética de la frecuencia de la exposición y del efecto en los individuos de ese agregado, comprobándose al final si existe asociación entre exposición y efecto entre las diferentes unidades.

Hay dos tipos de estudios ecológicos. Por un lado están los que estudian medidas de frecuencia como la incidencia, mortalidad, etc, buscando patrones geográficos diferentes que puedan estar en relación con factores sociales, económicos, genéticos o lo que sea. Por otro, tenemos los que estudian las variaciones de las frecuencias a lo largo del tiempo con el objetivo de buscar tendencias temporales y, en caso de detectarlas, tratar de explicar su causa.

Estos estudios suelen ser sencillos y rápidos de realizar, ya que muchas veces se elaboran a partir de datos que previamente están disponibles en registros o anuarios, por lo que, además, no suelen ser demasiado caros. El problema con los estudios ecológicos es que el hecho de que exista una asociación entre las unidades de análisis no quiere decir obligatoriamente que ésta también exista a nivel de individuos. Si asumimos a la ligera esta asociación a nivel de individuos corremos el riesgo de cometer un pecado que se conoce con el bonito nombre de falacia ecológica. Uno puede ponerse a comparar toda variable que se le ocurra con la frecuencia de una enfermedad determinada hasta encontrar una asociación significativa, pero después será imposible encontrar un mecanismo plausible que la explique. En nuestro ejemplo, podría incluso darse el caso de que, a nivel individual, el comer más chocolate te embrutezca los sentidos y te aleje del ansiado premio Nobel.

Y para el que no lo crea, vamos a verlo con un ejemplo absurdo y totalmente inventado. Supongamos que queremos saber si hay relación entre ver la televisión durante más de cuatro horas al día y ser vegetariano estricto. Resulta que tenemos los datos de tres encuestas realizadas en tres ciudades, que vamos a llamar A, B y C para no buscarnos más líos.falacia

Si calculamos la prevalencia de teleadicción y vegetarianismo vemos que es de 0,4 en A, 0,5 en B y 0,6 en C. Está bastante claro, en las ciudades en las que hay más adictos a la caja tonta hay más vegetarianos estrictos, lo que puede indicar que el uso de la televisión es incluso más peligroso de lo que ya creíamos previamente.

Pero estos son resultados agregados. ¿Qué pasa a nivel individual?. Pues vemos que las odds ratios son de 0,33 en A y C y de 0,44 en B. Así que, sorprendentemente, aunque en las ciudades con más teleadictos haya más vegetarianos, los teleadictos tienen un 33-44% de probabilidades menos de ser vegetarianos estrictos. Vemos, pues, lo importante que es que los resultados de un estudio ecológico sean posteriormente investigados con otros diseños de estudios analíticos para explicarlos de manera correcta.

Solo dos aspectos más para terminar esta entrada. Primero, que me perdonen los vegetarianos, aunque sean estrictos, y, ¿por qué no?, también los que ven la tele mucho rato. Segundo, ya hemos visto que la falacia del chocolate es, en realidad, una falacia ecológica. Pero, incluso en el caso de que hubiesen sido datos de unidades de análisis individuales, hay que recordar siempre que ni correlación ni asociación son sinónimos de causalidad. Pero esa es otra historia…

Divide y vencerás

¿Quién no ha escuchado esta frase un montón de veces?. Es bastante famosa y, aunque parezca curioso, no se conoce bien su origen. Hay quien dice que fue una ocurrencia de Julio César, pero parece que no hay prueba escrita que lo demuestre. Otros dicen que fue una inspiración de Maquiavelo, muy dado a hacer faenas al prójimo con tal de obtener beneficio propio.

Yo creo que lo más probable es que el premio no sea para ninguno de los dos y que la frase en cuestión sea una más del vasto acervo cultural de nuestra mal llamada Humanidad. De lo que no cabe duda, sin embargo, es de que constituye el núcleo de una útil estrategia para la solución de problemas de cierta complejidad. Se divide el problema en partes más pequeñas, se resuelven éstas con más facilidad y se utilizan estas soluciones para construir la solución compleja del problema inicial.

¿Recordáis el estudio sobre tabaco y enfermedad coronaria de cuando hablamos de factores de confusión?. Llegamos a demostrar que el efecto de la variable confusora nos enmascaraba el verdadero efecto del tabaco sobre la enfermedad. Pues bien, vamos a dividir para poder vencer.

Para ello vamos a emplear una de las técnicas que existen para estimar el efecto de la variable confusora: la estratificación. Esto consiste en crear subgrupos a partir de la muestra inicial, de forma que cada subgrupo se vea libre de la confusión producida por el factor. Una vez hecho esto, podremos estimar por separado las medidas de asociación y, en caso de que no sean iguales (por efecto de la variable confusora), calcular la estimación de asociación ajustada por el factor por el que hemos estratificado (el de confusión).

Cuando la variable confusora no es continua (por ejemplo, hombre y mujer) lo tenemos fácil para estratificar. Sin embargo, si el factor de confusión es una variable continua, como la edad, puede ser complicado decidir cuántos estratos necesitamos. Por una parte, cuánto más estratifiquemos menos confusión tendremos, pero será más difícil obtener información útil de estratos más pequeños. Y al revés, si hay pocos estratos corremos el riesgo de no ajustar bien la estimación de la medida de asociación.

Yo, como soy bastante chapuza y no quiero hacer muchos números, os voy a poner el ejemplo estratificando en dos grupos por edad: mayores y menores de 50 años.divide y vencerasVeis que los riesgos relativos (RR) son diferentes, lo que indica que, probablemente, la edad actúa como variable confusora. Una de las formas para separar el efecto de la edad y obtener una estimación de la asociación del efecto exclusivo del tabaco sobre la enfermedad coronaria es calcular una media ponderada del RR mediante el método de Mantel-Haenszel.

Este método pondera de forma combinada los tres factores de la tabla de contingencia que reflejan la información sobre efecto y exposición: la frecuencia del efecto entre expuestos y no expuestos, los tamaños relativos de los grupos de comparación y el tamaño global de cada estrato. Como es natural, estos dos señores explican esto con un formulón de no te menees, que me vais  a perdonar que no ponga aquí. Simplemente, vamos a ver cómo se calcula el nuevo RR ajustado.

Para calcular el riesgo ponderado de los expuestos, en lugar de dividir el número de expuestos enfermos entre el total de expuestos como haríamos normalmente (166/591, para menores de 50 años), lo dividimos por el total del estrato y lo multiplicamos por el total de no expuestos, de la siguiente manera:

– Menores de 50 años: Re = 166 x (605/1196) = 83,97.

– Mayores de 50 años: Re = 227 x (634/1021) = 140,95.

De manera similar, calculamos los riesgos ponderados para los no expuestos multiplicando los no expuestos enfermos por el total de expuestos y lo dividimos por el total del estrato:

– Menores de 50 años: Ro = 68 x (591/1196) = 33,60.

– Mayores de 50 años: Ro = 314 x (387/1021) = 119,01.

Por último, sumamos los riesgos ponderados de los expuestos y lo dividimos entre la suma de los riesgos ponderados de los no expuestos, obteniendo el RR ajustado:

RRa = (83,97+140,95) / (33,60+119,01) = 1,47.

Lo que quiere decir que el riesgo de desarrollar enfermedad coronaria es, aproximadamente, un 50% mayor si se fuma, con independencia de la edad.

Este cálculo tan sencillo se hace bastante más antipático si no somos tan chapuzas y dividimos la muestra en un número mayor de estratos. Y no os digo nada si las tablas de contingencia se complican. Claro que para eso están los ordenadores y los programas de estadística, que hacen todo esto en un periquete, no sabemos si sin esfuerzo pero, desde luego, sin protestar.

De todas formas, hay otros métodos para calcular la estimación de la asociación ajustada. El método que está más de moda en la actualidad es el de la regresión logística. Con los ordenadores que tiene cualquiera hoy en día, un trabajo que no analiza este problema aplicando un modelo de regresión se suele mirar con malos ojos. Pero esa es otra historia…

La puerta de atrás

¡Cómo me gustaría tener una máquina del tiempo!. Pensadlo un momento. No tendríamos que trabajar (habríamos ganado la lotería varias veces), podríamos anticiparnos a todas nuestras desgracias, tomar siempre la mejor decisión… Sería como en la película de “El día de la marmota”, pero sin hacer tanto el panoli.

Claro que si tuviésemos una máquina del tiempo que funcionase, habría profesiones que podrían desaparecer. Por ejemplo, los epidemiólogos lo llevarían crudo. Si quisiéramos saber, imaginemos, si el tabaco es un factor de riesgo para tener enfermedad coronaria, solo tendríamos que tomar un grupo de personas, decirles que no fumasen y ver qué pasaba veinte años después. Entonces haríamos retroceder el tiempo, les obligaríamos a fumar, veríamos que pasaba veinte años después y compararíamos los dos resultados. ¡Qué fácil!, ¿no?. ¿Quién necesitaría un epidemiólogo y toda su compleja ciencia de asociaciones y diseños de estudios?. Podríamos estudiar la influencia de la exposición (el tabaco) sobre el efecto (la enfermedad coronaria) comparando estos dos resultados potenciales, también llamados resultados contrafactuales (perdón por el palabro).

Sin embargo, a falta de máquina del tiempo, la realidad es que no podemos medir los dos resultados en una misma persona y, aunque parezca una obviedad, lo que quiere decir, en realidad, es que no podemos medir de forma directa el efecto de la exposición en una persona determinada.

Por eso los epidemiólogos recurren al estudio de poblaciones. Normalmente en una población habrá sujetos expuestos y no expuestos, así que podemos tratar de estimar el efecto contrafactual de cada grupo para calcular cuál sería el efecto medio de la exposición sobre la población en conjunto. Por ejemplo, la incidencia de enfermedad coronaria en no fumadores puede servirnos para estimar cuál habría sido la incidencia de enfermedad en los fumadores si no hubiesen fumado. Esto posibilita que la diferencia de enfermedad entre los dos grupos (la diferencia entre sus resultados factuales), expresada mediante la medida de asociación que corresponda, sea un estimador del efecto medio de fumar sobre la incidencia de enfermedad coronaria en la población.

Todo esto que hemos dicho exige un requisito previo: que los resultados contrafactuales sean intercambiables. Esto quiere decir, en nuestro caso, que la incidencia de enfermedad de los fumadores, si no hubiesen fumado, hubiese sido la misma que la que tienen los no fumadores, que no han fumado nunca. Y viceversa: si el grupo de no fumadores hubiese fumado tendría la incidencia que ahora observamos en los fumadores. Esto parece otra obviedad, pero no siempre es así, ya que en estas relaciones entre factor y exposición existen, con frecuencia, puertas traseras que hacen que los resultados contrafactuales de los dos grupos no sean intercambiables, por lo que las estimaciones de las medidas de asociación pueden no ser las correctas. Esto es lo que llamamos factores o variables de confusión.

Vamos a aclararnos un poco con un ejemplo ficticio. puerta_trasera_globalEn la primera tabla os presento los resultados de un estudio de cohortes (que me acabo de inventar) que evalúa los efectos del tabaquismo sobre la incidencia de enfermedad coronaria. El riesgo de enfermar es de 0,36 (394/1090) entre los fumadores y de 0,34 (381/1127) entre los no fumadores, así que el riesgo relativo (RR, la medida de asociación pertinente en este caso) es de 0,36/0,34 = 1,05. ¡Lo sabía!. ¡Si ya lo dijo Woody Allen en “El dormilón”!. El tabaco no es tan malo como se pensaba. Mañana mismo vuelvo a fumar.

¿Seguro?. Resulta que, dándole vueltas al asunto, se me ocurre que igual hay algo que puede estar mal. La muestra es grande, así que es poco probable que el azar me haya jugado una mala jugada. El estudio no tiene, aparentemente, riesgo importante de sesgos, aunque nunca te puedes fiar completamente. Así que, dando por supuesto que Woody Allen se equivocaba en su película, solo queda la posibilidad de que se nos haya metido una variable confusora que nos esté alterando los resultados.

La variable confusora tiene que cumplir tres requisitos. Primero, debe estar asociada con la exposición. Segunda, debe estar asociada con el efecto de forma independiente a la exposición que estemos estudiando. Tercero, no debe formar parte de la cadena de causa-efecto entre la exposición y el efecto.

Aquí es donde entra en juego la imaginación del investigador, que tiene que pensar qué variables pueden actuar como confusoras. A mí, en este caso, la primera que se me ocurre es la edad. Cumple el segundo punto (los más viejos tienen más riesgo de enfermedad coronaria) y el tercero (por muy malo que sea el tabaco, no te aumenta el riesgo de enfermar porque te haga más viejo). Pero, ¿satisface el primero?. ¿Hay una asociación entre edad y el hecho de fumar?. Resulta que no lo habíamos pensado antes, pero si esto fuese así, podría explicarlo todo. Por ejemplo, si los fumadores fuesen más jóvenes, el efecto perjudicial del tabaco podría verse contrarrestado por el “beneficioso” de la edad. Y viceversa, el beneficio de los más mayores por no fumar se esfumaría por culpa del mayor riesgo de la edad.

¿Cómo podemos comprobar este punto?. Vamos a separar los datos de los menores y mayores de 50 años y vamos a calcular de nuevo los riesgos. Si los riesgos relativos son diferentes, probablemente querrá decir que la edad está actuando como variable confusora. Por el contrario, si son iguales no habrá más remedio que darle la razón a Woody Allen.puerta_trasera_edades

Veamos la tabla de los más jóvenes. El riesgo de enfermar es de 0,28 (166/591) en los fumadores y de 0,11 (68/605) en los no fumadores, luego el RR es de 2,5. Por su parte, en los mayores de 50 años, el riesgo de enfermar es de 0,58 (227/387) en los fumadores y de 0,49 (314/634) en los no fumadores, con lo que el RR es de 1,18. Lo siento por los que fumáis, pero El Dormilón no tenía razón: el tabaco es malo.

Con este ejemplo nos damos cuenta de lo importante que es lo que dijimos antes de que los resultados contrafactuales sean intercambiables. Si la distribución de edad es diferente entre expuestos y no expuestos y tenemos la desgracia de que la edad es una variable confusora, el resultado observado en los fumadores ya no será intercambiable con el resultado contrafactual de los no fumadores, y viceversa.

¿Podemos evitar este efecto?. Sí, lo que no podemos es evitar el efecto de la variable confusora, y esto supone un problema todavía mayor cuando desconocemos que nos puede jugar esta mala pasada. Por esto es esencial tomar una serie de medidas al diseñar el estudio que minimicen el riesgo de que ocurra y de que tengamos puertas traseras por donde se cuelen los datos.

Una de ellas es la aleatorización, con la que trataremos que ambos grupos sean similares en cuanto a la distribución de variables confusoras, conocidas y no conocidas. Otra sería restringir la inclusión en el estudio a un grupo determinado como, en este ejemplo, los menores de 50 años. El problema es que esto no podemos hacerlo para variables confusoras desconocidas. Otra tercera posibilidad es utilizar datos pareados, de tal forma que por cada fumador joven incluyamos un no fumador joven, y lo mismo para los mayores. Para aplicar este emparejamiento también hace falta conocer previamente el papel de la variable confusora.

¿Y qué hacemos una vez que ya hemos terminado el estudio y comprobamos con horror que hay una puerta trasera?. Lo primero, no desesperar. Siempre podemos utilizar los múltiples recursos de la epidemiología para calcular una medida de asociación ajustada que nos estime la relación entre exposición y efecto sin tener en cuenta el efecto de confusión. Además, hay varios métodos para hacer este análisis, unos más sencillos y otros más complejos, aunque todos ellos muy elegantes. Pero esa es otra historia…

El consuelo de no ser peor

Vivimos en un mundo frenético y altamente competitivo. Continuamente nos vemos inundados por mensajes sobre lo bueno que es ser el mejor en esto y en aquello. En lo que sea, en realidad. Pero la mayoría de nosotros nos damos cuenta pronto de que es imposible ser el mejor en todo lo que hacemos. Poco a poco, incluso, nos damos cuenta de que es muy difícil ser el mejor en algo, no ya en todo en general. Al final, más tarde o más temprano, el común de los mortales se conforma con, al menos, no ser de los peores en lo que hace.

Pero esto no es malo. No siempre se puede ser el mejor, ni falta que hace. Pensemos, por ejemplo, que tenemos un tratamiento estupendo para una enfermedad muy mala. Este tratamiento es eficaz, barato, fácil de usar y bien tolerado. ¿Tendremos interés en cambiarlo por otro?. Probablemente no. Pero pensemos ahora, por ejemplo, que produce una aplasia medular irreversible en el 3% de los que lo toman. En este caso sí que querríamos buscar otro tratamiento mejor.

¿Mejor?. Bueno, no realmente mejor. Con que fuese igual en todo pero no produjese aplasia, ya cambiaríamos al nuevo fármaco.

El planteamiento más habitual de los ensayos clínicos es el de demostrar la superioridad de una intervención frente al placebo o el tratamiento habitual. Pero, cada vez más, se realizan ensayos cuyo único objetivo es demostrar que el nuevo tratamiento es equivalente al actual. La planificación de estos ensayos de equivalencia debe ser cuidadosa y prestar atención a una serie de aspectos.

En primer lugar, no existe la equivalencia desde el punto de vista absoluto, por lo que hay que extremar las precauciones para mantener la igualdad de condiciones en las dos ramas de intervención del ensayo. Además, hay que establecer previamente el nivel de sensibilidad que vamos a necesitar en el estudio. Para ello, primero definimos el margen de equivalencia, que será la máxima diferencia entre las dos intervenciones que se considerará aceptable desde el punto de vista clínico. Segundo, calcularemos el tamaño muestral necesario para poder discriminar esta diferencia desde el punto de vista de significación estadístico.

Es importante comprender que el margen de equivalencia lo marca el investigador basándose en la importancia clínica de lo que se esté valorando. Cuánto más estrecho sea este margen, mayor deberá ser el tamaño de la muestra para poder alcanzar significación estadística y rechazar la hipótesis nula de que las diferencias que observemos se deban al azar. En contra de lo que pueda parecer a primera vista, los estudios de equivalencia suelen necesitar muestras más grandes que los estudios de superioridad.

Una vez obtenidos los resultados, analizaremos los intervalos de confianza de las diferencias de efecto entre las dos intervenciones. Solo aquellos intervalos que no crucen la línea de efecto nulo (uno para riesgos relativos y odds ratio y cero para diferencias de medias) serán estadísticamente significativos. Si, además, caen completamente dentro del margen de equivalencia previamente definido, se considerarán equivalentes con la probabilidad de error elegida para el intervalo de confianza, habitualmente el 5%. Si el intervalo queda fuera del margen de equivalencia, las intervenciones se considerarán no equivalentes. En el caso de que cruce alguno de los límites del margen de equivalencia, el estudio no será concluyente en cuanto a demostrar o rechazar la equivalencia de las dos intervenciones, aunque habrá que valorar la amplitud y distribución del intervalo respecto al margen de equivalencia para valorar su posible importancia desde el punto de vista clínico. En ocasiones, resultados sin significación estadística o que caen fuera de los límites del margen de equivalencia pueden también proporcionar información clínica útil.

equivalenciaVeamos el ejemplo de la figura para entender mejor lo que hemos dicho hasta ahora. Tenemos los intervalos de nueve estudios representados con su posición respecto a la línea de efecto nulo y los límites del margen de equivalencia. Solo los estudios A, B, D, G y H muestran una diferencia estadísticamente significativa, porque son los que no cruzan la línea de efecto nulo. La intervención del estudio A es superior, mientras que la del estudio H se demuestra inferior. Sin embargo, solo en el caso del estudio D puede concluirse la equivalencia de las dos intervenciones, mientras que son inconcluyentes, en lo que respecta a equivalencia, los estudios B y G.

En el caso del estudio E puede concluirse también la equivalencia de las dos intervenciones. Fijaos que, aunque la diferencia obtenida en el D es estadísticamente significativa, sigue sin superar los límites del margen de equivalencia: es superior al estudio E desde el punto de vista estadístico, pero parece que esta diferencia no tiene relevancia clínica.

Además de en  los estudios B y G ya comentados, en los estudios C, F e I, no puede concluirse si son o no equivalentes. Sin embargo, el C probablemente no sea inferior y el F podría sea inferior. Podría, incluso, estimarse la probabilidad de estas suposiciones según el área que ocupan los intervalos de confianza respecto a los márgenes de equivalencia.

Un aspecto importante de los estudios de equivalencia es el método de análisis de resultados empleado. Sabemos que el análisis por intención de tratar es siempre preferible al de análisis por protocolo, ya que mantiene las ventajas de la aleatorización respecto a otras variables conocidas o desconocidas que puedan influir en los resultados. El problema es que el análisis por intención de tratar va a favor de la hipótesis nula, minimizando las diferencias, si existen. Esto es una ventaja en los estudios de superioridad: si encontramos diferencia, refuerza el hallazgo. Sin embargo, en los estudios de equivalencia no nos interesa tanto este aspecto. Por su parte, el análisis por protocolo tendería a aumentar cualquier diferencia, pero esto no siempre es así y puede variar según la causa de las violaciones de protocolo o, dicho más sencillo, las causas que hayan motivado las pérdidas o equivocaciones de asignación de tratamiento en las dos ramas de intervención. Lo que se suele aconsejar es realizar el análisis de las dos formas y pedir que, en ambas, las intervenciones se muestren equivalentes. Habrá, además, que tener muy en cuenta las pérdidas durante el estudio y analizar la información de los casos en los que no se cumpla el protocolo.

Un caso particular de este tipo de ensayos es el de no inferioridad. En este caso, los investigadores se conforman con demostrar que la nueva intervención no es peor que la de comparación. Vale todo lo que hemos dicho para los de equivalencia, pero considerando solo el límite inferior del margen de equivalencia.

Una última cosa. Los estudios de superioridad son para demostrar superioridad y los de equivalencia son para demostrar equivalencia. El diseño de un objetivo no suele servir para demostrar el otro. Además, el que un estudio de superioridad fracase en demostrarla no quiere decir exactamente que las dos intervenciones sean equivalentes.

Hemos llegado al final sin haber hablado nada de otros estudios de equivalencia característicos: los estudios de bioequivalencia. Estos son ensayos de fase I realizados por las casas farmacéuticas para comprobar la equivalencia de diferentes presentaciones de un mismo fármaco y tienen algunas peculiaridades de diseño. Pero esa es otra historia…