Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

En la variedad, no siempre está el gusto

La variedad es buena para muchas cosas. ¡Qué aburrido sería el mundo si todos fuésemos iguales! (sobre todo si fuésemos como alguno que se me está ocurriendo ahora). Nos gusta ir a sitios diferentes, comer cosas diferentes, conocer a personas distintas y divertirnos en ambientes diferentes. Pero hay cosas para las cuáles la variedad es como un grano en el culo.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Aquí necesitaremos la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y de letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la chi-cuadrado. En efecto, la Q sigue una distribución chi-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida en realidad a heterogeneidad por diferencias reales entre los estimadores respecto a la variabilidad debida al azar. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad. Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Galbraith

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.
El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé, que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la labbediagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo?. Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y hemos terminado por hoy. Enhorabuena al que me haya aguantado hasta aquí. Pido perdón por el ladrillo que os he soltado, pero es que esto de la heterogeneidad tiene su aquél. Y es que no solo es importante para saber si debemos combinar o no los estudios, sino que también nos condiciona en gran medida el modelo de análisis de los datos que tenemos que utilizar. Pero esa es otra historia…

El todo es mayor que la suma de las partes

Esta es otra de esas frases famosas que están hasta en la sopa. Al parecer, el primero que tuvo esta ocurrente idea fue Aristóteles, que resumió con ella el principio general del holismo en sus escritos sobre metafísica. ¿Quién hubiese dicho que la frasecita encierra tanta sabiduría?. Y es que el holismo insiste en que el todo debe ser considerado de una forma global, ya que sus componentes pueden actuar de una forma sinérgica, permitiendo que el conjunto tenga más significado que el aportado por cada parte de forma individual.

No temáis, seguís en el blog del seso y no en uno de filosofía. Y tampoco he cambiado la temática del blog, pero es que este principio me viene al pelo para introducir esa fiera corrupia del método científico que es el metanálisis.

El metanálisis es un análisis estadístico que combina los resultados de varios estudios independientes pero que tratan de responder a una misma pregunta. Aunque el metanálisis puede considerarse como un trabajo de investigación por derecho propio, lo habitual es que sea una parte de una revisión de un tema que trata de obtener toda la información de calidad sobre el mismo. Estas revisiones sistemáticas realizan una síntesis cualitativa de los resultados obtenidos, que se completará con una síntesis cuantitativa o metanálisis siempre que nos interese y sea posible.

Esto tiene una serie de ventajas. La primera, al combinar todos los resultados de los estudios primarios puede obtenerse una visión global más completa (ya sabéis, el todo es mayor…). La segunda, al combinar aumentamos el tamaño de la muestra, lo que aumenta la potencia del estudio en comparación con la de los estudios individuales, mejorando la estimación del efecto que queremos medir. En tercer lugar, al extraerse las conclusiones de un número mayor de estudios aumenta su validez externa, ya que al haber implicadas poblaciones diferentes es más fácil generalizar los resultados. Por último, puede permitirnos resolver controversias entre las conclusiones de los diferentes estudios primarios de la revisión e, incluso, contestar a preguntas que no se habían planteado en esos estudios.

Una vez hecho el metanálisis habrá que hacer una síntesis final que integre los resultados de las síntesis cualitativa y cuantitativa con el objetivo de dar respuesta a la pregunta que motivó la revisión sistemática o, cuando esto no sea posible, plantear los estudios adicionales que deben realizarse para poder contestarla.

Pero para que un metanálisis merezca todos nuestros respetos debe cumplir una serie de requisitos. Al igual que la revisión sistemática con la que se asocia, el metanálisis debe tratar de contestar una pregunta concreta y debe basarse en toda la información relevante disponible, sin sesgo de recuperación ni sesgo de publicación. Además, deben valorarse los estudios primarios para asegurarnos de que tienen la calidad suficiente y que son lo suficientemente homogéneos como para poder combinarlos. Por supuesto, lo datos deben analizarse y presentarse de la forma apropiada. Y, por último, debe tener sentido el que queramos combinar los resultados. El que podamos hacerlo no siempre significa que tengamos que hacerlo si el contexto clínico no lo hace necesario.

¿Y cómo se combinan los estudios?, preguntaréis algunos. Pues esa es la madre del cordero del metanálisis (o una de las madres, que tiene varias), porque hay varias formas posibles de hacerlo.

A cualquiera se le ocurre que la forma más sencilla sería tipo Festival de Eurovisión. Contabilizamos los estudios primarios en los que el efecto positivo obtuvo significación estadística y, sin son mayoría, decimos que hay consenso a favor del resultado positivo. Este enfoque es bastante sencillo pero, no me lo negaréis, también bastante chapucerillo y se me ocurren una serie de inconvenientes a la hora de usarlo. Por un lado, implica que no significativo es sinónimo de falta de efecto, lo cual no siempre tiene porqué ser verdad. Además, no tiene en cuenta la dirección y fuerza del efecto en cada estudio, ni la precisión de los estimadores empleados ni la calidad o las peculiaridades de diseño de cada estudio primario. Así que este tipo de abordaje no parece muy recomendable, aunque nadie nos va a poner una multa si lo usamos de forma informal como primera aproximación antes de decidir cuál es la mejor forma de combinar los resultados de los estudios.

Otra posibilidad es utilizar una especia de prueba de los signos, similar a la de algunas técnicas de estadística no paramétrica. Se cuentan los positivos a favor del efecto, les restamos los negativos y obtenemos nuestra conclusión. La verdad es que este método también parece demasiado simple. No tiene en cuenta los estudios sin significación estadística ni la precisión de los estimadores. Así que tampoco utilizaremos mucho este tipo de abordaje, a no ser que solo sepamos la dirección del efecto de los estudios primarios. También podríamos utilizarlo cuando los estudios primarios son muy heterogéneos para obtener una aproximación, aunque yo no me fiaría mucho de los resultados.

El tercer método es combinar las Ps (nuestras amadas y sacrosantas Ps). Esto podría pasársenos por la cabeza si tuviésemos una revisión sistemática cuyos estudios primarios usaran diferentes medidas de resultado, aunque todos tratasen de contestar a una misma pregunta. Pensad, por ejemplo, un estudio sobre osteoporosis donde unos miden densitometría ultrasónica, otros DEXA en columna, otros en fémur, etc. El problema de este método es que no tiene en cuenta la intensidad del efecto, sino solo su dirección y su nivel de significación estadística, y todos conocemos las deficiencias de nuestras santas Ps. Para utilizarlo tendremos que utilizar programas informáticos que combinarán los datos siguiendo una distribución de chi-cuadrado o una normal, dándonos el estimador global con su intervalo de confianza.

El cuarto y último método, que yo me sé, es también el más elegante: hacer una combinación ponderada del efecto estimado en los diferentes estudios primarios. La forma más sencilla sería calcular la media aritmética, pero no hemos llegado hasta aquí para hacer otra chapuza. La media aritmética otorga el mismo énfasis a todos los estudios, con lo que si tenemos algún estudio muy impreciso con resultados extremos nos distorsionará enormemente los resultados. Recordad que la media sigue siempre las colas de la distribución, viéndose muy influenciada por los valores extremos (lo que no le ocurre a su prima, la mediana).

Por esto tenemos que ponderar los estimadores de los distintos estudios. Esto podemos hacerlo de dos formas, teniendo en cuenta el número de sujetos de cada estudio, o bien, realizando una ponderación en base a los inversos de las varianzas de cada uno (ya sabéis, los cuadrados de los errores estándar).  Esta última forma es la más compleja, así que es la que más gusta y más se utiliza. Claro que, como la matemática necesaria es cosa fina, se suelen utilizar programas especiales, ya sean módulos que funcionan dentro de los programas estadísticos como Stata, SPSS, SAS o R, o utilizando programas específicos como el famoso RevMan de la Colaboración Cochrane.

Y con esto hemos llegado al final. Es todo lo que puedo deciros sobre cómo combinar los estudios para hacer el metanálisis. De todas formas, quiero insistir en que el metanálisis debe hacerse siempre que sea posible y nos interese, pero asegurándonos previamente de que es correcto combinar los resultados. Si los estudios son muy heterogéneos no deberemos combinar nada, ya que los resultados que podríamos obtener tendrían una validez muy comprometida. Hay toda una serie de métodos y estadísticos para medir la homogeneidad o heterogeneidad de los estudios primarios, que influyen también en la forma en que analizaremos los datos combinados. Pero esa es otra historia…

Cruzar el umbral

El mundo de la medicina es un mundo de incertidumbre. Nunca podemos estar seguros de nada al 100%, por muy evidente que parezca un diagnóstico. Pero no podemos dar palos a diestro y siniestro con técnicas diagnósticas o tratamientos ultramodernos (y nunca inocuos) a la hora de tomar las decisiones que continuamente nos persiguen en nuestra práctica diaria.

Es por esto que siempre estamos inmersos en un mundo de probabilidades, donde las certezas son casi tan infrecuentes como el mal llamado sentido común que, como casi todo el mundo sabe, es el menos común de los sentidos.

Imaginemos que estamos en la consulta y acude un paciente que viene porque le han dado una patada en el culo, bastante fuerte, eso sí. Como buenos médicos que somos le preguntamos aquello de ¿qué le pasa?, ¿desde cuándo? y ¿a qué lo atribuye? Y procedemos a una exploración física completa, descubriendo con horror que tiene un hematoma en la nalga derecha.

Aquí, amigos míos, las posibilidades diagnósticas son numerosas, así que lo primero que vamos a hacer es un diagnóstico diferencial exhaustivo.  Para ello, podremos adoptar cuatro enfoques diferentes. El primero es el enfoque posibilista, que enumerará todos los posibles diagnósticos y tratará de descartar todos ellos de forma simultánea solicitando las pruebas diagnósticas pertinentes. El segundo es el enfoque probabilístico, que ordenará los diagnósticos según su probabilidad relativa y actuará en consecuencia. Parece un hematoma postraumático (el conocido como síndrome de la patada en el culo), pero alguien podría pensar que la patada no ha sido tan fuerte, así que igual el pobre paciente tiene algún trastorno de coagulación o una discrasia sanguínea con una trombopenia secundaria o, incluso, una enfermedad inflamatoria intestinal con manifestaciones extraintestinales atípicas y fragilidad vascular glútea. También podríamos utilizar un enfoque pronóstico y tratar de demostrar o descartar la existencia de los diagnósticos posibles con peor pronóstico, con lo que el diagnóstico de síndrome de la patada en el culo perdería interés y nos iríamos a descartar una leucemia crónica. Por último, podría utilizarse un enfoque pragmático, prestando especial interés en descartar primero aquellos diagnósticos que tienen un tratamiento más eficaz (volveríamos a la patada).

Parece que lo más correcto es utilizar una combinación juiciosa de los enfoques probabilístico, pronóstico y pragmático. En nuestro caso indagaríamos si la intensidad del traumatismo justifica la magnitud del hematoma y, en ese caso, indicaríamos unos paños calientes y nos abstendríamos de realizar más pruebas diagnósticas. Y este ejemplo parece una gilipollez, pero os puedo asegurar que conozco gente que hace la lista completa y tira de prueba diagnóstica ante cualquier sintomatología, sin reparar en gastos ni riesgos. Y, además, alguno que yo me sé pensaría en alguna otra posibilidad más exótica que no acabo de imaginar y aún el paciente tendría que estar agradecido si su diagnóstico no precisa de la realización de una esfinterotomía anal forzada. Y es que, como ya hemos comentado, la lista de espera para obtener un poco de sentido común supera en muchas ocasiones a la lista de espera quirúrgica.

Imaginad ahora otro paciente con un complejo sintomático menos estúpido y absurdo que el del ejemplo previo. Por ejemplo, un niño con síntomas de enfermedad celiaca. Antes de que realicemos ninguna prueba diagnóstica, nuestro paciente ya tiene una probabilidad de padecer la enfermedad. Esta probabilidad vendrá condicionada por la prevalencia de la enfermedad en la población de la que procede y es lo que se denomina probabilidad preprueba. Esta probabilidad se encontrará en algún punto en relación con dos umbrales: el umbral de diagnóstico y el umbral terapéutico.

Si consideramos que la probabilidad preprueba justifica el tratamiento de la enfermedad, no habrá necesidad de hacer pruebas diagnósticas y procederemos a retirar el gluten de la dieta. Pero lo habitual es que la probabilidad preprueba no nos permita ni descartar la enfermedad con una seguridad razonable ni confirmarla con la seguridad suficiente como para iniciar el tratamiento.

Realizaremos entonces la prueba que consideremos indicada, obteniendo una nueva probabilidad de enfermedad según el resultado que nos dé, la llamada probabilidad postprueba. Si esta probabilidad es tan alta como para realizar el diagnóstico e iniciar el tratamiento habremos cruzado nuestro primer umbral, el terapéutico. Ya no hará falta realizar pruebas adicionales, ya que tendremos la certeza suficiente para asegurar el diagnóstico y tratar al paciente, siempre dentro de los rangos de incertidumbre de nuestro oficio.

¿Y de qué depende nuestro umbral de tratamiento?. Pues hay varios factores implicados. Cuánto mayor riesgo, coste o efectos adversos tenga el tratamiento en cuestión, mayor será el umbral que exigiremos para tratar. Por otra parte, cuanta mayor gravedad comporte omitir el diagnóstico, menor será el umbral terapéutico que aceptaremos.

Pero puede ocurrir que la probabilidad postprueba sea tan baja que nos permita descartar la enfermedad con una seguridad razonable. Habremos cruzado entonces nuestro segundo umbral, el de diagnóstico, también llamado umbral negativo de prueba. Es evidente que, en esta situación, no estará indicado realizar más pruebas diagnósticas y, mucho menos, iniciar el tratamiento.

Sin embargo, en muchas ocasiones el cambio de probabilidad de preprueba a postprueba nos sigue dejando en tierra de nadie, sin alcanzar ninguno de los dos umbrales, por lo que nos veremos obligados a realizar pruebas adicionales hasta que alcancemos uno de los dos límites.

Para terminar, solo quiero insistir en la importancia de las propiedades de las pruebas diagnósticas para movernos de una probabilidad a otra y poder alcanzar uno de los dos umbrales: sensibilidad, especificidad, valores predictivos y cocientes de probabilidad. Conocer bien estas propiedades es esencial para decidir la realización de la prueba, sobre todo cuando es costosa o comporta un riesgo o una molestia para el paciente. Pero esa es otra historia…

Preparados… listos…

¡No!. No tan rápido. Antes de salir corriendo hay que estar seguros de que todo está bien preparado. Es difícil concebir que alguien se ponga a correr una maratón sin prepararse previamente, sin el acondicionamiento físico y nutricional suficiente. Bueno, en realidad lo que es difícil concebir es tener que estar corriendo sin parar 42 kilómetros, así que pongamos otro ejemplo más creíble.

Imaginemos que es la hora de acostarnos y estamos tan reventados como si hubiésemos corrido una maratón. Esta situación ya es más creíble para la mayoría. Cualquiera en su sano juicio sabe que es conveniente beber agua y pasar por el cuarto de baño antes de irse a la cama. El pago por no realizar estos preparativos será tener que levantarse en mitad de la noche, dando tumbos y tiritando de frío, para satisfacer necesidades que podíamos haber previsto y evitado (salvo imperativos prostáticos, claro está).

Ahora imaginad que queremos realizar un ensayo clínico. Planificamos el estudio, elegimos nuestra población, obtenemos la muestra, la aleatorizamos de forma impecable, le damos, a los del grupo de intervención, nuestro nuevo y flamante fármaco para combatir la fildulastrosis revirante crónica cuyas bondades queremos estudiar y ¡zas!, resulta que la mayor parte no lo tolera y se retira del ensayo antes de tiempo. Habremos tirado el dinero y malgastado el tiempo, y resulta difícil decidir cuál de los dos recursos resulta más preciado en los tiempos que corren.

¿Podríamos haber evitado esto?. La mala tolerancia al fármaco es un hecho que no podemos evitar pero, dado que sí que hay gente que lo tolera, podríamos haber recurrido a una pequeña argucia: darle el fármaco a todos antes de aleatorizar, sacar del estudio a los intolerantes y aleatorizar entonces solo a los que pueden aguantar el fármaco hasta el final del estudio. Esto es lo que se llama utilizar un periodo de preinclusión, aunque también se conoce como periodo de puesta a punto o periodo de cribado de cumplimiento. A los que fueron a colegio de pago y hablen inglés les sonará el término run-in phase (algunos le llaman open-label phase, pero yo creo que este término no es siempre equivalente a periodo de inclusión).

En general, durante el periodo de preinclusión los participantes del estudio son observados antes de ser asignados al grupo de estudio que les corresponda para comprobar que cumplen los criterios de selección para una determinada intervención, o que cumplen las pautas de tratamiento asignadas, toleran la intervención, etc. Al asegurarnos de que cumplen los requisitos previos a su inclusión en el estudio propiamente dicho nos aseguramos una observación basal más válida y consistente antes de la asignación aleatoria al grupo de estudio que le toque a cada uno.

En otras ocasiones podemos ver que la intervención es utilizada durante el periodo de preinclusión, utilizando su respuesta como parte de los criterios de inclusión, ya que se podrá seleccionar o excluir a los sujetos en base a su respuesta al tratamiento.

Veis cómo un periodo de preinclusión nos puede librar de los malos cumplidores, de los participantes más delicados de salud que nos pueden dar sustos durante el ensayo y de los que no toleran el fármaco en cuestión, con lo que nos podemos centrar mejor en determinar la eficacia del tratamiento, ya que la mayor parte de las pérdidas que tengamos durante el seguimiento serán por causas no relacionadas con la intervención.

De todas formas, debemos tomar una serie de precauciones. Debemos ser cuidadosos en la elección de la muestra inicial, cuyo tamaño puede ser mayor que el necesario sin preinclusión. Es muy importante la situación basal de los participantes con vistas a realizar estratificación o a realizar un análisis estadístico más eficiente. Además, la aleatorización debe realizarse lo más tarde posible y lo más cercana posible a la intervención, aunque no es raro ver estudios en los que se aleatorizan los participantes antes del periodo de preinclusión. Por último, para interpretar los resultados de un estudio con periodo de preinclusión hay que tener en cuenta las diferencias entre las características iniciales de los participantes que han sido excluidos durante el periodo y los que finalmente son asignados a los grupos de estudio.

Pero no todo en el monte es orégano. Aunque excluir los incumplidores o los que tienen más efectos adversos nos permite aumentar la potencia del estudio y estimar mejor el efecto de la intervención, la aplicabilidad o generalización de los resultados se verá comprometida al provenir los resultados de una muestra más restrictiva de participantes. Dicho de forma elegante, hemos de pagar el aumento de la validez interna con una merma de la validez externa del estudio.

Para terminar, decir alguna cosa sobre algo parecido al periodo de preinclusión. Imaginad que queremos probar un inhibidor de bomba de protones nuevo en pacientes con úlcera. Como todos tienen tratamiento, éste nos puede artefactar el efecto de la intervención. El truco aquí consiste en decirles a todos que suspendan la medicación un tiempo antes de la aleatorización y asignación a las ramas del estudio. Pero no confundáis esto con el periodo de preinclusión. Esto es lo que se conoce como periodo de lavado (wash-out phase para los anglófilos). Pero esa es otra historia…

Una relación sin compromiso

Sabemos ya de la relación entre variables. ¿Quién duda que fumar mata, o que la tele seca el cerebro?. La cuestión radica en que estas relaciones hay que intentar cuantificarlas de una forma objetiva ya que, en caso contrario, siempre habrá alguien que pueda ponerlas en duda. Para ello, habrá que utilizar algún parámetro que estudie si nuestras dos variables varían de forma relacionada.

Cuando las dos variables son dicotómicas la solución es sencilla: podemos usar la odds ratio. En el caso de la tele y el daño cerebral podríamos utilizarla para calcular si realmente es más probable que tengan los sesos secos los que ven la tele que los que no (aunque yo no perdería el tiempo). Pero, ¿qué ocurre si las dos variables son continuas?. Aquí no nos vale la odds ratio, sino que hay que emplear otras herramientas. Veámoslo con un ejemplo.

R_generalSupongamos que tomo la presión arterial a una muestra de 300 personas y represento los valores de presión sistólica y diastólica, tal y como os muestro en el primer gráfico. Viendo el gráfico a simple vista uno ya se da cuenta de que aquí hay tomate. Si os fijáis, los valores altos de presión sistólica se suelen asociar con valores altos de diastólica y, al contrario, los valores bajos de sistólica se asocian con valores bajos de diastólica. Yo diría que varían de forma similar: a mayores valores de una, mayores de la otra, y viceversa. Para verlo mejor, fijaos en los dos gráficos siguientes.R_estandar_simple

En el primero se muestran los valores de presión estandarizados (cada valor menos la media). Ya vemos que la mayor parte de los puntos están en los cuadrantes inferior izquierdo y superior derecho. Estos todavía se ve mejor en el segundo gráfico, en el que me he comido los valores de sistólica entre ±10 mmHg y de diastólica entre ±5 mmHg alrededor del cero, que serían las medias estandarizadas. Vamos a ver si podemos cuantificar esto de alguna manera.

Recordáis que la varianza medía cuánto variaban los valores de una distribución respecto de la media. A cada valor se le restaba la media, se elevaba al cuadrado para que fuese siempre positivo (y no se anulasen las diferencias positivas con las negativas), se sumaban todas estas diferencias y se dividía por el tamaño de la muestra (en realidad, por el tamaño de la muestra menos uno, y no preguntéis porqué, solo los matemáticos lo saben). Ya sabéis que la raíz cuadrada de la varianza es la desviación típica o desviación estándar, la reina de las medidas de dispersión.

Pues bien, con una pareja de variables podemos hacer una cosa similar. Calculamos, para cada pareja, las diferencias con sus medias y multiplicamos estas diferencias (es el equivalente a la elevación al cuadrado de la diferencia que hacíamos con la varianza). Por último, sumamos todos estos productos y los dividimos entre el tamaño de la muestra menos uno, obteniendo así está versión de la varianza de las parejas que se llama, como no podía ser de otra forma, covarianza.

varianza = \frac{1}{n-1}\sum_{i=1}^{n}{(x_{i}-\overline{x})}^{2}      covarianza = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{\mu }_{x})(x_{i}-\overline{\mu }_{y})

¿Y qué nos dice el valor de la covarianza?. Pues, poca cosa, ya que dependerá de las magnitudes de las variables, que pueden ser diferentes según de qué estemos hablando. Para esquivar este problemilla recurrimos a una solución muy socorrida en este tipo de situaciones: estandarizar.

De esta forma, dividimos las diferencias respecto a la media por sus desviaciones estándar, obteniendo así el mundialmente famoso coeficiente de correlación lineal de Pearson.

coeficiente\ de\ correlación\ de\ Pearson = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{{}x_{i}-\overline{\mu }_{x}}{\sigma _{x}})(\frac{{}y_{i}-\overline{\mu }_{y}}{\sigma _{y}})

Bueno es que sepáis que, en realidad, Pearson solo hizo el desarrollo inicial y que el verdadero padre del coeficiente de marras fue Francis Galton. El pobre estuvo toda su vida intentando hacer algo importante porque tenía celos de su primo, mucho más famoso, un tal Charles Darwin, que me parece que escribió algo sobre unas especies que se comen unas a otras y que decía que el secreto está en procrear lo más posible para sobrevivir.

R_ejemplos_independEl coeficiente de correlación de Pearson, r para los amigos, puede tener cualquier valor entre -1 y 1. Cuando vale cero quiere decir que las variables no están correlacionadas, pero no confundáis esto con que sean o no independientes; como dice el título de esta entrada, la relación del coeficiente de Pearson no compromete a las variables a nada serio. No tienen nada que ver correlación e independencia, son conceptos diferentes. Si nos fijamos en las dos gráficas de ejemplo podremos ver que r es igual a cero en las dos. Sin embargo, aunque en la primera las variables sean independientes, esto no es cierto en la segunda, la que representa la función y = |x|.

Si r es mayor que cero quiere decir que la correlación es positiva, de forma que las dos variables varían en el mismo sentido: cuando una aumenta, también lo hace la otra y, al revés, cuando una disminuye también disminuye la segunda. Se dice que esta correlación positiva es perfecta cuando r vale 1. Por otra parte, cuando r es negativo quiere decir que las variables varían en sentido opuesto: cuando una aumenta la otra disminuye, y viceversa. Una vez más, la correlación es perfecta cuando r vale -1.

Es fundamental entender que correlación tampoco implica obligatoriamente causalidad. Ya dijo Stephen J. Gould, en su libro “La falsa medida del hombre”, que asumir este hecho es uno de los dos o tres errores más graves y frecuentes del razonamiento humano. Y debe ser verdad porque, por más que he buscado, no he encontrado ningún primo suyo que le hiciese sombra, lo que me induce a pensar que lo dijo porque estaba convencido de ello. Así que ya lo sabéis, aunque cuando hay causalidad suele haber correlación, al revés no siempre ocurre lo mismo.

R_histohramasOtro error que podemos cometer es utilizar este coeficiente sin hacer una serie de comprobaciones previas. La primera es que la correlación entre las dos variables debe ser lineal. Esto es fácil de comprobar representando gráficamente los puntos y viendo que no se parece a una parábola, hipérbole o cualquier otra forma curva. La segunda es que, al menos, una de las variables debe seguir una distribución de frecuencias normal. Para esto podemos utilizar pruebas estadísticas como la de Kolmogorov-Smirnov o de Shapiro-Wilks, pero muchas veces basta con representar los histogramas con las curvas de frecuencias y ver si se ajustan. En nuestro caso, la diastólica puede que se ajuste a una normal, pero por la sistólica no pondría la mano en el fuego. Otra pista nos la da la nube de puntos del gráfico inicial: la forma elíptica o en balón de rugby nos indica que, probablemente, las variables siguen una distribución normal. Por último, la tercera comprobación es asegurar que las muestras son aleatorias. Además, solo podemos usar r dentro del rango de datos obtenidos. Si extrapolamos fuera de este rango podemos cometer errores.

Una última advertencia: no confundáis correlación con regresión. La correlación investiga la fuerza de la relación lineal entre dos variables continuas y no es útil para estimar el valor de una variable basándose en el valor de la otra. Por otra parte, la regresión (lineal, en este caso) investiga la naturaleza de la relación lineal entre dos variables continuas. La regresión sí nos sirve para predecir el valor de una variable (la dependiente) basándonos en la otra (la variable independiente). Esta técnica nos proporciona la ecuación de la recta que mejor se adapta a la nube de puntos, con dos coeficientes que nos indican el punto de corte con el eje de ordenadas y la pendiente de la recta.

¿Y qué pasa si las variables no siguen una distribución normal?. Pues que no podemos usar el coeficiente de Pearson. Pero no desesperéis, tenemos el coeficiente de Spearman y toda una batería de pruebas basadas en los rangos de los datos. Pero esa es otra historia…

Ménage à trois

En esta entrada vamos a dar otra vuelta de tuerca al asunto de las variables que pueden enturbiar la armoniosa relación de la pareja formada por exposición y efecto, así que todas aquellas mentes sucias que esperaban otra cosa al leer el título pueden pasar al siguiente resultado de Google, que seguro que aciertan con lo que andaban buscando.

Ya vimos como existen variables de confusión que se relacionan con el efecto y la exposición y cómo pueden alterar nuestras estimaciones de las medidas de asociación si estas variables no se reparten de forma homogénea entre los grupos de estudio. Hablamos de nuestra puerta trasera, de cómo evitarla y de cómo cerrarla, tanto en los estudios de cohortes como en los de casos y controles.

Pero, en ocasiones, el efecto de la exposición sobre el resultado estudiado no es siempre el mismo, pudiendo variar en intensidad según se modifica el valor o nivel de una tercera variable. Al igual que ocurría con la confusión, lo observamos mejor al estratificar los resultados para hacer el análisis, pero en estos casos no se debe a la distribución desigual de la variable, sino a que el efecto de la exposición se ve realmente modificado por la magnitud de esta variable, que recibe el nombre de variable de interacción o variable modificadora de efecto.

Como es lógico, es fundamental diferenciar entre variable de confusión y variable de interacción. El efecto de la variable de confusión depende de su distribución entre los grupos de estudio. En el caso de estudios experimentales, esta distribución puede ser diferente según se haya producido el reparto al hacer la aleatorización, por lo que una variable puede actuar como confusora en un ensayo y no en otro. Sin embargo, en los estudios observacionales siempre ejercen su efecto, ya que se encuentran asociadas tanto al factor como a la exposición. Cuando encontramos una variable confusora nuestro objetivo será controlar su efecto y estimar una medida de asociación ajustada.

Por otra parte, las variables modificadoras de efecto reflejan una característica de la relación entre exposición y efecto, cuya intensidad depende del ménage à trois que forman con esta tercera variable de interacción. Si pensamos un poco, en el caso de que exista una modificación de efecto no nos interesará calcular una medida ajustada de la asociación, como la que obtendríamos con la prueba de Mantel-Haenszel, ya que no sería representativa del efecto global de la exposición sobre el efecto. Tampoco es buena idea hacer una simple media aritmética de las medidas de asociación que observamos en cada estrato. En todo caso lo que tenemos que hacer es describirla y no tratar de controlarla, como hacemos con las variables confusoras.

Antes de poder decir que existe una variable modificadora de efecto debemos descartar que las diferencias observadas se deban al azar, a confusión o a sesgos de nuestro estudio. Observar los intervalos de confianza de las medidas de estimación nos puede ayudar a descartar el azar, que será más improbable si los intervalos no se solapan. Podemos calcular también si las diferencias entre los estratos son estadísticamente significativas, utilizando para ello es test apropiado a cada diseño de estudio.

¿Y podemos estimar una medida global de la influencia de la exposición sobre el efecto que tenga en cuenta la existencia de una variable de interacción?. Pues claro que podemos, ¿alguien lo dudaba?.

Quizás la forma más sencilla es calcular una medida estandarizada. Para ello comparamos dos medidas diferentes, una que asume que cada elemento de cada estrato de la población tiene el riesgo de los expuestos y otra que asume lo mismo pero de los no expuestos. Se estima así una medida de la asociación en la población global estándar que hemos definido. ¿Confuso?. Veamos un ejemplo.Vamos a seguir aburriendo hasta la extenuación con los pobres fumadores y su enfermedad coronaria. En la primera tabla están los resultados de un estudio que me acabo de inventar sobre tabaco e infarto de miocardio.

variable_interferenciaVemos que, de forma global, los fumadores tienen un riesgo siete veces superior de sufrir infarto que los no fumadores (riesgo relativo, RR = 7). Vamos a suponer que fumadores y no fumadores tienen una distribución de edad semejante, pero que al desglosar los datos en dos grupos de edad los riesgos son diferentes. El RR en menores de 50 años es de 2, frente al de los mayores, cuyo riesgo de infarto es tres veces mayor para los fumadores que para los no fumadores.

RR_estandarizadoVamos a calcular las dos medidas de asociación, una suponiendo que todos fuman y la otra suponiendo que no fuma ninguno. En menores de 50 años, el riesgo de infarto si todos fuman es de 5/197 = 0,02. Si tenemos 454 menores de 50 años, el número de casos de infarto esperables sería de 454×0,02 = 9,1. El riesgo en no fumadores sería de 3/257 = 0,01, luego esperaríamos encontrar 0,01×454 = 4,5 infartos en no fumadores.

Hacemos los mismos cálculos con los mayores de 50 años y sumamos el total de personas (770), el total de infartos en fumadores (47,1) y en no fumadores (10,8). El riesgo estandarizado en los fumadores de esta población es de 47,1/770 = 0,06. El riesgo estandarizado en no fumadores, 10,8/770 = 0,01. Por último, calculamos el RR estandarizado: 0,06/0,01 = 6. Esto significa que, de forma global, fumar multiplica por seis el riesgo de infarto, pero no olvidemos que este resultado es válido solo para esta población estándar y que no lo sería probablemente para otra población diferente.

Solo una cosa más antes de acabar. Como ocurre con el análisis de las variables de confusión, el análisis de la modificación de efecto puede hacerse también mediante regresión, introduciendo en la ecuación obtenida unos coeficientes de interacción que corrigen el efecto. Además, estos coeficientes nos resultan muy útiles porque su significación estadística nos sirve para distinguir entre confusión e interacción. Pero esa es otra historia…

Una cuestión de parejas

Vimos en la entrada anterior cómo los estudios observacionales, más concretamente los estudios de cohortes y los de casos y controles, están llenos de trampas y vericuetos. Una de estas trampas es la puerta de atrás por la que se nos escapan los datos, de forma que obtenemos medidas de estimación de asociación erróneas. Esta puerta trasera son los llamados factores de confusión.

Ya sabemos que hay varias formas de controlar la confusión. Una de ellas, el emparejamiento, tiene sus peculiaridades según la empleemos con estudios de cohortes o con estudios de casos y controles.

Cuando se trata de estudios de cohortes, el emparejar por el factor de confusión nos permite obtener una medida de asociación ajustada. Esto es así porque controlamos la influencia de la variable confusora sobre la exposición y sobre el efecto. Sin embargo, lo anterior no se cumple cuando utilizamos la técnica de emparejamiento en un estudio de casos y controles. El diseño de este tipo de estudios nos impone la obligación de realizar el emparejamiento una vez que se ha producido el efecto. De esta forma, los pacientes que actúan como controles no constituyen un conjunto de individuos independientes elegidos al azar, ya que cada control fue seleccionado cumpliendo una serie de criterios determinados según el caso con el que se emparejó. Esto, lógicamente, evita que podamos seleccionar otros individuos de la población que no cumplen los criterios especificados pero que serían potencialmente incluibles en el estudio. Si nos olvidamos de este pequeño detalle y aplicamos la misma metodología de análisis que usaríamos en un estudio de cohortes incurriríamos en un sesgo de selección que invalidaría nuestros resultados. Además, aunque conseguimos forzar una distribución similar del factor de confusión, solo controlamos totalmente su influencia sobre el efecto, pero no sobre la exposición.

Así que la mentalidad del análisis varía un poco cuando valoramos los resultados de un estudio de casos y controles en los que hemos utilizado la técnica de emparejamiento para controlar factores de confusión. Mientras que en un estudio sin emparejamiento analizamos la asociación entre exposición y efecto en el grupo global, cuando hemos emparejado debemos estudiar el efecto en las parejas de caso-control.

cada oveja_casos controlesVamos a verlo continuando con el ejemplo del efecto del tabaco sobre la aparición de carcinoma laríngeo de la entrada anterior.

En la tabla superior vemos los datos globales del estudio. Si analizamos los datos sin tener en cuenta que hemos utilizado el emparejamiento para seleccionar los controles obtenemos una odds ratio de 2,18, como vimos en la entrada anterior. Sin embargo, sabemos que esta estimación es errónea. ¿Qué hacemos?. Considerar el efecto de las parejas, pero solo de las mal avenidas.

Vemos en la tabla inferior la distribución de las parejas en función de su exposición al tabaco. Tenemos 208 parejas en las que tanto el caso (persona con cáncer laríngeo) como el control son fumadores. Al estar los dos sometidos a la exposición no nos servirán para estimar su asociación con el efecto. Lo mismo puede decirse de las 46 parejas en las que ni el caso ni el control fuman. Las parejas que nos interesan son las 14 en las que el control fuma pero el caso no lo hace y las 62 en las que solo fuma el caso, pero no el control.

Estas parejas discordantes son las únicas que nos dan información sobre el efecto del tabaco sobre la aparición del cáncer de laringe. Si calculamos la odds ratio vemos que es de 62/14 = 4,4, una medida de asociación más fuerte que la que obtuvimos previamente y, sin duda, mucho más próxima a la realidad.

Por último, solo me resta hacer tres consideraciones antes de terminar. La primera es, aunque no creo que haga falta, recordaros que los datos son producto de mi imaginación y que el ejemplo es totalmente ficticio aunque no parezca tan estúpido como otros que inventé en otras entradas. La segunda, que estos cálculos suelen hacerse con programas informáticos, utilizando la prueba de Mantel-Haenszel o la prueba de McNemar. La tercera, comentar que en todos estos ejemplos hemos utilizado un emparejamiento con una relación 1:1 (un control por cada caso), pero esto no tiene por qué ser obligatoriamente así ya que, en algunas ocasiones, puede interesar utilizar más de un control por cada caso. Esto conlleva sus diferencias sobre la influencia del factor de confusión sobre la medida de asociación estimada y sus consideraciones a la hora de realizar el análisis. Pero esa es otra historia…

Cada oveja, con su pareja

En ocasiones, no podemos evitar que en nuestros estudios se nos metan factores de confusión, conocidos o desconocidos. Estas variables confusoras abren una puerta trasera por la que se cuelan nuestros datos, haciendo que las medidas de asociación entre exposición y efecto que estimamos mediante el estudio no se correspondan con la realidad.

En la fase de análisis suelen utilizarse técnicas como la estratificación, o modelos de regresión para medir la asociación ajustando por la variable confusora. Pero también podemos intentar prevenir la confusión en la fase de diseño. Una forma es restringiendo los criterios de inclusión según la variable de confusión. Otra estrategia consiste en seleccionar los controles para que tengan la misma distribución de la variable confusora que el grupo de intervención. Esto es lo que se conoce como emparejamiento.

cada oveja_poblacion generalSupongamos que queremos determinar el efecto del tabaco sobre la frecuencia de aparición de cáncer laríngeo, en una población con la distribución que veis en la primera tabla. Podemos ver que el 80% de los fumadores son hombres, mientras que solo el 20% de los no fumadores lo son. Nos inventamos que el riesgo de cáncer en hombres es del 2%, pero que sube hasta el 6% para los fumadores. Por su parte, el riesgo en mujeres es del 1%, llegando hasta un 3% si fuman. Así que, aunque todos doblan el riesgo si se apuntan al más antisocial de los vicios, los hombres siempre tienen el doble de riesgo que las mujeres (a igualdad de exposición al tabaco entre los dos sexos, porque los que fuman tienen seis veces más riesgo que las no fumadoras). En resumen, el sexo actúa como factor de confusión: influye sobre la probabilidad de sufrir la exposición y sobre la probabilidad de padecer el efecto, pero no forma parte de la secuencia causal entre tabaco y cáncer de laringe. Esto tendríamos que tenerlo en cuenta a la hora del análisis y calcular el riesgo relativo ajustado mediante la técnica de Mantel-Haenszel o utilizando un  modelo de regresión logística.

Pero otra posibilidad, si conocemos el factor de confusión, es intentar prevenir su efecto durante la fase de planificación del estudio. Supongamos que partimos de una cohorte de 500 fumadores, el 80% hombres y el 20% mujeres. En lugar de tomar 500 controles no fumadores al azar (solo el 20% serían hombres), incluímos en la cohorte no expuesta un no fumador por cada fumador de la cohorte expuesta y una no fumadora por cada fumadora de la cohorte expuesta. Tendremos dos cohortes con una distribución similar de la variable de confusión y, lógicamente, también similares en la distribución del resto de las variables conocidas (en caso contrario no podríamos compararlas).

¿Hemos solucionado el problema de la confusión?. Vamos a comprobarlo.

puerta_trasera_edadesVemos la tabla de contingencia de nuestro estudio con 1000 personas, puerta_trasera_edadesel 80% hombres y el 20% mujeres en los dos grupos, expuestos y no expuestos. Como sabemos el riesgo de desarrollar cáncer en función del sexo y el estado de fumador, podemos calcular el número de personas que esperamos que desarrollen cáncer a lo largo del estudio: 24 fumadores (el 6% de 400), ocho no fumadores (2% de 400), tres fumadoras (3% de 100) y una mujer no fumadora (1% de 100).

Con estos datos podemos construir las tablas de contingencia, global y estratificadas por sexos, que esperamos encontrar al finalizar el seguimiento. Si calculamos la medida de asociación (en este caso, el riesgo relativo) en hombres y mujeres por separado vemos que coincide (RR = 3). Además, es el mismo riesgo que el de la cohorte global, así que parece que hemos conseguido cerrar la puerta trasera. Ya sabemos que, en un estudio de cohortes, el emparejamiento por el factor de confusión nos permite contrarrestar su efecto.

Ahora supongamos que en lugar de un estudio de cohortes queremos realizar un estudio de casos y controles. ¿Podemos usar el emparejamiento?. Pues claro que podemos, ¿quién nos lo va a impedir?. Pero hay un pequeño problema.

Si pensamos un poco, nos daremos cuenta de que el emparejamiento con las cohortes influye tanto sobre la exposición como sobre el efecto. Sin embargo, en los estudios de casos y controles, el forzar una distribución similar del factor de confusión afecta solo a su influencia sobre el efecto y no a la que tiene sobre la exposición. Esto es así porque al homogeneizar según el factor de confusión se hace también según otros factores relacionados con él, entre otros, la propia exposición. Por este motivo, el emparejamiento no nos garantiza el cierre de la puerta trasera en los estudios de casos y controles.

¿Alguien no se lo cree?. Vamopuerta_trasera_edadess a suponer que, al finalizar el estudio de cohortes, seleccionamos 330 personas con cáncer laríngeo (80% hombres y 20% mujeres). Para hacer el estudio de casos y controles seleccionamos como controles un grupo de personas de la misma población que no tenga cáncer laríngeo (es lo que se denomina un estudio de casos y controles anidado en un estudio de cohortes).

El número de expuestos y no expuestos lo conocemos de los datos que dimos al principio de la población general, conociendo el riesgo de cáncer que se presenta según el género y la exposición al tabaco. Por otra parte, podemos también construir la tabla de los controles, ya que sabemos el porcentaje de exposición al tabaco según el sexo.

Por último, con los datos de estas tres tablas podremos construir las tablas de contingencia para el estudio global y las correspondientes a hombres y mujeres.

En este caso, la medida de asociación idónea es la odds ratio, que tiene un valor de tres para hombres y mujeres, pero que es de 2,18 para la población global del estudio. Vemos, pues, que no coinciden,puerta_trasera_edades lo que nos está diciendo que no nos hemos librado completamente del efecto de la variable de confusión aunque hayamos utilizado la técnica de emparejamiento para seleccionar el grupo control.

Entonces, ¿no puede utilizarse el emparejamiento en los estudios de casos y controles?. Pues sí, sí que se puede, aunque el análisis de los resultados para estimar la medida de asociación ajustada es un poco diferente. Pero esa es otra historia…

La falacia del chocolate

Blanco, negro, relleno, en onzas, a la taza, en polvo, helado, con avellanas, con almendras, con frutas, con leche, puro, fondant, amargo, en pasteles, en bombones, en bebidas calientes o frías, etc, etc, etc. Todos me gustan.

chocolate_nobelAsí que podréis fácilmente imaginar mi alegría cuando mi lector de RSS me mostró el título del artículo del New England que decía que había una relación entre consumo de chocolate y premios Nobel. Ya me veía comiendo chocolate a montones con mi copia del artículo en el bolsillo para tapar la boca a todos lo que viniesen a fastidiarme la fiesta diciéndome que me estaba pasando con las calorías, la grasa, el azúcar, o lo que fuese. Al fin y al cabo, ¿qué puede ser más importante que trabajar para conseguir un Nobel?.

Llegados a este punto, podéis también fácilmente imaginar mi frustración al leer el trabajo y ver que el título tenía gato encerrado. Resulta que se trataba de un estudio ecológico.

En los estudios epidemiológicos que estamos más habituados a leer, las unidades de análisis suelen ser elementos aislados. Sin embargo, en los estudios ecológicos estas unidades se forman con agregados de individuos.

En cada unidad se obtiene una medida sintética de la frecuencia de la exposición y del efecto en los individuos de ese agregado, comprobándose al final si existe asociación entre exposición y efecto entre las diferentes unidades.

Hay dos tipos de estudios ecológicos. Por un lado están los que estudian medidas de frecuencia como la incidencia, mortalidad, etc, buscando patrones geográficos diferentes que puedan estar en relación con factores sociales, económicos, genéticos o lo que sea. Por otro, tenemos los que estudian las variaciones de las frecuencias a lo largo del tiempo con el objetivo de buscar tendencias temporales y, en caso de detectarlas, tratar de explicar su causa.

Estos estudios suelen ser sencillos y rápidos de realizar, ya que muchas veces se elaboran a partir de datos que previamente están disponibles en registros o anuarios, por lo que, además, no suelen ser demasiado caros. El problema con los estudios ecológicos es que el hecho de que exista una asociación entre las unidades de análisis no quiere decir obligatoriamente que ésta también exista a nivel de individuos. Si asumimos a la ligera esta asociación a nivel de individuos corremos el riesgo de cometer un pecado que se conoce con el bonito nombre de falacia ecológica. Uno puede ponerse a comparar toda variable que se le ocurra con la frecuencia de una enfermedad determinada hasta encontrar una asociación significativa, pero después será imposible encontrar un mecanismo plausible que la explique. En nuestro ejemplo, podría incluso darse el caso de que, a nivel individual, el comer más chocolate te embrutezca los sentidos y te aleje del ansiado premio Nobel.

Y para el que no lo crea, vamos a verlo con un ejemplo absurdo y totalmente inventado. Supongamos que queremos saber si hay relación entre ver la televisión durante más de cuatro horas al día y ser vegetariano estricto. Resulta que tenemos los datos de tres encuestas realizadas en tres ciudades, que vamos a llamar A, B y C para no buscarnos más líos.falacia

Si calculamos la prevalencia de teleadicción y vegetarianismo vemos que es de 0,4 en A, 0,5 en B y 0,6 en C. Está bastante claro, en las ciudades en las que hay más adictos a la caja tonta hay más vegetarianos estrictos, lo que puede indicar que el uso de la televisión es incluso más peligroso de lo que ya creíamos previamente.

Pero estos son resultados agregados. ¿Qué pasa a nivel individual?. Pues vemos que las odds ratios son de 0,33 en A y C y de 0,44 en B. Así que, sorprendentemente, aunque en las ciudades con más teleadictos haya más vegetarianos, los teleadictos tienen un 33-44% de probabilidades menos de ser vegetarianos estrictos. Vemos, pues, lo importante que es que los resultados de un estudio ecológico sean posteriormente investigados con otros diseños de estudios analíticos para explicarlos de manera correcta.

Solo dos aspectos más para terminar esta entrada. Primero, que me perdonen los vegetarianos, aunque sean estrictos, y, ¿por qué no?, también los que ven la tele mucho rato. Segundo, ya hemos visto que la falacia del chocolate es, en realidad, una falacia ecológica. Pero, incluso en el caso de que hubiesen sido datos de unidades de análisis individuales, hay que recordar siempre que ni correlación ni asociación son sinónimos de causalidad. Pero esa es otra historia…

Divide y vencerás

¿Quién no ha escuchado esta frase un montón de veces?. Es bastante famosa y, aunque parezca curioso, no se conoce bien su origen. Hay quien dice que fue una ocurrencia de Julio César, pero parece que no hay prueba escrita que lo demuestre. Otros dicen que fue una inspiración de Maquiavelo, muy dado a hacer faenas al prójimo con tal de obtener beneficio propio.

Yo creo que lo más probable es que el premio no sea para ninguno de los dos y que la frase en cuestión sea una más del vasto acervo cultural de nuestra mal llamada Humanidad. De lo que no cabe duda, sin embargo, es de que constituye el núcleo de una útil estrategia para la solución de problemas de cierta complejidad. Se divide el problema en partes más pequeñas, se resuelven éstas con más facilidad y se utilizan estas soluciones para construir la solución compleja del problema inicial.

¿Recordáis el estudio sobre tabaco y enfermedad coronaria de cuando hablamos de factores de confusión?. Llegamos a demostrar que el efecto de la variable confusora nos enmascaraba el verdadero efecto del tabaco sobre la enfermedad. Pues bien, vamos a dividir para poder vencer.

Para ello vamos a emplear una de las técnicas que existen para estimar el efecto de la variable confusora: la estratificación. Esto consiste en crear subgrupos a partir de la muestra inicial, de forma que cada subgrupo se vea libre de la confusión producida por el factor. Una vez hecho esto, podremos estimar por separado las medidas de asociación y, en caso de que no sean iguales (por efecto de la variable confusora), calcular la estimación de asociación ajustada por el factor por el que hemos estratificado (el de confusión).

Cuando la variable confusora no es continua (por ejemplo, hombre y mujer) lo tenemos fácil para estratificar. Sin embargo, si el factor de confusión es una variable continua, como la edad, puede ser complicado decidir cuántos estratos necesitamos. Por una parte, cuánto más estratifiquemos menos confusión tendremos, pero será más difícil obtener información útil de estratos más pequeños. Y al revés, si hay pocos estratos corremos el riesgo de no ajustar bien la estimación de la medida de asociación.

Yo, como soy bastante chapuza y no quiero hacer muchos números, os voy a poner el ejemplo estratificando en dos grupos por edad: mayores y menores de 50 años.divide y vencerasVeis que los riesgos relativos (RR) son diferentes, lo que indica que, probablemente, la edad actúa como variable confusora. Una de las formas para separar el efecto de la edad y obtener una estimación de la asociación del efecto exclusivo del tabaco sobre la enfermedad coronaria es calcular una media ponderada del RR mediante el método de Mantel-Haenszel.

Este método pondera de forma combinada los tres factores de la tabla de contingencia que reflejan la información sobre efecto y exposición: la frecuencia del efecto entre expuestos y no expuestos, los tamaños relativos de los grupos de comparación y el tamaño global de cada estrato. Como es natural, estos dos señores explican esto con un formulón de no te menees, que me vais  a perdonar que no ponga aquí. Simplemente, vamos a ver cómo se calcula el nuevo RR ajustado.

Para calcular el riesgo ponderado de los expuestos, en lugar de dividir el número de expuestos enfermos entre el total de expuestos como haríamos normalmente (166/591, para menores de 50 años), lo dividimos por el total del estrato y lo multiplicamos por el total de no expuestos, de la siguiente manera:

- Menores de 50 años: Re = 166 x (605/1196) = 83,97.

- Mayores de 50 años: Re = 227 x (634/1021) = 140,95.

De manera similar, calculamos los riesgos ponderados para los no expuestos multiplicando los no expuestos enfermos por el total de expuestos y lo dividimos por el total del estrato:

- Menores de 50 años: Ro = 68 x (591/1196) = 33,60.

- Mayores de 50 años: Ro = 314 x (387/1021) = 119,01.

Por último, sumamos los riesgos ponderados de los expuestos y lo dividimos entre la suma de los riesgos ponderados de los no expuestos, obteniendo el RR ajustado:

RRa = (83,97+140,95) / (33,60+119,01) = 1,47.

Lo que quiere decir que el riesgo de desarrollar enfermedad coronaria es, aproximadamente, un 50% mayor si se fuma, con independencia de la edad.

Este cálculo tan sencillo se hace bastante más antipático si no somos tan chapuzas y dividimos la muestra en un número mayor de estratos. Y no os digo nada si las tablas de contingencia se complican. Claro que para eso están los ordenadores y los programas de estadística, que hacen todo esto en un periquete, no sabemos si sin esfuerzo pero, desde luego, sin protestar.

De todas formas, hay otros métodos para calcular la estimación de la asociación ajustada. El método que está más de moda en la actualidad es el de la regresión logística. Con los ordenadores que tiene cualquiera hoy en día, un trabajo que no analiza este problema aplicando un modelo de regresión se suele mirar con malos ojos. Pero esa es otra historia…