Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasGráfico de L’Abbé
image_pdf

En la variedad, no siempre está el gusto

La variedad es buena para muchas cosas. ¡Qué aburrido sería el mundo si todos fuésemos iguales! (sobre todo si fuésemos como alguno que se me está ocurriendo ahora). Nos gusta ir a sitios diferentes, comer cosas diferentes, conocer a personas distintas y divertirnos en ambientes diferentes. Pero hay cosas para las cuáles la variedad es como un grano en el culo.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Aquí necesitaremos la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y de letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la chi-cuadrado. En efecto, la Q sigue una distribución chi-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida en realidad a heterogeneidad por diferencias reales entre los estimadores respecto a la variabilidad debida al azar. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad. Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Galbraith

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.
El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé, que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la labbediagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo?. Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y hemos terminado por hoy. Enhorabuena al que me haya aguantado hasta aquí. Pido perdón por el ladrillo que os he soltado, pero es que esto de la heterogeneidad tiene su aquél. Y es que no solo es importante para saber si debemos combinar o no los estudios, sino que también nos condiciona en gran medida el modelo de análisis de los datos que tenemos que utilizar. Pero esa es otra historia…