Influencers en metanálisis.

En algunas ocasiones, entre los estudios primarios de un metanálisis puede haber algunos que, sin estimar un efecto excesivamente grande o pequeño, pueden tener una gran influencia sobre la estimación global del estudio combinado, comprometiendo así la robustez de la estimación de la medida global. Son los denominados estudios influyentes o, más comúnmente, influencers.
Hay cosas en la vida que me son imposibles de entender. Por poner un ejemplo, pensad cómo hemos podido llegar al punto en que una persona que se graba poniéndose crema en los pómulos puede alterar los hábitos de consumo de medio planeta.
Porque eso es lo que hacen las influencers modernas, con sus dientes blanquísimos, sus “rutinas de skincare” de 27 pasos y sus consejos de salud que harían llorar al mismísimo Hipócrates. Pero por si el hecho de que muevan mercados no fuese desgracia suficiente, la gran calamidad es que también moldean cerebros. Y no precisamente para mejor. Lo más preocupante no son ellas… sino sus seguidores: hordas dispuestas a beber zumo de apio en ayunas o a untarse semen de salmón sin una sola pregunta.
¿Y sabéis una cosa? El mundo de los metanálisis no está tan lejos de este delirio como podría pensarse, porque también ahí existen influencers: estudios que, sin necesidad de ser los más extremos o raros, logran que todo el análisis gire en torno a ellos. No venden trucos de belleza, pero su impacto en la medida de efecto o en la heterogeneidad entre estudios es tan desproporcionado como una ceja laminada en 4K.
Muchos investigadores siguen ciertos estudios como quien sigue a una influencer: fascinados por su aparente solidez, sin preguntarse si están ante evidencia valiosa o pura tendencia con brillo. Hoy vamos a destripar a la diva que mueve el efecto, ese estudio que, sin ser extremo, logra inclinar todo un metanálisis a su favor.
Veremos cómo identificarla, qué hacer con su influencia, y por qué conviene dejar el hype estadístico para otro momento. Spoiler: no hay códigos de descuento, pero sí datos que deslumbran… y no siempre por buenas razones.
¿Qué hago yo aquí?
Esta pregunta podría hacérsela cualquier estudio extremo de un metanálisis, lo que en la pérfida Albión llaman un outlier.
Suele ser habitual que haya cierta heterogeneidad entre los estudios primarios de un metanálisis, pero, en ocasiones, hay algunos que, en realidad, no encajan por ningún sitio. Son esos que tienen un efecto tan grande (o tan pequeño), que pueden desviar el efecto global o aumentar la heterogeneidad entre estudios.
Estos estudios no solo están más perdidos que un TikToker en un congreso de estadística bayesiana, sino que dañan la robustez de la estimación del efecto global, que no es deseable que dependa de manera tan desmedida de un solo estudio (o de unos pocos, que puede haber más de un outlier). En efecto, si lo eliminamos y repetimos el análisis, podremos ver cómo se modifican el efecto global y la medición de la heterogeneidad.
¿Y cómo los quitamos? No podemos eliminar por las buenas todos los estudios cuya estimación se aleje de la medida global, porque ya sabemos que los estudios más pequeños, con mayor error de muestreo, pueden distanciarse del efecto global.
Pero, si lo pensamos un poco, estos estudios son también más imprecisos, por lo que el intervalo de confianza de su estimación individual será también más amplio. Gracias a esto, es frecuente que el intervalo de confianza se solape con el de la medida resumen global (no habrá diferencia estadísticamente significativa entre ambos). Cuando estos estudios extremos muestren una estimación precisa, con un intervalo estrecho, podremos sospechar que no se distancian por su imprecisión, sino porque realmente están fuera de lugar.
Esto puede utilizarse para decidir qué estudios son extremos. Para aquellos con un efecto mucho menor que el global, consideraremos que son extremos cuando el límite superior de su intervalo no alcance el límite inferior del intervalo de la medida global. Y, al revés, los de efecto mayor serán sospechosos de ser un outlier cuando el límite inferior de su intervalo no se solape con el límite superior del intervalo de la medida global de efecto.
Influencers
Pensaréis que la identificación y eliminación de los estudios extremos soluciona el problema de la robustez de la estimación global del metanálisis. Nada más lejos de la realidad: algunos estudios, sin estimar un efecto excesivamente grande o pequeño, pueden tener una gran influencia sobre la estimación global del estudio combinado. Son los denominados estudios influyentes, aunque suena más moderno llamarlos influencers.
Así es, puede darse el caso de un metanálisis con un resultado estadísticamente significativo que deje de serlo si se retira del conjunto de los estudios primarios uno (o más) de ellos, el influencer (o influencers, que también pueden ser varios).
El problema es que estos no son tan fáciles de identificar como los outliers, ya que no llaman la atención por separarse del resto de los estudios. Pero no os preocupéis, hay varias formas de detectar estas divas que tiran del resultado hacia donde les interesa.
Todos menos uno
Un enfoque de fuerza bruta consiste en hacer k análisis (siendo k el número de estudios primarios), dejando un estudio fuera cada vez. Basándonos en los resultados de estos k análisis, podemos identificar qué estudios son los que influyen más en el resultado del metanálisis cuando se incluyen todos los estudios primarios.
Con estos datos podemos, además, dibujar un gráfico de Baujat, que nos ayuda a interpretar la contribución de cada estudio a la heterogeneidad global, medida mediante la Q de Cochran, y a la medida global de resultado. Podéis ver un ejemplo en la figura adjunta.

Veis como la mayoría de los estudios se agrupan en una zona común. Según se van encontrando más hacia la derecha del eje X, los estudios contribuyen más a la heterogeneidad global del metanálisis. Del mismo modo, según se encuentran en valores más altos del eje Y, aumentará su contribución al valor de la medida de efecto global.
En este caso, podemos decir que los dos estudios señalados con los asteriscos azules tienen una alta contribución a la heterogeneidad. Por su parte, el que señalamos con el asterisco verde, contribuye modestamente a la heterogeneidad, pero parece tener gran influencia en el valor de la medida de efecto global del metanálisis.
Ya tendríamos identificados tres sospechosos, pero podéis ver que la elección del punto a partir del cual consideramos que se alejan demasiado de los demás es un poco subjetiva. Para estos casos, existen otros métodos gráficos, un poco más complejos, que podemos utilizar.
Otra vuelta de tuerca
Existen varios métodos gráficos para realizar el diagnóstico de la influencia de los estudios primarios sobre la estimación del efecto global del metanálisis, tal como podéis ver en la segunda figura. Estos métodos utilizan diversas medidas para saber qué estudios encajan bien con los demás y cuáles no.
Vamos a ver, de forma muy resumida, qué representa cada uno de estos ocho gráficos, moviéndonos de izquierda a derecha y de arriba abajo.

El primero muestra los residuos estandarizados externamente de cada uno de los estudios, que son las diferencias entre la estimación de cada estudio y el efecto global del metanálisis. Decimos que se estandarizan externamente porque usamos una versión del efecto global excluyendo dicho estudio. Si un estudio se ajusta bien al conjunto, su residuo será bajo. En caso contrario, el residuo será alto, lo que sugiere que el estudio es influyente o atípico.
El segundo muestra otra métrica diferente, el estadístico DFFITS, que mide cuánto cambia el efecto combinado en un metanálisis al eliminar un estudio específico, expresado en desviaciones estándar. Su cálculo es similar al de los residuos estandarizados y utiliza el peso del estudio en el modelo de efectos aleatorios. Valores altos de DFFITS indican que un estudio tiene un impacto fuerte en el resultado global y puede considerarse influyente.
El tercer gráfico muestra las distancias de Cook, que se calculan de forma similar al valor DFFITS, pero con una diferencia clave: el cambio en el efecto combinado, con y sin el estudio, se eleva al cuadrado, con lo que solo puede tomar valores positivos. Aunque los valores son diferentes, el patrón suele parecerse al de DFFITS.
El cuarto representa la razón de covarianzas, esto es, el cociente de la varianza del efecto sin el estudio dividido entre la varianza del efecto global con todos los estudios. Una razón inferior a 1 nos indica que la eliminación de ese estudio del análisis proporcionará una estimación más precisa, por lo que ese estudio pasará a nuestra lista de sospechosos.
El quinto y sexto gráficos de la tercera fila son bastante sencillos de entender. Representan, respectivamente, cómo varían los valores de la tau-cuadrado y de la Q de Cochran cuando quitamos uno de los estudios del análisis (leave-one-out, L-O-O). El descenso de estos valores al excluir un estudio indica que este influye en la heterogeneidad global del metanálisis.

Para terminar, en la última fila se muestran las representaciones del valor de influencia (hat value) y los pesos de los estudios. Los dos son parámetros similares que indican cuánto influye cada estudio sobre el resultado final del metanálisis. Una vez más, aquellos estudios con valores más extremos serán lo que caigan bajo sospecha.
Veis, pues, que hay toda una batería de métricas que nos ayudan a decidir si un estudio puede ser atípico o influyente. Como regla de andar por casa, podemos considerar un estudio como influencer si se cumple alguna de estas tres condiciones que podéis ver en la tercera figura.
Nos vamos…
Y aquí vamos a dejar el asunto de las influencers por hoy.
Hemos visto cómo los estudios extremo o atípicos y los estudios influyentes pueden arrastrar el efecto resumen o la heterogeneidad global del metanálisis y disminuir la robustez de los resultados de este, por lo que siempre habrá que valorar si existen y tratar de explicar su efecto.
Hay que decir que un estudio puede ser la dos cosas. Un influencer puede serlo sin ser un outlier, pero un estudio atípico será, con frecuencia, también un estudio influyente.
Antes de terminar, me gustaría aclarar dos cosas. La primera, cuando hablé de untarse semen de salmón al comienzo de la entrada no estaba delirando. Creedlo, o no, va camino de convertirse en trending topic.
La segunda, a pesar de la paliza de gráficos que os he dado, no los hemos repasados todos. Podríamos, por ejemplo, completar la táctica del leave-one-out representando los gráficos de efecto (los forest plot) ordenados por magnitud del efecto o por valor de heterogeneidad. La distribución de los valores nos dará pistas sobre posibles estudios sospechosos.
Pero aún existen métodos gráficos más sofisticados que exigen el máximo esfuerzo de nuestros ordenadores, como los gráficos GOSH (Graphic Display of Heterogeneity), que evalúan la heterogeneidad aplicando el modelo a todas las combinaciones posibles de estudios. Si el gráfico identifica subgrupos según el efecto global y la heterogeneidad, mostrará clústeres que sugerirán la existencia de múltiples poblaciones de efecto y ausencia de homogeneidad de los estudios. Pero esa es otra historia…