Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasMetanálisis
image_pdfimage_print

Poco ruido y muchas nueces

Sí, ya sé que el refrán dice justo lo contrario. Pero es que ese es precisamente el problema que tenemos con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirnos a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no? Pues a veces sí y a veces no. Como cuando leemos cualquier tipo de trabajo de literatura médica, siempre debemos hacer una lectura crítica de lo que tenemos delante y no confiar únicamente en el buen saber hacer de sus autores.

Las revisiones, de las que ya sabemos que hay dos tipos, tienen también sus limitaciones, que debemos saber valorar. La forma más sencilla de revisión, nuestra preferida cuando somos más jóvenes e ignorantes, es la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema. En estas podremos hacer poca lectura crítica, ya que no hay una sistematización precisa de cómo hay que elaborar estos resúmenes, así que tendremos que confiar en aspectos poco confiables como el prestigio del autor o el impacto de la revista donde se publica.

Según van aumentando nuestros conocimientos sobre los aspectos generales de los temas, nuestro interés va derivando hacia otro tipo de revisiones que nos proporcionan información más específica sobre aspectos que escapan a nuestro cada vez más amplio saber. Este otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son lo suficientemente homogéneos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. Con estas revisiones sí que podemos hacer una lectura crítica siguiendo una metodología ordenada y preestablecida, de forma similar a como hacemos con otros tipos de estudios.

El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica que podéis consultar en los manuales disponibles en su página web. Pero, si queréis mi consejo, no os fieis ni de la Cochrane y haced una lectura crítica cuidadosa incluso si la revisión la han hecho ellos, no dándola por buena simplemente por su origen. Como dice uno de mis maestros en estas lides (seguro que sonríe si lee estas líneas), hay vida más allá de la Cochrane. Y, además, mucha y buena, añadiría yo.

Aunque las RS y los metanálisis imponen un poco al principio, no os preocupéis, se pueden valorar críticamente de una forma sencilla teniendo en cuenta los principales aspectos de su metodología. Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que respondan correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión? Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que la revisión trate de responder solo a una pregunta, ya que si pretende responder a varias se corre el riesgo de que no responda adecuadamente a ninguna de ellas. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Aunque lo más habitual es encontrar RS  de ensayos clínicos, pueden hacerse de otros tipos de estudios observacionales, de pruebas diagnósticas, etc. Los autores de la revisión deben especificar los criterios de inclusión y exclusión de los trabajos, además de considerar sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si la respuesta a las dos preguntas anteriores es afirmativa, pasaremos a considerar los criterios secundarios y dejaremos el paseo del perro para más tarde. ¿Se han incluido los estudios importantes que tienen que ver con el tema? Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Para esto los autores pueden servirse de una herramienta diseñada ad hoc o, más habitualmente, recurrir a una que ya esté reconocida y validada, como la herramienta de detección de sesgo de la Colaboración Cochrane, en el caso de revisiones de ensayos clínicos. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo según los aspectos más importantes de la metodología del diseño (ensayos clínicos en este caso).

Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación de los estudios primarios de la revisión. Por último, debe quedar registrado el grado de concordancia entre los dos revisores y qué hacían si no se ponían de acuerdo (lo más habitual suele ser recurrir a un tercero, que seguramente será el jefe de los dos).

Para finalizar el apartado de validez interna o metodológica, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes con un metanálisis, debemos preguntarnos si era razonable combinar los resultados de los estudios primarios. Es fundamental, para poder sacar conclusiones de datos combinados, que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

Resumiendo, los aspectos fundamentales que tendremos que analizar para valorar la validez de una RS serán: 1) que los objetivos de la revisión estén bien definidos en términos de población, intervención y medición del resultado; 2) que la búsqueda bibliográfica haya sido exhaustiva; 3) que hayan sido adecuados los criterios de inclusión y exclusión de estudios primarios en la revisión; y 4) que se haya comprobado también la validez interna o metodológica de los estudios incluidos. Además, si la RS incluye un metanálisis, revisaremos los aspectos metodológicos que ya vimos en una entrada anterior: conveniencia de combinar los estudios para realizar una síntesis cuantitativa, evaluación adecuada de la heterogeneidad de los estudios primarios y utilización de un modelo matemático adecuado para combinar los resultados de los estudios primarios (ya sabéis, aquello de los modelos de efecto fijo y de efectos aleatorios).

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población. Como veis, la forma de valorar la importancia de los resultados es prácticamente la misma que la de valorar la importancia de los resultados de los estudios primarios. En este caso ponemos ejemplos de ensayos clínicos, que es el tipo de estudio que veremos más frecuentemente, pero recordad que puede haber otros tipos de estudios que pueden expresar mejor la importancia de sus resultados con otros parámetros. Eso sí, los intervalos de confianza siempre nos ayudarán a valorar la precisión de los resultados.

Los resultados de los metanálisis se suelen representar de una manera estandarizada, recurriendo habitualmente al llamado diagrama de efectos, mucho más famoso por su nombre en inglés: forest plot. Se dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Si queréis una explicación más detallada sobre los elementos que componen un forest plot, podéis acudir a la entrada anterior en la que lo explicábamos o a los manuales en línea de la Colaboración Cochrane.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados a nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe, que son las que hemos utilizado para todo lo que hemos dicho hasta ahora.

La declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) consta de 27 ítems, clasificados en 7 secciones que hacen referencia a los apartados de título, resumen, introducción, métodos, resultados, discusión y financiación:

  1. Título: debe identificarse como RS, metanálisis o ambos. Si se especifica, además, que trata sobre ensayos clínicos, se priorizará sobre otros tipos de revisiones.
  2. Resumen: debe ser un resumen estructurado que debe incluir antecedentes, objetivos, fuentes de datos, criterios de inclusión, limitaciones, conclusiones e implicaciones. Debe constar también el número de registro de la revisión.
  3. Introducción: incluye dos ítems, la justificación del trabajo (qué se sabe, controversias, etc) y los objetivos (qué pregunta trata de responder en términos PICO de la pregunta clínica estructurada).
  4. Métodos. Es la sección con mayor número de ítems (12):

– Protocolo y registro: indicar el número de registro y su disponibilidad.

– Criterios de elegibilidad: justificación de las características de los estudios y los criterios de búsqueda empleados.

– Fuentes de información: describir las fuentes utilizadas y la última fecha de búsqueda.

– Búsqueda: estrategia completa de búsqueda electrónica, para que pueda ser reproducible.

– Selección de estudios: especificar el proceso de selección y los criterios de inclusión y exclusión.

– Proceso de extracción de datos: describir los métodos empleados para la extracción de los datos de los estudios primarios.

– Lista de datos: definir las variables empleadas.

– Riesgo de sesgo en los estudios primarios: describir el método utilizado y cómo se ha empleado en la síntesis de los resultados.

– Medidas de resumen: especificar las principales medidas de resumen empleadas.

– Síntesis de resultados: describir los métodos empleados para combinar los resultados.

– Riesgo de sesgo entre los estudios: describir sesgos que puedan afectar la evidencia acumulativa, como el sesgo de publicación.

– Análisis adicionales: si se hacen métodos adicionales (sensibilidad, metarregresión, etc) especificar cuáles fueron preespecificados.

  1. Resultados. Incluye 7 ítems:

– Selección de estudios: se expresa mediante un diagrama de flujo que valora el número de registros en cada etapa (identificación, cribado, elegibilidad e inclusión).

– Características de los estudios: presentar las características de los estudios de los que se extrajeron datos y sus citas bibliográficas.

– Riesgo de sesgo en los estudios: comunicar los riesgos en cada estudio y cualquier evaluación que se haga sobre el sesgo en los resultados.

– Resultados de los estudios individuales: datos de estudio para cada estudio o grupo de intervención y estimación del efecto con su intervalo de confianza. Lo ideal es acompañarlo de un forest plot.

– Síntesis de los resultados: presentar los resultados de todos los MA realizados con los intervalos de confianza y las medidas de consistencia.

– Riesgo de sesgo entre los sujetos: presentar cualquier evaluación que se haga del riesgo de sesgo entre los estudios.

– Análisis adicionales: si se han realizado, facilitar los resultados de los mismos.

  1. Discusión. Trata 3 ítems:

– Resumen de la evidencia: resumir los hallazgos principales con la fuerza de la evidencia de cada resultado principal y la relevancia desde el punto de vista clínico o de los grupos de interés principales (proveedores de cuidados, usuarios, decisores de salud, etc).

– Limitaciones: discutir las limitaciones de los resultados, de los estudios y de la revisión.

– Conclusiones: interpretación general de los resultados en contexto con otras evidencias y sus implicaciones para la futura investigación.

  1. Financiación: describir las fuentes de financiación y el papel que tuvieron en la realización de la RS.

Como tercera opción a estas dos herramientas, podéis utilizar también el ya mencionado manual de la Cochrane (Cochrane Handbook for Systematic Reviews of Interventions), disponible en su página web y cuya finalidad es ayudar a los autores de las revisiones Cochrane a trabajar de forma explícita y sistemática.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte, por lo que ya le dedicamos en su momento dos entradas para él solo que podéis consultar cuando queráis. Pero esa es otra historia…

Aquiles y el bosque de los efectos

Aquiles. ¡Qué tío! Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

Estos son los principales factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo. De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil.

En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.

Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).

Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse, por ejemplo, que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

La más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

Este método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

La prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación? ¿Podemos hacer algo para ajustarlo? Como siempre, podemos.

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos el efecto.Otra actitud muy conservadora que podemos adoptar es dar por hecho que existe un sesgo de publicación y preguntarnos cuánto afecta nuestros resultados, dando por hecho que nos hemos dejado estudios sin incluir en el análisis.

La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.

Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.

El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método.

El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud.

Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.

Para terminar con el metanálisis, veamos cuál es la forma correcta de expresar los resultados del análisis de los datos. Para hacerlo bien, podemos seguir las recomendaciones de la declaración PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica mediante un diagrama de efectos, una herramienta gráfica popularmente más conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de media y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

  1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.
  2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.
  3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.
  4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.
  5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y con esto damos por finalizado el tema del metanálisis. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática aunque, como ya sabemos, en estos casos le cambiamos el nombre por el de gráfico en embudo. Pero esa es otra historia…

Churras y merinas

Todos conoceréis el cuento chino del pobre grano de arroz solitario que se cae al suelo y no lo oye nadie. Claro que si en lugar de caerse un grano se cae un saco lleno de arroz eso ya será otra cosa. Hay muchos ejemplos de que la unión hace la fuerza. Una hormiga roja es inofensiva, salvo que te muerda en alguna zona blanda y noble, que suelen ser las más sensibles. Pero ¿qué me decís de una marabunta de millones de hormigas rojas? Eso sí que acojona, porque si se juntan todas y vienen a por ti, poco podrás hacer para parar su empuje. Sí, la unión hace la fuerza.

Y esto también pasa en estadística. Con una muestra relativamente pequeña de votantes bien elegidos podemos estimar quién va a ganar unas elecciones en las que votan millones. Así que, ¿qué no podríamos hacer con un montón de esas muestras? Seguro que la estimación sería más fiable y más generalizable.

Pues bien, esta es precisamente una de las finalidades del metanálisis, que utiliza diversas técnicas estadísticas para hacer una síntesis cuantitativa de los resultados de un conjunto de estudios que, aunque tratan de responder a la misma pregunta, no llegan exactamente al mismo resultado. Pero cuidado, no podemos ponernos a juntar estudios para sacar conclusiones sobre la suma de ellos sin antes tomar una serie de precauciones. Esto sería como mezclar churras con merinas que, no sé muy bien porqué, debe ser algo terriblemente peligroso porque todo el mundo sabe que es algo a evitar.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Es más que conveniente que exista la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí también impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos. Si existe mucha heterogeneidad desde el punto de vista clínico, quizás lo más idóneo sea no hacer metanálisis y limitarnos a realizar un análisis de síntesis cualitativa de los resultados de la revisión.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la ji-cuadrado. En efecto, la Q sigue una distribución ji-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida a diferencias reales entre los estimadores respecto a la variabilidad debida al azar (dicho de forma aún más sencilla, la proporción de variabilidad no debida al azar). Además, es  menos sensible a la magnitud del efecto y al número de estudios. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}

Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

Otras veces los autores realizan un contraste de hipótesis con una hipótesis nula de no heterogeneidad y utilizan una chi ji-cuadrado o algún estadístico similar. En estos casos, lo que proporcionan es un valor de significación estadística. Si la p es < 0,05 se puede rechazar la hipótesis nula y decir que hay heterogeneidad. En caso contrario diremos que no podemos rechazar la hipótesis nula de no heterogeneidad.

En resumen, siempre que veamos un indicador de homogeneidad que represente un porcentaje nos indicará la proporción de variabilidad que no es debida al azar. Por su parte, cuando nos den una “p” habrá heterogeneidad significativa cuando la “p” sea menor de 0,05.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad (siempre con un pequeño grado de incertidumbre). Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico, que podéis ver en la primera figura, representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.

El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé (segunda figura), que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la diagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio. Una pequeña pega de esta herramienta es que solo es aplicable a metanálisis de ensayos clínicos y cuando la variable dependiente es dicotómica.

Bien, supongamos que hacemos el estudio de heterogeneidad y decidimos que vamos a combinar los estudios para hacer el metanálisis. El siguiente paso es analizar los estimadores del tamaño de efecto de los estudios, ponderándolos según la contribución que cada estudio va a tener sobre el resultado global. Esto es lógico, no puede contribuir lo mismo al resultado final un ensayo con pocos participantes y un resultado poco preciso que otro con miles de participantes y una medida de resultado más precisa.

La forma más habitual de tener en cuenta estas diferencias es ponderar la estimación del tamaño del efecto por la inversa de la varianza de los resultados, realizando posteriormente el análisis para obtener el efecto medio. Para estos hay varias posibilidades, algunas de ellas muy complejas desde el punto de vista estadístico, aunque los dos métodos que se utilizan con más frecuencia son el modelo de efecto fijo y el modelo de efectos aleatorios. Ambos modelos difieren en la concepción que hacen de la población de partida de la que proceden los estudios primarios del metanálisis.

El modelo de efecto fijo considera que no existe heterogeneidad y que todos los estudios estiman el mismo tamaño de efecto de la población (todos miden el mismo efecto, por eso se llama de efecto fijo), por lo que se asume que la variabilidad que se observa entre los estudios individuales se debe únicamente al error que se produce al realizar el muestreo aleatorio en cada estudio. Este error se cuantifica estimando la varianza intraestudios, asumiendo que las diferencias en los tamaños de efecto estimados se deben solo a que se han utilizado muestras de sujetos diferentes.

Por otro lado, en el modelo de efectos aleatorios se parte de la base de que el tamaño de efecto varía en cada estudio y sigue una distribución de frecuencias normal dentro de la población, por lo que cada estudio estima un tamaño de efecto diferente. Por lo tanto, además de la varianza intraestudios debida al error del muestreo aleatorio, el modelo incluye también la variabilidad entre estudios, que representaría la desviación de cada estudio respecto del tamaño de efecto medio. Estos dos términos de error son independientes entre sí, contribuyendo ambos a la varianza del estimador de los estudios.

En resumen, el modelo de efecto fijo incorpora solo un término de error por la variabilidad de cada estudio, mientras que el de efectos aleatorios añade, además, otro término de error debido a la variabilidad entre los estudios.

Veis que no he escrito ni una sola fórmula. En realidad no nos hace falta conocerlas y son bastante antipáticas, llenas de letras griegas que no hay quien las entienda. Pero no os preocupéis. Como siempre, los programas estadísticos como RevMan de la Cochrane Collaboration permiten hacer los cálculos de forma sencilla, quitando y sacando estudios del análisis y cambiando de modelo según nos apetezca.

El tipo de modelo a elegir tiene su importancia. Si en el análisis previo de homogeneidad vemos que los estudios son homogéneos podremos utilizar el modelo de efecto fijo. Pero si detectamos que existe heterogeneidad, dentro de los límites que nos permitan combinar los estudios, será preferible usar el modelo de efectos aleatorios.

Otra consideración a realizar es la de la aplicabilidad o validez externa de los resultados del metanálisis. Si hemos utilizado el modelo de efecto fijo será comprometido generalizar los resultados fuera de las poblaciones con características similares a las de los estudios incluidos. Esto no ocurre con los resultados obtenidos utilizando el modelo de efectos aleatorios, cuya validez externa es mayor por provenir de poblaciones de diferentes estudios.

En cualquier caso, obtendremos una medida de efecto medio junto con su intervalo de confianza. Este intervalo de confianza será estadísticamente significativo cuando no cruce la línea de efecto nulo, que ya sabemos que es cero para diferencias de medias y uno para odds ratios y riesgos relativos. Además, la amplitud del intervalo nos informará sobre la precisión de la estimación del efecto medio en la población: cuánto más ancho, menos preciso, y viceversa.

Si pensáis un poco comprenderéis en seguida porqué el modelo de efectos aleatorios es más conservador que el de efecto fijo en el sentido de que los intervalos de confianza que se obtienen son menos precisos, ya que incorpora más variabilidad en su análisis. En algún caso puede ocurrir que el estimador sea significativo si usamos el de efecto fijo y no lo sea si usamos el de efectos aleatorios, pero esto no debe condicionarnos a la hora de escoger el modelo a utilizar. Siempre debemos basarnos en la medida previa de heterogeneidad aunque, si tenemos dudas, también podemos utilizar los dos y comparar los diferentes resultados.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo? Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y ya solo nos quedaría comprobar que no nos faltan estudios sin recoger y presentar los resultados de forma correcta. Los datos de los metanálisis suelen representarse en un gráfico específico que se suele conocer por su nombre en inglés: el forest plot. Pero esa es otra historia…

El todo es mayor que la suma de las partes

Esta es otra de esas frases famosas que están hasta en la sopa. Al parecer, el primero que tuvo esta ocurrente idea fue Aristóteles, que resumió con ella el principio general del holismo en sus escritos sobre metafísica. ¿Quién hubiese dicho que la frasecita encierra tanta sabiduría? Y es que el holismo insiste en que el todo debe ser considerado de una forma global, ya que sus componentes pueden actuar de una forma sinérgica, permitiendo que el conjunto tenga más significado que el aportado por cada parte de forma individual.

No temáis, seguís en el blog del seso y no en uno de filosofía. Y tampoco he cambiado la temática del blog, pero es que este principio me viene al pelo para introducir esa fiera corrupia del método científico que es la revisión sistemática, con o sin metanálisis.

Vivimos en la era de la información. Desde finales del pasado siglo XX hemos sido testigos de una verdadera explosión de las fuentes de información disponibles, accesibles desde múltiples fuentes y plataformas. El resultado final es que nos vemos desbordados cada vez que necesitamos una información sobre un punto concreto, no sabemos dónde buscar ni cómo podemos encontrar lo que queremos. Por este motivo empezaron a desarrollarse sistemas que sintetizasen la información disponible para hacerla más abarcable cuando se necesitase.

Nacen así las primeras revisiones, llamadas revisiones narrativas o de autor. Para elaborarlas, uno o varios autores, habitualmente expertos en un tema concreto, hacían una revisión general sobre dicho tema, aunque sin ningún criterio estricto sobre la estrategia de búsqueda ni de selección de la información. Siguiendo con total libertad, los autores analizaban los resultados tal como les mandaba su entendimiento y terminaban sacando sus conclusiones a partir de una síntesis cualitativa de los resultados obtenidos.

Estas revisiones narrativas son muy útiles para adquirir una visión general del tema, especialmente cuando uno sabe poco sobre la materia, pero son poco útiles para el que ya conoce el tema y necesita respuesta a una pregunta más concreta. Además, como todo el procedimiento se hace según el gusto de los autores, las conclusiones son poco reproducibles.

Por estos motivos, una serie de mentes privilegiadas inventan el otro tipo de revisión en el que nos vamos a centrar en esta entrada: la revisión sistemática. En lugar de revisar un tema general, las revisiones sistemáticas sí se centran en un tema concreto para poder solucionar dudas concretas de la práctica clínica. Además, emplean una estrategia de búsqueda claramente especificada y unos criterios de inclusión de trabajos explícitos y rigurosos, lo que las hace altamente reproducibles si a otro grupo de autores se les ocurre repetir la revisión sobre el mismo tema. Y, por si fuera poco, siempre que es posible van más allá del análisis de síntesis cualitativa, completándola con una síntesis cuantitativa que recibe el simpático nombre de metanálisis.

La elaboración de una revisión sistemática consta de seis pasos: formulación del problema o pregunta que quiere responderse, búsqueda y selección de los trabajos existentes, evaluación de la calidad de estos estudios, extracción de los datos, análisis de los resultados y, finalmente, interpretación y conclusión. Vamos a detallar un poco todo este proceso.

Toda revisión sistemática que se precie debe tratar de responder a una pregunta concreta que debe ser relevante desde el punto de vista clínico. La pregunta se hará habitualmente de forma estructurada con los componentes habituales de población, intervención, comparación y resultado (PICO), de forma que el análisis de estos componentes nos permitirá saber si la revisión es de nuestro interés.

Además, los componentes de la pregunta clínica estructurada nos ayudarán a realizar la búsqueda de los trabajos relevantes que existan sobre el tema. Esta búsqueda debe ser global y no sesgada, por lo que evitaremos los posibles sesgos de procedencia excluyendo fuentes por su idioma, revista, etc. Lo habitual es utilizar un mínimo de dos bases de datos electrónicas importantes de uso general, como Pubmed, Embase o la de la Cochrane, junto con las específicas del tema que se esté tratando. Es importante que esta búsqueda se complemente con una búsqueda manual en registros no electrónicos y consultando las referencias bibliográficas de los trabajos encontrados, además de otras fuentes de la llamada literatura gris, como tesis, y documentos de congresos, además de documentos de agencias financiadoras, registros e, incluso, establecer contacto con otros investigadores para saber si existen trabajos aún no publicados.

Es muy importante que esta estrategia se especifique claramente en el apartado de métodos de la revisión, de forma que cualquiera pueda reproducirla con posterioridad, si se le antoja. Además, habrá que especificar claramente los criterios de inclusión y exclusión de los estudios primarios de la revisión, el tipo de diseño que se busca y sus componentes principales (otra vez en referencia al PICO, los componentes de la pregunta clínica estructurada).

El tercer paso es la evaluación de la calidad de los estudios encontrados, que debe hacerse por un mínimo de dos personas de forma independiente, ayudándose de un tercero (que seguramente será el jefe) para desempatar en los casos en que no haya consenso entre los extractores. Para esta tarea suelen utilizarse herramientas o listas de verificación diseñadas para tal efecto, siendo una de las más utilizadas la herramienta de control de sesgos de la Colaboración Cochrane. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo. Es frecuente utilizar los colores del semáforo, marcando en verde los estudios con bajo riesgo de sesgo, en rojo los que tienen alto riesgo de sesgo y en amarillo los que se quedan en tierra de nadie. Cuanto más verde veamos, mejor será la calidad de los estudios primarios de la revisión.

Para la extracción de los datos suelen diseñarse también formularios al uso que suelen recoger datos como fecha, ámbito del estudio, tipo de diseño, etc, además de los componentes de la pregunta clínica estructurada. Como en el caso del paso anterior, conviene que esto se haga por más de una persona, estableciendo el método para llegar a un acuerdo en los casos en que no haya consenso entre los revisores.

Y aquí entramos en la parte más interesante de la revisión, el análisis de los resultados. El papel fundamental de los autores será explicar las diferencias que existan entre los estudios primarios que no sean debidas al azar, prestando especial atención a las variaciones en el diseño, población de estudio, exposición o intervención y resultados medidos. Siempre se podrá hacer un análisis de síntesis cualitativa, aunque la verdadera magia de la revisión sistemática es que, cuando las características de los estudios primarios lo permiten, puede realizarse también una síntesis cuantitativa, llamada metanálisis.

Un metanálisis es un análisis estadístico que combina los resultados de varios estudios independientes pero que tratan de responder a una misma pregunta. Aunque el metanálisis puede considerarse como un trabajo de investigación por derecho propio, lo habitual es que sea parte de una revisión sistemática.

Los estudios primarios pueden combinarse empleando una metodología estadística desarrollada para tal fin, lo que tiene una serie de ventajas. La primera, al combinar todos los resultados de los estudios primarios puede obtenerse una visión global más completa (ya sabéis, el todo es mayor…). La segunda, al combinar aumentamos el tamaño de la muestra, lo que aumenta la potencia del estudio en comparación con la de los estudios individuales, mejorando la estimación del efecto que queremos medir. En tercer lugar, al extraerse las conclusiones de un número mayor de estudios aumenta su validez externa, ya que al haber implicadas poblaciones diferentes es más fácil generalizar los resultados. Por último, puede permitirnos resolver controversias entre las conclusiones de los diferentes estudios primarios de la revisión e, incluso, contestar a preguntas que no se habían planteado en esos estudios.

Una vez hecho el metanálisis habrá que hacer una síntesis final que integre los resultados de las síntesis cualitativa y cuantitativa con el objetivo de dar respuesta a la pregunta que motivó la revisión sistemática o, cuando esto no sea posible, plantear los estudios adicionales que deben realizarse para poder contestarla.

Pero para que un metanálisis merezca todos nuestros respetos debe cumplir una serie de requisitos que son, básicamente, los que ya le hemos exigido a la revisión sistemática de la que forma parte: el metanálisis debe tratar de contestar una pregunta concreta y debe basarse en toda la información relevante disponible, sin sesgo de recuperación ni sesgo de publicación. Además, deben valorarse los estudios primarios para asegurarnos de que tienen la calidad suficiente y que son lo suficientemente homogéneos como para poder combinarlos. Por supuesto, lo datos deben analizarse y presentarse de la forma apropiada. Y, por último, debe tener sentido el que queramos combinar los resultados. El que podamos hacerlo no siempre significa que tengamos que hacerlo si el contexto clínico no lo hace necesario.

¿Y cómo se combinan los estudios?, preguntaréis algunos. Pues esa es la madre del cordero del metanálisis (o una de las madres, que tiene varias), porque hay varias formas posibles de hacerlo.

A cualquiera se le ocurre que la forma más sencilla sería tipo Festival de Eurovisión. Contabilizamos los estudios primarios en los que el efecto positivo obtuvo significación estadística y, sin son mayoría, decimos que hay consenso a favor del resultado positivo. Este enfoque es bastante sencillo pero, no me lo negaréis, también bastante chapucerillo y se me ocurren una serie de inconvenientes a la hora de usarlo. Por un lado, implica que no significativo es sinónimo de falta de efecto, lo cual no siempre tiene porqué ser verdad. Además, no tiene en cuenta la dirección y fuerza del efecto en cada estudio, ni la precisión de los estimadores empleados ni la calidad o las peculiaridades de diseño de cada estudio primario. Así que este tipo de abordaje no parece muy recomendable, aunque nadie nos va a poner una multa si lo usamos de forma informal como primera aproximación antes de decidir cuál es la mejor forma de combinar los resultados de los estudios.

Otra posibilidad es utilizar una especie de prueba de los signos, similar a la de algunas técnicas de estadística no paramétrica. Se cuentan los positivos a favor del efecto, les restamos los negativos y obtenemos nuestra conclusión. La verdad es que este método también parece demasiado simple. No tiene en cuenta los estudios sin significación estadística ni la precisión de los estimadores. Así que tampoco utilizaremos mucho este tipo de abordaje, a no ser que solo sepamos la dirección del efecto de los estudios primarios. También podríamos utilizarlo cuando los estudios primarios son muy heterogéneos para obtener una aproximación, aunque yo no me fiaría mucho de los resultados.

El tercer método es combinar las “pes” (nuestras amadas y sacrosantas p). Esto podría pasársenos por la cabeza si tuviésemos una revisión sistemática cuyos estudios primarios usaran diferentes medidas de resultado, aunque todos tratasen de contestar a una misma pregunta. Pensad, por ejemplo, un estudio sobre osteoporosis donde unos miden densitometría ultrasónica, otros DEXA en columna, otros en fémur, etc. El problema de este método es que no tiene en cuenta la intensidad del efecto, sino solo su dirección y su nivel de significación estadística, y todos conocemos las deficiencias de nuestras santas “pes”. Para utilizarlo tendremos que utilizar programas informáticos que combinarán los datos siguiendo una distribución de ji-cuadrado o una normal, dándonos el estimador global con su intervalo de confianza.

El cuarto y último método, que yo me sé, es también el más elegante: hacer una combinación ponderada del efecto estimado en los diferentes estudios primarios. La forma más sencilla sería calcular la media aritmética, pero no hemos llegado hasta aquí para hacer otra chapuza. La media aritmética otorga el mismo énfasis a todos los estudios, con lo que si tenemos algún estudio muy impreciso con resultados extremos nos distorsionará enormemente los resultados. Recordad que la media sigue siempre las colas de la distribución, viéndose muy influenciada por los valores extremos (lo que no le ocurre a su prima, la mediana).

Por esto tenemos que ponderar los estimadores de los distintos estudios. Esto podemos hacerlo de dos formas, teniendo en cuenta el número de sujetos de cada estudio, o bien, realizando una ponderación en base a los inversos de las varianzas de cada uno (ya sabéis, los cuadrados de los errores estándar).  Esta última forma es la más compleja, así que es la que más gusta y más se utiliza. Claro que, como la matemática necesaria es cosa fina, se suelen utilizar programas especiales, ya sean módulos que funcionan dentro de los programas estadísticos como Stata, SPSS, SAS o R, o utilizando programas específicos como el famoso RevMan de la Colaboración Cochrane.

Como podéis ver, no me he quedado corto al tildar a la revisión sistemática con metanálisis como la fiera corrupia de los diseños epidemiológicos. No obstante, tiene sus detractores. Todos conocemos a alguien que afirma no gustarle las revisiones sistemáticas porque casi todas acaban de la misma forma: “hacen falta más estudios de calidad para poder realizar recomendaciones con un grado de evidencia razonable”. Claro que, en estos casos, la culpa no es de las revisiones, sino de que no nos esmeramos lo suficiente con nuestros trabajos y la gran mayoría merecerían acabar en la máquina destructora de papel.

Otra polémica es la que tienen los que debaten sobre si es mejor una buena revisión sistemática o un buen ensayo clínico (pueden hacerse revisiones sobre otros tipos de diseños, incluyendo estudios observacionales). A mí esto me recuerda a la polémica sobre si deben hacer calimochos con buen vino o si es un pecado mezclar un buen vino con Coca-Cola. Polémicas aparte, si hay que tomar calimocho, os aseguro que con un buen vino estará mucho más rico, y algo parecido les pasa a las revisiones con la calidad de sus estudios primarios.

El problema de las revisiones sistemáticas es que, para que sean realmente útiles, hay que ser muy riguroso en su elaboración. Para que no se nos olvide nada, existen listas de recomendaciones y de verificación que nos permitan ordenar todo el procedimiento de creación y difusión de trabajos científicos sin que cometamos errores metodológicos u omisiones en el procedimiento.

Todo comenzó con un programa del Servicio de Salud del Reino Unido que terminó con la fundación de una iniciativa internacional para promover la transparencia y precisión de los trabajos de investigación biomédicos: la red EQUATOR (Enhancing the QUAlity and Transparency Of health Research). Esta red se compone de expertos en metodología, comunicación y publicación, por lo que incluye profesionales implicados en la calidad de todo el proceso de producción y difusión de los resultados de investigación. Entre otros muchos objetivos, que podéis consultar en su página web, está el de diseñar un conjunto de recomendaciones para la realización y publicación de los diferentes tipos de estudios, lo que da lugar a las diferentes listas de verificación o declaraciones.

La lista de verificación diseñada para aplicar a las revisiones sistemáticas es la declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses), que viene a sustituir a la declaración QUOROM (QUality Of Reporting Of Meta-analyses). Basándose en la definición de revisión sistemática de la Colaboración Cochrane, PRISMA nos ayuda a seleccionar, identificar y valorar los estudios incluidos en una revisión. Consta también de una lista de verificación y de un diagrama de flujo en el que se describe el paso de todos los trabajos considerados durante la realización de la revisión. Existe también una declaración menos conocida para la valoración de metanálisis de estudios observacionales, la declaración MOOSE (Meta-analyses Of Observational Studies in Epidemiology).

La Colaboración Cochrane tiene también una metodología muy bien estructurada y definida, que podéis consultar en su página web. Esta es la razón por la que tienen tanto prestigio dentro del mundo de las revisiones sistemáticas, por estar hechas por profesionales que se dedican a ello siguiendo una metodología contrastada y rigurosa. De todas formas, incluso las revisiones Cochrane deben leerse de forma crítica y no darles nada por asegurado.

Y con esto hemos llegado al final por hoy. Quiero insistir en que el metanálisis debe hacerse siempre que sea posible y nos interese, pero asegurándonos previamente de que es correcto combinar los resultados. Si los estudios son muy heterogéneos no deberemos combinar nada, ya que los resultados que podríamos obtener tendrían una validez muy comprometida. Hay toda una serie de métodos y estadísticos para medir la homogeneidad o heterogeneidad de los estudios primarios, que influyen también en la forma en que analizaremos los datos combinados. Pero esa es otra historia…

Un sesgo por ausencia

La unión hace la fuerza. Es un hecho. Los grandes objetivos se logran con más facilidad con la unión del esfuerzo de muchos. Y esto también se cumple en estadística.
En efecto, hay ocasiones en que los ensayos clínicos no tienen la potencia necesaria para demostrar lo que persiguen, ya sea por falta de muestra por motivos de tiempo, dinero o dificultad para reclutar participantes, o por otro tipo de limitaciones de tipo metodológico. En estos casos, es posible recurrir a una técnica que nos permite, en ocasiones, aunar el esfuerzo de múltiples ensayos para poder alcanzar la conclusión a la que no llegaríamos con ninguno de los ensayos por separado. Esta técnica es el metanálisis.
El metanálisis nos da una síntesis matemática cuantitativa exacta de los estudios incluidos en el análisis, generalmente los estudios recuperados durante la realización de una revisión sistemática. Lógicamente, si incluimos todos los estudios que se hayan realizado sobre un tema (o, al menos, todos los que sean relevantes para nuestra investigación), esa síntesis reflejará el conocimiento actual sobre el tema. Sin embargo, si la recogida está sesgada y nos faltan estudios, el resultado será reflejo solo de los artículos recogidos, no del total del conocimiento disponible.
Cuando planeamos la revisión debemos establecer una estructura de búsqueda global para tratar de encontrar todos los trabajos. Si no lo hacemos así podemos cometer un sesgo de recuperación, que tendrá el mismo efecto sobre el análisis cuantitativo que el sesgo de publicación. Pero, incluso con las búsquedas electrónicas modernas, es muy difícil encontrar toda la información relevante sobre un tema concreto.
En los casos de que falten estudios, la importancia del efecto dependerá de cómo se pierdan los estudios. Si se pierden al azar, todo quedará en un problema de menor información, con lo que la precisión de nuestros resultados será menor y los intervalos de confianza serán más amplios, pero puede que nuestras conclusiones sean correctas. Sin embargo, si los trabajos que no encontramos son sistemáticamente diferentes de los que encontramos, el resultado de nuestro análisis puede estar sesgado, ya que nuestras conclusiones solo podrán aplicarse a la muestra de trabajos, que será una muestra sesgada.
Existen una serie de factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo.
En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.
Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).
Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.
Existen herramientas para valorar el riesgo de sesgo de publicación. Quizás lo más sencillo puede ser representar un forest plot ordenado con los estudios más precisos en la parte superior y los menos en la inferior. Según nos desplazamos hacia abajo disminuye la precisión de los resultados, con lo que el efecto debe oscilar hacia ambos lados de la medida resumen de resultado. Si solo oscila hacia uno de los lados, podemos suponer de forma indirecta que no hemos detectado los trabajos que deben existir que oscilen hacia el lado contrario, por lo que seguramente tendremos un sesgo de publicación.
funnel_sesgoOtro procedimiento similar es la utilización del gráfico de embudo o funnel plot, tal como veis en la imagen adjunta. En este gráfico se representa en el eje X el tamaño del efecto y en el eje Y una medida de la varianza o el tamaño muestral, invertido. Así, en la parte superior estarán los estudios más grandes y precisos. Una vez más, según bajamos por el gráfico, la precisión de los estudios es menor y se van desplazando hacia los lados por error aleatorio. Cuando existe sesgo de publicación este desplazamiento es asimétrico. El problema del gráfico en embudo (funnel plot para los ingleses) es que su interpretación puede ser subjetiva, por lo que hay métodos numéricos para tratar de detectar el sesgo de publicación.
Y, llegados a este punto, ¿qué debemos hacer ante un sesgo de publicación? Quizás lo más adecuado será no preguntarse si existe el sesgo, sino cuánto afecta mis resultados (y dar por hecho que nos hemos dejado estudios sin incluir en el análisis).
La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.
Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.
El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método. El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud. Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.
Y aquí dejamos los metanálisis y el sesgo de publicación por hoy. No hemos hablado nada de otros métodos matemáticos para detectar el sesgo de publicación como el de Begg y el de Egger. Hay incluso algún método gráfico aparte de los que hemos mencionado, como el de ajuste y relleno. Pero esa es otra historia…

El fallo de la democracia

Que nadie se preocupe que hoy no vamos a hablar de política. En su lugar, hoy trataremos de algo bastante más interesante. Hoy vamos a hablar de las votaciones en las revisiones narrativas. ¿De qué estoy hablando?. Sigue leyendo y lo comprenderás.

Vamos a ilustrarlo con un ejemplo totalmente ficticio, además de absurdo. Supongamos que queremos saber si los que ven más de dos horas de televisión al día tienen más riesgo de presentar ataques agudos de caspa. Nos vamos a nuestra base de datos favorita, que puede ser TripDatabase o Pubmed y hacemos una búsqueda. Obtenemos una revisión narrativa con seis trabajos, cuatro de los cuales no obtienen un riesgo relativo mayor en los teleadictos de presentar ataques de caspa y dos en los que se encuentran diferencias significativas entre los que ven mucha o poca televisión.

¿Qué conclusión sacamos?. ¿Es o no es un riesgo ver mucha tele?. Lo primero que se nos pasa por la cabeza es aplicar la norma democrática. Contamos cuántos estudios obtienen un riesgo con un valor de p significativo y en cuántos el valor de la p no es estadísticamente significativo (tomando el valor arbitrario de p = 0,05).

Qué bien, parece una solución razonable. Tenemos dos a favor y cuatro en contra, por lo que parece claro que ganan los de “en contra”, así que podemos concluir tranquilamente que el ver la tele no es un factor de riesgo para presentar ataques de caspa. El problema es que podemos estar metiendo la pata, también tranquilamente.

Esto es así porque estamos cometiendo un error bastante habitual. Cuando hacemos un contraste de hipótesis partimos de la hipótesis nula de que no existe efecto. Nosotros al hacer el experimento siempre obtenemos una diferencia entre los dos grupos, aunque sea por puro azar. Así que calculamos la probabilidad de, por azar, encontrar una diferencia como la que hemos obtenido o mayor. Este es el valor de p. Si es menor de 0,05 (según el convenio habitual) decimos que es muy poco probable que se deba al azar, por lo que la diferencia debe ser real.

Resumiendo, una p estadísticamente significativa indica que el efecto existe. El problema, y ahí radica nuestro error en el ejemplo que hemos puesto, es que lo contrario no se cumple. Si la p es mayor de 0,05 (no es estadísticamente significativa) puede significar que el efecto no existe, pero también que el efecto sí que existe pero el estudio no tiene la potencia estadística suficiente para detectarlo.

Como sabemos, la potencia depende del tamaño del efecto y del tamaño de la muestra. Aunque el efecto sea grande, puede no ser estadísticamente significativo si el tamaño de la muestra no es suficiente. Así, ante una p > 0,05 no podemos concluir con seguridad que el efecto no es real (simplemente, no podemos rechazar la hipótesis nula de no efecto).

Visto esto, ¿cómo vamos a hacer una votación contando cuántos estudios hay a favor y cuántos en contra?. En algunos de los que no se detecta significación puede ser por falta de potencia y no porque el efecto sea real. En nuestro ejemplo hay cuatro estudios no significativos frente a dos pero, ¿podemos estar seguros de que los cuatro indican ausencia de efecto?. Ya hemos visto que la respuesta es no.

votacionesLo correcto en estos casos es aplicar técnicas de metanálisis y obtener un valor resumen ponderado de todos los estudios de la revisión. Veamos otro ejemplo con los cinco estudios que veis en la figura que os adjunto. Aunque los riesgos relativos de los cinco estudios indican un efecto protector (son menores de 1, el valor nulo) ninguno alcanza significación estadística porque sus intervalos de confianza cruzan el valor nulo, que es el uno para los riesgos relativos.

Sin embargo, si obtenemos un resumen ponderado, éste tiene mayor precisión que los estudios individuales, por lo que, aunque el valor del riesgo relativo es el mismo, el intervalo de confianza es más estrecho y ya no cruza el valor nulo: es estadísticamente significativo.

Aplicando el método de los votos habríamos concluido que no existe efecto protector, mientras que parece probable que sí existe cuando aplicamos el método adecuado. En resumen, el método de la votación no es fiable y no debe emplearse.

Y esto es todo por hoy. Ya veis que la democracia, aunque buena en política, no lo es tanto al hablar de estadística. No hemos hablado nada de cómo se obtiene un valor resumen ponderado de todos los estudios de la revisión. Hay varios métodos que se siguen según el metanálisis aplique un modelo de efecto fijo o de efectos aleatorios. Pero esa es otra historia…

La asimetría del embudo

Aquiles. ¡Qué tío!. Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema del que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

La realidad es que los trabajos con resultados estadísticamente significativos tienen más probabilidades de ser publicados que los no significativos. Además, incluso si son aceptados, los significativos se publican antes y, con más frecuencia, en revistas en inglés, con mayor prestigio y difusión. Esto hace que, a la larga, se citen en otros trabajos con más frecuencia. Y lo mismo ocurre con los trabajos con resultados “positivos” frente a los que tienen resultados “negativos”.

De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil. Y, por último, los trabajos en inglés tienen más difusión que los escritos en otros idiomas.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

funnel_nosesgoLa más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

funnel_sesgoEste método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

eggerLa prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación?. ¿Podemos hacer algo para ajustarlo?. Como siempre, podemos.trim_and_fill

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos es efecto.

Y para terminar deciros que, como suele ser habitual, hay un segundo método mucho más exacto pero también bastante más complejo, que consiste en un modelo de regresión basado en la prueba de Egger. Pero esa es otra historia…

Que los árboles no te impidan ver el bosque

Han pasado muchos años desde que una ardilla podía cruzar la Península Ibérica sin bajarse de un árbol. Tal era la frondosidad de nuestra tierra. Aunque no creáis, hay quien piensa que esto no es más que un mito. De todas formas, me pregunto si la ardilla en cuestión se daría cuenta de que estaba dentro de un gran bosque. Supongo que sí, aunque nunca se sabe: a veces los árboles no nos dejan ver el bosque o, más bien, todo el bosque.

En cualquier caso, una ardilla moderna no tendría esos problemas. No cabe duda de que hoy en día no podría cruzar la Península sin bajarse de un árbol pero, en cambio, sí podría cruzar el país entero sin bajarse de la cabeza de un tonto. Como leí el otro día en un blog, hay más tontos que botellines y, además, están estratégicamente colocados para que te encuentres todos los días, al menos, un par.

El metanálisis  es también una especie de bosque, donde sus estudios primarios serían los árboles. ¡Qué poético!. Pero en este caso los árboles no solo no impiden ver nada, sino que nos ayudan a ver el bosque, todo el bosque de manera global. Claro que, para eso, los resultados del metanálisis deben presentarse de la forma apropiada.

Hasta no hace mucho podíamos seguir los consejos de la declaración QUOROM, pero esta declaración se actualizó para convertirse en PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica con una herramienta popularmente conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.

La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de medias y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

forest_esp

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.

2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.

3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.

4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.

5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y aquí terminamos con los resultados y el forest plot. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática, aunque en estos casos se le suele llamar gráfico en embudo. Pero esa es otra historia…

Cuando muchos pocos hacen un mucho

Todos conoceréis el cuento chino del pobre grano de arroz solitario que se cae al suelo y no lo oye nadie. Claro que si en lugar de caerse un grano se cae un saco lleno de arroz eso ya será otra cosa. Hay muchos ejemplos de que la unión hace la fuerza. Una hormiga roja es inofensiva, salvo que te muerda en alguna zona blanda y noble, que suelen ser las más sensibles. Pero ¿qué me decís de una marabunta de millones de hormigas rojas?. Eso sí que acojona, porque si se juntan todas y vienen a por ti, poco podrás hacer para parar su empuje. Sí, la suma de muchos “pocos” hace un “mucho”.

Y esto también pasa en estadística. Con una muestra relativamente pequeña de votantes bien elegidos podemos estimar quién va a ganar unas elecciones en las que votan millones. Así que, ¿qué no podríamos hacer con un montón de esas muestras?. Seguro que la estimación sería más fiable y más generalizable.

Pues bien, esta es precisamente una de las finalidades del metanálisis, que utiliza diversas técnicas estadísticas para hacer una síntesis cuantitativa de los resultados de un conjunto de estudios que, aunque tratan de responder a la misma pregunta, no llegan exactamente al mismo resultado.

Sabemos que antes de combinar los resultados de los estudios primarios de un metanálisis debemos comprobar previamente que estos estudios son homogéneos entre sí, ya que, en caso contrario, tendría poco sentido hacerlo y los resultados que obtendríamos no serían válidos ni podríamos generalizarlos. Para esto existen una serie de métodos, tanto numéricos como gráficos, que nos pueden asegurar que tenemos la homogeneidad que necesitamos.

El siguiente paso es analizar los estimadores del tamaño de efecto de los estudios, ponderándolos según la contribución que cada estudio va a tener sobre el resultado global. La forma más habitual es ponderar la estimación del tamaño del efecto por la inversa de la varianza de los resultados, realizando posteriormente el análisis para obtener el efecto medio. Para esto hay varias posibilidades, aunque los dos métodos que se utilizan habitualmente son el modelo de efectos fijos y el modelo de efectos aleatorios. Ambos modelos difieren en la concepción que hacen de la población de partida de la que proceden los estudios primarios.

El modelo de efectos fijos considera que no existe heterogeneidad y que todos los estudios estiman el mismo tamaño de efecto de la población, por lo que se asume que la variabilidad que se observa entre los estudios individuales se debe únicamente al error que se produce al realizar el muestreo aleatorio en cada estudio. Este error se cuantifica estimando la varianza intraestudios, asumiendo que las diferencias en los tamaños de efecto estimados se deben solo a que se han utilizado muestras de sujetos diferentes.

Por otro lado, en el modelo de efectos aleatorios se parte de la base de que el tamaño de efecto sigue una distribución de frecuencias normal dentro de la población, por lo que cada estudio estima un tamaño de efecto diferente. Por lo tanto, además de la varianza intraestudios debida al error del muestreo aleatorio, el modelo incluye también la variabilidad entre estudios, que representaría la desviación de cada estudio respecto del tamaño de efecto medio. Estos dos términos de error son independientes entre sí, contribuyendo ambos a la varianza del estimador de los estudios.

En resumen, el modelo de efectos fijos incorpora solo un término de error por la variabilidad de cada estudio, mientras que el de efectos aleatorios añade, además, otro término de error debido a la variabilidad entre los estudios.

Veis que no he escrito ni una sola fórmula. En realidad no nos hace falta conocerlas y son bastante antipáticas, llenas de letras griegas que no hay quien las entienda. Pero no os preocupéis. Como siempre, los programas estadísticos como RevMan de la Cochrane Collaboration permiten hacer los cálculos de forma sencilla, quitando y sacando estudios del análisis y cambiando de modelo según nos apetezca.

El tipo de modelo a elegir tiene su importancia. Si en el análisis previo de homogeneidad vemos que los estudios son homogéneos podremos utilizar el modelo de efectos fijos. Pero si detectamos que existe heterogeneidad, dentro de los límites que nos permiten combinar los estudios, será preferible usar el modelo de efectos aleatorios.

Otra consideración a realizar es la de la aplicabilidad o validez externa de los resultados del metanálisis. Si hemos utilizado el modelo de efectos fijos será comprometido generalizar los resultados fuera de las poblaciones con características similares a las de los estudios incluidos. Esto no ocurre con los datos utilizados con el modelo de efectos aleatorios, cuya validez externa es mayor por provenir de poblaciones de diferentes estudios.

En cualquier caso, obtendremos una medida de efecto medio junto con su intervalo de confianza. Este intervalo de confianza será estadísticamente significativo cuando no cruce la línea de efecto nulo, que ya sabemos que es cero para diferencias de medias y uno para odds ratios y riesgos relativos. Además, la amplitud del intervalo nos informará sobre la precisión de la estimación del efecto medio en la población: cuánto más ancho, menos preciso, y viceversa.

Si pensáis un poco comprenderéis en seguida porqué el modelo de efectos aleatorios es más conservador que el de efectos fijos en el sentido de que los intervalos de confianza que se obtienen son menos precisos, ya que incorpora más variabilidad en su análisis. En algún caso puede ocurrir que el estimador sea significativo si usamos el de efectos fijos y no lo sea si usamos el de efectos aleatorios, pero esto no debe condicionarnos a la hora de escoger el modelo a utilizar. Siempre debemos basarnos en la medida previa de heterogeneidad aunque, si tenemos dudas, también podemos utilizar los dos y comparar los diferentes resultados.

Y ya solo nos quedaría presentar los resultados de forma correcta. Los datos de los metanálisis suelen representarse en un gráfico específico que se suele conocer por su nombre en inglés: el forest plot. Pero esa es otra historia…

En la variedad, no siempre está el gusto

La variedad es buena para muchas cosas. ¡Qué aburrido sería el mundo si todos fuésemos iguales! (sobre todo si fuésemos como alguno que se me está ocurriendo ahora). Nos gusta ir a sitios diferentes, comer cosas diferentes, conocer a personas distintas y divertirnos en ambientes diferentes. Pero hay cosas para las cuáles la variedad es como un grano en el culo.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Aquí necesitaremos la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y de letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la chi-cuadrado. En efecto, la Q sigue una distribución chi-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida en realidad a heterogeneidad por diferencias reales entre los estimadores respecto a la variabilidad debida al azar. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad. Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Galbraith

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.
El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé, que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la labbediagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo?. Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y hemos terminado por hoy. Enhorabuena al que me haya aguantado hasta aquí. Pido perdón por el ladrillo que os he soltado, pero es que esto de la heterogeneidad tiene su aquél. Y es que no solo es importante para saber si debemos combinar o no los estudios, sino que también nos condiciona en gran medida el modelo de análisis de los datos que tenemos que utilizar. Pero esa es otra historia…