Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasPRISMA
image_pdf

Que los árboles no te impidan ver el bosque

Han pasado muchos años desde que una ardilla podía cruzar la Península Ibérica sin bajarse de un árbol. Tal era la frondosidad de nuestra tierra. Aunque no creáis, hay quien piensa que esto no es más que un mito. De todas formas, me pregunto si la ardilla en cuestión se daría cuenta de que estaba dentro de un gran bosque. Supongo que sí, aunque nunca se sabe: a veces los árboles no nos dejan ver el bosque o, más bien, todo el bosque.

En cualquier caso, una ardilla moderna no tendría esos problemas. No cabe duda de que hoy en día no podría cruzar la Península sin bajarse de un árbol pero, en cambio, sí podría cruzar el país entero sin bajarse de la cabeza de un tonto. Como leí el otro día en un blog, hay más tontos que botellines y, además, están estratégicamente colocados para que te encuentres todos los días, al menos, un par.

El metanálisis  es también una especie de bosque, donde sus estudios primarios serían los árboles. ¡Qué poético!. Pero en este caso los árboles no solo no impiden ver nada, sino que nos ayudan a ver el bosque, todo el bosque de manera global. Claro que, para eso, los resultados del metanálisis deben presentarse de la forma apropiada.

Hasta no hace mucho podíamos seguir los consejos de la declaración QUOROM, pero esta declaración se actualizó para convertirse en PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica con una herramienta popularmente conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.

La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de medias y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

forest_esp

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.

2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.

3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.

4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.

5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y aquí terminamos con los resultados y el forest plot. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática, aunque en estos casos se le suele llamar gráfico en embudo. Pero esa es otra historia…

Poco ruido y muchas nueces

Sí, ya sé que es al revés. Ese precisamente es el problema con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirme a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no?. Pues a veces sí y a veces no.

Las revisiones tienen también sus limitaciones, que debemos saber valorar. Quizás la más habitual, y generalmente más fácil de digerir, sea la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema.

El otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son parecidos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica. Pero, si queréis mi consejo, haced una lectura crítica incluso si la revisión la han hecho ellos.

Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que responden correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión?. Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que solo haya una pregunta, ya que si hay varias se corre el riesgo de no responder adecuadamente a ninguna. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Deben especificarse los criterios de inclusión y exclusión de los trabajos, además de considerarse sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si se cumple lo anterior, pasaremos a considerar los criterios secundarios. ¿Se han incluido los estudios importantes que tienen que ver con el tema?. Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación. Además, debe quedar registrado el grado de concordancia entre los dos revisores.

Por último, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes (con o sin metanálisis), debemos preguntarnos si es razonable combinar los resultados de los estudios primarios. Es fundamental para poder sacar conclusiones de datos combinados que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población.

Los resultados de los metanálisis se suelen representar de una manera estandarizada. grafico-MASe dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados en nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte. Pero esa es otra historia…

Sopa de letras

Lamentablemente, una gran parte de las veces que pensamos en algún trabajillo de investigación que podamos hacer solo nos mueve el interés por tener alguna publicación más en nuestro ya abultado currículo y el ver nuestro nombre en una revista o en el libro de comunicaciones de un congreso. Así que no es de extrañar que una gran parte de los trabajos que se publican sean, por decirlo de forma suave y educada, de una calidad deficiente, de tal forma que ni sabemos cómo están hechos, ni si son de fiar ni, a veces, qué novedades nos aportan o cómo se incluyen en el contexto de nuestros conocimientos médicos. Y esto no atañe solo a la realización del trabajo, sino que es frecuente que haya también defectos en la publicación y difusión de sus resultados, pudiendo haber casos de publicación incompleta del trabajo, de que se oculte parte de su metodología, que no se hable de efectos perjudiciales ni de efectos negativos y, en resumen, que publiquemos únicamente lo que nos interesa.

Pero no os desaniméis. Para remediar esta triste situación podemos recurrir a una sopa de letras. Y no estoy pensando en comida ni en el famoso pasatiempo que afronta un peligro de extinción inminente por culpa de los pérfidos sudokus, sino en otra sopa que combina letras en un número inimaginable de nombres imposibles para denominar listas de recomendaciones y de verificación que nos permitan ordenar todo el procedimiento de creación y difusión de trabajos científicos sin que cometamos errores metodológicos u omisiones en el procedimiento.

Todo comenzó con un programa del Servicio de Salud del Reino Unido que terminó con la fundación de una iniciativa internacional para promover la transparencia y precisión de los trabajos de investigación biomédicos: la red EQUATOR (Enhancing the QUAlity and Transparency Of health Research). Esta red se compone de expertos en metodología, comunicación y publicación, por lo que incluye profesionales implicados en la calidad de todo el proceso de producción y difusión de los resultados de investigación. Entre otros muchos objetivos, que podéis consultar en su página web, está el de diseñar un conjunto de recomendaciones para la realización y publicación de los diferentes tipos de estudios, lo que da lugar a las diferentes listas de verificación o declaraciones que veremos a continuación.

Quizá la más difundida sea la declaración CONSORT (CONsolidated Standars Of Reporting Trials), que se ocupa de los aspectos de diseño, realización, análisis, validez e interpretación de los ensayos clínicos aleatorizados. Se compone de una lista de verificación (que comprueba el contenido de título, resumen, introducción, métodos, resultados, discusión y otras informaciones, como los datos de registro del ensayo) y de un diagrama de flujo (en el que se describe el paso de todos los participantes a través de todo el estudio).

CONSORT tiene numerosas extensiones para ensayos con distinto tipo de diseño (por grupos, no-inferioridad y equivalencia, pragmáticos), de intervención (tratamientos con hierbas medicinales, no farmacológicos, ocupacionales e, incluso, de acupuntura, homeopáticos, etc.) o de tipo de datos (de daño, de resúmenes, etc.). Para el que quiera más información, existe un catálogo de extensiones no oficiales en Internet que puede consultarse y que es actualizado periódicamente. Además, para los ensayos clínicos no aleatorizados se ha diseñado la declaración TREND (Transparent Reporting of Evaluations with Nonrandomized Designs).

De los estudios observacionales, especialmente los estudios de cohortes, los de casos y controles y los transversales, se encarga la declaración STROBE (STrengthening the Reporting of OBservational studies in Epidemiology). De todas formas, al igual que le ocurría a CONSORT, STROBE tiene multitud de parientes cercanos para controlar la metodología de estudios observacionales de tipos específicos, como STREGA (estudios de asociaciones genéticas), ORION (control de infecciones) y otros muchos para series de casos, estudios longitudinales, etc. Todas estas listas de verificación están disponibles en el sitio web de la declaración STROBE.

Otra de las más extendidas es la declaración STARD (STAndards for the Reporting of Diagnostic studies accuracy), que dedica sus desvelos a mejorar la precisión de los estudios sobre pruebas diagnósticas para permitir una valoración más adecuada de su validez interna y externa. Al igual que CONSORT, se compone de una lista de verificación y de un diagrama de flujo que describe el diseño del estudio y el flujo de pacientes. Una declaración  de similar utilidad es la QUADAS (Quality Assessment of Diagnostic Accuracy Studies), que se centra específicamente en los aspectos de precisión de los estudios de pruebas diagnósticas incluidos en las revisiones sistemáticas.

Y hablando de revisiones sistemáticas, no podía faltar una declaración para ellas: la declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses), que viene a sustituir a la declaración QUOROM (QUality Of Reporting Of Meta-analyses). Basándose en la definición de revisión sistemática de la Cochrane Collaboration, PRISMA nos ayuda a seleccionar, identificar y valorar los estudios incluidos en una revisión. Consta también de una lista de verificación y de un diagrama de flujo en el que se describe el paso de todos los trabajos considerados durante la realización de la revisión. Existe también una declaración menos conocida para la valoración de metaanálisis de estudios observacionales, la declaración MOOSE (Meta-analyses Of Observational Studies in Epidemiology).

Y la lista no acaba aquí, ni muchísimo menos: declaración COREQ (COnsolidated criteria for REporting Qualitative research) para estudios de investigación cualitativa, ISPOR RCT-CEA para estudios de coste efectividad y evaluación económica, SQUIRE (Standards for QUality Improvement Reporting Excellence) para estudios de calidad de vida y mejora de salud, AGREE (Appraisal of Guidelines REsearch and Evaluation) para realización de guías de práctica clínica, GRRS (Guidelines for Reporting Reliability and agreement Studies) para estudios de confiabilidad y acuerdo, etc, etc, etc.

La verdad es que no puede negarse que la cosa tiene un mérito enorme, y me estoy refiriendo al que se ha inventado todos estos nombres tan imaginativos para las diferentes listas y declaraciones. Ahora lo que hace falta es que su esfuerzo, y también el de los que han hecho las declaraciones, se vea premiado con su puesta en práctica para que los trabajos de investigación sirvan más para mejorar nuestra práctica clínica y menos para engordar nuestro currículo o promocionar nuevos productos. Muchas revistas biomédicas ya se han aplicado el cuento y asumen algunas de las declaraciones, de tal forma que solo admiten trabajos que cumplan con todos los puntos de la lista de verificación relacionada como, por ejemplo, la CONSORT para ensayos clínicos.

Para terminar, deciros que todas estas listas de verificación que ayudan al investigador a realizar su trabajo o al editor a decidir si merece la pena publicarlo, pueden servirnos también a nosotros, simples consumidores de literatura médica, para valorar la validez de los estudios y no malgastar tiempo leyendo trabajos que no nos vayan a  aportar nada. Las listas de verificación pueden ser utilizadas como herramientas para la lectura crítica de documentos científicos, al igual que se hace con las plantillas CASPe o con otros recursos. Pero esa es otra historia…