Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

La bola de cristal

Print Friendly, PDF & Email

¡Cómo me gustaría poder predecir el futuro! Y no solo para ganar millones en la lotería, que es lo primero que a uno se le ocurre. Hay cosas más importantes en la vida que el dinero (o eso dicen algunos), decisiones que tomamos basadas en suposiciones que acaban por no cumplirse y que nos complican la vida hasta límites insospechados. Todos habremos pensado alguna vez aquello de “si se viviera dos veces…” No me cabe duda, si me encontrase con el genio de la lámpara uno del tres deseos que le pediría sería una bola de cristal para ver el futuro.

Y también nos vendría bien en nuestro trabajo como médicos. En nuestro día a día nos vemos obligados a tomar decisiones sobre el diagnóstico o el pronóstico de nuestros pacientes y lo hacemos siempre sobre el pantanoso terreno de la incertidumbre, asumiendo siempre el riesgo de cometer algún error. Nosotros, sobre todo cuando vamos siendo más experimentados, estimamos de forma consciente o inconsciente la verosimilitud de nuestras suposiciones, lo que nos ayuda en la toma de decisiones diagnósticas o terapéuticas. Sin embargo, qué bueno sería también poder disponer de una bola de cristal para saber con más exactitud el devenir del curso del paciente.

El problema, como ocurre con otros inventos que serían de gran utilidad em medicina (como la máquina del tiempo), es que nadie ha conseguido todavía fabricar una bola de cristal que funcione de verdad. Pero no nos vengamos abajo. No podremos saber con seguridad qué va a ocurrir, pero sí que podemos estimar la probabilidad de que ocurra determinado resultado.

Para ello, podemos utilizar todas aquellas variables relacionadas con el paciente que tengan una validez diagnóstica o pronóstica conocidas e integrarlas para realizar el cálculo de probabilidades. Pues bien, hacer semejante cosa sería lo mismo que diseñar y aplicar lo que se conoce como una regla de predicción clínica (RPC).

Así, si nos ponemos un poco formales, podremos definir una RPC como una herramienta compuesta por un conjunto de variables de la historia clínica, exploración física y pruebas complementarias básicas, que nos proporciona una estimación de la probabilidad de un evento, nos sugiere un diagnóstico o nos predice una respuesta concreta a un tratamiento.

La lectura crítica de un trabajo sobre una RPC comparte aspectos similares con los de los trabajos sobre pruebas diagnósticas y tiene, además, aspectos específicos relacionados con la metodología de su diseño y aplicación. Por este motivo, vamos a ver someramente los aspectos metodológicos de las RPC antes de entrar en su valoración crítica.

En el proceso de desarrollo de una RPC, lo primero que hay que hacer es definirla. Los cuatro elementos clave son la población de estudio, las variables que vamos a considerar como potencialmente predictivas, el patrón de referencia (el gold standard de los que sabéis inglés) que clasifica si el evento que queremos predecir se produce o no y el criterio de valoración del resultado.

Hay que tener en cuenta que las variables que elijamos deben ser clínicamente relevantes, se deben poder recoger de manera precisa y, como es lógico, deben estar disponibles en el momento que queramos aplicar la RPC para la toma de decisiones. Es conveniente no caer en la tentación de meter variables a diestro y siniestro ya que, aparte de complicar la aplicación de la RPC, puede disminuir su validez. En general, se recomienda que por cada variable que se introduce en el modelo deberían haberse producido, al menos, 10 eventos de los que queremos predecir (el diseño se hace en una determinada muestra cuyos componentes presentan las variables pero solo un número determinado acabaron presentando el evento a predecir).

También me gustaría resaltar la importancia del patrón de referencia. Tiene que haber una prueba diagnóstica o un conjunto de criterios bien definidos que nos permitan definir de manera clara el evento que queremos predecir con la RPC.

Por último, es conveniente que los que recojan las variables durante esta fase de definición desconozcan los resultados del patrón de referencia, y viceversa. La ausencia de cegamiento disminuye la validez de la GPC.

La siguiente fase es la fase de derivación o de diseño, propiamente dicha. Aquí es donde se aplican los métodos estadísticos que permitirán incluir las variables con capacidad predictiva y excluir las que no nos vayan a aportar nada. No vamos a entrar en la estadística, solo decir que los métodos empleados con más frecuencia son los basados en la regresión logística, aunque pueden usarse análisis discriminantes, de supervivencia e, incluso, otros mucho más exóticos basados en riesgos discriminantes o redes neurales, al alcance solo de unos pocos virtuosos.

En los modelos de regresión logística, el evento será la variable dependiente dicotómica (ocurre o no ocurre) y las otras variables serán las predictivas o independientes. Así, cada coeficiente que multiplique cada variable predictiva será el antilogaritmo natural de la odds ratio ajustada. Por si alguien no lo ha entendido, la odds ratio ajustada para cada variable predictiva se calculará elevando el número “e” al valor del coeficiente de esa variable en el modelo de regresión.

Lo habitual es que a partir del peso de cada variable se le asigne una determinada puntuación en una escala, de forma que la suma total de puntos de todas las variables predictivas permitirá clasificar al paciente en un rango concreto de predicción de producción del evento. Existen también otros métodos más complejos empleando las ecuaciones de regresión, pero al final siempre se obtiene lo mismo: una estimación individualizada de la probabilidad del evento en un paciente concreto.

Con este proceso se produce la categorización de los pacientes en grupos homogéneos de probabilidad, pero aún nos falta saber si esta categorización se ajusta a la realidad o, lo que es lo mismo, cuál es la capacidad de discriminación de la RPC.

La validez global o capacidad de discriminación de la RPC se hará contrastando sus resultados con los del patrón de referencia, empleando para ello técnicas similares a las utilizadas para valorar la capacidad de las pruebas diagnósticas: sensibilidad, especificidad, valores predictivos y cocientes de probabilidad. Además, en los casos en los que la RPC proporcione una estimación cuantitativa, podremos recurrir al uso de las curvas ROC, ya que el área bajo la curva representará la validez global de la RPC.

El último paso de la fase de diseño será la calibración de la RPC, que no es más que comprobar su buen comportamiento en todo el intervalo de resultados posibles.

Algunos autores de RPC se quedan aquí, pero olvidan dos pasos fundamentales de la elaboración: la validación y el cálculo del impacto clínico de la regla.

La validación consiste en probar la RPC en muestras diferentes a la utilizada para su diseño. Nos podemos llevar una sorpresa y comprobar que una regla que funciona bien en una determinada muestra no lo hace en otra. Por eso hay que probarla, no solo en pacientes similares (validación limitada), sino también en entornos clínicos diferentes (validación amplia), lo que incrementará la validez externa de la RPC.

La última fase es la de comprobar su rendimiento clínico. Aquí es donde muchas RPC se van a pique después de haber pasado por todas las fases anteriores (quizás sea por eso que muchas veces se evita esta última comprobación). Para valorar el impacto clínico tendremos que aplicar la RPC en nuestros pacientes y ver cómo cambian medidas de resultados clínicos como supervivencia, complicaciones, costes, etc. La forma ideal para analizar el impacto clínico de una RPC es hacer un ensayo clínico con dos grupos de pacientes manejados con y sin la regla.

Para aquellos abnegados que todavía sigan leyendo, ahora que conocemos qué es y cómo se diseña una RPC, vamos a ver cómo se hace la lectura crítica de estos trabajos. Y para ello, como es habitual, vamos a recurrir a nuestros tres pilares: validez, importancia y aplicabilidad. Para no olvidarnos de nada, seguiremos las preguntas que se enumeran en la parrilla para estudios de RPC de la herramienta CASPe.

En cuanto a la VALIDEZ, comenzaremos primero con unas preguntas de eliminación. Si la respuesta es negativa puede que haya llegado la hora de esperar hasta que alguien, al fin, invente una bola de cristal que funcione.

¿La regla responde a una pregunta bien definida? Deben estar claramente definidos la población, el evento a predecir, las variables predictivas y el criterio de valoración de los resultados. Si no se hace así o estos componentes no se ajustan a nuestro escenario clínico, la regla no nos servirá. Las variables predictivas deben ser clínicamente importantes, fiables y estar bien definidas por adelantado.

¿La población a estudio de la que se derivó la regla, incluyó un espectro adecuado de pacientes? Hay que comprobar que el método de selección de los pacientes es el adecuado y que la muestra es representativa. Además, debe incluir pacientes de todo el espectro de la enfermedad. Como ocurría con las pruebas diagnósticas, los eventos pueden ser más fáciles de predecir en determinados grupos, por lo que debe haber representantes de todos ellos. Por último, hay que ver si la muestra se validó en un grupo diferente de pacientes. Como ya hemos comentado, no basta con que la regla funcione en el grupo de pacientes en el que se ha derivado, sino que hay que probarla en otros grupos que sean similares o distintos a aquellos con los que se generó.

Si la respuesta a estas tres preguntas ha sido afirmativa, podemos pasar a las tres preguntas de matiz. ¿Hubo una evaluación ciega del desenlace y de las variables predictoras? Ya lo hemos comentado, es importante que la persona que recoge las variables predictivas no conozca el resultado del patrón de referencia, y viceversa. La recogida de la información debe ser prospectiva e independiente. Lo siguiente que debemos preguntarnos es si se midieron las variables predictoras y el desenlace en todos los pacientes.  Si el desenlace o las variables no se miden en todos los pacientes puede comprometerse la validez de la RPC. En cualquier caso, los autores deberán explicar las exclusiones, si es que las hay. Por último, ¿se describen los métodos de derivación y validación de la regla? Ya sabemos que es fundamental que los resultados de la regla sean validados en una población diferente de la utilizada para el diseño.

Si las respuestas a las preguntas anteriores nos indican que el estudio es válido, pasaremos a responder las preguntas sobre la IMPORTANCIA de los resultados. La primera es si se puede calcular el rendimiento de la RPC. Los resultados deben presentarse con su sensibilidad, especificidad, cocientes de probabilidades, curvas ROC, etc., en función del resultado proporcionado por la regla (escalas de puntuación, fórmulas de regresión, etc.). Todos estos indicadores nos servirán para calcular las probabilidades de ocurrencia del evento en entornos con prevalencias diferentes. Esto es similar a lo que hacíamos con los estudios de pruebas diagnósticas, así que os invito a que repaséis lo escrito sobre el tema para no repetirnos demasiado. La segunda pregunta es ¿cuál es la precisión de los resultados? Aquí tampoco nos vamos a extender más: recordad nuestros venerados intervalos de confianza, que serán los que nos informarán de la precisión de los resultados de la regla.

Para finalizar, pasaremos a considerar la APLICABILIDAD de los resultados a nuestro medio, para lo cual trataremos de contestar a tres preguntas. ¿Serán satisfactorios en el ámbito del escenario la reproducibilidad de la RPC y su interpretación? Habrá que pensar en las similitudes y diferencias entre el ámbito en el que se desarrolla la RPC y nuestro entorno clínico. En este sentido, será de ayuda el hecho de que la regla haya sido validada en varias muestras de pacientes de entornos diferentes, lo que aumentará su validez externa. ¿Es aceptable la prueba en este caso? Pensaremos si la regla es fácil de aplicar en nuestro medio y si tiene sentido hacerlo desde el punto de vista clínico en nuestro entorno. Finalmente, ¿modificarán los resultados la conducta clínica, los resultados en salud o los costes? Si, desde nuestro punto de vista, los resultados de la RPC no van a cambiar nada, la regla será inútil y una pérdida de tiempo. Aquí será importante nuestra opinión, pero también deberemos buscar si existen estudios que valoren el impacto de la regla sobre costes o sobre resultados en salud.

Y hasta aquí todo lo que quería deciros sobre lectura crítica de estudios sobre RPC. De todas formas, antes de terminar me gustaría hablaros un poco sobre una lista de verificación que, como no, existe también para la valoración de este tipo de estudios: la lista de verificación CHARMS (CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling Studies). No me diréis que el nombre, aunque un poco rebuscado, no es encantador.

Esta lista está pensada para valorar los estudios primarios de una revisión sistemática sobre RPC. Trata de responder a unas preguntas de diseño general y a la valoración de 11 dominios para extraer la información suficiente para realizar la valoración crítica. Las dos grandes partes que se valoran son el riesgo de sesgo de los estudios y la aplicabilidad de los mismos. El riesgo de sesgo se refiere a los defectos del diseño o validación que pueden dar lugar a que el modelo sea poco discriminativo, excesivamente optimista, etc. La aplicabilidad, por su parte, hace referencia al grado en que los estudios primarios son concordantes con la pregunta que motiva la revisión sistemática, por lo que nos informa de si se puede aplicar la regla a la población diana. Esta lista está bien y ayuda a valorar y comprender los aspectos metodológicos de este tipo de estudios pero, en mi humilde opinión, es más sencillo realizar una valoración crítica sistemática ayudándonos de la herramienta CASPe.

Y aquí, por fin, lo dejamos por hoy. No hemos hablado nada, para no alargarnos demasiado, de qué hacer con el resultado de la regla. Lo fundamental, ya lo sabemos, es que podemos calcular la probabilidad de producirse el evento en pacientes individuales de entornos con prevalencias diferentes. Pero esa es otra historia…

Poco ruido y muchas nueces

Print Friendly, PDF & Email

Sí, ya sé que el refrán dice justo lo contrario. Pero es que ese es precisamente el problema que tenemos con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirnos a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no? Pues a veces sí y a veces no. Como cuando leemos cualquier tipo de trabajo de literatura médica, siempre debemos hacer una lectura crítica de lo que tenemos delante y no confiar únicamente en el buen saber hacer de sus autores.

Las revisiones, de las que ya sabemos que hay dos tipos, tienen también sus limitaciones, que debemos saber valorar. La forma más sencilla de revisión, nuestra preferida cuando somos más jóvenes e ignorantes, es la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema. En estas podremos hacer poca lectura crítica, ya que no hay una sistematización precisa de cómo hay que elaborar estos resúmenes, así que tendremos que confiar en aspectos poco confiables como el prestigio del autor o el impacto de la revista donde se publica.

Según van aumentando nuestros conocimientos sobre los aspectos generales de los temas, nuestro interés va derivando hacia otro tipo de revisiones que nos proporcionan información más específica sobre aspectos que escapan a nuestro cada vez más amplio saber. Este otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son lo suficientemente homogéneos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. Con estas revisiones sí que podemos hacer una lectura crítica siguiendo una metodología ordenada y preestablecida, de forma similar a como hacemos con otros tipos de estudios.

El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica que podéis consultar en los manuales disponibles en su página web. Pero, si queréis mi consejo, no os fieis ni de la Cochrane y haced una lectura crítica cuidadosa incluso si la revisión la han hecho ellos, no dándola por buena simplemente por su origen. Como dice uno de mis maestros en estas lides (seguro que sonríe si lee estas líneas), hay vida más allá de la Cochrane. Y, además, mucha y buena, añadiría yo.

Aunque las RS y los metanálisis imponen un poco al principio, no os preocupéis, se pueden valorar críticamente de una forma sencilla teniendo en cuenta los principales aspectos de su metodología. Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que respondan correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión? Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que la revisión trate de responder solo a una pregunta, ya que si pretende responder a varias se corre el riesgo de que no responda adecuadamente a ninguna de ellas. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Aunque lo más habitual es encontrar RS  de ensayos clínicos, pueden hacerse de otros tipos de estudios observacionales, de pruebas diagnósticas, etc. Los autores de la revisión deben especificar los criterios de inclusión y exclusión de los trabajos, además de considerar sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si la respuesta a las dos preguntas anteriores es afirmativa, pasaremos a considerar los criterios secundarios y dejaremos el paseo del perro para más tarde. ¿Se han incluido los estudios importantes que tienen que ver con el tema? Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Para esto los autores pueden servirse de una herramienta diseñada ad hoc o, más habitualmente, recurrir a una que ya esté reconocida y validada, como la herramienta de detección de sesgo de la Colaboración Cochrane, en el caso de revisiones de ensayos clínicos. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo según los aspectos más importantes de la metodología del diseño (ensayos clínicos en este caso).

Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación de los estudios primarios de la revisión. Por último, debe quedar registrado el grado de concordancia entre los dos revisores y qué hacían si no se ponían de acuerdo (lo más habitual suele ser recurrir a un tercero, que seguramente será el jefe de los dos).

Para finalizar el apartado de validez interna o metodológica, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes con un metanálisis, debemos preguntarnos si era razonable combinar los resultados de los estudios primarios. Es fundamental, para poder sacar conclusiones de datos combinados, que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

Resumiendo, los aspectos fundamentales que tendremos que analizar para valorar la validez de una RS serán: 1) que los objetivos de la revisión estén bien definidos en términos de población, intervención y medición del resultado; 2) que la búsqueda bibliográfica haya sido exhaustiva; 3) que hayan sido adecuados los criterios de inclusión y exclusión de estudios primarios en la revisión; y 4) que se haya comprobado también la validez interna o metodológica de los estudios incluidos. Además, si la RS incluye un metanálisis, revisaremos los aspectos metodológicos que ya vimos en una entrada anterior: conveniencia de combinar los estudios para realizar una síntesis cuantitativa, evaluación adecuada de la heterogeneidad de los estudios primarios y utilización de un modelo matemático adecuado para combinar los resultados de los estudios primarios (ya sabéis, aquello de los modelos de efecto fijo y de efectos aleatorios).

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población. Como veis, la forma de valorar la importancia de los resultados es prácticamente la misma que la de valorar la importancia de los resultados de los estudios primarios. En este caso ponemos ejemplos de ensayos clínicos, que es el tipo de estudio que veremos más frecuentemente, pero recordad que puede haber otros tipos de estudios que pueden expresar mejor la importancia de sus resultados con otros parámetros. Eso sí, los intervalos de confianza siempre nos ayudarán a valorar la precisión de los resultados.

Los resultados de los metanálisis se suelen representar de una manera estandarizada, recurriendo habitualmente al llamado diagrama de efectos, mucho más famoso por su nombre en inglés: forest plot. Se dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Si queréis una explicación más detallada sobre los elementos que componen un forest plot, podéis acudir a la entrada anterior en la que lo explicábamos o a los manuales en línea de la Colaboración Cochrane.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados a nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe, que son las que hemos utilizado para todo lo que hemos dicho hasta ahora.

La declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) consta de 27 ítems, clasificados en 7 secciones que hacen referencia a los apartados de título, resumen, introducción, métodos, resultados, discusión y financiación:

  1. Título: debe identificarse como RS, metanálisis o ambos. Si se especifica, además, que trata sobre ensayos clínicos, se priorizará sobre otros tipos de revisiones.
  2. Resumen: debe ser un resumen estructurado que debe incluir antecedentes, objetivos, fuentes de datos, criterios de inclusión, limitaciones, conclusiones e implicaciones. Debe constar también el número de registro de la revisión.
  3. Introducción: incluye dos ítems, la justificación del trabajo (qué se sabe, controversias, etc) y los objetivos (qué pregunta trata de responder en términos PICO de la pregunta clínica estructurada).
  4. Métodos. Es la sección con mayor número de ítems (12):

– Protocolo y registro: indicar el número de registro y su disponibilidad.

– Criterios de elegibilidad: justificación de las características de los estudios y los criterios de búsqueda empleados.

– Fuentes de información: describir las fuentes utilizadas y la última fecha de búsqueda.

– Búsqueda: estrategia completa de búsqueda electrónica, para que pueda ser reproducible.

– Selección de estudios: especificar el proceso de selección y los criterios de inclusión y exclusión.

– Proceso de extracción de datos: describir los métodos empleados para la extracción de los datos de los estudios primarios.

– Lista de datos: definir las variables empleadas.

– Riesgo de sesgo en los estudios primarios: describir el método utilizado y cómo se ha empleado en la síntesis de los resultados.

– Medidas de resumen: especificar las principales medidas de resumen empleadas.

– Síntesis de resultados: describir los métodos empleados para combinar los resultados.

– Riesgo de sesgo entre los estudios: describir sesgos que puedan afectar la evidencia acumulativa, como el sesgo de publicación.

– Análisis adicionales: si se hacen métodos adicionales (sensibilidad, metarregresión, etc) especificar cuáles fueron preespecificados.

  1. Resultados. Incluye 7 ítems:

– Selección de estudios: se expresa mediante un diagrama de flujo que valora el número de registros en cada etapa (identificación, cribado, elegibilidad e inclusión).

– Características de los estudios: presentar las características de los estudios de los que se extrajeron datos y sus citas bibliográficas.

– Riesgo de sesgo en los estudios: comunicar los riesgos en cada estudio y cualquier evaluación que se haga sobre el sesgo en los resultados.

– Resultados de los estudios individuales: datos de estudio para cada estudio o grupo de intervención y estimación del efecto con su intervalo de confianza. Lo ideal es acompañarlo de un forest plot.

– Síntesis de los resultados: presentar los resultados de todos los MA realizados con los intervalos de confianza y las medidas de consistencia.

– Riesgo de sesgo entre los sujetos: presentar cualquier evaluación que se haga del riesgo de sesgo entre los estudios.

– Análisis adicionales: si se han realizado, facilitar los resultados de los mismos.

  1. Discusión. Trata 3 ítems:

– Resumen de la evidencia: resumir los hallazgos principales con la fuerza de la evidencia de cada resultado principal y la relevancia desde el punto de vista clínico o de los grupos de interés principales (proveedores de cuidados, usuarios, decisores de salud, etc).

– Limitaciones: discutir las limitaciones de los resultados, de los estudios y de la revisión.

– Conclusiones: interpretación general de los resultados en contexto con otras evidencias y sus implicaciones para la futura investigación.

  1. Financiación: describir las fuentes de financiación y el papel que tuvieron en la realización de la RS.

Como tercera opción a estas dos herramientas, podéis utilizar también el ya mencionado manual de la Cochrane (Cochrane Handbook for Systematic Reviews of Interventions), disponible en su página web y cuya finalidad es ayudar a los autores de las revisiones Cochrane a trabajar de forma explícita y sistemática.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte, por lo que ya le dedicamos en su momento dos entradas para él solo que podéis consultar cuando queráis. Pero esa es otra historia…

¿Es grave, doctor?

Print Friendly, PDF & Email

Me pregunto cuántas veces habré escuchado esta pregunta o alguna de sus muchas variantes. Porque resulta que siempre estamos pensando en ensayos clínicos y en preguntas sobre diagnóstico y tratamiento, pero pensad si algún paciente os preguntó alguna vez si el tratamiento que le proponíais estaba refrendado por un ensayo clínico aleatorizado y controlado que cumple los criterios de la declaración CONSORT y tiene una buena puntuación en la escala de Jadad. A mí, al menos, no me ha pasado nunca. Pero sí que a diario me preguntan qué les va a ocurrir en el futuro.

Y de aquí deriva la importancia de los estudios sobre pronóstico. Tened en cuenta que no siempre se puede curar y que, por desgracia, muchas veces lo único que podemos hacer es acompañar y aliviar lo que podamos ante el anuncio de graves secuelas o de la muerte. Pero para esto es fundamental disponer de información de buena calidad sobre el futuro de la enfermedad de nuestro paciente. Esta información nos servirá también para calibrar los esfuerzos terapéuticos en cada situación en función de los riesgos y los beneficios. Y, además, los estudios sobre pronóstico sirven para comparar resultados entre servicios u hospitales diferentes. A nadie se le ocurre decir que un hospital es peor que otro porque su mortalidad es mayor sin comprobar antes que el pronóstico de sus pacientes sea semejante.

Antes de meternos con la lectura crítica de los artículos sobre pronóstico aclaremos la diferencia entre factor de riesgo y factor pronóstico. El factor de riesgo es una característica del ambiente o del sujeto que favorece el desarrollo de la enfermedad, mientras que el factor pronóstico es aquél que, una vez que se produce la enfermedad, influye sobre su evolución. Factor de riesgo y factor pronóstico son cosas diferentes, aunque a veces pueden coincidir. Lo que sí comparten los dos es el mismo diseño de tipo de estudio. Lo ideal sería utilizar ensayos clínicos, pero la mayor parte de las veces no podemos o no es ético aleatorizar los factores pronóstico o de riesgo. Pensemos que queremos demostrar el efecto deletéreo del alcohol sobre el hígado. La forma con mayor grado de evidencia de demostrarlo sería hacer dos grupos de participantes al azar y a uno hacerles beber 10 whiskies al día y al otro darles agua, para ver las diferencias en el daño hepático al cabo de, por ejemplo, un año. Sin embargo, a nadie se le escapa que no podemos hacer un ensayo clínico como este. No porque no podamos encontrar sujetos para la rama de intervención, sino porque la ética y el sentido común nos lo impiden.

Por este motivo lo habitual es que se usen estudios de cohortes: estudiaríamos qué diferencias a nivel del hígado puede haber entre individuos que beben y que no beben por elección propia. En los casos que precisan seguimientos muy largos o en los que el efecto que queremos medir es muy raro se pueden usar estudios de casos y controles, pero siempre serán menos potentes por tener más riesgo de sesgo. Siguiendo nuestro etílico ejemplo, estudiaríamos personas con y sin daño hepático y veríamos si alguno de los dos grupos estaba expuesto al alcohol.

Un estudio de pronóstico nos debe informar de tres aspectos: qué resultado queremos valorar, qué probabilidad hay de que suceda y en qué periodo de tiempo esperamos que pase. Y para valorarlo, como siempre, nos asentaremos sobre nuestros tres pilares: validez, importancia y aplicabilidad.

Para valorar la VALIDEZ tendremos primero en cuenta si cumple una serie de criterios primarios o de eliminación. Si la respuesta es no, tirad el artículo y mirad a ver qué chorrada nueva han escrito vuestros amigos en Facebook.

¿Está bien definida la muestra de estudio y es representativa de pacientes en un momento similar de la enfermedad? La muestra, que se suele denominar cohorte incipiente o cohorte de inicio, debe estar formada por un grupo amplio de pacientes en el mismo momento de la enfermedad, idealmente al inicio, y que se sigue de forma prospectiva. Debe estar bien especificado el tipo de pacientes incluidos, los criterios para diagnosticarlos y el método de selección. Además, debemos comprobar que el seguimiento haya sido lo suficientemente largo y completo como para observar el evento que estudiamos. Cada participante debe seguirse desde el inicio hasta que sale del estudio, ya sea porque se cure, porque presenta el evento o porque el estudio se acaba. Es muy importante tener en cuenta las pérdidas durante el estudio, muy habituales en diseños con seguimiento largo. El estudio debe proporcionar las características de los pacientes perdidos y los motivos para la pérdida. Si son similares a los que no se pierden, probablemente los resultados sean válidos. Si las pérdidas son de más de un 20% se suele hacer un análisis de sensibilidad utilizando el escenario de “el peor de los casos”: consideramos que todas las pérdidas han tenido mal pronóstico y recalculamos los resultados para ver si se modifican, en cuyo caso quedaría invalidado el estudio.

Una vez vistos estos dos aspectos, pasamos a los criterios secundarios de validez interna o rigor científico.

¿Se han medido los resultados de forma objetiva y no sesgada? Debe especificarse con claridad qué se va a medir y cómo antes de iniciar el estudio. Además, lo ideal es que la medición de los resultados se haga de forma ciega para el experimentador, que debe desconocer si el sujeto en cuestión está sometido a alguno de los factores pronósticos para evitar el sesgo de información. Si se está estudiando el riesgo de un determinado fármaco para producir fibrosis pulmonar, cuando valoremos la radiografía de un paciente conviene que no sepamos si toma el fármaco o no. Si los hallazgos son dudosos el saber que lo toma nos inclinará a diagnosticar el hallazgo positivamente o a magnificar más su intensidad.

¿Se han ajustado los resultados según todos los valores pronósticos relevantes? Hay que tener en cuenta todas las variables confusoras y los factores pronósticos que puedan influir en los resultados. En el caso de que se conozcan por estudios previos pueden tenerse en cuenta los factores conocidos. En caso contrario, los autores determinarán los efectos mediante análisis estratificado de los datos (el método más sencillo) o mediante el análisis multivariante (más potente y complejo), habitualmente mediante un modelo de riesgos proporcionales o de regresión de Cox. Aunque no vamos a entrar ahora en los modelos de regresión, sí que hay dos cosas sencillas que podemos tener en cuenta. La primera, estos modelos necesitan de un número determinado de eventos por cada variable incluida en el modelo, así que desconfiad cuando se analicen muchas variables, sobre todo con muestras pequeñas. La segunda, las variables las decide el autor y son diferentes de un trabajo a otro, por lo que tendremos que valorar si no se ha incluido alguna que pueda ser relevante para el resultado final.

¿Se han validado los resultados en otros grupos de pacientes? Cuando hacemos grupos de variables y empezamos a comparar unos con otros corremos el riesgo de que el azar nos juegue una mala pasada y nos muestre asociaciones que realmente no existen. Por eso, cuando se describe un factor de riesgo en un grupo (grupo de entrenamiento o derivación), conviene replicar los resultados en un grupo independiente (grupo de validación) para estar seguros de la relación.

A continuación, debemos fijarnos en cuáles son los resultados para determinar su IMPORTANCIA. Para esto comprobaremos si se proporciona la estimación de la probabilidad de que suceda el desenlace de estudio, la precisión de esta estimación y el riesgo asociado a los factores que modifican el pronóstico.

¿Se especifica la probabilidad del suceso en un periodo de tiempo determinado? Hay varias formas de presentar el número de sucesos que se producen durante el periodo de seguimiento. La más sencilla sería dar una tasa de incidencia (sucesos/persona/unidad de tiempo) o la frecuencia acumulada en un momento dado. Otra forma es dar la mediana de supervivencia, que no es más que el momento del seguimiento en el cuál el suceso se ha producido en la mitad de la cohorte (recordad que aunque hablemos de supervivencia, el suceso no tiene que ser obligatoriamente la muerte).

Para determinar la probabilidad de que se produzca el suceso en cada periodo y el ritmo al cual se va presentando pueden utilizarse curvas de supervivencia de varios tipos. Las tablas actuariales o de vida se utilizan para muestras grandes, cuando no sabemos el momento exacto del evento y con periodos de tiempo fijos. Sin embargo, probablemente nos encontremos con más frecuencia con las curvas de Kaplan-Meier, que miden mejor la probabilidad del suceso para cada momento concreto con muestras más pequeñas. Con este método se pueden proporcionar los cocientes de riesgos instantáneos en cada momento (las hazard ratios) y la mediana de supervivencia, además de otros parámetros según el modelo de regresión utilizado.

Para valorar la precisión de los resultados buscaremos, como siempre, los intervalos de confianza. Cuanto mayor sea el intervalo, menos precisa será la estimación de la probabilidad del suceso en la población general, que es lo que realmente nos interesa saber. Hay que tener en cuenta que el número de pacientes suele ser menor según pasa el tiempo, por lo que es habitual que las curvas de supervivencia sean más precisas al comienzo que al final del seguimiento. Por último, valoraremos cuáles son los factores que modifican el pronóstico. Lo correcto es representar todas las variables que puedan influir sobre el pronóstico con sus correspondientes medidas de asociación, que serán los que nos permitan evaluar la importancia clínica de esa asociación.

Por último, tendremos que considerar la APLICABILIDAD de los resultados. ¿Son aplicables a mis pacientes? Buscaremos las similitudes entre los pacientes del estudio y los nuestros y evaluaremos si las diferencias que encontremos nos permiten extrapolar los resultados a nuestra práctica. Pero además, ¿son útiles los resultados? El que sean aplicables no quiere decir que tengamos que ponerlos en práctica obligatoriamente, sino que tendremos que valorar cuidadosamente si nos van a ayudar a decidir qué tratamiento aplicar o a cómo informar a nuestro paciente o a sus familiares.

Como siempre, os recomiendo que uséis alguna plantilla, como las que proporciona CASPe, para realizar la lectura crítica de forma sistemática y no dejar ningún aspecto importante sin valorar.

Ya veis que los trabajos sobre pronóstico tienen mucha miga. Y eso que no hemos comentado prácticamente nada sobre modelos de regresión y curvas de supervivencia, que muchas veces son el núcleo del estudio estadístico de este tipo de trabajos. Pero esa es otra historia…

Hay que saber lo que se pide

Print Friendly, PDF & Email

A diario encontramos artículos que nos muestran nuevas pruebas diagnósticas que parecen haber sido diseñadas para solucionar todos nuestros problemas. Pero no debemos caer en la tentación de hacer caso a todo lo que leamos sin recapacitar antes un poco en lo que hemos leído. Al fin y al cabo, si hiciésemos caso a todo lo que leemos estaríamos hinchados de Coca-Cola.

Ya sabemos que una prueba diagnóstica no nos va a decir si una persona está o no enferma. Su resultado únicamente nos permitirá aumentar o disminuir la probabilidad de que el individuo esté enfermo o no, de forma que nosotros nos atreveremos a confirmar o descartar el diagnóstico, pero siempre con cierto grado de incertidumbre.

Cualquiera tiene cierto riesgo de padecer cualquier enfermedad, que no es más que la prevalencia de la enfermedad en la población general. Por debajo de cierto nivel de probabilidad, nos parece tan poco probable que el paciente esté enfermo que le dejamos tranquilos y no le hacemos ninguna prueba diagnóstica (aunque a algunos les cueste mucho refrenar el impulso de pedir siempre algo). Este es el umbral de prueba o diagnóstico.

Pero si, además de pertenecer a la población, uno tiene la desgracia de tener síntomas, esa probabilidad irá aumentando hasta superar este umbral en el que la probabilidad de presentar la enfermedad justifica realizar pruebas diagnósticas. Una vez que tengamos el resultado de la prueba que hayamos elegido, la probabilidad (probabilidad postprueba) habrá cambiado. Puede que haya cambiado a menos y se haya situado por debajo del umbral de prueba, con lo que descartamos el diagnóstico y volvemos a dejar al paciente tranquilo. También puede que supere otro umbral, el terapéutico, a partir del cual la probabilidad de la enfermedad alcanza el nivel suficiente como para no necesitar más pruebas y poder iniciar el tratamiento.

La utilidad de la prueba diagnóstica estará en su capacidad para disminuir la probabilidad por debajo del umbral de prueba (y descartar el diagnóstico) o, por el contrario, en aumentarla hasta el umbral en el que se justifique iniciar el tratamiento. Claro que a veces la prueba nos deja a medio camino y tenemos que hacer pruebas adicionales antes de confirmar el diagnóstico con la seguridad suficiente como para comenzar el tratamiento.

Los estudios de pruebas diagnósticas deben proporcionarnos información sobre la capacidad de una prueba para producir los mismos resultados cuando se realiza en condiciones similares (fiabilidad) y sobre la exactitud con la que las mediciones reflejan aquello que miden (validez). Pero, además, deben darnos datos sobre su capacidad discriminatoria (sensibilidad y especificidad), su rendimiento clínico (valor predictivo positivo y valor predictivo negativo), su capacidad de modificar la probabilidad de enfermedad y cambiar nuestra posición entre los dos umbrales (cocientes de probabilidad o verosimilitud), y sobre otros aspectos que nos permitan valorar si nos va a merecer la pena practicarla en nuestros pacientes. Y para comprobar si un estudio nos proporciona la información adecuada tenemos que hacer una lectura crítica basada en nuestros tres pilares: validez, importancia y aplicabilidad.

Comencemos por la VALIDEZ. Lo primero será hacernos unas preguntas básicas de eliminación o criterios primarios sobre el estudio. Si la respuesta  a estas preguntas es no, probablemente lo mejor que podamos hacer es usar el artículo para envolver el bocadillo de media mañana.

¿Se ha comparado la prueba diagnóstica de forma ciega e independiente con un patrón de referencia adecuado? Hay que revisar que el resultado de la prueba de referencia no se interprete de forma diferente según el resultado de la prueba de estudio, ya que caeríamos en un sesgo de incorporación, que podría invalidar los resultados. Otro problema que puede surgir es que el patrón de referencia tenga muchos resultados poco concluyentes. Si cometemos el error de excluir estos casos dudosos incurriremos en un sesgo de exclusión de indeterminados que, además de sobrestimar la sensibilidad y la especificidad de la prueba, comprometería la validez externa del estudio, que solo sería aplicable a los pacientes con resultado no dudoso.

¿Los pacientes abarcan un espectro similar al que nos vamos a encontrar en nuestra práctica? Deben estar claros los criterios de inclusión del estudio, en el que deben participar sanos y enfermos con distinta gravedad o evolución de la enfermedad. Como es bien sabido, la prevalencia influye en el rendimiento clínico de la prueba, con lo que si la validamos, por ejemplo, en un centro terciario (estadísticamente la probabilidad de estar enfermo será mayor) puede sobrestimarse su capacidad diagnóstica si va a utilizarse en un centro de Atención Primaria o en población general (en el que la proporción de enfermos será menor). Esto puede parecer difícil de comprender, pero si lo pensamos dos veces veréis que no lo es tanto: cuánto más prevalente sea la enfermedad, más probable es que un positivo de la prueba sea verdadero, aunque sea de casualidad. El mérito es tener más verdaderos en poblaciones con prevalencia baja.

Llegados a este punto, si creemos que merece la pena seguir leyendo, pasaremos a los criterios secundarios, que son aquellos que aportan un valor añadido al diseño del estudio. Otra pregunta que debemos hacernos es: ¿influyeron los resultados de la prueba de estudio para decidir si se hacía la de referencia?. Hay que comprobar que no se haya producido un sesgo de secuencia o sesgo de verificación diagnóstica, mediante el cual excluimos a los que tienen la prueba negativa. Aunque esto es habitual en la práctica corriente (empezamos por pruebas sencillas y solo hacemos las caras o las invasoras en los casos positivos), el hacerlo en un estudio de pruebas diagnósticas compromete la validez de los resultados. Ambas pruebas deben hacerse de forma independiente y ciega, de forma que la subjetividad del observador no influya en los resultados (sesgo de revisión o sesgo de valoración ciega). Por último, ¿se describe el método con el detalle suficiente para permitir su reproducción?. Debe quedar claro qué se ha considerado normal y anormal y cuáles han sido los criterios para definir la normalidad y la forma de interpretar los resultados de la prueba.

Una vez analizada la validez interna del estudio pasaremos a considerar la IMPORTANCIA de los datos presentados. Como ya hemos comentado, el objetivo de un estudio de diagnóstico es determinar la capacidad de una prueba para clasificar correctamente a los individuos según la presencia o ausencia de enfermedad. En realidad, y para ser más exactos, queremos saber cómo varía la probabilidad de estar enfermo tras el resultado de la prueba (probabilidad postprueba). Es, por tanto, esencial que el estudio nos informe acerca de la dirección y magnitud de este cambio (preprueba/postprueba), que sabemos depende de las características de la prueba y, en gran medida, de la prevalencia o probabilidad preprueba.

¿Nos presenta el trabajo las razones de verosimilitud o es posible calcularlas a partir de los datos? Este dato es fundamental, ya que sin él no podemos calcular el impacto clínico de la prueba de estudio. Hay que tener especial precaución con las pruebas de resultado cuantitativo en las que es el investigador el que establece un punto de corte de normalidad. Cuando se utilizan curvas ROC es frecuente desplazar el punto de corte para favorecer la sensibilidad o la especificidad de la prueba, pero tenemos que valorar siempre cómo afecta esta medida a la validez externa del estudio, ya que puede limitar su aplicabilidad a un grupo determinado de pacientes.

¿Son fiables los resultados? Habrá que determinar si los resultados son reproducibles y cómo pueden verse afectados por variaciones entre diferentes observadores o al repetir la prueba de forma sucesiva. Pero no solo hay que valorar la fiabilidad, sino también cuán precisos son los resultados. El estudio se hace sobre una muestra de pacientes, pero debe proporcionar una estimación de sus valores en la población, por lo que los resultados deben expresarse con sus correspondientes intervalos de confianza.

El tercer pilar de la lectura crítica es el de la APLICABILIDAD o validez externa, que nos ayudará a determinar si los resultados son útiles para nuestros pacientes. En este sentido, debemos hacernos tres preguntas. ¿Disponemos de esta prueba y es factible realizarla en nuestros pacientes?. Si no disponemos de la prueba lo único que habremos conseguido leyendo el estudio es aumentar nuestros vastos conocimientos. Pero si disponemos de ella debemos preguntarnos si nuestros pacientes cumplirían los criterios de inclusión y exclusión del estudio y, en caso de que no los cumplan, pensar cómo pueden afectar estas diferencias la aplicabilidad de la prueba.

La segunda pregunta es si conocemos la probabilidad preprueba de nuestros pacientes. Si nuestra prevalencia es muy diferente de la del estudio se puede modificar la utilidad real de la prueba. Una solución puede ser hacer un análisis de sensibilidad valorando cómo se modificarían los resultados del estudio estudiando varios valores de probabilidad pre y postprueba que sean clínicamente razonables. Para esto podemos ayudarnos de una herramienta muy útil, en nomograma de Fagan. Este nomograma permite calcular de forma fácil la probabilidad postprueba para diferentes prevalencias (probabilidad prepueba), siempre que conzozcamos con cocientes de verosimilitud de la prueba diagnóstica.

Por último, deberíamos hacernos la pregunta más importante: ¿la probabilidad postprueba puede hacer cambiar nuestra actitud terapéutica y servir de ayuda para el paciente? Por ejemplo, si la probabilidad preprueba es muy baja, probablemente la probabilidad postprueba sea también muy baja y no alcanzará el umbral de justificación terapéutica, con lo que igual no merece la pena gastar dinero y esfuerzos con esa prueba. Por el contrario, si la probabilidad preprueba es muy alta, en algunos casos merecerá la pena tratar sin hacer ninguna prueba, salvo que el tratamiento sea muy costoso o peligroso. Como siempre, en el medio estará la virtud y será en esas zonas intermedias donde más nos podamos beneficiar del uso de la prueba diagnóstica en cuestión. En cualquier caso, no nos olvidemos nunca de nuestro jefe (me refiero al paciente, no al otro): no hay que contentarse solo con estudiar la eficacia o el coste-efectividad, sino que debemos considerar también los riesgos, molestias y preferencias del paciente, así como las consecuencias que le puede acarrear la realización o no de la prueba diagnóstica.

Si me permitís un consejo, cuando estéis valorando un trabajo sobre pruebas diagnósticas os recomiendo el uso de las plantillas CASPe, que podéis descargaros de su página web. Os ayudarán a hacer la lectura crítica de una manera sistemática y sencilla.

Una aclaración para ir acabando: no debemos confundir los estudios de pruebas diagnósticas con los de reglas de predicción diagnóstica. Aunque la valoración es parecida, las reglas de predicción tienen unas características específicas y unos requerimientos metodológicos que deben valorarse de una forma adecuada y que veremos en otra entrada.

Para terminar, comentaros que todo lo dicho hasta ahora vale para los trabajos específicos de pruebas diagnósticas. Sin embargo, la valoración de pruebas diagnósticas puede formar parte de estudios observacionales como los de cohortes o los de casos y controles, que pueden tener alguna peculiaridad en la secuencia de realización y en los criterios de validación de la prueba de estudio y del patrón de referencia, pero esa es otra historia…

El rey a examen

Print Friendly, PDF & Email

Todos sabemos que el ensayo clínico aleatorizado es el rey de los diseños metodológicos de intervención. Es el tipo de estudio epidemiológico que permite un mejor control de los errores sistemáticos o sesgos, ya que el investigador controla las variables del estudio y los participantes son asignados al azar entre las intervenciones que se comparan.

De esta forma, si dos grupos homogéneos que difieren solo en la intervención presentan alguna diferencia de interés durante el seguimiento, podremos afirmar con cierta confianza que esta diferencia se debe a la intervención, lo único que no tienen en común los dos grupos. Por este motivo, el ensayo clínico es el diseño preferente para responder a preguntas clínicas sobre intervención o tratamiento, aunque siempre tendremos que ser prudentes con la evidencia generada por un solo ensayo clínico, por muy bien realizado que esté. Cuando realizamos una revisión sistemática sobre ensayos clínicos aleatorizados sobre la misma intervención y los combinamos en un metanálisis, las respuestas que obtenemos tendrán más fiabilidad que las obtenidas de un solo estudio. Por eso hay quien afirma que el diseño ideal para responder preguntas de tratamiento no es el ensayo clínico, sino el metanálisis de ensayos clínicos.

En cualquier caso, como las revisiones sistemáticas valoran sus estudios primarios de forma individual y como lo más habitual es que encontremos ensayos individuales y no revisiones sistemáticas, conviene saber hacer una buena lectura crítica para poder sacar conclusiones. En efecto, no podemos relajarnos cuando veamos que un artículo nos cuenta un ensayo clínico y darlo por bueno. El ensayo clínico puede también contener sus trampas y argucias, por lo que, como con cualquier otro tipo de trabajo, será buena práctica realizar la lectura crítica del mismo, basándonos en nuestros tres pilares habituales: validez, importancia y aplicabilidad.

Como siempre, a la hora de estudiar el rigor científico o VALIDEZ (validez interna), nos fijaremos primero en una serie de criterios primarios imprescindibles. Si estos no se cumplen, mejor no perder el tiempo con el trabajo y buscar otro más provechoso.

¿Existe una pregunta clínica claramente definida? En su origen, el ensayo debe estar diseñado para responder a una pregunta clínica estructurada sobre tratamiento, motivada por una de nuestras múltiples lagunas de conocimiento. Se debe plantear una hipótesis de trabajo con sus correspondientes hipótesis nula y alternativa, a ser posible sobre un tema relevante desde el punto de vista clínico. Es preferible que el estudio trate de responder solo a una pregunta. Cuando se quiere responder a varias suele complicarse el estudio en exceso para acabar no contestando ninguna de forma completa y adecuada.

¿Se realizó la asignación de forma aleatoria? Como ya hemos dicho, para poder afirmar que las diferencias entre los grupos se deben a la intervención es necesario que sean homogéneos. Esto se consigue asignando los pacientes al azar, única forma de controlar las variables confusoras conocidas y, más importante, también las que desconocemos. Si los grupos fueran distintos y atribuyésemos la diferencia únicamente a la intervención podríamos incurrir en un sesgo de confusión. El ensayo debe contener la habitual e imprescindible tabla 1 con la frecuencia de aparición de las variables demográficas y de confusión de ambas muestras para estar seguros de que los grupos son homogéneos. Un error frecuente es buscar las diferencias entre los dos grupos y valorarlas según su p, cuando sabemos que la p no mide homogeneidad. Si los hemos repartido al azar, cualquier diferencia que observemos se deberá obligatoriamente al azar (no necesitaremos una p para saberlo). El tamaño muestral no está pensado para discriminar entre las variables demográficas, por lo que una p no significativa puede indicar simplemente que la muestra es pequeña para verla. Por otro lado, cualquier mínima diferencia puede alcanzar significación estadística si la muestra es lo suficientemente grande. Así que olvidaos de la p: si hay alguna diferencia, lo que hay que hacer es valorar si tiene la relevancia clínica suficiente como para poder haber influido en los resultados o, dicho de forma más elegante, tendremos que controlar las covariables no equilibradas durante la aleatorización. Afortunadamente, cada vez es más raro encontrar las tablas de los grupos de estudio con las p de comparación entre los grupos de intervención y control.

Pero no basta con que el estudio esté aleatorizado (aprovecho para decir que randomizado es un barbarismo que no existe en lengua castellana), sino que hay que considerar también si la secuencia de aleatorización se hizo de forma correcta. El método utilizado debe garantizar que todos los componentes de la población seleccionada tengan la misma probabilidad de ser elegidos, por lo que se prefieren las tablas de números aleatorios o secuencias generadas por ordenador. La aleatorización debe ser oculta, de forma que no se pueda saber a qué grupo va a pertenecer el siguiente participante. Por eso gustan tanto los sistemas centralizados vía telefónica o a través de Internet. Y aquí pasa algo muy curioso: resulta que es bien conocido que la aleatorización produce muestras de diferente tamaño, sobre todo si las muestras son pequeñas, motivo por el que a veces se usan muestras aleatorizadas por bloques balanceados en tamaño. Y yo os pregunto, ¿cuántos estudios habéis leído con el mismo número de participantes en las dos ramas y que afirmaban ser aleatorizados? Desconfiad si veis grupos iguales, sobre todo si son pequeños, y no os dejéis engañar: siempre podéis utilizar una de las múltiples calculadoras de probabilidad binomial disponibles en la Red para saber cuál es la probabilidad de que el azar genere los grupos que los autores os presentan (hablamos siempre de aleatorización simple, no por bloques, conglomerados, minimización u otras técnicas). Os sorprenderá lo que encontraréis.

También es importante que el seguimiento haya sido lo suficientemente largo y completo, de forma que el estudio dure lo suficiente para poder observar la variable de resultado y que todo participante que entre en el estudio sea tenido en cuenta al finalizar. Como regla de andar por casa, si las pérdidas superan el 20%, se admite que la validez interna del estudio puede estar comprometida.

Siempre tendremos que analizar la naturaleza de las pérdidas durante el seguimiento, sobre todo si estas son elevadas. Hay que tratar de dilucidar si las pérdidas son aleatorias o si están en relación con alguna variable concreta (lo cual sería mal asunto) y estimar qué efecto han podido tener en los resultados del ensayo. Lo más habitual suele ser adoptar el llamado escenario del peor de los casos: se supone que todas las pérdidas del grupo control han ido bien y todas las del grupo de intervención han ido mal y se repite el análisis para comprobar si las conclusiones se modifican, en cuyo caso la validez del estudio quedaría seriamente comprometida. El último aspecto importante es considerar si los pacientes que no han recibido el tratamiento previamente asignado (siempre hay alguno que no se entera y mete la pata) se han analizado según la intención de tratamiento, ya que es la única forma de preservar todos los beneficios que se obtienen con la aleatorización. Todo aquello que ocurra después de la aleatorización (como un cambio del grupo de asignación) puede influir en la probabilidad de que el sujeto experimente el efecto que estemos estudiando, por lo que es importante respetar este análisis por intención de tratar y analizar cada uno en el grupo en el que se asignó inicialmente.

Una vez comprobados estos criterios primarios, nos fijaremos en tres criterios secundarios que influyen en la validez interna. Habrá que comprobar que los grupos fueran similares al inicio del estudio (ya hemos hablado de la tabla con los datos de los dos grupos), que se llevó a cabo el enmascaramiento de forma adecuada como forma de control de sesgos y que los dos grupos fueron manejados y controlados de forma similar a excepción, claro está, de la intervención en estudio. Sabemos que el enmascaramiento o cegamiento permite minimizar el riesgo de sesgos de información, por lo que lo habitual es que los investigadores y los participantes desconozcan a qué grupo está asignado cada uno, lo que se conoce como doble ciego. En ocasiones, dada la naturaleza de la intervención (pensemos un grupo que se opera y otro no) será imposible enmascarar a investigadores y participantes, pero siempre podremos darle los datos enmascarados a la persona que realice el análisis de los resultados (el llamado evaluador ciego), con lo que se trata de paliar este problema.

Para resumir este apartado de la validez del ensayo, podemos decir que tendremos que comprobar que exista una clara definición de la población de estudio, de la intervención y del resultado de interés, que la aleatorización se haya hecho de forma adecuada, que se han tratado de controlar los sesgos de información mediante el enmascaramiento, que ha habido un seguimiento adecuado con control de las pérdidas y que el análisis haya sido correcto (análisis por intención de tratamiento y control de covariables no equilibradas por la aleatorización).

Una herramienta muy sencilla que nos puede ayudar también a valorar la validez interna de un ensayo clínico es la escala de Jadad, también llamada sistema de puntuación de calidad de Oxford. Jadad, un médico colombiano, ideó un sistema de puntuación con 7 preguntas. En primer lugar, 5 preguntas cuya respuesta afirmativa suma 1 punto:

  1. ¿El estudio se describe como aleatorizado?
  2. ¿Se describe el método utilizado para generar la secuencia de aleatorización y este es adecuado?
  3. ¿El estudio se describe como doble ciego?
  4. ¿Se describe el método de enmascaramiento y este es adecuado?
  5. ¿Hay una descripción de las pérdidas durante el seguimiento?

Finalmente, dos preguntas cuya respuesta negativa resta 1 punto:

  1. ¿Es adecuado el método utilizado para generar la secuencia de aleatorización?
  2. ¿Es adecuado el método de enmascaramiento?

Como veis, la escala de Jadad valora los puntos clave que ya hemos mencionado: aleatorización, enmascaramiento y seguimiento. Se considera un estudio riguroso desde el punto de vista metodológico el que tiene una puntuación de 5 puntos. Si el estudio tiene 3 puntos o menos, mejor lo utilizamos para envolver el bocadillo.

Pasaremos a continuación a considerar cuáles son los resultados del estudio para calibrar su IMPORTANCIA clínica. Habrá que determinar las variables medidas para ver si el trabajo expresa de forma adecuada la magnitud y la precisión de los resultados. Es importante, una vez más, no conformarnos con que nos inunden con múltiples p llenas de ceros. Recordad que la p solo nos indica la probabilidad de que estemos dando como buenas diferencias que solo existen por azar (o, dicho con elegancia, de cometer un error de tipo 1), pero que significación estadística no tiene porqué ser sinónimo de relevancia clínica.

En el caso de variables continuas como tiempo de supervivencia, peso, tensión arterial, etc, lo habitual será expresar la magnitud de los resultados como diferencia de medias o de medianas, dependiendo de cuál sea la medida de centralización más adecuada. Sin embargo, en casos de variables dicotómicas (vivo o muerto, sano o enfermo, etc) se utilizarán el riesgo relativo, su reducción relativa y absoluta y el número necesario a tratar (NNT). De todas ellas, la que mejor expresa la eficiencia clínica es siempre el NNT. Cualquier trabajo digno de nuestra atención debe proporcionar estos datos o, en su defecto, la información necesaria para que podamos calcularlos.

Pero para permitir conocer una estimación más real de los resultados en la población necesitamos saber la precisión del estudio, y nada más fácil que recurrir a los intervalos de confianza. Estos intervalos, además de la precisión, nos informan también de la significación estadística. Será estadísticamente significativo si el intervalo del riesgo relativo no incluye el uno y el de la diferencia de medias, el cero. En el caso de que los autores no nos los proporcionen, podemos utilizar una calculadora para obtenerlos, como las disponibles en la web de CASPe.

Una buena forma de ordenar el estudio de la importancia clínica de un ensayo es estructurarlo en las cuatro Cs: valoración Cuantitativa (medidas de efecto y su precisión), valoración Cualitativa (relevancia desde el punto de vista clínico), valoración Comparativa (ver si los resultados son congruentes con los de otros estudios previos) y valoración de Coste-beneficio (este punto enlazaría con el siguiente apartado de la lectura crítica que tiene que ver con la aplicabilidad de los resultados del ensayo).

Para finalizar la lectura crítica de un artículo de tratamiento valoraremos su APLICABILIDAD (también llamada validez externa), para lo cual nos tendremos que preguntar si los resultados pueden generalizarse a nuestros pacientes o, dicho de otro modo, si existe alguna diferencia entre nuestros pacientes y los del estudio que impida la generalización de los resultados. Hay que tener en cuenta en este sentido que cuánto más estrictos sean los criterios de inclusión de un estudio, más difícil será generalizar sus resultados, comprometiéndose así su validez externa.

Pero, además, debemos considerar si se han tenido en cuenta todos los resultados clínicamente importantes, incluyendo efectos secundarios e indeseables. La variable de resultado medida debe ser importante para el médico y para el paciente. No hay que olvidar que el hecho de que demostrar que la intervención sea eficaz no significa obligatoriamente que sea beneficiosa para nuestros pacientes. Habrá que valorar también los efectos nocivos o molestos y estudiar el balance beneficios-costes-riesgos, así como las dificultades que puedan existir para aplicar el tratamiento en nuestro medio, las preferencias del paciente, etc.

Como es fácil de comprender, un estudio puede tener una gran validez metodológica y sus resultados tener gran importancia desde el punto de vista clínico y no ser aplicable a nuestros pacientes, ya sea porque nuestros pacientes sean diferentes a los del estudio, porque no se adapte a sus preferencias o porque sea irrealizable en nuestro medio. Sin embargo, lo contrario no suele ocurrir: si la validez es deficiente o los resultados carecen de importancia, difícilmente nos plantearemos aplicar las conclusiones del estudio a nuestros pacientes.

Para terminar, recomendaros que utilicéis alguna de las herramientas disponibles para lectura crítica, como las plantillas CASPe, o una lista de verificación, como la CONSORT, para no dejaros ninguno de estos puntos sin considerar. Eso sí, todo lo que hemos hablado se refiere a ensayos clínicos aleatorizados y controlados, ¿Y qué pasa si se trata de ensayos no aleatorizados o de otra clase de estudios cuasiexperimentales?. Pues para eso se siguen otra serie de normas, como pueden ser las de la declaración TREND. Pero esa es otra historia…

Aquiles y el bosque de los efectos

Print Friendly, PDF & Email

Aquiles. ¡Qué tío! Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

Estos son los principales factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo. De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil.

En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.

Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).

Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse, por ejemplo, que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

La más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

Este método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

La prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación? ¿Podemos hacer algo para ajustarlo? Como siempre, podemos.

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos el efecto.Otra actitud muy conservadora que podemos adoptar es dar por hecho que existe un sesgo de publicación y preguntarnos cuánto afecta nuestros resultados, dando por hecho que nos hemos dejado estudios sin incluir en el análisis.

La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.

Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.

El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método.

El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud.

Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.

Para terminar con el metanálisis, veamos cuál es la forma correcta de expresar los resultados del análisis de los datos. Para hacerlo bien, podemos seguir las recomendaciones de la declaración PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica mediante un diagrama de efectos, una herramienta gráfica popularmente más conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de media y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

  1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.
  2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.
  3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.
  4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.
  5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y con esto damos por finalizado el tema del metanálisis. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática aunque, como ya sabemos, en estos casos le cambiamos el nombre por el de gráfico en embudo. Pero esa es otra historia…

Churras y merinas

Print Friendly, PDF & Email

Todos conoceréis el cuento chino del pobre grano de arroz solitario que se cae al suelo y no lo oye nadie. Claro que si en lugar de caerse un grano se cae un saco lleno de arroz eso ya será otra cosa. Hay muchos ejemplos de que la unión hace la fuerza. Una hormiga roja es inofensiva, salvo que te muerda en alguna zona blanda y noble, que suelen ser las más sensibles. Pero ¿qué me decís de una marabunta de millones de hormigas rojas? Eso sí que acojona, porque si se juntan todas y vienen a por ti, poco podrás hacer para parar su empuje. Sí, la unión hace la fuerza.

Y esto también pasa en estadística. Con una muestra relativamente pequeña de votantes bien elegidos podemos estimar quién va a ganar unas elecciones en las que votan millones. Así que, ¿qué no podríamos hacer con un montón de esas muestras? Seguro que la estimación sería más fiable y más generalizable.

Pues bien, esta es precisamente una de las finalidades del metanálisis, que utiliza diversas técnicas estadísticas para hacer una síntesis cuantitativa de los resultados de un conjunto de estudios que, aunque tratan de responder a la misma pregunta, no llegan exactamente al mismo resultado. Pero cuidado, no podemos ponernos a juntar estudios para sacar conclusiones sobre la suma de ellos sin antes tomar una serie de precauciones. Esto sería como mezclar churras con merinas que, no sé muy bien porqué, debe ser algo terriblemente peligroso porque todo el mundo sabe que es algo a evitar.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Es más que conveniente que exista la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí también impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos. Si existe mucha heterogeneidad desde el punto de vista clínico, quizás lo más idóneo sea no hacer metanálisis y limitarnos a realizar un análisis de síntesis cualitativa de los resultados de la revisión.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la ji-cuadrado. En efecto, la Q sigue una distribución ji-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida a diferencias reales entre los estimadores respecto a la variabilidad debida al azar (dicho de forma aún más sencilla, la proporción de variabilidad no debida al azar). Además, es  menos sensible a la magnitud del efecto y al número de estudios. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}

Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

Otras veces los autores realizan un contraste de hipótesis con una hipótesis nula de no heterogeneidad y utilizan una chi ji-cuadrado o algún estadístico similar. En estos casos, lo que proporcionan es un valor de significación estadística. Si la p es < 0,05 se puede rechazar la hipótesis nula y decir que hay heterogeneidad. En caso contrario diremos que no podemos rechazar la hipótesis nula de no heterogeneidad.

En resumen, siempre que veamos un indicador de homogeneidad que represente un porcentaje nos indicará la proporción de variabilidad que no es debida al azar. Por su parte, cuando nos den una “p” habrá heterogeneidad significativa cuando la “p” sea menor de 0,05.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad (siempre con un pequeño grado de incertidumbre). Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico, que podéis ver en la primera figura, representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.

El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé (segunda figura), que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la diagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio. Una pequeña pega de esta herramienta es que solo es aplicable a metanálisis de ensayos clínicos y cuando la variable dependiente es dicotómica.

Bien, supongamos que hacemos el estudio de heterogeneidad y decidimos que vamos a combinar los estudios para hacer el metanálisis. El siguiente paso es analizar los estimadores del tamaño de efecto de los estudios, ponderándolos según la contribución que cada estudio va a tener sobre el resultado global. Esto es lógico, no puede contribuir lo mismo al resultado final un ensayo con pocos participantes y un resultado poco preciso que otro con miles de participantes y una medida de resultado más precisa.

La forma más habitual de tener en cuenta estas diferencias es ponderar la estimación del tamaño del efecto por la inversa de la varianza de los resultados, realizando posteriormente el análisis para obtener el efecto medio. Para estos hay varias posibilidades, algunas de ellas muy complejas desde el punto de vista estadístico, aunque los dos métodos que se utilizan con más frecuencia son el modelo de efecto fijo y el modelo de efectos aleatorios. Ambos modelos difieren en la concepción que hacen de la población de partida de la que proceden los estudios primarios del metanálisis.

El modelo de efecto fijo considera que no existe heterogeneidad y que todos los estudios estiman el mismo tamaño de efecto de la población (todos miden el mismo efecto, por eso se llama de efecto fijo), por lo que se asume que la variabilidad que se observa entre los estudios individuales se debe únicamente al error que se produce al realizar el muestreo aleatorio en cada estudio. Este error se cuantifica estimando la varianza intraestudios, asumiendo que las diferencias en los tamaños de efecto estimados se deben solo a que se han utilizado muestras de sujetos diferentes.

Por otro lado, en el modelo de efectos aleatorios se parte de la base de que el tamaño de efecto varía en cada estudio y sigue una distribución de frecuencias normal dentro de la población, por lo que cada estudio estima un tamaño de efecto diferente. Por lo tanto, además de la varianza intraestudios debida al error del muestreo aleatorio, el modelo incluye también la variabilidad entre estudios, que representaría la desviación de cada estudio respecto del tamaño de efecto medio. Estos dos términos de error son independientes entre sí, contribuyendo ambos a la varianza del estimador de los estudios.

En resumen, el modelo de efecto fijo incorpora solo un término de error por la variabilidad de cada estudio, mientras que el de efectos aleatorios añade, además, otro término de error debido a la variabilidad entre los estudios.

Veis que no he escrito ni una sola fórmula. En realidad no nos hace falta conocerlas y son bastante antipáticas, llenas de letras griegas que no hay quien las entienda. Pero no os preocupéis. Como siempre, los programas estadísticos como RevMan de la Cochrane Collaboration permiten hacer los cálculos de forma sencilla, quitando y sacando estudios del análisis y cambiando de modelo según nos apetezca.

El tipo de modelo a elegir tiene su importancia. Si en el análisis previo de homogeneidad vemos que los estudios son homogéneos podremos utilizar el modelo de efecto fijo. Pero si detectamos que existe heterogeneidad, dentro de los límites que nos permitan combinar los estudios, será preferible usar el modelo de efectos aleatorios.

Otra consideración a realizar es la de la aplicabilidad o validez externa de los resultados del metanálisis. Si hemos utilizado el modelo de efecto fijo será comprometido generalizar los resultados fuera de las poblaciones con características similares a las de los estudios incluidos. Esto no ocurre con los resultados obtenidos utilizando el modelo de efectos aleatorios, cuya validez externa es mayor por provenir de poblaciones de diferentes estudios.

En cualquier caso, obtendremos una medida de efecto medio junto con su intervalo de confianza. Este intervalo de confianza será estadísticamente significativo cuando no cruce la línea de efecto nulo, que ya sabemos que es cero para diferencias de medias y uno para odds ratios y riesgos relativos. Además, la amplitud del intervalo nos informará sobre la precisión de la estimación del efecto medio en la población: cuánto más ancho, menos preciso, y viceversa.

Si pensáis un poco comprenderéis en seguida porqué el modelo de efectos aleatorios es más conservador que el de efecto fijo en el sentido de que los intervalos de confianza que se obtienen son menos precisos, ya que incorpora más variabilidad en su análisis. En algún caso puede ocurrir que el estimador sea significativo si usamos el de efecto fijo y no lo sea si usamos el de efectos aleatorios, pero esto no debe condicionarnos a la hora de escoger el modelo a utilizar. Siempre debemos basarnos en la medida previa de heterogeneidad aunque, si tenemos dudas, también podemos utilizar los dos y comparar los diferentes resultados.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo? Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y ya solo nos quedaría comprobar que no nos faltan estudios sin recoger y presentar los resultados de forma correcta. Los datos de los metanálisis suelen representarse en un gráfico específico que se suele conocer por su nombre en inglés: el forest plot. Pero esa es otra historia…

El todo es mayor que la suma de las partes

Print Friendly, PDF & Email

Esta es otra de esas frases famosas que están hasta en la sopa. Al parecer, el primero que tuvo esta ocurrente idea fue Aristóteles, que resumió con ella el principio general del holismo en sus escritos sobre metafísica. ¿Quién hubiese dicho que la frasecita encierra tanta sabiduría? Y es que el holismo insiste en que el todo debe ser considerado de una forma global, ya que sus componentes pueden actuar de una forma sinérgica, permitiendo que el conjunto tenga más significado que el aportado por cada parte de forma individual.

No temáis, seguís en el blog del seso y no en uno de filosofía. Y tampoco he cambiado la temática del blog, pero es que este principio me viene al pelo para introducir esa fiera corrupia del método científico que es la revisión sistemática, con o sin metanálisis.

Vivimos en la era de la información. Desde finales del pasado siglo XX hemos sido testigos de una verdadera explosión de las fuentes de información disponibles, accesibles desde múltiples fuentes y plataformas. El resultado final es que nos vemos desbordados cada vez que necesitamos una información sobre un punto concreto, no sabemos dónde buscar ni cómo podemos encontrar lo que queremos. Por este motivo empezaron a desarrollarse sistemas que sintetizasen la información disponible para hacerla más abarcable cuando se necesitase.

Nacen así las primeras revisiones, llamadas revisiones narrativas o de autor. Para elaborarlas, uno o varios autores, habitualmente expertos en un tema concreto, hacían una revisión general sobre dicho tema, aunque sin ningún criterio estricto sobre la estrategia de búsqueda ni de selección de la información. Siguiendo con total libertad, los autores analizaban los resultados tal como les mandaba su entendimiento y terminaban sacando sus conclusiones a partir de una síntesis cualitativa de los resultados obtenidos.

Estas revisiones narrativas son muy útiles para adquirir una visión general del tema, especialmente cuando uno sabe poco sobre la materia, pero son poco útiles para el que ya conoce el tema y necesita respuesta a una pregunta más concreta. Además, como todo el procedimiento se hace según el gusto de los autores, las conclusiones son poco reproducibles.

Por estos motivos, una serie de mentes privilegiadas inventan el otro tipo de revisión en el que nos vamos a centrar en esta entrada: la revisión sistemática. En lugar de revisar un tema general, las revisiones sistemáticas sí se centran en un tema concreto para poder solucionar dudas concretas de la práctica clínica. Además, emplean una estrategia de búsqueda claramente especificada y unos criterios de inclusión de trabajos explícitos y rigurosos, lo que las hace altamente reproducibles si a otro grupo de autores se les ocurre repetir la revisión sobre el mismo tema. Y, por si fuera poco, siempre que es posible van más allá del análisis de síntesis cualitativa, completándola con una síntesis cuantitativa que recibe el simpático nombre de metanálisis.

La elaboración de una revisión sistemática consta de seis pasos: formulación del problema o pregunta que quiere responderse, búsqueda y selección de los trabajos existentes, evaluación de la calidad de estos estudios, extracción de los datos, análisis de los resultados y, finalmente, interpretación y conclusión. Vamos a detallar un poco todo este proceso.

Toda revisión sistemática que se precie debe tratar de responder a una pregunta concreta que debe ser relevante desde el punto de vista clínico. La pregunta se hará habitualmente de forma estructurada con los componentes habituales de población, intervención, comparación y resultado (PICO), de forma que el análisis de estos componentes nos permitirá saber si la revisión es de nuestro interés.

Además, los componentes de la pregunta clínica estructurada nos ayudarán a realizar la búsqueda de los trabajos relevantes que existan sobre el tema. Esta búsqueda debe ser global y no sesgada, por lo que evitaremos los posibles sesgos de procedencia excluyendo fuentes por su idioma, revista, etc. Lo habitual es utilizar un mínimo de dos bases de datos electrónicas importantes de uso general, como Pubmed, Embase o la de la Cochrane, junto con las específicas del tema que se esté tratando. Es importante que esta búsqueda se complemente con una búsqueda manual en registros no electrónicos y consultando las referencias bibliográficas de los trabajos encontrados, además de otras fuentes de la llamada literatura gris, como tesis, y documentos de congresos, además de documentos de agencias financiadoras, registros e, incluso, establecer contacto con otros investigadores para saber si existen trabajos aún no publicados.

Es muy importante que esta estrategia se especifique claramente en el apartado de métodos de la revisión, de forma que cualquiera pueda reproducirla con posterioridad, si se le antoja. Además, habrá que especificar claramente los criterios de inclusión y exclusión de los estudios primarios de la revisión, el tipo de diseño que se busca y sus componentes principales (otra vez en referencia al PICO, los componentes de la pregunta clínica estructurada).

El tercer paso es la evaluación de la calidad de los estudios encontrados, que debe hacerse por un mínimo de dos personas de forma independiente, ayudándose de un tercero (que seguramente será el jefe) para desempatar en los casos en que no haya consenso entre los extractores. Para esta tarea suelen utilizarse herramientas o listas de verificación diseñadas para tal efecto, siendo una de las más utilizadas la herramienta de control de sesgos de la Colaboración Cochrane. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo. Es frecuente utilizar los colores del semáforo, marcando en verde los estudios con bajo riesgo de sesgo, en rojo los que tienen alto riesgo de sesgo y en amarillo los que se quedan en tierra de nadie. Cuanto más verde veamos, mejor será la calidad de los estudios primarios de la revisión.

Para la extracción de los datos suelen diseñarse también formularios al uso que suelen recoger datos como fecha, ámbito del estudio, tipo de diseño, etc, además de los componentes de la pregunta clínica estructurada. Como en el caso del paso anterior, conviene que esto se haga por más de una persona, estableciendo el método para llegar a un acuerdo en los casos en que no haya consenso entre los revisores.

Y aquí entramos en la parte más interesante de la revisión, el análisis de los resultados. El papel fundamental de los autores será explicar las diferencias que existan entre los estudios primarios que no sean debidas al azar, prestando especial atención a las variaciones en el diseño, población de estudio, exposición o intervención y resultados medidos. Siempre se podrá hacer un análisis de síntesis cualitativa, aunque la verdadera magia de la revisión sistemática es que, cuando las características de los estudios primarios lo permiten, puede realizarse también una síntesis cuantitativa, llamada metanálisis.

Un metanálisis es un análisis estadístico que combina los resultados de varios estudios independientes pero que tratan de responder a una misma pregunta. Aunque el metanálisis puede considerarse como un trabajo de investigación por derecho propio, lo habitual es que sea parte de una revisión sistemática.

Los estudios primarios pueden combinarse empleando una metodología estadística desarrollada para tal fin, lo que tiene una serie de ventajas. La primera, al combinar todos los resultados de los estudios primarios puede obtenerse una visión global más completa (ya sabéis, el todo es mayor…). La segunda, al combinar aumentamos el tamaño de la muestra, lo que aumenta la potencia del estudio en comparación con la de los estudios individuales, mejorando la estimación del efecto que queremos medir. En tercer lugar, al extraerse las conclusiones de un número mayor de estudios aumenta su validez externa, ya que al haber implicadas poblaciones diferentes es más fácil generalizar los resultados. Por último, puede permitirnos resolver controversias entre las conclusiones de los diferentes estudios primarios de la revisión e, incluso, contestar a preguntas que no se habían planteado en esos estudios.

Una vez hecho el metanálisis habrá que hacer una síntesis final que integre los resultados de las síntesis cualitativa y cuantitativa con el objetivo de dar respuesta a la pregunta que motivó la revisión sistemática o, cuando esto no sea posible, plantear los estudios adicionales que deben realizarse para poder contestarla.

Pero para que un metanálisis merezca todos nuestros respetos debe cumplir una serie de requisitos que son, básicamente, los que ya le hemos exigido a la revisión sistemática de la que forma parte: el metanálisis debe tratar de contestar una pregunta concreta y debe basarse en toda la información relevante disponible, sin sesgo de recuperación ni sesgo de publicación. Además, deben valorarse los estudios primarios para asegurarnos de que tienen la calidad suficiente y que son lo suficientemente homogéneos como para poder combinarlos. Por supuesto, lo datos deben analizarse y presentarse de la forma apropiada. Y, por último, debe tener sentido el que queramos combinar los resultados. El que podamos hacerlo no siempre significa que tengamos que hacerlo si el contexto clínico no lo hace necesario.

¿Y cómo se combinan los estudios?, preguntaréis algunos. Pues esa es la madre del cordero del metanálisis (o una de las madres, que tiene varias), porque hay varias formas posibles de hacerlo.

A cualquiera se le ocurre que la forma más sencilla sería tipo Festival de Eurovisión. Contabilizamos los estudios primarios en los que el efecto positivo obtuvo significación estadística y, sin son mayoría, decimos que hay consenso a favor del resultado positivo. Este enfoque es bastante sencillo pero, no me lo negaréis, también bastante chapucerillo y se me ocurren una serie de inconvenientes a la hora de usarlo. Por un lado, implica que no significativo es sinónimo de falta de efecto, lo cual no siempre tiene porqué ser verdad. Además, no tiene en cuenta la dirección y fuerza del efecto en cada estudio, ni la precisión de los estimadores empleados ni la calidad o las peculiaridades de diseño de cada estudio primario. Así que este tipo de abordaje no parece muy recomendable, aunque nadie nos va a poner una multa si lo usamos de forma informal como primera aproximación antes de decidir cuál es la mejor forma de combinar los resultados de los estudios.

Otra posibilidad es utilizar una especie de prueba de los signos, similar a la de algunas técnicas de estadística no paramétrica. Se cuentan los positivos a favor del efecto, les restamos los negativos y obtenemos nuestra conclusión. La verdad es que este método también parece demasiado simple. No tiene en cuenta los estudios sin significación estadística ni la precisión de los estimadores. Así que tampoco utilizaremos mucho este tipo de abordaje, a no ser que solo sepamos la dirección del efecto de los estudios primarios. También podríamos utilizarlo cuando los estudios primarios son muy heterogéneos para obtener una aproximación, aunque yo no me fiaría mucho de los resultados.

El tercer método es combinar las “pes” (nuestras amadas y sacrosantas p). Esto podría pasársenos por la cabeza si tuviésemos una revisión sistemática cuyos estudios primarios usaran diferentes medidas de resultado, aunque todos tratasen de contestar a una misma pregunta. Pensad, por ejemplo, un estudio sobre osteoporosis donde unos miden densitometría ultrasónica, otros DEXA en columna, otros en fémur, etc. El problema de este método es que no tiene en cuenta la intensidad del efecto, sino solo su dirección y su nivel de significación estadística, y todos conocemos las deficiencias de nuestras santas “pes”. Para utilizarlo tendremos que utilizar programas informáticos que combinarán los datos siguiendo una distribución de ji-cuadrado o una normal, dándonos el estimador global con su intervalo de confianza.

El cuarto y último método, que yo me sé, es también el más elegante: hacer una combinación ponderada del efecto estimado en los diferentes estudios primarios. La forma más sencilla sería calcular la media aritmética, pero no hemos llegado hasta aquí para hacer otra chapuza. La media aritmética otorga el mismo énfasis a todos los estudios, con lo que si tenemos algún estudio muy impreciso con resultados extremos nos distorsionará enormemente los resultados. Recordad que la media sigue siempre las colas de la distribución, viéndose muy influenciada por los valores extremos (lo que no le ocurre a su prima, la mediana).

Por esto tenemos que ponderar los estimadores de los distintos estudios. Esto podemos hacerlo de dos formas, teniendo en cuenta el número de sujetos de cada estudio, o bien, realizando una ponderación en base a los inversos de las varianzas de cada uno (ya sabéis, los cuadrados de los errores estándar).  Esta última forma es la más compleja, así que es la que más gusta y más se utiliza. Claro que, como la matemática necesaria es cosa fina, se suelen utilizar programas especiales, ya sean módulos que funcionan dentro de los programas estadísticos como Stata, SPSS, SAS o R, o utilizando programas específicos como el famoso RevMan de la Colaboración Cochrane.

Como podéis ver, no me he quedado corto al tildar a la revisión sistemática con metanálisis como la fiera corrupia de los diseños epidemiológicos. No obstante, tiene sus detractores. Todos conocemos a alguien que afirma no gustarle las revisiones sistemáticas porque casi todas acaban de la misma forma: “hacen falta más estudios de calidad para poder realizar recomendaciones con un grado de evidencia razonable”. Claro que, en estos casos, la culpa no es de las revisiones, sino de que no nos esmeramos lo suficiente con nuestros trabajos y la gran mayoría merecerían acabar en la máquina destructora de papel.

Otra polémica es la que tienen los que debaten sobre si es mejor una buena revisión sistemática o un buen ensayo clínico (pueden hacerse revisiones sobre otros tipos de diseños, incluyendo estudios observacionales). A mí esto me recuerda a la polémica sobre si deben hacer calimochos con buen vino o si es un pecado mezclar un buen vino con Coca-Cola. Polémicas aparte, si hay que tomar calimocho, os aseguro que con un buen vino estará mucho más rico, y algo parecido les pasa a las revisiones con la calidad de sus estudios primarios.

El problema de las revisiones sistemáticas es que, para que sean realmente útiles, hay que ser muy riguroso en su elaboración. Para que no se nos olvide nada, existen listas de recomendaciones y de verificación que nos permitan ordenar todo el procedimiento de creación y difusión de trabajos científicos sin que cometamos errores metodológicos u omisiones en el procedimiento.

Todo comenzó con un programa del Servicio de Salud del Reino Unido que terminó con la fundación de una iniciativa internacional para promover la transparencia y precisión de los trabajos de investigación biomédicos: la red EQUATOR (Enhancing the QUAlity and Transparency Of health Research). Esta red se compone de expertos en metodología, comunicación y publicación, por lo que incluye profesionales implicados en la calidad de todo el proceso de producción y difusión de los resultados de investigación. Entre otros muchos objetivos, que podéis consultar en su página web, está el de diseñar un conjunto de recomendaciones para la realización y publicación de los diferentes tipos de estudios, lo que da lugar a las diferentes listas de verificación o declaraciones.

La lista de verificación diseñada para aplicar a las revisiones sistemáticas es la declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses), que viene a sustituir a la declaración QUOROM (QUality Of Reporting Of Meta-analyses). Basándose en la definición de revisión sistemática de la Colaboración Cochrane, PRISMA nos ayuda a seleccionar, identificar y valorar los estudios incluidos en una revisión. Consta también de una lista de verificación y de un diagrama de flujo en el que se describe el paso de todos los trabajos considerados durante la realización de la revisión. Existe también una declaración menos conocida para la valoración de metanálisis de estudios observacionales, la declaración MOOSE (Meta-analyses Of Observational Studies in Epidemiology).

La Colaboración Cochrane tiene también una metodología muy bien estructurada y definida, que podéis consultar en su página web. Esta es la razón por la que tienen tanto prestigio dentro del mundo de las revisiones sistemáticas, por estar hechas por profesionales que se dedican a ello siguiendo una metodología contrastada y rigurosa. De todas formas, incluso las revisiones Cochrane deben leerse de forma crítica y no darles nada por asegurado.

Y con esto hemos llegado al final por hoy. Quiero insistir en que el metanálisis debe hacerse siempre que sea posible y nos interese, pero asegurándonos previamente de que es correcto combinar los resultados. Si los estudios son muy heterogéneos no deberemos combinar nada, ya que los resultados que podríamos obtener tendrían una validez muy comprometida. Hay toda una serie de métodos y estadísticos para medir la homogeneidad o heterogeneidad de los estudios primarios, que influyen también en la forma en que analizaremos los datos combinados. Pero esa es otra historia…

El dilema del vigilante

Print Friendly, PDF & Email

El mundo de la medicina es un mundo de incertidumbre. Nunca podemos estar seguros de nada al 100%, por muy evidente que parezca un diagnóstico, pero no podemos dar palos a diestro y siniestro con técnicas diagnósticas o tratamientos ultramodernos (y nunca inocuos) a la hora de tomar las decisiones que continuamente nos persiguen en nuestra práctica diaria.

Es por esto que siempre estamos inmersos en un mundo de probabilidades, donde las certezas son casi tan infrecuentes como el mal llamado sentido común que, como casi todo el mundo sabe, es el menos común de los sentidos.

Imaginemos que estamos en la consulta y acude un paciente que viene porque le han dado una patada en el culo, bastante fuerte, eso sí. Como buenos médicos que somos le preguntamos aquello de ¿qué le pasa?, ¿desde cuándo? y ¿a qué lo atribuye? Y procedemos a una exploración física completa, descubriendo con horror que tiene un hematoma en la nalga derecha.

Aquí, amigos míos, las posibilidades diagnósticas son numerosas, así que lo primero que vamos a hacer es un diagnóstico diferencial exhaustivo.  Para ello, podremos adoptar cuatro enfoques diferentes. El primero es el enfoque posibilista, que enumerará todos los posibles diagnósticos y tratará de descartar todos ellos de forma simultánea solicitando las pruebas diagnósticas pertinentes. El segundo es el enfoque probabilístico, que ordenará los diagnósticos según su probabilidad relativa y actuará en consecuencia. Parece un hematoma postraumático (el conocido como síndrome de la patada en el culo), pero alguien podría pensar que la patada no ha sido tan fuerte, así que igual el pobre paciente tiene algún trastorno de coagulación o una discrasia sanguínea con una trombopenia secundaria o, incluso, una enfermedad inflamatoria intestinal con manifestaciones extraintestinales atípicas y fragilidad vascular glútea. También podríamos utilizar un enfoque pronóstico y tratar de demostrar o descartar la existencia de los diagnósticos posibles con peor pronóstico, con lo que el diagnóstico de síndrome de la patada en el culo perdería interés y nos iríamos a descartar una leucemia crónica. Por último, podría utilizarse un enfoque pragmático, prestando especial interés en descartar primero aquellos diagnósticos que tienen un tratamiento más eficaz (volveríamos a la patada).

Parece que lo más correcto es utilizar una combinación juiciosa de los enfoques probabilístico, pronóstico y pragmático. En nuestro caso indagaríamos si la intensidad del traumatismo justifica la magnitud del hematoma y, en ese caso, indicaríamos unos paños calientes y nos abstendríamos de realizar más pruebas diagnósticas. Y este ejemplo parece un delirio mío, pero os puedo asegurar que conozco gente que hace la lista completa y tira de prueba diagnóstica ante cualquier sintomatología, sin reparar en gastos ni riesgos. Y, además, alguno que yo me sé pensaría en alguna otra posibilidad más exótica que no acabo de imaginar y aún el paciente tendría que estar agradecido si su diagnóstico no precisa de la realización de una esfinterotomía anal forzada. Y es que, como ya hemos comentado, la lista de espera para obtener un poco de sentido común supera en muchas ocasiones a la lista de espera quirúrgica.

Imaginad ahora otro paciente con un complejo sintomático menos estúpido y absurdo que el del ejemplo previo. Por ejemplo, un niño con síntomas de enfermedad celiaca. Antes de que realicemos ninguna prueba diagnóstica, nuestro paciente ya tiene una probabilidad de padecer la enfermedad. Esta probabilidad vendrá condicionada por la prevalencia de la enfermedad en la población de la que procede y es lo que se denomina probabilidad preprueba. Esta probabilidad se encontrará en algún punto en relación con dos umbrales que os muestro en la figura 1: el umbral de diagnóstico y el umbral terapéutico.

Lo habitual es que la probabilidad preprueba de nuestro paciente no nos permita ni descartar la enfermedad con una seguridad razonable (tendría que ser muy baja, por debajo del umbral diagnóstico) ni confirmarla con la seguridad suficiente como para iniciar el tratamiento (tendría que estar por encima del umbral terapéutico).

Realizaremos entonces la prueba que consideremos indicada, obteniendo una nueva probabilidad de enfermedad según el resultado que nos dé, la llamada probabilidad postprueba. Si esta probabilidad es tan alta como para realizar el diagnóstico e iniciar el tratamiento habremos cruzado el umbral terapéutico. Ya no hará falta realizar pruebas adicionales, ya que tendremos la certeza suficiente para asegurar el diagnóstico y tratar al paciente, siempre dentro de los rangos de incertidumbre de nuestro oficio.

¿Y de qué depende nuestro umbral de tratamiento? Pues hay varios factores implicados. Cuánto mayor riesgo, coste o efectos adversos tenga el tratamiento en cuestión, mayor será el umbral que exigiremos para tratar. Por otra parte, cuanta mayor gravedad comporte omitir el diagnóstico, menor será el umbral terapéutico que aceptaremos.

Pero puede ocurrir que la probabilidad postprueba sea tan baja que nos permita descartar la enfermedad con una seguridad razonable. Habremos cruzado entonces el umbral de diagnóstico, también llamado umbral negativo de prueba. Es evidente que, en esta situación, no estará indicado realizar más pruebas diagnósticas y, mucho menos, iniciar el tratamiento.

Sin embargo, en muchas ocasiones el cambio de probabilidad de preprueba a postprueba nos sigue dejando en tierra de nadie, sin alcanzar ninguno de los dos umbrales, por lo que nos veremos obligados a realizar pruebas adicionales hasta que alcancemos uno de los dos límites.

Y esta es nuestra necesidad de todos los días: conocer la probabilidad postprueba de nuestros pacientes para saber si descartamos o confirmamos el diagnóstico, si dejamos al paciente tranquilo o le fustigamos con nuestros tratamientos. Y es que el planteamiento simplista de que un paciente está enfermo si la prueba diagnóstica es positiva y sano si es negativa es totalmente erróneo, por más que sea la creencia generalizada entre aquellos que indican las pruebas. Tendremos que buscar, pues, algún parámetro que nos indique qué utilidad puede tener una prueba diagnóstica determinada para servir para el fin que necesitamos: saber la probabilidad de que el paciente tenga la enfermedad.

Y esto me recuerda el enorme problema que me consultó el otro día un cuñado. El pobre hombre está muy preocupado con un dilema que le ha surgido. Resulta que va a montar un pequeño comercio y quiere contratar un vigilante para ponerlo en la puerta y que detecte a los que se llevan algo sin pagar. Y el problema es que tiene dos candidatos y no sabe por cuál decidirse. Uno de ellos para a casi todo el mundo, con lo que no se le escapa ningún chorizo. Eso sí, mucha gente honrada se ofende cuando se le pide que abra el bolso antes de salir y lo mismo la próxima vez se va a comprar a otro sitio. El otro es todo lo contrario: no para a casi nadie pero, eso sí, si para a uno, seguro que lleva algo robado. Este ofende a pocos honrados, pero se le escapan demasiados chorizos. Difícil decisión…

¿Y por qué me viene a mí mi cuñado con este cuento? Pues porque sabe que yo me enfrento a diario con un dilema similar cada vez que tengo que elegir una prueba diagnóstica para saber si un paciente está enfermo y le tengo que tratar. Ya hemos dicho que el positivo de una prueba no nos asegura el diagnóstico, al igual que la pinta de chorizo no asegura que el pobre cliente nos haya robado.

Veámoslo con un ejemplo. Cuando queremos saber el valor de una prueba diagnóstica, habitualmente comparamos sus resultados con los de un patrón de referencia o patrón oro (el gold standard de los que saben inglés), que es una prueba que, idealmente, es siempre positiva en los enfermos y negativa en los sanos. Ahora supongamos que yo hago un estudio en mi consulta del hospital con una prueba diagnóstica nueva para detectar una determinada enfermedad y obtengo los resultados de la tabla adjunta (los enfermos son los que tienen la prueba de referencia positiva y los sanos, negativa).

Empecemos por lo fácil. Tenemos 1598 sujetos, 520 de ellos enfermos y 1078 sanos. La prueba nos da 446 positivos, 428 verdaderos (VP) y 18 falsos (FP). Además, nos da 1152 negativos, 1060 verdaderos (VN) y 92 falsos (FN). Lo primero que podemos determinar es la capacidad de la prueba para distinguir entre sanos y enfermos, lo que me da pie para introducir los dos primeros conceptos: sensibilidad (S) y especificidad (E). La S es la probabilidad de que la prueba clasifique correctamente a los enfermos o, dicho de otro modo, la probabilidad de que el enfermo sea positivo. Se calcula dividiendo los VP por el número de enfermos. En nuestro caso es de 0,82 (voy a emplear tantos por uno, pero si a alguien le gustan más los porcentajes ya sabe: a multiplicar por 100). Por otra parte, la E es la probabilidad de que se clasifique correctamente a los sanos o, dicho de otro modo, de que los sanos tengan un resultado negativo. Se calcula dividiendo los VN entre el número de sanos. En nuestro ejemplo, 0,98.

Alguien podrá pensar que ya tenemos medido el valor de la nueva prueba, pero no hemos hecho nada más que empezar. Y esto es así porque S y E nos miden de alguna manera la capacidad de la prueba para discriminar sanos de enfermos, pero nosotros lo que en realidad necesitamos saber es la probabilidad de que un positivo sea enfermo y de que un negativo sea sano y, aunque puedan parecer conceptos similares, en realidad son bien diferentes.

La posibilidad de que un positivo sea enfermo se conoce como valor predictivo positivo (VPP) y se calcula dividiendo el número de enfermos con prueba positiva entre el número total de positivos. En nuestro caso es de 0,96. Esto sí quiere decir que un positivo tiene un 96% de probabilidad de estar enfermo. Por otra parte, la probabilidad de que un negativo sea sano se expresa mediante el valor predictivo negativo (VPN), que es el cociente de sanos con resultado negativo entre el número total de negativos. En nuestro ejemplo vale 0,92 (un negativo tiene una probabilidad del 92% de estar sano). Esto ya se va pareciendo más a lo que dijimos al principio que necesitábamos: la probabilidad postprueba de que el paciente esté realmente enfermo.

Y ahora es cuando las neuronas empiezan a recalentarse. Resulta que S y E son dos características intrínsecas de la prueba diagnóstica. Los resultados serán los mismos siempre que hagamos la prueba en unas condiciones similares, con independencia de a quién se la hagamos. Pero esto no es así con los valores predictivos, que varían según la prevalencia de la enfermedad en la población en la que hacemos la prueba. Esto quiere decir que la probabilidad de que un positivo esté enfermo depende de lo frecuente o rara que sea la enfermedad en su población. Sí, sí, habéis leído bien: la misma prueba positiva expresa diferente riesgo de estar enfermo, y, para los incrédulos, os pongo otro ejemplo. Supongamos que esta misma prueba la hace un coleguilla mío en su consulta del Centro de Salud, donde la población es proporcionalmente más sana (esto es lógico, todavía no han pasado por el hospital). Si veis los resultados de la tabla, y os molestáis en calcular, veréis que obtiene una S de 0,82 y una E de 0,98, lo mismo que me salía a mí en mi consulta. Sin embargo, si calculáis los valores predictivos, veréis que el VPP es de 0,9 y el VPN de 0,95. Y esto es así porque las prevalencias de la enfermedad (enfermos/totales) son distintas en las dos poblaciones: 0,32 en mi consulta de hospital y 0,19 en la suya. O sea, que en los casos de prevalencia más alta un positivo ayuda más para confirmar la enfermedad y un negativo ayuda menos para descartarla. Y al revés, si la enfermedad es muy rara un negativo permitirá descartar la enfermedad con una seguridad razonable, pero un positivo nos ayudará mucho menos a la hora de confirmarla.

Vemos pues que, como pasa casi siempre en medicina, nos movemos en el poco firme terreno de las probabilidades, ya que todas (absolutamente todas) las pruebas diagnósticas son imperfectas y cometen errores a la hora de clasificar sanos y enfermos. Entonces, ¿cuándo merece la pena utilizar una prueba determinada? Pues si pensamos que un determinado sujeto tiene ya una probabilidad de estar enfermo antes de hacerle la prueba (la prevalencia de la enfermedad en su población), solo nos interesará utilizar pruebas que aumenten esa probabilidad lo suficiente como para justificar el inicio del tratamiento pertinente (en otro caso tendríamos que hacer otra prueba hasta alcanzar el nivel umbral de probabilidad que justifique el tratamiento).

Y aquí es donde el tema se empieza a poner antipático. El cociente de probabilidad positivo (CPP) o razón de verosimilitud positiva nos indica cuánto más probable es tener un positivo en un enfermo que en un sano. La proporción de positivos en los enfermos es la S. La proporción de los positivos en sanos son los FP, que serían aquellos sanos que no dan negativo o, lo que es lo mismo, 1-E. Así, el CPP = S / (1-E). En nuestro caso (del hospital) vale 41 (el mismo aunque utilicemos porcentajes para S y E). Esto puede interpretarse como que es 41 veces más probable encontrar un resultado positivo en un enfermo que en un sano.
Puede calcularse también el CPN (el negativo), que expresa cuánto más probable es encontrar un negativo en un enfermo que en un sano. Los enfermos negativos son aquellos que no dan positivo (1-S) y los sanos negativos son los VN (la E de la prueba). Luego el CPN = (1-S)/E. En nuestro ejemplo 0,18.

Un cociente de probabilidad igual a 1 indica que el resultado de la prueba no modifica la probabilidad de estar enfermo. Si es mayor que 1 aumenta esta probabilidad y, si es menor, la disminuye. Este parámetro es el que usamos para determinar la potencia diagnóstica de la prueba. Valores  >10 para CPP (o <0,1 pata CPN) indican que se trata de una prueba muy potente que apoya (o contradice) fuertemente el diagnóstico; de 5-10 (o de 0,1-0,2) indican poca potencia de la prueba para apoyar (o descartar) el diagnóstico; de 2-5 (o de 0,2-0,5) indican que la aportación de la prueba es dudosa; y, por último, de 1-2 (o de 0,5-1) indican que la prueba no tiene utilidad diagnóstica.

El cociente de probabilidad no expresa una probabilidad directa, pero nos sirve para calcular las probabilidades de ser enfermo antes y después de dar positivo en la prueba diagnóstica por medio de la regla de Bayes, que dice que la odds postprueba es igual al producto de la odds preprueba por el cociente de probabilidad. Para transformar la prevalencia en odds preprueba usamos la fórmula odds = p/(1-p). En nuestro caso valdría 0,47. Ahora ya podemos calcular la odds posprueba (OPos) multiplicando la preprueba por el cociente de probabilidad. En nuestro caso, la odds postprueba positiva vale 19,27. Y por último, transformamos la odds postprueba en probabilidad postprueba usando la fórmula p = odds/(odds+1). En nuestro ejemplo vale 0,95, lo que quiere decir que si nuestra prueba es positiva la probabilidad de estar enfermo pasa de 0,32 (la prevalencia o probabilidad preprueba) a 0,95 (probabilidad posprueba).

Si todavía queda alguien leyendo a estas alturas, le diré que no hace falta saberse todo este galimatías de fórmulas. Existen en Internet múltiples páginas con calculadoras para obtener todos estos parámetros a partir de la tabla 2×2 inicial con un esfuerzo miserable. Además, la probabilidad postprueba puede calcularse de forma sencilla utilizando el nomograma de Fagan (ver figura). Este gráfico representa en tres líneas verticales de izquierda a derecha la probabilidad preprueba (se representa invertida), el cociente de probabilidades y la probabilidad postprueba resultante.

Para calcular la probabilidad postprueba tras un resultado po­sitivo, trazamos una línea desde la prevalencia (probabilidad preprueba) hasta el CPP y la prolongamos hasta el eje de la probabilidad postprueba. De modo similar, para calcular la pro­babilidad postprueba tras un resultado negativo, prolongaría­mos la línea que une la prevalencia con el valor del CPN.

De esta manera, con esta herramienta podemos calcular de modo directo la probabilidad postprueba conociendo los co­cientes de probabilidades y la prevalencia. Además, podremos utilizarlo en poblaciones con distintas prevalencias, simple­mente modificando el origen de la línea en el eje de la proba­bilidad preprueba.

Hasta aquí ya hemos definido los parámetros que nos sirven para cuantificar la potencia de una prueba diagnóstica y hemos visto las limitaciones de sensibilidad, especificidad y valores predictivos y como los más útiles de forma general son los cocientes de probabilidades. Pero, os preguntaréis, ¿qué es bueno?, ¿qué sea sensible?, ¿Qué sea específica?, ¿las dos cosas?.

Aquí vamos a volver al dilema del vigilante que se le ha planteado a mi pobre cuñado, que le hemos dejado abandonado, porque todavía no hemos respondido cuál de los dos vigilantes le aconsejamos que contrate, el que para a casi todo el mundo para mirarle el bolso y ofende a mucha gente que no roba nada, o el que no para a casi nadie pero tampoco falla con el que para, aunque se escapen muchos ladrones.

¿Y cuál creéis que es mejor de los dos? La respuesta es muy sencilla: depende. Los que todavía estéis despiertos a estas alturas ya os habréis dado cuenta de que el primer vigilante (el que registra a muchos) es, sin ánimo de ofender, el sensible, mientras que el segundo es el específico. ¿Qué nos interesa más, que el vigilante sea sensible o específico? Pues depende, por ejemplo, de donde tengamos el comercio. Si lo hemos abierto en un barrio de gente bien, no nos interesará mucho el primero, ya que, en realidad, poca gente robará y nos interesa más no ofender a los clientes para que no se vayan. Pero si ponemos la tienda en frente de la Cueva de Alí-Babá sí que nos traerá más cuenta contratarle para que nos detecte el mayor número posible de clientes que se llevan género robado. Pero también puede depender de lo que vendamos en la tienda. Si tenemos un “todo a un euro” (o un “todo a cien” para los nostálgicos) podemos contratar al vigilante específico, aunque se nos escape alguno (total, perderemos poco dinero). Pero si vendemos joyería fina no querremos que se escape ningún ladrón y contrataremos al sensible (preferiremos que alguien inocente se moleste por ser registrado a que se nos escape uno con un diamante de los gordos).

Pues esto mismo ocurre en medicina con la elección de las pruebas diagnósticas: tendremos que decidir en cada caso si nos interesa más una sensible o una específica, porque no siempre las pruebas disponibles tienen un alto valor de estos dos parámetros.

En general, se prefiere una prueba sensible cuando los inconvenientes de obtener falsos positivos (FP) son menores que los de los falsos negativos (FN). Por ejemplo, supongamos que vamos a vacunar a un grupo de enfermos y sabemos que la vacuna es letal en los que tienen determinado error metabólico. Es claro que nos interesará que no se escape ningún enfermo sin diagnosticar (que no haya FN), aunque no pasa nada si a algún sano le etiquetamos de tener el error metabólico (un FP): será preferible no vacunar a un sano por pensar que tiene la metabolopatía (aunque no la tenga) que cargarnos a uno con la vacuna por pensar que no la tenía. Otro ejemplo menos dramático: en medio de una epidemia nos interesará una prueba muy sensible para poder aislar al mayor número posible de enfermos. El problema aquí es el de los desgraciados sanos positivos (FP) que meteríamos con los infectados, a los cuáles haríamos un flaco favor con la maniobra. Claro que bien podríamos hacer, a todos los positivos de la primera prueba, una segunda de confirmación que sea muy específica para evitar este calvario a los FP.

Por otra parte, se prefiere una prueba específica cuando es mejor tener FN que FP, como cuando queremos estar seguros de que un enfermo realmente lo está. Imaginemos que el resultado positivo de una prueba conlleva un tratamiento consistente en una operación quirúrgica: nos convendrá bastante estar seguros de que no vamos a operar a ningún sano.

Otro ejemplo es el de las enfermedades cuyo diagnóstico puede ser muy traumático para el paciente y que encima son prácticamente incurables o no tienen tratamiento. Aquí primaremos la especificidad para no darle un disgusto innecesario a ningún sano. Por el contrario, si la enfermedad es muy grave pero tiene tratamiento, probablemente prefiramos una prueba sensible.

Hasta aquí hemos hablado de pruebas con resultado dicotómico: positivo o negativo. Pero, ¿qué pasa cuando el resultado es cuantitativo? Imaginemos que medimos la glucemia en ayunas. Debemos decidir hasta qué valor de glucemia consideramos normal y por encima de cuál nos parecerá patológico. Y esta es una decisión crucial, porque S y E dependerán del punto de corte que elijamos.

Para ayudarnos a elegir disponemos de la curva de características operativas para el receptor, mundialmente conocida como curva ROC (receiver operating characteristic). Representamos en ordenadas (eje y) la S y en abscisas el complementario de la E (1-E) y trazamos una curva en la que cada punto de corte representa la probabilidad de que la prueba clasifique correctamente a una pareja sano-enfermo tomada al azar. La diagonal del gráfico representaría la “curva” si la prueba no tuviese capacidad ninguna de discriminar sanos de enfermos.

Como veis en la figura, la curva suele tener un segmento de gran pendiente donde aumenta rápidamente la S sin que apenas varíe la E: si nos desplazamos hacia arriba podemos aumentar la S sin que prácticamente nos aumenten los FP. Pero llega un momento en que llegamos a la parte plana. Si seguimos desplazándonos hacia la derecha llegará un punto a partir del cual la S ya no aumentará más, pero comenzarán a aumentar los FP. Si nos interesa una prueba sensible, nos quedaremos en la primera parte de la curva. Si queremos especificidad tendremos que irnos más hacia la derecha. Y, por último, si no tenemos predilección por ninguna de las dos (nos preocupa igual obtener FP que FN), el mejor punto de corte será el más próximo al ángulo superior izquierdo. Para esto, algunos utilizan el denominado índice de Youden, que es el que optimiza al máximo los dos parámetros y que se calcula sumando S y E y restando 1. Cuanto más alto, menos pacientes mal clasificados por la prueba diagnóstica.

Un parámetro de interés es el área bajo la curva (ABC), que nos representa la probabilidad de que la prueba diagnóstica clasifique correctamente al paciente al que se le practique (figura 4). Una prueba ideal con S y E del 100% tiene un área bajo la curva de 1: siempre acierta. En clínica, una prueba cuya curva ROC tenga un ABC > 0,9 se considera muy exacta, entre 0,7-0,9 de exactitud moderada y entre 0,5-0,7 de exactitud baja. En la diagonal el ABC es igual a 0,5 e indica que da igual hacer la prueba que tirar una moneda al aire para decidir si el paciente está enfermo o no. Valores por debajo de 0,5 indican que la prueba es incluso peor que el azar, ya que clasificará sistemáticamente a enfermos como sanos y viceversa.

Curiosas las curvas ROC, ¿verdad?. Pues su utilidad no se limita a la valoración de la bondad de las pruebas diagnósticas con resultado cuantitativo. Las curvas ROC sirven también para determinar la bondad del ajuste de un modelo de regresión logística para predecir resultados dicotómicos, pero esa es otra historia…

Rey de reyes

Print Friendly, PDF & Email

No cabe duda de que a la hora de realizar un trabajo de investigación en biomedicina podemos elegir entre un gran número de diseños posibles, todos ellos con sus ventajas e inconvenientes. Pero en esta corte tan diversa y poblada, entre malabaristas, sabios, jardineros y flautistas púrpuras, reina por encima de todos el verdadero Rey Carmesí de la epidemiología: el ensayo clínico aleatorizado.

El ensayo clínico es un estudio de intervención, analítico, de dirección anterógrada y temporalidad concurrente, con muestreo de cohorte cerrada con control de la exposición. En un ensayo se selecciona una muestra de una población y se divide al azar en dos grupos. Uno de los grupos (grupo de intervención) sufre la intervención que queremos estudiar, mientras que el otro (grupo de control) nos sirve de referencia para comparar los resultados. Tras un periodo de seguimiento determinado se analizan los resultados y se comparan las diferencias entre los dos grupos. Podemos así evaluar los beneficios de los tratamientos o intervenciones al mismo tiempo que controlamos los sesgos de otros tipos de estudios: la aleatorización favorece que los posibles factores de confusión, conocidos o no, se repartan de forma uniforme entre los dos grupos, de forma que si al final detectamos alguna diferencia, esta tiene que ser debida a la intervención en estudio. Esto es lo que nos permite establecer una relación causal entre exposición y efecto.

Por lo dicho hasta ahora, se comprende fácilmente que el ensayo clínico aleatorizado sea el diseño más adecuado para valorar la eficacia de cualquier intervención en medicina y es el que proporciona, como ya hemos comentado, una evidencia de mayor calidad para demostrar la relación de causalidad entre la intervención y los resultados observados.

Pero para disfrutar de todos estos beneficios es necesario ser escrupuloso en el planteamiento y metodología de los ensayos. Existen listas de verificación publicadas por sabios que entienden mucho de estos temas, como es el caso de la lista CONSORT, que nos pueden ayudar a valorar la calidad del diseño del ensayo. Pero entre todos estos aspectos, reflexionemos un poco sobre aquellos que son cruciales para la validez del ensayo clínico.

Todo empieza con una laguna de conocimiento que nos lleva a formular una pregunta clínica estructurada. El único objetivo del ensayo debe ser responder a esta pregunta y basta con que se responda de forma adecuada a una sola pregunta. Desconfiad de los ensayos clínicos que tratan de responder a muchas preguntas, ya que, en muchas ocasiones, al final no responden bien a ninguna. Además, el planteamiento debe basarse en lo que los inventores de jerga metodológica llaman el principio de incertidumbre (la equipoise de los que hablan inglés), que no quiere decir más que, en el fondo de nuestro corazón, desconocemos de verdad cuál de las dos intervenciones es más beneficiosa para el paciente (habría que ser un poco perro desde el punto de vista ético para realizar una comparación si ya sabemos con seguridad cuál de las dos intervenciones es mejor). Es curioso en este sentido cómo los ensayos patrocinados por la industria farmacéutica tienen más tendencia a incumplir el principio de incertidumbre, ya que tienen preferencia por comparar con placebo o con “no intervención” para poder demostrar con más facilidad la eficacia de sus productos.A continuación debemos elegir cuidadosamente la muestra sobre la que realizaremos el ensayo. Idealmente, todos los miembros de la población deberían tener la misma probabilidad no solo de ser elegidos, sino también de acabar en cualquiera de las dos ramas del ensayo. Aquí nos encontramos con un pequeño dilema. Si somos muy estrictos con los criterios de inclusión y exclusión la muestra será muy homogénea y la validez interna del estudio saldrá fortalecida, pero será más difícil extender los resultados a la población general (esta es la actitud explicativa de selección de la muestra). Por otra parte, si no somos tan rígidos los resultados se parecerán más a los de la población general, pero puede verse comprometida la validez interna del estudio (esta es la actitud pragmática).

La aleatorización (¿quién ha dicho randomización?) es uno de los puntos clave del ensayo clínico. Es la que nos asegura que podemos comparar los dos grupos, ya que tiende a distribuir por igual las variables conocidas y, más importante, también las desconocidas entre los dos grupos. Pero no nos relajemos demasiado: este reparto no está en absoluto garantizado, solo es más probable que ocurra si aleatorizamos de forma correcta, así que siempre deberemos comprobar la homogeneidad de los dos grupos, sobre todo con muestras pequeñas.

Además, la aleatorización nos permite realizar de forma adecuada el enmascaramiento, con lo que realizamos una medición no sesgada de la variable de respuesta, evitando los sesgos de información. Estos resultados del grupo de intervención los podemos comparar con los del grupo control de tres formas. Una de ellas es comparar con un placebo. El placebo debe ser un preparado de características físicas indistinguibles del fármaco de intervención pero sin sus efectos farmacológicos. Esto sirve para controlar el efecto placebo (que depende de la personalidad del paciente, de sus sentimientos hacia a la intervención, de su cariño por el equipo investigador, etc), pero también los efectos secundarios que son debidos a la intervención y no al efecto farmacológico (pensemos, por ejemplo, en el porcentaje de infecciones locales en un ensayo con medicación administrada por vía intramuscular).

La otra forma de comparar es con el tratamiento aceptado como más eficaz hasta el momento. Si existe un tratamiento que funciona, lo lógico (y más ético) es que lo usemos para investigar si el nuevo aporta beneficios. También suele ser el método de comparación habitual en los estudios de equivalencia o de no-inferioridad. Por último, la tercera posibilidad es comparar con la no intervención, aunque en realidad esto es una forma rebuscada de decir que solo se le aplican los cuidados habituales que recibiría cualquier paciente en su situación clínica.

Es imprescindible que todos los participantes en el ensayo sean sometidos a la misma pauta de seguimiento, que debe ser lo suficientemente prolongado como para permitir que se produzca la respuesta esperada. Deben detallarse y analizarse todas las pérdidas que se produzcan durante el seguimiento, ya que pueden comprometer la validez y la potencia del estudio para detectar diferencias significativas. ¿Y qué hacemos con los que se pierden o acaban en una rama diferente a la asignada?. Si son muchos, lo más razonable puede ser rechazar el estudio. Otra posibilidad es excluirlos y hacer como si no hubiesen existido nunca, pero podemos sesgar los resultados del ensayo. Una tercera posibilidad es incluirlos en el análisis en la rama del ensayo en la que han participado (siempre hay alguno que se confunde y se toma lo que no le toca), lo que se conoce como análisis por tratamiento o análisis por protocolo. Y la cuarta, y última opción que tenemos, es analizarlos en la rama que se les asignó inicialmente con independencia de lo que hayan hecho durante el estudio. Esto se denomina análisis por intención de tratar, y es la única de las cuatro posibilidades que nos permite conservar todos los beneficios que previamente nos había proporcionado la aleatorización.

Como fase final, nos quedaría el análisis y comparación de los datos para extraer las conclusiones del ensayo, utilizando para ello las medidas de asociación y medidas de impacto oportunas que, en el caso del ensayo clínico, suelen ser la tasa de respuesta, el riesgo relativo (RR), la reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT). Vamos a verlos con un ejemplo.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A para no calentarnos mucho la cabeza) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles. Podéis ver en la tabla adjunta cómo se calculan estas medidas.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la RRR y la RAR. La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,4, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el NNT = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo que también os muestro en la tabla. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado para meteros el vino barato y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Hasta ahora todo lo que hemos dicho hace referencia al diseño clásico de ensayo clínico en paralelo, pero el rey de los diseños tiene muchas caras y, con mucha frecuencia, podemos encontrar trabajos en los que se nos muestra de forma un poco diferente, lo que puede implicar que el análisis de los resultados tenga peculiaridades especiales.

Vamos a empezar con una de las variaciones más frecuentes. Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. Como podéis ver en la figura adjunta, en este tipo de ensayo cada sujeto es aleatorizado a un grupo, se le somete a la intervención, se deja pasar un periodo de lavado o blanqueo y se le somete a la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo? Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Acabo ya. La verdad es que esta entrada me ha quedado un poco larga (y espero que no demasiado coñazo), pero es que el Rey se lo merece. De todas formas, si pensáis que está todo dicho sobre ensayos clínicos no tenéis ni idea de todo lo que queda por decir sobre tipos de muestreos, de aleatorización, etc, etc, etc. Pero esa es otra historia…