Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasImportancia clínica
image_pdf

Los tres pilares de la sabiduría

Seguro que todos, con una frecuencia mayor de la que desearíamos, habremos encontrado alguna lagunilla en nuestro conocimiento que nos hacía dudar de los pasos a seguir en el diagnóstico o tratamiento de alguno de nuestros pacientes. Siguiendo la costumbre habitual, e intentando ahorrar esfuerzos, seguro que habremos preguntado a los colegas más cercanos, con la esperanza de que nos resolviesen el problema sin tener que acudir al temido PubMed (¡¿Quién ha dicho Google?!). Como último recurso hasta habremos consultado algún libro de medicina en un intento desesperado de obtener respuestas, pero ni los libros más gordos nos libran de tener que buscar en una base de datos de vez en cuando.

Y para hacerlo bien, convendrá que sigamos la sistemática de los cinco pasos que nos marca la Medicina Basada en la Evidencia: formular nuestra pregunta de forma estructurada (primer paso), hacer nuestra búsqueda bibliográfica (segundo paso) y leer críticamente los artículos que encontremos y que consideremos relevantes para el tema (tercer paso), para terminar con los dos últimos pasos que consistirán en combinar lo que hemos encontrado con nuestra experiencia y los valores del paciente (cuarto paso) y evaluar cómo influye en nuestro desempeño (quinto paso).

Así que nos arremangamos, elaboramos nuestra pregunta clínica estructurada y entramos en PubMed, Embase o TRIP, o la base de datos que nos interese para buscar respuestas. Tras no pocos sudores fríos conseguimos bajar el número inicial de resultados de 15234 y obtenemos el trabajo deseado que esperamos ilumine nuestra ignorancia. Pero, aunque la búsqueda haya sido impecable, ¿estamos seguros de que hemos encontrado lo que necesitamos? Comienza aquí la ardua tarea de realizar una lectura crítica del trabajo para valorar su capacidad real para solucionar nuestro problema.

Este paso, el tercero de los cinco que hemos visto y quizás el más temido de todos, es indispensable dentro del flujo metodológico de la Medicina Basada en la Evidencia. Y esto es así porque no es oro todo lo que reluce: incluso artículos publicados en revistas de prestigio por autores conocidos pueden tener una calidad deficiente, contener errores metodológicos, no tener nada que ver con nuestro problema o tener errores en la forma de analizar o presentar los resultados, muchas veces de manera sospechosamente interesada. Y no es porque lo diga yo, incluso hay quien piensa que el lugar más idóneo para guardar el 90% de lo que se publica es la papelera, sin importar si la revista es de alto impacto o si los autores son más famosos que Julio Iglesias (o su hijo Enrique, para el caso). Nuestra pobre excusa para justificar nuestro poco conocimiento sobre cómo elaborar y publicar trabajos científicos es que somos clínicos y no investigadores y, claro, lo mismo le ocurre muchas veces a los revisores de las revistas, que se tragan todos los gazapos que metemos los clínicos.

Así, pues, se entiende que la lectura crítica sea un paso fundamental para sacar el máximo provecho de la literatura científica, en especial en una era en la que abunda la información pero escasea el tiempo disponible para evaluarla.

Antes de entrar en la sistemática de la lectura, echaremos un vistazo por encima al documento y su resumen para tratar de ver si el artículo en cuestión puede cumplir nuestras expectativas. El primer paso que debemos realizar siempre es valorar si el trabajo contesta a nuestra pregunta. Esto suele ser así si hemos elaborado correctamente la pregunta clínica estructurada y hemos hecho una buena búsqueda de la evidencia disponible, pero de todos modos conviene siempre comprobar que el tipo de población, estudio, intervención, etc se ajustan a lo que buscamos.

Una vez que estamos convencidos de que es el trabajo que necesitamos, realizaremos la lectura crítica. Aunque los detalles dependerán del tipo de diseño del estudio, siempre nos apoyaremos en tres pilares básicos: validez, importancia y aplicabilidad.

La validez consiste en comprobar el rigor científico del trabajo para saber cuánto se aproxima a la verdad. Hay una serie de criterios comunes a todos los estudios, como son un diseño correcto, una población adecuada, la existencia de grupos de intervención y control homogéneos al comienzo del estudio, un seguimiento correcto, etc. A alguien se le ocurrió que esta validez debía llamarse mejor validez interna, así que podemos encontrarla también con este nombre.

El segundo pilar es la importancia, que mide la magnitud del efecto encontrado. Imaginemos el hipotensor de turno que con una p cargada de ceros es mejor que el de uso habitual, pero que disminuye la presión arterial una media de 5 mmHg. Por muchos ceros que tenga la p (que es estadísticamente significativa, eso no se lo quita nadie) no me negaréis que el impacto del efecto es más bien ridículo.

El último pilar es el de la aplicabilidad, que consiste en valorar si la situación, pacientes e intervención del estudio son lo suficientemente parecidos a nuestro ambiente como para generalizar los resultados. La aplicabilidad se conoce también como validez externa.

No todos los trabajos científicos pueden ser calificados de forma favorable en estos tres aspectos. Puede ocurrir que un trabajo muy válido (validez interna) que encuentre un efecto muy importante no sea aplicable en absoluto a nuestros pacientes. Además, no debemos olvidar que estamos hablando de una herramienta de trabajo. Aún con los trabajos más idóneos hay que tener siempre en cuenta los beneficios, daños y costes, así como las preferencias del paciente, aspecto este último del que nos olvidamos con más frecuencia de la que sería deseable.

Para facilitar la sistemática en el acto de la lectura crítica, existen diversas herramientas disponibles en Internet. Una de las más utilizadas son las plantillas o parrillas del grupo CASPe, más que recomendables para utilizar como guía al realizar una lectura crítica sin olvidar ningún aspecto importante. También en nuestro medio están disponibles las fichas de lectura crítica (FLC) de Osteba, que permiten almacenar los trabajos analizados. Y, para aquellos que les guste el inglés, pueden usar las herramientas escocesas de SIGN.

Lógicamente, las medidas específicas de impacto y asociación y los requisitos para cumplir los criterios de validez interna dependerán específicamente del tipo de diseño del estudio que tengamos entre manos. Pero esa es otra historia…

Teniendo la n grande, ¿quién necesita una p pequeña?

El culto a la p es una de las religiones más extendidas en Medicina. Sus creyentes buscan siempre los valores de p cuando leen un trabajo científico y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada de ceros.

Pero a este culto le ha surgido en los últimos tiempos un serio competidor: los adoradores de la n que, como todos sabemos, representa el tamaño de la muestra. Y es que con las herramientas de manejo de información de que se dispone en la actualidad es relativamente fácil hacer estudios con tamaños muestrales enormes. Muy bien, pensaréis, podemos combinar las dos creencias en una y venerar aquellos trabajos que, con tamaños de muestra enormes, consiguen valores de p minúsculos. El problema es que esto nos desvía de la que debería ser nuestra verdadera religión, que no debe ser otra que la valoración del tamaño del efecto observado y de su importancia clínica.

Cuando observamos una diferencia de efecto entre las dos ramas de un ensayo debemos preguntarnos si esa diferencia es real o es simplemente debida al azar. Lo que hacemos es establecer una hipótesis nula que dice que la diferencia se debe al azar y calculamos un estadístico que nos da el valor de probabilidad de que la diferencia sea debida, en efecto, al azar. Este es el valor de significación estadística, nuestra p. El valor de p solo indica eso: la probabilidad de que la diferencia se deba al azar. Habitualmente se toma por convenio el límite de 0,05, de forma que si p vale menos de ese valor se considera razonablemente improbable que la diferencia se deba al azar y consideramos que el efecto realmente existe.

El valor de p que podemos obtener depende de varios factores, como la dispersión de la variable que estemos midiendo, el tamaño del efecto y el tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los valores de p, manteniendo el resto de factores sin modificar, son más pequeños cuanto mayor sea el tamaño muestral.

Imaginemos que comparamos presión arterial media con dos fármacos en un ensayo clínico y tenemos una diferencia de medias entre los dos grupos de 5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser significativo (ser mayor de 0,05), pero es muy probable que esta misma diferencia sea significativa si en el ensayo participan 10000 pacientes. En efecto, en muchas ocasiones el alcanzar significación estadística puede ser solo cuestión de aumentar el tamaño de la muestra. Esto hace que con muestras muy grandes tengamos significación para tamaños de efecto muy pequeños. En nuestro ejemplo, un intervalo de confianza de diferencias de medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero, valor nulo para las diferencias de medias), aunque probablemente el efecto es insignificante desde el punto de vista clínico. La diferencia es real, aunque su importancia clínica puede ser inexistente.

En resumen, cualquier efecto, por insignificante que sea, puede llegar a ser estadísticamente significativo si la muestra es lo suficientemente grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.

El mínimo coeficiente de correlación que alcanzará una significación estadística (p<0,05) para un tamaño de muestra determinado valdrá, aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las fórmulas de cálculo del intervalo de confianza del 95% de R).

Esto quiere decir que si n=10, cualquier valor de R > 0,63 será estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable para establecer la correlación entre las dos variables, es posible que tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable dependiente se explica por los cambios en la independiente. Pero pensad un momento que pasaría si n=100000. Cualquier valor de R>0,006 será significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por muy significativa que sea, ya que será despreciable la cantidad de variabilidad de una de las variables que se pueda explicar por los cambios en la otra.

El problema que se plantea en la práctica es que es mucho más difícil definir los límites de la significación clínica que los de la estadística. Como regla general, un efecto es estadísticamente significativo cuando su intervalo de confianza no cruza el valor nulo. Por otra parte, será clínicamente relevante cuando algunos de los valores de dentro del intervalo sean considerados importantes por el investigador.

Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de terminar. He simplificado un poco el razonamiento de la relación entre la n y la p, exagerando un poco para demostrar que las muestras grandes pueden ser tan discriminativas que el valor de p pierde un poco su razón de ser. Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del tamaño del menor grupo analizado, así que cuando el efecto estudiado sea muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra historia…

El consuelo de no ser peor

Vivimos en un mundo frenético y altamente competitivo. Continuamente nos vemos inundados por mensajes sobre lo bueno que es ser el mejor en esto y en aquello. En lo que sea, en realidad. Pero la mayoría de nosotros nos damos cuenta pronto de que es imposible ser el mejor en todo lo que hacemos. Poco a poco, incluso, nos damos cuenta de que es muy difícil ser el mejor en algo, no ya en todo en general. Al final, más tarde o más temprano, el común de los mortales se conforma con, al menos, no ser de los peores en lo que hace.

Pero esto no es malo. No siempre se puede ser el mejor, ni falta que hace. Pensemos, por ejemplo, que tenemos un tratamiento estupendo para una enfermedad muy mala. Este tratamiento es eficaz, barato, fácil de usar y bien tolerado. ¿Tendremos interés en cambiarlo por otro?. Probablemente no. Pero pensemos ahora, por ejemplo, que produce una aplasia medular irreversible en el 3% de los que lo toman. En este caso sí que querríamos buscar otro tratamiento mejor.

¿Mejor?. Bueno, no realmente mejor. Con que fuese igual en todo pero no produjese aplasia, ya cambiaríamos al nuevo fármaco.

El planteamiento más habitual de los ensayos clínicos es el de demostrar la superioridad de una intervención frente al placebo o el tratamiento habitual. Pero, cada vez más, se realizan ensayos cuyo único objetivo es demostrar que el nuevo tratamiento es equivalente al actual. La planificación de estos ensayos de equivalencia debe ser cuidadosa y prestar atención a una serie de aspectos.

En primer lugar, no existe la equivalencia desde el punto de vista absoluto, por lo que hay que extremar las precauciones para mantener la igualdad de condiciones en las dos ramas de intervención del ensayo. Además, hay que establecer previamente el nivel de sensibilidad que vamos a necesitar en el estudio. Para ello, primero definimos el margen de equivalencia, que será la máxima diferencia entre las dos intervenciones que se considerará aceptable desde el punto de vista clínico. Segundo, calcularemos el tamaño muestral necesario para poder discriminar esta diferencia desde el punto de vista de significación estadístico.

Es importante comprender que el margen de equivalencia lo marca el investigador basándose en la importancia clínica de lo que se esté valorando. Cuánto más estrecho sea este margen, mayor deberá ser el tamaño de la muestra para poder alcanzar significación estadística y rechazar la hipótesis nula de que las diferencias que observemos se deban al azar. En contra de lo que pueda parecer a primera vista, los estudios de equivalencia suelen necesitar muestras más grandes que los estudios de superioridad.

Una vez obtenidos los resultados, analizaremos los intervalos de confianza de las diferencias de efecto entre las dos intervenciones. Solo aquellos intervalos que no crucen la línea de efecto nulo (uno para riesgos relativos y odds ratio y cero para diferencias de medias) serán estadísticamente significativos. Si, además, caen completamente dentro del margen de equivalencia previamente definido, se considerarán equivalentes con la probabilidad de error elegida para el intervalo de confianza, habitualmente el 5%. Si el intervalo queda fuera del margen de equivalencia, las intervenciones se considerarán no equivalentes. En el caso de que cruce alguno de los límites del margen de equivalencia, el estudio no será concluyente en cuanto a demostrar o rechazar la equivalencia de las dos intervenciones, aunque habrá que valorar la amplitud y distribución del intervalo respecto al margen de equivalencia para valorar su posible importancia desde el punto de vista clínico. En ocasiones, resultados sin significación estadística o que caen fuera de los límites del margen de equivalencia pueden también proporcionar información clínica útil.

equivalenciaVeamos el ejemplo de la figura para entender mejor lo que hemos dicho hasta ahora. Tenemos los intervalos de nueve estudios representados con su posición respecto a la línea de efecto nulo y los límites del margen de equivalencia. Solo los estudios A, B, D, G y H muestran una diferencia estadísticamente significativa, porque son los que no cruzan la línea de efecto nulo. La intervención del estudio A es superior, mientras que la del estudio H se demuestra inferior. Sin embargo, solo en el caso del estudio D puede concluirse la equivalencia de las dos intervenciones, mientras que son inconcluyentes, en lo que respecta a equivalencia, los estudios B y G.

En el caso del estudio E puede concluirse también la equivalencia de las dos intervenciones. Fijaos que, aunque la diferencia obtenida en el D es estadísticamente significativa, sigue sin superar los límites del margen de equivalencia: es superior al estudio E desde el punto de vista estadístico, pero parece que esta diferencia no tiene relevancia clínica.

Además de en  los estudios B y G ya comentados, en los estudios C, F e I, no puede concluirse si son o no equivalentes. Sin embargo, el C probablemente no sea inferior y el F podría sea inferior. Podría, incluso, estimarse la probabilidad de estas suposiciones según el área que ocupan los intervalos de confianza respecto a los márgenes de equivalencia.

Un aspecto importante de los estudios de equivalencia es el método de análisis de resultados empleado. Sabemos que el análisis por intención de tratar es siempre preferible al de análisis por protocolo, ya que mantiene las ventajas de la aleatorización respecto a otras variables conocidas o desconocidas que puedan influir en los resultados. El problema es que el análisis por intención de tratar va a favor de la hipótesis nula, minimizando las diferencias, si existen. Esto es una ventaja en los estudios de superioridad: si encontramos diferencia, refuerza el hallazgo. Sin embargo, en los estudios de equivalencia no nos interesa tanto este aspecto. Por su parte, el análisis por protocolo tendería a aumentar cualquier diferencia, pero esto no siempre es así y puede variar según la causa de las violaciones de protocolo o, dicho más sencillo, las causas que hayan motivado las pérdidas o equivocaciones de asignación de tratamiento en las dos ramas de intervención. Lo que se suele aconsejar es realizar el análisis de las dos formas y pedir que, en ambas, las intervenciones se muestren equivalentes. Habrá, además, que tener muy en cuenta las pérdidas durante el estudio y analizar la información de los casos en los que no se cumpla el protocolo.

Un caso particular de este tipo de ensayos es el de no inferioridad. En este caso, los investigadores se conforman con demostrar que la nueva intervención no es peor que la de comparación. Vale todo lo que hemos dicho para los de equivalencia, pero considerando solo el límite inferior del margen de equivalencia.

Una última cosa. Los estudios de superioridad son para demostrar superioridad y los de equivalencia son para demostrar equivalencia. El diseño de un objetivo no suele servir para demostrar el otro. Además, el que un estudio de superioridad fracase en demostrarla no quiere decir exactamente que las dos intervenciones sean equivalentes.

Hemos llegado al final sin haber hablado nada de otros estudios de equivalencia característicos: los estudios de bioequivalencia. Estos son ensayos de fase I realizados por las casas farmacéuticas para comprobar la equivalencia de diferentes presentaciones de un mismo fármaco y tienen algunas peculiaridades de diseño. Pero esa es otra historia…