Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasImpacto
image_pdf

Los tres pilares de la sabiduría

Seguro que todos, con una frecuencia mayor de la que desearíamos, habremos encontrado alguna lagunilla en nuestro conocimiento que nos hacía dudar de los pasos a seguir en el diagnóstico o tratamiento de alguno de nuestros pacientes. Siguiendo la costumbre habitual, e intentando ahorrar esfuerzos, seguro que habremos preguntado a los colegas más cercanos, con la esperanza de que nos resolviesen el problema sin tener que acudir al temido PubMed (¡¿Quién ha dicho Google?!). Como último recurso hasta habremos consultado algún libro de medicina en un intento desesperado de obtener respuestas, pero ni los libros más gordos nos libran de tener que buscar en una base de datos de vez en cuando.

Y para hacerlo bien, convendrá que sigamos la sistemática de los cinco pasos que nos marca la Medicina Basada en la Evidencia: formular nuestra pregunta de forma estructurada (primer paso), hacer nuestra búsqueda bibliográfica (segundo paso) y leer críticamente los artículos que encontremos y que consideremos relevantes para el tema (tercer paso), para terminar con los dos últimos pasos que consistirán en combinar lo que hemos encontrado con nuestra experiencia y los valores del paciente (cuarto paso) y evaluar cómo influye en nuestro desempeño (quinto paso).

Así que nos arremangamos, elaboramos nuestra pregunta clínica estructurada y entramos en PubMed, Embase o TRIP, o la base de datos que nos interese para buscar respuestas. Tras no pocos sudores fríos conseguimos bajar el número inicial de resultados de 15234 y obtenemos el trabajo deseado que esperamos ilumine nuestra ignorancia. Pero, aunque la búsqueda haya sido impecable, ¿estamos seguros de que hemos encontrado lo que necesitamos? Comienza aquí la ardua tarea de realizar una lectura crítica del trabajo para valorar su capacidad real para solucionar nuestro problema.

Este paso, el tercero de los cinco que hemos visto y quizás el más temido de todos, es indispensable dentro del flujo metodológico de la Medicina Basada en la Evidencia. Y esto es así porque no es oro todo lo que reluce: incluso artículos publicados en revistas de prestigio por autores conocidos pueden tener una calidad deficiente, contener errores metodológicos, no tener nada que ver con nuestro problema o tener errores en la forma de analizar o presentar los resultados, muchas veces de manera sospechosamente interesada. Y no es porque lo diga yo, incluso hay quien piensa que el lugar más idóneo para guardar el 90% de lo que se publica es la papelera, sin importar si la revista es de alto impacto o si los autores son más famosos que Julio Iglesias (o su hijo Enrique, para el caso). Nuestra pobre excusa para justificar nuestro poco conocimiento sobre cómo elaborar y publicar trabajos científicos es que somos clínicos y no investigadores y, claro, lo mismo le ocurre muchas veces a los revisores de las revistas, que se tragan todos los gazapos que metemos los clínicos.

Así, pues, se entiende que la lectura crítica sea un paso fundamental para sacar el máximo provecho de la literatura científica, en especial en una era en la que abunda la información pero escasea el tiempo disponible para evaluarla.

Antes de entrar en la sistemática de la lectura, echaremos un vistazo por encima al documento y su resumen para tratar de ver si el artículo en cuestión puede cumplir nuestras expectativas. El primer paso que debemos realizar siempre es valorar si el trabajo contesta a nuestra pregunta. Esto suele ser así si hemos elaborado correctamente la pregunta clínica estructurada y hemos hecho una buena búsqueda de la evidencia disponible, pero de todos modos conviene siempre comprobar que el tipo de población, estudio, intervención, etc se ajustan a lo que buscamos.

Una vez que estamos convencidos de que es el trabajo que necesitamos, realizaremos la lectura crítica. Aunque los detalles dependerán del tipo de diseño del estudio, siempre nos apoyaremos en tres pilares básicos: validez, importancia y aplicabilidad.

La validez consiste en comprobar el rigor científico del trabajo para saber cuánto se aproxima a la verdad. Hay una serie de criterios comunes a todos los estudios, como son un diseño correcto, una población adecuada, la existencia de grupos de intervención y control homogéneos al comienzo del estudio, un seguimiento correcto, etc. A alguien se le ocurrió que esta validez debía llamarse mejor validez interna, así que podemos encontrarla también con este nombre.

El segundo pilar es la importancia, que mide la magnitud del efecto encontrado. Imaginemos el hipotensor de turno que con una p cargada de ceros es mejor que el de uso habitual, pero que disminuye la presión arterial una media de 5 mmHg. Por muchos ceros que tenga la p (que es estadísticamente significativa, eso no se lo quita nadie) no me negaréis que el impacto del efecto es más bien ridículo.

El último pilar es el de la aplicabilidad, que consiste en valorar si la situación, pacientes e intervención del estudio son lo suficientemente parecidos a nuestro ambiente como para generalizar los resultados. La aplicabilidad se conoce también como validez externa.

No todos los trabajos científicos pueden ser calificados de forma favorable en estos tres aspectos. Puede ocurrir que un trabajo muy válido (validez interna) que encuentre un efecto muy importante no sea aplicable en absoluto a nuestros pacientes. Además, no debemos olvidar que estamos hablando de una herramienta de trabajo. Aún con los trabajos más idóneos hay que tener siempre en cuenta los beneficios, daños y costes, así como las preferencias del paciente, aspecto este último del que nos olvidamos con más frecuencia de la que sería deseable.

Para facilitar la sistemática en el acto de la lectura crítica, existen diversas herramientas disponibles en Internet. Una de las más utilizadas son las plantillas o parrillas del grupo CASPe, más que recomendables para utilizar como guía al realizar una lectura crítica sin olvidar ningún aspecto importante. También en nuestro medio están disponibles las fichas de lectura crítica (FLC) de Osteba, que permiten almacenar los trabajos analizados. Y, para aquellos que les guste el inglés, pueden usar las herramientas escocesas de SIGN.

Lógicamente, las medidas específicas de impacto y asociación y los requisitos para cumplir los criterios de validez interna dependerán específicamente del tipo de diseño del estudio que tengamos entre manos. Pero esa es otra historia…

El rey a examen

Todos sabemos que el ensayo clínico aleatorizado es el rey de los diseños metodológicos de intervención. Es el tipo de estudio epidemiológico que permite un mejor control de los errores sistemáticos o sesgos, ya que el investigador controla las variables del estudio y los participantes son asignados al azar entre las intervenciones que se comparan. Se entiende entonces que el ensayo clínico, bien de forma directa o como parte de un metaanálisis, constituya la prueba de mejor calidad científica para apoyar (o no) la eficacia de una intervención y que sea el diseño preferente de los estudios científicos sobre tratamiento.

Claro que esto no quiere decir que cuando veamos que un artículo nos cuenta un ensayo clínico nos podamos relajar y darlo por bueno. El ensayo clínico puede también contener sus trampas y argucias, por lo que, como con cualquier otro tipo de trabajo, será buena práctica realizar una lectura crítica del mismo, basándonos en nuestros tres pilares: validez, importancia y aplicabilidad.

Como siempre, a la hora de estudiar el rigor científico o VALIDEZ, nos fijaremos primero en una serie de criterios primarios imprescindibles. Si estos no se cumplen, mejor no perder el tiempo con el trabajo y buscar otro más provechoso.

¿Existe un pregunta clínica claramente definida?. Se debe plantear una hipótesis de trabajo con sus correspondientes hipótesis nula y alternativa, a ser posible sobre un tema relevante desde el punto de vista clínico. Es preferible que el estudio trate de responder solo a una pregunta. Cuando se quiere responder a varias suele complicarse el estudio en exceso para acabar no contestando ninguna de forma completa y adecuada.

¿Se realizó la asignación de forma aleatoria?. Para poder afirmar que las diferencias entre los grupos se deben a la intervención es necesario que sean homogéneos. Esto se consigue asignando los pacientes al azar, única forma de controlar las variables confusoras conocidas y, más importante, también las que desconocemos. Si los grupos fueran distintos y atribuyésemos la diferencia únicamente a la intervención podríamos incurrir en un sesgo de confusión. El ensayo debe contener una tabla con la frecuencia de aparición de las variables demográficas y de confusión de ambas muestras para estar seguros de que los grupos son homogéneos. Un error frecuente es buscar las diferencias entre los dos grupos y valorarlas según su p, cuando sabemos que la p no mide homogeneidad. Si los hemos repartido al azar, cualquier diferencia que observemos se deberá obligatoriamente al azar (no necesitaremos una p para saberlo). El tamaño muestral no está pensado para discriminar entre las variables demográficas, por lo que una p no significativa puede indicar simplemente que la muestra es pequeña para verla. Por otro lado, cualquier mínima diferencia puede alcanzar significación estadística si la muestra es lo suficientemente grande. Así que olvidaos de la p: si hay alguna diferencia, lo que hay que hacer es valorar si tiene la relevancia clínica suficiente como para poder haber influido en los resultados.

Hay que considerar también si la secuencia de aleatorización se hizo de forma correcta. El método utilizado debe garantizar que todos los componentes de la población seleccionada tengan la misma probabilidad de ser elegidos, por lo que se prefieren las tablas de números aleatorios o secuencias generadas por ordenador. Y aquí pasa algo muy curioso: resulta que es bien conocido que la aleatorización produce muestras de diferente tamaño, sobre todo si las muestras son pequeñas, motivo por el que a veces se usan muestras aleatorizadas por bloques balanceados en tamaño. Y yo os pregunto, ¿cuántos estudios habéis leído con el mismo número de participantes en las dos ramas y que afirmaban ser aleatorizados?. Desconfiad si veis grupos iguales, sobre todo si son pequeños. Además, la aleatorización debe ser oculta, de forma que no se pueda saber a qué grupo va a pertenecer el siguiente participante. Por eso se prefieren los sistemas centralizados vía telefónica o a través de Internet.

También es importante que el seguimiento haya sido completo, de forma que todo participante que entre en el estudio tiene que ser tenido en cuenta al finalizar. Si las pérdidas superan el 20%, se admite que hay que valorar su efecto en los resultados. Lo más habitual suele ser el llamado escenario del peor de los casos: se supone que todas las pérdidas del grupo control han ido bien y todas las del grupo de intervención han ido mal y se repite el análisis para comprobar si las conclusiones se modifican, en cuyo caso la validez del estudio quedaría seriamente comprometida. El último aspecto importante es considerar si los pacientes que no han recibido el tratamiento previamente asignado (siempre hay alguno que no se entera y mete la pata) se han analizado según la intención de tratamiento, ya que es la única forma de preservar todos los beneficios que se obtienen con la aleatorización.

Una vez comprobados estos criterios primarios, nos fijaremos en tres criterios secundarios que influyen en la validez interna. Habrá que comprobar que los grupos fueran similares al inicio del estudio (ya hemos hablado de la tabla con los datos de los dos grupos), que se llevó a cabo el enmascaramiento de forma adecuada como forma de control de sesgos y que los dos grupos fueron manejados y controlados de forma similar a excepción, claro está, de la intervención en estudio.

Pasaremos a continuación a considerar cuáles son los resultados del estudio para calibrar su IMPORTANCIA clínica. Habrá que determinar las variables medidas para ver si el trabajo expresa de forma adecuada la magnitud y la precisión de los resultados. Es importante, una vez más, no conformarnos con que nos inunden con múltiples p llenas de ceros. Recordad que la p solo nos indica la probabilidad de que estemos dando como buenas diferencias que solo existen por azar (o, dicho con elegancia, de cometer un error de tipo 1), pero que significación estadística no tiene porqué ser sinónimo de relevancia clínica.

En el caso de variables continuas como tiempo de supervivencia, peso, tensión arterial, etc, lo habitual será expresar la magnitud de los resultados como diferencia de medias o de medianas, dependiendo de cuál sea la medida de centralización más adecuada. Sin embargo, en casos de variables dicotómicas (vivo o muerto, sano o enfermo, etc) se utilizarán el riesgo relativo, su reducción relativa y absoluta y el número necesario a tratar (NNT). De todas ellas, la que mejor expresa la eficiencia clínica es siempre el NNT. Cualquier trabajo digno de nuestra atención debe proporcionar estos datos o, en su defecto, la información necesaria para que podamos calcularlos.

Pero para permitir conocer una estimación más real de los resultados en la población necesitamos saber la precisión del estudio, y nada más fácil que recurrir a los intervalos de confianza. Estos intervalos, además de la precisión, nos informan también de la significación estadística. Será estadísticamente significativo si el intervalo del riesgo relativo no incluye el uno y el del NNT el cero. En el caso de que los autores no nos los proporcionen, podemos utilizar una calculadora para obtenerlos, como las disponibles en la web de CASPe.

Para finalizar la lectura crítica de un trabajo de tratamiento valoraremos su APLICABILIDAD, para lo cual nos tendremos que preguntar si los resultados pueden generalizarse a nuestros pacientes o, dicho de otro modo, si existe alguna diferencia entre nuestros pacientes y los del estudio que impida la generalización de los resultados. Hay que tener en cuenta en este sentido que cuánto más estrictos sean los criterios de inclusión de un estudio, más difícil será generalizar sus resultados, comprometiéndose así su validez externa.

Pero, además, debemos considerar si se han tenido en cuenta todos los resultados clínicamente importantes, incluyendo efectos secundarios e indeseables. La variable de resultado medida debe ser importante para el médico y para el paciente. No hay que olvidar que el hecho de que demostrar que la intervención sea eficaz no significa obligatoriamente que sea beneficiosa para nuestros pacientes. Habrá que valorar también los efectos nocivos o molestos y estudiar el balance beneficios-costes-riesgos, así como las dificultades que puedan existir para aplicar el tratamiento en nuestro medio, las preferencias del paciente, etc.

            Para terminar, recomendaros que utilicéis alguna de las herramientas disponibles para lectura crítica, como las plantillas CASPe, o una lista de verificación, como la CONSORT, para no dejaros ninguno de estos puntos sin considerar. Eso sí, todo lo que hemos hablado se refiere a ensayos clínicos aleatorizados y controlados, ¿Y qué pasa si se trata de ensayos no aleatorizados o de otra clase de estudios cuasiexperimentales?. Pues para eso se siguen otra serie de normas, como pueden ser las de la declaración TREND. Pero esa es otra historia…