Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado por elLectura crítica Categora
image_pdfimage_print

Poco ruido y muchas nueces

Sí, ya sé que el refrán dice justo lo contrario. Pero es que ese es precisamente el problema que tenemos con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirnos a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no? Pues a veces sí y a veces no. Como cuando leemos cualquier tipo de trabajo de literatura médica, siempre debemos hacer una lectura crítica de lo que tenemos delante y no confiar únicamente en el buen saber hacer de sus autores.

Las revisiones, de las que ya sabemos que hay dos tipos, tienen también sus limitaciones, que debemos saber valorar. La forma más sencilla de revisión, nuestra preferida cuando somos más jóvenes e ignorantes, es la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema. En estas podremos hacer poca lectura crítica, ya que no hay una sistematización precisa de cómo hay que elaborar estos resúmenes, así que tendremos que confiar en aspectos poco confiables como el prestigio del autor o el impacto de la revista donde se publica.

Según van aumentando nuestros conocimientos sobre los aspectos generales de los temas, nuestro interés va derivando hacia otro tipo de revisiones que nos proporcionan información más específica sobre aspectos que escapan a nuestro cada vez más amplio saber. Este otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son lo suficientemente homogéneos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. Con estas revisiones sí que podemos hacer una lectura crítica siguiendo una metodología ordenada y preestablecida, de forma similar a como hacemos con otros tipos de estudios.

El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica que podéis consultar en los manuales disponibles en su página web. Pero, si queréis mi consejo, no os fieis ni de la Cochrane y haced una lectura crítica cuidadosa incluso si la revisión la han hecho ellos, no dándola por buena simplemente por su origen. Como dice uno de mis maestros en estas lides (seguro que sonríe si lee estas líneas), hay vida más allá de la Cochrane. Y, además, mucha y buena, añadiría yo.

Aunque las RS y los metanálisis imponen un poco al principio, no os preocupéis, se pueden valorar críticamente de una forma sencilla teniendo en cuenta los principales aspectos de su metodología. Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que respondan correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión? Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que la revisión trate de responder solo a una pregunta, ya que si pretende responder a varias se corre el riesgo de que no responda adecuadamente a ninguna de ellas. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Aunque lo más habitual es encontrar RS  de ensayos clínicos, pueden hacerse de otros tipos de estudios observacionales, de pruebas diagnósticas, etc. Los autores de la revisión deben especificar los criterios de inclusión y exclusión de los trabajos, además de considerar sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si la respuesta a las dos preguntas anteriores es afirmativa, pasaremos a considerar los criterios secundarios y dejaremos el paseo del perro para más tarde. ¿Se han incluido los estudios importantes que tienen que ver con el tema? Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Para esto los autores pueden servirse de una herramienta diseñada ad hoc o, más habitualmente, recurrir a una que ya esté reconocida y validada, como la herramienta de detección de sesgo de la Colaboración Cochrane, en el caso de revisiones de ensayos clínicos. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo según los aspectos más importantes de la metodología del diseño (ensayos clínicos en este caso).

Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación de los estudios primarios de la revisión. Por último, debe quedar registrado el grado de concordancia entre los dos revisores y qué hacían si no se ponían de acuerdo (lo más habitual suele ser recurrir a un tercero, que seguramente será el jefe de los dos).

Para finalizar el apartado de validez interna o metodológica, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes con un metanálisis, debemos preguntarnos si era razonable combinar los resultados de los estudios primarios. Es fundamental, para poder sacar conclusiones de datos combinados, que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

Resumiendo, los aspectos fundamentales que tendremos que analizar para valorar la validez de una RS serán: 1) que los objetivos de la revisión estén bien definidos en términos de población, intervención y medición del resultado; 2) que la búsqueda bibliográfica haya sido exhaustiva; 3) que hayan sido adecuados los criterios de inclusión y exclusión de estudios primarios en la revisión; y 4) que se haya comprobado también la validez interna o metodológica de los estudios incluidos. Además, si la RS incluye un metanálisis, revisaremos los aspectos metodológicos que ya vimos en una entrada anterior: conveniencia de combinar los estudios para realizar una síntesis cuantitativa, evaluación adecuada de la heterogeneidad de los estudios primarios y utilización de un modelo matemático adecuado para combinar los resultados de los estudios primarios (ya sabéis, aquello de los modelos de efecto fijo y de efectos aleatorios).

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población. Como veis, la forma de valorar la importancia de los resultados es prácticamente la misma que la de valorar la importancia de los resultados de los estudios primarios. En este caso ponemos ejemplos de ensayos clínicos, que es el tipo de estudio que veremos más frecuentemente, pero recordad que puede haber otros tipos de estudios que pueden expresar mejor la importancia de sus resultados con otros parámetros. Eso sí, los intervalos de confianza siempre nos ayudarán a valorar la precisión de los resultados.

Los resultados de los metanálisis se suelen representar de una manera estandarizada, recurriendo habitualmente al llamado diagrama de efectos, mucho más famoso por su nombre en inglés: forest plot. Se dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Si queréis una explicación más detallada sobre los elementos que componen un forest plot, podéis acudir a la entrada anterior en la que lo explicábamos o a los manuales en línea de la Colaboración Cochrane.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados a nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe, que son las que hemos utilizado para todo lo que hemos dicho hasta ahora.

La declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) consta de 27 ítems, clasificados en 7 secciones que hacen referencia a los apartados de título, resumen, introducción, métodos, resultados, discusión y financiación:

  1. Título: debe identificarse como RS, metanálisis o ambos. Si se especifica, además, que trata sobre ensayos clínicos, se priorizará sobre otros tipos de revisiones.
  2. Resumen: debe ser un resumen estructurado que debe incluir antecedentes, objetivos, fuentes de datos, criterios de inclusión, limitaciones, conclusiones e implicaciones. Debe constar también el número de registro de la revisión.
  3. Introducción: incluye dos ítems, la justificación del trabajo (qué se sabe, controversias, etc) y los objetivos (qué pregunta trata de responder en términos PICO de la pregunta clínica estructurada).
  4. Métodos. Es la sección con mayor número de ítems (12):

– Protocolo y registro: indicar el número de registro y su disponibilidad.

– Criterios de elegibilidad: justificación de las características de los estudios y los criterios de búsqueda empleados.

– Fuentes de información: describir las fuentes utilizadas y la última fecha de búsqueda.

– Búsqueda: estrategia completa de búsqueda electrónica, para que pueda ser reproducible.

– Selección de estudios: especificar el proceso de selección y los criterios de inclusión y exclusión.

– Proceso de extracción de datos: describir los métodos empleados para la extracción de los datos de los estudios primarios.

– Lista de datos: definir las variables empleadas.

– Riesgo de sesgo en los estudios primarios: describir el método utilizado y cómo se ha empleado en la síntesis de los resultados.

– Medidas de resumen: especificar las principales medidas de resumen empleadas.

– Síntesis de resultados: describir los métodos empleados para combinar los resultados.

– Riesgo de sesgo entre los estudios: describir sesgos que puedan afectar la evidencia acumulativa, como el sesgo de publicación.

– Análisis adicionales: si se hacen métodos adicionales (sensibilidad, metarregresión, etc) especificar cuáles fueron preespecificados.

  1. Resultados. Incluye 7 ítems:

– Selección de estudios: se expresa mediante un diagrama de flujo que valora el número de registros en cada etapa (identificación, cribado, elegibilidad e inclusión).

– Características de los estudios: presentar las características de los estudios de los que se extrajeron datos y sus citas bibliográficas.

– Riesgo de sesgo en los estudios: comunicar los riesgos en cada estudio y cualquier evaluación que se haga sobre el sesgo en los resultados.

– Resultados de los estudios individuales: datos de estudio para cada estudio o grupo de intervención y estimación del efecto con su intervalo de confianza. Lo ideal es acompañarlo de un forest plot.

– Síntesis de los resultados: presentar los resultados de todos los MA realizados con los intervalos de confianza y las medidas de consistencia.

– Riesgo de sesgo entre los sujetos: presentar cualquier evaluación que se haga del riesgo de sesgo entre los estudios.

– Análisis adicionales: si se han realizado, facilitar los resultados de los mismos.

  1. Discusión. Trata 3 ítems:

– Resumen de la evidencia: resumir los hallazgos principales con la fuerza de la evidencia de cada resultado principal y la relevancia desde el punto de vista clínico o de los grupos de interés principales (proveedores de cuidados, usuarios, decisores de salud, etc).

– Limitaciones: discutir las limitaciones de los resultados, de los estudios y de la revisión.

– Conclusiones: interpretación general de los resultados en contexto con otras evidencias y sus implicaciones para la futura investigación.

  1. Financiación: describir las fuentes de financiación y el papel que tuvieron en la realización de la RS.

Como tercera opción a estas dos herramientas, podéis utilizar también el ya mencionado manual de la Cochrane (Cochrane Handbook for Systematic Reviews of Interventions), disponible en su página web y cuya finalidad es ayudar a los autores de las revisiones Cochrane a trabajar de forma explícita y sistemática.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte, por lo que ya le dedicamos en su momento dos entradas para él solo que podéis consultar cuando queráis. Pero esa es otra historia…

¿Es grave, doctor?

Me pregunto cuántas veces habré escuchado esta pregunta o alguna de sus muchas variantes. Porque resulta que siempre estamos pensando en ensayos clínicos y en preguntas sobre diagnóstico y tratamiento, pero pensad si algún paciente os preguntó alguna vez si el tratamiento que le proponíais estaba refrendado por un ensayo clínico aleatorizado y controlado que cumple los criterios de la declaración CONSORT y tiene una buena puntuación en la escala de Jadad. A mí, al menos, no me ha pasado nunca. Pero sí que a diario me preguntan qué les va a ocurrir en el futuro.

Y de aquí deriva la importancia de los estudios sobre pronóstico. Tened en cuenta que no siempre se puede curar y que, por desgracia, muchas veces lo único que podemos hacer es acompañar y aliviar lo que podamos ante el anuncio de graves secuelas o de la muerte. Pero para esto es fundamental disponer de información de buena calidad sobre el futuro de la enfermedad de nuestro paciente. Esta información nos servirá también para calibrar los esfuerzos terapéuticos en cada situación en función de los riesgos y los beneficios. Y, además, los estudios sobre pronóstico sirven para comparar resultados entre servicios u hospitales diferentes. A nadie se le ocurre decir que un hospital es peor que otro porque su mortalidad es mayor sin comprobar antes que el pronóstico de sus pacientes sea semejante.

Antes de meternos con la lectura crítica de los artículos sobre pronóstico aclaremos la diferencia entre factor de riesgo y factor pronóstico. El factor de riesgo es una característica del ambiente o del sujeto que favorece el desarrollo de la enfermedad, mientras que el factor pronóstico es aquél que, una vez que se produce la enfermedad, influye sobre su evolución. Factor de riesgo y factor pronóstico son cosas diferentes, aunque a veces pueden coincidir. Lo que sí comparten los dos es el mismo diseño de tipo de estudio. Lo ideal sería utilizar ensayos clínicos, pero la mayor parte de las veces no podemos o no es ético aleatorizar los factores pronóstico o de riesgo. Pensemos que queremos demostrar el efecto deletéreo del alcohol sobre el hígado. La forma con mayor grado de evidencia de demostrarlo sería hacer dos grupos de participantes al azar y a uno hacerles beber 10 whiskies al día y al otro darles agua, para ver las diferencias en el daño hepático al cabo de, por ejemplo, un año. Sin embargo, a nadie se le escapa que no podemos hacer un ensayo clínico como este. No porque no podamos encontrar sujetos para la rama de intervención, sino porque la ética y el sentido común nos lo impiden.

Por este motivo lo habitual es que se usen estudios de cohortes: estudiaríamos qué diferencias a nivel del hígado puede haber entre individuos que beben y que no beben por elección propia. En los casos que precisan seguimientos muy largos o en los que el efecto que queremos medir es muy raro se pueden usar estudios de casos y controles, pero siempre serán menos potentes por tener más riesgo de sesgo. Siguiendo nuestro etílico ejemplo, estudiaríamos personas con y sin daño hepático y veríamos si alguno de los dos grupos estaba expuesto al alcohol.

Un estudio de pronóstico nos debe informar de tres aspectos: qué resultado queremos valorar, qué probabilidad hay de que suceda y en qué periodo de tiempo esperamos que pase. Y para valorarlo, como siempre, nos asentaremos sobre nuestros tres pilares: validez, importancia y aplicabilidad.

Para valorar la VALIDEZ tendremos primero en cuenta si cumple una serie de criterios primarios o de eliminación. Si la respuesta es no, tirad el artículo y mirad a ver qué chorrada nueva han escrito vuestros amigos en Facebook.

¿Está bien definida la muestra de estudio y es representativa de pacientes en un momento similar de la enfermedad? La muestra, que se suele denominar cohorte incipiente o cohorte de inicio, debe estar formada por un grupo amplio de pacientes en el mismo momento de la enfermedad, idealmente al inicio, y que se sigue de forma prospectiva. Debe estar bien especificado el tipo de pacientes incluidos, los criterios para diagnosticarlos y el método de selección. Además, debemos comprobar que el seguimiento haya sido lo suficientemente largo y completo como para observar el evento que estudiamos. Cada participante debe seguirse desde el inicio hasta que sale del estudio, ya sea porque se cure, porque presenta el evento o porque el estudio se acaba. Es muy importante tener en cuenta las pérdidas durante el estudio, muy habituales en diseños con seguimiento largo. El estudio debe proporcionar las características de los pacientes perdidos y los motivos para la pérdida. Si son similares a los que no se pierden, probablemente los resultados sean válidos. Si las pérdidas son de más de un 20% se suele hacer un análisis de sensibilidad utilizando el escenario de “el peor de los casos”: consideramos que todas las pérdidas han tenido mal pronóstico y recalculamos los resultados para ver si se modifican, en cuyo caso quedaría invalidado el estudio.

Una vez vistos estos dos aspectos, pasamos a los criterios secundarios de validez interna o rigor científico.

¿Se han medido los resultados de forma objetiva y no sesgada? Debe especificarse con claridad qué se va a medir y cómo antes de iniciar el estudio. Además, lo ideal es que la medición de los resultados se haga de forma ciega para el experimentador, que debe desconocer si el sujeto en cuestión está sometido a alguno de los factores pronósticos para evitar el sesgo de información. Si se está estudiando el riesgo de un determinado fármaco para producir fibrosis pulmonar, cuando valoremos la radiografía de un paciente conviene que no sepamos si toma el fármaco o no. Si los hallazgos son dudosos el saber que lo toma nos inclinará a diagnosticar el hallazgo positivamente o a magnificar más su intensidad.

¿Se han ajustado los resultados según todos los valores pronósticos relevantes? Hay que tener en cuenta todas las variables confusoras y los factores pronósticos que puedan influir en los resultados. En el caso de que se conozcan por estudios previos pueden tenerse en cuenta los factores conocidos. En caso contrario, los autores determinarán los efectos mediante análisis estratificado de los datos (el método más sencillo) o mediante el análisis multivariante (más potente y complejo), habitualmente mediante un modelo de riesgos proporcionales o de regresión de Cox. Aunque no vamos a entrar ahora en los modelos de regresión, sí que hay dos cosas sencillas que podemos tener en cuenta. La primera, estos modelos necesitan de un número determinado de eventos por cada variable incluida en el modelo, así que desconfiad cuando se analicen muchas variables, sobre todo con muestras pequeñas. La segunda, las variables las decide el autor y son diferentes de un trabajo a otro, por lo que tendremos que valorar si no se ha incluido alguna que pueda ser relevante para el resultado final.

¿Se han validado los resultados en otros grupos de pacientes? Cuando hacemos grupos de variables y empezamos a comparar unos con otros corremos el riesgo de que el azar nos juegue una mala pasada y nos muestre asociaciones que realmente no existen. Por eso, cuando se describe un factor de riesgo en un grupo (grupo de entrenamiento o derivación), conviene replicar los resultados en un grupo independiente (grupo de validación) para estar seguros de la relación.

A continuación, debemos fijarnos en cuáles son los resultados para determinar su IMPORTANCIA. Para esto comprobaremos si se proporciona la estimación de la probabilidad de que suceda el desenlace de estudio, la precisión de esta estimación y el riesgo asociado a los factores que modifican el pronóstico.

¿Se especifica la probabilidad del suceso en un periodo de tiempo determinado? Hay varias formas de presentar el número de sucesos que se producen durante el periodo de seguimiento. La más sencilla sería dar una tasa de incidencia (sucesos/persona/unidad de tiempo) o la frecuencia acumulada en un momento dado. Otra forma es dar la mediana de supervivencia, que no es más que el momento del seguimiento en el cuál el suceso se ha producido en la mitad de la cohorte (recordad que aunque hablemos de supervivencia, el suceso no tiene que ser obligatoriamente la muerte).

Para determinar la probabilidad de que se produzca el suceso en cada periodo y el ritmo al cual se va presentando pueden utilizarse curvas de supervivencia de varios tipos. Las tablas actuariales o de vida se utilizan para muestras grandes, cuando no sabemos el momento exacto del evento y con periodos de tiempo fijos. Sin embargo, probablemente nos encontremos con más frecuencia con las curvas de Kaplan-Meier, que miden mejor la probabilidad del suceso para cada momento concreto con muestras más pequeñas. Con este método se pueden proporcionar los cocientes de riesgos instantáneos en cada momento (las hazard ratios) y la mediana de supervivencia, además de otros parámetros según el modelo de regresión utilizado.

Para valorar la precisión de los resultados buscaremos, como siempre, los intervalos de confianza. Cuanto mayor sea el intervalo, menos precisa será la estimación de la probabilidad del suceso en la población general, que es lo que realmente nos interesa saber. Hay que tener en cuenta que el número de pacientes suele ser menor según pasa el tiempo, por lo que es habitual que las curvas de supervivencia sean más precisas al comienzo que al final del seguimiento. Por último, valoraremos cuáles son los factores que modifican el pronóstico. Lo correcto es representar todas las variables que puedan influir sobre el pronóstico con sus correspondientes medidas de asociación, que serán los que nos permitan evaluar la importancia clínica de esa asociación.

Por último, tendremos que considerar la APLICABILIDAD de los resultados. ¿Son aplicables a mis pacientes? Buscaremos las similitudes entre los pacientes del estudio y los nuestros y evaluaremos si las diferencias que encontremos nos permiten extrapolar los resultados a nuestra práctica. Pero además, ¿son útiles los resultados? El que sean aplicables no quiere decir que tengamos que ponerlos en práctica obligatoriamente, sino que tendremos que valorar cuidadosamente si nos van a ayudar a decidir qué tratamiento aplicar o a cómo informar a nuestro paciente o a sus familiares.

Como siempre, os recomiendo que uséis alguna plantilla, como las que proporciona CASPe, para realizar la lectura crítica de forma sistemática y no dejar ningún aspecto importante sin valorar.

Ya veis que los trabajos sobre pronóstico tienen mucha miga. Y eso que no hemos comentado prácticamente nada sobre modelos de regresión y curvas de supervivencia, que muchas veces son el núcleo del estudio estadístico de este tipo de trabajos. Pero esa es otra historia…

Hay que saber lo que se pide

A diario encontramos artículos que nos muestran nuevas pruebas diagnósticas que parecen haber sido diseñadas para solucionar todos nuestros problemas. Pero no debemos caer en la tentación de hacer caso a todo lo que leamos sin recapacitar antes un poco en lo que hemos leído. Al fin y al cabo, si hiciésemos caso a todo lo que leemos estaríamos hinchados de Coca-Cola.

Ya sabemos que una prueba diagnóstica no nos va a decir si una persona está o no enferma. Su resultado únicamente nos permitirá aumentar o disminuir la probabilidad de que el individuo esté enfermo o no, de forma que nosotros nos atreveremos a confirmar o descartar el diagnóstico, pero siempre con cierto grado de incertidumbre.

Cualquiera tiene cierto riesgo de padecer cualquier enfermedad, que no es más que la prevalencia de la enfermedad en la población general. Por debajo de cierto nivel de probabilidad, nos parece tan poco probable que el paciente esté enfermo que le dejamos tranquilos y no le hacemos ninguna prueba diagnóstica (aunque a algunos les cueste mucho refrenar el impulso de pedir siempre algo). Este es el umbral de prueba o diagnóstico.

Pero si, además de pertenecer a la población, uno tiene la desgracia de tener síntomas, esa probabilidad irá aumentando hasta superar este umbral en el que la probabilidad de presentar la enfermedad justifica realizar pruebas diagnósticas. Una vez que tengamos el resultado de la prueba que hayamos elegido, la probabilidad (probabilidad postprueba) habrá cambiado. Puede que haya cambiado a menos y se haya situado por debajo del umbral de prueba, con lo que descartamos el diagnóstico y volvemos a dejar al paciente tranquilo. También puede que supere otro umbral, el terapéutico, a partir del cual la probabilidad de la enfermedad alcanza el nivel suficiente como para no necesitar más pruebas y poder iniciar el tratamiento.

La utilidad de la prueba diagnóstica estará en su capacidad para disminuir la probabilidad por debajo del umbral de prueba (y descartar el diagnóstico) o, por el contrario, en aumentarla hasta el umbral en el que se justifique iniciar el tratamiento. Claro que a veces la prueba nos deja a medio camino y tenemos que hacer pruebas adicionales antes de confirmar el diagnóstico con la seguridad suficiente como para comenzar el tratamiento.

Los estudios de pruebas diagnósticas deben proporcionarnos información sobre la capacidad de una prueba para producir los mismos resultados cuando se realiza en condiciones similares (fiabilidad) y sobre la exactitud con la que las mediciones reflejan aquello que miden (validez). Pero, además, deben darnos datos sobre su capacidad discriminatoria (sensibilidad y especificidad), su rendimiento clínico (valor predictivo positivo y valor predictivo negativo), su capacidad de modificar la probabilidad de enfermedad y cambiar nuestra posición entre los dos umbrales (cocientes de probabilidad o verosimilitud), y sobre otros aspectos que nos permitan valorar si nos va a merecer la pena practicarla en nuestros pacientes. Y para comprobar si un estudio nos proporciona la información adecuada tenemos que hacer una lectura crítica basada en nuestros tres pilares: validez, importancia y aplicabilidad.

Comencemos por la VALIDEZ. Lo primero será hacernos unas preguntas básicas de eliminación o criterios primarios sobre el estudio. Si la respuesta  a estas preguntas es no, probablemente lo mejor que podamos hacer es usar el artículo para envolver el bocadillo de media mañana.

¿Se ha comparado la prueba diagnóstica de forma ciega e independiente con un patrón de referencia adecuado? Hay que revisar que el resultado de la prueba de referencia no se interprete de forma diferente según el resultado de la prueba de estudio, ya que caeríamos en un sesgo de incorporación, que podría invalidar los resultados. Otro problema que puede surgir es que el patrón de referencia tenga muchos resultados poco concluyentes. Si cometemos el error de excluir estos casos dudosos incurriremos en un sesgo de exclusión de indeterminados que, además de sobrestimar la sensibilidad y la especificidad de la prueba, comprometería la validez externa del estudio, que solo sería aplicable a los pacientes con resultado no dudoso.

¿Los pacientes abarcan un espectro similar al que nos vamos a encontrar en nuestra práctica? Deben estar claros los criterios de inclusión del estudio, en el que deben participar sanos y enfermos con distinta gravedad o evolución de la enfermedad. Como es bien sabido, la prevalencia influye en el rendimiento clínico de la prueba, con lo que si la validamos, por ejemplo, en un centro terciario (estadísticamente la probabilidad de estar enfermo será mayor) puede sobrestimarse su capacidad diagnóstica si va a utilizarse en un centro de Atención Primaria o en población general (en el que la proporción de enfermos será menor). Esto puede parecer difícil de comprender, pero si lo pensamos dos veces veréis que no lo es tanto: cuánto más prevalente sea la enfermedad, más probable es que un positivo de la prueba sea verdadero, aunque sea de casualidad. El mérito es tener más verdaderos en poblaciones con prevalencia baja.

Llegados a este punto, si creemos que merece la pena seguir leyendo, pasaremos a los criterios secundarios, que son aquellos que aportan un valor añadido al diseño del estudio. Otra pregunta que debemos hacernos es: ¿influyeron los resultados de la prueba de estudio para decidir si se hacía la de referencia?. Hay que comprobar que no se haya producido un sesgo de secuencia o sesgo de verificación diagnóstica, mediante el cual excluimos a los que tienen la prueba negativa. Aunque esto es habitual en la práctica corriente (empezamos por pruebas sencillas y solo hacemos las caras o las invasoras en los casos positivos), el hacerlo en un estudio de pruebas diagnósticas compromete la validez de los resultados. Ambas pruebas deben hacerse de forma independiente y ciega, de forma que la subjetividad del observador no influya en los resultados (sesgo de revisión o sesgo de valoración ciega). Por último, ¿se describe el método con el detalle suficiente para permitir su reproducción?. Debe quedar claro qué se ha considerado normal y anormal y cuáles han sido los criterios para definir la normalidad y la forma de interpretar los resultados de la prueba.

Una vez analizada la validez interna del estudio pasaremos a considerar la IMPORTANCIA de los datos presentados. Como ya hemos comentado, el objetivo de un estudio de diagnóstico es determinar la capacidad de una prueba para clasificar correctamente a los individuos según la presencia o ausencia de enfermedad. En realidad, y para ser más exactos, queremos saber cómo varía la probabilidad de estar enfermo tras el resultado de la prueba (probabilidad postprueba). Es, por tanto, esencial que el estudio nos informe acerca de la dirección y magnitud de este cambio (preprueba/postprueba), que sabemos depende de las características de la prueba y, en gran medida, de la prevalencia o probabilidad preprueba.

¿Nos presenta el trabajo las razones de verosimilitud o es posible calcularlas a partir de los datos? Este dato es fundamental, ya que sin él no podemos calcular el impacto clínico de la prueba de estudio. Hay que tener especial precaución con las pruebas de resultado cuantitativo en las que es el investigador el que establece un punto de corte de normalidad. Cuando se utilizan curvas ROC es frecuente desplazar el punto de corte para favorecer la sensibilidad o la especificidad de la prueba, pero tenemos que valorar siempre cómo afecta esta medida a la validez externa del estudio, ya que puede limitar su aplicabilidad a un grupo determinado de pacientes.

¿Son fiables los resultados? Habrá que determinar si los resultados son reproducibles y cómo pueden verse afectados por variaciones entre diferentes observadores o al repetir la prueba de forma sucesiva. Pero no solo hay que valorar la fiabilidad, sino también cuán precisos son los resultados. El estudio se hace sobre una muestra de pacientes, pero debe proporcionar una estimación de sus valores en la población, por lo que los resultados deben expresarse con sus correspondientes intervalos de confianza.

El tercer pilar de la lectura crítica es el de la APLICABILIDAD o validez externa, que nos ayudará a determinar si los resultados son útiles para nuestros pacientes. En este sentido, debemos hacernos tres preguntas. ¿Disponemos de esta prueba y es factible realizarla en nuestros pacientes?. Si no disponemos de la prueba lo único que habremos conseguido leyendo el estudio es aumentar nuestros vastos conocimientos. Pero si disponemos de ella debemos preguntarnos si nuestros pacientes cumplirían los criterios de inclusión y exclusión del estudio y, en caso de que no los cumplan, pensar cómo pueden afectar estas diferencias la aplicabilidad de la prueba.

La segunda pregunta es si conocemos la probabilidad preprueba de nuestros pacientes. Si nuestra prevalencia es muy diferente de la del estudio se puede modificar la utilidad real de la prueba. Una solución puede ser hacer un análisis de sensibilidad valorando cómo se modificarían los resultados del estudio estudiando varios valores de probabilidad pre y postprueba que sean clínicamente razonables. Para esto podemos ayudarnos de una herramienta muy útil, en nomograma de Fagan. Este nomograma permite calcular de forma fácil la probabilidad postprueba para diferentes prevalencias (probabilidad prepueba), siempre que conzozcamos con cocientes de verosimilitud de la prueba diagnóstica.

Por último, deberíamos hacernos la pregunta más importante: ¿la probabilidad postprueba puede hacer cambiar nuestra actitud terapéutica y servir de ayuda para el paciente? Por ejemplo, si la probabilidad preprueba es muy baja, probablemente la probabilidad postprueba sea también muy baja y no alcanzará el umbral de justificación terapéutica, con lo que igual no merece la pena gastar dinero y esfuerzos con esa prueba. Por el contrario, si la probabilidad preprueba es muy alta, en algunos casos merecerá la pena tratar sin hacer ninguna prueba, salvo que el tratamiento sea muy costoso o peligroso. Como siempre, en el medio estará la virtud y será en esas zonas intermedias donde más nos podamos beneficiar del uso de la prueba diagnóstica en cuestión. En cualquier caso, no nos olvidemos nunca de nuestro jefe (me refiero al paciente, no al otro): no hay que contentarse solo con estudiar la eficacia o el coste-efectividad, sino que debemos considerar también los riesgos, molestias y preferencias del paciente, así como las consecuencias que le puede acarrear la realización o no de la prueba diagnóstica.

Si me permitís un consejo, cuando estéis valorando un trabajo sobre pruebas diagnósticas os recomiendo el uso de las plantillas CASPe, que podéis descargaros de su página web. Os ayudarán a hacer la lectura crítica de una manera sistemática y sencilla.

Una aclaración para ir acabando: no debemos confundir los estudios de pruebas diagnósticas con los de reglas de predicción diagnóstica. Aunque la valoración es parecida, las reglas de predicción tienen unas características específicas y unos requerimientos metodológicos que deben valorarse de una forma adecuada y que veremos en otra entrada.

Para terminar, comentaros que todo lo dicho hasta ahora vale para los trabajos específicos de pruebas diagnósticas. Sin embargo, la valoración de pruebas diagnósticas puede formar parte de estudios observacionales como los de cohortes o los de casos y controles, que pueden tener alguna peculiaridad en la secuencia de realización y en los criterios de validación de la prueba de estudio y del patrón de referencia, pero esa es otra historia…

El rey a examen

Todos sabemos que el ensayo clínico aleatorizado es el rey de los diseños metodológicos de intervención. Es el tipo de estudio epidemiológico que permite un mejor control de los errores sistemáticos o sesgos, ya que el investigador controla las variables del estudio y los participantes son asignados al azar entre las intervenciones que se comparan.

De esta forma, si dos grupos homogéneos que difieren solo en la intervención presentan alguna diferencia de interés durante el seguimiento, podremos afirmar con cierta confianza que esta diferencia se debe a la intervención, lo único que no tienen en común los dos grupos. Por este motivo, el ensayo clínico es el diseño preferente para responder a preguntas clínicas sobre intervención o tratamiento, aunque siempre tendremos que ser prudentes con la evidencia generada por un solo ensayo clínico, por muy bien realizado que esté. Cuando realizamos una revisión sistemática sobre ensayos clínicos aleatorizados sobre la misma intervención y los combinamos en un metanálisis, las respuestas que obtenemos tendrán más fiabilidad que las obtenidas de un solo estudio. Por eso hay quien afirma que el diseño ideal para responder preguntas de tratamiento no es el ensayo clínico, sino el metanálisis de ensayos clínicos.

En cualquier caso, como las revisiones sistemáticas valoran sus estudios primarios de forma individual y como lo más habitual es que encontremos ensayos individuales y no revisiones sistemáticas, conviene saber hacer una buena lectura crítica para poder sacar conclusiones. En efecto, no podemos relajarnos cuando veamos que un artículo nos cuenta un ensayo clínico y darlo por bueno. El ensayo clínico puede también contener sus trampas y argucias, por lo que, como con cualquier otro tipo de trabajo, será buena práctica realizar la lectura crítica del mismo, basándonos en nuestros tres pilares habituales: validez, importancia y aplicabilidad.

Como siempre, a la hora de estudiar el rigor científico o VALIDEZ (validez interna), nos fijaremos primero en una serie de criterios primarios imprescindibles. Si estos no se cumplen, mejor no perder el tiempo con el trabajo y buscar otro más provechoso.

¿Existe una pregunta clínica claramente definida? En su origen, el ensayo debe estar diseñado para responder a una pregunta clínica estructurada sobre tratamiento, motivada por una de nuestras múltiples lagunas de conocimiento. Se debe plantear una hipótesis de trabajo con sus correspondientes hipótesis nula y alternativa, a ser posible sobre un tema relevante desde el punto de vista clínico. Es preferible que el estudio trate de responder solo a una pregunta. Cuando se quiere responder a varias suele complicarse el estudio en exceso para acabar no contestando ninguna de forma completa y adecuada.

¿Se realizó la asignación de forma aleatoria? Como ya hemos dicho, para poder afirmar que las diferencias entre los grupos se deben a la intervención es necesario que sean homogéneos. Esto se consigue asignando los pacientes al azar, única forma de controlar las variables confusoras conocidas y, más importante, también las que desconocemos. Si los grupos fueran distintos y atribuyésemos la diferencia únicamente a la intervención podríamos incurrir en un sesgo de confusión. El ensayo debe contener la habitual e imprescindible tabla 1 con la frecuencia de aparición de las variables demográficas y de confusión de ambas muestras para estar seguros de que los grupos son homogéneos. Un error frecuente es buscar las diferencias entre los dos grupos y valorarlas según su p, cuando sabemos que la p no mide homogeneidad. Si los hemos repartido al azar, cualquier diferencia que observemos se deberá obligatoriamente al azar (no necesitaremos una p para saberlo). El tamaño muestral no está pensado para discriminar entre las variables demográficas, por lo que una p no significativa puede indicar simplemente que la muestra es pequeña para verla. Por otro lado, cualquier mínima diferencia puede alcanzar significación estadística si la muestra es lo suficientemente grande. Así que olvidaos de la p: si hay alguna diferencia, lo que hay que hacer es valorar si tiene la relevancia clínica suficiente como para poder haber influido en los resultados o, dicho de forma más elegante, tendremos que controlar las covariables no equilibradas durante la aleatorización. Afortunadamente, cada vez es más raro encontrar las tablas de los grupos de estudio con las p de comparación entre los grupos de intervención y control.

Pero no basta con que el estudio esté aleatorizado (aprovecho para decir que randomizado es un barbarismo que no existe en lengua castellana), sino que hay que considerar también si la secuencia de aleatorización se hizo de forma correcta. El método utilizado debe garantizar que todos los componentes de la población seleccionada tengan la misma probabilidad de ser elegidos, por lo que se prefieren las tablas de números aleatorios o secuencias generadas por ordenador. La aleatorización debe ser oculta, de forma que no se pueda saber a qué grupo va a pertenecer el siguiente participante. Por eso gustan tanto los sistemas centralizados vía telefónica o a través de Internet. Y aquí pasa algo muy curioso: resulta que es bien conocido que la aleatorización produce muestras de diferente tamaño, sobre todo si las muestras son pequeñas, motivo por el que a veces se usan muestras aleatorizadas por bloques balanceados en tamaño. Y yo os pregunto, ¿cuántos estudios habéis leído con el mismo número de participantes en las dos ramas y que afirmaban ser aleatorizados? Desconfiad si veis grupos iguales, sobre todo si son pequeños, y no os dejéis engañar: siempre podéis utilizar una de las múltiples calculadoras de probabilidad binomial disponibles en la Red para saber cuál es la probabilidad de que el azar genere los grupos que los autores os presentan (hablamos siempre de aleatorización simple, no por bloques, conglomerados, minimización u otras técnicas). Os sorprenderá lo que encontraréis.

También es importante que el seguimiento haya sido lo suficientemente largo y completo, de forma que el estudio dure lo suficiente para poder observar la variable de resultado y que todo participante que entre en el estudio sea tenido en cuenta al finalizar. Como regla de andar por casa, si las pérdidas superan el 20%, se admite que la validez interna del estudio puede estar comprometida.

Siempre tendremos que analizar la naturaleza de las pérdidas durante el seguimiento, sobre todo si estas son elevadas. Hay que tratar de dilucidar si las pérdidas son aleatorias o si están en relación con alguna variable concreta (lo cual sería mal asunto) y estimar qué efecto han podido tener en los resultados del ensayo. Lo más habitual suele ser adoptar el llamado escenario del peor de los casos: se supone que todas las pérdidas del grupo control han ido bien y todas las del grupo de intervención han ido mal y se repite el análisis para comprobar si las conclusiones se modifican, en cuyo caso la validez del estudio quedaría seriamente comprometida. El último aspecto importante es considerar si los pacientes que no han recibido el tratamiento previamente asignado (siempre hay alguno que no se entera y mete la pata) se han analizado según la intención de tratamiento, ya que es la única forma de preservar todos los beneficios que se obtienen con la aleatorización. Todo aquello que ocurra después de la aleatorización (como un cambio del grupo de asignación) puede influir en la probabilidad de que el sujeto experimente el efecto que estemos estudiando, por lo que es importante respetar este análisis por intención de tratar y analizar cada uno en el grupo en el que se asignó inicialmente.

Una vez comprobados estos criterios primarios, nos fijaremos en tres criterios secundarios que influyen en la validez interna. Habrá que comprobar que los grupos fueran similares al inicio del estudio (ya hemos hablado de la tabla con los datos de los dos grupos), que se llevó a cabo el enmascaramiento de forma adecuada como forma de control de sesgos y que los dos grupos fueron manejados y controlados de forma similar a excepción, claro está, de la intervención en estudio. Sabemos que el enmascaramiento o cegamiento permite minimizar el riesgo de sesgos de información, por lo que lo habitual es que los investigadores y los participantes desconozcan a qué grupo está asignado cada uno, lo que se conoce como doble ciego. En ocasiones, dada la naturaleza de la intervención (pensemos un grupo que se opera y otro no) será imposible enmascarar a investigadores y participantes, pero siempre podremos darle los datos enmascarados a la persona que realice el análisis de los resultados (el llamado evaluador ciego), con lo que se trata de paliar este problema.

Para resumir este apartado de la validez del ensayo, podemos decir que tendremos que comprobar que exista una clara definición de la población de estudio, de la intervención y del resultado de interés, que la aleatorización se haya hecho de forma adecuada, que se han tratado de controlar los sesgos de información mediante el enmascaramiento, que ha habido un seguimiento adecuado con control de las pérdidas y que el análisis haya sido correcto (análisis por intención de tratamiento y control de covariables no equilibradas por la aleatorización).

Una herramienta muy sencilla que nos puede ayudar también a valorar la validez interna de un ensayo clínico es la escala de Jadad, también llamada sistema de puntuación de calidad de Oxford. Jadad, un médico colombiano, ideó un sistema de puntuación con 7 preguntas. En primer lugar, 5 preguntas cuya respuesta afirmativa suma 1 punto:

  1. ¿El estudio se describe como aleatorizado?
  2. ¿Se describe el método utilizado para generar la secuencia de aleatorización y este es adecuado?
  3. ¿El estudio se describe como doble ciego?
  4. ¿Se describe el método de enmascaramiento y este es adecuado?
  5. ¿Hay una descripción de las pérdidas durante el seguimiento?

Finalmente, dos preguntas cuya respuesta negativa resta 1 punto:

  1. ¿Es adecuado el método utilizado para generar la secuencia de aleatorización?
  2. ¿Es adecuado el método de enmascaramiento?

Como veis, la escala de Jadad valora los puntos clave que ya hemos mencionado: aleatorización, enmascaramiento y seguimiento. Se considera un estudio riguroso desde el punto de vista metodológico el que tiene una puntuación de 5 puntos. Si el estudio tiene 3 puntos o menos, mejor lo utilizamos para envolver el bocadillo.

Pasaremos a continuación a considerar cuáles son los resultados del estudio para calibrar su IMPORTANCIA clínica. Habrá que determinar las variables medidas para ver si el trabajo expresa de forma adecuada la magnitud y la precisión de los resultados. Es importante, una vez más, no conformarnos con que nos inunden con múltiples p llenas de ceros. Recordad que la p solo nos indica la probabilidad de que estemos dando como buenas diferencias que solo existen por azar (o, dicho con elegancia, de cometer un error de tipo 1), pero que significación estadística no tiene porqué ser sinónimo de relevancia clínica.

En el caso de variables continuas como tiempo de supervivencia, peso, tensión arterial, etc, lo habitual será expresar la magnitud de los resultados como diferencia de medias o de medianas, dependiendo de cuál sea la medida de centralización más adecuada. Sin embargo, en casos de variables dicotómicas (vivo o muerto, sano o enfermo, etc) se utilizarán el riesgo relativo, su reducción relativa y absoluta y el número necesario a tratar (NNT). De todas ellas, la que mejor expresa la eficiencia clínica es siempre el NNT. Cualquier trabajo digno de nuestra atención debe proporcionar estos datos o, en su defecto, la información necesaria para que podamos calcularlos.

Pero para permitir conocer una estimación más real de los resultados en la población necesitamos saber la precisión del estudio, y nada más fácil que recurrir a los intervalos de confianza. Estos intervalos, además de la precisión, nos informan también de la significación estadística. Será estadísticamente significativo si el intervalo del riesgo relativo no incluye el uno y el de la diferencia de medias, el cero. En el caso de que los autores no nos los proporcionen, podemos utilizar una calculadora para obtenerlos, como las disponibles en la web de CASPe.

Una buena forma de ordenar el estudio de la importancia clínica de un ensayo es estructurarlo en las cuatro Cs: valoración Cuantitativa (medidas de efecto y su precisión), valoración Cualitativa (relevancia desde el punto de vista clínico), valoración Comparativa (ver si los resultados son congruentes con los de otros estudios previos) y valoración de Coste-beneficio (este punto enlazaría con el siguiente apartado de la lectura crítica que tiene que ver con la aplicabilidad de los resultados del ensayo).

Para finalizar la lectura crítica de un artículo de tratamiento valoraremos su APLICABILIDAD (también llamada validez externa), para lo cual nos tendremos que preguntar si los resultados pueden generalizarse a nuestros pacientes o, dicho de otro modo, si existe alguna diferencia entre nuestros pacientes y los del estudio que impida la generalización de los resultados. Hay que tener en cuenta en este sentido que cuánto más estrictos sean los criterios de inclusión de un estudio, más difícil será generalizar sus resultados, comprometiéndose así su validez externa.

Pero, además, debemos considerar si se han tenido en cuenta todos los resultados clínicamente importantes, incluyendo efectos secundarios e indeseables. La variable de resultado medida debe ser importante para el médico y para el paciente. No hay que olvidar que el hecho de que demostrar que la intervención sea eficaz no significa obligatoriamente que sea beneficiosa para nuestros pacientes. Habrá que valorar también los efectos nocivos o molestos y estudiar el balance beneficios-costes-riesgos, así como las dificultades que puedan existir para aplicar el tratamiento en nuestro medio, las preferencias del paciente, etc.

Como es fácil de comprender, un estudio puede tener una gran validez metodológica y sus resultados tener gran importancia desde el punto de vista clínico y no ser aplicable a nuestros pacientes, ya sea porque nuestros pacientes sean diferentes a los del estudio, porque no se adapte a sus preferencias o porque sea irrealizable en nuestro medio. Sin embargo, lo contrario no suele ocurrir: si la validez es deficiente o los resultados carecen de importancia, difícilmente nos plantearemos aplicar las conclusiones del estudio a nuestros pacientes.

Para terminar, recomendaros que utilicéis alguna de las herramientas disponibles para lectura crítica, como las plantillas CASPe, o una lista de verificación, como la CONSORT, para no dejaros ninguno de estos puntos sin considerar. Eso sí, todo lo que hemos hablado se refiere a ensayos clínicos aleatorizados y controlados, ¿Y qué pasa si se trata de ensayos no aleatorizados o de otra clase de estudios cuasiexperimentales?. Pues para eso se siguen otra serie de normas, como pueden ser las de la declaración TREND. Pero esa es otra historia…

El todo es mayor que la suma de las partes

Esta es otra de esas frases famosas que están hasta en la sopa. Al parecer, el primero que tuvo esta ocurrente idea fue Aristóteles, que resumió con ella el principio general del holismo en sus escritos sobre metafísica. ¿Quién hubiese dicho que la frasecita encierra tanta sabiduría? Y es que el holismo insiste en que el todo debe ser considerado de una forma global, ya que sus componentes pueden actuar de una forma sinérgica, permitiendo que el conjunto tenga más significado que el aportado por cada parte de forma individual.

No temáis, seguís en el blog del seso y no en uno de filosofía. Y tampoco he cambiado la temática del blog, pero es que este principio me viene al pelo para introducir esa fiera corrupia del método científico que es la revisión sistemática, con o sin metanálisis.

Vivimos en la era de la información. Desde finales del pasado siglo XX hemos sido testigos de una verdadera explosión de las fuentes de información disponibles, accesibles desde múltiples fuentes y plataformas. El resultado final es que nos vemos desbordados cada vez que necesitamos una información sobre un punto concreto, no sabemos dónde buscar ni cómo podemos encontrar lo que queremos. Por este motivo empezaron a desarrollarse sistemas que sintetizasen la información disponible para hacerla más abarcable cuando se necesitase.

Nacen así las primeras revisiones, llamadas revisiones narrativas o de autor. Para elaborarlas, uno o varios autores, habitualmente expertos en un tema concreto, hacían una revisión general sobre dicho tema, aunque sin ningún criterio estricto sobre la estrategia de búsqueda ni de selección de la información. Siguiendo con total libertad, los autores analizaban los resultados tal como les mandaba su entendimiento y terminaban sacando sus conclusiones a partir de una síntesis cualitativa de los resultados obtenidos.

Estas revisiones narrativas son muy útiles para adquirir una visión general del tema, especialmente cuando uno sabe poco sobre la materia, pero son poco útiles para el que ya conoce el tema y necesita respuesta a una pregunta más concreta. Además, como todo el procedimiento se hace según el gusto de los autores, las conclusiones son poco reproducibles.

Por estos motivos, una serie de mentes privilegiadas inventan el otro tipo de revisión en el que nos vamos a centrar en esta entrada: la revisión sistemática. En lugar de revisar un tema general, las revisiones sistemáticas sí se centran en un tema concreto para poder solucionar dudas concretas de la práctica clínica. Además, emplean una estrategia de búsqueda claramente especificada y unos criterios de inclusión de trabajos explícitos y rigurosos, lo que las hace altamente reproducibles si a otro grupo de autores se les ocurre repetir la revisión sobre el mismo tema. Y, por si fuera poco, siempre que es posible van más allá del análisis de síntesis cualitativa, completándola con una síntesis cuantitativa que recibe el simpático nombre de metanálisis.

La elaboración de una revisión sistemática consta de seis pasos: formulación del problema o pregunta que quiere responderse, búsqueda y selección de los trabajos existentes, evaluación de la calidad de estos estudios, extracción de los datos, análisis de los resultados y, finalmente, interpretación y conclusión. Vamos a detallar un poco todo este proceso.

Toda revisión sistemática que se precie debe tratar de responder a una pregunta concreta que debe ser relevante desde el punto de vista clínico. La pregunta se hará habitualmente de forma estructurada con los componentes habituales de población, intervención, comparación y resultado (PICO), de forma que el análisis de estos componentes nos permitirá saber si la revisión es de nuestro interés.

Además, los componentes de la pregunta clínica estructurada nos ayudarán a realizar la búsqueda de los trabajos relevantes que existan sobre el tema. Esta búsqueda debe ser global y no sesgada, por lo que evitaremos los posibles sesgos de procedencia excluyendo fuentes por su idioma, revista, etc. Lo habitual es utilizar un mínimo de dos bases de datos electrónicas importantes de uso general, como Pubmed, Embase o la de la Cochrane, junto con las específicas del tema que se esté tratando. Es importante que esta búsqueda se complemente con una búsqueda manual en registros no electrónicos y consultando las referencias bibliográficas de los trabajos encontrados, además de otras fuentes de la llamada literatura gris, como tesis, y documentos de congresos, además de documentos de agencias financiadoras, registros e, incluso, establecer contacto con otros investigadores para saber si existen trabajos aún no publicados.

Es muy importante que esta estrategia se especifique claramente en el apartado de métodos de la revisión, de forma que cualquiera pueda reproducirla con posterioridad, si se le antoja. Además, habrá que especificar claramente los criterios de inclusión y exclusión de los estudios primarios de la revisión, el tipo de diseño que se busca y sus componentes principales (otra vez en referencia al PICO, los componentes de la pregunta clínica estructurada).

El tercer paso es la evaluación de la calidad de los estudios encontrados, que debe hacerse por un mínimo de dos personas de forma independiente, ayudándose de un tercero (que seguramente será el jefe) para desempatar en los casos en que no haya consenso entre los extractores. Para esta tarea suelen utilizarse herramientas o listas de verificación diseñadas para tal efecto, siendo una de las más utilizadas la herramienta de control de sesgos de la Colaboración Cochrane. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo. Es frecuente utilizar los colores del semáforo, marcando en verde los estudios con bajo riesgo de sesgo, en rojo los que tienen alto riesgo de sesgo y en amarillo los que se quedan en tierra de nadie. Cuanto más verde veamos, mejor será la calidad de los estudios primarios de la revisión.

Para la extracción de los datos suelen diseñarse también formularios al uso que suelen recoger datos como fecha, ámbito del estudio, tipo de diseño, etc, además de los componentes de la pregunta clínica estructurada. Como en el caso del paso anterior, conviene que esto se haga por más de una persona, estableciendo el método para llegar a un acuerdo en los casos en que no haya consenso entre los revisores.

Y aquí entramos en la parte más interesante de la revisión, el análisis de los resultados. El papel fundamental de los autores será explicar las diferencias que existan entre los estudios primarios que no sean debidas al azar, prestando especial atención a las variaciones en el diseño, población de estudio, exposición o intervención y resultados medidos. Siempre se podrá hacer un análisis de síntesis cualitativa, aunque la verdadera magia de la revisión sistemática es que, cuando las características de los estudios primarios lo permiten, puede realizarse también una síntesis cuantitativa, llamada metanálisis.

Un metanálisis es un análisis estadístico que combina los resultados de varios estudios independientes pero que tratan de responder a una misma pregunta. Aunque el metanálisis puede considerarse como un trabajo de investigación por derecho propio, lo habitual es que sea parte de una revisión sistemática.

Los estudios primarios pueden combinarse empleando una metodología estadística desarrollada para tal fin, lo que tiene una serie de ventajas. La primera, al combinar todos los resultados de los estudios primarios puede obtenerse una visión global más completa (ya sabéis, el todo es mayor…). La segunda, al combinar aumentamos el tamaño de la muestra, lo que aumenta la potencia del estudio en comparación con la de los estudios individuales, mejorando la estimación del efecto que queremos medir. En tercer lugar, al extraerse las conclusiones de un número mayor de estudios aumenta su validez externa, ya que al haber implicadas poblaciones diferentes es más fácil generalizar los resultados. Por último, puede permitirnos resolver controversias entre las conclusiones de los diferentes estudios primarios de la revisión e, incluso, contestar a preguntas que no se habían planteado en esos estudios.

Una vez hecho el metanálisis habrá que hacer una síntesis final que integre los resultados de las síntesis cualitativa y cuantitativa con el objetivo de dar respuesta a la pregunta que motivó la revisión sistemática o, cuando esto no sea posible, plantear los estudios adicionales que deben realizarse para poder contestarla.

Pero para que un metanálisis merezca todos nuestros respetos debe cumplir una serie de requisitos que son, básicamente, los que ya le hemos exigido a la revisión sistemática de la que forma parte: el metanálisis debe tratar de contestar una pregunta concreta y debe basarse en toda la información relevante disponible, sin sesgo de recuperación ni sesgo de publicación. Además, deben valorarse los estudios primarios para asegurarnos de que tienen la calidad suficiente y que son lo suficientemente homogéneos como para poder combinarlos. Por supuesto, lo datos deben analizarse y presentarse de la forma apropiada. Y, por último, debe tener sentido el que queramos combinar los resultados. El que podamos hacerlo no siempre significa que tengamos que hacerlo si el contexto clínico no lo hace necesario.

¿Y cómo se combinan los estudios?, preguntaréis algunos. Pues esa es la madre del cordero del metanálisis (o una de las madres, que tiene varias), porque hay varias formas posibles de hacerlo.

A cualquiera se le ocurre que la forma más sencilla sería tipo Festival de Eurovisión. Contabilizamos los estudios primarios en los que el efecto positivo obtuvo significación estadística y, sin son mayoría, decimos que hay consenso a favor del resultado positivo. Este enfoque es bastante sencillo pero, no me lo negaréis, también bastante chapucerillo y se me ocurren una serie de inconvenientes a la hora de usarlo. Por un lado, implica que no significativo es sinónimo de falta de efecto, lo cual no siempre tiene porqué ser verdad. Además, no tiene en cuenta la dirección y fuerza del efecto en cada estudio, ni la precisión de los estimadores empleados ni la calidad o las peculiaridades de diseño de cada estudio primario. Así que este tipo de abordaje no parece muy recomendable, aunque nadie nos va a poner una multa si lo usamos de forma informal como primera aproximación antes de decidir cuál es la mejor forma de combinar los resultados de los estudios.

Otra posibilidad es utilizar una especie de prueba de los signos, similar a la de algunas técnicas de estadística no paramétrica. Se cuentan los positivos a favor del efecto, les restamos los negativos y obtenemos nuestra conclusión. La verdad es que este método también parece demasiado simple. No tiene en cuenta los estudios sin significación estadística ni la precisión de los estimadores. Así que tampoco utilizaremos mucho este tipo de abordaje, a no ser que solo sepamos la dirección del efecto de los estudios primarios. También podríamos utilizarlo cuando los estudios primarios son muy heterogéneos para obtener una aproximación, aunque yo no me fiaría mucho de los resultados.

El tercer método es combinar las “pes” (nuestras amadas y sacrosantas p). Esto podría pasársenos por la cabeza si tuviésemos una revisión sistemática cuyos estudios primarios usaran diferentes medidas de resultado, aunque todos tratasen de contestar a una misma pregunta. Pensad, por ejemplo, un estudio sobre osteoporosis donde unos miden densitometría ultrasónica, otros DEXA en columna, otros en fémur, etc. El problema de este método es que no tiene en cuenta la intensidad del efecto, sino solo su dirección y su nivel de significación estadística, y todos conocemos las deficiencias de nuestras santas “pes”. Para utilizarlo tendremos que utilizar programas informáticos que combinarán los datos siguiendo una distribución de ji-cuadrado o una normal, dándonos el estimador global con su intervalo de confianza.

El cuarto y último método, que yo me sé, es también el más elegante: hacer una combinación ponderada del efecto estimado en los diferentes estudios primarios. La forma más sencilla sería calcular la media aritmética, pero no hemos llegado hasta aquí para hacer otra chapuza. La media aritmética otorga el mismo énfasis a todos los estudios, con lo que si tenemos algún estudio muy impreciso con resultados extremos nos distorsionará enormemente los resultados. Recordad que la media sigue siempre las colas de la distribución, viéndose muy influenciada por los valores extremos (lo que no le ocurre a su prima, la mediana).

Por esto tenemos que ponderar los estimadores de los distintos estudios. Esto podemos hacerlo de dos formas, teniendo en cuenta el número de sujetos de cada estudio, o bien, realizando una ponderación en base a los inversos de las varianzas de cada uno (ya sabéis, los cuadrados de los errores estándar).  Esta última forma es la más compleja, así que es la que más gusta y más se utiliza. Claro que, como la matemática necesaria es cosa fina, se suelen utilizar programas especiales, ya sean módulos que funcionan dentro de los programas estadísticos como Stata, SPSS, SAS o R, o utilizando programas específicos como el famoso RevMan de la Colaboración Cochrane.

Como podéis ver, no me he quedado corto al tildar a la revisión sistemática con metanálisis como la fiera corrupia de los diseños epidemiológicos. No obstante, tiene sus detractores. Todos conocemos a alguien que afirma no gustarle las revisiones sistemáticas porque casi todas acaban de la misma forma: “hacen falta más estudios de calidad para poder realizar recomendaciones con un grado de evidencia razonable”. Claro que, en estos casos, la culpa no es de las revisiones, sino de que no nos esmeramos lo suficiente con nuestros trabajos y la gran mayoría merecerían acabar en la máquina destructora de papel.

Otra polémica es la que tienen los que debaten sobre si es mejor una buena revisión sistemática o un buen ensayo clínico (pueden hacerse revisiones sobre otros tipos de diseños, incluyendo estudios observacionales). A mí esto me recuerda a la polémica sobre si deben hacer calimochos con buen vino o si es un pecado mezclar un buen vino con Coca-Cola. Polémicas aparte, si hay que tomar calimocho, os aseguro que con un buen vino estará mucho más rico, y algo parecido les pasa a las revisiones con la calidad de sus estudios primarios.

El problema de las revisiones sistemáticas es que, para que sean realmente útiles, hay que ser muy riguroso en su elaboración. Para que no se nos olvide nada, existen listas de recomendaciones y de verificación que nos permitan ordenar todo el procedimiento de creación y difusión de trabajos científicos sin que cometamos errores metodológicos u omisiones en el procedimiento.

Todo comenzó con un programa del Servicio de Salud del Reino Unido que terminó con la fundación de una iniciativa internacional para promover la transparencia y precisión de los trabajos de investigación biomédicos: la red EQUATOR (Enhancing the QUAlity and Transparency Of health Research). Esta red se compone de expertos en metodología, comunicación y publicación, por lo que incluye profesionales implicados en la calidad de todo el proceso de producción y difusión de los resultados de investigación. Entre otros muchos objetivos, que podéis consultar en su página web, está el de diseñar un conjunto de recomendaciones para la realización y publicación de los diferentes tipos de estudios, lo que da lugar a las diferentes listas de verificación o declaraciones.

La lista de verificación diseñada para aplicar a las revisiones sistemáticas es la declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses), que viene a sustituir a la declaración QUOROM (QUality Of Reporting Of Meta-analyses). Basándose en la definición de revisión sistemática de la Colaboración Cochrane, PRISMA nos ayuda a seleccionar, identificar y valorar los estudios incluidos en una revisión. Consta también de una lista de verificación y de un diagrama de flujo en el que se describe el paso de todos los trabajos considerados durante la realización de la revisión. Existe también una declaración menos conocida para la valoración de metanálisis de estudios observacionales, la declaración MOOSE (Meta-analyses Of Observational Studies in Epidemiology).

La Colaboración Cochrane tiene también una metodología muy bien estructurada y definida, que podéis consultar en su página web. Esta es la razón por la que tienen tanto prestigio dentro del mundo de las revisiones sistemáticas, por estar hechas por profesionales que se dedican a ello siguiendo una metodología contrastada y rigurosa. De todas formas, incluso las revisiones Cochrane deben leerse de forma crítica y no darles nada por asegurado.

Y con esto hemos llegado al final por hoy. Quiero insistir en que el metanálisis debe hacerse siempre que sea posible y nos interese, pero asegurándonos previamente de que es correcto combinar los resultados. Si los estudios son muy heterogéneos no deberemos combinar nada, ya que los resultados que podríamos obtener tendrían una validez muy comprometida. Hay toda una serie de métodos y estadísticos para medir la homogeneidad o heterogeneidad de los estudios primarios, que influyen también en la forma en que analizaremos los datos combinados. Pero esa es otra historia…

El más allá

Ya hemos visto en entradas anteriores como buscar información en Pubmed de diferentes maneras, desde la más sencilla, que es la búsqueda simple, hasta los métodos de búsqueda avanzada y de filtrado de resultados. Pubmed es, en mi modesta opinión, una herramienta de gran utilidad para los profesionales que tenemos que buscar información biomédica entre la vorágine de trabajos que se publican a diario.

Sin embargo, Pubmed no debe ser nuestra única herramienta de búsqueda. Sí, señoras y señores, no solo resulta que hay vida más allá de Pubmed, sino que hay mucha y, además, interesante.

La primera herramienta que se me ocurre por la similitud con Pubmed es Embase. Este es un buscador de Elsevier que tiene unos 32 millones de registros de unas 8500 revistas de 95 países. Como Pubmed, tiene varias opciones de búsqueda que le convierten en una herramienta versátil, algo más específica para estudios europeos y sobre fármacos que Pubmed (o eso dicen). Lo habitual cuando se quiere hacer una búsqueda exhaustiva es utilizar dos bases de datos, siendo frecuente la combinación de Pubmed y Embase, ya que ambos buscadores nos proporcionarán registros que el otro buscador no tendrá indexados. El gran inconveniente de Embase, sobre todo si se le compara con Pubmed, es que su acceso no es gratuito. De todas formas, los que trabajéis en centros sanitarios grandes podéis tener la suerte de tener una suscripción pagada a través de la biblioteca del centro.

Otra herramienta de gran utilidad es la que nos brinda la Cochrane Library, que incluye múltiples recursos entre los que se encuentran la Cochrane Database of Systematic Reviews (CDSR), el Cochrane Central Register of Controlled Trials (CENTRAL), el Cochrane Methodology Register (CMR), la Database of Abstracts of Reviews of Effects (DARE), la Health Technology Assessment Database (HTA) y la NHS Economic Evaluation Database (EED). Además, los hispanoparlantes podemos recurrir a la Biblioteca Cochrane Plus, que traduce al castellano los trabajos de la Cochrane Library. La Cochrane Plus no es gratuita, pero en España disfrutamos de una suscripción que amablemente nos paga el Ministerio de Sanidad, Igualdad y Servicios Sociales.

Y ya que hablamos de recursos en español, dejadme que arrime el ascua a mi sardina y os hable de dos buscadores que me son muy queridos. El primero es Epistemonikos, que es una fuente de revisiones sistemáticas y de otros tipos de evidencia científica. El segundo es Pediaclic, una herramienta de búsqueda de recursos de información sanitaria infantojuvenil, que clasifica los resultados en una serie de categorías como revisiones sistemáticas, guías de práctica clínica, resúmenes basados en la evidencia, etc.

En realidad, Epistemonikos y Pediaclic son metabuscadores. Un metabuscador es una herramienta que busca en diferentes bases de datos y no en una sola base de datos propia indexada como hacen Pubmed o Embase.

Hay muchos metabuscadores pero, sin duda, el rey de todos y una herramienta más que recomendable es TRIP Database.

TRIP (Turning Research Into Practice) es un metabuscador de acceso libre que se creó en 1997 para facilitar la búsqueda de información de bases de datos de medicina basada en la evidencia, aunque ha ido evolucionando y hoy en día recupera también información de bancos de imágenes, documentos para pacientes, libros de texto electrónicos e, incluso, de Medline (la base de datos en la que busca Pubmed). Vamos a echar un vistazo a su funcionamiento.

En la primera figura podéis ver la parte superior de la pantalla de inicio de TRIP. En la forma más sencilla seleccionaremos el enlace “Search” (es el que funciona por defecto cuando abrimos la página), escribiremos en la ventana de búsqueda los términos en inglés sobre los que queramos buscar y pulsaremos la lupa que hay a la derecha, con lo que el buscador nos mostrará la lista de resultados.

Aunque la última versión de TRIP incluye un selector de idioma, probablemente lo más recomendable sea introducir los términos en inglés en la ventana de búsqueda, procurando no poner más de dos o tres palabras para obtener los mejores resultados. Aquí funcionan los operadores lógicos igual que vimos en Pubmed (AND, OR y NOT), al igual que el operador de truncamiento “*”. De hecho, si escribimos varias palabras seguidas, TRIP incluye automáticamente el operador AND entre ellas.

Al lado de “Search” podéis ver un enlace que dice “PICO”. Este nos abre un menú de búsqueda en el que podemos seleccionar los cuatro componentes de la pregunta clínica estructurada de forma separada: pacientes (P), intervención (I), comparación (C) y resultados (outcome, O).

A la derecha hay dos enlaces más. “Advanced” permite realizar búsquedas avanzadas por campos del registro como el nombre de la revista, el título, año, etc. “Recent” nos permite acceder al historial de búsqueda. El problema es que estos dos enlaces están reservados en las últimas versiones para usuarios con licencia de pago. Antes eran gratis, así que esperemos que este defectillo no se extienda a todo el buscador y que, dentro de poco, TRIP acabe siendo un recurso de pago.

En la web del buscador tenéis tutoriales en vídeo sobre el funcionamiento de las diversas modalidades de TRIP. Pero lo más atractivo de TRIP es su forma de ordenar los resultados de la búsqueda, ya que lo hace según la fuente y la calidad de los mismos y la frecuencia de aparición de los términos de búsqueda en los trabajos encontrados. A la derecha de la pantalla aparece la lista de resultados organizados en una serie de categorías, como revisiones sistemáticas, sinopsis de medicina basada en la evidencia, guías de práctica clínica, preguntas clínicas, artículos de Medline filtrados mediante Clinical Queries, etc.

Podemos hacer clic en una de las categorías y restringir así el listado de resultados. Una vez hecho esto, podemos aún restringir más en base a subcategorías. Por ejemplo, si seleccionamos revisiones sistemáticas podremos posteriormente quedarnos solo con las de la Cochrane. Las posibilidades son muchas, así que os invito a probarlas.Veamos un ejemplo. Si escribo “asthma obesity children” en la cadena de búsqueda, obtengo 1117 resultados y la lista de recursos ordenados a la derecha, según veis en la segunda figura. Si ahora hago click en el índice “sistematic review” y, posteriormente, en “Cochrane”, me quedo con un solo resultado, aunque tengo el resto a golpe de click con solo seleccionar otras categorías. ¿Habéis visto que combinación de sencillez y potencia? En mi humilde opinión, con un manejo decente de Pubmed y la ayuda de TRIP podréis buscar todo lo que necesitéis, por muy escondido que esté.

Y para ir terminando la entrada de hoy, me vais a permitir que os pida un favor: no uséis Google para hacer búsquedas médicas o, por lo menos, no dependáis exclusivamente de Google, ni siquiera de Google Académico. Este buscador es bueno para encontrar un restaurante o un hotel para las vacaciones, pero no para controlar una búsqueda de información médica fiable y relevante como podemos hacer con otras herramientas de las que hemos hablado. Claro que con los cambios y evoluciones a los que nos tiene acostumbrados Google esto puede cambiar con el tiempo y, quizás, alguna vez tenga que reescribir esta entrada para recomendarlo (Dios no lo quiera).

Y aquí vamos a dejar el tema de las búsquedas bibliográficas. Ni que decir tiene que existen infinidad de buscadores más, de los cuáles podéis usar el que más os guste o el que tengáis accesible en vuestro ordenador o lugar de trabajo. En algunas ocasiones, como ya hemos comentado, es casi obligatorio usar más de uno, como es el caso de las revisiones sistemáticas, en las que suelen emplearse los dos grandes (Pubmed y Embase) y combinarlos con el de la Cochrane y algunos de los específicos del tema en cuestión. Porque todos los buscadores que hemos vistos son de índole general, pero los hay específicos de enfermería, psicología, fisioterapia, etc, además de específicos de enfermedad. Por ejemplo, si hacéis una revisión sistemática sobre una enfermedad tropical es conveniente utilizar una base de datos específica del tema, como LILACS, además de buscadores de revistas locales, si existen. Pero esa es otra historia…

Buscando las pepitas de oro

Estaba pensando en la entrada de hoy y no puedo evitar acordarme de los buscadores de la fiebre del oro de Alaska de finales del siglo XIX. Viajaban a Yukon, buscaban un buen arroyo como el Bonanza y recogían toneladas de barro. Pero ese barro no era el último paso de la búsqueda. De entre los sedimentos tenían que sacar las ansiadas pepitas de oro, para lo cual filtraban los sedimentos de forma cuidadosa hasta quedarse solo con el oro, cuando  había.

Cuando nosotros buscamos las mejores pruebas científicas para resolver nuestras preguntas clínicas hacemos algo parecido. Normalmente elegimos uno de los buscadores de Internet (como Pubmed, nuestro arroyo Bonanza) y solemos obtener una larga lista de resultados (nuestro montón de barro) que, finalmente, tendremos que filtrar para quedarnos solo con las pepitas de oro, si es que las hay entre los resultados de la búsqueda.

Ya hemos visto en entradas previas cómo hacer una búsqueda simple (la menos específica y que más barro nos va a proporcionar) y cómo refinar las búsquedas mediante el uso de los términos MeSH o el formulario de búsqueda avanzada, con los que buscamos obtener menos fango y más pepitas.

Sin embargo, lo habitual es que, una vez que tenemos la lista de resultados, tengamos que filtrarla para quedarnos solo con lo que más nos interese. Pues bien, para eso existe una herramienta muy popular dentro de Pubmed que es, oh sorpresa, el uso de filtros.

Vamos a ver un ejemplo. Supongamos que queremos buscar información sobre la relación entre asma y obesidad en la infancia. Lo ideal sería plantear una pregunta clínica estructurada para realizar una búsqueda específica, pero para ver más claramente cómo funcionan los filtros vamos a hacer una búsqueda simple “mal” planteada con lenguaje natural, para obtener un número mayor de resultados.

Entramos en la página de inicio de Pubmed, escribimos asthma and obesity in children en la caja de búsqueda y pulsamos el botón “Search”. Yo obtengo 1169 resultados, aunque el número puede variar si vosotros hacéis la búsqueda en otro momento.

Podéis ver el resultado en la primera figura. Si os fijáis, en el margen izquierdo de la pantalla hay una lista de texto con encabezados como “Tipos de artículos” (Article types), “disponibilidad de texto” (Text availability), etc. Cada apartado es uno de los filtros que yo tengo seleccionados para que se muestren en mi pantalla de resultados. Veis que debajo hay dos enlaces. El primero dice “Clear all” y sirve para desmarcar todos los filtros que hayamos seleccionado (en este caso, todavía ninguno). El segundo dice “Show additional filters” y, si clicamos sobre él, aparece una pantalla con todos los filtros disponibles para que elijamos cuáles queremos que se muestren en la pantalla. Echad un vistazo a todas las posibilidades.

Cuando queremos aplicar un filtro, solo tenemos que hacer click sobre el texto que hay debajo de cada encabezado del filtro. En nuestro caso vamos a filtrar solo los ensayos clínicos publicados en los últimos cinco años y de los que esté disponible el texto completo libre (sin tener que pagar suscripción). Para ello, hacemos click sobre “Clinical Trial”, “Free full text” y “5 years”, tal como veis en la segunda figura. Podéis comprobar que la lista de resultados se ha reducido a 11, un número mucho más manejable que los 1169 originales.

Ahora podemos quitar filtros de uno en uno (pulsando en la palabra “clear” que aparece al lado de cada filtro), quitarlos todos (pulsando “Clear all”) o añadir nuevos (haciendo click en el filtro que deseemos).

Dos precauciones a tener en cuenta con el uso de filtros. Lo primero, los filtros van a seguir estando activos hasta que los desactivemos nosotros. Si no nos damos cuenta de desactivarlos, podemos aplicarlos a búsquedas que hagamos después y obtener menos resultados de los esperados. Lo segundo, los filtros funcionan en base a los términos MeSH que se hayan asignado a cada artículo a la hora de indexarlo, por lo que los artículos muy recientes, que no ha dado tiempo de indexar todavía y que no tienen, por tanto, asignados sus términos MeSH, se perderán al aplicar los filtros. Por eso es recomendable aplicar los filtros al final del proceso de búsqueda, que es mejor acotar con otras técnicas como el uso de los MeSH o la búsqueda avanzada.

Otra opción que tenemos con los índices es automatizarlos para todas las búsquedas pero sin que nos recorten el número de resultados. Para ello tenemos que abrir cuenta en Pubmed clicando en “Sign in to NCBI” en el extremo superior derecho de la pantalla. Una vez que usemos el buscador como usuario registrado, podremos hacer click en un enlace arriba a la derecha que dice “Manage filters” y seleccionar los filtros que queramos. En lo sucesivo, las búsquedas que hagamos serán sin filtros, pero arriba a la derecha veréis enlaces a los filtros que hayamos seleccionados con el número de resultados entre paréntesis (podéis verlo en las dos primeras figuras que os he mostrado). Haciendo click, filtraremos la lista de resultados de modo similar a como hacíamos con los otros filtros, los que están accesibles sin registrarnos.

No me gustaría dejar el tema de Pubmed y de los filtros sin hablaros de otro recurso de búsqueda: las Clinical Queries. Podéis acceder a ellas haciendo click en el enlace de las herramientas de Pubmed (Pubmed Tools) de la página de inicio del buscador. Las Clinical Queries son una especie de filtro construido por desarrolladores de Pubmed que filtran la búsqueda para que solo se muestren artículos relacionados con investigación clínica.

Escribimos la cadena de búsqueda en la caja de búsqueda y obtenemos los resultados distribuidos en tres columnas, como veis en la tercera figura que o adjunto. En la primera columna se ordenan según el tipo de estudio (etiología, diagnóstico, tratamiento, pronóstico y guías de predicción clínica) y el alcance de la búsqueda que puede ser más específico (“Narrow”) o menos (“Broad”). Si seleccionamos “tratamiento” y alcance estrecho (“Narrow”), vemos que la búsqueda queda limitada a 25 trabajos.

En la segunda columna se ordenan revisiones sistemáticas, metanálisis, revisiones de medicina basada en la evidencia, etc. Por último, la tercera se centra en trabajos sobre genética.

Si queremos ver el listado completo podemos pulsar en “See all” al fondo del listado. Veremos entonces una pantalla similar a la de los resultados de búsqueda simple o avanzada, como veis en la cuarta figura que os adjunto. Si os fijáis en la caja de búsqueda, la cadena de búsqueda se ha modificado un poco. Una vez que tenemos este listado podemos modificar la cadena de búsqueda y volver a pulsar “Search”, aplicar de nuevo los filtros que nos convenga, etc. Como veis, las posibilidades son muchas.

Y con esto creo que vamos a ir despidiéndonos de Pubmed. Os animo a investigar otras muchas opciones y herramientas que están explicadas en los tutoriales de la página web, para algunos de las cuáles será necesario que tengáis abierta una cuenta en NCBI (recordad que es gratis). Podréis así, por ejemplo, fijar alarmas para que el buscador os avise cuando se publique algo nuevo sobre la búsqueda relacionada, entre otras muchas posibilidades. Pero esa es otra historia…

 

La jerga del buscador

Vimos en una entrada anterior cómo hacer una búsqueda con Pubmed utilizando el sistema más sencillo, que es introducir texto en lenguaje natural en la casilla de búsqueda simple y pulsar el botón “Search”. Este método es bastante fácil e incluso funciona bastante bien cuando estamos buscando algo sobre enfermedades muy raras pero, en general, nos dará una lista de resultados muy sensible y poco específica, lo que en este contexto quiere decir que obtendremos un número grande artículos, pero muchos de ellos tendrán poco que ver con lo que estamos buscando.

En estos casos tendremos que utilizar alguna herramienta para que el resultado sea más específico: menos artículos y más relacionados con el problema que origina la búsqueda. Una de la formas es realizar una búsqueda avanzada en lugar de la búsqueda simple, pero para ello tendremos que utilizar la jerga propia del buscador, los llamados descriptores temáticos de lenguaje controlado.

Un descriptor es un término que se utiliza para elaborar índices, también llamados tesauros. En lugar de usar las palabras del lenguaje natural, éstas se seleccionan o agrupan bajo unos términos específicos, que son los que van a servir de clave en el índice de la base de datos del buscador.

El tesauro, formado por el conjunto de descriptores, es específico de cada buscador, aunque muchos términos pueden ser comunes. En el caso de Pubmed los descriptores se conocen con el nombre de términos MeSH, que son las iniciales de su nombre en inglés, Medical Subject Headings.

Este tesauro o lista de términos con vocabulario controlado ha sido también elaborado por la National Library of Medicine y constituye otra base de datos con más de 30.000 términos que se actualizan con periodicidad anual. Dentro de la National Library hay una serie de personas cuya misión es analizar los nuevos artículos que se incorporan a la base de datos de Medline y asignarles los descriptores que mejor se ajustan a su contenido. Así, cuando busquemos utilizando un descriptor en concreto, hallaremos los artículos que estén indexados con este descriptor.

Pero la cosa de los descriptores es un poco más complicada de lo que pueda parecer, ya que se agrupan en jerarquías (MeSH Tree Structures), pudiendo un mismo descriptor pertenecer a varias jerarquías, además de tener subencabezados (Subheadings), de tal forma que podemos buscar utilizando el término MeSH general o restringir más la búsqueda usando uno de sus subencabezados. La verdad es que leyendo todo esto dan ganas de olvidarse de la búsqueda usando el tesauro, pero no podemos permitirnos ese lujo: la búsqueda utilizando la base de datos MeSH es la más efectiva y precisa, ya que el lenguaje ha sido controlado para eliminar imprecisiones y sinonimias propias del lenguaje natural.

Además, la cosa no es tan complicada cuando nos ponemos a trabajar con ello. Vamos a verlo con el ejemplo que usamos para mostrar la búsqueda simple. Queremos comparar la eficacia de la amoxicilina y del cefaclor sobre la duración de la otitis media en lactantes. Tras elaborar la pregunta clínica estructurada obtenemos nuestros cinco términos de búsqueda, en lenguaje natural: otitis, lactantes, amoxicilina, cefaclor y pronóstico.

Ahora podéis ir a la página de inicio de Pubmed (recordad el atajo: escribir pubmed en la barra del navegador y pulsar control-enter). Debajo de la ventana de búsqueda simple vimos que hay tres columnas. Nos fijamos en la de la derecha, “More Resources” y hacemos click en la primera de las opciones, “MeSH Database”, con lo que accedemos a la página de inicio de la base de datos de descriptores (como se ve en la primera figura).Si escribimos otitis en la ventana de búsqueda vemos que Pubmed nos echa una mano desplegando una lista con los términos que se parecen a lo que estamos escribiendo. Uno de ellos es otitis media, que es lo que nos interesa, así que la seleccionamos y Pubmed nos lleva a la siguiente página, donde hay varias opciones para elegir. En el momento en que yo hago la búsqueda hay tres opciones: “Otitis Media”, “Otitis Media, Suppurative” y “Otitis Media with Effusion”. Fijaos que Pubmed nos define cada uno, para que entendamos bien a qué se refiere con cada término. Estos son los tres términos MeSH que se ajustan a lo que hemos pedido, pero tenemos que elegir uno.

Lo más sencillo que podemos hacer desde esta ventana es marcar el cuadro de selección que hay a la izquierda del término que nos interese y pulsar el botón que hay en la parte derecha de la pantalla y que dice “add to search builder”. Si hacemos esto, Pubmed comienza a construir la cadena de búsqueda empezando con el término elegido (si hacemos esto con el primer término de la lista veréis que aparece el texto “Otitis Media”[Mesh] en la caja de texto “Pubmed Search Builder”, en la parte superior derecha de la pantalla (como veis en la figura adjunta).

Pero recordad que hemos dicho que los términos MeSH tienen subencabezados. Para llegar a ellos, en vez de marcar el cuadro de selección del término “Otitis Media”, hacemos click sobre él, abriéndose la ventana con los subencabezados (Subheadings), como podéis ver en la segunda figura.Cada uno de los términos con su cuadro de selección a la izquierda corresponde a un subencabezado del descriptor “Otitis Media” (el descriptor está en inglés, aunque en este caso coincida con el término en castellano. Os aconsejo trabajar siempre en inglés con la base de datos MeSH). Por ejemplo, si nos interesase hacer una búsqueda dirigida al coste del tratamiento, podríamos marcar el subencabezado “economics” y pulsar entonces el botón de añadir a la búsqueda. El texto que aparecería en la caja de texto de la cadena de búsqueda sería “Otitis Media/economics”[Mesh] y el resultado de la búsqueda sería un poco más específico.

Antes de dejar la ventana del término MeSH vamos a fijarnos en un par de cosas. Además de los subencabezados, que pueden ser más o menos numerosos, la parte inferior de la página nos muestra la jerarquía del descriptor (MeSH Tree Structure). Nuestro descriptor está en negrita, así que podemos ver de qué términos depende y cuáles dependen de él. En algún caso puede interesarnos más utilizar un término superior para la búsqueda, así que no tendremos más que hacer click sobre él para ir a su propia ventana. Si hacemos esto, en general, la búsqueda será más sensible y menos específica (más ruido y menos nueces).

También podemos hacer click en un término que esté por debajo en la jerarquía, haciendo la búsqueda más específica y disminuyendo el número de resultados.

Y la cosa no acaba aquí. Si seleccionamos un término MeSH para la búsqueda, en ésta se incluyen los términos que están por debajo en la jerarquía. Por ejemplo, si seleccionamos el descriptor “Otitis Media” se incluirán en la búsqueda todos los que cuelgan de él (mastoidits, otits con derrame, otitis supurativa y petrositis, que pueden no interesarnos en absoluto). Esto podemos evitarlo marcando el cuadro que dice “Do not include MeSH terms found below this term in the MeSH hierarchy” (no incluir los términos que estén por debajo en la jerarquía).

Bueno, creo que vamos a ir terminando con este ejemplo, si es que todavía hay alguien que sigue leyendo a estas alturas. Supongamos que optamos por lo más sencillo: vamos a “Otitis Media” y lo añadimos a la búsqueda. A continuación escribimos el segundo término de búsqueda en la ventada de búsqueda de la base de datos: infants. Nos salen 14 posibilidades, seleccionamos la primera (“Infant”) y lo añadimos a la búsqueda. Hacemos lo mismo con “Amoxicillin”, “Cefaclor” y “Prognosis”. Cuando hemos añadido todos a la cadena de búsqueda (fijaos que el operador booleano por defecto es AND, pero podemos cambiarlo), la cade de búsqueda es la siguiente: ((((“Otitis Media”[Mesh]) AND “Infant”[Mesh]) AND “Amoxicillin”[Mesh]) AND “Cefaclor”[Mesh]) AND “Prognosis”[Mesh].

Finalmente, pulsamos el botón “Search Pubmed” y obtenemos el resultado de la búsqueda que, en este caso, es un poco más restringida que la que obteníamos con lenguaje natural (esto suele ser lo habitual).

Si quisiésemos quitar los trabajos sobre el clavulánico, como hicimos en el ejemplo con la búsqueda simple, podríamos añadir el término clavulanate igual que con añadimos los otros términos, pero cambiando el operador booleano AND por el operador NOT. Pero hay otra forma que es, incluso, más sencilla. Si os fijáis, cuando Pubmed nos da la lista de resultados, en la ventana de búsqueda de Pubmed está escrita la cadena de búsqueda que se ha utilizado y nosotros podemos añadir o quitar términos de esta cadena, usando términos MeSH o lenguaje natural, lo que más nos convenga. Así que, en nuestro ejemplo, a la cadena de texto le añadiríamos NOT clavulanate en la caja de búsqueda y volveríamos a pulsar sobre el botón “Search”.

Y aquí lo vamos a dejar por hoy. Simplemente decir que hay otras formas de utilizar los términos MeSH, usando el formulario de búsqueda avanzada, y que podemos acotar todavía más los resultados utilizando algunos recursos, como las Clinical Queries o el uso de límites. Pero esa es otra historia…

La ostra de las mil perlas

Ya vimos en una entrada anterior que nuestra ignorancia como médicos es grande, lo que nos obliga a plantearnos preguntas sobre lo que hacer con nuestros pacientes en numerosas ocasiones.

Llegado este punto, nos interesará buscar y encontrar las mejores evidencias disponibles sobre el tema que nos ocupe, para lo que tendremos que hacer una buena búsqueda bibliográfica. Aunque se define la búsqueda bibliográfica como el conjunto de procedimientos manuales, automáticos e intelectuales encaminados a localizar, seleccionar y recuperar las referencias o trabajo que respondan a nuestro interés, la inmensa mayoría de las veces simplificamos el proceso y nos dedicamos únicamente a la búsqueda digital.

En estos casos tendremos que recurrir a una de las múltiples bases de datos biomédicas disponibles para buscar la perla que nos aclare nuestra duda y ayude a poner remedio a nuestra ignorancia. De todas estas bases de datos, no cabe duda que la más utilizada es Medline, la base de datos de la Biblioteca Nacional de Medicina de Estados Unidos (la National Library of Medicine, como la llaman ellos). El problema es que Medline es una base muy muy grande, con unos 16 millones de artículos de más de 4800 revistas científicas. Así que, como es fácil suponer, encontrar lo que se busca puede no ser una tarea sencilla en muchas ocasiones.

En realidad, para buscar en Medline lo que utilizamos es una herramienta que se conoce con el nombre de Pubmed. Este es un proyecto desarrollado por el Centro Nacional de Información en Biotecnología (National Center for Biotechnology Information, NCBI para los amigos), que permite acceder realmente a tres bases de datos de la National Library of Medicine: Medline, PreMedline y AIDS. Estas bases de datos no son filtradas, así que necesitaremos de conocimientos de lectura crítica para valorar los resultados (hay otros recursos que dan la información ya filtrada), ya que el buscador proporciona nada más (y nada menos) que la referencia del artículo y, en muchas ocasiones, un breve resumen. Y lo mejor de todo es que es gratis, cosa que no ocurre con todas las herramientas de búsqueda disponibles.

Así que, si queremos explorar esta ostra con miles de perlas, tendremos que aprender a utilizar la herramienta Pubmed para encontrar las perlas que estamos buscando. Podéis entrar en Pubmed haciendo clic sobre este enlace, aunque un pequeño atajo es escribir pubmed en la barra de direcciones del navegador y pulsar control-enter. El navegador sabrá donde queremos ir y nos redirigirá a la página de inicio de Pubmed. Echemos un vistazo entes de empezar a usarlo (ver la primera figura) (el aspecto de Pubmed cambia de vez en cuando, así que alguna cosa puede haber cambiado desde que escribí esta entrada, seguramente para mejorar).

Lo primero que vemos es el cuadro de búsqueda simple, donde podemos escribir los términos de búsqueda para obtener los resultados al pulsar el botón “Search”. Veis que debajo de este cuadro hay un enlace que dice “Advanced”, con el que accederemos a la pantalla de búsqueda avanzada, de la que hablaremos otro día. Hoy nos centraremos en la búsqueda simple.

Debajo hay tres columnas. La primera dice “Using PubMed”. Aquí podéis encontrar ayuda sobre el uso de esta herramienta, incluidos tutoriales sobre las distintas modalidades de búsqueda y las herramientas que incluye Pubmed. Os aconsejo bucear en esta sección para descubrir muchas más posibilidades de este buscador que las pocas que os voy a contar yo en esta entrada.

La segunda columna es la de las herramientas de Pubmed, “PubMed Tools”. Aquí hay dos de especial interés, la “Single Citation Matcher”, para encontrar la referencia en PubMed de un artículo en concreto conociendo algunos aspectos de su cita bibliográfica, y las “Clinical Queries”, que nos permiten filtrar los resultados de las búsquedas según el tipo de estudios o sus características.

La tercera columna muestra recursos del buscador, como la base de datos de los términos MeSH, que no es otra cosa que el tesaurus de los términos de búsqueda que incluye Pubmed.

Bueno, pues vamos a buscar algo para practicar. Pensemos, por ejemplo, que yo quiero saber si es mejor utilizar amoxicilina o cefaclor para el tratamiento de la otitis en los lactantes para que la evolución de la enfermedad sea menos prolongada. Lógicamente, esto no puedo escribirlo tal cual. Primero tengo que construir mi pregunta clínica estructurada y, después, utilizar los componentes de la pregunta como términos de búsqueda.

Mi pregunta sería la siguientes: en (P) lactantes con otitis, ¿(I) el tratamiento con cefaclor en (C) comparación con el tratamiento con amoxicilina, (0) reduce la duración de la enfermedad?. Así que, con este ejemplo, podríamos utilizar cinco términos de búsqueda: otitis, lactantes, amoxicilina, cefaclor y duración.

En la búsqueda sencilla introduciremos sin más las palabras en el cuadro de búsqueda (lenguaje natural) y haremos click en el cuadro “Search”. Aunque Pubmed acepta que introduzcamos palabras en castellano, es preferible ponerlas directamente en inglés, ya que así no tendremos que fiarnos de que las traduzca bien (hay palabras que incluso no las traduce y nos alteran la búsqueda).

El cuadro de búsqueda admite operadores booleanos, que son el “y”, el “o” y el “no” (se suelen ponen en mayúsculas en inglés: AND, OR y NOT). Cuando ponemos varias palabras seguidas sin ningún operador booleano, Pubmed entiende que las palabras van separadas por AND. Así, si tenemos un término formado por dos palabras y queremos que se considere como una, tendremos que escribirlo entre comillas. Por ejemplo, si escribimos apendicitis aguda y queremos que cuente como un solo término, habrá que introducir “acute apendicitis”.

Otro operador útil es el de truncamiento, que es colocar un asterisco al final de la raíz de la palabra para que se busquen todas las palabras que empiecen por esa raíz. Por ejemplo, infan* buscará por infant, infancy…

Vamos con nuestro ejemplo. Escribimos otitis AND infants AND amoxicillin AND cefaclor AND course y hacemos click en “Search” (ver la segunda figura). Hemos tenido bastante suerte, obtenemos solo 11 resultados (a vosotros os puede salir un número diferente si hacéis la búsqueda en otro momento).

Echamos un vistazo y vemos que los trabajos se ajustan más o menos a lo que buscamos. El único inconveniente es que nos incluye artículos que estudian el efecto de la amoxicilina-clavulánico, que no nos interesan. Pues vamos a quitarlos. Al texto de búsqueda le añadimos NOT clavulanate, con lo que la búsqueda queda limitada aún más.

Ya no tenemos más que seleccionar o clicar sobre los trabajos que nos interesen, para obtener el resumen (si está disponible) y, en algunos casos, incluso acceder al texto completo, aunque esto dependerá de que el texto sea de libre acceso o de los permisos o suscripciones que tenga la institución desde la que accedamos a Pubmed.

Hasta aquí hemos visto la forma más sencilla de buscar con Pubmed: búsqueda simple con texto libre. El problema es que usando esta forma de búsqueda no siempre vamos a obtener un resultado tan específico, sino que será mucho más frecuente que obtengamos miles de resultados, la mayor parte de ellos sin ningún interés para nosotros. En estos casos tendremos que recurrir a otros recursos como la búsqueda avanzada, el empleo de términos MeSH o el uso de las Clinical Queries de Pubmed. Pero esa es otra historia…

Quien no tenga preguntas…

…nunca obtendrá respuestas. Esto me lo enseñó una profesora de bioquímica hace ya más de dos vidas, cuando yo era un estudiante de primero de medicina. No recuerdo qué otras cosas me enseñó, pero esta la tengo grabada a fuego porque, no quiero recordar cuántos años después, sigue teniendo la misma vigencia.

Y resulta que la rueda de la medicina basada en pruebas se pone en marcha con una pregunta. Eso sí, el problema es que en medicina no siempre se obtiene respuesta por mucha pregunta que se tenga y, según algunos, en cuatro de cada cinco veces no obtendremos una respuesta satisfactoria por muy bien que sepamos buscar la información.

Los médicos, admitámoslo, somos bastante ignorantes, y el que piense lo contrario es porque no sabe lo ignorante que es, que es mucho peor y más peligroso. A menudo nos vemos asaltados por lagunas en nuestro conocimiento que queremos rellenar con la información que haya disponible. Se ha calculado que, a nivel de Atención Primaria, nos hacemos dos preguntas por cada 10 pacientes que recibimos, aumentando este número a cinco por cada paciente ingresado en Atención Hospitalaria. Se comprende fácilmente que no podemos hacer una búsqueda en la bibliografía cada vez que tengamos una duda, así que tendremos que establecer unas prioridades.

Al principio, cuando somos muy, pero que muy ignorantes, las preguntas son bastante generales. Son las llamadas preguntas básicas (de background, les llaman los que saben inglés), que buscan información sobre aspectos generales de enfermedades o tratamientos. Suelen estar compuestas por una raíz del tipo cómo, cuánto, cuándo o similar y un verbo, seguido de la enfermedad o lo que sea que estemos tratando. Preguntas de este estilo serían, por ejemplo, “¿qué germen produce la risperidiosis?” o “¿cómo se trata un ataque agudo de caspa?”.

En general, las preguntas básicas se pueden responder acudiendo a libros de texto o a artículos de revisión. Existen fuentes digitales de revisiones sobre temas generales, como la que es sin duda una de las más idolatradas, el UpToDate. Todos conoceremos algún uptodatero, que son personas fácilmente reconocibles porque en la sesión de primera hora de la mañana ya tienen en su poder la última información obtenida de UpToDate, de forma que te dan la respuesta incluso antes de que tú te hayas planteado la pregunta.

Pero, según vamos siendo más sabios, las preguntas que nos vamos haciendo implican ya aspectos concretos del tratamiento, pronóstico o lo que sea de una enfermedad en un tipo determinado de pacientes. Estas preguntas avanzadas o preguntas de primera línea (de foreground para los anglófilos) suelen tener una característica que las diferencia cualitativamente de las básicas: habitualmente se hacen como parte de la toma de decisiones clínicas en la fase previa a la búsqueda de información del problema que nos interese.

Es fundamental, por lo tanto, plantearlas bien y formularlas con claridad ya que, si no, no servirán ni para plantear la estrategia de búsqueda ni para tomar la decisión correcta que estemos buscando. Se forma así lo que se conoce como pregunta clínica estructurada, conocida en el argot de la medicina basada en pruebas como pregunta PICO, por las iniciales de sus componentes, que veremos a continuación.

La P representa al paciente, pero también al problema de interés o a la descripción clínica de la situación que estemos estudiando. Debemos definir muy bien las características más relevantes del grupo de pacientes o de la población que originó la pregunta, procurando no restringir demasiado las características del grupo, porque puede ocurrir que luego no encontremos nada que responda a la pregunta. Suele ser preferible seleccionar la población de una forma más general y, si la búsqueda es poco específica (tenemos muchos resultados), siempre podemos restringirla después.

La I representa la intervención principal, que puede ser un tratamiento, una prueba diagnóstica, un factor de riesgo o exposición, etc. La C se refiere a la comparación con la cuál contrastamos la intervención, y puede ser otro tratamiento, el placebo o, a veces, no hacer nada. Este componente no es obligatorio que exista siempre en la estructura de la pregunta, así que podemos obviarlo en los casos que no lo necesitemos.

Por último, la O representa el resultado de interés clínico de nuestra pregunta (de Outcome, en inglés), ya sea en términos de síntomas, complicaciones, calidad de vida, morbilidad, mortalidad o cualquier otra variable de resultado que elijamos. Así, es importante resaltar que el resultado que nos planteemos debería tener importancia desde el punto de vista clínico, sobre todo importancia desde el punto de vista del paciente. Por ejemplo, en un estudio para prevenir enfermedad coronaria podemos medir el efecto mediante la disminución de la troponina, pero seguro que el paciente agradecerá mucho más si lo que estimamos es la disminución de la mortalidad por infarto.

A veces, como ya os he comentado, no es pertinente hacer comparación con nada y el PICO se transforma en PIO. Otros añaden un quinto parámetro, el tiempo, y el PICO pasa a ser PICOt. También podéis verla como PECO o PECOt, cuando preferimos decir exposición mejor que intervención. Pero, usemos las letras que usemos, lo importante es que descompongamos la pregunta en estos elementos, que serán los que nos marcarán las palabras clave para la búsqueda de información y del tipo de estudio que necesitamos encontrar (os diré que algunos añaden el tipo de estudio como quinta o sexta letra al PICO).

Es muy importante encontrar un buen equilibrio entre la amplitud y la precisión de la pregunta. Por ejemplo, la pregunta “¿en lactantes con traumatismo craneal mejora el pronóstico el tratamiento con corticoides?” podría ser demasiado general para que resultase de ninguna utilidad. Por otra parte, “¿en lactantes de 3 a 6 meses de edad que se caen de la cuna desde 20 cm de altura y se dan en la parte izquierda de la frente contra el suelo de moqueta se puede mejorar el pronóstico utilizando metilprednisolona a dosis de 2 mg/kg/d durante cinco días seguidos?” se me hace demasiado específica como para utilizarla en la estrategia de búsqueda o para que sea útil para la toma de decisión clínica. Una forma más adecuada sería algo como “en lactantes con traumatismo craneal leve (los criterios de levedad deben estar previamente definidos), ¿mejora el pronóstico el tratamiento con corticoides?”. La P serían los lactantes que sufren un traumatismo craneal leve, la I sería el tratamiento con corticoides, la C sería, en este caso, no dar corticoides y, finalmente, la O sería el pronóstico (que podríamos sustituir por algo más concreto como la probabilidad de ingreso hospitalario, el tiempo hasta el alta, mortalidad, etc).

Veamos otro ejemplo: en (P) lactantes con bronquiolitis, ¿(I) el uso de corticoides intravenosos (C) en lugar de inhalados (O) disminuye el riesgo de ingreso?. O este otro: en (P) lactantes con otitis, ¿(I) el uso de antibióticos (O) acorta la duración de la enfermedad?.

Según el tipo de respuesta que persiguen, las preguntas clínicas pueden clasificarse en cuatro tipos fundamentales: diagnóstico, tratamiento, pronóstico y etiología o daño. Las preguntas de diagnóstico se refieren a cómo seleccionar e interpretar pruebas diagnósticas. Las preguntas de tratamiento tienen que ver con el tratamiento que podemos seleccionar para ofrecer más beneficios que riesgos y con un coste económico y de recursos que merezca la pena. Las preguntas de pronóstico sirven para estimar la probabilidad del curso clínico venidero y anticipar complicaciones. Por último, las preguntas de etiología o daño son las que nos sirven para identificar las causas de las enfermedades, incluyendo las iatrogénicas.

El tipo de pregunta es importante porque nos va a definir el tipo de diseño de estudio que con más probabilidad puede responder a nuestra pregunta. Así, las preguntas de diagnóstico se responden mejor con estudios de diseño específico para la evaluación de pruebas diagnósticas. Las preguntas de tratamiento o daño pueden responderse con ensayos clínicos (lo ideal) o con estudios observacionales. Sin embargo, las preguntas de pronóstico suelen precisar estudios observacionales para encontrar su respuesta. Por último, saber que existen otros tipos de pregunta clínica además de las cuatro básicas, como las de frecuencia (que se responderán con revisiones sistemáticas o estudios observacionales) o las de coste-beneficio (para las que necesitaremos estudios de evaluación económica).

Una pregunta estructurada bien planteada puede ayudarnos a resolver un problema clínico, pero también suele servir de origen a más preguntas, con las que ir rellenando lagunas para ser cada vez un poco menos ignorantes. Además, sin estructurar nuestra pregunta en los distintos componentes es tarea prácticamente imposible encontrar información útil. El que no me crea que escriba “asma” en PubMed o en otro buscador y mire el número de resultados. Algunos buscadores, como el de Trip Database, permiten incluso realizar la búsqueda utilizando la estructura PICO de la pregunta clínicamente estructurada. Pero, por desgracia, en la mayoría de los casos tendremos que buscar los sinónimos de cada componente y encontrar el descriptor adecuado para la base de datos donde vayamos a buscar, utilizando habitualmente técnicas de búsqueda avanzada. Pero esa es otra historia…