Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Los siguientes artculos han sido escritos pormmolina
image_pdf

El dilema del vigilante

El mundo de la medicina es un mundo de incertidumbre. Nunca podemos estar seguros de nada al 100%, por muy evidente que parezca un diagnóstico, pero no podemos dar palos a diestro y siniestro con técnicas diagnósticas o tratamientos ultramodernos (y nunca inocuos) a la hora de tomar las decisiones que continuamente nos persiguen en nuestra práctica diaria.

Es por esto que siempre estamos inmersos en un mundo de probabilidades, donde las certezas son casi tan infrecuentes como el mal llamado sentido común que, como casi todo el mundo sabe, es el menos común de los sentidos.

Imaginemos que estamos en la consulta y acude un paciente que viene porque le han dado una patada en el culo, bastante fuerte, eso sí. Como buenos médicos que somos le preguntamos aquello de ¿qué le pasa?, ¿desde cuándo? y ¿a qué lo atribuye? Y procedemos a una exploración física completa, descubriendo con horror que tiene un hematoma en la nalga derecha.

Aquí, amigos míos, las posibilidades diagnósticas son numerosas, así que lo primero que vamos a hacer es un diagnóstico diferencial exhaustivo.  Para ello, podremos adoptar cuatro enfoques diferentes. El primero es el enfoque posibilista, que enumerará todos los posibles diagnósticos y tratará de descartar todos ellos de forma simultánea solicitando las pruebas diagnósticas pertinentes. El segundo es el enfoque probabilístico, que ordenará los diagnósticos según su probabilidad relativa y actuará en consecuencia. Parece un hematoma postraumático (el conocido como síndrome de la patada en el culo), pero alguien podría pensar que la patada no ha sido tan fuerte, así que igual el pobre paciente tiene algún trastorno de coagulación o una discrasia sanguínea con una trombopenia secundaria o, incluso, una enfermedad inflamatoria intestinal con manifestaciones extraintestinales atípicas y fragilidad vascular glútea. También podríamos utilizar un enfoque pronóstico y tratar de demostrar o descartar la existencia de los diagnósticos posibles con peor pronóstico, con lo que el diagnóstico de síndrome de la patada en el culo perdería interés y nos iríamos a descartar una leucemia crónica. Por último, podría utilizarse un enfoque pragmático, prestando especial interés en descartar primero aquellos diagnósticos que tienen un tratamiento más eficaz (volveríamos a la patada).

Parece que lo más correcto es utilizar una combinación juiciosa de los enfoques probabilístico, pronóstico y pragmático. En nuestro caso indagaríamos si la intensidad del traumatismo justifica la magnitud del hematoma y, en ese caso, indicaríamos unos paños calientes y nos abstendríamos de realizar más pruebas diagnósticas. Y este ejemplo parece un delirio mío, pero os puedo asegurar que conozco gente que hace la lista completa y tira de prueba diagnóstica ante cualquier sintomatología, sin reparar en gastos ni riesgos. Y, además, alguno que yo me sé pensaría en alguna otra posibilidad más exótica que no acabo de imaginar y aún el paciente tendría que estar agradecido si su diagnóstico no precisa de la realización de una esfinterotomía anal forzada. Y es que, como ya hemos comentado, la lista de espera para obtener un poco de sentido común supera en muchas ocasiones a la lista de espera quirúrgica.

Imaginad ahora otro paciente con un complejo sintomático menos estúpido y absurdo que el del ejemplo previo. Por ejemplo, un niño con síntomas de enfermedad celiaca. Antes de que realicemos ninguna prueba diagnóstica, nuestro paciente ya tiene una probabilidad de padecer la enfermedad. Esta probabilidad vendrá condicionada por la prevalencia de la enfermedad en la población de la que procede y es lo que se denomina probabilidad preprueba. Esta probabilidad se encontrará en algún punto en relación con dos umbrales que os muestro en la figura 1: el umbral de diagnóstico y el umbral terapéutico.

Lo habitual es que la probabilidad preprueba de nuestro paciente no nos permita ni descartar la enfermedad con una seguridad razonable (tendría que ser muy baja, por debajo del umbral diagnóstico) ni confirmarla con la seguridad suficiente como para iniciar el tratamiento (tendría que estar por encima del umbral terapéutico).

Realizaremos entonces la prueba que consideremos indicada, obteniendo una nueva probabilidad de enfermedad según el resultado que nos dé, la llamada probabilidad postprueba. Si esta probabilidad es tan alta como para realizar el diagnóstico e iniciar el tratamiento habremos cruzado el umbral terapéutico. Ya no hará falta realizar pruebas adicionales, ya que tendremos la certeza suficiente para asegurar el diagnóstico y tratar al paciente, siempre dentro de los rangos de incertidumbre de nuestro oficio.

¿Y de qué depende nuestro umbral de tratamiento? Pues hay varios factores implicados. Cuánto mayor riesgo, coste o efectos adversos tenga el tratamiento en cuestión, mayor será el umbral que exigiremos para tratar. Por otra parte, cuanta mayor gravedad comporte omitir el diagnóstico, menor será el umbral terapéutico que aceptaremos.

Pero puede ocurrir que la probabilidad postprueba sea tan baja que nos permita descartar la enfermedad con una seguridad razonable. Habremos cruzado entonces el umbral de diagnóstico, también llamado umbral negativo de prueba. Es evidente que, en esta situación, no estará indicado realizar más pruebas diagnósticas y, mucho menos, iniciar el tratamiento.

Sin embargo, en muchas ocasiones el cambio de probabilidad de preprueba a postprueba nos sigue dejando en tierra de nadie, sin alcanzar ninguno de los dos umbrales, por lo que nos veremos obligados a realizar pruebas adicionales hasta que alcancemos uno de los dos límites.

Y esta es nuestra necesidad de todos los días: conocer la probabilidad postprueba de nuestros pacientes para saber si descartamos o confirmamos el diagnóstico, si dejamos al paciente tranquilo o le fustigamos con nuestros tratamientos. Y es que el planteamiento simplista de que un paciente está enfermo si la prueba diagnóstica es positiva y sano si es negativa es totalmente erróneo, por más que sea la creencia generalizada entre aquellos que indican las pruebas. Tendremos que buscar, pues, algún parámetro que nos indique qué utilidad puede tener una prueba diagnóstica determinada para servir para el fin que necesitamos: saber la probabilidad de que el paciente tenga la enfermedad.

Y esto me recuerda el enorme problema que me consultó el otro día un cuñado. El pobre hombre está muy preocupado con un dilema que le ha surgido. Resulta que va a montar un pequeño comercio y quiere contratar un vigilante para ponerlo en la puerta y que detecte a los que se llevan algo sin pagar. Y el problema es que tiene dos candidatos y no sabe por cuál decidirse. Uno de ellos para a casi todo el mundo, con lo que no se le escapa ningún chorizo. Eso sí, mucha gente honrada se ofende cuando se le pide que abra el bolso antes de salir y lo mismo la próxima vez se va a comprar a otro sitio. El otro es todo lo contrario: no para a casi nadie pero, eso sí, si para a uno, seguro que lleva algo robado. Este ofende a pocos honrados, pero se le escapan demasiados chorizos. Difícil decisión…

¿Y por qué me viene a mí mi cuñado con este cuento? Pues porque sabe que yo me enfrento a diario con un dilema similar cada vez que tengo que elegir una prueba diagnóstica para saber si un paciente está enfermo y le tengo que tratar. Ya hemos dicho que el positivo de una prueba no nos asegura el diagnóstico, al igual que la pinta de chorizo no asegura que el pobre cliente nos haya robado.

Veámoslo con un ejemplo. Cuando queremos saber el valor de una prueba diagnóstica, habitualmente comparamos sus resultados con los de un patrón de referencia o patrón oro (el gold standard de los que saben inglés), que es una prueba que, idealmente, es siempre positiva en los enfermos y negativa en los sanos. Ahora supongamos que yo hago un estudio en mi consulta del hospital con una prueba diagnóstica nueva para detectar una determinada enfermedad y obtengo los resultados de la tabla adjunta (los enfermos son los que tienen la prueba de referencia positiva y los sanos, negativa).

Empecemos por lo fácil. Tenemos 1598 sujetos, 520 de ellos enfermos y 1078 sanos. La prueba nos da 446 positivos, 428 verdaderos (VP) y 18 falsos (FP). Además, nos da 1152 negativos, 1060 verdaderos (VN) y 92 falsos (FN). Lo primero que podemos determinar es la capacidad de la prueba para distinguir entre sanos y enfermos, lo que me da pie para introducir los dos primeros conceptos: sensibilidad (S) y especificidad (E). La S es la probabilidad de que la prueba clasifique correctamente a los enfermos o, dicho de otro modo, la probabilidad de que el enfermo sea positivo. Se calcula dividiendo los VP por el número de enfermos. En nuestro caso es de 0,82 (voy a emplear tantos por uno, pero si a alguien le gustan más los porcentajes ya sabe: a multiplicar por 100). Por otra parte, la E es la probabilidad de que se clasifique correctamente a los sanos o, dicho de otro modo, de que los sanos tengan un resultado negativo. Se calcula dividiendo los VN entre el número de sanos. En nuestro ejemplo, 0,98.

Alguien podrá pensar que ya tenemos medido el valor de la nueva prueba, pero no hemos hecho nada más que empezar. Y esto es así porque S y E nos miden de alguna manera la capacidad de la prueba para discriminar sanos de enfermos, pero nosotros lo que en realidad necesitamos saber es la probabilidad de que un positivo sea enfermo y de que un negativo sea sano y, aunque puedan parecer conceptos similares, en realidad son bien diferentes.

La posibilidad de que un positivo sea enfermo se conoce como valor predictivo positivo (VPP) y se calcula dividiendo el número de enfermos con prueba positiva entre el número total de positivos. En nuestro caso es de 0,96. Esto sí quiere decir que un positivo tiene un 96% de probabilidad de estar enfermo. Por otra parte, la probabilidad de que un negativo sea sano se expresa mediante el valor predictivo negativo (VPN), que es el cociente de sanos con resultado negativo entre el número total de negativos. En nuestro ejemplo vale 0,92 (un negativo tiene una probabilidad del 92% de estar sano). Esto ya se va pareciendo más a lo que dijimos al principio que necesitábamos: la probabilidad postprueba de que el paciente esté realmente enfermo.

Y ahora es cuando las neuronas empiezan a recalentarse. Resulta que S y E son dos características intrínsecas de la prueba diagnóstica. Los resultados serán los mismos siempre que hagamos la prueba en unas condiciones similares, con independencia de a quién se la hagamos. Pero esto no es así con los valores predictivos, que varían según la prevalencia de la enfermedad en la población en la que hacemos la prueba. Esto quiere decir que la probabilidad de que un positivo esté enfermo depende de lo frecuente o rara que sea la enfermedad en su población. Sí, sí, habéis leído bien: la misma prueba positiva expresa diferente riesgo de estar enfermo, y, para los incrédulos, os pongo otro ejemplo. Supongamos que esta misma prueba la hace un coleguilla mío en su consulta del Centro de Salud, donde la población es proporcionalmente más sana (esto es lógico, todavía no han pasado por el hospital). Si veis los resultados de la tabla, y os molestáis en calcular, veréis que obtiene una S de 0,82 y una E de 0,98, lo mismo que me salía a mí en mi consulta. Sin embargo, si calculáis los valores predictivos, veréis que el VPP es de 0,9 y el VPN de 0,95. Y esto es así porque las prevalencias de la enfermedad (enfermos/totales) son distintas en las dos poblaciones: 0,32 en mi consulta de hospital y 0,19 en la suya. O sea, que en los casos de prevalencia más alta un positivo ayuda más para confirmar la enfermedad y un negativo ayuda menos para descartarla. Y al revés, si la enfermedad es muy rara un negativo permitirá descartar la enfermedad con una seguridad razonable, pero un positivo nos ayudará mucho menos a la hora de confirmarla.

Vemos pues que, como pasa casi siempre en medicina, nos movemos en el poco firme terreno de las probabilidades, ya que todas (absolutamente todas) las pruebas diagnósticas son imperfectas y cometen errores a la hora de clasificar sanos y enfermos. Entonces, ¿cuándo merece la pena utilizar una prueba determinada? Pues si pensamos que un determinado sujeto tiene ya una probabilidad de estar enfermo antes de hacerle la prueba (la prevalencia de la enfermedad en su población), solo nos interesará utilizar pruebas que aumenten esa probabilidad lo suficiente como para justificar el inicio del tratamiento pertinente (en otro caso tendríamos que hacer otra prueba hasta alcanzar el nivel umbral de probabilidad que justifique el tratamiento).

Y aquí es donde el tema se empieza a poner antipático. El cociente de probabilidad positivo (CPP) o razón de verosimilitud positiva nos indica cuánto más probable es tener un positivo en un enfermo que en un sano. La proporción de positivos en los enfermos es la S. La proporción de los positivos en sanos son los FP, que serían aquellos sanos que no dan negativo o, lo que es lo mismo, 1-E. Así, el CPP = S / (1-E). En nuestro caso (del hospital) vale 41 (el mismo aunque utilicemos porcentajes para S y E). Esto puede interpretarse como que es 41 veces más probable encontrar un resultado positivo en un enfermo que en un sano.
Puede calcularse también el CPN (el negativo), que expresa cuánto más probable es encontrar un negativo en un enfermo que en un sano. Los enfermos negativos son aquellos que no dan positivo (1-S) y los sanos negativos son los VN (la E de la prueba). Luego el CPN = (1-S)/E. En nuestro ejemplo 0,18.

Un cociente de probabilidad igual a 1 indica que el resultado de la prueba no modifica la probabilidad de estar enfermo. Si es mayor que 1 aumenta esta probabilidad y, si es menor, la disminuye. Este parámetro es el que usamos para determinar la potencia diagnóstica de la prueba. Valores  >10 para CPP (o <0,1 pata CPN) indican que se trata de una prueba muy potente que apoya (o contradice) fuertemente el diagnóstico; de 5-10 (o de 0,1-0,2) indican poca potencia de la prueba para apoyar (o descartar) el diagnóstico; de 2-5 (o de 0,2-0,5) indican que la aportación de la prueba es dudosa; y, por último, de 1-2 (o de 0,5-1) indican que la prueba no tiene utilidad diagnóstica.

El cociente de probabilidad no expresa una probabilidad directa, pero nos sirve para calcular las probabilidades de ser enfermo antes y después de dar positivo en la prueba diagnóstica por medio de la regla de Bayes, que dice que la odds postprueba es igual al producto de la odds preprueba por el cociente de probabilidad. Para transformar la prevalencia en odds preprueba usamos la fórmula odds = p/(1-p). En nuestro caso valdría 0,47. Ahora ya podemos calcular la odds posprueba (OPos) multiplicando la preprueba por el cociente de probabilidad. En nuestro caso, la odds postprueba positiva vale 19,27. Y por último, transformamos la odds postprueba en probabilidad postprueba usando la fórmula p = odds/(odds+1). En nuestro ejemplo vale 0,95, lo que quiere decir que si nuestra prueba es positiva la probabilidad de estar enfermo pasa de 0,32 (la prevalencia o probabilidad preprueba) a 0,95 (probabilidad posprueba).

Si todavía queda alguien leyendo a estas alturas, le diré que no hace falta saberse todo este galimatías de fórmulas. Existen en Internet múltiples páginas con calculadoras para obtener todos estos parámetros a partir de la tabla 2×2 inicial con un esfuerzo miserable. Además, la probabilidad postprueba puede calcularse de forma sencilla utilizando el nomograma de Fagan (ver figura). Este gráfico representa en tres líneas verticales de izquierda a derecha la probabilidad preprueba (se representa invertida), el cociente de probabilidades y la probabilidad postprueba resultante.

Para calcular la probabilidad postprueba tras un resultado po­sitivo, trazamos una línea desde la prevalencia (probabilidad preprueba) hasta el CPP y la prolongamos hasta el eje de la probabilidad postprueba. De modo similar, para calcular la pro­babilidad postprueba tras un resultado negativo, prolongaría­mos la línea que une la prevalencia con el valor del CPN.

De esta manera, con esta herramienta podemos calcular de modo directo la probabilidad postprueba conociendo los co­cientes de probabilidades y la prevalencia. Además, podremos utilizarlo en poblaciones con distintas prevalencias, simple­mente modificando el origen de la línea en el eje de la proba­bilidad preprueba.

Hasta aquí ya hemos definido los parámetros que nos sirven para cuantificar la potencia de una prueba diagnóstica y hemos visto las limitaciones de sensibilidad, especificidad y valores predictivos y como los más útiles de forma general son los cocientes de probabilidades. Pero, os preguntaréis, ¿qué es bueno?, ¿qué sea sensible?, ¿Qué sea específica?, ¿las dos cosas?.

Aquí vamos a volver al dilema del vigilante que se le ha planteado a mi pobre cuñado, que le hemos dejado abandonado, porque todavía no hemos respondido cuál de los dos vigilantes le aconsejamos que contrate, el que para a casi todo el mundo para mirarle el bolso y ofende a mucha gente que no roba nada, o el que no para a casi nadie pero tampoco falla con el que para, aunque se escapen muchos ladrones.

¿Y cuál creéis que es mejor de los dos? La respuesta es muy sencilla: depende. Los que todavía estéis despiertos a estas alturas ya os habréis dado cuenta de que el primer vigilante (el que registra a muchos) es, sin ánimo de ofender, el sensible, mientras que el segundo es el específico. ¿Qué nos interesa más, que el vigilante sea sensible o específico? Pues depende, por ejemplo, de donde tengamos el comercio. Si lo hemos abierto en un barrio de gente bien, no nos interesará mucho el primero, ya que, en realidad, poca gente robará y nos interesa más no ofender a los clientes para que no se vayan. Pero si ponemos la tienda en frente de la Cueva de Alí-Babá sí que nos traerá más cuenta contratarle para que nos detecte el mayor número posible de clientes que se llevan género robado. Pero también puede depender de lo que vendamos en la tienda. Si tenemos un “todo a un euro” (o un “todo a cien” para los nostálgicos) podemos contratar al vigilante específico, aunque se nos escape alguno (total, perderemos poco dinero). Pero si vendemos joyería fina no querremos que se escape ningún ladrón y contrataremos al sensible (preferiremos que alguien inocente se moleste por ser registrado a que se nos escape uno con un diamante de los gordos).

Pues esto mismo ocurre en medicina con la elección de las pruebas diagnósticas: tendremos que decidir en cada caso si nos interesa más una sensible o una específica, porque no siempre las pruebas disponibles tienen un alto valor de estos dos parámetros.

En general, se prefiere una prueba sensible cuando los inconvenientes de obtener falsos positivos (FP) son menores que los de los falsos negativos (FN). Por ejemplo, supongamos que vamos a vacunar a un grupo de enfermos y sabemos que la vacuna es letal en los que tienen determinado error metabólico. Es claro que nos interesará que no se escape ningún enfermo sin diagnosticar (que no haya FN), aunque no pasa nada si a algún sano le etiquetamos de tener el error metabólico (un FP): será preferible no vacunar a un sano por pensar que tiene la metabolopatía (aunque no la tenga) que cargarnos a uno con la vacuna por pensar que no la tenía. Otro ejemplo menos dramático: en medio de una epidemia nos interesará una prueba muy sensible para poder aislar al mayor número posible de enfermos. El problema aquí es el de los desgraciados sanos positivos (FP) que meteríamos con los infectados, a los cuáles haríamos un flaco favor con la maniobra. Claro que bien podríamos hacer, a todos los positivos de la primera prueba, una segunda de confirmación que sea muy específica para evitar este calvario a los FP.

Por otra parte, se prefiere una prueba específica cuando es mejor tener FN que FP, como cuando queremos estar seguros de que un enfermo realmente lo está. Imaginemos que el resultado positivo de una prueba conlleva un tratamiento consistente en una operación quirúrgica: nos convendrá bastante estar seguros de que no vamos a operar a ningún sano.

Otro ejemplo es el de las enfermedades cuyo diagnóstico puede ser muy traumático para el paciente y que encima son prácticamente incurables o no tienen tratamiento. Aquí primaremos la especificidad para no darle un disgusto innecesario a ningún sano. Por el contrario, si la enfermedad es muy grave pero tiene tratamiento, probablemente prefiramos una prueba sensible.

Hasta aquí hemos hablado de pruebas con resultado dicotómico: positivo o negativo. Pero, ¿qué pasa cuando el resultado es cuantitativo? Imaginemos que medimos la glucemia en ayunas. Debemos decidir hasta qué valor de glucemia consideramos normal y por encima de cuál nos parecerá patológico. Y esta es una decisión crucial, porque S y E dependerán del punto de corte que elijamos.

Para ayudarnos a elegir disponemos de la curva de características operativas para el receptor, mundialmente conocida como curva ROC (receiver operating characteristic). Representamos en ordenadas (eje y) la S y en abscisas el complementario de la E (1-E) y trazamos una curva en la que cada punto de corte representa la probabilidad de que la prueba clasifique correctamente a una pareja sano-enfermo tomada al azar. La diagonal del gráfico representaría la “curva” si la prueba no tuviese capacidad ninguna de discriminar sanos de enfermos.

Como veis en la figura, la curva suele tener un segmento de gran pendiente donde aumenta rápidamente la S sin que apenas varíe la E: si nos desplazamos hacia arriba podemos aumentar la S sin que prácticamente nos aumenten los FP. Pero llega un momento en que llegamos a la parte plana. Si seguimos desplazándonos hacia la derecha llegará un punto a partir del cual la S ya no aumentará más, pero comenzarán a aumentar los FP. Si nos interesa una prueba sensible, nos quedaremos en la primera parte de la curva. Si queremos especificidad tendremos que irnos más hacia la derecha. Y, por último, si no tenemos predilección por ninguna de las dos (nos preocupa igual obtener FP que FN), el mejor punto de corte será el más próximo al ángulo superior izquierdo. Para esto, algunos utilizan el denominado índice de Youden, que es el que optimiza al máximo los dos parámetros y que se calcula sumando S y E y restando 1. Cuanto más alto, menos pacientes mal clasificados por la prueba diagnóstica.

Un parámetro de interés es el área bajo la curva (ABC), que nos representa la probabilidad de que la prueba diagnóstica clasifique correctamente al paciente al que se le practique (figura 4). Una prueba ideal con S y E del 100% tiene un área bajo la curva de 1: siempre acierta. En clínica, una prueba cuya curva ROC tenga un ABC > 0,9 se considera muy exacta, entre 0,7-0,9 de exactitud moderada y entre 0,5-0,7 de exactitud baja. En la diagonal el ABC es igual a 0,5 e indica que da igual hacer la prueba que tirar una moneda al aire para decidir si el paciente está enfermo o no. Valores por debajo de 0,5 indican que la prueba es incluso peor que el azar, ya que clasificará sistemáticamente a enfermos como sanos y viceversa.

Curiosas las curvas ROC, ¿verdad?. Pues su utilidad no se limita a la valoración de la bondad de las pruebas diagnósticas con resultado cuantitativo. Las curvas ROC sirven también para determinar la bondad del ajuste de un modelo de regresión logística para predecir resultados dicotómicos, pero esa es otra historia…

Rey de reyes

No cabe duda de que a la hora de realizar un trabajo de investigación en biomedicina podemos elegir entre un gran número de diseños posibles, todos ellos con sus ventajas e inconvenientes. Pero en esta corte tan diversa y poblada, entre malabaristas, sabios, jardineros y flautistas púrpuras, reina por encima de todos el verdadero Rey Carmesí de la epidemiología: el ensayo clínico aleatorizado.

El ensayo clínico es un estudio de intervención, analítico, de dirección anterógrada y temporalidad concurrente, con muestreo de cohorte cerrada con control de la exposición. En un ensayo se selecciona una muestra de una población y se divide al azar en dos grupos. Uno de los grupos (grupo de intervención) sufre la intervención que queremos estudiar, mientras que el otro (grupo de control) nos sirve de referencia para comparar los resultados. Tras un periodo de seguimiento determinado se analizan los resultados y se comparan las diferencias entre los dos grupos. Podemos así evaluar los beneficios de los tratamientos o intervenciones al mismo tiempo que controlamos los sesgos de otros tipos de estudios: la aleatorización favorece que los posibles factores de confusión, conocidos o no, se repartan de forma uniforme entre los dos grupos, de forma que si al final detectamos alguna diferencia, esta tiene que ser debida a la intervención en estudio. Esto es lo que nos permite establecer una relación causal entre exposición y efecto.

Por lo dicho hasta ahora, se comprende fácilmente que el ensayo clínico aleatorizado sea el diseño más adecuado para valorar la eficacia de cualquier intervención en medicina y es el que proporciona, como ya hemos comentado, una evidencia de mayor calidad para demostrar la relación de causalidad entre la intervención y los resultados observados.

Pero para disfrutar de todos estos beneficios es necesario ser escrupuloso en el planteamiento y metodología de los ensayos. Existen listas de verificación publicadas por sabios que entienden mucho de estos temas, como es el caso de la lista CONSORT, que nos pueden ayudar a valorar la calidad del diseño del ensayo. Pero entre todos estos aspectos, reflexionemos un poco sobre aquellos que son cruciales para la validez del ensayo clínico.

Todo empieza con una laguna de conocimiento que nos lleva a formular una pregunta clínica estructurada. El único objetivo del ensayo debe ser responder a esta pregunta y basta con que se responda de forma adecuada a una sola pregunta. Desconfiad de los ensayos clínicos que tratan de responder a muchas preguntas, ya que, en muchas ocasiones, al final no responden bien a ninguna. Además, el planteamiento debe basarse en lo que los inventores de jerga metodológica llaman el principio de incertidumbre (la equipoise de los que hablan inglés), que no quiere decir más que, en el fondo de nuestro corazón, desconocemos de verdad cuál de las dos intervenciones es más beneficiosa para el paciente (habría que ser un poco perro desde el punto de vista ético para realizar una comparación si ya sabemos con seguridad cuál de las dos intervenciones es mejor). Es curioso en este sentido cómo los ensayos patrocinados por la industria farmacéutica tienen más tendencia a incumplir el principio de incertidumbre, ya que tienen preferencia por comparar con placebo o con “no intervención” para poder demostrar con más facilidad la eficacia de sus productos.A continuación debemos elegir cuidadosamente la muestra sobre la que realizaremos el ensayo. Idealmente, todos los miembros de la población deberían tener la misma probabilidad no solo de ser elegidos, sino también de acabar en cualquiera de las dos ramas del ensayo. Aquí nos encontramos con un pequeño dilema. Si somos muy estrictos con los criterios de inclusión y exclusión la muestra será muy homogénea y la validez interna del estudio saldrá fortalecida, pero será más difícil extender los resultados a la población general (esta es la actitud explicativa de selección de la muestra). Por otra parte, si no somos tan rígidos los resultados se parecerán más a los de la población general, pero puede verse comprometida la validez interna del estudio (esta es la actitud pragmática).

La aleatorización (¿quién ha dicho randomización?) es uno de los puntos clave del ensayo clínico. Es la que nos asegura que podemos comparar los dos grupos, ya que tiende a distribuir por igual las variables conocidas y, más importante, también las desconocidas entre los dos grupos. Pero no nos relajemos demasiado: este reparto no está en absoluto garantizado, solo es más probable que ocurra si aleatorizamos de forma correcta, así que siempre deberemos comprobar la homogeneidad de los dos grupos, sobre todo con muestras pequeñas.

Además, la aleatorización nos permite realizar de forma adecuada el enmascaramiento, con lo que realizamos una medición no sesgada de la variable de respuesta, evitando los sesgos de información. Estos resultados del grupo de intervención los podemos comparar con los del grupo control de tres formas. Una de ellas es comparar con un placebo. El placebo debe ser un preparado de características físicas indistinguibles del fármaco de intervención pero sin sus efectos farmacológicos. Esto sirve para controlar el efecto placebo (que depende de la personalidad del paciente, de sus sentimientos hacia a la intervención, de su cariño por el equipo investigador, etc), pero también los efectos secundarios que son debidos a la intervención y no al efecto farmacológico (pensemos, por ejemplo, en el porcentaje de infecciones locales en un ensayo con medicación administrada por vía intramuscular).

La otra forma de comparar es con el tratamiento aceptado como más eficaz hasta el momento. Si existe un tratamiento que funciona, lo lógico (y más ético) es que lo usemos para investigar si el nuevo aporta beneficios. También suele ser el método de comparación habitual en los estudios de equivalencia o de no-inferioridad. Por último, la tercera posibilidad es comparar con la no intervención, aunque en realidad esto es una forma rebuscada de decir que solo se le aplican los cuidados habituales que recibiría cualquier paciente en su situación clínica.

Es imprescindible que todos los participantes en el ensayo sean sometidos a la misma pauta de seguimiento, que debe ser lo suficientemente prolongado como para permitir que se produzca la respuesta esperada. Deben detallarse y analizarse todas las pérdidas que se produzcan durante el seguimiento, ya que pueden comprometer la validez y la potencia del estudio para detectar diferencias significativas. ¿Y qué hacemos con los que se pierden o acaban en una rama diferente a la asignada?. Si son muchos, lo más razonable puede ser rechazar el estudio. Otra posibilidad es excluirlos y hacer como si no hubiesen existido nunca, pero podemos sesgar los resultados del ensayo. Una tercera posibilidad es incluirlos en el análisis en la rama del ensayo en la que han participado (siempre hay alguno que se confunde y se toma lo que no le toca), lo que se conoce como análisis por tratamiento o análisis por protocolo. Y la cuarta, y última opción que tenemos, es analizarlos en la rama que se les asignó inicialmente con independencia de lo que hayan hecho durante el estudio. Esto se denomina análisis por intención de tratar, y es la única de las cuatro posibilidades que nos permite conservar todos los beneficios que previamente nos había proporcionado la aleatorización.

Como fase final, nos quedaría el análisis y comparación de los datos para extraer las conclusiones del ensayo, utilizando para ello las medidas de asociación y medidas de impacto oportunas que, en el caso del ensayo clínico, suelen ser la tasa de respuesta, el riesgo relativo (RR), la reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT). Vamos a verlos con un ejemplo.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A para no calentarnos mucho la cabeza) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles. Podéis ver en la tabla adjunta cómo se calculan estas medidas.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la RRR y la RAR. La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,4, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el NNT = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo que también os muestro en la tabla. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado para meteros el vino barato y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Hasta ahora todo lo que hemos dicho hace referencia al diseño clásico de ensayo clínico en paralelo, pero el rey de los diseños tiene muchas caras y, con mucha frecuencia, podemos encontrar trabajos en los que se nos muestra de forma un poco diferente, lo que puede implicar que el análisis de los resultados tenga peculiaridades especiales.

Vamos a empezar con una de las variaciones más frecuentes. Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. Como podéis ver en la figura adjunta, en este tipo de ensayo cada sujeto es aleatorizado a un grupo, se le somete a la intervención, se deja pasar un periodo de lavado o blanqueo y se le somete a la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo? Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Acabo ya. La verdad es que esta entrada me ha quedado un poco larga (y espero que no demasiado coñazo), pero es que el Rey se lo merece. De todas formas, si pensáis que está todo dicho sobre ensayos clínicos no tenéis ni idea de todo lo que queda por decir sobre tipos de muestreos, de aleatorización, etc, etc, etc. Pero esa es otra historia…

De la gallina al huevo

Seguro que alguna persona que rebosaba ingenio a raudales os ha preguntado en alguna ocasión, con mirada de suficiencia, ¿qué fue antes, el huevo o la gallina? Pues bien, la próxima vez que os encontréis con alguien así podéis responder con otra pregunta: ¿es qué tienen algo que ver el huevo y la gallina? Porque primero habrá que saber, no solo si para tener gallinas hay primero que tener huevos (con perdón), sino también qué probabilidad hay de acabar teniéndolas, con huevos o sin ellos (alguna mente retorcida dirá que la pregunta se podría plantear al revés, pero es que yo soy de los que piensan que lo primero que hay que tener, sin ánimo de ofender, son huevos).

Este planteamiento nos llevaría al diseño de un estudio de casos y controles, que es un estudio observacional y analítico en la que el muestreo se hace en base a presentar una determinada enfermedad o efecto (los casos) y se compara ese grupo con otro grupo que no lo presenta (los controles), con el objetivo de determinar si existe diferencia en la frecuencia de exposición a un determinado factor de riesgo entre los dos grupos. Estos estudios son de direccionalidad retrógrada y de temporalidad mixta, por lo que la mayor parte son de naturaleza retrospectiva aunque, al igual que ocurría con los estudios de cohortes, pueden ser también prospectivos (quizás la clave más útil para distinguir entre los dos sea el muestreo de cada uno, en base a la exposición en los estudios de cohortes y en base al efecto en los de casos y controles).

En la figura que os adjunto podéis ver el diseño típico de un estudio de casos y controles. En estos estudios se parte de una población determinada de la que se extrae una muestra de casos que habitualmente suele englobar todos los casos diagnosticados y disponibles, y se comparan con un grupo control formado por una muestra balanceada de sujetos sanos que proceden de la misma población que los sanos. Sin embargo, cada vez es más frecuente encontrarse con variaciones del diseño básico que combinan características de los estudios de cohortes y de casos y controles, comparando los casos que van apareciendo en una cohorte estable a lo largo del tiempo con controles de una muestra parcial extraída de esa misma cohorte.

El más conocido de este tipo de diseños mixto es el de casos y controles anidado en una cohorte. En estos casos partimos de una cohorte ya conocida en la que vamos identificando los casos que se van produciendo. Cada vez que aparece un caso, se empareja con uno o varios controles sacados también de la cohorte inicial. Si lo pensamos brevemente, es posible que un sujeto que sea seleccionado inicialmente como control se convierta en caso a lo largo del tiempo (desarrolle la enfermedad en estudio). Aunque pueda parecer que esto pueda sesgar los resultados, esto no debe ser así, ya que se trata de medir el efecto de la exposición en el momento de realizar el análisis. Este diseño puede hacerse con cohortes más pequeñas, por lo que puede ser más sencillo y económico. Además, es especialmente útil en cohortes muy dinámicas con muchas entradas y salidas a lo largo del tiempo, sobre todo si la incidencia de la enfermedad en estudio es baja.

Otra variante del diseño básico son los estudios de cohorte y casos. En este, inicialmente tenemos una cohorte muy grande de la que seleccionaremos una subcohorte más pequeña. Los casos serán los enfermos que se vayan produciendo en cualquiera de las dos cohortes, mientras que los controles serán los sujetos de la subcohorte más pequeña (y más manejable). Estos estudios tienen un método de análisis un poco más complicado que los diseños básicos, ya que tienen que compensar el hecho de que los casos se ven sobrerrepresentados al poder provenir de las dos cohortes. La gran ventaja de este diseño es que permite estudiar varias enfermedades a la vez, comparando las diversas cohortes de enfermos con la subcohorte elegida como control.

Por fin, una última variación que vamos a tratar es la de los polisémicos estudios de caso-cohorte, también llamados de casos y controles cruzados, también llamados de casos autocontrolados. En este diseño pareado, cada individuo sirve como su propio control, comparándose la exposición durante el periodo de tiempo más cercano a la aparición de la enfermedad (periodo caso) con la exposición durante el periodo de tiempo previo (periodo control). Este planteamiento de estudio es útil cuando la exposición es corta, con un tiempo de actuación previsible y produce una enfermedad de corta duración en el tiempo. Son muy utilizados, por ejemplo, para estudiar los efectos adversos de las vacunas.

Al igual que en los estudios de cohortes, los estudios de casos y controles permiten el cálculo de toda una serie de medidas de asociación e impacto. Claro que aquí nos encontramos con una diferencia fundamental con los estudios de cohortes. En estos partíamos de una cohorte sin enfermos en la que iban apareciendo los enfermos a lo largo del seguimiento, lo que nos permitía calcular el riesgo de enfermar a lo largo del tiempo (incidencia). Así, el cociente entre incidencias de expuestos y no expuestos nos proporcionaba el riesgo relativo, la principal medida de asociación.

Sin embargo, como puede deducirse del diseño de los estudios de casos y controles, en estos casos no podemos hacer una estimación directa ni de la incidencia ni de la prevalencia de la enfermedad, ya que la proporción de expuestos y enfermos viene determinada por los criterios de selección del investigador y no por la incidencia en la población (se seleccionan de entrada un número fijo de casos y de controles, pero no podemos calcular el riesgo de ser caso en la población). Así, ante la imposibilidad de calcular el riesgo relativo recurriremos al cálculo de la odds ratio (OR), tal como véis en la segunda figura.

La OR tiene una lectura similar a la del riesgo relativo, pudiendo valer desde cero hasta infinito. Una OR=1 quiere decir que no hay asociación entre exposición y efecto. Una OR<1 quiere decir que la exposición es un factor de protección frente al efecto. Por último, una OR>1 indica que la exposición es un factor de riesgo, tanto mayor cuanto mayor sea el valor de la OR.

De todos modos, y solo para los que gusten de meterse en complicaciones, os diré que es posible calcular las tasas de incidencia a partir de los resultados de un estudio de casos y controles. Si la incidencia de la enfermedad en estudio es baja (por debajo del 10%), pueden equipararse OR y riesgo relativo, así que podemos estimar la incidencia de forma aproximada. Si la incidencia de la enfermedad es mayor, la OR tiende a sobreestimar el riesgo relativo, así que no podemos equiparalos. De todas formas, en estos casos, si conocemos previamente la incidencia de la enfermedad en la población (obtenida de otro tipo de estudios), podemos calcular la incidencia utilizando las siguientes fórmulas:

I0 = It / (OR x Pe) + P0

Ie = I0 x OR,

donde It es la incidencia total, Ie la incidencia en expuestos, I0 la incidencia en no expuestos, Pe la proporción de expuestos y P0 la proporción de no expuestos.

Aunque la OR permite estimar la fuerza de la asociación entre la exposición y el efecto, no informa sobre el efecto potencial que tendría eliminar la exposición sobre la salud de la población. Para ello, tendremos que recurrir a las medidas de riesgo atribuible (tal como hacíamos con los estudios de cohortes), que pueden ser absolutas o relativas.

Las medidas absolutas de riesgo atribuible son dos. La primera es el riesgo atribuible en expuestos (RAE), que es la diferencia entre la incidencia en expuestos y no expuestos y representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en los expuestos. La segunda es el riesgo atribuible poblacional (RAP), que representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en la población general.

Por su parte, las medidas relativas de riesgo atribuible (también conocidas como proporciones o fracciones atribuibles o etiológicas) son también dos. La primera, la fracción atribuible en expuestos (FAE), que representa la diferencia de riesgo relativo a la incidencia en el grupo de expuestos al factor. La segunda, la fracción atribuible poblacional (FAP), que representa la diferencia de riesgo relativo a la incidencia en la población general.

En la tabla adjunta os muestro las fórmulas para el cálculo de estos parámetros, que es algo más complejo que en el caso de los estudios de cohortes.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo del número necesario a tratar (NNT) de los ensayos clínicos, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos entre expuestos y no expuestos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la FAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FAE. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE). Será de utilidad que intentemos calcularlos si los autores del estudio no lo hacen, ya que nos darán una idea del impacto real de la exposición sobre el efecto.

Como colofón a los tres anteriores, podríamos estimar el efecto de la exposición en toda la población calculando el número de impacto en la población (NIP), para lo cual no tenemos más que hacer el inverso del RAP. Así, un NIP de 3000 quiere decir que por cada 3000 sujetos de la población se producirá un caso de enfermedad debida a la exposición.

Además de la valoración de las medidas de asociación e impacto, cuando valoremos un estudio de casos y controles tendremos que prestar especial atención a la presencia de sesgos, ya que son los estudios observacionales que tienen más riesgo de presentarlos.

Los estudios de casos y controles son relativamente sencillos de hacer, generalmente tienen menor coste que otros estudios observacionales (como los estudios de cohortes), permiten estudiar varios factores de exposición al mismo tiempo y saber cómo interactúan entre ellos y son ideales para enfermedades o factores de exposición de frecuencia muy baja. El problema de este tipo de diseño es que hay que ser sumamente cuidadoso para seleccionar los casos y los controles, ya que, como ya hemos dicho, es muy fácil caer en una lista de sesgos que, a día de hoy, no tiene aún un final conocido.

En general, los criterios de selección deberían ser los mismos para casos y controles, pero, como para ser caso hay que estar diagnosticado de la enfermedad y estar disponible para el estudio, es muy probable que los casos no sean totalmente representativos de la población. Por ejemplo, si los criterios de diagnóstico son poco sensibles y específicos habrá muchos falsos positivos y negativos, con lo que el efecto de la exposición al factor se diluirá.

Otro posible problema depende de que elijamos casos incidentes (de nuevo diagnóstico) o prevalentes. Los estudios basados en prevalencia favorecen la selección de supervivientes (hasta ahora no se conoce ningún caso de un muerto que haya accedido a participar en ningún estudio) y, si la supervivencia está relacionada con la exposición, el riesgo detectado será menor que con casos incidentes. Este efecto es todavía más evidente cuando el factor de exposición es de buen pronóstico, situación en la que los estudios prevalentes producen una mayor sobreestimación de la asociación. Un ejemplo para comprender mejor estos aspectos:  supongamos que el riesgo de infarto es mayor cuanto más se fuma. Si solo incluimos casos prevalentes excluiremos a los muertos por infarto más grave, que presumiblemente deberían ser los que más fumasen, con lo cual el efecto del tabaco podría infraestimarse.

Pero si lo de los casos parece complicado, no es nada comparado con una buena selección de los controles. Lo ideal es que los controles hayan tenido la misma probabilidad de exposición que los casos o, dicho de otra forma más elegante, deben ser representativos de la población de la que proceden los casos. Además, esto hay que compatibilizarlo con la exclusión de aquéllos que tengan alguna enfermedad que se relacione de forma positiva o negativa con el factor de exposición. Por ejemplo, si nos sobra tiempo y queremos ver la asociación entre pasajeros de avión que tienen una tromboflebitis y la ingesta previa de aspirina, tendremos que excluir de los controles a los que tengan cualquier otra enfermedad que se trate con aspirina, aunque no la hubiesen tomado antes de emprender el viaje.

También hay que ser crítico con algunos hábitos de selección de controles. Por ejemplo, los pacientes que van al hospital por otro motivo distinto al estudiado están muy a mano, suelen ser muy colaboradores y, al ser enfermos, seguramente recordarán mejor las exposiciones pasadas a factores de riesgo. Pero el problema es ese, que son enfermos, por lo que pueden tener hábitos de exposición a factores de riesgo diferentes a los de la población general.

Otro recurso es reclutar a vecinos, amigos, familiares, etc. Éstos suelen ser muy comparables y colaboradores, pero tenemos el riesgo de que haya emparejamiento de hábitos de exposición que nos alteren los resultados del estudio. Todos estos problemas se evitan tomando los controles de la población general, pero esto es más costoso en esfuerzo y dinero, suelen ser menos colaboradores y, sobre todo, mucho más olvidadizos (los sanos recuerdan menos la exposición a factores de riesgo pasados), con lo que la calidad de la información que obtengamos de casos y controles puede ser muy diferente.

Solo una reflexión más para terminar con este tema tan ameno. Los estudios de casos y controles comparten una característica con el resto de los estudios observacionales: detectan la asociación entre la exposición y el efecto, pero no nos permiten establecer con seguridad relaciones de causalidad, para lo cual necesitamos otro tipo de estudios como los ensayos clínicos aleatorizados. Pero esa es otra historia…

Una de romanos

¡Qué tíos esos romanos!. Iban, veían y vencían. Con esas legiones, cada una con sus diez cohortes, cada cohorte con sus casi quinientos romanos con su falda y sus sandalias de correas. Las cohortes eran grupos de soldados que estaban al alcance de la arenga de un mismo jefe y siempre avanzaban, nunca retrocedían. Así se puede conquistar la Galia (aunque no en su totalidad, como es bien sabido).

En epidemiología, una cohorte es también un grupo de personas que comparten algo, pero en lugar de ser la arenga de su jefe es la exposición a un factor que se estudia a lo largo del tiempo (tampoco son imprescindibles ni la falda ni las sandalias). Así, un estudio de cohortes es un tipo de diseño observacional, analítico, de direccionalidad anterógrada y de temporalidad concurrente o mixta que compara la frecuencia con la que ocurre un determinado efecto (generalmente una enfermedad) en dos grupos diferentes (las cohortes), uno de ellos expuesto a un factor y otro no expuesto al mismo factor (ver figura adjunta). Por lo tanto, el muestreo está relacionado con la exposición al factor. Ambas cohortes se estudian a lo largo del tiempo, por lo que la mayor parte de los estudios de cohortes son prospectivos o de temporalidad concurrente (van hacia delante, como las cohortes romanas). Sin embargo, es posible hacer estudios de cohortes retrospectivos una vez ocurridos tanto la exposición como el efecto. En estos casos, el investigador identifica la exposición en el pasado, reconstruye la experiencia de la cohorte a lo largo del tiempo y asiste en el presente a la aparición del efecto, por lo que son estudios de temporalidad mixta.

Podemos clasificar también los estudios de cohortes según utilicen un grupo de comparación interno o externo. En ocasiones podemos utilizar dos cohortes internas pertenecientes a la misma población general, clasificando a los sujetos en una u otra cohorte según el nivel de exposición al factor. Sin embargo, otras veces la cohorte expuesta nos interesará por su alto nivel de exposición, por lo que preferiremos seleccionar una cohorte externa de sujetos no expuestos para realizar la comparación entre ambas.

Otro aspecto importante a la hora de clasificar los estudios de cohortes es el momento de inclusión de los sujetos en el estudio. Cuando solo seleccionamos los sujetos que cumplen los criterios de inclusión al comienzo del estudio hablamos de cohorte fija, mientras que hablaremos de cohorte abierta o dinámica cuando siguen entrando sujetos en el estudio a lo largo del seguimiento. Este aspecto tendrá importancia, como veremos después, a la hora de calcular las medidas de asociación entre exposición y efecto.

Por último, y como curiosidad, también podemos hacer un estudio con una sola cohorte si queremos estudiar la incidencia o la evolución de una determinada enfermedad. Aunque siempre podemos comparar los resultados con otros datos conocidos de la población general, este tipo de diseños carece de grupo de comparación en sentido estricto, por lo que se engloba dentro de los estudios descriptivos longitudinales.

Al realizarse un seguimiento a lo largo del tiempo, los estudios de cohortes permiten calcular la incidencia del efecto entre expuestos y no expuestos, calculando a partir de ellas una serie de medidas de asociación y de medidas de impacto características.

En los estudios con cohortes cerradas en las que el número de participantes es fijo, la medida de asociación es el riesgo relativo (RR), que es la proporción entre la incidencia de expuestos (Ie) y no expuestos (I0): RR = Ie/I0.

Como ya sabemos, el RR puede valer desde 0 a infinito. Un RR=1 quiere decir que no hay asociación entre exposición y efecto. Un RR<1 quiere decir que la exposición es un factor de protección frente al efecto. Por último, un RR>1 indica que la exposición es un factor de riesgo, tanto mayor cuanto mayor sea el valor del RR.

El caso de los estudios con cohortes abiertas en los que pueden entrar y salir participantes a lo largo del seguimiento es un poco más complejo, ya que en lugar de incidencias calcularemos densidades de incidencia, término que hace referencia al número de casos del efecto o enfermedad que se producen referidas al número de personas seguidas por tiempo de seguimiento de cada una (por ejemplo, número de casos por 100 personas-año). En estos casos, en lugar del RR calcularemos la razón de densidades de incidencia, que es el cociente de la densidad de incidencia en expuestos dividida por la densidad en no expuestos.

Estas medidas nos permiten estimar la fuerza de la asociación entre la exposición al factor y el efecto, pero no nos informan sobre el impacto potencial que tiene la exposición sobre la salud de la población (el efecto que tendría eliminar ese factor sobre la salud de la población). Para ello, tendremos que recurrir a las medidas de riesgo atribuible, que pueden ser absolutas o relativas.

Las medidas absolutas de riesgo atribuible son dos. La primera es el riesgo atribuible en expuestos (RAE), que es la diferencia entre la incidencia en expuestos y no expuestos y representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en los expuestos. La segunda es el riesgo atribuible poblacional (RAP), que representa la cantidad de incidencia que puede ser atribuida al factor de riesgo en la población general.

Por su parte, las medidas relativas de riesgo atribuible (también conocidas como proporciones o fracciones atribuibles o etiológicas) son también dos. La primera, la fracción atribuible en expuestos (FAE), que representa la diferencia de riesgo relativo a la incidencia en el grupo de expuestos al factor. La segunda, la fracción atribuible poblacional (FAP), que representa la diferencia de riesgo relativo a la incidencia en la población general.

En la tabla que os adjunto podéis ver las fórmulas que se emplean para el cálculo de estas medidas de impacto.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo del número necesario a tratar (NNT) de los ensayos clínicos, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos entre expuestos y no expuestos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la FAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FAE. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE). Será de utilidad que intentemos calcularlos si los autores del estudio no lo hacen, ya que nos darán una idea del impacto real de la exposición sobre el efecto. En la segunda tabla os pongo las fórmulas que podéis utilizar para obtenerlos.

Como colofón a los tres anteriores, podríamos estimar el efecto de la exposición en toda la población calculando el número de impacto en la población (NIP), para lo cual no tenemos más que hacer el inverso del RAP. Así, un NIP de 3000 quiere decir que por cada 3000 sujetos de la población se producirá un caso de enfermedad debida a la exposición.

Otro aspecto que debemos tener en cuenta al tratar de los estudios de cohortes es su riesgo de sesgos. En general, los estudios observacionales tienen mayor riesgo de sesgo que los experimentales, además de ser susceptibles a la influencia de factores de confusión y de variables modificadoras de efecto.

El sesgo de selección debe considerarse siempre, ya que puede comprometer la validez interna y externa de los resultados del estudio. La dos cohortes deben ser comparables en todos los aspectos, además de ser representativas de la población de la que proceden.

Otro sesgo muy típico de los estudios de cohortes es el sesgo de clasificación, que se produce cuando se realiza una clasificación errónea de los participantes en cuanto a su exposición o a la detección del efecto (en el fondo no es más que otro sesgo de información). El sesgo de clasificación puede ser no diferencial cuando el error se produce al azar de forma independiente de las variables de estudio. Este tipo de sesgo de clasificación va a favor de la hipótesis nula, o sea, que nos dificulta detectar la asociación entre exposición y efecto, si es que esta existe. Si, a pesar del sesgo, detectamos la asociación, pues no pasará nada malo, pero si no la detectamos no sabremos si es que no existe o si no la vemos por la mala clasificación de los participantes. Por otra parte, el sesgo de clasificación es diferencial cuando se realiza de forma diferente entre las dos cohortes y tiene que ver con alguna de las variables del estudio. En este caso no hay perdón ni posibilidad de enmienda: la dirección de este sesgo es impredecible y compromete de forma mortal la validez de los resultados.

Por último, siempre debemos estar atentos a la posibilidad de que haya sesgo de confusión (por variables de confusión) o sesgo de interacción (por variables modificadoras de efecto). Lo ideal es prevenirlos en la fase de diseño, pero no está de más controlar los factores de confusión en la fase de análisis, fundamentalmente mediante análisis estratificados y estudios multivariados.

Y con esto llegamos al final de esta entrada. Vemos, pues, que los estudios de cohortes son muy útiles para calcular la asociación y el impacto entre efecto y exposición pero, cuidado, no sirven para establecer relaciones causales. Para eso son necesarios otros tipos de estudios.

El problema con los estudios de cohortes es que son difíciles (y costosos) de realizar de forma adecuada, suelen requerir muestran grandes y, a veces, periodos de seguimiento prolongados (con el consiguiente riesgo de pérdidas). Además, son poco útiles para enfermedades raras. Y no debemos olvidar que no nos permiten establecer relaciones de causalidad con la seguridad suficiente, aunque para ello sean mejores que sus primos los estudios de casos y controles, pero esa es otra historia…

Y tú ¿de quién eres?

Como ya sabemos por entradas previas, la sistemática de la medicina basada en la evidencia comienza con una laguna de conocimiento que nos mueve a realizar una pregunta clínica estructurada. Una vez que tenemos elaborada la pregunta, utilizaremos sus componentes para hacer una búsqueda bibliográfica y obtener las mejores pruebas disponibles para solucionar nuestra duda.

Y aquí viene, quizás, la parte más temida de la medicina basada en la evidencia: la lectura crítica de los trabajos encontrados. En realidad, la cosa no es para tanto ya que, con un poco de práctica, la lectura crítica consiste únicamente en aplicar de forma sistemática una serie de preguntas sobre el trabajo que estamos analizando. El problema viene a veces en saber qué preguntas tenemos que hacer, ya que esta sistemática tiene diferencias según el diseño del estudio que estemos valorando.

Decir que por diseño entendemos el conjunto de procedimientos, métodos y técnicas utilizados con los participantes del estudio, durante la recopilación de los datos y durante el análisis e interpretación de los resultados para obtener las conclusiones del estudio. Y es que hay una miríada de diseños de estudios posibles, sobre todo en los últimos tiempos en que a los epidemiólogos les ha dado por hacer diseños mixtos de estudios observacionales. Además, la terminología puede a veces ser confusa y utilizar términos que no nos aclaran bien cuál es el diseño que tenemos delante. Es como cuando llegamos a una boda de alguien de una familia numerosa y nos encontramos con un primo que no sabemos de dónde sale. Aunque busquemos los parecidos físicos, lo más seguro serán acabar preguntándole: y tú, ¿de quién eres? Solo así sabremos si es de la parte del novio o de la novia.

Lo que vamos a hacer en esta entrada es algo parecido. Vamos a tratar de establecer una serie de criterios de clasificación de estudios para, finalmente, establecer una serie de preguntas cuyas respuestas nos permitan identificar a qué familia pertenece.

Para empezar, el tipo de pregunta clínica a la que trata de responder el trabajo puede darnos alguna orientación. Si la pregunta es de tipo diagnóstico, lo más probable es que nos encontremos ante lo que se denomina estudio de pruebas diagnósticas, que suele ser un diseño en el que a una serie de participantes se les somete, de forma sistemática e independiente, a la prueba en estudio y al patrón de referencia (el gold standard, para aquellos que sepan inglés). Es un tipo de diseño especialmente pensado para este tipo de preguntas pero no os confiéis: a veces podremos ver preguntas de diagnóstico que tratan de responderse con otros tipos de estudios.

Si la pregunta es de tratamiento, lo más probable es que nos encontremos ante un ensayo clínico o, a veces, ante una revisión sistemática de ensayos clínicos. Sin embargo, no siempre existen ensayos sobre todo lo que busquemos y puede ocurrir que tengamos que conformarnos con un estudio observacional, como los de casos y controles o los de cohortes.

En caso de preguntas de pronóstico y de etiología/daño podremos encontrarnos ante un ensayo clínico, pero lo más habitual es que no sea posible realizar ensayos y solo existan estudios observacionales.

Una vez analizado este aspecto es posible que nos queden dudas sobre el tipo de diseño al que nos enfrentamos. Será entonces la hora de recurrir a nuestras preguntas acerca de seis criterios relacionados con el diseño metodológico: objetivo general de la pregunta clínica, direccionalidad del estudio, tipo de muestreo de los participantes, temporalidad de los sucesos, asignación de los factores de estudio y unidades de estudio utilizadas. Veamos con detalle qué significa cada uno de estos seis criterios, que veis resumidos en la tabla que os adjunto.

Según el objetivo, los estudios pueden ser descriptivos o analíticos. Un estudio descriptivo es aquel que, como su nombre indica, solo tiene la finalidad descriptiva de relatar cómo están las cosas, pero sin intención de establecer relaciones causales entre el factor de riesgo o exposición y el efecto estudiado (una determinada enfermedad o suceso de salud, en la mayor parte de los casos). Estos estudios responden a preguntas no muy complejas como ¿a cuántos? ¿dónde? o ¿a quién?, por lo que suelen ser sencillos y sirven para elaborar hipótesis que posteriormente necesitarán de estudios más complejos para su demostración.

Por el contrario, los estudios analíticos sí que tratan de establecer este tipo de relaciones, respondiendo a preguntas más del tipo ¿por qué? ¿cómo tratar? o ¿cómo prevenir? Como es lógico, para poder establecer este tipo de relaciones necesitarán tener un grupo con el que comparar (el grupo control). Esta será una pista útil para distinguir entre analíticos y descriptivos si nos queda alguna duda: la presencia de grupo de comparación será propia de los estudios analíticos.

La direccionalidad del estudio se refiere al orden en que se investigan la exposición y el efecto de esa exposición. El estudio tendrá una direccionalidad anterógrada cuando la exposición se estudia antes que el efecto y una direccionalidad retrógrada cuando se haga al contrario. Por ejemplo, si queremos investigar el efecto del tabaco sobre la mortalidad coronaria, podemos tomar una conjunto de fumadores y ver cuántos se mueren del corazón (anterógrada) o, al revés, tomar un conjunto de fallecidos por enfermedad coronaria y mirar a ver cuántos fumaban (retrógrada). Como es lógico, solo los estudios con direccionalidad anterógrada pueden asegurar que la exposición precede en el tiempo al efecto (¡ojo! no estoy diciendo que una sea causa del otro). Por último, decir que a veces podremos encontrarnos con estudios en los que exposición y efecto se estudian a la vez, hablando entonces de direccionalidad simultánea.

El tipo de muestreo tiene que ver con la forma de seleccionar los participantes del estudio. Estos pueden ser elegidos por estar sometidos al factor de exposición que nos interese, por haber presentado el efecto o por una combinación de los dos o, incluso, otros criterios ajenos a exposición y efecto.

Nuestro cuarto criterio es la temporalidad, que hace referencia a la relación en el tiempo entre el investigador y el factor de exposición o el efecto que se estudie. Un estudio tendrá una temporalidad histórica cuando efecto y exposición ya hayan ocurrido cuando se inicia el estudio. Por otra parte, cuando estos hechos tienen lugar durante la realización del estudio, este tendrá una temporalidad concurrente. A veces la exposición puede ser histórica y el efecto concurrente, hablándose entonces de temporalidad mixta.

Aquí me gustaría hacer un inciso sobre dos términos empleados por muchos autores y que os resultarán más familiares: prospectivos y retrospectivos. Serían estudios prospectivos aquellos en los que exposición y efecto no se han producido al inicio del estudio, mientras que serían retrospectivos aquellos en los que los hechos ya se han producido en el momento de realizar el estudio. Para rizar el rizo, cuando se combinan ambas situaciones hablaríamos de estudios ambispectivos. El problema con estos términos es que a veces se emplean de forma indistinta para expresar direccionalidad o temporalidad, que son cosas diferentes. Además, suelen asociarse con diseños determinados: los prospectivos con los estudios de cohortes y los retrospectivos con los de casos y controles. Quizás sea mejor emplear los criterios específicos de direccionalidad y temporalidad, que expresan los aspectos del diseño de forma más precisa.

Otros dos términos relacionados con la temporalidad son los de estudios transversales y longitudinales. Los transversales son aquellos que nos proporcionan una instantánea de cómo están las cosas en un momento dado, por lo que no permiten establecer relaciones temporales ni de causalidad. Suelen ser estudios de prevalencia y siempre de naturaleza descriptiva.

Por otra parte, en los longitudinales las variables se miden a lo largo de un periodo de tiempo, por lo que sí permiten establecer relaciones temporales, aunque sin control de cómo se asigna la exposición a los participantes. Estos pueden tener una direccionalidad anterógrada (como en los estudios de cohortes) o retrógrada (como en los estudios de casos y controles).

El penúltimo de los seis criterios que vamos a tener en cuenta es la asignación de los factores de estudio. En este sentido, un estudio será observacional cuando los investigadores sean meros observadores que no actúan sobre la asignación de los factores de exposición. En estos casos, la relación entre exposición y efecto puede verse afectada por otros factores, denominados de confusión, por lo que no permiten extraer conclusiones de causalidad. Por otra parte, cuando el investigador asigna de una forma controlada el efecto según un protocolo previo establecido, hablaremos de estudios experimentales o de intervención. Estos estudios experimentales con aleatorización son los únicos que permiten establecer relaciones de causa-efecto y son, por definición, estudios analíticos.

El último de los criterios se refiere a las unidades de estudio. Los estudios pueden estar realizados sobre participantes individuales o sobre grupos de población. Estos últimos son los estudios ecológicos y los ensayos comunitarios, que tienen unas características de diseño específicas.En la figura adjunta podéis ver un esquema de cómo clasificar los diferentes diseños epidemiológicos según estos criterios. Cuando tengáis duda de qué diseño se corresponde con el trabajo que estéis valorando, seguid este esquema. Lo primero será decidir si el estudio es de carácter observacional o experimental. Esto suele ser sencillo, así que pasamos al siguiente punto. Un observacional descriptivo (sin grupo de comparación) se corresponderá con una serie de casos o con un estudio transversal.

Si el estudio observacional es analítico pasaremos a ver el tipo de muestreo, que podrá ser por la enfermedad o efecto de estudio (estudio de casos y controles) o por la exposición al factor de riesgo o protección (estudio de cohortes).

Por último, si el estudio es experimental buscaremos si la exposición o intervención ha sido asignada de forma aleatoria y con grupo de comparación. En caso afirmativo nos encontraremos ante un ensayo clínico aleatorizado y controlado. En caso negativo, probablemente se trate de un ensayo no controlado u otro tipo de diseño cuasiexperimental.

Y aquí lo vamos a dejar por hoy. Hemos visto cómo identificar los tipos de diseños metodológicos más habituales. Pero hay muchos más. Algunos con una finalidad muy específica y un diseño propio, como los estudios económicos. Y otros que combinan características de diseños básicos, como los estudio de caso-cohorte o los estudios anidados. Pero esa es otra historia…

El más allá

Ya hemos visto en entradas anteriores como buscar información en Pubmed de diferentes maneras, desde la más sencilla, que es la búsqueda simple, hasta los métodos de búsqueda avanzada y de filtrado de resultados. Pubmed es, en mi modesta opinión, una herramienta de gran utilidad para los profesionales que tenemos que buscar información biomédica entre la vorágine de trabajos que se publican a diario.

Sin embargo, Pubmed no debe ser nuestra única herramienta de búsqueda. Sí, señoras y señores, no solo resulta que hay vida más allá de Pubmed, sino que hay mucha y, además, interesante.

La primera herramienta que se me ocurre por la similitud con Pubmed es Embase. Este es un buscador de Elsevier que tiene unos 32 millones de registros de unas 8500 revistas de 95 países. Como Pubmed, tiene varias opciones de búsqueda que le convierten en una herramienta versátil, algo más específica para estudios europeos y sobre fármacos que Pubmed (o eso dicen). Lo habitual cuando se quiere hacer una búsqueda exhaustiva es utilizar dos bases de datos, siendo frecuente la combinación de Pubmed y Embase, ya que ambos buscadores nos proporcionarán registros que el otro buscador no tendrá indexados. El gran inconveniente de Embase, sobre todo si se le compara con Pubmed, es que su acceso no es gratuito. De todas formas, los que trabajéis en centros sanitarios grandes podéis tener la suerte de tener una suscripción pagada a través de la biblioteca del centro.

Otra herramienta de gran utilidad es la que nos brinda la Cochrane Library, que incluye múltiples recursos entre los que se encuentran la Cochrane Database of Systematic Reviews (CDSR), el Cochrane Central Register of Controlled Trials (CENTRAL), el Cochrane Methodology Register (CMR), la Database of Abstracts of Reviews of Effects (DARE), la Health Technology Assessment Database (HTA) y la NHS Economic Evaluation Database (EED). Además, los hispanoparlantes podemos recurrir a la Biblioteca Cochrane Plus, que traduce al castellano los trabajos de la Cochrane Library. La Cochrane Plus no es gratuita, pero en España disfrutamos de una suscripción que amablemente nos paga el Ministerio de Sanidad, Igualdad y Servicios Sociales.

Y ya que hablamos de recursos en español, dejadme que arrime el ascua a mi sardina y os hable de dos buscadores que me son muy queridos. El primero es Epistemonikos, que es una fuente de revisiones sistemáticas y de otros tipos de evidencia científica. El segundo es Pediaclic, una herramienta de búsqueda de recursos de información sanitaria infantojuvenil, que clasifica los resultados en una serie de categorías como revisiones sistemáticas, guías de práctica clínica, resúmenes basados en la evidencia, etc.

En realidad, Epistemonikos y Pediaclic son metabuscadores. Un metabuscador es una herramienta que busca en diferentes bases de datos y no en una sola base de datos propia indexada como hacen Pubmed o Embase.

Hay muchos metabuscadores pero, sin duda, el rey de todos y una herramienta más que recomendable es TRIP Database.

TRIP (Turning Research Into Practice) es un metabuscador de acceso libre que se creó en 1997 para facilitar la búsqueda de información de bases de datos de medicina basada en la evidencia, aunque ha ido evolucionando y hoy en día recupera también información de bancos de imágenes, documentos para pacientes, libros de texto electrónicos e, incluso, de Medline (la base de datos en la que busca Pubmed). Vamos a echar un vistazo a su funcionamiento.

En la primera figura podéis ver la parte superior de la pantalla de inicio de TRIP. En la forma más sencilla seleccionaremos el enlace “Search” (es el que funciona por defecto cuando abrimos la página), escribiremos en la ventana de búsqueda los términos en inglés sobre los que queramos buscar y pulsaremos la lupa que hay a la derecha, con lo que el buscador nos mostrará la lista de resultados.

Aunque la última versión de TRIP incluye un selector de idioma, probablemente lo más recomendable sea introducir los términos en inglés en la ventana de búsqueda, procurando no poner más de dos o tres palabras para obtener los mejores resultados. Aquí funcionan los operadores lógicos igual que vimos en Pubmed (AND, OR y NOT), al igual que el operador de truncamiento “*”. De hecho, si escribimos varias palabras seguidas, TRIP incluye automáticamente el operador AND entre ellas.

Al lado de “Search” podéis ver un enlace que dice “PICO”. Este nos abre un menú de búsqueda en el que podemos seleccionar los cuatro componentes de la pregunta clínica estructurada de forma separada: pacientes (P), intervención (I), comparación (C) y resultados (outcome, O).

A la derecha hay dos enlaces más. “Advanced” permite realizar búsquedas avanzadas por campos del registro como el nombre de la revista, el título, año, etc. “Recent” nos permite acceder al historial de búsqueda. El problema es que estos dos enlaces están reservados en las últimas versiones para usuarios con licencia de pago. Antes eran gratis, así que esperemos que este defectillo no se extienda a todo el buscador y que, dentro de poco, TRIP acabe siendo un recurso de pago.

En la web del buscador tenéis tutoriales en vídeo sobre el funcionamiento de las diversas modalidades de TRIP. Pero lo más atractivo de TRIP es su forma de ordenar los resultados de la búsqueda, ya que lo hace según la fuente y la calidad de los mismos y la frecuencia de aparición de los términos de búsqueda en los trabajos encontrados. A la derecha de la pantalla aparece la lista de resultados organizados en una serie de categorías, como revisiones sistemáticas, sinopsis de medicina basada en la evidencia, guías de práctica clínica, preguntas clínicas, artículos de Medline filtrados mediante Clinical Queries, etc.

Podemos hacer clic en una de las categorías y restringir así el listado de resultados. Una vez hecho esto, podemos aún restringir más en base a subcategorías. Por ejemplo, si seleccionamos revisiones sistemáticas podremos posteriormente quedarnos solo con las de la Cochrane. Las posibilidades son muchas, así que os invito a probarlas.Veamos un ejemplo. Si escribo “asthma obesity children” en la cadena de búsqueda, obtengo 1117 resultados y la lista de recursos ordenados a la derecha, según veis en la segunda figura. Si ahora hago click en el índice “sistematic review” y, posteriormente, en “Cochrane”, me quedo con un solo resultado, aunque tengo el resto a golpe de click con solo seleccionar otras categorías. ¿Habéis visto que combinación de sencillez y potencia? En mi humilde opinión, con un manejo decente de Pubmed y la ayuda de TRIP podréis buscar todo lo que necesitéis, por muy escondido que esté.

Y para ir terminando la entrada de hoy, me vais a permitir que os pida un favor: no uséis Google para hacer búsquedas médicas o, por lo menos, no dependáis exclusivamente de Google, ni siquiera de Google Académico. Este buscador es bueno para encontrar un restaurante o un hotel para las vacaciones, pero no para controlar una búsqueda de información médica fiable y relevante como podemos hacer con otras herramientas de las que hemos hablado. Claro que con los cambios y evoluciones a los que nos tiene acostumbrados Google esto puede cambiar con el tiempo y, quizás, alguna vez tenga que reescribir esta entrada para recomendarlo (Dios no lo quiera).

Y aquí vamos a dejar el tema de las búsquedas bibliográficas. Ni que decir tiene que existen infinidad de buscadores más, de los cuáles podéis usar el que más os guste o el que tengáis accesible en vuestro ordenador o lugar de trabajo. En algunas ocasiones, como ya hemos comentado, es casi obligatorio usar más de uno, como es el caso de las revisiones sistemáticas, en las que suelen emplearse los dos grandes (Pubmed y Embase) y combinarlos con el de la Cochrane y algunos de los específicos del tema en cuestión. Porque todos los buscadores que hemos vistos son de índole general, pero los hay específicos de enfermería, psicología, fisioterapia, etc, además de específicos de enfermedad. Por ejemplo, si hacéis una revisión sistemática sobre una enfermedad tropical es conveniente utilizar una base de datos específica del tema, como LILACS, además de buscadores de revistas locales, si existen. Pero esa es otra historia…

Buscando las pepitas de oro

Estaba pensando en la entrada de hoy y no puedo evitar acordarme de los buscadores de la fiebre del oro de Alaska de finales del siglo XIX. Viajaban a Yukon, buscaban un buen arroyo como el Bonanza y recogían toneladas de barro. Pero ese barro no era el último paso de la búsqueda. De entre los sedimentos tenían que sacar las ansiadas pepitas de oro, para lo cual filtraban los sedimentos de forma cuidadosa hasta quedarse solo con el oro, cuando  había.

Cuando nosotros buscamos las mejores pruebas científicas para resolver nuestras preguntas clínicas hacemos algo parecido. Normalmente elegimos uno de los buscadores de Internet (como Pubmed, nuestro arroyo Bonanza) y solemos obtener una larga lista de resultados (nuestro montón de barro) que, finalmente, tendremos que filtrar para quedarnos solo con las pepitas de oro, si es que las hay entre los resultados de la búsqueda.

Ya hemos visto en entradas previas cómo hacer una búsqueda simple (la menos específica y que más barro nos va a proporcionar) y cómo refinar las búsquedas mediante el uso de los términos MeSH o el formulario de búsqueda avanzada, con los que buscamos obtener menos fango y más pepitas.

Sin embargo, lo habitual es que, una vez que tenemos la lista de resultados, tengamos que filtrarla para quedarnos solo con lo que más nos interese. Pues bien, para eso existe una herramienta muy popular dentro de Pubmed que es, oh sorpresa, el uso de filtros.

Vamos a ver un ejemplo. Supongamos que queremos buscar información sobre la relación entre asma y obesidad en la infancia. Lo ideal sería plantear una pregunta clínica estructurada para realizar una búsqueda específica, pero para ver más claramente cómo funcionan los filtros vamos a hacer una búsqueda simple “mal” planteada con lenguaje natural, para obtener un número mayor de resultados.

Entramos en la página de inicio de Pubmed, escribimos asthma and obesity in children en la caja de búsqueda y pulsamos el botón “Search”. Yo obtengo 1169 resultados, aunque el número puede variar si vosotros hacéis la búsqueda en otro momento.

Podéis ver el resultado en la primera figura. Si os fijáis, en el margen izquierdo de la pantalla hay una lista de texto con encabezados como “Tipos de artículos” (Article types), “disponibilidad de texto” (Text availability), etc. Cada apartado es uno de los filtros que yo tengo seleccionados para que se muestren en mi pantalla de resultados. Veis que debajo hay dos enlaces. El primero dice “Clear all” y sirve para desmarcar todos los filtros que hayamos seleccionado (en este caso, todavía ninguno). El segundo dice “Show additional filters” y, si clicamos sobre él, aparece una pantalla con todos los filtros disponibles para que elijamos cuáles queremos que se muestren en la pantalla. Echad un vistazo a todas las posibilidades.

Cuando queremos aplicar un filtro, solo tenemos que hacer click sobre el texto que hay debajo de cada encabezado del filtro. En nuestro caso vamos a filtrar solo los ensayos clínicos publicados en los últimos cinco años y de los que esté disponible el texto completo libre (sin tener que pagar suscripción). Para ello, hacemos click sobre “Clinical Trial”, “Free full text” y “5 years”, tal como veis en la segunda figura. Podéis comprobar que la lista de resultados se ha reducido a 11, un número mucho más manejable que los 1169 originales.

Ahora podemos quitar filtros de uno en uno (pulsando en la palabra “clear” que aparece al lado de cada filtro), quitarlos todos (pulsando “Clear all”) o añadir nuevos (haciendo click en el filtro que deseemos).

Dos precauciones a tener en cuenta con el uso de filtros. Lo primero, los filtros van a seguir estando activos hasta que los desactivemos nosotros. Si no nos damos cuenta de desactivarlos, podemos aplicarlos a búsquedas que hagamos después y obtener menos resultados de los esperados. Lo segundo, los filtros funcionan en base a los términos MeSH que se hayan asignado a cada artículo a la hora de indexarlo, por lo que los artículos muy recientes, que no ha dado tiempo de indexar todavía y que no tienen, por tanto, asignados sus términos MeSH, se perderán al aplicar los filtros. Por eso es recomendable aplicar los filtros al final del proceso de búsqueda, que es mejor acotar con otras técnicas como el uso de los MeSH o la búsqueda avanzada.

Otra opción que tenemos con los índices es automatizarlos para todas las búsquedas pero sin que nos recorten el número de resultados. Para ello tenemos que abrir cuenta en Pubmed clicando en “Sign in to NCBI” en el extremo superior derecho de la pantalla. Una vez que usemos el buscador como usuario registrado, podremos hacer click en un enlace arriba a la derecha que dice “Manage filters” y seleccionar los filtros que queramos. En lo sucesivo, las búsquedas que hagamos serán sin filtros, pero arriba a la derecha veréis enlaces a los filtros que hayamos seleccionados con el número de resultados entre paréntesis (podéis verlo en las dos primeras figuras que os he mostrado). Haciendo click, filtraremos la lista de resultados de modo similar a como hacíamos con los otros filtros, los que están accesibles sin registrarnos.

No me gustaría dejar el tema de Pubmed y de los filtros sin hablaros de otro recurso de búsqueda: las Clinical Queries. Podéis acceder a ellas haciendo click en el enlace de las herramientas de Pubmed (Pubmed Tools) de la página de inicio del buscador. Las Clinical Queries son una especie de filtro construido por desarrolladores de Pubmed que filtran la búsqueda para que solo se muestren artículos relacionados con investigación clínica.

Escribimos la cadena de búsqueda en la caja de búsqueda y obtenemos los resultados distribuidos en tres columnas, como veis en la tercera figura que o adjunto. En la primera columna se ordenan según el tipo de estudio (etiología, diagnóstico, tratamiento, pronóstico y guías de predicción clínica) y el alcance de la búsqueda que puede ser más específico (“Narrow”) o menos (“Broad”). Si seleccionamos “tratamiento” y alcance estrecho (“Narrow”), vemos que la búsqueda queda limitada a 25 trabajos.

En la segunda columna se ordenan revisiones sistemáticas, metanálisis, revisiones de medicina basada en la evidencia, etc. Por último, la tercera se centra en trabajos sobre genética.

Si queremos ver el listado completo podemos pulsar en “See all” al fondo del listado. Veremos entonces una pantalla similar a la de los resultados de búsqueda simple o avanzada, como veis en la cuarta figura que os adjunto. Si os fijáis en la caja de búsqueda, la cadena de búsqueda se ha modificado un poco. Una vez que tenemos este listado podemos modificar la cadena de búsqueda y volver a pulsar “Search”, aplicar de nuevo los filtros que nos convenga, etc. Como veis, las posibilidades son muchas.

Y con esto creo que vamos a ir despidiéndonos de Pubmed. Os animo a investigar otras muchas opciones y herramientas que están explicadas en los tutoriales de la página web, para algunos de las cuáles será necesario que tengáis abierta una cuenta en NCBI (recordad que es gratis). Podréis así, por ejemplo, fijar alarmas para que el buscador os avise cuando se publique algo nuevo sobre la búsqueda relacionada, entre otras muchas posibilidades. Pero esa es otra historia…

 

Afinando

Ya conocemos qué son los términos MeSH de Pubmed y cómo se puede realizar una búsqueda avanzada con ellos. Vimos que el método de búsqueda seleccionando los descriptores puede ser un poco laborioso, pero nos permitía seleccionar muy bien, no solo el descriptor, sino también alguno de sus subencabezados, incluir o no los términos que dependían de él en la jerarquía, etc.

Hoy vamos a ver otra forma de búsqueda avanzada algo más rápida a la hora de construir la cadena de búsqueda, y que nos permite, además, combinar varias búsquedas diferentes. Vamos a utilizar el formulario de búsqueda avanzada de Pubmed.

Para empezar, hacemos click en el enlace “Advanced” que hay debajo de la caja de búsqueda en la página de inicio de Pubmed. Esto nos lleva a la página de búsqueda avanzada, que veis en la figura 1. Echemos un vistazo.

En primer lugar hay una caja con el texto “Use the builder below to create your search” y sobre la que, inicialmente, no podemos escribir. Aquí se va ir formando la cadena de búsqueda que Pubmed va a emplear cuando pulsemos el Botón “Search”. Esta cadena podrá editarse pulsando sobre el enlace que hay debajo a la izquierda de la caja, “Edit”, lo que nos permitirá quitar o poner texto a la cadena de búsqueda que se haya elaborado hasta entonces, con texto libre o controlado, para volver a dar al botón “Search” y repetir la búsqueda con la nueva cadena. También hay un enlace debajo y a la derecha de la caja que dice “Clear”, con el que podremos borrar su contenido.

Debajo de esta caja de texto tenemos el constructor de la cadena de búsqueda (“Builder”), con varias filas de campos. En cada fila introduciremos un descriptor diferente, así que podremos añadir o quitar las filas que necesitemos con los botones “+” y “-“ que hay a la derecha de cada fila.

Dentro de cada fila hay varias cajas. La primera, que no está en la primera fila, es un desplegable con el operador booleano de búsqueda. Por defecto marca el AND, pero podemos cambiarlo si queremos. El siguiente es un desplegable en el que podemos seleccionar dónde queremos que se busque el descriptor. Por defecto marca “All Fields”, todos los campos, pero podemos seleccionar solo el título, solo el autor, solo último autor y muchas otras posibilidades. En el centro está la caja de texto donde introduciremos el descriptor. A su derecha, los botones “+” y “-“ que ya hemos nombrado. Y, por último, en el extremo derecho hay un enlace que dice “Show index list”. Este es una ayuda de Pubmed, ya que si pulsamos sobre él, nos dará una lista de los posibles descriptores que se ajustan a lo que hayamos escrito en la caja de texto.

Según vamos introduciendo términos en las cajas, creando las filas que necesitemos y seleccionando los operadores booleanos de cada fila, se irá formando la cadena de búsqueda, Cuando hayamos terminado podremos hacer dos cosas.

La más habitual será pulsar el botón “Search” y hacer la búsqueda. Pero hay otra posibilidad, que es clicar en el enlace “Add to history”, con lo que la búsqueda se almacena en la parte inferior de la pantalla, donde dice “History”. Esto será muy útil, ya que las búsquedas que se hayan guardado se pueden introducir en bloque en el campo de los descriptores al hacer una nueva búsqueda y combinarse con otras búsquedas o con series de descriptores. ¿Os parece un poco lioso? Vamos a aclararnos con un ejemplo.

Supongamos que yo trato la otitis media de mis lactantes con amoxicilina, pero quiero saber si otros fármacos, en concreto el cefaclor y la cefuroxima, mejoran el pronóstico. Aquí tenemos dos preguntas clínicas estructuradas. La primera diría “¿El tratamiento con cefaclor mejora el pronóstico de la otitis media en lactantes?”. La segunda diría lo mismo pero cambiando cefaclor por cefuroxima. Así que habría dos búsquedas diferentes, una con los términos infants, otitis media, amoxicillin, cefaclor y prognosis, y otra con los términos infants, otitis media, amoxicillin, cefuroxime y prognosis.

Lo que vamos a hacer es planear tres búsquedas. Una primera sobre artículos que hablen sobre el pronóstico de la otitis media en lactantes; una segunda sobre cefaclor; y una tercera sobre cefuroxima. Finalmente, combinaremos la primera con la segunda y la primera con la tercera en dos búsquedas diferentes, utilizando el booleano AND.

Empecemos. Escribimos otitis en la caja de texto de la primera fila de búsqueda y pulsamos el enlace “Show index”. Aparece un desplegable enorme con la lista de los descriptores relacionados (cuando veamos una palabra seguida de la barra inclinada y de otra palabra querrá decir que es un subencabezado del descriptor). Si buscamos, hay una posibilidad que dice “otitis/media infants” que se ajusta bien a lo que nos interesa, así que la seleccionamos. Ya podemos cerrar la lista de descriptores, pulsando el enlace “Hide index list”. Ahora en la segunda caja escribimos prognosis (debemos seguir el mismo método: escribir parte en la caja y seleccionar el término de la lista de índices). Nos aparece una tercera fila de cajas (si no es así, pulsamos el botón “+”). En esta tercera fila escribimos amoxicillin. Por último, vamos a excluir de la búsqueda los artículos que traten sobre la combinación de amoxicilina y ácido clavulánico. Escribimos clavulanic y pulsamos “Show index list”, con lo que nos enseña el descriptor “clavulanic acid”, que seleccionamos. Como lo que queremos es excluir estos trabajos de la búsqueda, cambiamos el operador booleano de esa fila a NOT.

En la figura 2 de pantalla podéis ver lo que hemos hecho hasta ahora. Veis que los términos están entre comillas. Eso es porque hemos elegido los MeSH de la lista de índices. Si escribimos directamente el texto en la caja aparecen sin comillas, lo que equivale a decir que la búsqueda se hace con texto libre (se pierde la precisión del lenguaje controlado de los términos MeSH). Fijaos además que en la primera caja de texto del formulario se nos ha escrito la cadena de búsqueda que hemos construido hasta ahora, que dice (((“otitis/media infants”) AND prognosis) AND amoxicillin) NOT “clavulanic acid”. Si quisiéramos, ya hemos dicho que podríamos modificarla, pero la vamos a dejar como está.

Ahora podríamos pulsar “Search” y hacer la búsqueda o directamente pulsar sobre el enlace “Add to history”. Para que veáis cómo se van recortando el número de artículos encontrados, pulsad en “Search”. Yo obtengo un listado con 98 resultados (el número puede depender del momento en el que hacéis la búsqueda). Muy bien, pulsamos en el enlace “Advanced” (en la parte superior de la pantalla) para volver al formulario de búsqueda avanzada.

En la parte inferior de la pantalla podemos ver guardada la primera búsqueda, numerada como #1 (podéis verlo en la figura 3).

Lo que queda ya es más sencillo. Escribimos cefaclor en la caja de texto y damos al enlace “Add to history”. Repetimos el proceso con el término cefuroxime. El resultados lo tenéis en la figura 4. Veis cómo Pubmed nos ha guardado las tres búsquedas en el historial de búsquedas. Si ahora queremos combinarlas, no tenemos más que hacer click sobre el número de cada una (se abrirá una ventana para que cliquemos en el booleano que nos interese, en este caso todos AND).

Primero hacemos click en #1 y #2, seleccionando AND. Veis cómo queda en la quinta captura de pantalla. Fijaos que la cadena de búsqueda se ha complicado un poco: (((((otitis/media infants) AND prognosis) AND amoxicillin) NOT clavulanic acid)) AND cefaclor. Como curiosidad os diré que, si escribimos directamente esta cadena en la caja de búsqueda simple, el resultado sería el mismo. Es el método que emplean los que dominan totalmente la jerga de este buscador. Pero nosotros tenemos que hacerlo con la ayuda del formulario de búsqueda avanzada. Pulsamos “Search” y obtenemos siete resultados que serán (eso esperamos) trabajos que comparen la amoxicilina con el cefaclor para el tratamiento de la otitis media en lactantes.

Volvemos a hacer click sobre el enlace “Advanced” y, en el formulario vemos que hay una búsqueda más, la #4, que es la combinación de la #1 y la #2. Ya podéis haceros una idea de lo que puede complicarse esto de combinar unas con otras, sumando o restando según el operador booleano que elijamos. Bueno, pues hacemos click sobre la #1 y la #3 y pulsamos “Search”, encontrando cinco trabajos que deben tratar sobre el problema que estamos buscando.

Vamos a ir terminando por hoy. Creo que queda demostrado que el uso de términos MeSH y de búsqueda avanzada rinde resultados más específicos que la búsqueda simple. Lo habitual con la búsqueda simple con lenguaje natural es obtener listados interminables de trabajos, la mayoría sin interés para nuestra pregunta clínica. Pero tenemos que tener en cuenta una cosa. Ya dijimos que hay una serie de personas que se dedican a adjudicar los descriptores MeSH a los artículos que entran en la base de datos de Medline. Como es lógico, desde que el artículo entra en la base de datos hasta que se le indexa (se le adjudican los MeSH) pasa algo de tiempo y durante ese tiempo no podremos encontrarlo usando términos MeSH. Por este motivo, puede no ser mala idea hacer una búsqueda con lenguaje natural después de la avanzada y mirar si en los primeros de la lista hay algún artículo que todavía no esté indexado y que nos pueda interesar.

Por último, comentar que las búsquedas pueden conservarse descargándolas a nuestro disco (pulsando el enlace “download history”) o, mucho mejor, creando una cuenta en Pubmed haciendo click sobre el enlace de la parte superior derecha de la pantalla que dice “Sign in to NCBI”. Esto es gratis y nos permite guardar el trabajo de búsqueda de una vez para otra, lo cual puede ser muy útil para usar otras herramientas como las Clinical Queries o los filtros del buscador. Pero esa es otra historia…

La jerga del buscador

Vimos en una entrada anterior cómo hacer una búsqueda con Pubmed utilizando el sistema más sencillo, que es introducir texto en lenguaje natural en la casilla de búsqueda simple y pulsar el botón “Search”. Este método es bastante fácil e incluso funciona bastante bien cuando estamos buscando algo sobre enfermedades muy raras pero, en general, nos dará una lista de resultados muy sensible y poco específica, lo que en este contexto quiere decir que obtendremos un número grande artículos, pero muchos de ellos tendrán poco que ver con lo que estamos buscando.

En estos casos tendremos que utilizar alguna herramienta para que el resultado sea más específico: menos artículos y más relacionados con el problema que origina la búsqueda. Una de la formas es realizar una búsqueda avanzada en lugar de la búsqueda simple, pero para ello tendremos que utilizar la jerga propia del buscador, los llamados descriptores temáticos de lenguaje controlado.

Un descriptor es un término que se utiliza para elaborar índices, también llamados tesauros. En lugar de usar las palabras del lenguaje natural, éstas se seleccionan o agrupan bajo unos términos específicos, que son los que van a servir de clave en el índice de la base de datos del buscador.

El tesauro, formado por el conjunto de descriptores, es específico de cada buscador, aunque muchos términos pueden ser comunes. En el caso de Pubmed los descriptores se conocen con el nombre de términos MeSH, que son las iniciales de su nombre en inglés, Medical Subject Headings.

Este tesauro o lista de términos con vocabulario controlado ha sido también elaborado por la National Library of Medicine y constituye otra base de datos con más de 30.000 términos que se actualizan con periodicidad anual. Dentro de la National Library hay una serie de personas cuya misión es analizar los nuevos artículos que se incorporan a la base de datos de Medline y asignarles los descriptores que mejor se ajustan a su contenido. Así, cuando busquemos utilizando un descriptor en concreto, hallaremos los artículos que estén indexados con este descriptor.

Pero la cosa de los descriptores es un poco más complicada de lo que pueda parecer, ya que se agrupan en jerarquías (MeSH Tree Structures), pudiendo un mismo descriptor pertenecer a varias jerarquías, además de tener subencabezados (Subheadings), de tal forma que podemos buscar utilizando el término MeSH general o restringir más la búsqueda usando uno de sus subencabezados. La verdad es que leyendo todo esto dan ganas de olvidarse de la búsqueda usando el tesauro, pero no podemos permitirnos ese lujo: la búsqueda utilizando la base de datos MeSH es la más efectiva y precisa, ya que el lenguaje ha sido controlado para eliminar imprecisiones y sinonimias propias del lenguaje natural.

Además, la cosa no es tan complicada cuando nos ponemos a trabajar con ello. Vamos a verlo con el ejemplo que usamos para mostrar la búsqueda simple. Queremos comparar la eficacia de la amoxicilina y del cefaclor sobre la duración de la otitis media en lactantes. Tras elaborar la pregunta clínica estructurada obtenemos nuestros cinco términos de búsqueda, en lenguaje natural: otitis, lactantes, amoxicilina, cefaclor y pronóstico.

Ahora podéis ir a la página de inicio de Pubmed (recordad el atajo: escribir pubmed en la barra del navegador y pulsar control-enter). Debajo de la ventana de búsqueda simple vimos que hay tres columnas. Nos fijamos en la de la derecha, “More Resources” y hacemos click en la primera de las opciones, “MeSH Database”, con lo que accedemos a la página de inicio de la base de datos de descriptores (como se ve en la primera figura).Si escribimos otitis en la ventana de búsqueda vemos que Pubmed nos echa una mano desplegando una lista con los términos que se parecen a lo que estamos escribiendo. Uno de ellos es otitis media, que es lo que nos interesa, así que la seleccionamos y Pubmed nos lleva a la siguiente página, donde hay varias opciones para elegir. En el momento en que yo hago la búsqueda hay tres opciones: “Otitis Media”, “Otitis Media, Suppurative” y “Otitis Media with Effusion”. Fijaos que Pubmed nos define cada uno, para que entendamos bien a qué se refiere con cada término. Estos son los tres términos MeSH que se ajustan a lo que hemos pedido, pero tenemos que elegir uno.

Lo más sencillo que podemos hacer desde esta ventana es marcar el cuadro de selección que hay a la izquierda del término que nos interese y pulsar el botón que hay en la parte derecha de la pantalla y que dice “add to search builder”. Si hacemos esto, Pubmed comienza a construir la cadena de búsqueda empezando con el término elegido (si hacemos esto con el primer término de la lista veréis que aparece el texto “Otitis Media”[Mesh] en la caja de texto “Pubmed Search Builder”, en la parte superior derecha de la pantalla (como veis en la figura adjunta).

Pero recordad que hemos dicho que los términos MeSH tienen subencabezados. Para llegar a ellos, en vez de marcar el cuadro de selección del término “Otitis Media”, hacemos click sobre él, abriéndose la ventana con los subencabezados (Subheadings), como podéis ver en la segunda figura.Cada uno de los términos con su cuadro de selección a la izquierda corresponde a un subencabezado del descriptor “Otitis Media” (el descriptor está en inglés, aunque en este caso coincida con el término en castellano. Os aconsejo trabajar siempre en inglés con la base de datos MeSH). Por ejemplo, si nos interesase hacer una búsqueda dirigida al coste del tratamiento, podríamos marcar el subencabezado “economics” y pulsar entonces el botón de añadir a la búsqueda. El texto que aparecería en la caja de texto de la cadena de búsqueda sería “Otitis Media/economics”[Mesh] y el resultado de la búsqueda sería un poco más específico.

Antes de dejar la ventana del término MeSH vamos a fijarnos en un par de cosas. Además de los subencabezados, que pueden ser más o menos numerosos, la parte inferior de la página nos muestra la jerarquía del descriptor (MeSH Tree Structure). Nuestro descriptor está en negrita, así que podemos ver de qué términos depende y cuáles dependen de él. En algún caso puede interesarnos más utilizar un término superior para la búsqueda, así que no tendremos más que hacer click sobre él para ir a su propia ventana. Si hacemos esto, en general, la búsqueda será más sensible y menos específica (más ruido y menos nueces).

También podemos hacer click en un término que esté por debajo en la jerarquía, haciendo la búsqueda más específica y disminuyendo el número de resultados.

Y la cosa no acaba aquí. Si seleccionamos un término MeSH para la búsqueda, en ésta se incluyen los términos que están por debajo en la jerarquía. Por ejemplo, si seleccionamos el descriptor “Otitis Media” se incluirán en la búsqueda todos los que cuelgan de él (mastoidits, otits con derrame, otitis supurativa y petrositis, que pueden no interesarnos en absoluto). Esto podemos evitarlo marcando el cuadro que dice “Do not include MeSH terms found below this term in the MeSH hierarchy” (no incluir los términos que estén por debajo en la jerarquía).

Bueno, creo que vamos a ir terminando con este ejemplo, si es que todavía hay alguien que sigue leyendo a estas alturas. Supongamos que optamos por lo más sencillo: vamos a “Otitis Media” y lo añadimos a la búsqueda. A continuación escribimos el segundo término de búsqueda en la ventada de búsqueda de la base de datos: infants. Nos salen 14 posibilidades, seleccionamos la primera (“Infant”) y lo añadimos a la búsqueda. Hacemos lo mismo con “Amoxicillin”, “Cefaclor” y “Prognosis”. Cuando hemos añadido todos a la cadena de búsqueda (fijaos que el operador booleano por defecto es AND, pero podemos cambiarlo), la cade de búsqueda es la siguiente: ((((“Otitis Media”[Mesh]) AND “Infant”[Mesh]) AND “Amoxicillin”[Mesh]) AND “Cefaclor”[Mesh]) AND “Prognosis”[Mesh].

Finalmente, pulsamos el botón “Search Pubmed” y obtenemos el resultado de la búsqueda que, en este caso, es un poco más restringida que la que obteníamos con lenguaje natural (esto suele ser lo habitual).

Si quisiésemos quitar los trabajos sobre el clavulánico, como hicimos en el ejemplo con la búsqueda simple, podríamos añadir el término clavulanate igual que con añadimos los otros términos, pero cambiando el operador booleano AND por el operador NOT. Pero hay otra forma que es, incluso, más sencilla. Si os fijáis, cuando Pubmed nos da la lista de resultados, en la ventana de búsqueda de Pubmed está escrita la cadena de búsqueda que se ha utilizado y nosotros podemos añadir o quitar términos de esta cadena, usando términos MeSH o lenguaje natural, lo que más nos convenga. Así que, en nuestro ejemplo, a la cadena de texto le añadiríamos NOT clavulanate en la caja de búsqueda y volveríamos a pulsar sobre el botón “Search”.

Y aquí lo vamos a dejar por hoy. Simplemente decir que hay otras formas de utilizar los términos MeSH, usando el formulario de búsqueda avanzada, y que podemos acotar todavía más los resultados utilizando algunos recursos, como las Clinical Queries o el uso de límites. Pero esa es otra historia…

La ostra de las mil perlas

Ya vimos en una entrada anterior que nuestra ignorancia como médicos es grande, lo que nos obliga a plantearnos preguntas sobre lo que hacer con nuestros pacientes en numerosas ocasiones.

Llegado este punto, nos interesará buscar y encontrar las mejores evidencias disponibles sobre el tema que nos ocupe, para lo que tendremos que hacer una buena búsqueda bibliográfica. Aunque se define la búsqueda bibliográfica como el conjunto de procedimientos manuales, automáticos e intelectuales encaminados a localizar, seleccionar y recuperar las referencias o trabajo que respondan a nuestro interés, la inmensa mayoría de las veces simplificamos el proceso y nos dedicamos únicamente a la búsqueda digital.

En estos casos tendremos que recurrir a una de las múltiples bases de datos biomédicas disponibles para buscar la perla que nos aclare nuestra duda y ayude a poner remedio a nuestra ignorancia. De todas estas bases de datos, no cabe duda que la más utilizada es Medline, la base de datos de la Biblioteca Nacional de Medicina de Estados Unidos (la National Library of Medicine, como la llaman ellos). El problema es que Medline es una base muy muy grande, con unos 16 millones de artículos de más de 4800 revistas científicas. Así que, como es fácil suponer, encontrar lo que se busca puede no ser una tarea sencilla en muchas ocasiones.

En realidad, para buscar en Medline lo que utilizamos es una herramienta que se conoce con el nombre de Pubmed. Este es un proyecto desarrollado por el Centro Nacional de Información en Biotecnología (National Center for Biotechnology Information, NCBI para los amigos), que permite acceder realmente a tres bases de datos de la National Library of Medicine: Medline, PreMedline y AIDS. Estas bases de datos no son filtradas, así que necesitaremos de conocimientos de lectura crítica para valorar los resultados (hay otros recursos que dan la información ya filtrada), ya que el buscador proporciona nada más (y nada menos) que la referencia del artículo y, en muchas ocasiones, un breve resumen. Y lo mejor de todo es que es gratis, cosa que no ocurre con todas las herramientas de búsqueda disponibles.

Así que, si queremos explorar esta ostra con miles de perlas, tendremos que aprender a utilizar la herramienta Pubmed para encontrar las perlas que estamos buscando. Podéis entrar en Pubmed haciendo clic sobre este enlace, aunque un pequeño atajo es escribir pubmed en la barra de direcciones del navegador y pulsar control-enter. El navegador sabrá donde queremos ir y nos redirigirá a la página de inicio de Pubmed. Echemos un vistazo entes de empezar a usarlo (ver la primera figura) (el aspecto de Pubmed cambia de vez en cuando, así que alguna cosa puede haber cambiado desde que escribí esta entrada, seguramente para mejorar).

Lo primero que vemos es el cuadro de búsqueda simple, donde podemos escribir los términos de búsqueda para obtener los resultados al pulsar el botón “Search”. Veis que debajo de este cuadro hay un enlace que dice “Advanced”, con el que accederemos a la pantalla de búsqueda avanzada, de la que hablaremos otro día. Hoy nos centraremos en la búsqueda simple.

Debajo hay tres columnas. La primera dice “Using PubMed”. Aquí podéis encontrar ayuda sobre el uso de esta herramienta, incluidos tutoriales sobre las distintas modalidades de búsqueda y las herramientas que incluye Pubmed. Os aconsejo bucear en esta sección para descubrir muchas más posibilidades de este buscador que las pocas que os voy a contar yo en esta entrada.

La segunda columna es la de las herramientas de Pubmed, “PubMed Tools”. Aquí hay dos de especial interés, la “Single Citation Matcher”, para encontrar la referencia en PubMed de un artículo en concreto conociendo algunos aspectos de su cita bibliográfica, y las “Clinical Queries”, que nos permiten filtrar los resultados de las búsquedas según el tipo de estudios o sus características.

La tercera columna muestra recursos del buscador, como la base de datos de los términos MeSH, que no es otra cosa que el tesaurus de los términos de búsqueda que incluye Pubmed.

Bueno, pues vamos a buscar algo para practicar. Pensemos, por ejemplo, que yo quiero saber si es mejor utilizar amoxicilina o cefaclor para el tratamiento de la otitis en los lactantes para que la evolución de la enfermedad sea menos prolongada. Lógicamente, esto no puedo escribirlo tal cual. Primero tengo que construir mi pregunta clínica estructurada y, después, utilizar los componentes de la pregunta como términos de búsqueda.

Mi pregunta sería la siguientes: en (P) lactantes con otitis, ¿(I) el tratamiento con cefaclor en (C) comparación con el tratamiento con amoxicilina, (0) reduce la duración de la enfermedad?. Así que, con este ejemplo, podríamos utilizar cinco términos de búsqueda: otitis, lactantes, amoxicilina, cefaclor y duración.

En la búsqueda sencilla introduciremos sin más las palabras en el cuadro de búsqueda (lenguaje natural) y haremos click en el cuadro “Search”. Aunque Pubmed acepta que introduzcamos palabras en castellano, es preferible ponerlas directamente en inglés, ya que así no tendremos que fiarnos de que las traduzca bien (hay palabras que incluso no las traduce y nos alteran la búsqueda).

El cuadro de búsqueda admite operadores booleanos, que son el “y”, el “o” y el “no” (se suelen ponen en mayúsculas en inglés: AND, OR y NOT). Cuando ponemos varias palabras seguidas sin ningún operador booleano, Pubmed entiende que las palabras van separadas por AND. Así, si tenemos un término formado por dos palabras y queremos que se considere como una, tendremos que escribirlo entre comillas. Por ejemplo, si escribimos apendicitis aguda y queremos que cuente como un solo término, habrá que introducir “acute apendicitis”.

Otro operador útil es el de truncamiento, que es colocar un asterisco al final de la raíz de la palabra para que se busquen todas las palabras que empiecen por esa raíz. Por ejemplo, infan* buscará por infant, infancy…

Vamos con nuestro ejemplo. Escribimos otitis AND infants AND amoxicillin AND cefaclor AND course y hacemos click en “Search” (ver la segunda figura). Hemos tenido bastante suerte, obtenemos solo 11 resultados (a vosotros os puede salir un número diferente si hacéis la búsqueda en otro momento).

Echamos un vistazo y vemos que los trabajos se ajustan más o menos a lo que buscamos. El único inconveniente es que nos incluye artículos que estudian el efecto de la amoxicilina-clavulánico, que no nos interesan. Pues vamos a quitarlos. Al texto de búsqueda le añadimos NOT clavulanate, con lo que la búsqueda queda limitada aún más.

Ya no tenemos más que seleccionar o clicar sobre los trabajos que nos interesen, para obtener el resumen (si está disponible) y, en algunos casos, incluso acceder al texto completo, aunque esto dependerá de que el texto sea de libre acceso o de los permisos o suscripciones que tenga la institución desde la que accedamos a Pubmed.

Hasta aquí hemos visto la forma más sencilla de buscar con Pubmed: búsqueda simple con texto libre. El problema es que usando esta forma de búsqueda no siempre vamos a obtener un resultado tan específico, sino que será mucho más frecuente que obtengamos miles de resultados, la mayor parte de ellos sin ningún interés para nosotros. En estos casos tendremos que recurrir a otros recursos como la búsqueda avanzada, el empleo de términos MeSH o el uso de las Clinical Queries de Pubmed. Pero esa es otra historia…