Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEnsayo clínico

El rey a examen

Todos sabemos que el ensayo clínico aleatorizado es el rey de los diseños metodológicos de intervención. Es el tipo de estudio epidemiológico que permite un mejor control de los errores sistemáticos o sesgos, ya que el investigador controla las variables del estudio y los participantes son asignados al azar entre las intervenciones que se comparan.

De esta forma, si dos grupos homogéneos que difieren solo en la intervención presentan alguna diferencia de interés durante el seguimiento, podremos afirmar con cierta confianza que esta diferencia se debe a la intervención, lo único que no tienen en común los dos grupos. Por este motivo, el ensayo clínico es el diseño preferente para responder a preguntas clínicas sobre intervención o tratamiento, aunque siempre tendremos que ser prudentes con la evidencia generada por un solo ensayo clínico, por muy bien realizado que esté. Cuando realizamos una revisión sistemática sobre ensayos clínicos aleatorizados sobre la misma intervención y los combinamos en un metanálisis, las respuestas que obtenemos tendrán más fiabilidad que las obtenidas de un solo estudio. Por eso hay quien afirma que el diseño ideal para responder preguntas de tratamiento no es el ensayo clínico, sino el metanálisis de ensayos clínicos.

En cualquier caso, como las revisiones sistemáticas valoran sus estudios primarios de forma individual y como lo más habitual es que encontremos ensayos individuales y no revisiones sistemáticas, conviene saber hacer una buena lectura crítica para poder sacar conclusiones. En efecto, no podemos relajarnos cuando veamos que un artículo nos cuenta un ensayo clínico y darlo por bueno. El ensayo clínico puede también contener sus trampas y argucias, por lo que, como con cualquier otro tipo de trabajo, será buena práctica realizar la lectura crítica del mismo, basándonos en nuestros tres pilares habituales: validez, importancia y aplicabilidad.

Como siempre, a la hora de estudiar el rigor científico o VALIDEZ (validez interna), nos fijaremos primero en una serie de criterios primarios imprescindibles. Si estos no se cumplen, mejor no perder el tiempo con el trabajo y buscar otro más provechoso.

¿Existe una pregunta clínica claramente definida? En su origen, el ensayo debe estar diseñado para responder a una pregunta clínica estructurada sobre tratamiento, motivada por una de nuestras múltiples lagunas de conocimiento. Se debe plantear una hipótesis de trabajo con sus correspondientes hipótesis nula y alternativa, a ser posible sobre un tema relevante desde el punto de vista clínico. Es preferible que el estudio trate de responder solo a una pregunta. Cuando se quiere responder a varias suele complicarse el estudio en exceso para acabar no contestando ninguna de forma completa y adecuada.

¿Se realizó la asignación de forma aleatoria? Como ya hemos dicho, para poder afirmar que las diferencias entre los grupos se deben a la intervención es necesario que sean homogéneos. Esto se consigue asignando los pacientes al azar, única forma de controlar las variables confusoras conocidas y, más importante, también las que desconocemos. Si los grupos fueran distintos y atribuyésemos la diferencia únicamente a la intervención podríamos incurrir en un sesgo de confusión. El ensayo debe contener la habitual e imprescindible tabla 1 con la frecuencia de aparición de las variables demográficas y de confusión de ambas muestras para estar seguros de que los grupos son homogéneos. Un error frecuente es buscar las diferencias entre los dos grupos y valorarlas según su p, cuando sabemos que la p no mide homogeneidad. Si los hemos repartido al azar, cualquier diferencia que observemos se deberá obligatoriamente al azar (no necesitaremos una p para saberlo). El tamaño muestral no está pensado para discriminar entre las variables demográficas, por lo que una p no significativa puede indicar simplemente que la muestra es pequeña para verla. Por otro lado, cualquier mínima diferencia puede alcanzar significación estadística si la muestra es lo suficientemente grande. Así que olvidaos de la p: si hay alguna diferencia, lo que hay que hacer es valorar si tiene la relevancia clínica suficiente como para poder haber influido en los resultados o, dicho de forma más elegante, tendremos que controlar las covariables no equilibradas durante la aleatorización. Afortunadamente, cada vez es más raro encontrar las tablas de los grupos de estudio con las p de comparación entre los grupos de intervención y control.

Pero no basta con que el estudio esté aleatorizado (aprovecho para decir que randomizado es un barbarismo que no existe en lengua castellana), sino que hay que considerar también si la secuencia de aleatorización se hizo de forma correcta. El método utilizado debe garantizar que todos los componentes de la población seleccionada tengan la misma probabilidad de ser elegidos, por lo que se prefieren las tablas de números aleatorios o secuencias generadas por ordenador. La aleatorización debe ser oculta, de forma que no se pueda saber a qué grupo va a pertenecer el siguiente participante. Por eso gustan tanto los sistemas centralizados vía telefónica o a través de Internet. Y aquí pasa algo muy curioso: resulta que es bien conocido que la aleatorización produce muestras de diferente tamaño, sobre todo si las muestras son pequeñas, motivo por el que a veces se usan muestras aleatorizadas por bloques balanceados en tamaño. Y yo os pregunto, ¿cuántos estudios habéis leído con el mismo número de participantes en las dos ramas y que afirmaban ser aleatorizados? Desconfiad si veis grupos iguales, sobre todo si son pequeños, y no os dejéis engañar: siempre podéis utilizar una de las múltiples calculadoras de probabilidad binomial disponibles en la Red para saber cuál es la probabilidad de que el azar genere los grupos que los autores os presentan (hablamos siempre de aleatorización simple, no por bloques, conglomerados, minimización u otras técnicas). Os sorprenderá lo que encontraréis.

También es importante que el seguimiento haya sido lo suficientemente largo y completo, de forma que el estudio dure lo suficiente para poder observar la variable de resultado y que todo participante que entre en el estudio sea tenido en cuenta al finalizar. Como regla de andar por casa, si las pérdidas superan el 20%, se admite que la validez interna del estudio puede estar comprometida.

Siempre tendremos que analizar la naturaleza de las pérdidas durante el seguimiento, sobre todo si estas son elevadas. Hay que tratar de dilucidar si las pérdidas son aleatorias o si están en relación con alguna variable concreta (lo cual sería mal asunto) y estimar qué efecto han podido tener en los resultados del ensayo. Lo más habitual suele ser adoptar el llamado escenario del peor de los casos: se supone que todas las pérdidas del grupo control han ido bien y todas las del grupo de intervención han ido mal y se repite el análisis para comprobar si las conclusiones se modifican, en cuyo caso la validez del estudio quedaría seriamente comprometida. El último aspecto importante es considerar si los pacientes que no han recibido el tratamiento previamente asignado (siempre hay alguno que no se entera y mete la pata) se han analizado según la intención de tratamiento, ya que es la única forma de preservar todos los beneficios que se obtienen con la aleatorización. Todo aquello que ocurra después de la aleatorización (como un cambio del grupo de asignación) puede influir en la probabilidad de que el sujeto experimente el efecto que estemos estudiando, por lo que es importante respetar este análisis por intención de tratar y analizar cada uno en el grupo en el que se asignó inicialmente.

Una vez comprobados estos criterios primarios, nos fijaremos en tres criterios secundarios que influyen en la validez interna. Habrá que comprobar que los grupos fueran similares al inicio del estudio (ya hemos hablado de la tabla con los datos de los dos grupos), que se llevó a cabo el enmascaramiento de forma adecuada como forma de control de sesgos y que los dos grupos fueron manejados y controlados de forma similar a excepción, claro está, de la intervención en estudio. Sabemos que el enmascaramiento o cegamiento permite minimizar el riesgo de sesgos de información, por lo que lo habitual es que los investigadores y los participantes desconozcan a qué grupo está asignado cada uno, lo que se conoce como doble ciego. En ocasiones, dada la naturaleza de la intervención (pensemos un grupo que se opera y otro no) será imposible enmascarar a investigadores y participantes, pero siempre podremos darle los datos enmascarados a la persona que realice el análisis de los resultados (el llamado evaluador ciego), con lo que se trata de paliar este problema.

Para resumir este apartado de la validez del ensayo, podemos decir que tendremos que comprobar que exista una clara definición de la población de estudio, de la intervención y del resultado de interés, que la aleatorización se haya hecho de forma adecuada, que se han tratado de controlar los sesgos de información mediante el enmascaramiento, que ha habido un seguimiento adecuado con control de las pérdidas y que el análisis haya sido correcto (análisis por intención de tratamiento y control de covariables no equilibradas por la aleatorización).

Una herramienta muy sencilla que nos puede ayudar también a valorar la validez interna de un ensayo clínico es la escala de Jadad, también llamada sistema de puntuación de calidad de Oxford. Jadad, un médico colombiano, ideó un sistema de puntuación con 7 preguntas. En primer lugar, 5 preguntas cuya respuesta afirmativa suma 1 punto:

  1. ¿El estudio se describe como aleatorizado?
  2. ¿Se describe el método utilizado para generar la secuencia de aleatorización y este es adecuado?
  3. ¿El estudio se describe como doble ciego?
  4. ¿Se describe el método de enmascaramiento y este es adecuado?
  5. ¿Hay una descripción de las pérdidas durante el seguimiento?

Finalmente, dos preguntas cuya respuesta negativa resta 1 punto:

  1. ¿Es adecuado el método utilizado para generar la secuencia de aleatorización?
  2. ¿Es adecuado el método de enmascaramiento?

Como veis, la escala de Jadad valora los puntos clave que ya hemos mencionado: aleatorización, enmascaramiento y seguimiento. Se considera un estudio riguroso desde el punto de vista metodológico el que tiene una puntuación de 5 puntos. Si el estudio tiene 3 puntos o menos, mejor lo utilizamos para envolver el bocadillo.

Pasaremos a continuación a considerar cuáles son los resultados del estudio para calibrar su IMPORTANCIA clínica. Habrá que determinar las variables medidas para ver si el trabajo expresa de forma adecuada la magnitud y la precisión de los resultados. Es importante, una vez más, no conformarnos con que nos inunden con múltiples p llenas de ceros. Recordad que la p solo nos indica la probabilidad de que estemos dando como buenas diferencias que solo existen por azar (o, dicho con elegancia, de cometer un error de tipo 1), pero que significación estadística no tiene porqué ser sinónimo de relevancia clínica.

En el caso de variables continuas como tiempo de supervivencia, peso, tensión arterial, etc, lo habitual será expresar la magnitud de los resultados como diferencia de medias o de medianas, dependiendo de cuál sea la medida de centralización más adecuada. Sin embargo, en casos de variables dicotómicas (vivo o muerto, sano o enfermo, etc) se utilizarán el riesgo relativo, su reducción relativa y absoluta y el número necesario a tratar (NNT). De todas ellas, la que mejor expresa la eficiencia clínica es siempre el NNT. Cualquier trabajo digno de nuestra atención debe proporcionar estos datos o, en su defecto, la información necesaria para que podamos calcularlos.

Pero para permitir conocer una estimación más real de los resultados en la población necesitamos saber la precisión del estudio, y nada más fácil que recurrir a los intervalos de confianza. Estos intervalos, además de la precisión, nos informan también de la significación estadística. Será estadísticamente significativo si el intervalo del riesgo relativo no incluye el uno y el de la diferencia de medias, el cero. En el caso de que los autores no nos los proporcionen, podemos utilizar una calculadora para obtenerlos, como las disponibles en la web de CASPe.

Una buena forma de ordenar el estudio de la importancia clínica de un ensayo es estructurarlo en las cuatro Cs: valoración Cuantitativa (medidas de efecto y su precisión), valoración Cualitativa (relevancia desde el punto de vista clínico), valoración Comparativa (ver si los resultados son congruentes con los de otros estudios previos) y valoración de Coste-beneficio (este punto enlazaría con el siguiente apartado de la lectura crítica que tiene que ver con la aplicabilidad de los resultados del ensayo).

Para finalizar la lectura crítica de un artículo de tratamiento valoraremos su APLICABILIDAD (también llamada validez externa), para lo cual nos tendremos que preguntar si los resultados pueden generalizarse a nuestros pacientes o, dicho de otro modo, si existe alguna diferencia entre nuestros pacientes y los del estudio que impida la generalización de los resultados. Hay que tener en cuenta en este sentido que cuánto más estrictos sean los criterios de inclusión de un estudio, más difícil será generalizar sus resultados, comprometiéndose así su validez externa.

Pero, además, debemos considerar si se han tenido en cuenta todos los resultados clínicamente importantes, incluyendo efectos secundarios e indeseables. La variable de resultado medida debe ser importante para el médico y para el paciente. No hay que olvidar que el hecho de que demostrar que la intervención sea eficaz no significa obligatoriamente que sea beneficiosa para nuestros pacientes. Habrá que valorar también los efectos nocivos o molestos y estudiar el balance beneficios-costes-riesgos, así como las dificultades que puedan existir para aplicar el tratamiento en nuestro medio, las preferencias del paciente, etc.

Como es fácil de comprender, un estudio puede tener una gran validez metodológica y sus resultados tener gran importancia desde el punto de vista clínico y no ser aplicable a nuestros pacientes, ya sea porque nuestros pacientes sean diferentes a los del estudio, porque no se adapte a sus preferencias o porque sea irrealizable en nuestro medio. Sin embargo, lo contrario no suele ocurrir: si la validez es deficiente o los resultados carecen de importancia, difícilmente nos plantearemos aplicar las conclusiones del estudio a nuestros pacientes.

Para terminar, recomendaros que utilicéis alguna de las herramientas disponibles para lectura crítica, como las plantillas CASPe, o una lista de verificación, como la CONSORT, para no dejaros ninguno de estos puntos sin considerar. Eso sí, todo lo que hemos hablado se refiere a ensayos clínicos aleatorizados y controlados, ¿Y qué pasa si se trata de ensayos no aleatorizados o de otra clase de estudios cuasiexperimentales?. Pues para eso se siguen otra serie de normas, como pueden ser las de la declaración TREND. Pero esa es otra historia…

Rey de reyes

No cabe duda de que a la hora de realizar un trabajo de investigación en biomedicina podemos elegir entre un gran número de diseños posibles, todos ellos con sus ventajas e inconvenientes. Pero en esta corte tan diversa y poblada, entre malabaristas, sabios, jardineros y flautistas púrpuras, reina por encima de todos el verdadero Rey Carmesí de la epidemiología: el ensayo clínico aleatorizado.

El ensayo clínico es un estudio de intervención, analítico, de dirección anterógrada y temporalidad concurrente, con muestreo de cohorte cerrada con control de la exposición. En un ensayo se selecciona una muestra de una población y se divide al azar en dos grupos. Uno de los grupos (grupo de intervención) sufre la intervención que queremos estudiar, mientras que el otro (grupo de control) nos sirve de referencia para comparar los resultados. Tras un periodo de seguimiento determinado se analizan los resultados y se comparan las diferencias entre los dos grupos. Podemos así evaluar los beneficios de los tratamientos o intervenciones al mismo tiempo que controlamos los sesgos de otros tipos de estudios: la aleatorización favorece que los posibles factores de confusión, conocidos o no, se repartan de forma uniforme entre los dos grupos, de forma que si al final detectamos alguna diferencia, esta tiene que ser debida a la intervención en estudio. Esto es lo que nos permite establecer una relación causal entre exposición y efecto.

Por lo dicho hasta ahora, se comprende fácilmente que el ensayo clínico aleatorizado sea el diseño más adecuado para valorar la eficacia de cualquier intervención en medicina y es el que proporciona, como ya hemos comentado, una evidencia de mayor calidad para demostrar la relación de causalidad entre la intervención y los resultados observados.

Pero para disfrutar de todos estos beneficios es necesario ser escrupuloso en el planteamiento y metodología de los ensayos. Existen listas de verificación publicadas por sabios que entienden mucho de estos temas, como es el caso de la lista CONSORT, que nos pueden ayudar a valorar la calidad del diseño del ensayo. Pero entre todos estos aspectos, reflexionemos un poco sobre aquellos que son cruciales para la validez del ensayo clínico.

Todo empieza con una laguna de conocimiento que nos lleva a formular una pregunta clínica estructurada. El único objetivo del ensayo debe ser responder a esta pregunta y basta con que se responda de forma adecuada a una sola pregunta. Desconfiad de los ensayos clínicos que tratan de responder a muchas preguntas, ya que, en muchas ocasiones, al final no responden bien a ninguna. Además, el planteamiento debe basarse en lo que los inventores de jerga metodológica llaman el principio de incertidumbre (la equipoise de los que hablan inglés), que no quiere decir más que, en el fondo de nuestro corazón, desconocemos de verdad cuál de las dos intervenciones es más beneficiosa para el paciente (habría que ser un poco perro desde el punto de vista ético para realizar una comparación si ya sabemos con seguridad cuál de las dos intervenciones es mejor). Es curioso en este sentido cómo los ensayos patrocinados por la industria farmacéutica tienen más tendencia a incumplir el principio de incertidumbre, ya que tienen preferencia por comparar con placebo o con “no intervención” para poder demostrar con más facilidad la eficacia de sus productos.A continuación debemos elegir cuidadosamente la muestra sobre la que realizaremos el ensayo. Idealmente, todos los miembros de la población deberían tener la misma probabilidad no solo de ser elegidos, sino también de acabar en cualquiera de las dos ramas del ensayo. Aquí nos encontramos con un pequeño dilema. Si somos muy estrictos con los criterios de inclusión y exclusión la muestra será muy homogénea y la validez interna del estudio saldrá fortalecida, pero será más difícil extender los resultados a la población general (esta es la actitud explicativa de selección de la muestra). Por otra parte, si no somos tan rígidos los resultados se parecerán más a los de la población general, pero puede verse comprometida la validez interna del estudio (esta es la actitud pragmática).

La aleatorización (¿quién ha dicho randomización?) es uno de los puntos clave del ensayo clínico. Es la que nos asegura que podemos comparar los dos grupos, ya que tiende a distribuir por igual las variables conocidas y, más importante, también las desconocidas entre los dos grupos. Pero no nos relajemos demasiado: este reparto no está en absoluto garantizado, solo es más probable que ocurra si aleatorizamos de forma correcta, así que siempre deberemos comprobar la homogeneidad de los dos grupos, sobre todo con muestras pequeñas.

Además, la aleatorización nos permite realizar de forma adecuada el enmascaramiento, con lo que realizamos una medición no sesgada de la variable de respuesta, evitando los sesgos de información. Estos resultados del grupo de intervención los podemos comparar con los del grupo control de tres formas. Una de ellas es comparar con un placebo. El placebo debe ser un preparado de características físicas indistinguibles del fármaco de intervención pero sin sus efectos farmacológicos. Esto sirve para controlar el efecto placebo (que depende de la personalidad del paciente, de sus sentimientos hacia a la intervención, de su cariño por el equipo investigador, etc), pero también los efectos secundarios que son debidos a la intervención y no al efecto farmacológico (pensemos, por ejemplo, en el porcentaje de infecciones locales en un ensayo con medicación administrada por vía intramuscular).

La otra forma de comparar es con el tratamiento aceptado como más eficaz hasta el momento. Si existe un tratamiento que funciona, lo lógico (y más ético) es que lo usemos para investigar si el nuevo aporta beneficios. También suele ser el método de comparación habitual en los estudios de equivalencia o de no-inferioridad. Por último, la tercera posibilidad es comparar con la no intervención, aunque en realidad esto es una forma rebuscada de decir que solo se le aplican los cuidados habituales que recibiría cualquier paciente en su situación clínica.

Es imprescindible que todos los participantes en el ensayo sean sometidos a la misma pauta de seguimiento, que debe ser lo suficientemente prolongado como para permitir que se produzca la respuesta esperada. Deben detallarse y analizarse todas las pérdidas que se produzcan durante el seguimiento, ya que pueden comprometer la validez y la potencia del estudio para detectar diferencias significativas. ¿Y qué hacemos con los que se pierden o acaban en una rama diferente a la asignada?. Si son muchos, lo más razonable puede ser rechazar el estudio. Otra posibilidad es excluirlos y hacer como si no hubiesen existido nunca, pero podemos sesgar los resultados del ensayo. Una tercera posibilidad es incluirlos en el análisis en la rama del ensayo en la que han participado (siempre hay alguno que se confunde y se toma lo que no le toca), lo que se conoce como análisis por tratamiento o análisis por protocolo. Y la cuarta, y última opción que tenemos, es analizarlos en la rama que se les asignó inicialmente con independencia de lo que hayan hecho durante el estudio. Esto se denomina análisis por intención de tratar, y es la única de las cuatro posibilidades que nos permite conservar todos los beneficios que previamente nos había proporcionado la aleatorización.

Como fase final, nos quedaría el análisis y comparación de los datos para extraer las conclusiones del ensayo, utilizando para ello las medidas de asociación y medidas de impacto oportunas que, en el caso del ensayo clínico, suelen ser la tasa de respuesta, el riesgo relativo (RR), la reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT). Vamos a verlos con un ejemplo.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A para no calentarnos mucho la cabeza) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles. Podéis ver en la tabla adjunta cómo se calculan estas medidas.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la RRR y la RAR. La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,4, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el NNT = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo que también os muestro en la tabla. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado para meteros el vino barato y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Hasta ahora todo lo que hemos dicho hace referencia al diseño clásico de ensayo clínico en paralelo, pero el rey de los diseños tiene muchas caras y, con mucha frecuencia, podemos encontrar trabajos en los que se nos muestra de forma un poco diferente, lo que puede implicar que el análisis de los resultados tenga peculiaridades especiales.

Vamos a empezar con una de las variaciones más frecuentes. Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. Como podéis ver en la figura adjunta, en este tipo de ensayo cada sujeto es aleatorizado a un grupo, se le somete a la intervención, se deja pasar un periodo de lavado o blanqueo y se le somete a la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo? Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Acabo ya. La verdad es que esta entrada me ha quedado un poco larga (y espero que no demasiado coñazo), pero es que el Rey se lo merece. De todas formas, si pensáis que está todo dicho sobre ensayos clínicos no tenéis ni idea de todo lo que queda por decir sobre tipos de muestreos, de aleatorización, etc, etc, etc. Pero esa es otra historia…

Clientes habituales

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

Más de un gallo por corral

El ensayo clínico es el rey de los diseños epidemiológicos. Pero también es el más caro de realizar. Y, en los tiempos que corremos, este es un inconveniente importante a la hora de poner en marcha un ensayo.

Habitualmente, en cada ensayo se evalúa una intervención en uno de los grupos frente al grupo control, sin intervención o con un placebo. Pero, ¿qué pasaría si pudiésemos probar varias intervenciones en el mismo ensayo? Los costes seguramente serían menores a los de probar las diferentes intervenciones por separado, cada una en su ensayo en paralelo convencional. Pues bien, esto es posible de llevar a cabo, diseñando lo que se conoce como un ensayo clínico factorial.

La forma más sencilla de ensayo factorial es el 2×2, en el que se prueban dos intervenciones diferentes en la misma muestra de participantes. El truco está en aleatorizarlos varias veces para formar más de los dos grupos de un ensayo paralelo. Supongamos que queremos hacer un ensayo factorial con los tratamientos A y B, para no complicarnos mucho buscando ejemplos. Primero hacemos una asignación aleatoria de factoriallos participantes para recibir o no el tratamiento A. Después, hacemos otra asignación aleatoria para que reciban o no el tratamiento B. Así, la muestra de N participantes nos queda dividida en cuatro grupos, tal como se ve en la tabla que os adjunto: N/4 que reciben solo A, N/4 que reciben solo B, N/4 que reciben A y B de forma simultánea y N/4 que no reciben tratamiento (grupo control).

Este diseño es el básico del ensayo factorial 2×2. Si nos centramos en la tabla, el análisis de los valores marginales de las filas nos permitirá comparar el efecto entre recibir A y no recibirlo. Por su parte, el análisis marginal de las columnas nos permite comparar el efecto entre recibir B y no recibirlo. También podríamos comparar entre si los valores de cada una de las celdas por separado, pero entonces perderíamos potencia para detectar diferencias, y con ello una de las ventajas de este tipo de diseños.

El tamaño muestral necesario suele calcularse imaginando que se hacen dos ensayos paralelos independientes y tomando el número mayor necesario para detectar el menor de los efectos que queremos estudiar.

Por su parte, la aleatorización se hace utilizando los mismos métodos que con el ensayo paralelo, pero repitiéndola varias veces. Otra alternativa sería determinar todas los grupos (A, B, A+B y control, en nuestro ejemplo) y hacer la asignación aleatoria de una sola vez. El resultado es el mismo.

La razón fundamental para hacer un ensayo factorial suele ser la económica, ya que al necesitar menos muestra que los dos ensayos paralelos comparables, sale más barato hacer el ensayo. Esto es especialmente útil si el promotor del ensayo no espera obtener grandes beneficios con los resultados. Por eso es frecuente ver ensayos factoriales con tratamientos poco rentables, muy conocidos ya o de uso tradicional.

Una condición importante para hacer un ensayo factorial con garantías es que no haya interacción entre los dos tratamientos, de forma que sus efectos sean independientes. Cuando hay interacción entre los dos tratamientos (los efectos de uno dependen de la presencia del otro), el análisis se complica y la muestra necesaria es mayor, ya que no podríamos realizar el análisis de los marginales de la tabla para detectar diferencias, sino que tendríamos que valorar las diferencias entre todos los grupos de comparación con lo que, como ya hemos comentado, la potencia estadística del estudio sería menor.

En cualquier caso, siempre deberemos comprobar la existencia de interacción. Esto puede hacerse utilizando un modelo de regresión con un término de interacción y comparando el modelo con el mismo modelo de regresión sin interacción. En el caso de detectar interacción (que podía no haber sido sospechada previamente), debemos hacer un análisis de cada grupo por separado aún a costa de perder potencia para detectar diferencias estadísticamente significativas.

¿Y podemos comparar más de dos intervenciones? Podemos comparar todas las que queramos, pero hay que tener en cuenta que aumenta la complejidad del diseño, el número de grupos a comparar y la posibilidad de encontrarnos con interacción entre alguna de las intervenciones ensayadas. Por estas razones, se aconseja mantener el número de intervenciones del ensayo lo más bajo posible.

La ventaja del ensayo factorial más obvia ya la hemos comentado: su menor coste derivado de necesitar un tamaño muestral menor. Otra ventaja es que sirven si estamos interesados también en valorar el efecto de la combinación de intervenciones, valorando de camino la existencia de interacción.

Por su parte, las interacciones entre intervenciones constituyen la principal limitación de este diseño. Ya hemos comentado que, cuando existen, nos obligan al análisis individual de los grupos, con la pérdida de potencia que eso conlleva. Otro inconveniente es que el incumplimiento de los participantes puede no ser muy bueno: cuántos más tratamientos deba realizar correctamente un participante, más probable es que no lo haga de la manera que debería.

Y aquí dejamos por hoy la historia de los ensayos clínicos factoriales. Hemos descrito la forma más sencilla, el factorial 2×2. Sin embargo, como ya hemos comentado, la cosa puede complicarse comparando más intervenciones y, además, asignando diferentes tamaños a cada uno de los grupos. Por ejemplo, si queremos detectar diferencias más pequeñas en el grupo de tratamiento que más nos interese, podemos asignarle más pacientes. Claro que esto complica todo el análisis y el cálculo del tamaño muestral. Pero esa es otra historia…

El gregario

El ensayo clínico aleatorio convencional es un diseño individualista, en el que cada participante es aleatorizado para recibir la intervención o el placebo para poder medir después la variable de resultado en cada uno y comparar las diferencias. Esta aleatorización individual se complementa con el procedimiento de enmascaramiento, de forma que nadie sabe a qué grupo pertenece cada participante y no pueda haber efectos relacionados con este conocimiento.

El problema es que hay ocasiones en las que no es posible enmascarar la intervención, de forma que los participantes saben qué recibe cada uno. Imaginemos que queremos estudiar el efecto de determinados consejos sobre alimentación en los niveles de presión arterial de una población. A cada participante podemos o no darle nuestras recomendaciones, pero cada uno de ellos sabrá si se las hemos dado o no, con lo que el enmascaramiento no será posible.

Además, pueden ocurrir otros dos hechos que nos pueden invalidar la comparación de los efectos de intervenir o no intervenir. Primero, los participantes pueden compartir información entre ellos, con lo que algunos del grupo placebo conocerían también los consejos y podrían seguir algunos de ellos. Segundo, sería difícil que los propios médicos tratasen de forma objetivamente igual a los participantes de los dos grupos y podrían mezclar las recomendaciones en algún caso. Esto es lo que se conoce como contaminación entre los grupos, muy frecuente cuando tratamos de estudiar intervenciones en Salud Pública o en programas de promoción de salud.

Pero que nadie se inquiete antes de tiempo, porque para solucionar este problema podemos recurrir al primo gregario de la familia de los ensayos clínicos aleatorizados: el ensayo clínico por grupos o conglomerados.

En estos ensayos la unidad de aleatorización no es el individuo, sino grupos de individuos. Pensando en el ejemplo anterior, podríamos aleatorizar a los pacientes de un centro de salud al grupo de intervención y a los de otro centro al grupo control. Esto tiene la ventaja de que se evita la contaminación entre grupos, con la ventaja añadida de que los participantes dentro de cada grupo se comporten de una forma similar.

Para que este diseño funcione bien es necesario que haya un número de grupos suficiente para que las características basales de los componentes se balanceen bien con la aleatorización. Estos ensayos por conglomerados obligan además a una serie de consideraciones especiales durante las fases de diseño, análisis y comunicación de resultados, ya que la falta de independencia de los participantes dentro de cada grupo tiene consideraciones estadísticas importantes. Puede ocurrir que los componentes de cada grupo tengan algunas características comunes diferentes a las de otros grupos (sesgo de selección), así como una diferente distribución de las variables de confusión que puedan existir dentro de cada grupo.

Un problema con este tipo de diseño es que tiene menor potencia que el ensayo clínico aleatorizado convencional equivalente, por lo que se necesitan mayores tamaños muestrales en relación al denominado factor de inflación por grupo. Además, debe tenerse en cuenta el número y tamaño de cada grupo y la correlación que pueda existir entre los resultados de los pacientes dentro del mismo grupo, mediante el uso de un coeficiente de correlación intragrupo.

Así, para calcular el tamaño muestral tenemos que multiplicar el tamaño que tendría el ensayo convencional por un factor de diseño del estudio, que incluye el tamaño de los grupos, el coeficiente de correlación intragrupos y que se calcula según la fórmula siguiente:

N (ensayo por grupos) = Factor de inflación x N (ensayo convencional)

Factor de inflación = 1 + [(m – 1) x CCI], donde m es el tamaño de cada grupo y CCI es el coeficiente de correlación intragrupo.

Veamos un ejemplo. Supongamos que para el ejemplo que venimos considerando necesitaríamos 400 participantes para hacer el ensayo convencional para detectar determinado tamaño de efecto con la potencia y significación estadística deseadas. Estimamos que el coeficiente de correlación intragrupo es igual a 0,15 y determinamos que queremos grupos de 30 participantes. El tamaño muestral necesario para un ensayo con conglomerados sería de

N (ensayo con grupos) = (1 + [(30 – 1) x 0,15]) x 400 = 2140

Redondeando, necesitamos 72 grupos de 30 participantes, con una muestra total de 2160. Como puede verse, unas cinco veces más que el tamaño muestral del ensayo convencional.

Otra peculiaridad de los ensayos por conglomerados es que en la fase de análisis hay que tener en cuenta la falta de independencia entre los pacientes de cada grupo, tanto si calculamos resultados a nivel individual como si calculamos medidas resumen a nivel de grupo. Esto es así porque si no tenemos en cuenta la falta de independencia entre participantes aumenta la probabilidad de cometer un error de tipo I y sacar una conclusión errónea. Para entendernos, una p de 0,01 puede convertirse en otra mayor de 0,05 una vez que tenemos en cuenta este efecto.

Esto hace que pruebas como la t de Student no nos sirvan y tengamos que recurrir a análisis robustos de la varianza o, al más utilizado, el modelo de efectos aleatorios, que no solo tiene en cuenta el efecto grupo, sino que permite dar una estimación y valorar el grado de contaminación existente. Además, tiene en cuenta la heterogeneidad por factores no observados y permite realizar el ajuste por covariables que produzcan desequilibrios entre los diferentes grupos. Una posibilidad es hacer el análisis teniendo en cuenta el efecto de agrupamiento y sin tenerlo en cuenta y ver si los valores de significación son diferentes, en cuyo caso nos respaldará en el hecho de que hemos elegido el tipo de diseño adecuado para nuestro estudio.

Y estos son los aspectos más importantes que tenemos que tener en mente al realizar un ensayo por conglomerados. Su principal ventaja es evitar la contaminación entre participantes, como vimos al principio, por lo que son muy útiles para valorar estrategias de mejora de salud y programas de educación. Su principal inconveniente ya lo hemos mencionado: su menor potencia con la consecuente necesidad de tamaños muestrales mucho mayores.

Para finalizar, decir que todos estos aspectos referentes al cálculo del tamaño de la muestra y al análisis estadístico teniendo en cuenta el efecto de los conglomerados deben especificarse claramente durante la fase de comunicación de los resultados del ensayo.

Un último consejo. Si realizáis un ensayo o la lectura crítica de un ensayo clínico por grupos, no olvidéis revisar que se hayan tenido en cuenta las peculiaridades que hemos contado. Para ello podéis ayudaros de la declaración CONSORT. Esta es una lista de verificación con las características que deben cumplir los ensayos clínicos, e incluye las características específicas de los ensayos por conglomerados. Pero esa es otra historia…

La intención es lo que cuenta

Siempre hay alguien que no hace lo que se le dice. Mira que el planteamiento de un ensayo clínico parece sencillo en lo que se refiere a sus participantes. Se les asigna al azar a una de las dos ramas del ensayo y unos se tienen que tomar la pastilla A y otras la B, para que nosotros podamos ver cuál de las dos funciona mejor.

Sin embargo, siempre hay alguien que no hace lo que se le dice y se toma la pastilla que no es, o no se la toma, o se la toma mal, o la deja de tomar antes de tiempo, etc, etc, etc.

¿Y qué hacemos a la hora de analizar los resultados?. El sentido común nos dice que si un participante se ha equivocado de pastilla lo incluyamos en el grupo de la pastilla que finalmente se tomó (es lo que se llama hacer un análisis por protocolo). O que si no la ha tomado, nos olvidemos de él. Pero esta actitud no es correcta si queremos realizar un análisis no sesgado de los resultados del ensayo. Si empezamos a cambiar los participantes de un grupo a otro perderemos el beneficio que obteníamos al repartirlos al azar, con lo que pueden entrar en juego variables de confusión o modificadoras de efecto que estuviesen equilibrados entre las dos ramas del ensayo por el proceso de reparto aleatorio.

Para evitar esto, lo correcto es respetar la intención inicial de asignación de grupo y analizar los resultados del sujeto que se confunde como si se hubiese tomado el tratamiento asignado de forma correcta. Es lo que se conoce como el análisis por intención de tratar, el único que preserva las ventajas de la aleatorización.

Hay varias razones por las que un participante en un ensayo puede no recibir el tratamiento tal y como se le asignó, además del mal cumplimiento por su parte. Veamos algunas.

En ocasiones puede ser el investigador el que hace una inclusión errónea del participante en el grupo de tratamiento. Imaginemos que, después de aleatorizarlos, nos damos cuenta de que algunos participantes no son idóneos para recibir la intervención, bien porque no tengan la enfermedad o porque descubramos que existe alguna contraindicación para la intervención, por ejemplo. Si somos estrictos, deberíamos incluirlos en el análisis del grupo al que se asignaron, aunque no hayan recibido la intervención. Sin embargo, puede ser razonable excluirlos si las causas de exclusión están previamente especificadas en el protocolo del ensayo. De todas formas, es importante que esto lo realice alguien que desconozca la asignación y los resultados, para que se traten de igual forma los participantes dela dos ramas del ensayo. De todas formas, si queremos una mayor seguridad, podemos hacer un análisis de sensibilidad con y sin estos sujetos para ver cómo se modifican los resultados.

Otro problema de este tipo lo pueden ocasionar los datos faltantes. Los resultados de todas las variables, y especialmente de la principal, deberían estar presentes para todos los participantes, pero esto no siempre es así, de forma que tenemos que decidir qué hacemos con los sujetos a los que les falte algún dato.

La mayor parte de los programas de estadística funcionan con datos completos, excluyendo del análisis aquéllos registros de sujetos con datos faltantes. Esto disminuye el tamaño muestral efectivo y puede sesgar los resultados, además de disminuir la potencia del estudio. Algunos modelos, como los longitudinales mixtos o la regresión de Cox, manejan registros en los que falten algunos datos, pero ninguno puede hacer nada si falta toda la información de un sujeto. En estos casos podemos recurrir a la imputación de datos con cualquiera de sus modalidades, de tal forma que rellenemos los huecos para aprovechar toda la muestra según la intención de tratamiento.

Cuando la imputación de datos no es conveniente, una cosa que podemos hacer es lo que se llama análisis de casos extremos. Esto se hace asignando a los huecos los mejores y peores resultados posibles y viendo cómo se modifican los resultados. Así nos haremos una idea del máximo impacto que pueden tener los datos faltantes sobre los resultados del estudio. En cualquier caso, no cabe duda de que la mejor estrategia será diseñar el estudio para que los datos faltantes sean los mínimos posibles.

En cualquier caso, siempre hay alguien que se equivoca y nos lía el planteamiento del ensayo. ¿Qué podemos hacer entonces?.

Una posibilidad es utilizar un análisis por intención de tratar modificado. Se incluye cada uno en el grupo asignado, pero se permite la exclusión de algunos como los que nunca empezaron el tratamiento o los que no se consideraron adecuados para el estudio. El problema es que esto abre una puerta para maquillar los datos según nos interese y sesgar los resultados en nuestro provecho. Por eso, debemos desconfiar cuando estas modificaciones no estuviesen especificadas en el protocolo del ensayo y se decidan post hoc.

La otra posibilidad es hacer el análisis según el tratamiento recibido (análisis por protocolo). El problema, ya lo hemos dicho, es que se pierde el balance de la aleatorización. Además, si los que se equivocan tienen algunas características especiales, esto puede sesgar los resultados del estudio. Por otra parte, la ventaja de analizar las cosas tal y como realmente se han hecho es que nos puede dar una idea mejor de cómo puede funcionar el tratamiento en la vida real.

Por último, quizás lo más seguro sea realizar ambos análisis, por protocolo y por intención de tratamiento, y comparar los resultados que se obtienen con cada uno. En estos casos puede ocurrir que detectemos un efecto al analizar por protocolo y no al analizar por intención de tratamiento. Esto puede deberse a dos causas principales. Primero, el análisis por protocolo puede crear asociaciones espurias al romper el balance de variables de confusión que nos garantizaba la aleatorización. Segundo, el análisis por intención de tratamiento va a favor de la hipótesis nula, por lo que su potencia es menor que la del análisis por protocolo. Eso sí, si detectamos un efecto significativo, nos veremos reforzados si el análisis se hizo por intención de tratar.

Y aquí lo dejamos por hoy. Hemos visto como intentar controlar los errores de asignación de grupo en los ensayos y cómo podemos imputar los datos faltantes, que es una forma elegante de decir que inventamos datos allá donde falten. Claro, que para poder hacerlo se han de cumplir una serie de condiciones estrictas. Pero esa es otra historia…

El camaleón

Un reptil fascinante. Conocidos son sus ojos, con esa habilidad de girar de forma independiente cubriendo el ángulo completo de la circunferencia. También conocida es su larga lengua, con la que atrapa a distancia los bichos que se come sin tener que moverse del sitio. Pero lo más famoso del camaleón es su capacidad para cambiar de color y mimetizarse con el ambiente cuando quiere pasar desapercibido, cosa que no es de extrañar porque el camaleón es, como no decirlo, un bicho bastante feo.

Pero hoy vamos a hablar de ensayos clínicos. En concreto, de un tipo de ensayos que, como un verdadero camaleón de la epidemiología, va cambiando su diseño según se va realizando, para adaptarse a las circunstancias que se van produciendo. Me refiero a los ensayos clínicos adaptativos.

El ensayo clínico tiene habitualmente un diseño o protocolo fijo, de tal manera que está muy mal visto violar el protocolo y, cuando se hace, hay que explicarlo detalladamente y justificar los motivos. Sin embargo, en el ensayo clínico adaptativo se define a priori, de manera prospectiva, la posibilidad de hacer cambios en uno o más aspectos del diseño del estudio en base a los datos que se van obteniendo durante su realización. Habitualmente se planifican unos momentos a lo largo del estudio en los que se analizan los datos y resultados disponibles para decidir si se hacen los cambios preestablecidos. E insisto en esto: los cambios deben estar planificados previamente. De lo contrario, cualquier cambio constituye una violación del protocolo del estudio que pone en peligro la validez de sus resultados.

Los cambios que se pueden realizar son múltiples. Pueden cambiarse las probabilidades del método de aleatorización, el tamaño de la muestra e, incluso, las características del seguimiento, que se puede alargar o acortar, así como modificar las visitas que estaban previstas en el diseño inicial. Pero podemos ir más allá y modificar las dosis del tratamiento probado o modificar los medicamentos permitidos o prohibidos concomitantes según interese.

También se pueden cambiar aspectos como criterios de inclusión, variables de resultado (sobre todo los componentes de las variables compuestas), los métodos analíticos empleados e, incluso, transformar un ensayo de superioridad en otro de non inferioridad, o viceversa.

Como ya hemos dicho un par de veces, estos cambios tienen que estar planeados de antemano. Hay que definir que eventos nos inducirán a hacer adaptaciones del protocolo. Por ejemplo, planear aumentar o disminuir el tamaño muestral para aumentar la potencia del estudio tras enrolar un número de participantes, o incluir determinados grupos durante un seguimiento determinado y, a partir de ahí, dejar de aplicar la intervención en el grupo en el que no se muestre eficaz.

Las ventajas de este tipo de diseño son evidentes. La primera, la flexibilidad, es evidente. Las otras dos son más teóricas y no siempre se cumplen pero, en principio, son más eficientes que los diseños convencionales y tienen más probabilidad de demostrar el efecto de la intervención, si éste existe.

Su mayor inconveniente es la dificultad de planificar a priori todas las posibilidades de cambio y la interpretación posterior de los resultados. Es difícil interpretar los resultados finales cuando el curso del ensayo depende mucho de los datos intermedios que se vayan obteniendo. Además, esto hace que sea imprescindible tener un acceso rápido y sencillo a los datos del ensayo mientras se está realizando, lo que puede ser difícil en el contexto de un ensayo clínico.

Y aquí lo dejamos por hoy. Vuelvo a insistir en la necesidad de planificar previamente el protocolo del ensayo y, en el caso de diseños adaptativos, las condiciones de cada adaptación. De hecho, hoy en día muchos ensayos se inscriben antes de realizarlos para que quede constancia de sus condiciones de diseño. Claro que el hecho de inscribirlos obliga también a su publicación posterior aunque los resultados no sean favorables, lo que ayuda a combatir el sesgo de publicación. Pero esa es otra historia…

Una de pilotos

No cabe duda de que el ensayo clínico aleatorizado es el rey de los diseños epidemiológicos cuando queremos demostrar, por ejemplo, la eficacia de un tratamiento. Lo que ocurre es que los ensayos son difíciles y costosos de hacer, por lo que antes de meternos en un ensayo es habitual hacer otros estudios previos.

Estos estudios previos pueden ser de tipo observacional. Con estudios de cohortes o de casos y controles podemos reunir la información suficiente sobre el efecto de una intervención que justifique la realización posterior de un ensayo clínico.

De todas formas, los estudios observacionales también son costosos y complejos, por lo que muchas veces se recurre a otra solución: el hacer un ensayo clínico a menor escala para obtener pruebas que justifiquen o no la realización de un ensayo a gran escala, que será el definitivo. Estos estudios previos suelen conocerse con el nombre de estudios piloto y tienen una serie de características que conviene tener en cuenta.

Por ejemplo, el objetivo del estudio piloto es proporcionar cierta seguridad de que el esfuerzo de hacer el ensayo definitivo servirá de algo, de forma que busca más observar el tipo de efectos de la intervención que demostrar de forma definitiva su eficacia.

Al ser estudios relativamente pequeños, los estudios piloto no suelen tener la potencia suficiente como para alcanzar significación estadística al nivel habitual del 0,05, de tal forma que se recomienda escoger un valor de alfa de hasta 0,2. Este valor alfa es la probabilidad que tenemos de cometer un error de tipo I, que consiste en rechazar la hipótesis nula de ausencia de efecto siendo cierta o, lo que es lo mismo, dar por bueno un efecto que en realidad no existe.

¿Y qué pasa?, ¿no nos importa tener un 20% de probabilidades de equivocarnos?. Porque para otros ensayos el límite es el 5%. Bueno en realidad no es que no nos importe, pero la mentalidad del estudio piloto es diferente a la del ensayo clínico convencional.

Si en un ensayo clínico convencional cometemos un error de tipo I admitiremos que un tratamiento es adecuado sin serlo. A nadie se le escapa que esto puede tener malas consecuencias y perjudicar a los pacientes que se sometan en el futuro a esa supuesta intervención beneficiosa. Sin embargo, si cometemos un error de tipo I en un estudio piloto, lo único que va a ocurrir es que vamos a gastar tiempo y dinero en hacer un ensayo definitivo que finalmente demostrará que el tratamiento no es eficaz.

A nivel de ensayo clínico definitivo es preferible no dar por bueno un tratamiento ineficaz o inseguro, mientras que a nivel de estudio piloto es preferible hacer el ensayo definitivo de un tratamiento ineficaz que dejar sin probar uno que pueda serlo. Por eso se aumenta el umbral para el error de tipo I hasta 0,2.

De todas formas, ya que lo que nos interesa más es estudiar la dirección del efecto de la intervención, puede ser recomendable utilizar intervalos de confianza en lugar de contrastes de hipótesis clásicos con su valor de p.

Estos intervalos de confianza se comparan con la diferencia mínima importante desde el punto de vista clínico, que debe definirse a priori. Si el intervalo no incluye el valor nulo y sí esta diferencia mínima importante, tendremos argumentos en favor de la realización de un ensayo a gran escala para demostrar definitivamente el efecto. Hay que comentar que, al igual que aumentábamos el valor de alfa, podemos usar intervalos de confianza con niveles inferiores al 95%.

Otra peculiaridad de los estudios piloto reside en la elección de las variables de resultado. Si tenemos en cuenta que el estudio piloto busca ver de forma sencilla cómo funcionan entre sí los componentes de un posible ensayo futuro, se comprende que, en ocasiones, no sea práctico utilizar una variable de resultado final y se recurra a una variable subrogada, que es aquella que proporciona una medida indirecta del efecto cuando la medición directa no es práctica o no es posible. Por ejemplo, si estamos estudiando un tratamiento antitumoral, la variable de resultado puede ser la supervivencia a cinco años, pero en el estudio piloto puede ser más útil alguna variable que indique la disminución del tamaño del tumor. Nos indicará la dirección del efecto del tratamiento sin tener que prolongar demasiado el estudio piloto.

Ya veis, pues, que los estudios piloto se deben interpretar teniendo en cuenta sus peculiaridades. Pero, además, nos ayudan a predecir cómo puede funcionar el ensayo definitivo, anticipando problemas que pueden arruinar un costoso y complejo ensayo clínico. Este es el caso de los datos faltantes y de las pérdidas durante el seguimiento, que suelen ser mayores en los estudios piloto que en los ensayos convencionales. Aunque tienen menos trascendencia en cuanto a la validez de los resultados, las pérdidas de los estudios piloto deben evaluarse para intentar evitar las futuras pérdidas del ensayo definitivo porque, aunque hay muchas maneras de manejar las pérdidas y los datos faltantes, la mejor forma es siempre evitar que se produzcan. Pero esa es otra historia…

Para ver bien hay que estar ciego

Dicen que no hay peor ciego que el que no quiere ver. Pero también es verdad que querer ver demasiado puede ser contraproducente. En ocasiones, es mejor ver solo lo justo e imprescindible.

Eso es lo que ocurre en los estudios científicos. Imaginad que queremos probar un nuevo tratamiento y planteamos un ensayo en el que a unos les damos el fármaco nuevo y a otros un placebo. Si todos saben qué recibe cada cual, puede ocurrir que las expectativas de los investigadores o de los participantes influyan, aun de forma involuntaria, en la forma en que valoren los resultados del estudio. Por eso hay que recurrir a técnicas de enmascaramiento, más conocidas como técnicas de ciego.

Vamos a suponer que queremos probar un fármaco nuevo contra una enfermedad muy grave. Si un participante sabe que le están dando el fármaco será mucho más permisivo con los efectos secundarios que si sabe que le dan placebo. Pero al investigador le puede ocurrir algo parecido. Cualquiera puede imaginar que pondríamos menos interés en preguntar por los signos de toxicidad del nuevo tratamiento a un individuo que sabemos está recibiendo un inocuo placebo.

Todos estos efectos pueden influir en la forma en que participantes e investigadores valoran los efectos del tratamiento, pudiendo producir un sesgo de interpretación de los resultados.

Las técnicas de enmascaramiento se pueden realizar a distintos niveles. El nivel más bajo es no enmascarar en absoluto, realizando lo que se denomina un ensayo abierto. Aunque lo ideal sea enmascarar, hay veces en que esto no interesa o es imposible. Por ejemplo, pensad que para cegar haya que causar molestias innecesarias, como la administración de placebos por vía parenteral durante periodos prolongados o la realización de procedimientos quirúrgicos. Otras veces es difícil encontrar un placebo que sea indistinguible galénicamente del tratamiento ensayado. Y, por último, otras veces no tendrá mucho sentido enmascarar si el tratamiento tiene efectos fácilmente reconocibles que no se producen con el placebo.

El siguiente nivel es el simple ciego cuando o bien los participantes, o bien los investigadores, desconocen qué tratamiento recibe cada uno. Un paso más allá está el doble ciego, en el que ni investigadores ni participantes saben a qué grupo pertenece cada uno. Y, por último, tenemos el triple ciego, cuando además de los ya mencionados, la persona que analiza los datos o la que tiene la responsabilidad de controlar y suspender el estudio desconoce también a qué grupo se ha asignado cada participante. Imaginad que aparece un efecto adverso grave y tenemos que decidir si suspendemos el estudio. No cabe duda que el conocer si esa persona recibe el fármaco en ensayo o el placebo nos puede condicionar a la hora de tomar esa decisión.

¿Y qué hacemos cuando no se puede o no interesa enmascarar?. Pues en esos casos no nos queda más remedio que hacer un estudio abierto, aunque podemos intentar recurrir a un evaluador ciego. Esto quiere decir que, aunque investigadores y participantes conozcan la asignación al grupo de intervención o de placebo, la persona que analiza las variables desconoce esta asignación. Esto es especialmente importante cuando la variable de resultado es subjetiva. Por otra parte, no resulta tan imprescindible cuando es una variable objetiva, como una determinación de laboratorio. Pensad que una radiografía puede no valorarse con la misma minuciosidad o criterio si sabemos que el individuo es del grupo placebo o del de intervención.

Para terminar, comentar otros dos posibles errores derivados de la falta de enmascaramiento. Si un participante sabe que recibe el fármaco en estudio puede experimentar una mejoría simplemente por efecto placebo. Por otra parte, el que sabe que le ha tocado el placebo puede modificar su comportamiento cuando sabe que “no está protegido” por el nuevo tratamiento. Esto se llama contaminación y es un verdadero problema en los estudios sobre hábitos de vida.

Y con esto acabamos. Solo aclarar un concepto antes de finalizar. Hemos visto que puede haber cierta relación entre la falta de enmascaramiento y la aparición de un efecto placebo. Pero no os confundáis, el enmascaramiento no sirve para controlar el efecto placebo. Para eso hay que recurrir a otra argucia: la aleatorización. Pero esa es otra historia…

Hazlo con sensibilidad

Hacer las cosas con sensibilidad suele ser garantía de buenos resultados. Pero seguro que no habíais pensado que esto también se aplica en la ciencia: cuando utilizamos el método científico, para garantizar la validez de nuestros resultados tenemos que analizarlos con sensibilidad. Bueno, en realidad tenemos que hacer un análisis de sensibilidad.

Resulta que en los estudios en biomedicina se asumen en ocasiones ciertos supuestos a la hora de realizarlos y estos supuestos, que suelen concernir a los métodos de análisis o a los modelos empleados, pueden influir en los resultados que obtenemos. Siempre que nos podamos preguntar si los resultados cambiarían si cambiásemos alguna de las definiciones del estudio, o el método de análisis, o el modo de tratar los datos faltantes o el cumplimiento o violaciones del protocolo de estudio, la validez de nuestros resultados puede verse comprometida. Para defendernos de esto podemos hacer un análisis de sensibilidad y si los resultados siguen siendo los mismos, podremos decir que nuestras conclusiones son robustas.

Un análisis de sensibilidad es, por tanto, el método que usamos para determinar la robustez de una valoración examinando en qué grado los resultados se influyen por cambios en la metodología o en los modelos utilizados en el estudio.

Así que, siempre que nuestros resultados se basen en suposiciones que puedan influir en su impacto, estaremos obligados a hacer un análisis de sensibilidad, cuya metodología dependerá de cada escenario clínico concreto.

Un ejemplo puede ser la presencia de datos extremos (outliers para nuestros amigos ingleses), que pueden sesgar la media de una muestra y alterar las estimaciones que se hacen a partir de ella. Lo más sencillo es ver si existen mediante un diagrama de cajas (boxplot) y, en caso afirmativo, hacer el análisis con y sin los valores extremos para ver cómo cambian los resultados.

Otras veces existe falta de cumplimiento de la intervención o violaciones del protocolo de estudio que pueden diluir el efecto de la intervención. Podremos, en estos casos, realizar un análisis por intención de tratar y un análisis por protocolo y estudiar si existen diferencias.

En otras ocasiones la definición de las variables de resultado puede ser arbitraria, por lo que puede ser útil estudiar las conclusiones que se obtienen aplicando otros puntos de corte.

Si el muestreo se realiza en bloques, como ocurre con los estudios multicéntricos, tendremos que comparar los resultados haciendo el análisis global y el análisis por bloques, con y sin ajustar por la pertenencia de cada participante a cada bloque, ya que la homogeneidad de los datos dentro de cada bloque puede ser diferente.

Un caso curioso es el de los riesgos competitivos. Por ejemplo, si valoramos como variables de resultado infarto, angina y muerte, esta última evita la posibilidad de que vuelvan a ocurrir las dos primeras, con lo cual el análisis de supervivencia puede verse interferido. Para evitar esto hay métodos de análisis utilizando las curvas de Kaplan-Meier censurando las ocurrencias de las variables competitivas. En cualquier caso, el análisis de sensibilidad debe hacer un ajuste por el factor de riesgo competitivo.

Parecido ocurre cuando existen diferencias en las características basales de las poblaciones de control y de intervención. En estos casos, el análisis simple debe completarse con un análisis que ajuste por estas diferencias, habitualmente utilizando un modelo de regresión multivariante.

Y, para acabar, dos problemas un poco espinosos respecto al análisis estadístico. El primero se refiere al tipo de distribución de frecuencias que empleamos para el análisis. Suele asumirse que las variables continuas siguen una distribución normal, las discretas una de Poisson y las binarias una binomial. Habitualmente se comprueba que los datos se ajustan a estas distribuciones pero, si queremos tener más seguridad acerca de su validez, podemos probar los resultados asumiendo distribuciones diferentes, como la t de Student para la normal o la binomial negativa para la de Poisson.

El segundo sería el problema con los datos que faltan (los missing). En este caso tenemos dos opciones: hacer el análisis solo con los datos completos o suponer (imputar dicen los que saben de esto) los valores que faltan para incluirlos todos en el análisis. Con ambas posibilidades corremos riesgo de sesgos, dependiendo en gran parte de qué condiciona que falten los datos y de si los datos que se pierden son al azar o no. Habitualmente se hace el análisis completo y el análisis con imputación de datos y se estudian las diferencias en los resultados obtenidos.

Y esto es, a grandes rasgos, lo que es un análisis de sensibilidad. Hemos pasado muy por encima el asunto de la imputación de datos, que da para escribir un libro de los gordos. Y es que, aunque lo ideal es tratar de prevenir que nos falten datos, cuando esto ocurre tenemos un montón de formas de inventárnoslos. Pero esa es otra historia…