Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEnsayo clínico cruzado
image_pdf

Rey de reyes

No cabe duda de que a la hora de realizar un trabajo de investigación en biomedicina podemos elegir entre un gran número de diseños posibles, todos ellos con sus ventajas e inconvenientes. Pero en esta corte tan diversa y poblada, entre malabaristas, sabios, jardineros y flautistas púrpuras, reina por encima de todos el verdadero Rey Carmesí de la epidemiología: el ensayo clínico aleatorizado.

El ensayo clínico es un estudio de intervención, analítico, de dirección anterógrada y temporalidad concurrente, con muestreo de cohorte cerrada con control de la exposición. En un ensayo se selecciona una muestra de una población y se divide al azar en dos grupos. Uno de los grupos (grupo de intervención) sufre la intervención que queremos estudiar, mientras que el otro (grupo de control) nos sirve de referencia para comparar los resultados. Tras un periodo de seguimiento determinado se analizan los resultados y se comparan las diferencias entre los dos grupos. Podemos así evaluar los beneficios de los tratamientos o intervenciones al mismo tiempo que controlamos los sesgos de otros tipos de estudios: la aleatorización favorece que los posibles factores de confusión, conocidos o no, se repartan de forma uniforme entre los dos grupos, de forma que si al final detectamos alguna diferencia, esta tiene que ser debida a la intervención en estudio. Esto es lo que nos permite establecer una relación causal entre exposición y efecto.

Por lo dicho hasta ahora, se comprende fácilmente que el ensayo clínico aleatorizado sea el diseño más adecuado para valorar la eficacia de cualquier intervención en medicina y es el que proporciona, como ya hemos comentado, una evidencia de mayor calidad para demostrar la relación de causalidad entre la intervención y los resultados observados.

Pero para disfrutar de todos estos beneficios es necesario ser escrupuloso en el planteamiento y metodología de los ensayos. Existen listas de verificación publicadas por sabios que entienden mucho de estos temas, como es el caso de la lista CONSORT, que nos pueden ayudar a valorar la calidad del diseño del ensayo. Pero entre todos estos aspectos, reflexionemos un poco sobre aquellos que son cruciales para la validez del ensayo clínico.

Todo empieza con una laguna de conocimiento que nos lleva a formular una pregunta clínica estructurada. El único objetivo del ensayo debe ser responder a esta pregunta y basta con que se responda de forma adecuada a una sola pregunta. Desconfiad de los ensayos clínicos que tratan de responder a muchas preguntas, ya que, en muchas ocasiones, al final no responden bien a ninguna. Además, el planteamiento debe basarse en lo que los inventores de jerga metodológica llaman el principio de incertidumbre (la equipoise de los que hablan inglés), que no quiere decir más que, en el fondo de nuestro corazón, desconocemos de verdad cuál de las dos intervenciones es más beneficiosa para el paciente (habría que ser un poco perro desde el punto de vista ético para realizar una comparación si ya sabemos con seguridad cuál de las dos intervenciones es mejor). Es curioso en este sentido cómo los ensayos patrocinados por la industria farmacéutica tienen más tendencia a incumplir el principio de incertidumbre, ya que tienen preferencia por comparar con placebo o con “no intervención” para poder demostrar con más facilidad la eficacia de sus productos.A continuación debemos elegir cuidadosamente la muestra sobre la que realizaremos el ensayo. Idealmente, todos los miembros de la población deberían tener la misma probabilidad no solo de ser elegidos, sino también de acabar en cualquiera de las dos ramas del ensayo. Aquí nos encontramos con un pequeño dilema. Si somos muy estrictos con los criterios de inclusión y exclusión la muestra será muy homogénea y la validez interna del estudio saldrá fortalecida, pero será más difícil extender los resultados a la población general (esta es la actitud explicativa de selección de la muestra). Por otra parte, si no somos tan rígidos los resultados se parecerán más a los de la población general, pero puede verse comprometida la validez interna del estudio (esta es la actitud pragmática).

La aleatorización (¿quién ha dicho randomización?) es uno de los puntos clave del ensayo clínico. Es la que nos asegura que podemos comparar los dos grupos, ya que tiende a distribuir por igual las variables conocidas y, más importante, también las desconocidas entre los dos grupos. Pero no nos relajemos demasiado: este reparto no está en absoluto garantizado, solo es más probable que ocurra si aleatorizamos de forma correcta, así que siempre deberemos comprobar la homogeneidad de los dos grupos, sobre todo con muestras pequeñas.

Además, la aleatorización nos permite realizar de forma adecuada el enmascaramiento, con lo que realizamos una medición no sesgada de la variable de respuesta, evitando los sesgos de información. Estos resultados del grupo de intervención los podemos comparar con los del grupo control de tres formas. Una de ellas es comparar con un placebo. El placebo debe ser un preparado de características físicas indistinguibles del fármaco de intervención pero sin sus efectos farmacológicos. Esto sirve para controlar el efecto placebo (que depende de la personalidad del paciente, de sus sentimientos hacia a la intervención, de su cariño por el equipo investigador, etc), pero también los efectos secundarios que son debidos a la intervención y no al efecto farmacológico (pensemos, por ejemplo, en el porcentaje de infecciones locales en un ensayo con medicación administrada por vía intramuscular).

La otra forma de comparar es con el tratamiento aceptado como más eficaz hasta el momento. Si existe un tratamiento que funciona, lo lógico (y más ético) es que lo usemos para investigar si el nuevo aporta beneficios. También suele ser el método de comparación habitual en los estudios de equivalencia o de no-inferioridad. Por último, la tercera posibilidad es comparar con la no intervención, aunque en realidad esto es una forma rebuscada de decir que solo se le aplican los cuidados habituales que recibiría cualquier paciente en su situación clínica.

Es imprescindible que todos los participantes en el ensayo sean sometidos a la misma pauta de seguimiento, que debe ser lo suficientemente prolongado como para permitir que se produzca la respuesta esperada. Deben detallarse y analizarse todas las pérdidas que se produzcan durante el seguimiento, ya que pueden comprometer la validez y la potencia del estudio para detectar diferencias significativas. ¿Y qué hacemos con los que se pierden o acaban en una rama diferente a la asignada?. Si son muchos, lo más razonable puede ser rechazar el estudio. Otra posibilidad es excluirlos y hacer como si no hubiesen existido nunca, pero podemos sesgar los resultados del ensayo. Una tercera posibilidad es incluirlos en el análisis en la rama del ensayo en la que han participado (siempre hay alguno que se confunde y se toma lo que no le toca), lo que se conoce como análisis por tratamiento o análisis por protocolo. Y la cuarta, y última opción que tenemos, es analizarlos en la rama que se les asignó inicialmente con independencia de lo que hayan hecho durante el estudio. Esto se denomina análisis por intención de tratar, y es la única de las cuatro posibilidades que nos permite conservar todos los beneficios que previamente nos había proporcionado la aleatorización.

Como fase final, nos quedaría el análisis y comparación de los datos para extraer las conclusiones del ensayo, utilizando para ello las medidas de asociación y medidas de impacto oportunas que, en el caso del ensayo clínico, suelen ser la tasa de respuesta, el riesgo relativo (RR), la reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario a tratar (NNT). Vamos a verlos con un ejemplo.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A para no calentarnos mucho la cabeza) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles. Podéis ver en la tabla adjunta cómo se calculan estas medidas.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la RRR y la RAR. La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,4, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el NNT = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo que también os muestro en la tabla. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado para meteros el vino barato y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Hasta ahora todo lo que hemos dicho hace referencia al diseño clásico de ensayo clínico en paralelo, pero el rey de los diseños tiene muchas caras y, con mucha frecuencia, podemos encontrar trabajos en los que se nos muestra de forma un poco diferente, lo que puede implicar que el análisis de los resultados tenga peculiaridades especiales.

Vamos a empezar con una de las variaciones más frecuentes. Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. Como podéis ver en la figura adjunta, en este tipo de ensayo cada sujeto es aleatorizado a un grupo, se le somete a la intervención, se deja pasar un periodo de lavado o blanqueo y se le somete a la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo? Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Acabo ya. La verdad es que esta entrada me ha quedado un poco larga (y espero que no demasiado coñazo), pero es que el Rey se lo merece. De todas formas, si pensáis que está todo dicho sobre ensayos clínicos no tenéis ni idea de todo lo que queda por decir sobre tipos de muestreos, de aleatorización, etc, etc, etc. Pero esa es otra historia…

Torciendo paralelas

Dicen los matemáticos que dos líneas paralelas son aquellas que, por más que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es mucha distancia. No creo que nadie haya prolongado dos paralelas lo suficiente como para estar seguro de esta afirmación. Claro que, por otro lado, si llegan a juntarse es que no eran paralelas, ¿verdad?

Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo clínico cruzado.

En un ensayo clínico en paralelo clásico cada participante se asigna aleatoriamente a una, y solo una, de las ramas del ensayo, la de intervención en estudio o la de control. Sin embargo, podemos cruzar las paralelas y conseguir un diseño que permite que cada paciente reciba tanto la intervención en estudio como la de control siempre, eso sí, estableciendo un orden determinado y durante un periodo de tiempo establecido. ensayo cruzadoAsí, cada sujeto actúa como su propio control, experimentando ambas intervenciones en una secuencia de periodos establecida de modo aleatorio y separado ambos periodos por uno de estabilización o periodo de lavado. Podéis ver un esquema de este diseño en la figura que os adjunto.

Existen algunas variaciones sobre el tema de los ensayos cruzados, según todos los participantes sean sometidos a las dos intervenciones (ensayo completo) o algunos solo a una de ellas (ensayo incompleto). Además, es posible extender este tipo de diseño y probar más de dos intervenciones, dando lugar a distintos órdenes de secuencia que reciben nombres como diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a profundizar en esta entrada.

La ventaja principal de los estudios cruzados radica en una característica que ya hemos comentado: cada sujeto actúa como su propio control. Esto, que puede parecer una chorrada sin importancia, no es tal. Si lo pensamos un poco, lo que hacemos es valorar el efecto de la intervención activa y de la de control en el mismo sujeto, con lo cual obtendremos menor variabilidad que si comparamos los efectos en participantes diferentes, como se hace en el ensayo en paralelo, en el que cada participante se expone solo a una de las dos intervenciones.

Al ser menor la variabilidad, la precisión de las observaciones será mayor, con lo que el tamaño muestral necesario para detectar una determinada diferencia de efecto del tratamiento será menor. Y no un poco menor, sino que la muestra necesaria puede verse reducida de forma importante en comparación con la que haría falta en el ensayo paralelo correspondiente.

Esta reducción del tamaño de la muestra depende de la correlación entre las distintas medidas de resultado del estudio. En el peor de los casos, con una correlación cero, la muestra se ve dividida por la mitad. Si la correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero es que esta reducción es cada vez mayor según el valor de la correlación se vaya aproximando a uno.

Por si fuera poco, además de una estimación más precisa, ésta es menos sesgada, ya que se asume una respuesta constante de cada sujeto a las dos intervenciones probadas, mientras que en el ensayo en paralelo esta respuesta es más variable por medirse en sujetos diferentes.

Pero no todo va a ser ventajas a favor de los diseños cruzados. También plantean algunos inconvenientes. La mayor limitación es el coñazo que se les da a los participantes con tanta intervención y tanto periodo. Y esto es importante no solo por la consideración que podamos sentir hacia los participantes, sino porque aumenta el riesgo de pérdidas durante el estudio. Y resulta que los estudios cruzados son más sensibles a las pérdidas durante el seguimiento que los paralelos, sobre todo si el número de participantes que completan cada secuencia es diferente.

Otra limitación es que es importante que los sujetos sean similares al comienzo de cada periodo, por lo que estos estudios solo sirven si se trata de enfermos crónicos con síntomas estables. Tampoco sirven si la variable de resultado produce un efecto permanente. Pensemos en la más permanente de todas, la mortalidad. Si el participante se muere en el primer periodo, será más que difícil valorar su respuesta en el periodo siguiente.

Además, alguna de sus ventajas, como el reducido tamaño muestral, se torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en estudios de fase III, en los que queramos valorar seguridad, tolerancia, eficacia, detección de efectos adversos impredecibles, etc. En estos casos, la muestra pequeña no solo no es imprescindible, sino que puede resultar inadecuada.

Por último, referirnos a tres debilidades desde el punto de vista de diseño, los llamados efecto residual, efecto secuencia y efecto periodo.

El efecto residual se produce cuando en un periodo persiste el efecto de la intervención del periodo anterior. Pensemos que hemos dado un fármaco y quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando el periodo de lavado, pero hay ocasiones en que esto no es tan fácil. Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo periodo sea más favorable por el simple hecho de estar incluido en el estudio (efecto placebo).

El efecto secuencia se produce cuando el orden de las intervenciones afecta el resultado final, con lo que solo podríamos valorar adecuadamente los resultados de la primera intervención.

Por último, puede ocurrir que las características del paciente cambien a lo largo del estudio, modificando su respuesta a las diferentes intervenciones. Nos encontramos ante un efecto periodo.

Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a tamaño muestral que los ensayos paralelos, siempre que se cumplan las condiciones óptimas para su empleo. Son muy útiles para estudios de fase I y fase II en los que queremos conocer la farmacocinética y farmacodinámica, la seguridad, la titulación de dosis, etc. En fases posteriores del desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya hemos comentado, no se trata de enfermedades crónicas con sintomatología estable.

Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis estadístico de los resultados. En el caso del ensayo en paralelo los resultados de las dos ramas pueden compararse directamente, pero esto no es así con los ensayos cruzados, en los que deberemos asegurarnos de que no se haya producido efectos residual, efecto secuencia o efecto periodo. Pero esa es otra historia…

Que no se te crucen los cables

El ahorro es un condicionante importante a la hora de realizar cualquier estudio, especialmente si se trata de un ensayo clínico, habitualmente costoso en tiempo y dinero. Por eso tratan de diseñarse nuevas formas de hacer los estudios que nos permitan ahorrar, la mayor parte en lo que se refiere al número de participantes necesarios, uno de los principales condicionantes del coste final del estudio.

ensayo cruzadoUno de estos diseños es el ensayo clínico cruzado, del que ya hablamos en una entrada anterior. En este tipo de ensayos cada sujeto es aleatorizado a un grupo, se realiza la intervención, se deja pasar un periodo de lavado o blanqueo y se realiza la otra intervención, tal como veis esquematizado en el gráfico que os adjunto. Al actuar cada sujeto como su propio control se limita el efecto de las variables confusoras que puedan existir, además de ser menor la variabilidad que pueda deberse al azar respecto a los estudios en que los sujetos de intervención y los controles son diferentes. Esto hace que el tamaño muestral pueda ser menor que el del ensayo clínico en paralelo convencional.

Para poder hacer un ensayo cruzado, el efecto debe ser de producción rápida y de corta duración, a la vez que mantenerse estable a lo largo de los periodos del estudio. En caso contrario podemos encontrarnos con las dos debilidades metodológicas del ensayo cruzado: el efecto secuencia y el efecto periodo.

Por eso, además de analizar los efectos finales de las dos intervenciones en estudio, debemos ampliar el análisis estadístico de los datos para que no se nos cruce ningún cable y demos por buena una diferencia en tamaño de efecto que, en realidad, pueda deberse a un defecto metodológico de este tipo de ensayos.

Este análisis estadístico es un poco laborioso, así que lo vamos a ver con un ejemplo totalmente ficticio.

cruzados_tabla1Supongamos que queremos probar dos hipotensores que vamos a llamar A y B para no rompernos mucho la cabeza. El ejemplo lo vamos a hacer con 10 pacientes en aras de la simplicidad, pero imaginaos que son muchos más. En la primera tabla vemos representados los resultados principales del ensayo. Hemos recogido la presión arterial sistólica (TA) antes de empezar el estudio, al final de cada periodo y durante el periodo de lavado del ensayo. Como es lógico, recogemos también qué fármaco ha recibido cada participante durante cada periodo.

Lo primero que se nos ocurre es comparar las diferencias de TA entre los dos fármacos. Para eso necesitamos extraer los datos y reordenarlos. Con ellos hemos construido la segunda tabla. Si os molestáis en calcular, la media (m) de TA después de recibir A es de 118,5 mmHg, con una cruzados_tabla2desviación estándar (s) de 16 mmHg. Los valores que corresponden para B son una m=144,5 y una s=7,24. Para saber si estas diferencias son significativas debemos hacer un contraste de hipótesis, estableciendo la hipótesis nula (H0) de igualdad de efectos. Vamos a suponer que la variable sigue una distribución normal, que las varianzas son iguales y que la muestra fuese mucho más grande para poder emplear el test de la t de Student para datos pareados. Si calculáis el valor de t para 9 grados de libertad vale -5,18, lo que se corresponde con una p = 0,0005. Al ser p<0,05 rechazamos la hipótesis nula y concluimos que el fármaco A produce una mayor reducción de la TA que el fármaco B.

Y aquí terminaría el análisis si se tratase de un ensayo en paralelo, pero en nuestro caso debemos hacer alguna comprobación más para estar seguros de que no se nos cruza ningún cable por culpa de las debilidades del ensayo cruzado.

En primer lugar, comprobaremos que el efecto de las intervenciones es de corta duración y no existe un efecto residual de la primera intervención cuando comienza la segunda. Si no existe efecto residual, la TA al final del periodo de lavado debería ser similar a la TA basal, antes de cualquier intervención. La TA basal tiene una m=162,9 mmHg, con una s=14,81. Por su parte, los valores al final del periodo de lavado son de 156,6 y 23,14 mmHg, respectivamente. Si hacemos el contraste correspondiente encontraremos un valor de t=0,81, con una p=0,43. No podemos rechazar la H0 de igualdad, así que concluimos que las TA son similares antes de la primera intervención y al final del periodo de lavado, luego no hay efecto residual.

En segundo lugar, comprobaremos que no existe un efecto periodo. Si este se produjese, el efecto al final del segundo periodo sería mayor (o menor) que al final del primero. Al final del primer periodo encontramos una TA m=131,4 mmHg con una s=14,44 mmHg. Al final del segundo los valores son de 131,6 y 21,77 mmHg, respectivamente. Al hacer el contraste encontramos un valor de t=-0,02, con una p=0,98. Conclusión: no rechazamos la H0 de igualdad y concluimos que no existen pruebas de un efecto periodo en el ensayo.

Por último, vamos a investigar si pudo haber un efecto secuencia. Si esto se hubiese producido (hubiese interacción entre los dos fármacos de intervención), el efecto de cada una de las intervenciones sería diferente según el orden en que las hubiésemos llevado a cabo en cada paciente. Para ello calcularemos la media de descenso de TA en todos los pacientes al emplear la secuencia AB y la compararemos con la hallada al utilizar la secuencia BA. Los datos para la secuencia AB son m=-26,2 mmHg y s=11 mmHg. Para la secuencia BA son de -25,8 y 21,22 mmHg, respectivamente. El valor de la t de Student que encontramos si hacemos el test es de -0,04, al cual le corresponde un valor de p=0,96. Una vez más, no podemos rechazar la H0 de igualdad y concluimos que no existió efecto secuencia.

Y con esto vamos a dar por finalizado el análisis. La conclusión final es que existe una diferencia estadísticamente significativa en la potencia hipotensora de los dos fármacos a favor de A, no encontrándose signos que sugieran efectos residuales de una intervención sobre otra, efecto periodo ni efecto secuencia.

Recordad que los datos son ficticios y que hemos asumido normalidad e igualdad de varianzas con fines didácticos. Además, como ya comentamos al principio, no sería del todo correcto emplear la t de Student con una muestra tan pequeña, aunque me he tomado esta pequeña licencia para poder explicar el ejemplo con más sencillez. De todas formas, teniendo un programa informático cuesta lo mismo hacer una t de Student que un test de Wilcoxon.

Y esto es todo. Como veis, el análisis estadístico de los resultados de un ensayo cruzado es bastante más laborioso que el del ensayo en paralelo. De todas formas, aquí hemos visto el ejemplo más sencillo, cuando no hay interacción entre las dos intervenciones. Y es que cuando existe interacción el análisis no termina aquí y son necesarias todavía más comprobaciones. Pero esa es otra historia…