Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEfecto periodo
image_pdf

Torciendo paralelas

Dicen los matemáticos que dos líneas paralelas son aquellas que, por más que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es mucha distancia. No creo que nadie haya prolongado dos paralelas lo suficiente como para estar seguro de esta afirmación. Claro que, por otro lado, si llegan a juntarse es que no eran paralelas, ¿verdad?

Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo clínico cruzado.

En un ensayo clínico en paralelo clásico cada participante se asigna aleatoriamente a una, y solo una, de las ramas del ensayo, la de intervención en estudio o la de control. Sin embargo, podemos cruzar las paralelas y conseguir un diseño que permite que cada paciente reciba tanto la intervención en estudio como la de control siempre, eso sí, estableciendo un orden determinado y durante un periodo de tiempo establecido. ensayo cruzadoAsí, cada sujeto actúa como su propio control, experimentando ambas intervenciones en una secuencia de periodos establecida de modo aleatorio y separado ambos periodos por uno de estabilización o periodo de lavado. Podéis ver un esquema de este diseño en la figura que os adjunto.

Existen algunas variaciones sobre el tema de los ensayos cruzados, según todos los participantes sean sometidos a las dos intervenciones (ensayo completo) o algunos solo a una de ellas (ensayo incompleto). Además, es posible extender este tipo de diseño y probar más de dos intervenciones, dando lugar a distintos órdenes de secuencia que reciben nombres como diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a profundizar en esta entrada.

La ventaja principal de los estudios cruzados radica en una característica que ya hemos comentado: cada sujeto actúa como su propio control. Esto, que puede parecer una chorrada sin importancia, no es tal. Si lo pensamos un poco, lo que hacemos es valorar el efecto de la intervención activa y de la de control en el mismo sujeto, con lo cual obtendremos menor variabilidad que si comparamos los efectos en participantes diferentes, como se hace en el ensayo en paralelo, en el que cada participante se expone solo a una de las dos intervenciones.

Al ser menor la variabilidad, la precisión de las observaciones será mayor, con lo que el tamaño muestral necesario para detectar una determinada diferencia de efecto del tratamiento será menor. Y no un poco menor, sino que la muestra necesaria puede verse reducida de forma importante en comparación con la que haría falta en el ensayo paralelo correspondiente.

Esta reducción del tamaño de la muestra depende de la correlación entre las distintas medidas de resultado del estudio. En el peor de los casos, con una correlación cero, la muestra se ve dividida por la mitad. Si la correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero es que esta reducción es cada vez mayor según el valor de la correlación se vaya aproximando a uno.

Por si fuera poco, además de una estimación más precisa, ésta es menos sesgada, ya que se asume una respuesta constante de cada sujeto a las dos intervenciones probadas, mientras que en el ensayo en paralelo esta respuesta es más variable por medirse en sujetos diferentes.

Pero no todo va a ser ventajas a favor de los diseños cruzados. También plantean algunos inconvenientes. La mayor limitación es el coñazo que se les da a los participantes con tanta intervención y tanto periodo. Y esto es importante no solo por la consideración que podamos sentir hacia los participantes, sino porque aumenta el riesgo de pérdidas durante el estudio. Y resulta que los estudios cruzados son más sensibles a las pérdidas durante el seguimiento que los paralelos, sobre todo si el número de participantes que completan cada secuencia es diferente.

Otra limitación es que es importante que los sujetos sean similares al comienzo de cada periodo, por lo que estos estudios solo sirven si se trata de enfermos crónicos con síntomas estables. Tampoco sirven si la variable de resultado produce un efecto permanente. Pensemos en la más permanente de todas, la mortalidad. Si el participante se muere en el primer periodo, será más que difícil valorar su respuesta en el periodo siguiente.

Además, alguna de sus ventajas, como el reducido tamaño muestral, se torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en estudios de fase III, en los que queramos valorar seguridad, tolerancia, eficacia, detección de efectos adversos impredecibles, etc. En estos casos, la muestra pequeña no solo no es imprescindible, sino que puede resultar inadecuada.

Por último, referirnos a tres debilidades desde el punto de vista de diseño, los llamados efecto residual, efecto secuencia y efecto periodo.

El efecto residual se produce cuando en un periodo persiste el efecto de la intervención del periodo anterior. Pensemos que hemos dado un fármaco y quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando el periodo de lavado, pero hay ocasiones en que esto no es tan fácil. Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo periodo sea más favorable por el simple hecho de estar incluido en el estudio (efecto placebo).

El efecto secuencia se produce cuando el orden de las intervenciones afecta el resultado final, con lo que solo podríamos valorar adecuadamente los resultados de la primera intervención.

Por último, puede ocurrir que las características del paciente cambien a lo largo del estudio, modificando su respuesta a las diferentes intervenciones. Nos encontramos ante un efecto periodo.

Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a tamaño muestral que los ensayos paralelos, siempre que se cumplan las condiciones óptimas para su empleo. Son muy útiles para estudios de fase I y fase II en los que queremos conocer la farmacocinética y farmacodinámica, la seguridad, la titulación de dosis, etc. En fases posteriores del desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya hemos comentado, no se trata de enfermedades crónicas con sintomatología estable.

Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis estadístico de los resultados. En el caso del ensayo en paralelo los resultados de las dos ramas pueden compararse directamente, pero esto no es así con los ensayos cruzados, en los que deberemos asegurarnos de que no se haya producido efectos residual, efecto secuencia o efecto periodo. Pero esa es otra historia…

Que no se te crucen los cables

El ahorro es un condicionante importante a la hora de realizar cualquier estudio, especialmente si se trata de un ensayo clínico, habitualmente costoso en tiempo y dinero. Por eso tratan de diseñarse nuevas formas de hacer los estudios que nos permitan ahorrar, la mayor parte en lo que se refiere al número de participantes necesarios, uno de los principales condicionantes del coste final del estudio.

ensayo cruzadoUno de estos diseños es el ensayo clínico cruzado, del que ya hablamos en una entrada anterior. En este tipo de ensayos cada sujeto es aleatorizado a un grupo, se realiza la intervención, se deja pasar un periodo de lavado o blanqueo y se realiza la otra intervención, tal como veis esquematizado en el gráfico que os adjunto. Al actuar cada sujeto como su propio control se limita el efecto de las variables confusoras que puedan existir, además de ser menor la variabilidad que pueda deberse al azar respecto a los estudios en que los sujetos de intervención y los controles son diferentes. Esto hace que el tamaño muestral pueda ser menor que el del ensayo clínico en paralelo convencional.

Para poder hacer un ensayo cruzado, el efecto debe ser de producción rápida y de corta duración, a la vez que mantenerse estable a lo largo de los periodos del estudio. En caso contrario podemos encontrarnos con las dos debilidades metodológicas del ensayo cruzado: el efecto secuencia y el efecto periodo.

Por eso, además de analizar los efectos finales de las dos intervenciones en estudio, debemos ampliar el análisis estadístico de los datos para que no se nos cruce ningún cable y demos por buena una diferencia en tamaño de efecto que, en realidad, pueda deberse a un defecto metodológico de este tipo de ensayos.

Este análisis estadístico es un poco laborioso, así que lo vamos a ver con un ejemplo totalmente ficticio.

cruzados_tabla1Supongamos que queremos probar dos hipotensores que vamos a llamar A y B para no rompernos mucho la cabeza. El ejemplo lo vamos a hacer con 10 pacientes en aras de la simplicidad, pero imaginaos que son muchos más. En la primera tabla vemos representados los resultados principales del ensayo. Hemos recogido la presión arterial sistólica (TA) antes de empezar el estudio, al final de cada periodo y durante el periodo de lavado del ensayo. Como es lógico, recogemos también qué fármaco ha recibido cada participante durante cada periodo.

Lo primero que se nos ocurre es comparar las diferencias de TA entre los dos fármacos. Para eso necesitamos extraer los datos y reordenarlos. Con ellos hemos construido la segunda tabla. Si os molestáis en calcular, la media (m) de TA después de recibir A es de 118,5 mmHg, con una cruzados_tabla2desviación estándar (s) de 16 mmHg. Los valores que corresponden para B son una m=144,5 y una s=7,24. Para saber si estas diferencias son significativas debemos hacer un contraste de hipótesis, estableciendo la hipótesis nula (H0) de igualdad de efectos. Vamos a suponer que la variable sigue una distribución normal, que las varianzas son iguales y que la muestra fuese mucho más grande para poder emplear el test de la t de Student para datos pareados. Si calculáis el valor de t para 9 grados de libertad vale -5,18, lo que se corresponde con una p = 0,0005. Al ser p<0,05 rechazamos la hipótesis nula y concluimos que el fármaco A produce una mayor reducción de la TA que el fármaco B.

Y aquí terminaría el análisis si se tratase de un ensayo en paralelo, pero en nuestro caso debemos hacer alguna comprobación más para estar seguros de que no se nos cruza ningún cable por culpa de las debilidades del ensayo cruzado.

En primer lugar, comprobaremos que el efecto de las intervenciones es de corta duración y no existe un efecto residual de la primera intervención cuando comienza la segunda. Si no existe efecto residual, la TA al final del periodo de lavado debería ser similar a la TA basal, antes de cualquier intervención. La TA basal tiene una m=162,9 mmHg, con una s=14,81. Por su parte, los valores al final del periodo de lavado son de 156,6 y 23,14 mmHg, respectivamente. Si hacemos el contraste correspondiente encontraremos un valor de t=0,81, con una p=0,43. No podemos rechazar la H0 de igualdad, así que concluimos que las TA son similares antes de la primera intervención y al final del periodo de lavado, luego no hay efecto residual.

En segundo lugar, comprobaremos que no existe un efecto periodo. Si este se produjese, el efecto al final del segundo periodo sería mayor (o menor) que al final del primero. Al final del primer periodo encontramos una TA m=131,4 mmHg con una s=14,44 mmHg. Al final del segundo los valores son de 131,6 y 21,77 mmHg, respectivamente. Al hacer el contraste encontramos un valor de t=-0,02, con una p=0,98. Conclusión: no rechazamos la H0 de igualdad y concluimos que no existen pruebas de un efecto periodo en el ensayo.

Por último, vamos a investigar si pudo haber un efecto secuencia. Si esto se hubiese producido (hubiese interacción entre los dos fármacos de intervención), el efecto de cada una de las intervenciones sería diferente según el orden en que las hubiésemos llevado a cabo en cada paciente. Para ello calcularemos la media de descenso de TA en todos los pacientes al emplear la secuencia AB y la compararemos con la hallada al utilizar la secuencia BA. Los datos para la secuencia AB son m=-26,2 mmHg y s=11 mmHg. Para la secuencia BA son de -25,8 y 21,22 mmHg, respectivamente. El valor de la t de Student que encontramos si hacemos el test es de -0,04, al cual le corresponde un valor de p=0,96. Una vez más, no podemos rechazar la H0 de igualdad y concluimos que no existió efecto secuencia.

Y con esto vamos a dar por finalizado el análisis. La conclusión final es que existe una diferencia estadísticamente significativa en la potencia hipotensora de los dos fármacos a favor de A, no encontrándose signos que sugieran efectos residuales de una intervención sobre otra, efecto periodo ni efecto secuencia.

Recordad que los datos son ficticios y que hemos asumido normalidad e igualdad de varianzas con fines didácticos. Además, como ya comentamos al principio, no sería del todo correcto emplear la t de Student con una muestra tan pequeña, aunque me he tomado esta pequeña licencia para poder explicar el ejemplo con más sencillez. De todas formas, teniendo un programa informático cuesta lo mismo hacer una t de Student que un test de Wilcoxon.

Y esto es todo. Como veis, el análisis estadístico de los resultados de un ensayo cruzado es bastante más laborioso que el del ensayo en paralelo. De todas formas, aquí hemos visto el ejemplo más sencillo, cuando no hay interacción entre las dos intervenciones. Y es que cuando existe interacción el análisis no termina aquí y son necesarias todavía más comprobaciones. Pero esa es otra historia…

Las otras caras del rey

Ya hemos hablado otras veces del rey de los diseños experimentales, el ensayo clínico aleatorizado, en el que una población se divide al azar en dos grupos para someter a uno de ellos a la intervención en estudio y el otro sirve de grupo control. Esta es la cara más habitual del rey, el ensayo clínico en paralelo, que es ideal para la mayor parte de los estudios sobre tratamiento, para muchos de los de pronóstico o estrategias de prevención y, con sus peculiaridades, para los estudios para valoración de pruebas diagnósticas. Pero el rey es muy versátil y tiene otras muchas caras para adaptarse a diferentes situaciones.

Si lo pensamos un momento, el diseño ideal sería aquel que nos permitiese experimentar en el mismo individuo el efecto de la intervención de estudio y de la de control (el placebo o el tratamiento estándar), ya que el ensayo en paralelo es una aproximación que supone que los dos grupos responden igual a las dos intervenciones, lo que siempre supone un riesgo de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una máquina del tiempo podríamos probar la intervención en todos, anotar lo que pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con la intervención de control. Así podríamos comparar los dos efectos. El problema, los más atentos ya lo habréis imaginado, es que la máquina del tiempo no se ha inventado todavía.

Pero lo que sí se ha inventado es el ensayo clínico cruzado (el cross-over, para los que sepan inglés), en el que cada sujeto es su propio control. ensayo cruzadoEn este tipo de ensayo, cada sujeto es aleatorizado a un grupo, se realiza la intervención, se deja pasar un periodo de lavado o blanqueo y se realiza la otra intervención. Aunque esta solución no es tan elegante como la de la máquina del tiempo, los defensores de los ensayos cruzados se basan en que la variabilidad dentro de cada individuo es menor que la interindividual, con lo cual la estimación puede ser más precisa que la del ensayo en paralelo y, en general, se necesitan tamaños muestrales menores. Eso sí, antes de utilizar este diseño hay que hacer una serie de consideraciones. Lógicamente, el efecto de la primera intervención no debe producir cambios irreversibles ni ser muy prolongado, porque afectaría el efecto de la segunda. Además, el periodo de lavado tiene que ser lo suficientemente largo para evitar que quede ningún efecto residual de la primera intervención.

También hay que considerar si el orden de las intervenciones puede afectar el resultado final (efecto secuencia), con lo que solo serían válidos los resultados de la primera intervención. Otro problema es que, al tener mayor duración, las características del paciente pueden cambiar a lo largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y, por último, ojo con las pérdidas durante el estudio, más frecuentes en estudios más largos y que tienen en los ensayos cruzados mayor repercusión sobre los resultados finales que en los ensayos en paralelo.

Imaginemos ahora que queremos probar dos intervenciones (A y B) en la misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de todo tipo?. Pues sí, sí que podemos, solo tenemos que diseñar un ensayo clínico factorial. En este tipo de ensayo, cada participante es sometido a dos aleatorizaciones consecutivas: primero se le asigna a la intervención A o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las dos intervenciones deben actuar por mecanismos independientes para poder valorar los resultados de los dos efectos de forma independiente.

Habitualmente se estudian una intervención relacionada con una hipótesis más plausible y madura y otra con una hipótesis menos contrastada, asegurando que la evaluación de la segunda no influye sobre los criterios de inclusión y exclusión de la primera. Además, no es conveniente que ninguna de las dos opciones tenga muchos efectos molestos o sea mal tolerada, porque la falta de cumplimiento de un tratamiento suele condicionar el mal cumplimiento del otro. En casos en que las dos intervenciones no se muestren independientes, podrían estudiarse los efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las ventajas del diseño y aumenta el tamaño de muestra necesario.

En otras ocasiones puede ocurrir que tengamos prisa por acabar el estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente a montones y nosotros estamos probando un nuevo tratamiento. Querremos tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto número de participantes nos pararemos y analizaremos y, en el caso de que podamos demostrar ya la utilidad del tratamiento, daremos el estudio por concluido. Este es el diseño que caracteriza al ensayo clínico secuencial. Recordad que en el ensayo en paralelo lo correcto es calcular previamente el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se establece un estadístico cuyo valor condiciona una regla de finalización explícita, con lo que el tamaño de la muestra depende de las observaciones previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la suficiente confianza como para rechazar la hipótesis nula y finalizamos el estudio. El problema es que cada parón y análisis aumenta el error de rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda hacer muchos análisis intermedios. Además, el análisis final de los resultados es complejo porque los métodos habituales no sirven, sino que hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que es frecuente verlos en estudios de titulación de dosis de opiáceos, hipnóticos y venenos semejantes.

Hay otras ocasiones en las que la aleatorización individual no tiene sentido. Pensemos que hemos enseñado a los médicos de un centro de salud una nueva técnica para informar mejor a sus pacientes y queremos compararla con la antigua. No podemos decir al mismo médico que informe a unos pacientes de una forma y a otros de otra, ya que habría muchas posibilidades de que las dos intervenciones se contaminaran una a otra. Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos son los centros de salud para formar o no a sus médicos. Este es el diseño de ensayo con asignación por grupos. El problema de este diseño es que no tenemos muchas garantías de que los participantes de los diferentes grupos se comporten de forma independiente, por lo que el tamaño de la muestra necesaria puede aumentar mucho si existe gran variabilidad entre los grupos y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de los resultados, ya que si se hace individual los intervalos de confianza se estrechan de forma artefactada y podemos encontrar significaciones estadísticas falsas. Lo habitual es calcular un estadístico sintético ponderado para cada grupo y hacer las comparaciones finales con él.

El último de la serie que vamos a tratar es el ensayo comunitario, en el cual la intervención se aplica a grupos de población. Al realizarse en condiciones reales sobre poblaciones tienen gran validez externa y permiten muchas veces recomendar medidas coste-eficientes basadas en sus resultados. El problema es que muchas veces es complicado establecer grupos de control, puede ser más difícil determinar el tamaño muestral necesario y es más complejo realizar inferencia causal a partir de sus resultados. Es el diseño típico para evaluar medidas de salud pública como la fluoración del agua, las vacunaciones, etc.

Como veis, el rey tiene muchas caras. Pero, además, tiene parientes de menor alcurnia, aunque no por ello menos dignos. Y es que tiene toda una familia de estudios cuasiexperimentales formada por ensayos que no son aleatorizados, o controlados, o ninguna de las dos cosas. Pero esa es otra historia…