Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEnsayo clínico
image_pdf

Clientes habituales

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

Más de un gallo por corral

El ensayo clínico es el rey de los diseños epidemiológicos. Pero también es el más caro de realizar. Y, en los tiempos que corremos, este es un inconveniente importante a la hora de poner en marcha un ensayo.

Habitualmente, en cada ensayo se evalúa una intervención en uno de los grupos frente al grupo control, sin intervención o con un placebo. Pero, ¿qué pasaría si pudiésemos probar varias intervenciones en el mismo ensayo? Los costes seguramente serían menores a los de probar las diferentes intervenciones por separado, cada una en su ensayo en paralelo convencional. Pues bien, esto es posible de llevar a cabo, diseñando lo que se conoce como un ensayo clínico factorial.

La forma más sencilla de ensayo factorial es el 2×2, en el que se prueban dos intervenciones diferentes en la misma muestra de participantes. El truco está en aleatorizarlos varias veces para formar más de los dos grupos de un ensayo paralelo. Supongamos que queremos hacer un ensayo factorial con los tratamientos A y B, para no complicarnos mucho buscando ejemplos. Primero hacemos una asignación aleatoria de factoriallos participantes para recibir o no el tratamiento A. Después, hacemos otra asignación aleatoria para que reciban o no el tratamiento B. Así, la muestra de N participantes nos queda dividida en cuatro grupos, tal como se ve en la tabla que os adjunto: N/4 que reciben solo A, N/4 que reciben solo B, N/4 que reciben A y B de forma simultánea y N/4 que no reciben tratamiento (grupo control).

Este diseño es el básico del ensayo factorial 2×2. Si nos centramos en la tabla, el análisis de los valores marginales de las filas nos permitirá comparar el efecto entre recibir A y no recibirlo. Por su parte, el análisis marginal de las columnas nos permite comparar el efecto entre recibir B y no recibirlo. También podríamos comparar entre si los valores de cada una de las celdas por separado, pero entonces perderíamos potencia para detectar diferencias, y con ello una de las ventajas de este tipo de diseños.

El tamaño muestral necesario suele calcularse imaginando que se hacen dos ensayos paralelos independientes y tomando el número mayor necesario para detectar el menor de los efectos que queremos estudiar.

Por su parte, la aleatorización se hace utilizando los mismos métodos que con el ensayo paralelo, pero repitiéndola varias veces. Otra alternativa sería determinar todas los grupos (A, B, A+B y control, en nuestro ejemplo) y hacer la asignación aleatoria de una sola vez. El resultado es el mismo.

La razón fundamental para hacer un ensayo factorial suele ser la económica, ya que al necesitar menos muestra que los dos ensayos paralelos comparables, sale más barato hacer el ensayo. Esto es especialmente útil si el promotor del ensayo no espera obtener grandes beneficios con los resultados. Por eso es frecuente ver ensayos factoriales con tratamientos poco rentables, muy conocidos ya o de uso tradicional.

Una condición importante para hacer un ensayo factorial con garantías es que no haya interacción entre los dos tratamientos, de forma que sus efectos sean independientes. Cuando hay interacción entre los dos tratamientos (los efectos de uno dependen de la presencia del otro), el análisis se complica y la muestra necesaria es mayor, ya que no podríamos realizar el análisis de los marginales de la tabla para detectar diferencias, sino que tendríamos que valorar las diferencias entre todos los grupos de comparación con lo que, como ya hemos comentado, la potencia estadística del estudio sería menor.

En cualquier caso, siempre deberemos comprobar la existencia de interacción. Esto puede hacerse utilizando un modelo de regresión con un término de interacción y comparando el modelo con el mismo modelo de regresión sin interacción. En el caso de detectar interacción (que podía no haber sido sospechada previamente), debemos hacer un análisis de cada grupo por separado aún a costa de perder potencia para detectar diferencias estadísticamente significativas.

¿Y podemos comparar más de dos intervenciones? Podemos comparar todas las que queramos, pero hay que tener en cuenta que aumenta la complejidad del diseño, el número de grupos a comparar y la posibilidad de encontrarnos con interacción entre alguna de las intervenciones ensayadas. Por estas razones, se aconseja mantener el número de intervenciones del ensayo lo más bajo posible.

La ventaja del ensayo factorial más obvia ya la hemos comentado: su menor coste derivado de necesitar un tamaño muestral menor. Otra ventaja es que sirven si estamos interesados también en valorar el efecto de la combinación de intervenciones, valorando de camino la existencia de interacción.

Por su parte, las interacciones entre intervenciones constituyen la principal limitación de este diseño. Ya hemos comentado que, cuando existen, nos obligan al análisis individual de los grupos, con la pérdida de potencia que eso conlleva. Otro inconveniente es que el incumplimiento de los participantes puede no ser muy bueno: cuántos más tratamientos deba realizar correctamente un participante, más probable es que no lo haga de la manera que debería.

Y aquí dejamos por hoy la historia de los ensayos clínicos factoriales. Hemos descrito la forma más sencilla, el factorial 2×2. Sin embargo, como ya hemos comentado, la cosa puede complicarse comparando más intervenciones y, además, asignando diferentes tamaños a cada uno de los grupos. Por ejemplo, si queremos detectar diferencias más pequeñas en el grupo de tratamiento que más nos interese, podemos asignarle más pacientes. Claro que esto complica todo el análisis y el cálculo del tamaño muestral. Pero esa es otra historia…

El gregario

El ensayo clínico aleatorio convencional es un diseño individualista, en el que cada participante es aleatorizado para recibir la intervención o el placebo para poder medir después la variable de resultado en cada uno y comparar las diferencias. Esta aleatorización individual se complementa con el procedimiento de enmascaramiento, de forma que nadie sabe a qué grupo pertenece cada participante y no pueda haber efectos relacionados con este conocimiento.

El problema es que hay ocasiones en las que no es posible enmascarar la intervención, de forma que los participantes saben qué recibe cada uno. Imaginemos que queremos estudiar el efecto de determinados consejos sobre alimentación en los niveles de presión arterial de una población. A cada participante podemos o no darle nuestras recomendaciones, pero cada uno de ellos sabrá si se las hemos dado o no, con lo que el enmascaramiento no será posible.

Además, pueden ocurrir otros dos hechos que nos pueden invalidar la comparación de los efectos de intervenir o no intervenir. Primero, los participantes pueden compartir información entre ellos, con lo que algunos del grupo placebo conocerían también los consejos y podrían seguir algunos de ellos. Segundo, sería difícil que los propios médicos tratasen de forma objetivamente igual a los participantes de los dos grupos y podrían mezclar las recomendaciones en algún caso. Esto es lo que se conoce como contaminación entre los grupos, muy frecuente cuando tratamos de estudiar intervenciones en Salud Pública o en programas de promoción de salud.

Pero que nadie se inquiete antes de tiempo, porque para solucionar este problema podemos recurrir al primo gregario de la familia de los ensayos clínicos aleatorizados: el ensayo clínico por grupos o conglomerados.

En estos ensayos la unidad de aleatorización no es el individuo, sino grupos de individuos. Pensando en el ejemplo anterior, podríamos aleatorizar a los pacientes de un centro de salud al grupo de intervención y a los de otro centro al grupo control. Esto tiene la ventaja de que se evita la contaminación entre grupos, con la ventaja añadida de que los participantes dentro de cada grupo se comporten de una forma similar.

Para que este diseño funcione bien es necesario que haya un número de grupos suficiente para que las características basales de los componentes se balanceen bien con la aleatorización. Estos ensayos por conglomerados obligan además a una serie de consideraciones especiales durante las fases de diseño, análisis y comunicación de resultados, ya que la falta de independencia de los participantes dentro de cada grupo tiene consideraciones estadísticas importantes. Puede ocurrir que los componentes de cada grupo tengan algunas características comunes diferentes a las de otros grupos (sesgo de selección), así como una diferente distribución de las variables de confusión que puedan existir dentro de cada grupo.

Un problema con este tipo de diseño es que tiene menor potencia que el ensayo clínico aleatorizado convencional equivalente, por lo que se necesitan mayores tamaños muestrales en relación al denominado factor de inflación por grupo. Además, debe tenerse en cuenta el número y tamaño de cada grupo y la correlación que pueda existir entre los resultados de los pacientes dentro del mismo grupo, mediante el uso de un coeficiente de correlación intragrupo.

Así, para calcular el tamaño muestral tenemos que multiplicar el tamaño que tendría el ensayo convencional por un factor de diseño del estudio, que incluye el tamaño de los grupos, el coeficiente de correlación intragrupos y que se calcula según la fórmula siguiente:

N (ensayo por grupos) = Factor de inflación x N (ensayo convencional)

Factor de inflación = 1 + [(m – 1) x CCI], donde m es el tamaño de cada grupo y CCI es el coeficiente de correlación intragrupo.

Veamos un ejemplo. Supongamos que para el ejemplo que venimos considerando necesitaríamos 400 participantes para hacer el ensayo convencional para detectar determinado tamaño de efecto con la potencia y significación estadística deseadas. Estimamos que el coeficiente de correlación intragrupo es igual a 0,15 y determinamos que queremos grupos de 30 participantes. El tamaño muestral necesario para un ensayo con conglomerados sería de

N (ensayo con grupos) = (1 + [(30 – 1) x 0,15]) x 400 = 2140

Redondeando, necesitamos 72 grupos de 30 participantes, con una muestra total de 2160. Como puede verse, unas cinco veces más que el tamaño muestral del ensayo convencional.

Otra peculiaridad de los ensayos por conglomerados es que en la fase de análisis hay que tener en cuenta la falta de independencia entre los pacientes de cada grupo, tanto si calculamos resultados a nivel individual como si calculamos medidas resumen a nivel de grupo. Esto es así porque si no tenemos en cuenta la falta de independencia entre participantes aumenta la probabilidad de cometer un error de tipo I y sacar una conclusión errónea. Para entendernos, una p de 0,01 puede convertirse en otra mayor de 0,05 una vez que tenemos en cuenta este efecto.

Esto hace que pruebas como la t de Student no nos sirvan y tengamos que recurrir a análisis robustos de la varianza o, al más utilizado, el modelo de efectos aleatorios, que no solo tiene en cuenta el efecto grupo, sino que permite dar una estimación y valorar el grado de contaminación existente. Además, tiene en cuenta la heterogeneidad por factores no observados y permite realizar el ajuste por covariables que produzcan desequilibrios entre los diferentes grupos. Una posibilidad es hacer el análisis teniendo en cuenta el efecto de agrupamiento y sin tenerlo en cuenta y ver si los valores de significación son diferentes, en cuyo caso nos respaldará en el hecho de que hemos elegido el tipo de diseño adecuado para nuestro estudio.

Y estos son los aspectos más importantes que tenemos que tener en mente al realizar un ensayo por conglomerados. Su principal ventaja es evitar la contaminación entre participantes, como vimos al principio, por lo que son muy útiles para valorar estrategias de mejora de salud y programas de educación. Su principal inconveniente ya lo hemos mencionado: su menor potencia con la consecuente necesidad de tamaños muestrales mucho mayores.

Para finalizar, decir que todos estos aspectos referentes al cálculo del tamaño de la muestra y al análisis estadístico teniendo en cuenta el efecto de los conglomerados deben especificarse claramente durante la fase de comunicación de los resultados del ensayo.

Un último consejo. Si realizáis un ensayo o la lectura crítica de un ensayo clínico por grupos, no olvidéis revisar que se hayan tenido en cuenta las peculiaridades que hemos contado. Para ello podéis ayudaros de la declaración CONSORT. Esta es una lista de verificación con las características que deben cumplir los ensayos clínicos, e incluye las características específicas de los ensayos por conglomerados. Pero esa es otra historia…

La intención es lo que cuenta

Siempre hay alguien que no hace lo que se le dice. Mira que el planteamiento de un ensayo clínico parece sencillo en lo que se refiere a sus participantes. Se les asigna al azar a una de las dos ramas del ensayo y unos se tienen que tomar la pastilla A y otras la B, para que nosotros podamos ver cuál de las dos funciona mejor.

Sin embargo, siempre hay alguien que no hace lo que se le dice y se toma la pastilla que no es, o no se la toma, o se la toma mal, o la deja de tomar antes de tiempo, etc, etc, etc.

¿Y qué hacemos a la hora de analizar los resultados?. El sentido común nos dice que si un participante se ha equivocado de pastilla lo incluyamos en el grupo de la pastilla que finalmente se tomó (es lo que se llama hacer un análisis por protocolo). O que si no la ha tomado, nos olvidemos de él. Pero esta actitud no es correcta si queremos realizar un análisis no sesgado de los resultados del ensayo. Si empezamos a cambiar los participantes de un grupo a otro perderemos el beneficio que obteníamos al repartirlos al azar, con lo que pueden entrar en juego variables de confusión o modificadoras de efecto que estuviesen equilibrados entre las dos ramas del ensayo por el proceso de reparto aleatorio.

Para evitar esto, lo correcto es respetar la intención inicial de asignación de grupo y analizar los resultados del sujeto que se confunde como si se hubiese tomado el tratamiento asignado de forma correcta. Es lo que se conoce como el análisis por intención de tratar, el único que preserva las ventajas de la aleatorización.

Hay varias razones por las que un participante en un ensayo puede no recibir el tratamiento tal y como se le asignó, además del mal cumplimiento por su parte. Veamos algunas.

En ocasiones puede ser el investigador el que hace una inclusión errónea del participante en el grupo de tratamiento. Imaginemos que, después de aleatorizarlos, nos damos cuenta de que algunos participantes no son idóneos para recibir la intervención, bien porque no tengan la enfermedad o porque descubramos que existe alguna contraindicación para la intervención, por ejemplo. Si somos estrictos, deberíamos incluirlos en el análisis del grupo al que se asignaron, aunque no hayan recibido la intervención. Sin embargo, puede ser razonable excluirlos si las causas de exclusión están previamente especificadas en el protocolo del ensayo. De todas formas, es importante que esto lo realice alguien que desconozca la asignación y los resultados, para que se traten de igual forma los participantes dela dos ramas del ensayo. De todas formas, si queremos una mayor seguridad, podemos hacer un análisis de sensibilidad con y sin estos sujetos para ver cómo se modifican los resultados.

Otro problema de este tipo lo pueden ocasionar los datos faltantes. Los resultados de todas las variables, y especialmente de la principal, deberían estar presentes para todos los participantes, pero esto no siempre es así, de forma que tenemos que decidir qué hacemos con los sujetos a los que les falte algún dato.

La mayor parte de los programas de estadística funcionan con datos completos, excluyendo del análisis aquéllos registros de sujetos con datos faltantes. Esto disminuye el tamaño muestral efectivo y puede sesgar los resultados, además de disminuir la potencia del estudio. Algunos modelos, como los longitudinales mixtos o la regresión de Cox, manejan registros en los que falten algunos datos, pero ninguno puede hacer nada si falta toda la información de un sujeto. En estos casos podemos recurrir a la imputación de datos con cualquiera de sus modalidades, de tal forma que rellenemos los huecos para aprovechar toda la muestra según la intención de tratamiento.

Cuando la imputación de datos no es conveniente, una cosa que podemos hacer es lo que se llama análisis de casos extremos. Esto se hace asignando a los huecos los mejores y peores resultados posibles y viendo cómo se modifican los resultados. Así nos haremos una idea del máximo impacto que pueden tener los datos faltantes sobre los resultados del estudio. En cualquier caso, no cabe duda de que la mejor estrategia será diseñar el estudio para que los datos faltantes sean los mínimos posibles.

En cualquier caso, siempre hay alguien que se equivoca y nos lía el planteamiento del ensayo. ¿Qué podemos hacer entonces?.

Una posibilidad es utilizar un análisis por intención de tratar modificado. Se incluye cada uno en el grupo asignado, pero se permite la exclusión de algunos como los que nunca empezaron el tratamiento o los que no se consideraron adecuados para el estudio. El problema es que esto abre una puerta para maquillar los datos según nos interese y sesgar los resultados en nuestro provecho. Por eso, debemos desconfiar cuando estas modificaciones no estuviesen especificadas en el protocolo del ensayo y se decidan post hoc.

La otra posibilidad es hacer el análisis según el tratamiento recibido (análisis por protocolo). El problema, ya lo hemos dicho, es que se pierde el balance de la aleatorización. Además, si los que se equivocan tienen algunas características especiales, esto puede sesgar los resultados del estudio. Por otra parte, la ventaja de analizar las cosas tal y como realmente se han hecho es que nos puede dar una idea mejor de cómo puede funcionar el tratamiento en la vida real.

Por último, quizás lo más seguro sea realizar ambos análisis, por protocolo y por intención de tratamiento, y comparar los resultados que se obtienen con cada uno. En estos casos puede ocurrir que detectemos un efecto al analizar por protocolo y no al analizar por intención de tratamiento. Esto puede deberse a dos causas principales. Primero, el análisis por protocolo puede crear asociaciones espurias al romper el balance de variables de confusión que nos garantizaba la aleatorización. Segundo, el análisis por intención de tratamiento va a favor de la hipótesis nula, por lo que su potencia es menor que la del análisis por protocolo. Eso sí, si detectamos un efecto significativo, nos veremos reforzados si el análisis se hizo por intención de tratar.

Y aquí lo dejamos por hoy. Hemos visto como intentar controlar los errores de asignación de grupo en los ensayos y cómo podemos imputar los datos faltantes, que es una forma elegante de decir que inventamos datos allá donde falten. Claro, que para poder hacerlo se han de cumplir una serie de condiciones estrictas. Pero esa es otra historia…

El camaleón

Un reptil fascinante. Conocidos son sus ojos, con esa habilidad de girar de forma independiente cubriendo el ángulo completo de la circunferencia. También conocida es su larga lengua, con la que atrapa a distancia los bichos que se come sin tener que moverse del sitio. Pero lo más famoso del camaleón es su capacidad para cambiar de color y mimetizarse con el ambiente cuando quiere pasar desapercibido, cosa que no es de extrañar porque el camaleón es, como no decirlo, un bicho bastante feo.

Pero hoy vamos a hablar de ensayos clínicos. En concreto, de un tipo de ensayos que, como un verdadero camaleón de la epidemiología, va cambiando su diseño según se va realizando, para adaptarse a las circunstancias que se van produciendo. Me refiero a los ensayos clínicos adaptativos.

El ensayo clínico tiene habitualmente un diseño o protocolo fijo, de tal manera que está muy mal visto violar el protocolo y, cuando se hace, hay que explicarlo detalladamente y justificar los motivos. Sin embargo, en el ensayo clínico adaptativo se define a priori, de manera prospectiva, la posibilidad de hacer cambios en uno o más aspectos del diseño del estudio en base a los datos que se van obteniendo durante su realización. Habitualmente se planifican unos momentos a lo largo del estudio en los que se analizan los datos y resultados disponibles para decidir si se hacen los cambios preestablecidos. E insisto en esto: los cambios deben estar planificados previamente. De lo contrario, cualquier cambio constituye una violación del protocolo del estudio que pone en peligro la validez de sus resultados.

Los cambios que se pueden realizar son múltiples. Pueden cambiarse las probabilidades del método de aleatorización, el tamaño de la muestra e, incluso, las características del seguimiento, que se puede alargar o acortar, así como modificar las visitas que estaban previstas en el diseño inicial. Pero podemos ir más allá y modificar las dosis del tratamiento probado o modificar los medicamentos permitidos o prohibidos concomitantes según interese.

También se pueden cambiar aspectos como criterios de inclusión, variables de resultado (sobre todo los componentes de las variables compuestas), los métodos analíticos empleados e, incluso, transformar un ensayo de superioridad en otro de non inferioridad, o viceversa.

Como ya hemos dicho un par de veces, estos cambios tienen que estar planeados de antemano. Hay que definir que eventos nos inducirán a hacer adaptaciones del protocolo. Por ejemplo, planear aumentar o disminuir el tamaño muestral para aumentar la potencia del estudio tras enrolar un número de participantes, o incluir determinados grupos durante un seguimiento determinado y, a partir de ahí, dejar de aplicar la intervención en el grupo en el que no se muestre eficaz.

Las ventajas de este tipo de diseño son evidentes. La primera, la flexibilidad, es evidente. Las otras dos son más teóricas y no siempre se cumplen pero, en principio, son más eficientes que los diseños convencionales y tienen más probabilidad de demostrar el efecto de la intervención, si éste existe.

Su mayor inconveniente es la dificultad de planificar a priori todas las posibilidades de cambio y la interpretación posterior de los resultados. Es difícil interpretar los resultados finales cuando el curso del ensayo depende mucho de los datos intermedios que se vayan obteniendo. Además, esto hace que sea imprescindible tener un acceso rápido y sencillo a los datos del ensayo mientras se está realizando, lo que puede ser difícil en el contexto de un ensayo clínico.

Y aquí lo dejamos por hoy. Vuelvo a insistir en la necesidad de planificar previamente el protocolo del ensayo y, en el caso de diseños adaptativos, las condiciones de cada adaptación. De hecho, hoy en día muchos ensayos se inscriben antes de realizarlos para que quede constancia de sus condiciones de diseño. Claro que el hecho de inscribirlos obliga también a su publicación posterior aunque los resultados no sean favorables, lo que ayuda a combatir el sesgo de publicación. Pero esa es otra historia…

Una de pilotos

No cabe duda de que el ensayo clínico aleatorizado es el rey de los diseños epidemiológicos cuando queremos demostrar, por ejemplo, la eficacia de un tratamiento. Lo que ocurre es que los ensayos son difíciles y costosos de hacer, por lo que antes de meternos en un ensayo es habitual hacer otros estudios previos.

Estos estudios previos pueden ser de tipo observacional. Con estudios de cohortes o de casos y controles podemos reunir la información suficiente sobre el efecto de una intervención que justifique la realización posterior de un ensayo clínico.

De todas formas, los estudios observacionales también son costosos y complejos, por lo que muchas veces se recurre a otra solución: el hacer un ensayo clínico a menor escala para obtener pruebas que justifiquen o no la realización de un ensayo a gran escala, que será el definitivo. Estos estudios previos suelen conocerse con el nombre de estudios piloto y tienen una serie de características que conviene tener en cuenta.

Por ejemplo, el objetivo del estudio piloto es proporcionar cierta seguridad de que el esfuerzo de hacer el ensayo definitivo servirá de algo, de forma que busca más observar el tipo de efectos de la intervención que demostrar de forma definitiva su eficacia.

Al ser estudios relativamente pequeños, los estudios piloto no suelen tener la potencia suficiente como para alcanzar significación estadística al nivel habitual del 0,05, de tal forma que se recomienda escoger un valor de alfa de hasta 0,2. Este valor alfa es la probabilidad que tenemos de cometer un error de tipo I, que consiste en rechazar la hipótesis nula de ausencia de efecto siendo cierta o, lo que es lo mismo, dar por bueno un efecto que en realidad no existe.

¿Y qué pasa?, ¿no nos importa tener un 20% de probabilidades de equivocarnos?. Porque para otros ensayos el límite es el 5%. Bueno en realidad no es que no nos importe, pero la mentalidad del estudio piloto es diferente a la del ensayo clínico convencional.

Si en un ensayo clínico convencional cometemos un error de tipo I admitiremos que un tratamiento es adecuado sin serlo. A nadie se le escapa que esto puede tener malas consecuencias y perjudicar a los pacientes que se sometan en el futuro a esa supuesta intervención beneficiosa. Sin embargo, si cometemos un error de tipo I en un estudio piloto, lo único que va a ocurrir es que vamos a gastar tiempo y dinero en hacer un ensayo definitivo que finalmente demostrará que el tratamiento no es eficaz.

A nivel de ensayo clínico definitivo es preferible no dar por bueno un tratamiento ineficaz o inseguro, mientras que a nivel de estudio piloto es preferible hacer el ensayo definitivo de un tratamiento ineficaz que dejar sin probar uno que pueda serlo. Por eso se aumenta el umbral para el error de tipo I hasta 0,2.

De todas formas, ya que lo que nos interesa más es estudiar la dirección del efecto de la intervención, puede ser recomendable utilizar intervalos de confianza en lugar de contrastes de hipótesis clásicos con su valor de p.

Estos intervalos de confianza se comparan con la diferencia mínima importante desde el punto de vista clínico, que debe definirse a priori. Si el intervalo no incluye el valor nulo y sí esta diferencia mínima importante, tendremos argumentos en favor de la realización de un ensayo a gran escala para demostrar definitivamente el efecto. Hay que comentar que, al igual que aumentábamos el valor de alfa, podemos usar intervalos de confianza con niveles inferiores al 95%.

Otra peculiaridad de los estudios piloto reside en la elección de las variables de resultado. Si tenemos en cuenta que el estudio piloto busca ver de forma sencilla cómo funcionan entre sí los componentes de un posible ensayo futuro, se comprende que, en ocasiones, no sea práctico utilizar una variable de resultado final y se recurra a una variable subrogada, que es aquella que proporciona una medida indirecta del efecto cuando la medición directa no es práctica o no es posible. Por ejemplo, si estamos estudiando un tratamiento antitumoral, la variable de resultado puede ser la supervivencia a cinco años, pero en el estudio piloto puede ser más útil alguna variable que indique la disminución del tamaño del tumor. Nos indicará la dirección del efecto del tratamiento sin tener que prolongar demasiado el estudio piloto.

Ya veis, pues, que los estudios piloto se deben interpretar teniendo en cuenta sus peculiaridades. Pero, además, nos ayudan a predecir cómo puede funcionar el ensayo definitivo, anticipando problemas que pueden arruinar un costoso y complejo ensayo clínico. Este es el caso de los datos faltantes y de las pérdidas durante el seguimiento, que suelen ser mayores en los estudios piloto que en los ensayos convencionales. Aunque tienen menos trascendencia en cuanto a la validez de los resultados, las pérdidas de los estudios piloto deben evaluarse para intentar evitar las futuras pérdidas del ensayo definitivo porque, aunque hay muchas maneras de manejar las pérdidas y los datos faltantes, la mejor forma es siempre evitar que se produzcan. Pero esa es otra historia…

Para ver bien hay que estar ciego

Dicen que no hay peor ciego que el que no quiere ver. Pero también es verdad que querer ver demasiado puede ser contraproducente. En ocasiones, es mejor ver solo lo justo e imprescindible.

Eso es lo que ocurre en los estudios científicos. Imaginad que queremos probar un nuevo tratamiento y planteamos un ensayo en el que a unos les damos el fármaco nuevo y a otros un placebo. Si todos saben qué recibe cada cual, puede ocurrir que las expectativas de los investigadores o de los participantes influyan, aun de forma involuntaria, en la forma en que valoren los resultados del estudio. Por eso hay que recurrir a técnicas de enmascaramiento, más conocidas como técnicas de ciego.

Vamos a suponer que queremos probar un fármaco nuevo contra una enfermedad muy grave. Si un participante sabe que le están dando el fármaco será mucho más permisivo con los efectos secundarios que si sabe que le dan placebo. Pero al investigador le puede ocurrir algo parecido. Cualquiera puede imaginar que pondríamos menos interés en preguntar por los signos de toxicidad del nuevo tratamiento a un individuo que sabemos está recibiendo un inocuo placebo.

Todos estos efectos pueden influir en la forma en que participantes e investigadores valoran los efectos del tratamiento, pudiendo producir un sesgo de interpretación de los resultados.

Las técnicas de enmascaramiento se pueden realizar a distintos niveles. El nivel más bajo es no enmascarar en absoluto, realizando lo que se denomina un ensayo abierto. Aunque lo ideal sea enmascarar, hay veces en que esto no interesa o es imposible. Por ejemplo, pensad que para cegar haya que causar molestias innecesarias, como la administración de placebos por vía parenteral durante periodos prolongados o la realización de procedimientos quirúrgicos. Otras veces es difícil encontrar un placebo que sea indistinguible galénicamente del tratamiento ensayado. Y, por último, otras veces no tendrá mucho sentido enmascarar si el tratamiento tiene efectos fácilmente reconocibles que no se producen con el placebo.

El siguiente nivel es el simple ciego cuando o bien los participantes, o bien los investigadores, desconocen qué tratamiento recibe cada uno. Un paso más allá está el doble ciego, en el que ni investigadores ni participantes saben a qué grupo pertenece cada uno. Y, por último, tenemos el triple ciego, cuando además de los ya mencionados, la persona que analiza los datos o la que tiene la responsabilidad de controlar y suspender el estudio desconoce también a qué grupo se ha asignado cada participante. Imaginad que aparece un efecto adverso grave y tenemos que decidir si suspendemos el estudio. No cabe duda que el conocer si esa persona recibe el fármaco en ensayo o el placebo nos puede condicionar a la hora de tomar esa decisión.

¿Y qué hacemos cuando no se puede o no interesa enmascarar?. Pues en esos casos no nos queda más remedio que hacer un estudio abierto, aunque podemos intentar recurrir a un evaluador ciego. Esto quiere decir que, aunque investigadores y participantes conozcan la asignación al grupo de intervención o de placebo, la persona que analiza las variables desconoce esta asignación. Esto es especialmente importante cuando la variable de resultado es subjetiva. Por otra parte, no resulta tan imprescindible cuando es una variable objetiva, como una determinación de laboratorio. Pensad que una radiografía puede no valorarse con la misma minuciosidad o criterio si sabemos que el individuo es del grupo placebo o del de intervención.

Para terminar, comentar otros dos posibles errores derivados de la falta de enmascaramiento. Si un participante sabe que recibe el fármaco en estudio puede experimentar una mejoría simplemente por efecto placebo. Por otra parte, el que sabe que le ha tocado el placebo puede modificar su comportamiento cuando sabe que “no está protegido” por el nuevo tratamiento. Esto se llama contaminación y es un verdadero problema en los estudios sobre hábitos de vida.

Y con esto acabamos. Solo aclarar un concepto antes de finalizar. Hemos visto que puede haber cierta relación entre la falta de enmascaramiento y la aparición de un efecto placebo. Pero no os confundáis, el enmascaramiento no sirve para controlar el efecto placebo. Para eso hay que recurrir a otra argucia: la aleatorización. Pero esa es otra historia…

Hazlo con sensibilidad

Hacer las cosas con sensibilidad suele ser garantía de buenos resultados. Pero seguro que no habíais pensado que esto también se aplica en la ciencia: cuando utilizamos el método científico, para garantizar la validez de nuestros resultados tenemos que analizarlos con sensibilidad. Bueno, en realidad tenemos que hacer un análisis de sensibilidad.

Resulta que en los estudios en biomedicina se asumen en ocasiones ciertos supuestos a la hora de realizarlos y estos supuestos, que suelen concernir a los métodos de análisis o a los modelos empleados, pueden influir en los resultados que obtenemos. Siempre que nos podamos preguntar si los resultados cambiarían si cambiásemos alguna de las definiciones del estudio, o el método de análisis, o el modo de tratar los datos faltantes o el cumplimiento o violaciones del protocolo de estudio, la validez de nuestros resultados puede verse comprometida. Para defendernos de esto podemos hacer un análisis de sensibilidad y si los resultados siguen siendo los mismos, podremos decir que nuestras conclusiones son robustas.

Un análisis de sensibilidad es, por tanto, el método que usamos para determinar la robustez de una valoración examinando en qué grado los resultados se influyen por cambios en la metodología o en los modelos utilizados en el estudio.

Así que, siempre que nuestros resultados se basen en suposiciones que puedan influir en su impacto, estaremos obligados a hacer un análisis de sensibilidad, cuya metodología dependerá de cada escenario clínico concreto.

Un ejemplo puede ser la presencia de datos extremos (outliers para nuestros amigos ingleses), que pueden sesgar la media de una muestra y alterar las estimaciones que se hacen a partir de ella. Lo más sencillo es ver si existen mediante un diagrama de cajas (boxplot) y, en caso afirmativo, hacer el análisis con y sin los valores extremos para ver cómo cambian los resultados.

Otras veces existe falta de cumplimiento de la intervención o violaciones del protocolo de estudio que pueden diluir el efecto de la intervención. Podremos, en estos casos, realizar un análisis por intención de tratar y un análisis por protocolo y estudiar si existen diferencias.

En otras ocasiones la definición de las variables de resultado puede ser arbitraria, por lo que puede ser útil estudiar las conclusiones que se obtienen aplicando otros puntos de corte.

Si el muestreo se realiza en bloques, como ocurre con los estudios multicéntricos, tendremos que comparar los resultados haciendo el análisis global y el análisis por bloques, con y sin ajustar por la pertenencia de cada participante a cada bloque, ya que la homogeneidad de los datos dentro de cada bloque puede ser diferente.

Un caso curioso es el de los riesgos competitivos. Por ejemplo, si valoramos como variables de resultado infarto, angina y muerte, esta última evita la posibilidad de que vuelvan a ocurrir las dos primeras, con lo cual el análisis de supervivencia puede verse interferido. Para evitar esto hay métodos de análisis utilizando las curvas de Kaplan-Meier censurando las ocurrencias de las variables competitivas. En cualquier caso, el análisis de sensibilidad debe hacer un ajuste por el factor de riesgo competitivo.

Parecido ocurre cuando existen diferencias en las características basales de las poblaciones de control y de intervención. En estos casos, el análisis simple debe completarse con un análisis que ajuste por estas diferencias, habitualmente utilizando un modelo de regresión multivariante.

Y, para acabar, dos problemas un poco espinosos respecto al análisis estadístico. El primero se refiere al tipo de distribución de frecuencias que empleamos para el análisis. Suele asumirse que las variables continuas siguen una distribución normal, las discretas una de Poisson y las binarias una binomial. Habitualmente se comprueba que los datos se ajustan a estas distribuciones pero, si queremos tener más seguridad acerca de su validez, podemos probar los resultados asumiendo distribuciones diferentes, como la t de Student para la normal o la binomial negativa para la de Poisson.

El segundo sería el problema con los datos que faltan (los missing). En este caso tenemos dos opciones: hacer el análisis solo con los datos completos o suponer (imputar dicen los que saben de esto) los valores que faltan para incluirlos todos en el análisis. Con ambas posibilidades corremos riesgo de sesgos, dependiendo en gran parte de qué condiciona que falten los datos y de si los datos que se pierden son al azar o no. Habitualmente se hace el análisis completo y el análisis con imputación de datos y se estudian las diferencias en los resultados obtenidos.

Y esto es, a grandes rasgos, lo que es un análisis de sensibilidad. Hemos pasado muy por encima el asunto de la imputación de datos, que da para escribir un libro de los gordos. Y es que, aunque lo ideal es tratar de prevenir que nos falten datos, cuando esto ocurre tenemos un montón de formas de inventárnoslos. Pero esa es otra historia…

Preparados… listos…

¡No!. No tan rápido. Antes de salir corriendo hay que estar seguros de que todo está bien preparado. Es difícil concebir que alguien se ponga a correr una maratón sin prepararse previamente, sin el acondicionamiento físico y nutricional suficiente. Bueno, en realidad lo que es difícil concebir es tener que estar corriendo sin parar 42 kilómetros, así que pongamos otro ejemplo más creíble.

Imaginemos que es la hora de acostarnos y estamos tan reventados como si hubiésemos corrido una maratón. Esta situación ya es más creíble para la mayoría. Cualquiera en su sano juicio sabe que es conveniente beber agua y pasar por el cuarto de baño antes de irse a la cama. El pago por no realizar estos preparativos será tener que levantarse en mitad de la noche, dando tumbos y tiritando de frío, para satisfacer necesidades que podíamos haber previsto y evitado (salvo imperativos prostáticos, claro está).

Ahora imaginad que queremos realizar un ensayo clínico. Planificamos el estudio, elegimos nuestra población, obtenemos la muestra, la aleatorizamos de forma impecable, le damos, a los del grupo de intervención, nuestro nuevo y flamante fármaco para combatir la fildulastrosis revirante crónica cuyas bondades queremos estudiar y ¡zas!, resulta que la mayor parte no lo tolera y se retira del ensayo antes de tiempo. Habremos tirado el dinero y malgastado el tiempo, y resulta difícil decidir cuál de los dos recursos resulta más preciado en los tiempos que corren.

¿Podríamos haber evitado esto?. La mala tolerancia al fármaco es un hecho que no podemos evitar pero, dado que sí que hay gente que lo tolera, podríamos haber recurrido a una pequeña argucia: darle el fármaco a todos antes de aleatorizar, sacar del estudio a los intolerantes y aleatorizar entonces solo a los que pueden aguantar el fármaco hasta el final del estudio. Esto es lo que se llama utilizar un periodo de preinclusión, aunque también se conoce como periodo de puesta a punto o periodo de cribado de cumplimiento. A los que fueron a colegio de pago y hablen inglés les sonará el término run-in phase (algunos le llaman open-label phase, pero yo creo que este término no es siempre equivalente a periodo de inclusión).

En general, durante el periodo de preinclusión los participantes del estudio son observados antes de ser asignados al grupo de estudio que les corresponda para comprobar que cumplen los criterios de selección para una determinada intervención, o que cumplen las pautas de tratamiento asignadas, toleran la intervención, etc. Al asegurarnos de que cumplen los requisitos previos a su inclusión en el estudio propiamente dicho nos aseguramos una observación basal más válida y consistente antes de la asignación aleatoria al grupo de estudio que le toque a cada uno.

En otras ocasiones podemos ver que la intervención es utilizada durante el periodo de preinclusión, utilizando su respuesta como parte de los criterios de inclusión, ya que se podrá seleccionar o excluir a los sujetos en base a su respuesta al tratamiento.

Veis cómo un periodo de preinclusión nos puede librar de los malos cumplidores, de los participantes más delicados de salud que nos pueden dar sustos durante el ensayo y de los que no toleran el fármaco en cuestión, con lo que nos podemos centrar mejor en determinar la eficacia del tratamiento, ya que la mayor parte de las pérdidas que tengamos durante el seguimiento serán por causas no relacionadas con la intervención.

De todas formas, debemos tomar una serie de precauciones. Debemos ser cuidadosos en la elección de la muestra inicial, cuyo tamaño puede ser mayor que el necesario sin preinclusión. Es muy importante la situación basal de los participantes con vistas a realizar estratificación o a realizar un análisis estadístico más eficiente. Además, la aleatorización debe realizarse lo más tarde posible y lo más cercana posible a la intervención, aunque no es raro ver estudios en los que se aleatorizan los participantes antes del periodo de preinclusión. Por último, para interpretar los resultados de un estudio con periodo de preinclusión hay que tener en cuenta las diferencias entre las características iniciales de los participantes que han sido excluidos durante el periodo y los que finalmente son asignados a los grupos de estudio.

Pero no todo en el monte es orégano. Aunque excluir los incumplidores o los que tienen más efectos adversos nos permite aumentar la potencia del estudio y estimar mejor el efecto de la intervención, la aplicabilidad o generalización de los resultados se verá comprometida al provenir los resultados de una muestra más restrictiva de participantes. Dicho de forma elegante, hemos de pagar el aumento de la validez interna con una merma de la validez externa del estudio.

Para terminar, decir alguna cosa sobre algo parecido al periodo de preinclusión. Imaginad que queremos probar un inhibidor de bomba de protones nuevo en pacientes con úlcera. Como todos tienen tratamiento, éste nos puede artefactar el efecto de la intervención. El truco aquí consiste en decirles a todos que suspendan la medicación un tiempo antes de la aleatorización y asignación a las ramas del estudio. Pero no confundáis esto con el periodo de preinclusión. Esto es lo que se conoce como periodo de lavado (wash-out phase para los anglófilos). Pero esa es otra historia…

El consuelo de no ser peor

Vivimos en un mundo frenético y altamente competitivo. Continuamente nos vemos inundados por mensajes sobre lo bueno que es ser el mejor en esto y en aquello. En lo que sea, en realidad. Pero la mayoría de nosotros nos damos cuenta pronto de que es imposible ser el mejor en todo lo que hacemos. Poco a poco, incluso, nos damos cuenta de que es muy difícil ser el mejor en algo, no ya en todo en general. Al final, más tarde o más temprano, el común de los mortales se conforma con, al menos, no ser de los peores en lo que hace.

Pero esto no es malo. No siempre se puede ser el mejor, ni falta que hace. Pensemos, por ejemplo, que tenemos un tratamiento estupendo para una enfermedad muy mala. Este tratamiento es eficaz, barato, fácil de usar y bien tolerado. ¿Tendremos interés en cambiarlo por otro?. Probablemente no. Pero pensemos ahora, por ejemplo, que produce una aplasia medular irreversible en el 3% de los que lo toman. En este caso sí que querríamos buscar otro tratamiento mejor.

¿Mejor?. Bueno, no realmente mejor. Con que fuese igual en todo pero no produjese aplasia, ya cambiaríamos al nuevo fármaco.

El planteamiento más habitual de los ensayos clínicos es el de demostrar la superioridad de una intervención frente al placebo o el tratamiento habitual. Pero, cada vez más, se realizan ensayos cuyo único objetivo es demostrar que el nuevo tratamiento es equivalente al actual. La planificación de estos ensayos de equivalencia debe ser cuidadosa y prestar atención a una serie de aspectos.

En primer lugar, no existe la equivalencia desde el punto de vista absoluto, por lo que hay que extremar las precauciones para mantener la igualdad de condiciones en las dos ramas de intervención del ensayo. Además, hay que establecer previamente el nivel de sensibilidad que vamos a necesitar en el estudio. Para ello, primero definimos el margen de equivalencia, que será la máxima diferencia entre las dos intervenciones que se considerará aceptable desde el punto de vista clínico. Segundo, calcularemos el tamaño muestral necesario para poder discriminar esta diferencia desde el punto de vista de significación estadístico.

Es importante comprender que el margen de equivalencia lo marca el investigador basándose en la importancia clínica de lo que se esté valorando. Cuánto más estrecho sea este margen, mayor deberá ser el tamaño de la muestra para poder alcanzar significación estadística y rechazar la hipótesis nula de que las diferencias que observemos se deban al azar. En contra de lo que pueda parecer a primera vista, los estudios de equivalencia suelen necesitar muestras más grandes que los estudios de superioridad.

Una vez obtenidos los resultados, analizaremos los intervalos de confianza de las diferencias de efecto entre las dos intervenciones. Solo aquellos intervalos que no crucen la línea de efecto nulo (uno para riesgos relativos y odds ratio y cero para diferencias de medias) serán estadísticamente significativos. Si, además, caen completamente dentro del margen de equivalencia previamente definido, se considerarán equivalentes con la probabilidad de error elegida para el intervalo de confianza, habitualmente el 5%. Si el intervalo queda fuera del margen de equivalencia, las intervenciones se considerarán no equivalentes. En el caso de que cruce alguno de los límites del margen de equivalencia, el estudio no será concluyente en cuanto a demostrar o rechazar la equivalencia de las dos intervenciones, aunque habrá que valorar la amplitud y distribución del intervalo respecto al margen de equivalencia para valorar su posible importancia desde el punto de vista clínico. En ocasiones, resultados sin significación estadística o que caen fuera de los límites del margen de equivalencia pueden también proporcionar información clínica útil.

equivalenciaVeamos el ejemplo de la figura para entender mejor lo que hemos dicho hasta ahora. Tenemos los intervalos de nueve estudios representados con su posición respecto a la línea de efecto nulo y los límites del margen de equivalencia. Solo los estudios A, B, D, G y H muestran una diferencia estadísticamente significativa, porque son los que no cruzan la línea de efecto nulo. La intervención del estudio A es superior, mientras que la del estudio H se demuestra inferior. Sin embargo, solo en el caso del estudio D puede concluirse la equivalencia de las dos intervenciones, mientras que son inconcluyentes, en lo que respecta a equivalencia, los estudios B y G.

En el caso del estudio E puede concluirse también la equivalencia de las dos intervenciones. Fijaos que, aunque la diferencia obtenida en el D es estadísticamente significativa, sigue sin superar los límites del margen de equivalencia: es superior al estudio E desde el punto de vista estadístico, pero parece que esta diferencia no tiene relevancia clínica.

Además de en  los estudios B y G ya comentados, en los estudios C, F e I, no puede concluirse si son o no equivalentes. Sin embargo, el C probablemente no sea inferior y el F podría sea inferior. Podría, incluso, estimarse la probabilidad de estas suposiciones según el área que ocupan los intervalos de confianza respecto a los márgenes de equivalencia.

Un aspecto importante de los estudios de equivalencia es el método de análisis de resultados empleado. Sabemos que el análisis por intención de tratar es siempre preferible al de análisis por protocolo, ya que mantiene las ventajas de la aleatorización respecto a otras variables conocidas o desconocidas que puedan influir en los resultados. El problema es que el análisis por intención de tratar va a favor de la hipótesis nula, minimizando las diferencias, si existen. Esto es una ventaja en los estudios de superioridad: si encontramos diferencia, refuerza el hallazgo. Sin embargo, en los estudios de equivalencia no nos interesa tanto este aspecto. Por su parte, el análisis por protocolo tendería a aumentar cualquier diferencia, pero esto no siempre es así y puede variar según la causa de las violaciones de protocolo o, dicho más sencillo, las causas que hayan motivado las pérdidas o equivocaciones de asignación de tratamiento en las dos ramas de intervención. Lo que se suele aconsejar es realizar el análisis de las dos formas y pedir que, en ambas, las intervenciones se muestren equivalentes. Habrá, además, que tener muy en cuenta las pérdidas durante el estudio y analizar la información de los casos en los que no se cumpla el protocolo.

Un caso particular de este tipo de ensayos es el de no inferioridad. En este caso, los investigadores se conforman con demostrar que la nueva intervención no es peor que la de comparación. Vale todo lo que hemos dicho para los de equivalencia, pero considerando solo el límite inferior del margen de equivalencia.

Una última cosa. Los estudios de superioridad son para demostrar superioridad y los de equivalencia son para demostrar equivalencia. El diseño de un objetivo no suele servir para demostrar el otro. Además, el que un estudio de superioridad fracase en demostrarla no quiere decir exactamente que las dos intervenciones sean equivalentes.

Hemos llegado al final sin haber hablado nada de otros estudios de equivalencia característicos: los estudios de bioequivalencia. Estos son ensayos de fase I realizados por las casas farmacéuticas para comprobar la equivalencia de diferentes presentaciones de un mismo fármaco y tienen algunas peculiaridades de diseño. Pero esa es otra historia…