Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

¿Por qué sobra uno?

image_pdf

Hoy vamos a hablar sobre uno de esos misterios de la estadística que muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s).

La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

estimador_sesgadoNosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos σ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de σ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

Del triángulo a la tarta

image_pdf

Las cosas no ocurren porque sí. Y las enfermedades tampoco. ¿Por qué una persona que está sana de repente enferma y otra no? Pues porque hay una serie de factores que se distribuyen en la población que hacen que algunas personas tengan más riesgo de enfermar que otras.

Esto ha llamado la atención de los epidemiólogos desde siempre, de ahí que hayan intentado describir modelos para ilustrar la relación entre enfermos y enfermedades, para tratar de comprender cuáles son las causas de la enfermedad.

El modelo más sencillo lo forma un triángulo perverso entre tres elementos: el agente, el huésped y el ambiente. Estos tres elementos interrelacionan en una forma más o menos compleja para dar lugar a la aparición de la enfermedad.

Este modelo se ideó inicialmente para enfermedades infecciosas, así que el agente es el microorganismo en cuestión que puede producir la enfermedad. Por ejemplo, el plasmodio que produce el paludismo. Como es lógico, diferentes enfermedades dependen de la presencia de diferentes agentes, además de distintas interacciones entre agente, huésped y ambiente.

El huésped es el pobre sujeto que adquiere la enfermedad. No todos los huéspedes son igual de susceptibles a la enfermedad. Puede existir una serie de factores de riesgo intrínsecos al huésped que aumenten o disminuyan el riesgo de enfermar, aunque entre en contacto con el agente. En nuestro ejemplo del paludismo, los sujetos con anemia drepanocítica tienen menor riesgo de contraer el paludismo que los portadores de una hemoglobina normal.

El tercer lado de este triángulo lo constituye el ambiente, cuya función fundamental sería poner en contacto al agente con el huésped para producir la enfermedad. Si no hay mosquitos que trasmitan el parásito no tendremos casos de paludismo, por mucho plasmodio que haya en la charca.

El problema de este modelo tan elegante es que explica mucho mejor las enfermedades infecciosas que otros tipos de padecimientos. Tomemos el ejemplo del tabaco y el cáncer de pulmón. Todos sabemos que fumar provoca cáncer, pero ni todos los que fuman lo sufren ni todos los pacientes con cáncer han sido fumadores. Parece, pues, que esto de las causas es algo bastante más complejo.

Y aquí es donde nos topamos con la tarta. Imaginad todas las causas que se puedan relacionar con una enfermedad como los pedazos de una tarta. Si la tarta tiene las porciones necesarias, la enfermedad se produce. En caso contrario, la enfermedad no llega a producirse.

Pero no todos los pedazos de la tarta tienen la misma importancia. Así, reconocemos varias categorías de causas. Una porción podría ser una causa componente, que es cada uno de los componentes individuales que pueden dar lugar a la enfermedad.

Una causa componente puede estar constituida por factores relacionados con el agente, con el huésped y con el ambiente, pero por si solas no suelen ser suficientes para que la enfermedad aparezca. Uno puede estar expuesto años al agente y no desarrollar la enfermedad. Por ejemplo, la exposición a un virus no garantiza la infección si el huésped no tiene, además, otros factores de susceptibilidad.

Por otro lado estarían las causas necesarias. Sin ellas la enfermedad no se produce aunque concurran varias causas componentes. Pensemos por ejemplo en una infección por un germen oportunista en un inmunodeprimido. El germen no es capaz de producir la infección si el sistema inmune está indemne, luego la inmunodepresión sería causa necesaria para que se produzca la infección.

Por último, el pedazo más grande de la tarta, la causa suficiente. Este trozo completa por sí solo la tarta. Esta causa sola da lugar a la enfermedad sin necesidad de causas componentes o necesarias. Una enfermedad puede tener una o varias causas suficientes. Por último, podemos pensar como causa suficiente la concurrencia de varias causas componentes.

Para acabar, podemos rizar el rizo con esto de los tipos de causas y combinarlos en los siguientes:

– Necesaria y no suficiente: sin la causa no hay enfermedad, pero su presencia no la garantiza. Por ejemplo, el virus del papiloma y el cáncer de útero.

– No necesaria y suficiente: produce la enfermedad, pero esta puede darse también por otros factores causales que pueden actuar por sí solos. Por ejemplo, pensad en un tumor que pueda ser producido por la radiación, pero también por cancerígenos químicos.

– No necesaria y no suficiente: ninguno de los factores del huésped es imprescindible para la enfermedad y ninguno la causa por sí solo. Por ejemplo, todos los factores de riesgo de diabetes o de enfermedad coronaria.

Y aquí dejamos los triángulos y las tartas, no sin antes hacer una pequeña reflexión. Todo lo que hemos dicho sobre causas de enfermedades podríamos haberlo dicho sobre factores protectores contra el desarrollo de la enfermedad. Por ejemplo, la eliminación del tabaco sería un factor componente para la prevención del cáncer de pulmón. Pero esa es otra historia…

La liebre y la tortuga

image_pdf

Todos conocemos la fábula de la liebre y la tortuga. Resulta que, por alguna razón que no alcanzo a comprender, a alguien se le ocurre hacer una carrera con dos participantes: una tortuga y una liebre. Como es lógico, la gran favorita de la carrera es la liebre, infinitamente más rápida que la tortuga. Pero resulta que la liebre se confía en exceso y se echa a dormir, de forma que cuando quiere darse cuenta ya no puede recuperar la ventaja de la tortuga y pierde la carrera contra todo pronóstico. Moraleja: nunca menosprecies a los demás y no te duerma en los laureles, no sea que te pase como a la liebre.

En ocasiones, podemos pensar en el ensayo clínico como una carrera entre los participantes. Esto es así cuando la variable principal de resultado es una variable de tiempo a suceso. Estas variables miden cuántos participantes presentan el suceso en cuestión y, lo que es más importante, el tiempo que tardan en presentarlo. Las variables de tiempo a suceso se llaman también variables de supervivencia, aunque no tienen por qué estar relacionadas con la mortalidad.

Veamos un ejemplo. Supongamos que queremos saber la eficacia de un fármaco sobre el control de la presión arterial. Le damos el fármaco a los del grupo de intervención y un placebo a los del grupo control para ver cuántos se controlan mejor y en cuánto tiempo lo hacen.

Una posibilidad sería utilizar riesgos relativos. Dividimos la proporción de pacientes que se controlan en el grupo de intervención por la proporción que se controla en el de control y obtenemos nuestro riesgo relativo. El problema es que obtendremos información de cuántos más mejoran en un grupo que en otro, pero no nos dirá nada del aspecto temporal. No sabemos si lo hacen pronto o no.

Otra posibilidad es tomar como variable de resultado dicotómica el controlar la presión arterial (sí o no) y calcular un modelo de regresión logística. Con este modelo obtendremos una odds ratio, que nos dará una información similar a la del riesgo relativo, pero que tampoco tendrá en cuenta el aspecto temporal de la aparición del suceso.

El método adecuado de analizar este problema sería establecer la medida dicotómica de control arterial, pero calculando un modelo de regresión de riesgo proporcionales o regresión de Cox. Este modelo de regresión sí tiene en cuenta el tiempo que tarda en producirse el suceso.

El modelo de regresión de Cox calcula el riesgo de presentar el suceso en expuestos a la intervención frente a no expuestos en cada  momento dado. Para esto calcula cuánto más probable es que se produzca el suceso, en el intervalo temporal siguiente, entre los sujetos que todavía no lo han presentado. Llevando esta medida al límite, si vamos acortando el intervalo de tiempo hasta que vale cero llegamos al riesgo instantáneo, que va oscilando con el tiempo, pero del que el modelo nos calcula una extrapolación media. Este índice es el llamado cociente de riesgos instantáneos, más conocido por su nombre en inglés, hazard ratio (HR).

La HR puede tener valores entre cero e infinito. El valor neutro es uno, que indica el mismo riesgo en los dos grupos. Un valor menor que uno indica menor riesgo en el grupo expuesto. Por último, un valor mayor de uno indica mayor riesgo en expuestos, tanto mayor cuanto mayor sea el valor de la HR.

La HR no es una medida de probabilidad, sino una odds, por lo que su interpretación es similar a la de la odds ratio, solo que, además, tiene en cuenta el aspecto temporal. Un error frecuente es pensar que la HR informa de la duración temporal hasta el suceso. Por ejemplo, una HR = 2 no significa que los expuestos desarrollan el suceso dos veces más rápido, sino que los que todavía no lo han presentado tienen el doble de probabilidad de presentarlo que los no expuesto.

Si queremos información sobre la velocidad a la que se produce el suceso podemos recurrir a otro de los índices que nos proporciona la regresión de Cox, que es la mediana de tiempo en que presentan el suceso el 50% de los participantes.

Volviendo a nuestra fábula de la carrera, la HR nos diría quién tiene más probabilidades de ganar la carrera, mientras que la mediana nos diría cuánto ventaja sacaría el ganador al perdedor.

Y aquí dejamos el asunto de la liebre, la tortuga y la regresión de riesgos proporcionales. No hemos hablado nada de la forma de representar los resultados del modelo de regresión de Cox. Para ellos se utilizan un tipo especial de gráficos denominados curvas de supervivencia o de Kaplan-Meier. Pero esa es otra historia…

Una caja con bigotes

image_pdf

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

El fallo de la democracia

image_pdf

Que nadie se preocupe que hoy no vamos a hablar de política. En su lugar, hoy trataremos de algo bastante más interesante. Hoy vamos a hablar de las votaciones en las revisiones narrativas. ¿De qué estoy hablando?. Sigue leyendo y lo comprenderás.

Vamos a ilustrarlo con un ejemplo totalmente ficticio, además de absurdo. Supongamos que queremos saber si los que ven más de dos horas de televisión al día tienen más riesgo de presentar ataques agudos de caspa. Nos vamos a nuestra base de datos favorita, que puede ser TripDatabase o Pubmed y hacemos una búsqueda. Obtenemos una revisión narrativa con seis trabajos, cuatro de los cuales no obtienen un riesgo relativo mayor en los teleadictos de presentar ataques de caspa y dos en los que se encuentran diferencias significativas entre los que ven mucha o poca televisión.

¿Qué conclusión sacamos?. ¿Es o no es un riesgo ver mucha tele?. Lo primero que se nos pasa por la cabeza es aplicar la norma democrática. Contamos cuántos estudios obtienen un riesgo con un valor de p significativo y en cuántos el valor de la p no es estadísticamente significativo (tomando el valor arbitrario de p = 0,05).

Qué bien, parece una solución razonable. Tenemos dos a favor y cuatro en contra, por lo que parece claro que ganan los de “en contra”, así que podemos concluir tranquilamente que el ver la tele no es un factor de riesgo para presentar ataques de caspa. El problema es que podemos estar metiendo la pata, también tranquilamente.

Esto es así porque estamos cometiendo un error bastante habitual. Cuando hacemos un contraste de hipótesis partimos de la hipótesis nula de que no existe efecto. Nosotros al hacer el experimento siempre obtenemos una diferencia entre los dos grupos, aunque sea por puro azar. Así que calculamos la probabilidad de, por azar, encontrar una diferencia como la que hemos obtenido o mayor. Este es el valor de p. Si es menor de 0,05 (según el convenio habitual) decimos que es muy poco probable que se deba al azar, por lo que la diferencia debe ser real.

Resumiendo, una p estadísticamente significativa indica que el efecto existe. El problema, y ahí radica nuestro error en el ejemplo que hemos puesto, es que lo contrario no se cumple. Si la p es mayor de 0,05 (no es estadísticamente significativa) puede significar que el efecto no existe, pero también que el efecto sí que existe pero el estudio no tiene la potencia estadística suficiente para detectarlo.

Como sabemos, la potencia depende del tamaño del efecto y del tamaño de la muestra. Aunque el efecto sea grande, puede no ser estadísticamente significativo si el tamaño de la muestra no es suficiente. Así, ante una p > 0,05 no podemos concluir con seguridad que el efecto no es real (simplemente, no podemos rechazar la hipótesis nula de no efecto).

Visto esto, ¿cómo vamos a hacer una votación contando cuántos estudios hay a favor y cuántos en contra?. En algunos de los que no se detecta significación puede ser por falta de potencia y no porque el efecto sea real. En nuestro ejemplo hay cuatro estudios no significativos frente a dos pero, ¿podemos estar seguros de que los cuatro indican ausencia de efecto?. Ya hemos visto que la respuesta es no.

votacionesLo correcto en estos casos es aplicar técnicas de metanálisis y obtener un valor resumen ponderado de todos los estudios de la revisión. Veamos otro ejemplo con los cinco estudios que veis en la figura que os adjunto. Aunque los riesgos relativos de los cinco estudios indican un efecto protector (son menores de 1, el valor nulo) ninguno alcanza significación estadística porque sus intervalos de confianza cruzan el valor nulo, que es el uno para los riesgos relativos.

Sin embargo, si obtenemos un resumen ponderado, éste tiene mayor precisión que los estudios individuales, por lo que, aunque el valor del riesgo relativo es el mismo, el intervalo de confianza es más estrecho y ya no cruza el valor nulo: es estadísticamente significativo.

Aplicando el método de los votos habríamos concluido que no existe efecto protector, mientras que parece probable que sí existe cuando aplicamos el método adecuado. En resumen, el método de la votación no es fiable y no debe emplearse.

Y esto es todo por hoy. Ya veis que la democracia, aunque buena en política, no lo es tanto al hablar de estadística. No hemos hablado nada de cómo se obtiene un valor resumen ponderado de todos los estudios de la revisión. Hay varios métodos que se siguen según el metanálisis aplique un modelo de efecto fijo o de efectos aleatorios. Pero esa es otra historia…

Torciendo paralelas

image_pdf

Dicen los matemáticos que dos líneas paralelas son aquellas que, por más que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es mucha distancia. No creo que nadie haya prolongado dos paralelas lo suficiente como para estar seguro de esta afirmación. Claro que, por otro lado, si llegan a juntarse es que no eran paralelas, ¿verdad?

Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo clínico cruzado.

En un ensayo clínico en paralelo clásico cada participante se asigna aleatoriamente a una, y solo una, de las ramas del ensayo, la de intervención en estudio o la de control. Sin embargo, podemos cruzar las paralelas y conseguir un diseño que permite que cada paciente reciba tanto la intervención en estudio como la de control siempre, eso sí, estableciendo un orden determinado y durante un periodo de tiempo establecido. ensayo cruzadoAsí, cada sujeto actúa como su propio control, experimentando ambas intervenciones en una secuencia de periodos establecida de modo aleatorio y separado ambos periodos por uno de estabilización o periodo de lavado. Podéis ver un esquema de este diseño en la figura que os adjunto.

Existen algunas variaciones sobre el tema de los ensayos cruzados, según todos los participantes sean sometidos a las dos intervenciones (ensayo completo) o algunos solo a una de ellas (ensayo incompleto). Además, es posible extender este tipo de diseño y probar más de dos intervenciones, dando lugar a distintos órdenes de secuencia que reciben nombres como diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a profundizar en esta entrada.

La ventaja principal de los estudios cruzados radica en una característica que ya hemos comentado: cada sujeto actúa como su propio control. Esto, que puede parecer una chorrada sin importancia, no es tal. Si lo pensamos un poco, lo que hacemos es valorar el efecto de la intervención activa y de la de control en el mismo sujeto, con lo cual obtendremos menor variabilidad que si comparamos los efectos en participantes diferentes, como se hace en el ensayo en paralelo, en el que cada participante se expone solo a una de las dos intervenciones.

Al ser menor la variabilidad, la precisión de las observaciones será mayor, con lo que el tamaño muestral necesario para detectar una determinada diferencia de efecto del tratamiento será menor. Y no un poco menor, sino que la muestra necesaria puede verse reducida de forma importante en comparación con la que haría falta en el ensayo paralelo correspondiente.

Esta reducción del tamaño de la muestra depende de la correlación entre las distintas medidas de resultado del estudio. En el peor de los casos, con una correlación cero, la muestra se ve dividida por la mitad. Si la correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero es que esta reducción es cada vez mayor según el valor de la correlación se vaya aproximando a uno.

Por si fuera poco, además de una estimación más precisa, ésta es menos sesgada, ya que se asume una respuesta constante de cada sujeto a las dos intervenciones probadas, mientras que en el ensayo en paralelo esta respuesta es más variable por medirse en sujetos diferentes.

Pero no todo va a ser ventajas a favor de los diseños cruzados. También plantean algunos inconvenientes. La mayor limitación es el coñazo que se les da a los participantes con tanta intervención y tanto periodo. Y esto es importante no solo por la consideración que podamos sentir hacia los participantes, sino porque aumenta el riesgo de pérdidas durante el estudio. Y resulta que los estudios cruzados son más sensibles a las pérdidas durante el seguimiento que los paralelos, sobre todo si el número de participantes que completan cada secuencia es diferente.

Otra limitación es que es importante que los sujetos sean similares al comienzo de cada periodo, por lo que estos estudios solo sirven si se trata de enfermos crónicos con síntomas estables. Tampoco sirven si la variable de resultado produce un efecto permanente. Pensemos en la más permanente de todas, la mortalidad. Si el participante se muere en el primer periodo, será más que difícil valorar su respuesta en el periodo siguiente.

Además, alguna de sus ventajas, como el reducido tamaño muestral, se torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en estudios de fase III, en los que queramos valorar seguridad, tolerancia, eficacia, detección de efectos adversos impredecibles, etc. En estos casos, la muestra pequeña no solo no es imprescindible, sino que puede resultar inadecuada.

Por último, referirnos a tres debilidades desde el punto de vista de diseño, los llamados efecto residual, efecto secuencia y efecto periodo.

El efecto residual se produce cuando en un periodo persiste el efecto de la intervención del periodo anterior. Pensemos que hemos dado un fármaco y quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando el periodo de lavado, pero hay ocasiones en que esto no es tan fácil. Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo periodo sea más favorable por el simple hecho de estar incluido en el estudio (efecto placebo).

El efecto secuencia se produce cuando el orden de las intervenciones afecta el resultado final, con lo que solo podríamos valorar adecuadamente los resultados de la primera intervención.

Por último, puede ocurrir que las características del paciente cambien a lo largo del estudio, modificando su respuesta a las diferentes intervenciones. Nos encontramos ante un efecto periodo.

Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a tamaño muestral que los ensayos paralelos, siempre que se cumplan las condiciones óptimas para su empleo. Son muy útiles para estudios de fase I y fase II en los que queremos conocer la farmacocinética y farmacodinámica, la seguridad, la titulación de dosis, etc. En fases posteriores del desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya hemos comentado, no se trata de enfermedades crónicas con sintomatología estable.

Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis estadístico de los resultados. En el caso del ensayo en paralelo los resultados de las dos ramas pueden compararse directamente, pero esto no es así con los ensayos cruzados, en los que deberemos asegurarnos de que no se haya producido efectos residual, efecto secuencia o efecto periodo. Pero esa es otra historia…

Más de un gallo por corral

image_pdf

El ensayo clínico es el rey de los diseños epidemiológicos. Pero también es el más caro de realizar. Y, en los tiempos que corremos, este es un inconveniente importante a la hora de poner en marcha un ensayo.

Habitualmente, en cada ensayo se evalúa una intervención en uno de los grupos frente al grupo control, sin intervención o con un placebo. Pero, ¿qué pasaría si pudiésemos probar varias intervenciones en el mismo ensayo? Los costes seguramente serían menores a los de probar las diferentes intervenciones por separado, cada una en su ensayo en paralelo convencional. Pues bien, esto es posible de llevar a cabo, diseñando lo que se conoce como un ensayo clínico factorial.

La forma más sencilla de ensayo factorial es el 2×2, en el que se prueban dos intervenciones diferentes en la misma muestra de participantes. El truco está en aleatorizarlos varias veces para formar más de los dos grupos de un ensayo paralelo. Supongamos que queremos hacer un ensayo factorial con los tratamientos A y B, para no complicarnos mucho buscando ejemplos. Primero hacemos una asignación aleatoria de factoriallos participantes para recibir o no el tratamiento A. Después, hacemos otra asignación aleatoria para que reciban o no el tratamiento B. Así, la muestra de N participantes nos queda dividida en cuatro grupos, tal como se ve en la tabla que os adjunto: N/4 que reciben solo A, N/4 que reciben solo B, N/4 que reciben A y B de forma simultánea y N/4 que no reciben tratamiento (grupo control).

Este diseño es el básico del ensayo factorial 2×2. Si nos centramos en la tabla, el análisis de los valores marginales de las filas nos permitirá comparar el efecto entre recibir A y no recibirlo. Por su parte, el análisis marginal de las columnas nos permite comparar el efecto entre recibir B y no recibirlo. También podríamos comparar entre si los valores de cada una de las celdas por separado, pero entonces perderíamos potencia para detectar diferencias, y con ello una de las ventajas de este tipo de diseños.

El tamaño muestral necesario suele calcularse imaginando que se hacen dos ensayos paralelos independientes y tomando el número mayor necesario para detectar el menor de los efectos que queremos estudiar.

Por su parte, la aleatorización se hace utilizando los mismos métodos que con el ensayo paralelo, pero repitiéndola varias veces. Otra alternativa sería determinar todas los grupos (A, B, A+B y control, en nuestro ejemplo) y hacer la asignación aleatoria de una sola vez. El resultado es el mismo.

La razón fundamental para hacer un ensayo factorial suele ser la económica, ya que al necesitar menos muestra que los dos ensayos paralelos comparables, sale más barato hacer el ensayo. Esto es especialmente útil si el promotor del ensayo no espera obtener grandes beneficios con los resultados. Por eso es frecuente ver ensayos factoriales con tratamientos poco rentables, muy conocidos ya o de uso tradicional.

Una condición importante para hacer un ensayo factorial con garantías es que no haya interacción entre los dos tratamientos, de forma que sus efectos sean independientes. Cuando hay interacción entre los dos tratamientos (los efectos de uno dependen de la presencia del otro), el análisis se complica y la muestra necesaria es mayor, ya que no podríamos realizar el análisis de los marginales de la tabla para detectar diferencias, sino que tendríamos que valorar las diferencias entre todos los grupos de comparación con lo que, como ya hemos comentado, la potencia estadística del estudio sería menor.

En cualquier caso, siempre deberemos comprobar la existencia de interacción. Esto puede hacerse utilizando un modelo de regresión con un término de interacción y comparando el modelo con el mismo modelo de regresión sin interacción. En el caso de detectar interacción (que podía no haber sido sospechada previamente), debemos hacer un análisis de cada grupo por separado aún a costa de perder potencia para detectar diferencias estadísticamente significativas.

¿Y podemos comparar más de dos intervenciones? Podemos comparar todas las que queramos, pero hay que tener en cuenta que aumenta la complejidad del diseño, el número de grupos a comparar y la posibilidad de encontrarnos con interacción entre alguna de las intervenciones ensayadas. Por estas razones, se aconseja mantener el número de intervenciones del ensayo lo más bajo posible.

La ventaja del ensayo factorial más obvia ya la hemos comentado: su menor coste derivado de necesitar un tamaño muestral menor. Otra ventaja es que sirven si estamos interesados también en valorar el efecto de la combinación de intervenciones, valorando de camino la existencia de interacción.

Por su parte, las interacciones entre intervenciones constituyen la principal limitación de este diseño. Ya hemos comentado que, cuando existen, nos obligan al análisis individual de los grupos, con la pérdida de potencia que eso conlleva. Otro inconveniente es que el incumplimiento de los participantes puede no ser muy bueno: cuántos más tratamientos deba realizar correctamente un participante, más probable es que no lo haga de la manera que debería.

Y aquí dejamos por hoy la historia de los ensayos clínicos factoriales. Hemos descrito la forma más sencilla, el factorial 2×2. Sin embargo, como ya hemos comentado, la cosa puede complicarse comparando más intervenciones y, además, asignando diferentes tamaños a cada uno de los grupos. Por ejemplo, si queremos detectar diferencias más pequeñas en el grupo de tratamiento que más nos interese, podemos asignarle más pacientes. Claro que esto complica todo el análisis y el cálculo del tamaño muestral. Pero esa es otra historia…

El gregario

image_pdf

El ensayo clínico aleatorio convencional es un diseño individualista, en el que cada participante es aleatorizado para recibir la intervención o el placebo para poder medir después la variable de resultado en cada uno y comparar las diferencias. Esta aleatorización individual se complementa con el procedimiento de enmascaramiento, de forma que nadie sabe a qué grupo pertenece cada participante y no pueda haber efectos relacionados con este conocimiento.

El problema es que hay ocasiones en las que no es posible enmascarar la intervención, de forma que los participantes saben qué recibe cada uno. Imaginemos que queremos estudiar el efecto de determinados consejos sobre alimentación en los niveles de presión arterial de una población. A cada participante podemos o no darle nuestras recomendaciones, pero cada uno de ellos sabrá si se las hemos dado o no, con lo que el enmascaramiento no será posible.

Además, pueden ocurrir otros dos hechos que nos pueden invalidar la comparación de los efectos de intervenir o no intervenir. Primero, los participantes pueden compartir información entre ellos, con lo que algunos del grupo placebo conocerían también los consejos y podrían seguir algunos de ellos. Segundo, sería difícil que los propios médicos tratasen de forma objetivamente igual a los participantes de los dos grupos y podrían mezclar las recomendaciones en algún caso. Esto es lo que se conoce como contaminación entre los grupos, muy frecuente cuando tratamos de estudiar intervenciones en Salud Pública o en programas de promoción de salud.

Pero que nadie se inquiete antes de tiempo, porque para solucionar este problema podemos recurrir al primo gregario de la familia de los ensayos clínicos aleatorizados: el ensayo clínico por grupos o conglomerados.

En estos ensayos la unidad de aleatorización no es el individuo, sino grupos de individuos. Pensando en el ejemplo anterior, podríamos aleatorizar a los pacientes de un centro de salud al grupo de intervención y a los de otro centro al grupo control. Esto tiene la ventaja de que se evita la contaminación entre grupos, con la ventaja añadida de que los participantes dentro de cada grupo se comporten de una forma similar.

Para que este diseño funcione bien es necesario que haya un número de grupos suficiente para que las características basales de los componentes se balanceen bien con la aleatorización. Estos ensayos por conglomerados obligan además a una serie de consideraciones especiales durante las fases de diseño, análisis y comunicación de resultados, ya que la falta de independencia de los participantes dentro de cada grupo tiene consideraciones estadísticas importantes. Puede ocurrir que los componentes de cada grupo tengan algunas características comunes diferentes a las de otros grupos (sesgo de selección), así como una diferente distribución de las variables de confusión que puedan existir dentro de cada grupo.

Un problema con este tipo de diseño es que tiene menor potencia que el ensayo clínico aleatorizado convencional equivalente, por lo que se necesitan mayores tamaños muestrales en relación al denominado factor de inflación por grupo. Además, debe tenerse en cuenta el número y tamaño de cada grupo y la correlación que pueda existir entre los resultados de los pacientes dentro del mismo grupo, mediante el uso de un coeficiente de correlación intragrupo.

Así, para calcular el tamaño muestral tenemos que multiplicar el tamaño que tendría el ensayo convencional por un factor de diseño del estudio, que incluye el tamaño de los grupos, el coeficiente de correlación intragrupos y que se calcula según la fórmula siguiente:

N (ensayo por grupos) = Factor de inflación x N (ensayo convencional)

Factor de inflación = 1 + [(m – 1) x CCI], donde m es el tamaño de cada grupo y CCI es el coeficiente de correlación intragrupo.

Veamos un ejemplo. Supongamos que para el ejemplo que venimos considerando necesitaríamos 400 participantes para hacer el ensayo convencional para detectar determinado tamaño de efecto con la potencia y significación estadística deseadas. Estimamos que el coeficiente de correlación intragrupo es igual a 0,15 y determinamos que queremos grupos de 30 participantes. El tamaño muestral necesario para un ensayo con conglomerados sería de

N (ensayo con grupos) = (1 + [(30 – 1) x 0,15]) x 400 = 2140

Redondeando, necesitamos 72 grupos de 30 participantes, con una muestra total de 2160. Como puede verse, unas cinco veces más que el tamaño muestral del ensayo convencional.

Otra peculiaridad de los ensayos por conglomerados es que en la fase de análisis hay que tener en cuenta la falta de independencia entre los pacientes de cada grupo, tanto si calculamos resultados a nivel individual como si calculamos medidas resumen a nivel de grupo. Esto es así porque si no tenemos en cuenta la falta de independencia entre participantes aumenta la probabilidad de cometer un error de tipo I y sacar una conclusión errónea. Para entendernos, una p de 0,01 puede convertirse en otra mayor de 0,05 una vez que tenemos en cuenta este efecto.

Esto hace que pruebas como la t de Student no nos sirvan y tengamos que recurrir a análisis robustos de la varianza o, al más utilizado, el modelo de efectos aleatorios, que no solo tiene en cuenta el efecto grupo, sino que permite dar una estimación y valorar el grado de contaminación existente. Además, tiene en cuenta la heterogeneidad por factores no observados y permite realizar el ajuste por covariables que produzcan desequilibrios entre los diferentes grupos. Una posibilidad es hacer el análisis teniendo en cuenta el efecto de agrupamiento y sin tenerlo en cuenta y ver si los valores de significación son diferentes, en cuyo caso nos respaldará en el hecho de que hemos elegido el tipo de diseño adecuado para nuestro estudio.

Y estos son los aspectos más importantes que tenemos que tener en mente al realizar un ensayo por conglomerados. Su principal ventaja es evitar la contaminación entre participantes, como vimos al principio, por lo que son muy útiles para valorar estrategias de mejora de salud y programas de educación. Su principal inconveniente ya lo hemos mencionado: su menor potencia con la consecuente necesidad de tamaños muestrales mucho mayores.

Para finalizar, decir que todos estos aspectos referentes al cálculo del tamaño de la muestra y al análisis estadístico teniendo en cuenta el efecto de los conglomerados deben especificarse claramente durante la fase de comunicación de los resultados del ensayo.

Un último consejo. Si realizáis un ensayo o la lectura crítica de un ensayo clínico por grupos, no olvidéis revisar que se hayan tenido en cuenta las peculiaridades que hemos contado. Para ello podéis ayudaros de la declaración CONSORT. Esta es una lista de verificación con las características que deben cumplir los ensayos clínicos, e incluye las características específicas de los ensayos por conglomerados. Pero esa es otra historia…

La falacia de la p pequeña

image_pdf

Una falacia es un argumento que parece válido pero no lo es. A veces se usan para engañar a la gente y darles gato por liebre, pero la mayor parte de las veces se utilizan por una razón mucho más triste: por pura ignorancia.

Hoy vamos a hablar de una de estas falacias, muy poco reconocida, pero en la que se cae con una gran frecuencia a la hora de interpretar resultados de contrastes de hipótesis.

Cada vez más vemos que las publicaciones científicas nos proporcionan el valor exacto de p, de forma que tendemos a pensar que cuánto menor es el valor de p mayor es la plausibilidad del efecto observado.

Para entender lo que vamos a explicar, recordemos primero la lógica de la falsificación de la hipótesis nula (H0). Partimos de una H0 de que el efecto no existe, por lo que calculamos la probabilidad de, por azar, encontrar unos resultados tan extremos o más que los que hemos encontrado, siendo H0 cierta. Esta probabilidad es el valor de p, de forma que cuanto menor sea, menos probable es que el resultado sea debido al azar y, por tanto, más probable que el efecto sea real. El problema es que, por muy pequeña que sea la p, siempre hay una probabilidad de cometer un error de tipo I y rechazar la H0 siendo cierta (o lo que es lo mismo, obtener un falso positivo y dar por bueno un efecto que en realidad no existe).

Es importante tener en cuenta que el valor de p solo indica si hemos alcanzado el umbral de significación estadística, que es un valor totalmente arbitrario. Si obtenemos un valor umbral de p = 0,05 tendemos a pensar una de las cuatro posibilidades siguientes:

  1. Que hay un 5% de probabilidades de que el resultado sea un falso positivo (de que H0 sea cierta).
  2. Que hay un 95% de probabilidades de que el efecto sea real (de que H0 sea falsa).
  3. Que la probabilidad de que el efecto observado se deba al azar es del 5%.
  4. Que la tasa de error de tipo I es del 5%.

Sin embargo, todo lo anterior es incorrecto, ya que estamos cayendo en la falacia inversa o falacia de la transposición de los condicionales. Todo es un problema de entender mal las probabilidades condicionadas. Vamos a verlo despacio.

A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados si la hipótesis nula es cierta, o sea, P(resultados|H0).

Vamos a verlo con un ejemplo sencillo. La probabilidad de ser español si uno es andaluz es alta (debería ser del 100%). La inversa es más baja. La probabilidad de tener cefalea si uno tiene una meningitis es alta. La inversa es más baja. Si los eventos son frecuentes, la probabilidad será más alta que si son raros. Así, como nosotros queremos saber P(H0|resultados), deberemos valorar la probabilidad basal de la H0 para evitar sobrestimar las pruebas que apoyan que el efecto es cierto.

Si lo pensamos despacio, es bastante intuitivo. La probabilidad de H0 antes del estudio es una medida de la creencia subjetiva que refleja su plausibilidad basada en estudios previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Ni que decir tiene que existe un método matemático para calcular la probabilidad posterior de H0 en función de su probabilidad basal y el valor de p, pero sería una grosería poner un formulón enorme a estas alturas de la entrada.

heldEn su lugar, vamos a utilizar un método más sencillo, recurriendo a un recurso gráfico que se llama nomograma de Held y que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos.

Imaginad un estudio con un valor marginal de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real.

Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos así como la probabilidad posterior cambia según la probabilidad previa.

Y aquí lo dejamos. Seguro que esto del nomograma de Held os ha recordado a otro nomograma mucho más famoso pero con una filosofía similar, el nomograma de Fagan. Este se utiliza para calcular la probabilidad postprueba en función de la probabilidad preprueba y el cociente de probabilidad de una prueba diagnóstica. Pero esa es otra historia…

La intención es lo que cuenta

image_pdf

Siempre hay alguien que no hace lo que se le dice. Mira que el planteamiento de un ensayo clínico parece sencillo en lo que se refiere a sus participantes. Se les asigna al azar a una de las dos ramas del ensayo y unos se tienen que tomar la pastilla A y otras la B, para que nosotros podamos ver cuál de las dos funciona mejor.

Sin embargo, siempre hay alguien que no hace lo que se le dice y se toma la pastilla que no es, o no se la toma, o se la toma mal, o la deja de tomar antes de tiempo, etc, etc, etc.

¿Y qué hacemos a la hora de analizar los resultados?. El sentido común nos dice que si un participante se ha equivocado de pastilla lo incluyamos en el grupo de la pastilla que finalmente se tomó (es lo que se llama hacer un análisis por protocolo). O que si no la ha tomado, nos olvidemos de él. Pero esta actitud no es correcta si queremos realizar un análisis no sesgado de los resultados del ensayo. Si empezamos a cambiar los participantes de un grupo a otro perderemos el beneficio que obteníamos al repartirlos al azar, con lo que pueden entrar en juego variables de confusión o modificadoras de efecto que estuviesen equilibrados entre las dos ramas del ensayo por el proceso de reparto aleatorio.

Para evitar esto, lo correcto es respetar la intención inicial de asignación de grupo y analizar los resultados del sujeto que se confunde como si se hubiese tomado el tratamiento asignado de forma correcta. Es lo que se conoce como el análisis por intención de tratar, el único que preserva las ventajas de la aleatorización.

Hay varias razones por las que un participante en un ensayo puede no recibir el tratamiento tal y como se le asignó, además del mal cumplimiento por su parte. Veamos algunas.

En ocasiones puede ser el investigador el que hace una inclusión errónea del participante en el grupo de tratamiento. Imaginemos que, después de aleatorizarlos, nos damos cuenta de que algunos participantes no son idóneos para recibir la intervención, bien porque no tengan la enfermedad o porque descubramos que existe alguna contraindicación para la intervención, por ejemplo. Si somos estrictos, deberíamos incluirlos en el análisis del grupo al que se asignaron, aunque no hayan recibido la intervención. Sin embargo, puede ser razonable excluirlos si las causas de exclusión están previamente especificadas en el protocolo del ensayo. De todas formas, es importante que esto lo realice alguien que desconozca la asignación y los resultados, para que se traten de igual forma los participantes dela dos ramas del ensayo. De todas formas, si queremos una mayor seguridad, podemos hacer un análisis de sensibilidad con y sin estos sujetos para ver cómo se modifican los resultados.

Otro problema de este tipo lo pueden ocasionar los datos faltantes. Los resultados de todas las variables, y especialmente de la principal, deberían estar presentes para todos los participantes, pero esto no siempre es así, de forma que tenemos que decidir qué hacemos con los sujetos a los que les falte algún dato.

La mayor parte de los programas de estadística funcionan con datos completos, excluyendo del análisis aquéllos registros de sujetos con datos faltantes. Esto disminuye el tamaño muestral efectivo y puede sesgar los resultados, además de disminuir la potencia del estudio. Algunos modelos, como los longitudinales mixtos o la regresión de Cox, manejan registros en los que falten algunos datos, pero ninguno puede hacer nada si falta toda la información de un sujeto. En estos casos podemos recurrir a la imputación de datos con cualquiera de sus modalidades, de tal forma que rellenemos los huecos para aprovechar toda la muestra según la intención de tratamiento.

Cuando la imputación de datos no es conveniente, una cosa que podemos hacer es lo que se llama análisis de casos extremos. Esto se hace asignando a los huecos los mejores y peores resultados posibles y viendo cómo se modifican los resultados. Así nos haremos una idea del máximo impacto que pueden tener los datos faltantes sobre los resultados del estudio. En cualquier caso, no cabe duda de que la mejor estrategia será diseñar el estudio para que los datos faltantes sean los mínimos posibles.

En cualquier caso, siempre hay alguien que se equivoca y nos lía el planteamiento del ensayo. ¿Qué podemos hacer entonces?.

Una posibilidad es utilizar un análisis por intención de tratar modificado. Se incluye cada uno en el grupo asignado, pero se permite la exclusión de algunos como los que nunca empezaron el tratamiento o los que no se consideraron adecuados para el estudio. El problema es que esto abre una puerta para maquillar los datos según nos interese y sesgar los resultados en nuestro provecho. Por eso, debemos desconfiar cuando estas modificaciones no estuviesen especificadas en el protocolo del ensayo y se decidan post hoc.

La otra posibilidad es hacer el análisis según el tratamiento recibido (análisis por protocolo). El problema, ya lo hemos dicho, es que se pierde el balance de la aleatorización. Además, si los que se equivocan tienen algunas características especiales, esto puede sesgar los resultados del estudio. Por otra parte, la ventaja de analizar las cosas tal y como realmente se han hecho es que nos puede dar una idea mejor de cómo puede funcionar el tratamiento en la vida real.

Por último, quizás lo más seguro sea realizar ambos análisis, por protocolo y por intención de tratamiento, y comparar los resultados que se obtienen con cada uno. En estos casos puede ocurrir que detectemos un efecto al analizar por protocolo y no al analizar por intención de tratamiento. Esto puede deberse a dos causas principales. Primero, el análisis por protocolo puede crear asociaciones espurias al romper el balance de variables de confusión que nos garantizaba la aleatorización. Segundo, el análisis por intención de tratamiento va a favor de la hipótesis nula, por lo que su potencia es menor que la del análisis por protocolo. Eso sí, si detectamos un efecto significativo, nos veremos reforzados si el análisis se hizo por intención de tratar.

Y aquí lo dejamos por hoy. Hemos visto como intentar controlar los errores de asignación de grupo en los ensayos y cómo podemos imputar los datos faltantes, que es una forma elegante de decir que inventamos datos allá donde falten. Claro, que para poder hacerlo se han de cumplir una serie de condiciones estrictas. Pero esa es otra historia…