Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

Con poco afinamos mucho

A todos nos gusta saber qué va a pasar en el futuro. Por eso tratamos de inventar cosas que nos ayuden a saber qué va a ocurrir, cuál va a ser el resultado de una determinada cosa. Un ejemplo muy claro es el de las elecciones en política o el de las encuestas para preguntar a la gente sobre una cuestión de interés. Por eso se han inventado los sondeos, para tratar de anticipar el resultado de una encuesta antes de realizarla. Hay mucha gente que no se fía mucho de los sondeos pero, como veremos a continuación, son una herramienta bastante útil: nos permiten realizar estimaciones bastantes finas y con un esfuerzo relativamente pequeño.

Pensemos, por ejemplo, que vamos a hacer un referéndum a la suiza para preguntar a la gente si quiere reducir la jornada laboral. Algunos me diréis que esto es perder el tiempo, ya que en España una encuesta así tendría un resultado más que previsible, pero nunca se sabe. En Suiza se preguntó y prefirieron seguir trabajando más tiempo.

Si queremos saber con seguridad cuál va a ser el resultado de la votación tendríamos que preguntar a todo el mundo cuál va a ser su voto, lo que resulta poco práctico para llevarlo a cabo. Así que hacemos un sondeo: elegimos una muestra de un tamaño determinado y les preguntamos. Obtenemos así una estimación del resultado final, con una precisión que vendrá determinada por el intervalo de confianza del estimador que calculemos.

¿Y la muestra tendrá que ser muy amplia?. Pues no demasiado, siempre que esté bien elegida. Veámoslo.

Cada vez que hacemos el sondeo, obtenemos un valor de la proporción p que votará, por ejemplo, sí a la propuesta. Si repitiésemos el sondeo muchas veces, obtendríamos un conjunto de valores próximos entre sí y, probablemente, próximos al valor real de la población al que no podemos acceder. Pues bien, estos valores (resultado de los diferentes sondeos repetidos) siguen una distribución normal, de tal manera que sabemos que el 95% de los valores estarían entre el valor de la proporción en la población más menos dos veces la desviación estándar (en realidad, 1,96 veces la desviación). A esta desviación estándar se le llama error estándar, y es la medida que nos permite calcular el margen de error de la estimación mediante su intervalo de confianza:

Intervalo de confianza del 95% (IC 95) = proporción estimada ± 1,96 x error estándar

En realidad, esta es una ecuación simplificada. Si partimos de una muestra finita (n) obtenida de una población (N), el error estándar debe multiplicarse por un factor de corrección, de tal forma que la fórmula queda de la siguiente manera:

IC 95 = p ± 1,96 error estándar x \sqrt{1-\frac{n}{N}}

Si os paráis a pensar un momento, cuando la población es muy grande el cociente n/N tiende a cero, con lo que el resultado del factor de corrección tiende a uno. Es por esto por lo que la muestra no tiene porqué ser excesivamente grande y por lo que un mismo tamaño de muestra nos puede servir para estimar el resultado de unas elecciones municipales o el de unas nacionales.

Por lo tanto, la precisión de la estimación está más en relación con el error estándar. ¿Cuál sería el error estándar en nuestro ejemplo?. Al ser el resultado una proporción, sabemos que seguirá una distribución binomial, por lo que el error estándar será igual a

Error estándar = \sqrt{\frac{p(1-p)}{n}}, siendo p la proporción obtenida y n el tamaño muestral.

La imprecisión (la amplitud del intervalo de confianza) será mayor cuanto mayor sea el error estándar. Por lo tanto, a mayor producto p(1-p) o a menor tamaño muestral, menos precisa será nuestra estimación y mayor será nuestro margen de error.

De todas formas, este margen de error es limitado. Veamos por qué.

px1-pSabemos que p puede tener valores entre cero y uno. Si examinamos la figura con la curva de p frente a p(1-p), vemos que el valor máximo del producto se obtiene cuando p=0,5, con un valor de 0,25. Según p se aleje de 0,5 en uno u otro sentido, el producto será menor.

Luego, para un mismo valor de n, el error estándar será máximo cuando p valga 0,5, según la ecuación siguiente:

M\acute{a}ximo \ error\ est\acute{a}ndar= \sqrt{\frac{0,5 \times 0,5}{n}}  =  \sqrt{\frac{0,25}{n}}\frac{0,5}{\sqrt{n}}

Así, si expresamos la fórmula del intervalo de confianza más amplio:

M\acute{a}ximo\ IC 95\%=p\pm1,96\times\frac{0,25}{\sqrt{n}}\approxp\pm2\times\frac{0,25}{\sqrt{n}}=p\pm\frac{1}{\sqrt{n}}

O sea, que el margen de error máximo es de \frac{1}{\sqrt{n}}. Esto quiere decir que con una muestra de 100 personas tendremos un margen de error máximo de más menos un 10%, dependiendo del valor de p que hayamos obtenido (pero, como máximo, un 10%). Vemos, pues, que con una muestra que no tiene porqué ser muy grande se puede obtener un resultado bastante preciso.

Y con esto terminamos por hoy. Os preguntaréis, después de todo lo que hemos dicho, por qué hay encuestas cuyo resultado no se parece nada al definitivo. Pues se me ocurren dos respuestas. La primera, nuestro amigo en azar. Hemos podido elegir, por puro azar, una muestra que no está centrada alrededor del verdadero valor de la población (nos pasará un 5% de las veces). El segundo, puede que la muestra no sea representativa de la población general. Y este es un factor fundamental, porque si la técnica de muestreo no es correcta, los resultados de la encuesta no serán nada fiables. Pero esa es otra historia…

Otra de monedas

Pocas cosas son inmutables en este mundo. Todo cambia y todo es relativo. Incluso la probabilidad de un suceso puede ser algo cambiante. Me explico.

Habitualmente vemos el mundo de la probabilidad desde un punto de vista frecuentista. Si tenemos un dado con seis caras asumimos que cada cara tiene una probabilidad de aparecer de una entre seis cada vez que lancemos el dado (suponiendo que el dado es legal y todas las caras tienen la misma probabilidad de salir).

Si tenemos dudas sobre si el dado es legal, lo que hacemos es tirar el dado un número enorme de veces hasta que somos capaces de calcular cuántas veces es predecible que aparezca cada cara, calculando así su probabilidad. Pero, en ambos casos, una vez que obtenemos el dato, ya no nos movemos de ahí. Pase lo que pase, seguiremos afirmando que la probabilidad de sacar un cinco en una tirada es un sexto.

Pero a veces la probabilidad puede cambiar y volverse diferente de la que preestablecimos en un comienzo. Una probabilidad inicial puede cambiar si inyectamos información nueva en el sistema y puede depender de eventos que vayan sucediendo a lo largo del tiempo. Esto da origen al punto de vista estadístico bayesiano, basado en gran parte en la regla de Bayes, en el que la probabilidad de un evento puede ir actualizándose a lo largo del tiempo. Pongamos un ejemplo.

Supongamos, como no, que tenemos tres monedas. Pero son tres monedas muy particulares, ya que solo una de ellas es legal (cara y cruz, CZ). De las otras dos, una tiene dos caras (CC) y la otra, dos cruces (ZZ). Ahora metemos las tres monedas en una bolsa y sacamos una de ellas sin mirar. La pregunta es: ¿cuál es la probabilidad de haber sacado la moneda con dos caras?.

¡Qué sencillo!, pensaréis la mayoría. Es el típico caso de eventos favorables dividido por eventos posibles. Como hay un evento favorable (CC) y tres posibles (CC, ZZ y CZ), la probabilidad es de un tercio. Tenemos una probabilidad del 33% de haber sacado la moneda con dos caras.

Pero, ¿qué pasa si os digo que lanzo la moneda al aire y me sale cara?. ¿Sigo teniendo la misma probabilidad de un tercio de tener la moneda con dos caras en la mano?. La respuesta, evidentemente, es no. ¿Y cuál es ahora la probabilidad de tener en la mano la moneda con dos caras?. Para calcularlo no nos valen los eventos favorables y los posibles, sino que tenemos que recurrir a la regla de Bayes. Vamos a razonarla.

La probabilidad de que se produzcan dos sucesos independientes A y B es igual a la probabilidad de A por la probabilidad de B. En el caso de que los dos sucesos sean dependientes, la probabilidad de A y B sería igual a la probabilidad de A por la probabilidad de B una vez que se ha producido A:

P(A y B) = P(A) x P(B|A)

Llevándolo al ejemplo de nuestras monedas, la probabilidad de que salga cara y de que tengamos la moneda de dos caras podemos expresarla como

P(C y CC) = P(C) x P(CC|C) (probabilidad de obtener cara por probabilidad de tener la moneda CC una vez que sale cara).

Pero también lo podemos expresar al revés:

P(C y CC) = P(CC) x P(C|CC) (probabilidad de tener la moneda CC por la probabilidad de sacar cara si tenemos la moneda CC).

Así que podemos igualar las dos expresiones y obtener nuestra buscada regla de Bayes:

P(C) x P(CC|C) = P(CC) x P(C|CC)

P(CC|C) = [P(CC) x P(C|CC)] / P(C)

Vamos a calcular nuestra probabilidad de tener la moneda CC si hemos sacado cara. Sabemos que P(CC) = 1/3. P(C|CC) = 1: si tenemos la moneda con dos caras la posibilidad de que salga cara es del 100%. ¿Cuál es la P(C)?.

La probabilidad de sacar cara será igual a la probabilidad de haber sacado de la bolsa la moneda ZZ por la posibilidad de tener cara con ZZ más la probabilidad de haber sacado CC por la probabilidad de cara con CC más la probabilidad de haber sacado la moneda legal por la probabilidad de cara con esta moneda:

P(C) = (1/3 x 0) + (1/3 x 1/2) + (1/3 x 1) = 1/2

Luego, P(CC|C) = [1 x 1/3] / 1/2 = 2/3 = 0,66

Esto quiere decir que si hemos tirado la moneda y ha salido cara, la probabilidad de que tengamos la moneda con dos caras sube del 33% al 66% (y la de tener la moneda con dos cruces baja del 33% al 0).

¿Veis cómo se ha actualizado la probabilidad?. ¿Qué pasaría si volvemos a lanzar la moneda y vuelve a salir cara?. ¿Cuál sería entonces la probabilidad de tener la moneda con dos caras?. Vamos a calcularlo siguiendo el mismo razonamiento:

P(CC|C) = [P(CC) x P(C|CC)] / P(C)

En este caso, P(CC) ya no vale 1/3, sino 2/3. P(C|CC) sigue valiendo 1. Por último P(C) también se ha modificado: ya hemos descartado la posibilidad de haber sacado la moneda con dos cruces, así que la probabilidad de sacar cara en el segundo lanzamiento es la probabilidad de tener CC por la probabilidad de cara con CC más la probabilidad de tener la moneda legal por la probabilidad de cara con esta moneda:

P(C) = (2/3 x 1) + (1/3 x 1/2) = 5/6

Así que P(CC|C) = (2/3 x 1) / (5/6) = 4/5 = 0,8

Si en el segundo lanzamiento volvemos a sacar cara, la probabilidad de que estemos lanzando la moneda con dos caras sube del 66% al 80%. Lógicamente, si seguimos repitiendo el experimento, cuántas más caras saquemos, más seguros estaremos de que tenemos la moneda con dos caras, aunque nunca tendremos una certeza total. Por supuesto, el experimento termina en el momento en que sacamos cruz, en el que la probabilidad de la moneda CC bajaría automáticamente a cero (y la de la moneda legal a 100%).

Como veis, la probabilidad no es tan inmutable como parece.

Y aquí dejamos de jugar con monedas por hoy. Solo deciros que, aunque sea menos conocido que el enfoque frecuentista, esto de la estadística bayesiana da para mucho. Existen manuales, programas informáticos especiales y métodos de análisis de resultados que incorporan la información que se deriva del estudio. Pero esa es otra historia…

El engaño de la intuición

Es una cosa curiosa, pero hay un problema de probabilidad con el que últimamente me topo cada dos por tres. Me lo encuentro leyendo, haciendo mis cursos y estudiando mis libros. Así que, por qué no, voy a compartirlo con vosotros, aunque es algo difícil de comprender y quizás muchos ya lo conoceréis.

Se trata del problema del cumpleaños y es una especie de acertijo que se usa para demostrar que nuestra intuición puede engañarnos en muchas ocasiones cuando manejamos conceptos de probabilidad, sobre todo si en el asunto hay grandes números de por medio.

Supongamos que vamos un día al cine. Ya nos llama la atención la poca gente que hay, así que nos tememos lo peor. Por desgracia, nuestros temores se ven confirmados y la película es un verdadero rollo, así que nuestra mente empieza a divagar, comenzando por contar cuánta gente hay en la sala. Vemos que estamos solo 35 personas y entonces nos hacemos la pregunta del millón: ¿cuál será la probabilidad de que al menos dos de estas 35 personas cumplan años el mismo día?.

¿Qué os parece?. A simple vista parece bastante difícil de calcular pero, ¿pensáis que la probabilidad es alta o baja?. Nuestra intuición nos dice que la probabilidad no debe ser muy alta, ya que solo hay 35 personas para repartir en coincidencias entre nada menos que 365 días que tiene un año (nos olvidamos de los bisiestos). Sin embargo, como dice el título de esta entrada, la intuición puede a veces engañarnos. Vamos a calcular cuál es la probabilidad real de que haya al menos dos personas en la sala a las que les coincida su cumpleaños.

Para calcular la probabilidad de un suceso debemos dividir el número de sucesos favorables entre el número de sucesos posibles. Por ejemplo, para calcular la probabilidad de sacar un seis en una tirada de un dado dividimos uno (el número de jugadas que nos interesa, el seis) entre seis (el número posible de resultados que podemos obtener al tirar un dado, del uno al seis). Pues bien, en este caso vamos a hacer lo mismo. En el numerador tendremos que poner el número de combinaciones existentes de que haya al menos una coincidencia y en el denominador el número de combinaciones que pueden hacerse de 35 cumpleaños con los 365 días del año.

El primer problema lo encontramos en el numerador. El número posible de coincidencias incluye una coincidencia, dos, tres…., multitud de ellas. Esto puede ser terriblemente complejo de calcular, así que vamos a recurrir a un pequeño truco muy utilizado en probabilidad.

Si lo pensáis, pueden darse dos situaciones: que haya al menos una coincidencia o que no haya ninguna. Por tanto, la probabilidad de los dos sucesos es igual a uno (100%). Así que ¿por qué no calculamos la probabilidad de que nunca haya coincidencias y le restamos a uno el resultado que nos dé?

P(al menos una coincidencia) = 1 – P(ninguna coincidencia)

Vamos a construir nuestra fracción para calcular la probabilidad que estamos buscando y, al final, calcularemos su valor complementario.

Empecemos por el denominador, que es más sencillo. ¿De cuántas formas podemos combinar 35 cumpleaños con 365 días?. Se trata de calcular el número de permutaciones posibles permitiendo el reemplazamiento, porque consideramos la posibilidad de que haya coincidencias de dos personas el mismo día. Así que sería 365x365x…x365 35 veces o, lo que es lo mismo, 36535.

Vamos con el numerador. ¿De cuántas formas distintas podemos distribuir 365 días entre 35 personas sin que haya coincidencias?. En este caso, se trata de combinaciones múltiples sin reemplazamiento, de forma que podemos calcularlo como el factorial de 365 (ya sabéis, 365x364x363x…x2x1) dividido por el factorial de la diferencia entre los días del año y el número de personas, 330.

Ya tenemos construida nuestra fórmula para el cálculo de probabilidad:

P= \frac{\frac{365!}{(365-35)!}}{365^{35}}

Ya solo nos queda resolverla. No intentéis hacerlo con vuestra calculadora de bolsillo, porque puede que explote. Yo he utilizado el programa R e, incluso, he tenido que hacer un poco de álgebra primero para simplificar los factoriales. El resultado es 0,18.

Pues bien, ya sabemos que la probabilidad de que no haya coincidencias entre los cumpleaños de las personas de la sala es de 0,18. Si le restamos a uno ese valor obtenemos 0,82. Esto quiere decir que hay un 82% de probabilidad de que al menos dos personas cumplan los años el mismo día. Impresionante cómo puede engañarnos nuestra intuición. Si no lo creéis, id un día al cine y haced la prueba.

Y creo que es el momento de dejarlo por hoy. Podríamos haber profundizado y detallado más cómo calcular el numerador y el denominador de nuestra fórmula de probabilidad, explicando los conceptos de combinatoria. Para aquellos que no lo sepáis, la combinatoria es un conjunto de herramientas matemáticas que sirve, entre otras cosas, para contar elementos. Pero esa es otra historia…

La trampa de la ratio

El mundo de la ciencia está lleno de trampas. Las hay por cualquier parte. No se libran ni tan siquiera las grandes revistas médicas ni los autores más prestigiosos. Muchos de ellos tienden a aprovecharse de nuestra ignorancia utilizando los indicadores de medida que más interesan para mostrar los resultados que se buscan. Por este motivo, tenemos que estar muy alerta siempre y fijarnos en los datos de los estudios para llegar a nuestra propia interpretación.

Desgraciadamente, no podemos evitar que se manipulen los resultados o la forma de presentarlos, pero sí que podemos pelear contra nuestra ignorancia y hacer siempre lectura crítica de los trabajos científicos.

Un ejemplo de lo que estoy hablando es la elección entre riesgos relativos y odds ratios.

Ya sabéis la diferencia entre riesgo y odds. El riesgo es una proporción entre los sujetos que presentan un evento y el total de sujetos susceptibles. Así, podemos calcular el riesgo de sufrir un infarto entre los que fuman (fumadores infartados dividido por el total de fumadores de la muestra) y entre los que no fuman (lo mismo, pero con no fumadores). Si vamos un paso más allá, podemos calcular la razón de los dos riesgos, llamada riesgo relativo (RR) o razón de riesgos, que nos indica cuánto más probable es que se produzca un evento en un grupo respecto al otro.

Por su parte, el concepto de odds es un poco diferente. La odds nos indica cuánto más probable es que se produzca un suceso frente a que no se produzca (p/(1-p)). Por ejemplo, la odds de sufrir un infarto en fumadores se calcularía dividiendo la probabilidad de infarto en fumadores (fumadores infartados dividido por el total de fumadores de la muestra, exactamente igual que el riesgo) por la probabilidad de no sufrir infarto (fumadores no infartados dividido por el total de fumadores de la muestra o, lo que es igual, uno menos la odds de padecerlo). Al igual que hacíamos con los riesgos, podemos calcular la razón de las odds de los dos grupos y obtener la odds ratio (OR), que nos da una idea de cuánto más probable es que se produzca el evento es un grupo que en el otro.

Como veis, son conceptos parecidos, pero diferentes. En ambos casos el valor nulo es uno. Un valor mayor que uno indica que los sujetos del numerador tienen más riesgo y un valor menor que uno, que tienen menos riesgo. Así, un RR de 2,5 querría decir que el grupo del numerador tiene una probabilidad un 150% mayor de presentar el evento que estemos midiendo. Una OR de 2,5 quiere decir que es una vez y media más probable que ocurra a que no ocurra el suceso en el grupo del numerador.

Por otra parte, un RR de 0,4 indica una reducción de la probabilidad de ocurrir del 60% en el grupo del numerador. La OR de 0,4 es más compleja de interpretar, pero viene a decir más o menos lo mismo.

¿Cuál de las dos debemos utilizar?. Depende del tipo de estudio. Para poder calcular el RR tenemos que calcular previamente los riesgos en los dos grupos, y para eso tenemos que conocer la prevalencia o la incidencia acumulada de la enfermedad, por lo que esta medida suele utilizarse en los estudios de cohortes y en los ensayos clínicos.

En los estudios en los que no se conoce la prevalencia de la enfermedad, como es el caso de los estudios de casos y controles, no hay más remedio que usar OR. Pero el uso de OR no se limita a este tipo de estudio. Podemos usarla cuando queramos, en lugar de los RR. Además, un caso particular es cuando se recurre a modelos de regresión logística para ajustar por los diferentes factores de confusión detectados, que proporcionan OR ajustadas.

trampa_OREn cualquier caso, el valor del RR y de la OR es similar cuando la prevalencia del efecto es baja, por debajo de un 10%, aunque la OR siempre es un poco más baja que el RR para valores menores de uno y un poco más alta para valores mayores. ¿Un poco?. Bueno, a veces no tan poco. En la figura tenéis representada, aproximadamente, la relación entre OR y RR. Veis que, a medida que la frecuencia del evento aumenta, la OR crece mucho más rápido que el RR. Y aquí es donde viene la trampa, ya que para un mismo riesgo, el impacto puede parecer mucho mayor si usamos una OR que si usamos un RR. La OR puede ser engañosa cuando el evento es frecuente. Veámoslo con un ejemplo.

Imaginemos que estoy muy preocupado con la obesidad entre los asistentes a una sala de cine y quiero evitar que entren a ver la película con un tanque enorme de una bebida azucarada cuya marca no voy a mencionar. Así que mido cuántos espectadores compran la bebida y veo que son el 95%. Entonces, otro día diferente, coloco un cartel en el bar advirtiendo de lo malo para la salud que es tomar bebidas azucaradas en grandes cantidades y veo con agrado que el porcentaje de los que la compran baja a un 85%.

En este caso, la medida absoluta de efecto sería la diferencia de riesgos, que es solo de un 10%. Algo es algo, pero no parece demasiado, solo consigo concienciar a uno de cada 10. Veamos qué pasa con las medidas de asociación.

El RR se calcularía como el cociente 95/85 = 1,17. Esto indica que si no colocamos el cartel, el riesgo de comprar la bebida es un 17% mayor que si lo ponemos. No parece demasiado, ¿verdad?.

La odds de comprar sería de 95/(1-95) sin cartel y de 85/(1-85) con cartel, luego la OR sería igual a (95/5)/(85/15) = 3,35. Quiere decir que es tres veces más probable comprar sin cartel que con cartel.

Parece claro que el RR da una idea que se corresponde mejor con la medida absoluta (la diferencia de riesgos), pero ahora os pregunto: si mi cuñado tiene una fábrica de carteles, ¿qué medida creéis que emplearía?. Sin duda, os presentaría la OR.

Por este motivo, siempre debemos mirar los resultados para ver si podemos calcular alguna medida absoluta a partir de los datos del estudio. En ocasiones esto no es tan fácil como en nuestro ejemplo, como ocurre cuando nos presentan las OR que salen del modelo de regresión. En estos casos, si conocemos la prevalencia del efecto o enfermedad en estudio, siempre podemos calcular el RR equivalente con la siguiente fórmula:RR= \frac{OR}{(1-Prev)+(Prev\times OR)}Y aquí dejamos las trampas por hoy. Veis como se puede manipular la forma de expresar los resultados para decir lo que uno quiere sin llegar a mentir. Hay más ejemplos de mal uso de medidas de asociación relativas en lugar de absolutas, como el de utilizar la diferencia relativa del riesgo en lugar de la diferencia absoluta. Pero esa es otra historia…

¿Carne o pescado?

Este es el difícil dilema que se me presenta cada vez que voy a comer a un buen restaurante. Yo, la verdad, soy más de carne, pero como los libros de ciencias dicen que soy un animal omnívoro y no me gusta contradecirles, procuro comer de todo, incluido pescado.

Cada uno tiene sus razones a favor y en contra. La carne es más sencilla de comer. Por otro lado, me resulta más difícil comer un buen pescado si no es en un buen restaurante, así que me cuesta perder la oportunidad. Pero es que la carne está tan rica. Difícil decisión…

Es mucho más fácil decidir entre una media y una mediana, donde va a parar.

Como todos sabéis, la media (nos referimos a la media aritmética) y la mediana son medidas de tendencia o centralización. Nos dan información sobre cuál es el valor central de una distribución.

La forma más sencilla de calcular la media aritmética es sumando todos los valores de la distribución y dividiendo el valor resultante por el número de elementos de la distribución, la querida n.

Para calcular la mediana tenemos que ordenar los valores de la distribución de menor a mayor y localizar aquel que ocupa el lugar central. Si el número de elementos es impar la mediana será el valor del elemento central. Por ejemplo, si tenemos una distribución de 11 elementos ordenados de menor a mayor, el valor del que ocupa el lugar sexto será la mediana de la distribución. Si el número es par, la mediana es la media de los dos centrales. Por ejemplo, si tenemos 10 elementos, será la media del quinto y el sexto. Hay fórmulas y otras formas para calcular la mediana cuando el número de elementos es grande, pero lo mejor es, como siempre, recurrir a un programa informático que lo hará sin el menor esfuerzo.

En general, es mucho más sencillo decidir entre media y mediana que entre carne y pescado, ya que existen unas normas generales que podemos aplicar a cada caso concreto.

La primera, cuando los datos no se ajustan a una distribución normal es más correcto utilizar la mediana. Esto es así porque la mediana es mucho más robusta, lo que quiere decir que se afecta menos por la presencia de sesgos en la distribución o de valores extremos.

La segunda tiene que ver con lo anterior. Cuando haya valores muy extremos la mediana informará mejor del punto central de la distribución que la media, que tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son.

Por último, algunos dicen que con algunas variables tiene más sentido utilizar mediana que media. Por ejemplo, si hablamos de supervivencia, la mediana nos informa sobre el tiempo de supervivencia, pero también sobre cuánto sobrevive la mitad de la muestra, por lo que sería más informativa que la media aritmética.

En cualquier lugar, elijamos la que elijamos, las dos medidas siguen teniendo utilidad. Y para entender todo esto vamos a ver un par de ejemplos tan buenos como que me los acabo de inventar.

Supongamos un colegio con cinco profesores. Al de ciencias le pagan 1200 euros al mes, al de matemáticas 1500, al de literatura 800 y al de historia 1100. Ahora resulta que el director es un fanático del fútbol, así que contrata a Pep Guardiola como profesor de gimnasia. El problema es que Pep no trabaja por 1000 euros al mes, así que le asignan un sueldo nada menos que de 20000 euros mensuales.

En este caso la media es de 4920 euros al mes y la mediana de 1200 euros. ¿Cuál os parece mejor medida de tendencia central en este caso?. Parece claro que la mediana da una mejor idea de lo que suelen ganar los profesores en este colegio. La media se dispara mucho porque se va detrás del valor extremo de 20000 euros mensuales.

Muchos pensaréis, incluso, que la media tiene poca utilidad en este caso. Pero eso es porque lo miráis desde el punto de vista del aspirante a profesor. Si fueseis aspirantes al cargo de gerente del colegio y tuvieseis que preparar el presupuesto mensual, ¿cuál de las dos medidas os sería más útil?. No cabe duda que la media, que os permitiría saber cuánto dinero tenéis que dedicar al pago de los profesores, conociendo el número de profesores del colegio, claro está.

Veamos otro ejemplo. Supongamos que reúno 20 gordos y los reparto en dos grupos para ensayar dos dietas de adelgazamiento. Haciendo un alarde de imaginación las vamos a llamar dieta A y dieta B.

Al cabo de tres meses los de la dieta A pierden 3,4 kg de media, mientras que los de la dieta B pierden una media de 2,7 kg. ¿Cuál de las dos dietas es más eficaz?.

Para aquellos listillos que habéis dicho que la dieta A, voy a proporcionaros un poco más de información. Esta es la diferencia de peso final menos inicial para los pacientes de la dieta A: 2, 4, 0, 0, -1, -1, -2, -2, -3 y -35. Y este es el mismo dato para los sujetos que siguieron la dieta B: -1, -1, -2, -2, -3, -3, -3, -3, -4 y -5. ¿Seguís pensando que la dieta A es más eficaz?.

Seguro que los más atentos habréis detectado ya la trampa de este ejemplo. En el grupo A hay un valor extremo que pierde 35 kg con la dieta, lo que hace que la media se dispare hacia esos -35 kg. Así que vamos a calcular las medianas: -0,5 kg para la dieta A y -3 kg para la dieta B. Parece que la dieta B es más eficaz y que las medianas, en este caso, dan una mejor información sobre la tendencia central de las distribuciones. Pensad que en este ejemplo es fácil darse cuenta mirando los datos crudos, pero si en lugar de 10 tenemos 1000 participantes no podríamos hacerlo así. Tendríamos que detectar la existencia de extremos y utilizar una medida de centralización más robusta, como la mediana.

Seguro que alguno borraría el valor extremo y se manejaría con las medias, pero esto no es aconsejable, porque los valores extremos pueden dar también información sobre aspectos determinados. Por ejemplo, ¿quién nos dice que no hay una situación metabólica especial en la que la dieta A es mucho más eficaz que la B, que lo es en la mayoría de los casos?.

Y aquí vamos a dejarlo por hoy. Solo deciros que en algunas ocasiones podemos recurrir a la transformación de los datos para que se ajusten a una normal o para reducir el efecto de los extremos. También existen también otros indicadores de centralización robustos diferentes a la mediana, como la media geométrica o la media recortada. Pero esa es otra historia…

Sota, caballo y rey

A diario nos enfrentamos a multitud de situaciones en las que siempre actuamos de la misma manera. Decimos que vamos a sota, caballo y rey. Y esto es bueno, porque se supone que este tipo de actuaciones nos salen de forma rutinaria, sin tener que pensar en ellas.

El problema es que para hacer una cosa a sota, caballo y rey tenemos que comprender bien cómo hacerla. De lo contrario podemos hacer cualquier cosa menos lo que pretendemos.

Un ejemplo es el contraste de hipótesis. Siempre es lo mismo: sota, caballo y rey. Y, sin embargo, al principio nos parece algo más complicado de lo que realmente es. Porque, con independencia del contraste que estemos haciendo, los pasos a seguir son siempre los mismos: establecer nuestra hipótesis nula, seleccionar el estadístico adecuado para cada situación, utilizar las distribución de probabilidad correspondiente para calcular la probabilidad de ese valor del estadístico que hemos empleado y, según este valor de probabilidad, decidirnos en favor de la hipótesis nula o de la alternativa. Vamos a analizar estos pasos uno a uno y utilizando un ejemplo concreto para comprenderlos mejor.

talla_escolaresSupongamos que hemos medido la altura de 25 niños de una clase de un colegio y hemos obtenido las tallas que se muestran en la tabla. Si lo calculáis, la media de talla de nuestro grupo es de 135,4 cm, con una desviación estándar de 2,85 cm. Ahora resulta que hay un estudio previo a nivel de toda la provincia en la que se estima una talla de 138 para los niños de la edad de nuestra clase. La pregunta que nos planteamos es la siguiente: ¿son nuestros niños más bajos que la media o la diferencia se debe al azar de muestreo?. Ya tenemos nuestro contraste de hipótesis.

Lo primero, establezcamos la hipótesis nula y la alternativa. Como ya sabemos, cuando hacemos un contraste de hipótesis podemos rechazar la hipótesis nula si el estadístico del contraste tiene una determinada probabilidad. Lo que no podemos hacer nunca es aceptarla, solo rechazarla. Por eso se plantea habitualmente la hipótesis nula como lo contrario a lo que queremos demostrar, para poder rechazar lo que no queremos demostrar y aceptar lo que sí queremos demostrar.

En nuestro caso vamos a plantear la hipótesis nula de que la talla de nuestros alumnos es igual a la de la media de la provincia y que la diferencia encontrada es debida al error de muestreo, al puro azar. Por otra parte, la hipótesis alternativa plantea que sí existe una diferencia y que nuestros niños son más bajos.

Una vez planteadas la hipótesis nula y alternativa tenemos que elegir el estadístico adecuado para este contraste de hipótesis. Este caso es uno de los más sencillos, el de comparación de dos medias, la nuestra y la de la población. En este caso, nuestra media estandarizada respecto a la de la población sigue una distribución t de Student, según la siguiente fórmula que me vais a permitir:

t = (media del grupo – media de población) / error estándar de la media

Así que sustituimos la media por nuestro valor (135,4 cm), la media poblacional por 138 y el error estándar por su valor (la desviación estándar dividida por la raíz cuadrada del tamaño muestral) y obtenemos un valor de t de -4,55.

Ahora tenemos que calcular la probabilidad de que t sea igual a -4,55. Si pensamos un poco veremos que en el caso de que las dos medias fuesen iguales t tendría un valor de cero. Cuánto más distintas sean, más se alejará el valor de t del cero. Nosotros queremos saber si esta desviación, de cero a -4,55, se debe al azar. Para ello calculamos la probabilidad de que t valga -4,55 utilizando una tabla de la distribución de la t de Student o un programa informático, obteniendo un valor de p = 0,0001.

Ya tenemos el valor de p, así que solo nos queda el último paso, ver si podemos rechazar la hipótesis nula. El valor de p nos indica la probabilidad de que la diferencia observada entre las dos medias se deba al azar. Como es menor de 0,05 (menor del 5%), nos sentimos lo suficientemente seguros como para decir que no es debida al azar (o, al menos, es muy improbable), así que rechazamos la hipótesis nula de que la diferencia se debe al azar y abrazamos la hipótesis alternativa de que las dos medias son realmente diferentes. Conclusión: nos ha tocado la clase de los más canijos de la provincia.

Y esto es todo respecto al contraste de hipótesis de igualdad de dos medias. En este caso hemos hecho una prueba de la t de Student para una muestra, pero lo importante es que os fijéis en la dinámica del contraste de hipótesis. Siempre es la misma: sota, caballo y rey. Lo que cambia, lógicamente, es el estadístico y la distribución de probabilidad que usamos en cada ocasión.

Para terminar solo me queda llamar vuestra atención sobre otro método que podríamos haber utilizado para saber si las muestra son diferentes. Este no es más que recurrir a nuestros queridos intervalos de confianza. Podríamos haber calculado el intervalo de confianza de nuestra media y ver si incluía la media de la población, en cuyo caso habríamos concluido que eran similares. Si la media poblacional hubiese estado fuera del intervalo, habríamos rechazado la hipótesis nula, llegando lógicamente a la misma conclusión. Pero esa es otra historia…

Hay comparaciones que no son odiosas

Suele decirse que las comparaciones son odiosas. Y la verdad es que no es muy conveniente comparar personas o cosas entre sí, ya que cada cual tiene sus valores y no tiene porqué sentirse menospreciado por ser o hacer algo de forma diferente. Así que no es de extrañar que el mismo Quijote dijese que las comparaciones son siempre odiosas.

Claro que esto puede referirse a la vida cotidiana, porque en medicina nos pasamos el tiempo comparando unas cosas con otras, a veces de forma más que provechosa.

Hoy vamos a hablar de cómo comparar dos distribuciones de datos de forma gráfica y vamos a fijarnos en una aplicación de este tipo de comparaciones que nos sirve para comprobar si nuestros datos siguen una distribución normal.

Imaginad por un momento que tenemos una serie de cien valores de colesterol sérico de niños escolares. ¿Qué pasaría si representásemos los valores frente a sí mismos de forma lineal?. Sencillo: el resultado sería una línea recta perfecta que cruzaría la diagonal del gráfico.

Ahora pensemos que pasaría si en vez de compararla consigo misma la comparamos con otra distribución diferente. Si las dos distribuciones de datos son muy parecidas, los puntos del gráfico se colocarán muy cerca de la diagonal. Si las distribuciones difieren, los puntos se irán lejos de la diagonal, tanto más lejos cuanto más diferentes sean las dos distribuciones. Veamos algún ejemplo.dos_curvas_lineas

Supongamos que dividimos nuestra distribución en dos partes, el colesterol de los niños y el de las niñas. Según nos dice nuestra imaginación, nuestros niños comen más bollería industrial que las niñas, así que sus valores de colesterol son mayores, como podéis comprobar si comparáis la curva de las niñas (negro) con la de los niños (azul). Ahora, si representamos los valores de las niñas frente a los de los niños de forma lineal, tal como puede verse en gráfico, los valores se alejan de la diagonal, estando de manera uniforme por encima de ella. ¿Esto a que se debe?. A que los valores de los niños son mayores y diferentes de los de las niñas.

Me diréis que todo esto está muy bien pero que puede resultar un poco innecesario. Total, si queremos saber cuáles tienen el valor más alto no tenemos más que mirar las curvas. Y tendréis razón en este caso, pero este tipo de gráficos se ha ideado para otra cosa, que no es otra que para comparar una distribución con su equivalente normal.

Imaginad que tenemos nuestra primera distribución y queremos saber si sigue una distribución normal. No tenemos más que calcular su media y su desviación estándar y representar sus quantiles frente a los quantiles de la distribución estándar teórica con la misma media y desviación. Si nuestra distribución es normal, los datos se alinearán cerca de la diagonal del gráfico. Cuanto más se alejen, menos probable será que nuestros datos sigan una distribución normal. Este tipo de gráfico se conoce como gráfico de quantil-quantil o, más comúnmente, por su nombre abreviado en inglés, q-q plot.

Veamos algún ejemplo de q-q plot para entenderlo mejor. En el segundo gráfico veis dos curvas, una azul que representa una distribución normal y una negra que sigue una t de Student. A la derecha podéis ver el q-q plot de la distribución de la t de Student. Los datos de la parte central se ajustan bastante bien a la diagonal, pero los extremos lo hacen peor, variando la pendiente de la recta. Esto nos indica que hay más datos en las zonas de las colas de los que habría si la distribución fuese normal. Claro que esto no debería extrañarnos, ya que sabemos que las “colas pobladas” son una de las características de la distribución de Student.curva_sesgadacurva_normal

Por último, en el tercer gráfico veis una distribución normal y su q-q plot, en el que podemos ver cómo los datos se ajustan bastante bien a la diagonal del gráfico.

Veis, pues, como el q-q- plot es un método gráfico sencillo para determinar si una distribución de datos sigue una normal. Me diréis que puede resultar un poco latoso calcular los cuantiles de nuestra distribución y los de la normal para poder representar unos frente a otros, pero recordad que la mayor parte de los programas de estadística lo hacen sin esfuerzo. Sin ir más lejos, R tiene una función llamada qqnorm() que dibuja el q-q plot en un parpadeo.

Y aquí vamos a dejar los ajustes a la normal por hoy. Recordaos que hay otros métodos más exactos de tipo numérico para saber si los datos se ajustan a la distribución normal, como la prueba de Kolmogorov-Smirnov o la de Shapiro-Wilk. Pero esa es otra historia…

El error de la confianza

Nuestra vida está llena de incertidumbre. Muchas veces queremos conocer información que está fuera de nuestro alcance, por lo que tenemos que conformarnos con aproximaciones. El problema de las aproximaciones es que están sujetas a error, por lo que nunca podemos estar completamente seguros de que nuestras estimaciones sean ciertas. Eso sí, podemos medir nuestro grado de incertidumbre.

De eso se encarga en gran parte la estadística, de cuantificar la incertidumbre. Por ejemplo, supongamos que queremos saber cuál es el valor medio de colesterol de los adultos de entre 18 y 65 años de la ciudad donde vivo. Si quiero el valor medio exacto tengo que llamarlos a todos, convencerlos para que se dejen hacer un análisis (la mayoría estarán sanos y no querrán hacerse nada) y hacer la determinación a cada uno de ellos para calcular después la media que quiero conocer.

El problema es que vivo en una ciudad muy grande, con unos cinco millones de habitantes, así que es imposible desde un punto de vista práctica determinarcolesterol_normal el colesterol a todos los adultos del intervalo de edad que me interesa. ¿Qué puedo hacer?. Tomar una muestra más asequible de mi población, calcular el valor medio de colesterol y estimar cuál es el valor medio de toda la población.

Así que escojo 500 individuos al azar y determino sus valores de colesterol en sangre, en miligramos por decilitro, obteniendo una media de 165, una desviación estándar de 25 y una distribución de los valores aparentemente normal, tal como os muestro en el gráfico que se adjunta.

Lógicamente, como la muestra es bastante grande, el valor medio de la población probablemente estará cerca de los 165 que he obtenido de la muestra, pero también es muy probable que no sea exactamente ese. ¿Cómo puedo saber el valor de la población?. La respuesta es que no puedo saber el valor exacto, pero sí aproximadamente entre qué valores está. En otras palabras, puedo calcular un intervalo dentro del cual se encuentre el valor inasequible de mi población, siempre con un nivel de confianza (o incertidumbre) determinado.

Pensemos por un momento qué pasaría si repitiésemos el experimento muchas veces. Cada vez obtendríamos un valor medio un poco diferente, pero todos ellos deberían ser parecidos y próximos al valor real de la población. Si repetimos el experimento cien veces y obtenemos cien valores medios, estos valores seguirán una distribución normal con un valor medio y una desviación estándar determinados.

Ahora bien, sabemos que, en una distribución normal, aproximadamente el 95% de la muestra se encuentra en el intervalo formado por la media más menos dos desviaciones estándar. En el caso de la distribución de medias de nuestros experimentos, la desviación estándar de la distribución de medias se denomina error estándar de la media, pero su significado es el mismo que el de cualquier desviación estándar: el intervalo comprendido por la media más menos dos errores estándar contiene el 95% de las medias. Esto quiere decir, aproximadamente, que la media de nuestra población se encontrará el 95% de las veces en el intervalo formado por la media de nuestro experimento (no necesitamos repetirlo cien veces) más menos dos veces el error estándar. ¿Y cómo se calcula el error estándar de la media?. Muy sencillo, aplicando la fórmula siguiente:

error estándar = desviación estándar / raíz cuadrada del tamaño de la muestra

EE= \frac{DE}{\sqrt{n}}

En nuestro caso, el error estándar vale 1,12, lo que quiere decir que el valor medio de colesterol en nuestra población se encuentra dentro del intervalo 165 – 2,24 a 165 + 2,24 o, lo que es lo mismo, de 162,76 a 167,24, siempre con una probabilidad de error del 5% (un nivel de confianza del 95%).

Hemos calculado así el intervalo de confianza del 95% de nuestra media, que nos permite estimar entre qué valores se encuentra el valor real. Todos los intervalos de confianza se calculan de forma similar, variando en cada caso la forma de calcular el error estándar, que será diferente según se trate de una media, una proporción, un riesgo relativo, etc.

Para terminar esta entrada comentaros que la forma en la que hemos hecho este cálculo es una aproximación. Cuando conocemos la desviación estándar de la población podemos utilizar una distribución normal para el cálculo del intervalo de confianza. Si no la conocemos, que es lo habitual, y la muestra es grande, cometeremos poco error aproximando con una normal. Pero si la muestra es pequeña, la distribución de medias ya no sigue una normal, sino una t de Student, por lo que tendríamos que utilizar esta distribución para el cálculo del intervalo. Pero esa es otra historia…

El estigma de la culpabilidad

Hay veces en que los conceptos estadísticos son de gran utilidad para otras facetas de la vida. Por ejemplo, imaginad que se produce un robo en un banco y que el ladrón se ha introducido a través de un pequeño agujero que ha hecho en la pared. Ahora seguid imaginando que hace cinco años un ladrón pequeñito que salió de la cárcel hace dos meses, hizo un robo similar. ¿A quién creéis que interrogará la policía en primer lugar?.

Todos estaréis de acuerdo en que el ladrón enano será el primer sospechoso, pero probablemente os preguntaréis también qué tiene todo esto que ver con la estadística. Pues os diré que es muy simple: la policía está utilizando el concepto de probabilidad condicionada cuando piensa en su pequeño sospechoso. Vamos a ver por partes qué es la probabilidad condicionada y veréis que tengo razón.

Dos sucesos pueden ser dependientes o independientes. Son independientes cuando la probabilidad de producirse uno no tiene nada que ver con la de producirse el otro. Por ejemplo, si tiramos un dado diez veces, cada una de esas tiradas será independiente de las anteriores (y de la siguientes). Si sacamos un seis en una tirada, no por ello la probabilidad de sacar otro en la siguiente es más baja, sino que sigue siendo de un sexto. Aplicando el mismo razonamiento, si hemos tirado diez veces y no hemos tenido ningún seis, la probabilidad de sacarlo en la siguiente tirada sigue siendo un sexto. La probabilidad de obtener dos seises en dos tiradas sería el producto de la probabilidad de obtenerlo en cada una: 1/6 x 1/6 = 1/36.

Expresado matemáticamente, la probabilidad de que ocurran dos sucesos independientes es la siguiente:

P(A y B) = P(A) x P(B)

En otras ocasiones los sucesos pueden ser dependientes, lo que significa que el que ocurra uno de ellos cambia la probabilidad de que ocurra el otro. Hablamos entonces de probabilidad condicionada. Veamos algún ejemplo.

El más inmediato para los médicos puede ser el de los valores predictivos positivo y negativo de las pruebas diagnósticas. La probabilidad de que un paciente tenga un positivo en la prueba no es la misma que la probabilidad de que esté enfermo, una vez que haya dado positivo. Ésta, a su vez, será mayor que si ha dado negativo. Como veis, el resultado de la prueba condiciona la probabilidad de la enfermedad.

Pensad por otro lado que estamos estudiando una población de niños para ver cuantos tienen anemia y malnutrición. Lógicamente, los anémicos tendrán más probabilidad de estar malnutridos. Una vez que determinamos que el niño está anémico, la probabilidad de que esté malnutrido se incrementa. Lo bueno de todo estos es que, si conocemos las distintas probabilidades, podremos calcular la probabilidad de que tenga anemia una vez que hemos constatado que está malnutrido. Vamos a verlo matemáticamente.

La probabilidad de que dos sucesos dependientes ocurran puede expresarse de la siguiente forma:

P(A y B) = P(A) x P(B|A), donde B|A se lee como B condicionada por A.

También podríamos expresarlo cambiando A por B, de la siguiente forma:

P(A y B) = P(B) x P(A|B)

y como la parte izquierda de las dos ecuaciones es la misma podríamos igualarlas y obtener otra ecuación diferente:

P(A) x P(B|A) = P(B) x P(A|B)

P(B|A) = [P(B) x P(A|B)] / P(A)

que es lo que se conoce como regla de Bayes, que fue un clérigo del siglo XVIII muy aficionado a los sucesos condicionados.

Para entender su utilidad, vamos a aplicarlo al caso del valor predictivo positivo. Supongamos una enfermedad cuya prevalencia (probabilidad de padecerla en la población) es de 0,2 y una prueba diagnóstica para diagnosticarla con una sensibilidad de 0,8. Si tomamos una población y obtenemos un 30% de positivos (probabilidad 0,3), ¿cuál es la probabilidad de que un individuo esté enfermo una vez que ha obtenido un resultado positivo en la prueba?. Resolvamos el ejemplo:

P(enfermo|positivo) = [P(enfermo) x P(positivo|enfermo)] / P(positivo)

P(enfermo|positivo) = (prevalencia x sensibilidad) / P(prueba positiva)

P(enfermo|positivo) = (0,2 x 0,8) / 0,3 = 0,53

En resumen, si un individuo da positivo habrá un 53% de probabilidades de que esté enfermo.

Y aquí dejamos la regla de Bayes por hoy. Hay que decir que la contribución de Bayes a la ciencia de la estadística fue mucho más amplia. De hecho, este tipo de razonamientos conduce a otra forma de ver la estadística más dependiente de los sucesos que vayan ocurriendo, frente al enfoque estadístico clásico frecuentista que empleamos la mayor parte de las veces. Pero esa es otra historia…

El camaleón

Un reptil fascinante. Conocidos son sus ojos, con esa habilidad de girar de forma independiente cubriendo el ángulo completo de la circunferencia. También conocida es su larga lengua, con la que atrapa a distancia los bichos que se come sin tener que moverse del sitio. Pero lo más famoso del camaleón es su capacidad para cambiar de color y mimetizarse con el ambiente cuando quiere pasar desapercibido, cosa que no es de extrañar porque el camaleón es, como no decirlo, un bicho bastante feo.

Pero hoy vamos a hablar de ensayos clínicos. En concreto, de un tipo de ensayos que, como un verdadero camaleón de la epidemiología, va cambiando su diseño según se va realizando, para adaptarse a las circunstancias que se van produciendo. Me refiero a los ensayos clínicos adaptativos.

El ensayo clínico tiene habitualmente un diseño o protocolo fijo, de tal manera que está muy mal visto violar el protocolo y, cuando se hace, hay que explicarlo detalladamente y justificar los motivos. Sin embargo, en el ensayo clínico adaptativo se define a priori, de manera prospectiva, la posibilidad de hacer cambios en uno o más aspectos del diseño del estudio en base a los datos que se van obteniendo durante su realización. Habitualmente se planifican unos momentos a lo largo del estudio en los que se analizan los datos y resultados disponibles para decidir si se hacen los cambios preestablecidos. E insisto en esto: los cambios deben estar planificados previamente. De lo contrario, cualquier cambio constituye una violación del protocolo del estudio que pone en peligro la validez de sus resultados.

Los cambios que se pueden realizar son múltiples. Pueden cambiarse las probabilidades del método de aleatorización, el tamaño de la muestra e, incluso, las características del seguimiento, que se puede alargar o acortar, así como modificar las visitas que estaban previstas en el diseño inicial. Pero podemos ir más allá y modificar las dosis del tratamiento probado o modificar los medicamentos permitidos o prohibidos concomitantes según interese.

También se pueden cambiar aspectos como criterios de inclusión, variables de resultado (sobre todo los componentes de las variables compuestas), los métodos analíticos empleados e, incluso, transformar un ensayo de superioridad en otro de non inferioridad, o viceversa.

Como ya hemos dicho un par de veces, estos cambios tienen que estar planeados de antemano. Hay que definir que eventos nos inducirán a hacer adaptaciones del protocolo. Por ejemplo, planear aumentar o disminuir el tamaño muestral para aumentar la potencia del estudio tras enrolar un número de participantes, o incluir determinados grupos durante un seguimiento determinado y, a partir de ahí, dejar de aplicar la intervención en el grupo en el que no se muestre eficaz.

Las ventajas de este tipo de diseño son evidentes. La primera, la flexibilidad, es evidente. Las otras dos son más teóricas y no siempre se cumplen pero, en principio, son más eficientes que los diseños convencionales y tienen más probabilidad de demostrar el efecto de la intervención, si éste existe.

Su mayor inconveniente es la dificultad de planificar a priori todas las posibilidades de cambio y la interpretación posterior de los resultados. Es difícil interpretar los resultados finales cuando el curso del ensayo depende mucho de los datos intermedios que se vayan obteniendo. Además, esto hace que sea imprescindible tener un acceso rápido y sencillo a los datos del ensayo mientras se está realizando, lo que puede ser difícil en el contexto de un ensayo clínico.

Y aquí lo dejamos por hoy. Vuelvo a insistir en la necesidad de planificar previamente el protocolo del ensayo y, en el caso de diseños adaptativos, las condiciones de cada adaptación. De hecho, hoy en día muchos ensayos se inscriben antes de realizarlos para que quede constancia de sus condiciones de diseño. Claro que el hecho de inscribirlos obliga también a su publicación posterior aunque los resultados no sean favorables, lo que ayuda a combatir el sesgo de publicación. Pero esa es otra historia…