Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado poroctubre 2013
image_pdf

La necesidad del azar

Ya decía Demócrito que todo lo que existe en este mundo es fruto del azar y la necesidad. Y lo mismo pensaba Monod, que utilizó la forma en que el azar se imbrica con nuestro destino para explicar que no somos más que máquinas genéticas. Pero hoy no vamos a hablar del azar y su necesidad para justificar nuestra mecanicista evolución, sino de algo muy diferente, aunque parezca un juego de palabras: de la necesidad del azar a la hora de diseñar los estudios científicos para controlar lo que está más allá de nuestro control.

Y es que, en efecto, la aleatorización es uno de los elementos clave de los estudios experimentales. Siempre que planteamos un ensayo clínico para comprobar la eficacia de una intervención necesitamos que los dos grupos, el de intervención y el de control, sean totalmente comparables, ya que es la forma de estar razonablemente seguros de que las diferencias que observemos sean debidas a la intervención. Pues bien, esta asignación de los participantes a uno de los dos grupos debe hacerse al azar, sin que intervengan en ella la voluntad del participante ni del investigador.

La gran ventaja de la aleatorización es que distribuye de forma homogénea todas aquellas variables que pueden influir en el resultado, tanto si son conocidas por el investigador como si son desconocidas. Así, podremos plantear nuestras hipótesis nula y alternativa y calcular la probabilidad de que las diferencias se deban al azar o al efecto de la intervención en estudio.

Sin embargo, todas las ventajas de la aleatorización pueden perderse si no la hacemos de forma correcta. Es muy importante que la secuencia de aleatorización sea imprevisible, de forma que sea imposible saber a qué grupo se va a asignar el siguiente participante, incluso antes de decidirse su intervención en el estudio (para evitar que el saber qué grupo le corresponde pueda influir en la decisión de participar en el estudio).

Es frecuente realizarla utilizando sobres cerrados con códigos que se asignan a los participantes. Otra posibilidad es utilizar secuencias de ordenador o tablas de números aleatorios. Para mayor seguridad, es además conveniente que la aleatorización la hagan personas ajenas al estudio, por vía centralizada o telefónica. En cualquier caso, debemos evitar técnicas que puedan ser previsibles, como el uso de los días de la semana, las iniciales del nombre, las fechas de nacimiento, etc.

Existen varias técnicas para realizar una aleatorización de forma correcta, teniendo todas en común el hecho de que los participantes tienen una probabilidad determinada de ser asignados a alguno de los grupos del ensayo.

Un método muy sencillo consiste en ir asignándolos de forma alternante y sistemática a un grupo o al otro, pero este método solo es aleatorio para el primero que se asigna. Por eso suelen preferirse cualquiera de las restantes modalidades de aleatorización.

La más sencilla de las técnicas aleatorias es (¡sorpresa!) la asignación aleatoria simple, que equivale a tirar una moneda al aire cuando los participantes tienen la misma probabilidad de asignación a los dos grupos. Claro que esto no tiene porqué ser así y podemos asignar una probabilidad diferente. El problema de este método es que crea grupos de distinto tamaño, por lo que pueden aparecer desequilibrios entre los grupos, sobre todo con muestras pequeñas.

Para evitar este problema podemos recurrir a la aleatorización por bloques de tamaño  prefijado (múltiplos de dos) y asignamos la mitad de los participantes a un grupo y el resto al otro. Así se garantiza que el número de participantes en cada grupo sea similar.

También puede dividirse la muestra en grupos en función de alguna variable pronóstica, haciéndose la asignación aleatoria dentro de cada grupo. Esta es la técnica de aleatorización estratificada. Es importante que los estratos sean excluyentes, lo más diferentes entre sí y lo más homogéneos posible en su interior. Hay quien aconseja utilizar una técnica de asignación por bloques dentro de cada estrato, pero esto puede depender del tipo de estudio.

También pueden asignarse por grupos diferentes funcional o geográficamente para evitar la contaminación de unos participantes por la intervención de la rama contraria. Pensemos que queremos valorar una técnica de cribado de cáncer. Quizás sea mejor cribar en unos centros y en otros no. Si en el mismo hacemos las dos cosas, los participantes del grupo control pueden modificar sus hábitos de vida o exigir el beneficio de la técnica de cribado también para ellos.

Finalmente, existen también una serie de técnicas de aleatorización adaptativas, que se van modificando a lo largo del estudio para adaptarse a desequilibrios que van surgiendo en el reparto de variables o en el número de sujetos de cada grupo. Esta técnica puede también utilizarse cuando nos interese minimizar el número de los que reciban la intervención menos eficaz, una vez que vamos conociendo los resultados del estudio.

Y con esto termino con la aleatorización. Antes de terminar solo me queda advertir que no debe confundirse ocultación de la secuencia de aleatorización con enmascaramiento. La ocultación previene el sesgo de selección y asegura (aunque no siempre) una distribución equilibrada de variables confusoras o modificadoras de efecto. El enmascaramiento se realiza una vez ya asignados los participantes a su rama de intervención o de control y sirve para prevenir los sesgos de información. Pero esa es otra historia…

Errar es humano

Errar es humano, perdonar es divino. Eso dicen pero, ¿qué significa?. Si uno lee la frase puede entender que cometer errores forma parte de la naturaleza humana. Y quizás tenga algo de cierto, porque rara es la vez que los llamados seres humanos hacemos algo que no esté plagado de errores, aunque pongamos todo nuestro cuidado en no cometer ninguno.

En cuanto a lo de perdonar, también es cierto que es una cualidad más divina que humana. Aunque hay algunos errores que no merecen perdón, ni humano ni divino.

Pero centrémonos en nuestro tema: los errores de los estudios científicos. Porque existen dos tipos de errores que son comunes a cualquier tipo de estudio: los errores aleatorios y los errores sistemáticos.

Los errores aleatorios, como su nombre indica, se deben al azar. Habitualmente cuando queremos estudiar una variable en una población tenemos que contentarnos con una muestra seleccionada a partir de esa población. Pues bien, el muestreo aleatorio siempre encierra cierta probabilidad de que la muestra no sea representativa de la población de la que proviene. Esta probabilidad de error será mayor cuanto menor sea el tamaño de la muestra y cuanto mayor sea la variabilidad de la característica que estemos estudiando dentro de la población.

Otra causa de error aleatorio es la propia variabilidad de las mediciones que hagamos, ya sea por la propia variabilidad biológica, por el instrumento que utilicemos para medir o por la subjetividad o variabilidad del observador. Por ejemplo, pensemos que vamos a estudiar la prevalencia de enfermedad tuberculosa en nuestra muestra mediante el estudio de la reacción cutánea a la tuberculina y el día que vamos a medir se nos rompen las gafas. Cualquier parecido con la realidad será mera coincidencia.

El otro tipo de errores son los sistemáticos, también llamados sesgos, que habitualmente conducen a una estimación incorrecta del efecto que estamos estudiando. Estos no se deben al azar, sino a algún error en el diseño del estudio, ya sea relacionado con los participantes (sesgo de selección) o con la medición de la variable (sesgo de información).

El sesgo de selección se produce típicamente cuando elegimos una muestra no representativa de la población. Pensemos que queremos saber la prevalencia de una enfermedad y tomamos una muestra de los pacientes que acuden al consultorio. Lógicamente, el resultado estará sesgado y sobrevalorará la presencia de la enfermedad en la población.

Pero el sesgo de selección puede producirse también en otras situaciones. Por ejemplo, si escogemos un grupo control con una enfermedad relacionada con la de estudio, nuestro resultado será incorrecto. También puede ocurrir cuando la probabilidad de que los sujetos abandonen el estudio no sea igual en los dos grupos. Por ejemplo, supongamos que estamos estudiando dos intervenciones y en ambos grupos se pierde el mismo porcentaje, pero en uno tienden a perderse los que responden y en el otro los que no responden. Aunque el porcentaje de respuesta sea el mismo, en realidad la intervención más eficaz es aquélla en la que se pierden más lo que responden que los que no. Algo parecido ocurre en las encuestas con los que no contestan. Si preguntamos algo que esté mal visto socialmente, siempre subestimaremos el resultado real.

Por su parte, el sesgo de información se produce cuando, de forma sistemática, medimos de forma errónea o diferente en los dos grupos. En general, suele producirse por utilizar pruebas con poca sensibilidad o especificidad, por tener criterios diagnósticos erróneos o por cometer imprecisiones o errores en la recogida de los datos.

Pensemos que estudiamos el peso en un tipo de enfermos y la báscula está mal calibrada. O que estudiamos la talla y a un grupo le tallamos descalzo y al otro con zapatos.

Hay un par de diferencias entre los dos tipos de errores, aleatorio y sistemático. Como ya hemos dicho, el error aleatorio depende del tamaño muestral, por lo que tiende a ser menor al aumentar el tamaño de la muestra. Sin embargo, esto no ocurre con los errores sistemáticos, que se perpetúan por más que aumentemos el tamaño muestral.

Por otra parte, los errores aleatorios pueden controlarse con relativa facilidad, si no son muy grandes, durante la fase de análisis de los datos, mientras que los sistemáticos son mucho más difíciles de corregir al analizar los resultados. Por eso hay que ser muy cuidadoso durante la fase de diseño e intentar evitarlos.

Y con esto terminamos por hoy. Que sepáis que la familia de los sesgos es muy numerosa. Aunque todos pueden incluirse en alguno de los que hemos mencionado, hay muchos más tipos de sesgos descritos, muchos de ellos específicos de determinado tipo de diseño de estudio. Pero esa es otra historia…

Las colas de la p

Que me perdonen mis amigos que están al otro lado del Atlántico, pero no me refiero al tipo de colas que muchas mentes perversas están pensando. Lejos de eso, hoy vamos a hablar de unas colas mucho más aburridas pero que son muy importantes siempre que queramos realizar un contraste de hipótesis. Y, como suele ser habitual, lo vamos a ilustrar con un ejemplo para ver si lo entendemos mejor.

Supongamos que tomamos una moneda y, armados de una paciencia infinita, la tiramos al aire 1000 veces, obteniendo cara 560 veces. Todos sabemos que la probabilidad de sacar cara es de 0,5, así que si tiramos la moneda 1000 veces el número medio esperado de caras será de 500. Pero nosotros hemos sacado 560, así que podemos plantearnos dos posibilidades que se nos ocurren de forma inmediata.

Primera, la moneda es legal y hemos sacado 60 caras de más por puro azar. Esta será nuestra hipótesis nula, que dice que la probabilidad de sacar cara [P(cara)] es igual a 0,5. Segunda, nuestra moneda no es legal y está cargada para sacar más caras. Será nuestra hipótesis alternativa (Ha), que dice que P(cara) > 0,5.

Pues bien, vamos a hacer el contraste de hipótesis sirviéndonos de una calculadora de probabilidad binomial de las que hay disponibles en Internet. Si asumimos la hipótesis nula de que la moneda es legal, la probabilidad de que obtengamos 560 caras o más es de 0,008%. Dado que es menor de 5%, rechazamos nuestra hipótesis nula: la moneda está trucada.

Ahora, si os fijáis, la Ha tiene una direccionalidad hacia P(cara) > 0,5, pero podríamos haber planteado la hipótesis como que la moneda no fuese legal, sin presuponer ni que está cargada a favor de las caras ni de las cruces: P(cara) distinto de 0,5. En este caso calcularíamos la probabilidad de que el número de caras estuviese 60 por encima o por debajo de los 500, en las dos direcciones. La probabilidad que obtendríamos es de 0,016, rechazando nuestra hipótesis nula y concluyendo que la moneda no es legal. El problema es que la prueba no nos dice si está cargada en uno u otro sentido, pero por los resultados suponemos que es en sentido hacia las caras. En el primer caso hemos hecho una prueba con una cola, mientras que en el segundo lo hemos hecho con dos colas.

WebEn el gráfico podéis ver el área de probabilidades de cada una de las dos pruebas. En una cola el área pequeña de la derecha es la probabilidad de que la diferencia respecto al valor esperado se deba al azar. Con dos colas, esta área es doble y situada a ambos lados de la distribución. Veis que la p con dos colas vale el doble que con una cola. En nuestro ejemplo el valor de p es tan bajo que en cualquier caso nos permite rechazar la hipótesis nula. Pero esto no siempre es así, y puede haber ocasiones en que el investigador elija hacer la prueba con una cola porque con dos no consiga la significación estadística que le da la prueba con una de las colas.

Y digo una de las colas porque en el ejemplo de una cola hemos calculado la de la derecha, pero también podemos calcular el valor de la probabilidad de la cola de la izquierda. Pensemos en el improbable caso de que la moneda esté cargada en el sentido de sacar más cruces pero que, por azar, nosotros hemos sacado más caras. Nuestra Ha diría que P(cara) < 0,5. En este caso calcularíamos la probabilidad de que, asumiendo que es legal, la moneda nos de 560 caras o menos. El valor de p es de 99,9%, luego no podemos rechazar nuestra hipótesis nula de que la moneda es legal.

¿Pero qué pasa aquí?, preguntaréis. El primer contraste de hipótesis que planteamos decía que podíamos rechazar la hipótesis nula y este dice lo contrario. Si es la misma moneda y los mismos datos, ¿no deberíamos llegar a la misma conclusión?. Pues resulta que no. Recordad que no poder rechazar la hipótesis nula no es lo mismo que concluir que es cierta, cosa que nunca podremos asegurar. En este último ejemplo, la hipótesis nula de legalidad de la moneda es mejor opción que la alternativa de que está cargada para dar más cruces. Sin embargo, eso no quiere decir que podamos concluir que la moneda es legal.

Veis pues, cómo hay que tener muy claro el significado de las hipótesis nula y alternativa cuando plateemos un contraste de hipótesis. Y recordad siempre que aunque no podamos rechazar la hipótesis nula eso no quiere obligadamente decir que sea cierta. Simplemente no tenemos potencia suficiente para rechazarla. Lo cual me lleva a pensar en los errores de tipo I y tipo II y su relación con la potencia del estudio y el tamaño de la muestra. Pero esa es otra historia…

Para ver bien hay que estar ciego

Dicen que no hay peor ciego que el que no quiere ver. Pero también es verdad que querer ver demasiado puede ser contraproducente. En ocasiones, es mejor ver solo lo justo e imprescindible.

Eso es lo que ocurre en los estudios científicos. Imaginad que queremos probar un nuevo tratamiento y planteamos un ensayo en el que a unos les damos el fármaco nuevo y a otros un placebo. Si todos saben qué recibe cada cual, puede ocurrir que las expectativas de los investigadores o de los participantes influyan, aun de forma involuntaria, en la forma en que valoren los resultados del estudio. Por eso hay que recurrir a técnicas de enmascaramiento, más conocidas como técnicas de ciego.

Vamos a suponer que queremos probar un fármaco nuevo contra una enfermedad muy grave. Si un participante sabe que le están dando el fármaco será mucho más permisivo con los efectos secundarios que si sabe que le dan placebo. Pero al investigador le puede ocurrir algo parecido. Cualquiera puede imaginar que pondríamos menos interés en preguntar por los signos de toxicidad del nuevo tratamiento a un individuo que sabemos está recibiendo un inocuo placebo.

Todos estos efectos pueden influir en la forma en que participantes e investigadores valoran los efectos del tratamiento, pudiendo producir un sesgo de interpretación de los resultados.

Las técnicas de enmascaramiento se pueden realizar a distintos niveles. El nivel más bajo es no enmascarar en absoluto, realizando lo que se denomina un ensayo abierto. Aunque lo ideal sea enmascarar, hay veces en que esto no interesa o es imposible. Por ejemplo, pensad que para cegar haya que causar molestias innecesarias, como la administración de placebos por vía parenteral durante periodos prolongados o la realización de procedimientos quirúrgicos. Otras veces es difícil encontrar un placebo que sea indistinguible galénicamente del tratamiento ensayado. Y, por último, otras veces no tendrá mucho sentido enmascarar si el tratamiento tiene efectos fácilmente reconocibles que no se producen con el placebo.

El siguiente nivel es el simple ciego cuando o bien los participantes, o bien los investigadores, desconocen qué tratamiento recibe cada uno. Un paso más allá está el doble ciego, en el que ni investigadores ni participantes saben a qué grupo pertenece cada uno. Y, por último, tenemos el triple ciego, cuando además de los ya mencionados, la persona que analiza los datos o la que tiene la responsabilidad de controlar y suspender el estudio desconoce también a qué grupo se ha asignado cada participante. Imaginad que aparece un efecto adverso grave y tenemos que decidir si suspendemos el estudio. No cabe duda que el conocer si esa persona recibe el fármaco en ensayo o el placebo nos puede condicionar a la hora de tomar esa decisión.

¿Y qué hacemos cuando no se puede o no interesa enmascarar?. Pues en esos casos no nos queda más remedio que hacer un estudio abierto, aunque podemos intentar recurrir a un evaluador ciego. Esto quiere decir que, aunque investigadores y participantes conozcan la asignación al grupo de intervención o de placebo, la persona que analiza las variables desconoce esta asignación. Esto es especialmente importante cuando la variable de resultado es subjetiva. Por otra parte, no resulta tan imprescindible cuando es una variable objetiva, como una determinación de laboratorio. Pensad que una radiografía puede no valorarse con la misma minuciosidad o criterio si sabemos que el individuo es del grupo placebo o del de intervención.

Para terminar, comentar otros dos posibles errores derivados de la falta de enmascaramiento. Si un participante sabe que recibe el fármaco en estudio puede experimentar una mejoría simplemente por efecto placebo. Por otra parte, el que sabe que le ha tocado el placebo puede modificar su comportamiento cuando sabe que “no está protegido” por el nuevo tratamiento. Esto se llama contaminación y es un verdadero problema en los estudios sobre hábitos de vida.

Y con esto acabamos. Solo aclarar un concepto antes de finalizar. Hemos visto que puede haber cierta relación entre la falta de enmascaramiento y la aparición de un efecto placebo. Pero no os confundáis, el enmascaramiento no sirve para controlar el efecto placebo. Para eso hay que recurrir a otra argucia: la aleatorización. Pero esa es otra historia…

No por mucho madrugar, amanece más temprano

O, al menos, no siempre. Las cosas hay que hacerlas en el momento más adecuado y, en muchas ocasiones, no sirve de nada adelantarse demasiado en el tiempo. Sin embargo, en medicina tendemos a pensar que todo lo que adelantemos será para bien, aunque no siempre es así.

Por ejemplo, cuando hablamos de prevención siempre solemos asumir que cuanto antes diagnostiquemos un problema, mejor será el pronóstico de la enfermedad. Sin embargo, esto no siempre es verdad y, cuando lo es, puede ser complicado demostrarlo.

Resulta que los estudios de prevención suelen hacerse con personas sanas por lo que, cuando valoramos una intervención preventiva, hay que esperar un tiempo más prolongado que en otros tipos de estudios para dar ocasión a que se presente la enfermedad o complicación que estemos interesados en prevenir. Además, puede ocurrir que, aunque la intervención controle el factor de riesgo o la enfermedad, el pronóstico de los pacientes o su supervivencia no cambien en absoluto, ya sea por la enfermedad en estudio o por otros factores independientes.

Una dificultad adicional la constituyen los sesgos habituales y característicos de los estudios observacionales, que pueden llevarnos a una conclusión errónea a favor de la intervención de estudio. Pero es que, por si fuera poco, los estudios sobre medidas preventivas se ven expuestos a tres tipos de sesgos característicos.

El primero es el sesgo de participación. Con frecuencia, los que aceptan participar en este tipo de estudios tienen mejor salud que los que lo rechazan o no tienen acceso a ellos. De esta manera, el beneficio observado puede deberse a este o a otros factores no controlados por no existir un reparto aleatorio de los participantes entre la rama de intervención y la de control.

Por otra parte, toda enfermedad tiene un periodo de latencia desde que se origina hasta que se hace evidente y suele diagnosticarse. Si estudiamos una medida preventiva y hacemos el diagnóstico durante el periodo de latencia puede ocurrir que la supervivencia desde el diagnóstico se vea alargada, no porque el paciente viva más, sino porque le diagnosticamos antes y empezamos a contar el tiempo antes. Este es el sesgo por adelanto diagnóstico. Lo que aumenta no es la supervivencia, sino el tiempo conocido de enfermedad.

Por último, existe una tercera fuente de error que es el llamado sesgo de duración de la enfermedad. Cabe la posibilidad de que, al diagnosticar antes, la prueba en estudio nos detecte los casos de enfermedad con periodo presintomático más largo, que pueden ser menos graves y tener mejor pronóstico. Podemos tener así la falsa sensación de que la supervivencia es mayor en los casos detectados precozmente que en los que se diagnostican de forma habitual.

Como es lógico, la forma de combatir estos tres sesgos es asignar los participantes de forma aleatoria a las ramas de intervención y de control. Dicho de otro modo, hay que hacer un ensayo clínico controlado y aleatorizado si queremos demostrar con seguridad la eficacia o falta de eficacia de una medida preventiva.

Y esto es todo por hoy. No hemos comentado otras características de los ensayos sobre medidas preventivas referentes a su seguimiento o al cálculo del tamaño muestral. Al tratarse de sujetos sanos, el número de participantes necesario o el periodo de seguimiento necesario para observar el efecto en estudio pueden ser mayores que los correspondientes a otros tipos de ensayos clínicos. Pero esa es otra historia…