Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEstudios observacionales
image_pdf

Aunque la mona se vista de seda…

…mona se queda. Y se queda. Por mucho que lo intente, seguirá siendo una mona. Y esto es así porque las características de cada uno o sus defectos naturales no pueden evitarse simplemente porque hagamos mejoras externas. Pero, eso sí, será una mona mucho más elegante.

En el mundo de los estudios en epidemiología y biomedicina hay un tipo de diseño que no necesita vestirse de seda. Por supuesto, me estoy refiriendo al rey de reyes, al ensayo clínico aleatorizado, el ECA, para abreviar.

El vestido de seda de los ECA es la aleatorización, que no es más que la asignación no predecible de los participantes en el ensayo a una de las alternativas de intervención, dando baza al azar de forma que no podamos saber a qué grupo va a ser asignado cada participante. Así, se consigue que las características de los participantes que puedan actuar como factores de confusión o modificadores de efecto se repartan por igual entre los dos grupos de la intervención, de forma que si hay diferencias podamos afirmar que se deben a la intervención en estudio, la única diferencia entre los dos grupos.

Por otro lado, los estudios observacionales carecen de aleatorización, por lo que nunca podemos estar seguros de que las diferencias observadas se deban a variables de confusión que son, incluso, desconocidas para el investigador. Así, con los estudios de cohortes y de casos y controles no se pueden afirmar relaciones de causalidad de la forma que pueden establecerse con los resultados del ECA.

Para evitar esto se han inventado múltiples estrategias, como la estratificación o el análisis mediante regresión logística, que permiten estimar el efecto de cada variable sobre el resultado de la intervención en cada grupo. Uno de estos métodos es el que vamos a tratar aquí y es el de los índices de propensión, los propensity score de nuestros amigos angloparlantes.

Vamos a ver si con un ejemplo podemos entenderlo. Supongamos que queremos comparar la duración del ingreso de niños con fildulastrosis según el tratamiento que reciban. Seguimos suponiendo que esta terrible enfermedad se puede tratar con pastillas o con supositorios, eligiendo cualquiera de los dos a criterio del médico que atiende al enfermo en el momento del ingreso. Hacemos un estudio retrospectivo de las dos cohortes y encontramos que los que reciben supositorio están ingresados cinco días más de media que los que reciben tratamiento oral. ¿Podemos concluir que la resolución es más rápida dando pastillas que supositorios?. Pues si así lo hacemos correremos el riesgo de equivocarnos, porque puede haber otros factores que no estamos teniendo en cuenta, además del tratamiento recibido.

Si se tratase de un ensayo, cualquier participante tendría la misma probabilidad de recibir cualquiera de los dos tratamientos, así que podríamos hacer una interpretación directa del resultado. Sin embargo, estamos ante un estudio de cohortes, observacional, y el riesgo de recibir pastillas o supositorios puede haber dependido de otros factores. Pensad, por ejemplo, que un médico puede mandar los supositorios a los niños más pequeños, que tragan peor las pastillas, mientras que otro no tendría en cuenta este factor y le daría pastillas a todos, porque le gustan más. Si la edad tiene algo que ver con la duración del ingreso, estaremos mezclando el efecto del tratamiento con el de la edad del niño, comparando los supositorios de uno (niños más pequeños) con las pastillas de otro (no diferencia de edad). Con esto pensad una cosa: si la probabilidad de recibir uno u otro tratamiento varía en cada participante, ¿cómo vamos a compararlos sin tener en cuenta esta probabilidad?. Habrá que comparar aquellos que tengan una probabilidad similar.

Pues bien, aquí es donde entran en juego los índices de propensión (IP), que estiman la probabilidad de cada participante de recibir un tratamiento basándose en sus características.

Los IP se calculan mediante un modelo de regresión logística con la intervención como resultado y las covariables como predictores. Así, se obtiene una ecuación con cada una de las variables que hayamos metido en el modelo porque pensemos que puedan actuar como factores de confusión. Por ejemplo, la probabilidad de recibir el tratamiento A sería igual a:

P(A) = β0 + β1a + β2b + β3c +….+ βnn,

Donde P(A) es la probabilidad de recibir A (en realidad, el modelo proporciona el logaritmo natural de la odds ratio), los betas son los coeficientes y a,b,c,…,n representan las variables del modelo.

Si sustituimos las letras de “a” a “n” por las características de cada participante, obtenemos una puntuación, que es su IP. Y ahora ya podemos comparar entre sí los participantes de las dos ramas de tratamiento que tengan una puntuación similar.

Esta comparación puede hacerse de varias formas, siendo las más sencillas el emparejamiento y la estratificación.

indices de propensionMediante estratificación se dividen los participantes en grupos con un intervalo de puntuación y se comparan los grupos entre sí para determinar el efecto de la intervención. Mediante emparejamiento, se compara cada participante de uno de los grupos con otro que tenga una puntuación igual o, en caso de que no exista, similar (lo que se conoce como el vecino más próximo). En la figura podéis ver un ejemplo de emparejamiento con el vecino más próximo de algunos de los participantes de nuestro estudio ficticio.

Y esto son los IP. Una argucia para poder comparar los participantes intentando evitar el efecto de las variables de confusión y parecerse a los ECA, convirtiéndose en casi estudios cuasiexperimentales. Pero ya lo hemos dicho, aunque la mona se vista de seda, mona se queda. Por muchas variables que metamos en el modelo de regresión para calcular los IP, nunca estaremos seguros de haber metido todas, ya que puede haber variables confusoras que desconozcamos. Por eso siempre es conveniente comprobar las conclusiones de un estudio observacional con el ECA correspondiente.

Y aquí lo dejamos por hoy, aunque los IP dan para mucho más. Por ejemplo, hemos hablado solo de emparejamiento y estratificación, aunque hay más métodos, más complejos y menos utilizados en medicina, como son el ajuste de covariables por IP o la ponderación por el inverso de la probabilidad de recibir la intervención. Pero esa es otra historia…

No es lo que parece

Espero, por vuestro bien, que nunca os hayáis tenido que ver en la situación de pronunciar esta frase. Y espero, también por vuestro bien, que si habéis tenido que pronunciarla en alguna ocasión no se viese precedida por la palabra “cariño”. ¿O sí?. Dejémoslo a la conciencia de cada cual.

Lo que sí es cierto es que esta frase debemos planteárnosla en forma de pregunta en una situación mucho menos escabrosa: al contemplar los resultados de un estudio transversal. Obvia decir, claro está, que, en estos casos, el cariño no es imprescindible.

Los estudios descriptivos transversales son un tipo de estudio observacional en los que se extrae una muestra representativa de la población que queremos estudiar y se mide la frecuencia de la enfermedad o el efecto que nos interese en los individuos de la muestra. Cuando medimos más de una variable, estos estudios se denominan de asociación cruzada, ya que nos permiten averiguar si las variables medidas guardan algún tipo de asociación.

Pero estos estudios tienen dos características que debemos tener siempre en cuenta. Primero, son estudios de prevalencia que miden la frecuencia en un momento concreto, por lo que el resultado puede variar en función del momento elegido para medir la variable. Segundo, como la medición se realiza de forma simultánea, resulta difícil establecer una relación causa-efecto, algo que a todos nos encanta hacer. Pero es algo que debemos evitar hacer porque, con este tipo de estudios, las cosas no son siempre lo que parecen. O, mejor dicho, las cosas pueden ser bastantes más cosas de lo que parecen.

¿De qué hablamos?. Veamos un ejemplo. Estoy un poco aburrido de ir al gimnasio, porque me canso cada vez más y mi estado físico… bueno, dejémoslo simplemente en que me canso, así que quiero estudiar si realmente el esfuerzo puede recompensarme con un mejor control de mi transversalpeso corporal. De esta manera, hago una encuesta y obtengo los datos de 1477 individuos de mi edad referentes a sí van a un gimnasio (sí o no) y sin tienen un índice de masa corporal superior a 25 (sí o no). Si os fijáis en los resultados de la tabla podéis comprobar que la prevalencia de sobrepeso-obesidad entre los que van al gimnasio (50/751, alrededor de un 7%) es mayor que entre los que no van (21/726, alrededor del 3%). ¡Horror!, pienso, no solo me canso, sino que los que van al gimnasio tienen el doble de probabilidades de ser obesos. Conclusión: mañana mismo me borro.

¿Veis lo fácil que es llegar a una conclusión absurda (más bien estúpida, en este caso)?. Pero los datos están ahí, así que habrá que buscar una explicación para entender por qué nos indican algo que va en contra de nuestro sentido común. Y hay varias explicaciones posibles para interpretar estos resultados.

La primera, que realmente ir al gimnasio favorezca que uno engorde. Parece poco probable, pero nunca se sabe… Imaginemos que el entrenamiento motiva que los deportistas coman como fieras durante las seis horas siguientes a la sesión deportiva.

La segunda, que los obesos que van al gimnasio vivan más años que los que no. Pensemos que el ejercicio prevenga la muerte por enfermedad cardiovascular en pacientes obesos. Explicaría por qué hay más obesos (en proporción) en el gimnasio que fuera de él: simplemente se morirían menos que los que no van. Al fin y al cabo estamos tratando con un estudio de prevalencia, por lo que vemos el resultado final en el momento de la medición.

La tercera posibilidad es que la enfermedad pueda influir en la frecuencia de la exposición, lo que se conoce como causalidad inversa. En nuestro ejemplo, podría haber más obesos en el gimnasio porque una de las recomendaciones de tratamiento que se les diese a los obesos fuese esa: apuntarse a un gimnasio. Esta ya no suena tan ridícula como la primera.

Pero todavía hay más posibles explicaciones. Hasta ahora hemos tratado de explicar una asociación entre las dos variables que hemos asumido como real. Pero, ¿y si la asociación no es real?. ¿Cómo podemos obtener una asociación falsa entre las dos variables?. De nuevo, tenemos tres explicaciones posibles.

La primera, nuestro viejo conocido: el azar. Algunos me diréis que podemos calcular la significación estadística o los intervalos de confianza pero, ¿y qué?. Aún en el caso de significación estadística, lo que quiere decir es que no podemos descartar que haya sido el azar con un cierto grado de incertidumbre. Incluso con p<0,05, siempre habrá una probabilidad de que cometamos un error de tipo 1 y descartemos erróneamente el efecto del azar. Podemos medir el azar, pero nunca librarnos de él.

La segunda es que hayamos cometido algún tipo de sesgo que invalide nuestros resultados. A veces, las características de la enfermedad pueden hacer que la probabilidad de elegir a sujetos expuestos y no expuestos no sea la misma, produciéndose un sesgo de selección. Imaginemos que en lugar de una encuesta (telefónica, por ejemplo) hemos usado un registro médico. Puede ocurrir que los obesos que van al gimnasio sean más responsables con el cuidado de su salud y vayan más al médico que los otros, con lo que será más probable que incluyamos obesos deportistas en el estudio, haciendo una estimación al alza de la proporción real. Otras veces el factor de estudio puede ser algo mal visto o estigmatizante desde el punto de vista social, así que los que lo padezcan no tendrán las mismas ganas de participar en el estudio (y reconocer el padecimiento) que los que no, así que su frecuencia se subestimará.

En nuestro ejemplo, podría ocurrir que los obesos que no van al gimnasio respondiesen a la encuesta mintiendo sobre su peso verdadero, con lo cual se clasificarían erróneamente. Este sesgo de clasificación puede ocurrir aleatoriamente en los dos grupos de expuestos y no expuestos, con lo que cual tiende a favorecer la falta de asociación (la hipótesis nula), de tal forma que se subestima la asociación, si es que ésta existe. El problema es cuando este error es sistemático en uno de los dos grupos, ya que esto puede tanto subestimar como infraestimar la asociación entre exposición y enfermedad.

Y, por fin, la tercera posibilidad es que exista una variable confusora que se distribuya de manera diferente entre expuestos y no expuestos. Se me ocurre pensar que los que van al gimnasio son más jóvenes que los que no. Es posible que los obesos más jóvenes tengan más tendencia a ir al gimnasio. Si estratificamos los resultados por la variable confusora, la edad, podemos determinar su influencia en la asociación.

Para terminar, solo me queda pedir disculpas a todos los obesos del mundo por utilizarlos como ejemplo pero es que, por una vez, quería dejar tranquilos a los fumadores.

Como veis, las cosas no son siempre lo que parecen a primera vista, por lo que hay que interpretar los resultados con sentido común y a la luz de los conocimientos existentes, evitando caer en la trampa de establecer relaciones causales a partir de asociaciones detectadas mediante estudios observacionales. Para establecer relaciones de causa y efecto son siempre necesarios estudios experimentales, el paradigma de los cuales es el ensayo clínico. Pero esa es otra historia…

Una de romanos

¡Qué tíos esos romanos!. Iban, veían y vencían. Con esas legiones, cada una con sus diez cohortes, cada cohorte con sus casi quinientos romanos con su falda y sus sandalias de correas. Las cohortes eran grupos de soldados que estaban al alcance de la arenga de un mismo jefe y siempre avanzaban, nunca retrocedían. Así se puede conquistar la Galia (aunque no en su totalidad, como es bien sabido).

En epidemiología, una cohorte es también un grupo de personas que comparten algo, pero en lugar de ser la arenga de su jefe es la exposición a un factor que se estudia a lo largo del tiempo (tampoco son imprescindibles ni la falda ni las sandalias). Así, un estudio de cohortes es un tipo de diseño observacional, analítico y longitudinal que compara la frecuencia con la que ocurre un determinado efecto (generalmente una enfermedad) en dos grupos diferentes (las cohortes), uno de ellos expuesto a un factor y otro no expuesto al mismo factor. Ambas cohortes se estudian a lo largo del tiempo, por lo que la mayor parte de los estudios de cohortes son prospectivos (van hacia delante, como las cohortes romanas). Sin embargo, es posible hacer estudios de cohortes retrospectivos una vez ocurridos tanto la exposición como el efecto, identificándose los dos grupos en un momento atrás en el tiempo lo suficientemente alejado como para permitir que el efecto se haya desarrollado.

Como curiosidad, también podemos hacer un estudio con una sola cohorte si queremos estudiar la incidencia o la evolución de una determinada enfermedad, pero en realidad este tipo de diseños se engloba en los estudios descriptivos longitudinales.

Al realizarse un seguimiento a lo largo del tiempo, los estudios de cohortes permiten calcular la incidencia del efecto entre expuestos y no expuestos, calculando a partir de ellas una serie de medidas de asociación y de medidas de impacto características.

La medida de asociación es el riesgo relativo (RR), que es la proporción entre la incidencia de expuestos (Ie) y no expuestos (I0): RR = Ie/I0. Esta medida nos permite estimar la fuerza de la asociación entre la exposición al factor y el efecto, pero no nos informa sobre el impacto potencial que tiene la exposición sobre la salud de la población. Para esto debemos recurrir a las medidas de impacto, fundamentalmente la diferencia de incidencias (DI) y la proporción atribuible al factor en el grupo expuesto (PAE) o en la población (PAP).

La DI sería, como su nombre indica, la diferencia entre la incidencia de expuestos y no expuestos (Ie-I0). Esta medida, que es el equivalente a la reducción absoluta del riesgo de los ensayos clínicos, nos cuantifica la diferencia de incidencia que puede atribuirse al factor estudiado. Aunque puede sonar parecido al RR, en realidad son dos medidas bien diferentes. Veámoslo con un ejemplo. Supongamos dos estudios E1 y E2. Aunque el RR es igual a 3 en los dos estudios, la DI en E1 es del 40% mientras que en E2 es del 2%, con lo que el exceso de riesgo en los expuestos es mucho mayor en el primer estudio que en el segundo, a pesar de que los RR sean iguales en ambos. Digamos que el RR es más informativo para determinar posibles causas de un efecto, mientras que la DI, que depende también de la incidencia, es más útil desde el punto de vista epidemiológico para calcular los efectos sobre grupos de población.

La PAE es la DI respecto al grupo de expuestos y nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. Esta medida puede calcularse también a partir del RR entre expuestos y no expuestos.

Por su parte, la PAP nos da una idea del efecto que se produciría en la población (cuánto disminuiría la enfermedad) si pudiésemos eliminar totalmente la exposición al factor estudiado.

Como vemos, pues, los estudios de cohortes son muy útiles para calcular la asociación y el impacto entre efecto y exposición pero, cuidado, no sirven para establecer relaciones causales. Para eso son necesarios otros tipos de estudios.

El problema con los estudios de cohortes es que son difíciles (y costosos) de realizar de forma adecuada, suelen requerir muestran grandes y, a veces, periodos de seguimiento prolongados (con el consiguiente riesgo de pérdidas). Además, son poco útiles para enfermedades raras. Y no debemos olvidar que no nos permiten establecer relaciones de causalidad con la seguridad suficiente, aunque para ello sean mejores que sus primos los estudios de casos y controles, pero esa es otra historia…