Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasSesgo de información

King Kong contra Godzilla

¡Vaya lío que forman estos dos elementos cuando los dejan sueltos y se juntan! En esta historia, casi tan vieja como yo (por favor, no corráis a mirar en qué año se hizo la película) el pobre King Kong, que debió viajar más que Tarzán, sale de su Isla Calavera para defender un pueblo de un malvado pulpo gigante y se bebe una pócima que lo deja profundamente dormido. Esto lo aprovechan unos señores japoneses para llevarle a su país. Yo, que he estado en Japón, puedo imaginar el efecto que le hizo al pobre mono cuando se despertó, así que no tuvo más remedio que escaparse, con la mala fortuna de encontrarse a Godzilla, que también se había escapado de un iceberg donde previamente le habían congelado. Y ahí que se lían, piedras para acá, rayos atómicos para allá, hasta que la cosa se descontrola y finalmente King Kong se va a atacar Tokio, no me acuerdo exactamente por qué motivo. Os juro que no me he tomado ningún alucinógeno, la película es así y no voy a revelar más por no estropearos el final en el increíble caso de que queráis verla después de lo que os cuento. Lo que no sé es que se habrían tomado los guionistas antes de planear esta historia.

A estas alturas estaréis pensando de qué puede ir la entrada de hoy que esté relacionada con esta historia. Pues la verdad es que no tiene nada que ver con lo que vamos a hablar, pero no se me ocurría mejor forma de empezar. Bueno, en realidad quizás sí, porque hoy vamos a hablar de una familia de monstruos dentro de los estudios epidemiológicos: los estudios ecológicos. Es curioso que cuando uno lee algo sobre los estudios ecológicos siempre empieza diciendo que son sencillos. Pues a mí no me lo parecen. La verdad es que tienen mucha miga y vamos a intentar contarlos de forma sencilla. Agradezco de paso a mi amigo Eduardo (a quien dedico esta entrada) el esfuerzo que hizo por describirlos de forma inteligible. Gracias a él pude entenderlos. Bueno… un poco.

Los estudios ecológicos son estudios observacionales que tienen la peculiaridad de que la población de estudio no son sujetos individuales, sino sujetos agrupados (en conglomerados), por lo que el nivel de inferencia de sus estimaciones es también agregado. Suelen ser baratos y rápidos de realizar (supongo que de ahí vendrá lo de su sencillez), ya que suelen utilizar datos de fuentes secundarias ya disponibles, y son de gran utilidad cuando no es posible medir la exposición a nivel individual o cuando la medida de efecto solo se puede medir a nivel poblacional (como los resultados de una campaña vacunal, por ejemplo).

El problema viene cuando queremos hacer inferencia a nivel individual a partir de sus resultados, ya que están sujetos a una serie de sesgos que luego comentaremos. Además, como suelen ser con mayor frecuencia estudios descriptivos de temporalidad histórica, puede ser difícil determinar la gradación temporal entre la exposición y el efecto estudiado.

Vamos a ver las características específicas en relación a tres aspectos de su metodología: tipos de variables y análisis, tipos de estudios y sesgos.

Las variables ecológicas se clasifican en variables agregadas y ambientales (también llamadas globales). Las agregadas muestran un resumen de observaciones individuales. Suelen ser medias o proporciones, como la edad media en la que se ve la primera película de King Kong o la tasa de frikis por cada 1000 asistentes a las salas de cine, por citar dos ejemplos absurdos.

Por su parte, las medidas ambientales son características de un lugar determinado. Estas pueden tener un paralelismo a nivel individual (por ejemplo, los niveles de polución ambiental, relacionados con la mierda que traga cada uno) o ser atributos de grupos sin equivalencia a nivel individual (como la calidad del agua, por decir alguna).

En cuanto al análisis, puede hacerse a nivel agregado, usando datos de grupos de participantes, o a nivel individual, pero mejor sin mezclar los dos tipos. Es más, si se recogen datos de los dos tipos lo más conveniente será transformarlos en un solo nivel, siendo lo más sencillo agregar los datos individuales, aunque también se puede hacer al revés e, incluso, hacer un análisis en los dos niveles con técnicas estadísticas de multinivel jerarquizado, solo al alcance de unas pocas mentes privilegiadas.

Como es lógico, el nivel de inferencia que queramos aplicar dependerá de cuál sea nuestro objetivo. Si queremos estudiar los efectos de un factor de riesgo a nivel individual, la inferencia será individual. Un ejemplo sería estudiar relacionar el número de horas que se ve la televisión con la incidencia de cáncer de cerebro. Por otra parte, y siguiendo un ejemplo muy pediátrico, si queremos conocer la efectividad de una vacuna las inferencias se harán de forma agregada a partir de los datos de cobertura vacunal en la población. Y para acabar de rizar el rizo, podemos medir un factor de exposición de las dos formas, individual y agrupada. Por ejemplo, densidad de restaurantes mexicanos en una población y frecuencia de uso de antiácidos. En este caso haríamos una inferencia contextual.

En cuanto al tipo de estudios ecológicos, los podemos clasificar según el método de exposición y el método de agrupación.

Según el método de exposición la cosa es relativamente sencilla y podemos encontrarnos dos tipos de estudios. Si no medimos la variable de exposición, o lo hacemos parcialmente, hablamos de estudios exploratorios. En el caso contrario, nos encontraremos ante un estudio analítico.

Según el método de agrupación, podemos considerar tres tipos: múltiples (cuando se seleccionan varias zonas), de tendencia temporal (existe medición a lo largo del tiempo) y mixtos (combinación de los dos).

La complejidad empieza cuando se combinan las dos dimensiones (exposición y agrupación), ya que entonces nos podemos encontrar ante una serie de diseños más complejos. Así, los estudios de grupos múltiples pueden ser exploratorios (no se mide el factor de exposición, pero sí el efecto) o analíticos (el más frecuente, aquí medimos ambas cosas). Los estudios de tendencia temporal, para no ser menos, pueden también ser exploratorios y analíticos, de forma similar a los anteriores, pero a lo largo del tiempo. Por último, habrá estudios mixtos que comparen las tendencias temporales de varias áreas geográficas. Sencillo, ¿verdad?

Pues esto no es nada comparado con la complejidad de las técnicas estadísticas empleadas en estos estudios. Hasta hace poco los análisis eran muy sencillos y se basaban en medidas de asociación o de correlación lineal, pero en los últimos tiempos hemos asistido al desarrollo de numerosas técnicas basadas en modelos de regresión y cosas más exóticas como los modelos multiplicativos log-lineales o la regresión de Poisson. El mérito de todos estos estudios es que, a partir de las medidas agrupadas, nos permiten conocer cuántos sujetos expuestos o no expuestos presentan el efecto, permitiendo así el cálculo de tasas, fracciones atribuibles, etc. No temáis, no vamos a entrar en detalle, pero hay bibliografía para aquellos que quieran calentarse la cabeza.

Para terminar con los aspectos metodológicos de los estudios ecológicos, vamos a enumerar algunos de sus sesgos más característicos, favorecidos por el hecho de utilizar unidades de análisis agregadas.

El más famoso de todos es el sesgo ecológico, conocido también como falacia ecológica. Este se produce cuando la medida agrupada no mide el efecto biológico a nivel individual, de tal forma que la inferencia individual realizada es errónea. Este sesgo se hizo famoso con el estudio del New England que concluía que había una relación entre el consumo de chocolate y los premios Nobel pero el problema es que, fuera de la gracia de este ejemplo, la falacia ecológica es la principal limitación de este tipo de estudios.

El otro sesgo que tiene algunas peculiaridades en este tipo de estudios es el sesgo de confusión. En los estudios que tratan con unidades individuales se produce confusión cuando la variable de exposición se relaciona con el efecto y con la exposición, sin formar parte de la relación causal entre ambos. Este ménage à trois es un poco más complejo en los estudios ecológicos. El factor de riesgo puede comportarse de forma similar a nivel ecológico, pero no a nivel individual y al revés, es posible que factores de confusión a nivel individual no produzcan confusión a nivel de agregado. En cualquier caso, al igual que en el resto de los estudios, hay que tratar de controlar los factores de confusión, para lo cual hay dos abordajes fundamentales.

El primero, meter las posibles variables de confusión en el modelo matemático como covariables y realizar un análisis multivariante, con lo que nos va a ser más complicado estudiar el efecto. El segundo, ajustar o estandarizar las tasas de producción del efecto por las variables de confusión y realizar el modelo de regresión con las tasas ajustadas. Para poder hacer esto es imprescindible que todas las variables introducidas en el modelo se ajusten también a la misma variable de confusión y que se conozcan las covarianzas de las variables, lo cual no ocurre siempre. En cualquier caso, y no es por desanimar, muchas veces no podemos estar seguros de que se hayan controlado de forma adecuada los factores de confusión, ni siquiera empleando las técnicas más recientes y sofisticadas de análisis multinivel, ya que el origen puede estar en características no conocidas de la distribución de los datos entre los grupos.

Otros aspectos truculentos de los estudios ecológicos son el sesgo de ambigüedad temporal (ya lo hemos comentado, muchas veces es difícil asegurar que la exposición preceda al efecto) y la colinealidad (dificultad para asegurar los efectos de dos o más exposiciones que pueden ocurrir de forma simultánea). Además, aunque no son específicos de los estudios ecológicos, son muy susceptibles de presentar sesgos de información.

Ya veis que tenía razón al principio cuando os decía que los estudios ecológicos me parecen muchas cosas, pero de sencillos nada. De todas formas, es conveniente entender en qué se basa su metodología porque, con el desarrollo de las nuevas técnicas de análisis, han ganado en potencia y prestigio y es más que posible que nos encontremos con ellos cada vez con mayor frecuencia.

Pero no desesperéis, lo importante para nosotros, consumidores de bibliografía médica, es entender cómo funcionan para poder hacer una lectura crítica de los trabajos cuando nos encontremos antes ellos. Aunque, hasta donde yo sé, no existen listas de verificación tan estructurada como las que tiene CASPe para otros diseños, la lectura crítica la haremos siguiendo el esquema general habitual según nuestros tres pilares: validez, importancia y aplicabilidad.

El estudio de la VALIDEZ lo haremos de forma similar al de otros tipos de estudios observacionales transversales. Lo primero será comprobar que existe una definición clara de la población y de la exposición o efecto en estudio. Tendrán que estar claramente especificadas las unidades de análisis y su nivel de agregación, así como los métodos de medición del efecto y de la exposición, esta última, como ya sabemos, solo en los estudios analíticos.

La muestra del estudio deberá ser representativa, para lo cual tendremos que revisar los procedimientos de selección, los criterios de inclusión y exclusión y el tamaño. Estos datos tendrán también influencia en la validez externa de los resultados.

Como en cualquier estudio observacional, la medición de exposición y efecto debería hacerse de forma ciega e independiente, utilizando para ello instrumentos válidos. Los autores deberán presentar los datos de forma completa, teniendo en cuenta si hay valores perdidos o fuera de rango. Por último, debe haber un análisis correcto de los resultados, con un control de los sesgos típicos de estos estudios: ecológico, de información, de confusión, de ambigüedad temporal y colinealidad.

En el apartado de IMPORTANCIA podremos empezar por una valoración cuantitativa, resumiendo el resultado más importante y repasando la magnitud del efecto. Debemos buscar o calcular nosotros mismo, si es posible, las medidas de impacto más apropiadas: diferencias de tasas de incidencia, fracción atribuible en expuestos, etc. Si los autores no ofrecen estos datos, pero sí proporcionan el modelo de regresión, es posible calcular las medidas de impacto a partir de los coeficientes de multiplicación de las variables independientes del modelo. No os voy a poner aquí la lista de fórmulas por no hacer esta entrada todavía más antipática, pero que sepáis que existen por si un día las necesitáis.

A continuación realizaremos una valoración cualitativa de los resultados, tratando de valorar el interés clínico de la medida de resultado principal, el interés del tamaño del efecto  y el impacto que puede tener para el paciente, el sistema o la Sociedad.

Finalizaremos este apartado con una valoración comparativa (buscando estudios similares y comparando la medida principal de resultado y otras medidas alternativas) y una valoración de la relación entre beneficios, riesgos y costes, como haríamos con cualquier otro tipo de estudio.

Finalmente, consideraremos la APLICABILIDAD de los resultados en la práctica clínica, teniendo en cuenta aspectos como los efectos adversos, el coste económico, etc. Ya sabemos que el hecho de que el estudio esté bien realizado no quiere decir que tengamos que aplicarlo obligadamente en nuestro entorno.

Y aquí vamos a dejarlo por hoy. Cuando leáis o hagáis un estudio ecológico, tened cuidado de no caer en la tentación de sacar conclusiones de causalidad. Al margen de las trampas que os pueda tender la falacia ecológica, los estudios ecológicos son observacionales, así que pueden servir para generar hipótesis de causalidad, pero no para confirmarlas.

Y ahora sí que nos vamos. No os dije quién ganó la pelea entre King Kong y Godzilla para no hacer de spoiler, pero seguro que los más atentos ya lo habréis imaginado. Al fin y al cabo, y para su desgracia, solo uno de los dos viajó después a Nuera York. Pero esa es otra historia…

Errar es humano

Errar es humano, perdonar es divino. Eso dicen pero, ¿qué significa?. Si uno lee la frase puede entender que cometer errores forma parte de la naturaleza humana. Y quizás tenga algo de cierto, porque rara es la vez que los llamados seres humanos hacemos algo que no esté plagado de errores, aunque pongamos todo nuestro cuidado en no cometer ninguno.

En cuanto a lo de perdonar, también es cierto que es una cualidad más divina que humana. Aunque hay algunos errores que no merecen perdón, ni humano ni divino.

Pero centrémonos en nuestro tema: los errores de los estudios científicos. Porque existen dos tipos de errores que son comunes a cualquier tipo de estudio: los errores aleatorios y los errores sistemáticos.

Los errores aleatorios, como su nombre indica, se deben al azar. Habitualmente cuando queremos estudiar una variable en una población tenemos que contentarnos con una muestra seleccionada a partir de esa población. Pues bien, el muestreo aleatorio siempre encierra cierta probabilidad de que la muestra no sea representativa de la población de la que proviene. Esta probabilidad de error será mayor cuanto menor sea el tamaño de la muestra y cuanto mayor sea la variabilidad de la característica que estemos estudiando dentro de la población.

Otra causa de error aleatorio es la propia variabilidad de las mediciones que hagamos, ya sea por la propia variabilidad biológica, por el instrumento que utilicemos para medir o por la subjetividad o variabilidad del observador. Por ejemplo, pensemos que vamos a estudiar la prevalencia de enfermedad tuberculosa en nuestra muestra mediante el estudio de la reacción cutánea a la tuberculina y el día que vamos a medir se nos rompen las gafas. Cualquier parecido con la realidad será mera coincidencia.

El otro tipo de errores son los sistemáticos, también llamados sesgos, que habitualmente conducen a una estimación incorrecta del efecto que estamos estudiando. Estos no se deben al azar, sino a algún error en el diseño del estudio, ya sea relacionado con los participantes (sesgo de selección) o con la medición de la variable (sesgo de información).

El sesgo de selección se produce típicamente cuando elegimos una muestra no representativa de la población. Pensemos que queremos saber la prevalencia de una enfermedad y tomamos una muestra de los pacientes que acuden al consultorio. Lógicamente, el resultado estará sesgado y sobrevalorará la presencia de la enfermedad en la población.

Pero el sesgo de selección puede producirse también en otras situaciones. Por ejemplo, si escogemos un grupo control con una enfermedad relacionada con la de estudio, nuestro resultado será incorrecto. También puede ocurrir cuando la probabilidad de que los sujetos abandonen el estudio no sea igual en los dos grupos. Por ejemplo, supongamos que estamos estudiando dos intervenciones y en ambos grupos se pierde el mismo porcentaje, pero en uno tienden a perderse los que responden y en el otro los que no responden. Aunque el porcentaje de respuesta sea el mismo, en realidad la intervención más eficaz es aquélla en la que se pierden más lo que responden que los que no. Algo parecido ocurre en las encuestas con los que no contestan. Si preguntamos algo que esté mal visto socialmente, siempre subestimaremos el resultado real.

Por su parte, el sesgo de información se produce cuando, de forma sistemática, medimos de forma errónea o diferente en los dos grupos. En general, suele producirse por utilizar pruebas con poca sensibilidad o especificidad, por tener criterios diagnósticos erróneos o por cometer imprecisiones o errores en la recogida de los datos.

Pensemos que estudiamos el peso en un tipo de enfermos y la báscula está mal calibrada. O que estudiamos la talla y a un grupo le tallamos descalzo y al otro con zapatos.

Hay un par de diferencias entre los dos tipos de errores, aleatorio y sistemático. Como ya hemos dicho, el error aleatorio depende del tamaño muestral, por lo que tiende a ser menor al aumentar el tamaño de la muestra. Sin embargo, esto no ocurre con los errores sistemáticos, que se perpetúan por más que aumentemos el tamaño muestral.

Por otra parte, los errores aleatorios pueden controlarse con relativa facilidad, si no son muy grandes, durante la fase de análisis de los datos, mientras que los sistemáticos son mucho más difíciles de corregir al analizar los resultados. Por eso hay que ser muy cuidadoso durante la fase de diseño e intentar evitarlos.

Y con esto terminamos por hoy. Que sepáis que la familia de los sesgos es muy numerosa. Aunque todos pueden incluirse en alguno de los que hemos mencionado, hay muchos más tipos de sesgos descritos, muchos de ellos específicos de determinado tipo de diseño de estudio. Pero esa es otra historia…