Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasRiesgo relativo
image_pdf

La trampa de la ratio

El mundo de la ciencia está lleno de trampas. Las hay por cualquier parte. No se libran ni tan siquiera las grandes revistas médicas ni los autores más prestigiosos. Muchos de ellos tienden a aprovecharse de nuestra ignorancia utilizando los indicadores de medida que más interesan para mostrar los resultados que se buscan. Por este motivo, tenemos que estar muy alerta siempre y fijarnos en los datos de los estudios para llegar a nuestra propia interpretación.

Desgraciadamente, no podemos evitar que se manipulen los resultados o la forma de presentarlos, pero sí que podemos pelear contra nuestra ignorancia y hacer siempre lectura crítica de los trabajos científicos.

Un ejemplo de lo que estoy hablando es la elección entre riesgos relativos y odds ratios.

Ya sabéis la diferencia entre riesgo y odds. El riesgo es una proporción entre los sujetos que presentan un evento y el total de sujetos susceptibles. Así, podemos calcular el riesgo de sufrir un infarto entre los que fuman (fumadores infartados dividido por el total de fumadores de la muestra) y entre los que no fuman (lo mismo, pero con no fumadores). Si vamos un paso más allá, podemos calcular la razón de los dos riesgos, llamada riesgo relativo (RR) o razón de riesgos, que nos indica cuánto más probable es que se produzca un evento en un grupo respecto al otro.

Por su parte, el concepto de odds es un poco diferente. La odds nos indica cuánto más probable es que se produzca un suceso frente a que no se produzca (p/(1-p)). Por ejemplo, la odds de sufrir un infarto en fumadores se calcularía dividiendo la probabilidad de infarto en fumadores (fumadores infartados dividido por el total de fumadores de la muestra, exactamente igual que el riesgo) por la probabilidad de no sufrir infarto (fumadores no infartados dividido por el total de fumadores de la muestra o, lo que es igual, uno menos la odds de padecerlo). Al igual que hacíamos con los riesgos, podemos calcular la razón de las odds de los dos grupos y obtener la odds ratio (OR), que nos da una idea de cuánto más probable es que se produzca el evento es un grupo que en el otro.

Como veis, son conceptos parecidos, pero diferentes. En ambos casos el valor nulo es uno. Un valor mayor que uno indica que los sujetos del numerador tienen más riesgo y un valor menor que uno, que tienen menos riesgo. Así, un RR de 2,5 querría decir que el grupo del numerador tiene una probabilidad un 150% mayor de presentar el evento que estemos midiendo. Una OR de 2,5 quiere decir que es una vez y media más probable que ocurra a que no ocurra el suceso en el grupo del numerador.

Por otra parte, un RR de 0,4 indica una reducción de la probabilidad de ocurrir del 60% en el grupo del numerador. La OR de 0,4 es más compleja de interpretar, pero viene a decir más o menos lo mismo.

¿Cuál de las dos debemos utilizar?. Depende del tipo de estudio. Para poder calcular el RR tenemos que calcular previamente los riesgos en los dos grupos, y para eso tenemos que conocer la prevalencia o la incidencia acumulada de la enfermedad, por lo que esta medida suele utilizarse en los estudios de cohortes y en los ensayos clínicos.

En los estudios en los que no se conoce la prevalencia de la enfermedad, como es el caso de los estudios de casos y controles, no hay más remedio que usar OR. Pero el uso de OR no se limita a este tipo de estudio. Podemos usarla cuando queramos, en lugar de los RR. Además, un caso particular es cuando se recurre a modelos de regresión logística para ajustar por los diferentes factores de confusión detectados, que proporcionan OR ajustadas.

trampa_OREn cualquier caso, el valor del RR y de la OR es similar cuando la prevalencia del efecto es baja, por debajo de un 10%, aunque la OR siempre es un poco más baja que el RR para valores menores de uno y un poco más alta para valores mayores. ¿Un poco?. Bueno, a veces no tan poco. En la figura tenéis representada, aproximadamente, la relación entre OR y RR. Veis que, a medida que la frecuencia del evento aumenta, la OR crece mucho más rápido que el RR. Y aquí es donde viene la trampa, ya que para un mismo riesgo, el impacto puede parecer mucho mayor si usamos una OR que si usamos un RR. La OR puede ser engañosa cuando el evento es frecuente. Veámoslo con un ejemplo.

Imaginemos que estoy muy preocupado con la obesidad entre los asistentes a una sala de cine y quiero evitar que entren a ver la película con un tanque enorme de una bebida azucarada cuya marca no voy a mencionar. Así que mido cuántos espectadores compran la bebida y veo que son el 95%. Entonces, otro día diferente, coloco un cartel en el bar advirtiendo de lo malo para la salud que es tomar bebidas azucaradas en grandes cantidades y veo con agrado que el porcentaje de los que la compran baja a un 85%.

En este caso, la medida absoluta de efecto sería la diferencia de riesgos, que es solo de un 10%. Algo es algo, pero no parece demasiado, solo consigo concienciar a uno de cada 10. Veamos qué pasa con las medidas de asociación.

El RR se calcularía como el cociente 95/85 = 1,17. Esto indica que si no colocamos el cartel, el riesgo de comprar la bebida es un 17% mayor que si lo ponemos. No parece demasiado, ¿verdad?.

La odds de comprar sería de 95/(1-95) sin cartel y de 85/(1-85) con cartel, luego la OR sería igual a (95/5)/(85/15) = 3,35. Quiere decir que es tres veces más probable comprar sin cartel que con cartel.

Parece claro que el RR da una idea que se corresponde mejor con la medida absoluta (la diferencia de riesgos), pero ahora os pregunto: si mi cuñado tiene una fábrica de carteles, ¿qué medida creéis que emplearía?. Sin duda, os presentaría la OR.

Por este motivo, siempre debemos mirar los resultados para ver si podemos calcular alguna medida absoluta a partir de los datos del estudio. En ocasiones esto no es tan fácil como en nuestro ejemplo, como ocurre cuando nos presentan las OR que salen del modelo de regresión. En estos casos, si conocemos la prevalencia del efecto o enfermedad en estudio, siempre podemos calcular el RR equivalente con la siguiente fórmula:RR= \frac{OR}{(1-Prev)+(Prev\times OR)}Y aquí dejamos las trampas por hoy. Veis como se puede manipular la forma de expresar los resultados para decir lo que uno quiere sin llegar a mentir. Hay más ejemplos de mal uso de medidas de asociación relativas en lugar de absolutas, como el de utilizar la diferencia relativa del riesgo en lugar de la diferencia absoluta. Pero esa es otra historia…

Ni tanto ni tan calvos

¿Os habéis preguntado alguna vez por qué la gente se queda calva, especialmente los varones a determinada edad?. Creo que tiene algo que ver con las hormonas. El caso es que es algo que suele gustar poco al afectado, y eso que hay una creencia popular que dice que los calvos son más inteligentes. A mí me parece que no tiene nada de malo ser calvo (es mucho peor ser gilipollas), claro que yo tengo todo mi pelo en la cabeza.

Siguiendo el hilo de la calvicie, supongamos que queremos saber si el color de pelo tiene algo que ver con quedarse calvo antes o después. Montamos un ensayo absurdo en el que reunimos 50 rubios y 50 morenos para estudiar cuántos se quedan calvos y en qué momento lo hacen.

Este ejemplo nos sirve para ilustrar los diferentes tipos de variables que podemos encontrarnos en un ensayo clínico y los diferentes métodos que debemos utilizar para comparar cada una de ellas.

Algunas variables son de tipo cuantitativo continuo. Por ejemplo, el peso de los participantes, su talla, su sueldo, el número de pelos por centímetro cuadrado, etc. Otras son de tipo cualitativo, como el color de pelo. En nuestro caso lo simplificaríamos a una variable binaria: rubio o moreno. Por último, encontramos variables llamadas de tiempo a evento, que nos muestran el tiempo que tardan los participantes en sufrir el evento en estudio, en nuestro caso, la calvicie.

Pues bien, a la hora de comparar si existen diferencias entre estas variables entre los dos grupos el método que elijamos vendrá determinado por el tipo de variable que estemos considerando.

Si queremos comparar una variable continua como la edad o el peso entre calvos y peludos, o entre rubios y morenos, tendremos que utilizar la prueba de la t de Student, siempre que nuestros datos se ajusten a una distribución normal. En el caso de que no sea así, la prueba no paramétrica que tendríamos que utilizar es la de Mann-Withney.

¿Y qué pasa si queremos comparar varias variables continuas a la vez?. Pues que podremos utilizar la regresión lineal múltiple para hacer las comparaciones entre variables.

En el caso de las variables cualitativas el enfoque es diferente. Para saber si existe dependencia estadísticamente significativa entre dos variables tendremos que construir la tabla de contingencia y recurrir a la prueba de la chi-cuadrado o a la prueba exacta de Fisher, según la naturaleza de los datos. Ante la duda podemos hacer siempre la prueba de Fisher. Aunque implica un cálculo más complejo, esto no es problema para cualquiera de los paquetes estadísticos disponibles hoy en día.

Otra posibilidad es calcular una medida de asociación como el riesgo relativo o la odds ratio con sus correspondientes intervalos de confianza. Si los intervalos no cruzan la línea de efecto nulo (el uno), consideraremos que la asociación es estadísticamente significativa.

Pero puede ocurrir que lo que queramos comparar sean varias variables cualitativas. En estos casos podremos utilizar un modelo de regresión logística.

Por último, vamos a hablar de las variables de tiempo a evento, algo más complicadas de comparar. Si utilizamos una variable como puede ser el tiempo que tardan en quedarse calvos nuestros sujetos podemos construir una curva de supervivencia o de Kaplan-Meier, que nos muestra de forma gráfica que porcentaje de sujetos queda en cada momento sin presentar el evento (o que porcentaje ya lo ha presentado, según como la leamos). Ahora bien, podemos comparar las curvas de supervivencia de rubios y morenos y ver si existen diferencias en la velocidad a la que se quedan calvos los dos grupos. Para esto utilizamos la prueba de los rangos logarítmicos, más conocida por su nombre en inglés: log rank test.

Este método se basa en la comparación entre las dos curvas en base a las diferencias entre los valores observados y los esperados si la supervivencia (la producción del evento en estudio, que no tiene porqué ser muerte) fuese igual en los dos grupos. Con este método podemos obtener un valor de p que nos indica si la diferencia entre las dos curvas de supervivencia es o no estadísticamente significativa, aunque no nos dice nada de la magnitud de la diferencia.

El caso de cálculo más complejo sería el supuesto de que queramos comparar más de dos variables. Para el análisis multivariado hay que servirse de un modelo de regresión de riesgos proporcionales de Cox. Este modelo es más complejo que los anteriores pero, una vez más, los programas informáticos lo llevan a cabo sin la menor dificultad si les introducimos los datos adecuados.

Y vamos a dejar a los calvos tranquilos de una vez. Podríamos hablar más acerca de las variables de tiempo a evento. Las curvas de Kaplan-Meier nos dan una idea de quién va presentando el evento a lo largo del tiempo, pero no nos dicen nada del riesgo de presentarlo en cada momento. Para eso necesitamos otro indicador, que es el cociente de riesgos instantáneos o hazard ratio. Pero esa es otra historia…

La tabla

Existen gran cantidad de tablas. Y tienen un gran papel a lo largo de nuestra vida. Quizás la que primero nos asalta en nuestra más tierna infancia es la tabla de multiplicar. ¿Quién no recuerda con nostalgia, al menos los más mayorcitos, como  repetíamos como loros aquello del dos por uno es dos, dos por… hasta que lo aprendíamos de memoria?. Pero no hicimos más que dominar las múltiples tablas de multiplicar cuando nos topamos con la tabla periódica de los elementos. Otra vez a aprender de memoria, esta vez ayudados de reglas nemotécnicas imposiblemente idiotas sobre Indios que Ganaban Buena Altura y no sé qué.

Pero es con los años cuando llega una de las peores de todas: la tabla de composición de alimentos, con su celda llena de calorías. Esta tabla nos persigue hasta en sueños. Y todo porque comer mucho tiene gran número de inconvenientes, demostrados la mayor parte de ellos gracias a la ayuda de otro tipo de tabla: la tabla de contingencia.

Las tablas de contingencia son usadas muy frecuentemente en Epidemiología para analizar la relación entre dos o más variables. Están formadas por filas y columnas. En las filas se suelen colocar los grupos por nivel de exposición al factor de estudio y en las columnas las diferentes categorías que tienen que ver con el estado de enfermedad o daño que investigamos. Filas y columnas se cruzan para formar celdas donde se representa la frecuencia de esa determinada combinación de variables.

Lo más habitual es que se representen dos variables (nuestra querida tabla 2×2), una dependiente y otra independiente, pero esto no siempre es así. Puede haber más de dos variables y, en ocasiones, puede no existir una dirección de dependencia entre las variables antes de realizar el análisis.

Las tablas 2×2 simples permiten analizar la relación entre dos variables dicotómicas. Según su contenido y el diseño del estudio al que pertenezcan, sus celdas pueden tener significados ligeramente diferentes, lo mismo que ocurre con las medidas que podemos calcular a partir de los datos de la tabla.

contingencia_transversalLas primeras serían las tablas de estudios transversales. En este tipo de estudios se representa una especie de foto fija de nuestra muestra que nos permite estudiar la relación entre las variables. Son, pues, estudios de prevalencia y, aunque los datos se recojan a lo largo de un periodo de tiempo, los resultados representan esa foto fija a la que ya nos hemos referido. En las columnas se coloca la variable dependiente (enfermedad o daño producido) y en las filas la independiente (el grado de exposición), con lo que podemos calcular una serie de medidas de frecuencia, de asociación y de significación estadística.

Las medidas de frecuencia son la prevalencia de enfermedad entre expuestos (EXP) y no expuestos (NEXP) y la prevalencia de exposición entre enfermos (ENF) y no enfermos (NENF). Estas prevalencias representan el número de personas enfermas, sanas, expuestas y no expuestas en relación con el total de cada grupo, por lo que son tasas estimadas en un momento puntual.

Las medidas de asociación son las razones de las prevalencias que acabamos de mencionar según enfermedad y exposición y la odds ratio, que nos dice cuánto más probable es que se produzca la enfermedad respecto a que no se produzca en EXP frente a NEXP. Un valor de estas medidas mayor de uno indica que el factor es de riesgo para que se produzca la enfermedad. Si vale de cero a uno querrá decir que el factor es de protección. Y si vale uno, pues que ni carne ni pescado.

Por último, como en todos los tipos de tablas que vamos a mencionar, se pueden calcular medidas de asociación estadística, fundamentalmente la chi-cuadrado con o sin corrección, la prueba exacta de Fisher y el valor de la p, uni o bilateral.

Muy parecidas a estas que hemos visto son las tablas de los estudios de casos y controles. En estos se trata de ver si diferentes grados de la exposición explican diferentes grados de enfermedad. En la columnas se colocan los casos y los controles y en las filas los EXP y NEXP.

contingencia_casos_controlesLas medidas de frecuencia que podemos calcular son la proporción de casos expuestos (respecto al total de casos) y la proporción de controles expuestos (respecto al total de controles). Lógicamente, podemos calcular también las proporciones de NEXP calculando los complementarios de los anteriores.

La medida de asociación fundamental es la odds ratio, que ya conocemos y en la que no nos vamos a detener mucho. Ya sabéis que, de forma simplificada, podemos calcularla como el cociente de los productos cruzados de la tabla y que nos indica cuánto es más probable contraer la enfermedad en EXP que en NEXP. La otra medida sería la fracción atribuible en los expuestos (FAExp), que nos indica el número de enfermos que son debidos a la acción directa de la exposición.

Podemos, en este tipo de tablas, calcular, además, una medida de impacto: la fracción atribuible en la población (FAPob), que sería el impacto potencial que tendría sobre la población el eliminar el factor de exposición. Si es un factor de riesgo sería un impacto positivo y, a la inversa, si es protector, negativo.

Comentar que las medidas de significación estadística dependerán de que los datos sean pareados (utilizaremos la prueba de McNemar) o no pareados (chi-cuadrado, prueba exacta de Fisher y valor de p).

contingencia_cohortes_acumulada

El tercer tipo de tablas de contingencia es el que corresponde a los estudios de cohortes, aunque la estructura difiere un poco si son estudios de casos nuevos producidos durante todo el periodo de estudio (incidencia acumulada) o si consideran el periodo de tiempo del estudio, el momento de aparición de la enfermedad y el diferente seguimiento de los grupos (tasa de incidencia o densidad de incidencia).

Las tablas de los estudios de incidencia acumulada (IA) son similares a las que hemos visto hasta ahora. En las columnas se representa el estado de enfermedad y en las filas el de exposición. Por otra parte, las de densidad o tasa de incidencia (TI) representan en una de las columnas el número de enfermos y en la otra el seguimiento en personas-año, de forma que los que tienen un seguimiento más prolongado tienen un mayor peso a la hora de calcular las medidas de frecuencia, asociación, etc.

contingencia_cohortes_densidadLas medidas de frecuencia serían los riesgos en EXP (Re) y en NEXP (Ro) para los casos de IA y las tasas de incidencia en EXP (TIe) y NEXP (TIo) en los de TI.

Los cocientes de las medidas anteriores nos permiten calcular las medidas de asociación: riesgos relativos (RR), reducción absoluta de riesgo (RAR) y reducción relativa de riesgo (RRR) para los estudios de IA y reducciones absolutas y relativas de las TI para los estudios de densidad. Podemos calcular también la FAExp como hacíamos con los estudios de casos y controles, al igual que la FAPob como medida de impacto.

En teoría pueden calcularse también las odds ratios, pero suelen ser menos utilizadas en este tipo de tablas. En cualquier caso, ya sabemos que odds ratio y RR se parecerán cuando la prevalencia de la enfermedad sea baja.

Para terminar con este tipo de tablas, podemos calcular las medidas de asociación estadística: chi-cuadrado, Fisher y p para estudios de IA y otras pruebas de asociación para los estudios de densidad de incidencia.

Como siempre, todos estos cálculos pueden realizarse a mano, aunque os recomiendo utilizar calculadoras, como la disponible en la Red CASPe. Es más sencillo, más rápido y, además, nos proporcionan todos estos parámetros con sus correspondientes intervalos de confianza, con lo que podemos estimar también su precisión.

Y con esto hemos llegado al final. Existen más tipos de tablas, con múltiples niveles por tratar más de dos variables, estratificadas según diferentes factores, etc. Pero esa es otra historia…

Ménage à trois

En esta entrada vamos a dar otra vuelta de tuerca al asunto de las variables que pueden enturbiar la armoniosa relación de la pareja formada por exposición y efecto, así que todas aquellas mentes sucias que esperaban otra cosa al leer el título pueden pasar al siguiente resultado de Google, que seguro que aciertan con lo que andaban buscando.

Ya vimos como existen variables de confusión que se relacionan con el efecto y la exposición y cómo pueden alterar nuestras estimaciones de las medidas de asociación si estas variables no se reparten de forma homogénea entre los grupos de estudio. Hablamos de nuestra puerta trasera, de cómo evitarla y de cómo cerrarla, tanto en los estudios de cohortes como en los de casos y controles.

Pero, en ocasiones, el efecto de la exposición sobre el resultado estudiado no es siempre el mismo, pudiendo variar en intensidad según se modifica el valor o nivel de una tercera variable. Al igual que ocurría con la confusión, lo observamos mejor al estratificar los resultados para hacer el análisis, pero en estos casos no se debe a la distribución desigual de la variable, sino a que el efecto de la exposición se ve realmente modificado por la magnitud de esta variable, que recibe el nombre de variable de interacción o variable modificadora de efecto.

Como es lógico, es fundamental diferenciar entre variable de confusión y variable de interacción. El efecto de la variable de confusión depende de su distribución entre los grupos de estudio. En el caso de estudios experimentales, esta distribución puede ser diferente según se haya producido el reparto al hacer la aleatorización, por lo que una variable puede actuar como confusora en un ensayo y no en otro. Sin embargo, en los estudios observacionales siempre ejercen su efecto, ya que se encuentran asociadas tanto al factor como a la exposición. Cuando encontramos una variable confusora nuestro objetivo será controlar su efecto y estimar una medida de asociación ajustada.

Por otra parte, las variables modificadoras de efecto reflejan una característica de la relación entre exposición y efecto, cuya intensidad depende del ménage à trois que forman con esta tercera variable de interacción. Si pensamos un poco, en el caso de que exista una modificación de efecto no nos interesará calcular una medida ajustada de la asociación, como la que obtendríamos con la prueba de Mantel-Haenszel, ya que no sería representativa del efecto global de la exposición sobre el efecto. Tampoco es buena idea hacer una simple media aritmética de las medidas de asociación que observamos en cada estrato. En todo caso lo que tenemos que hacer es describirla y no tratar de controlarla, como hacemos con las variables confusoras.

Antes de poder decir que existe una variable modificadora de efecto debemos descartar que las diferencias observadas se deban al azar, a confusión o a sesgos de nuestro estudio. Observar los intervalos de confianza de las medidas de estimación nos puede ayudar a descartar el azar, que será más improbable si los intervalos no se solapan. Podemos calcular también si las diferencias entre los estratos son estadísticamente significativas, utilizando para ello es test apropiado a cada diseño de estudio.

¿Y podemos estimar una medida global de la influencia de la exposición sobre el efecto que tenga en cuenta la existencia de una variable de interacción?. Pues claro que podemos, ¿alguien lo dudaba?.

Quizás la forma más sencilla es calcular una medida estandarizada. Para ello comparamos dos medidas diferentes, una que asume que cada elemento de cada estrato de la población tiene el riesgo de los expuestos y otra que asume lo mismo pero de los no expuestos. Se estima así una medida de la asociación en la población global estándar que hemos definido. ¿Confuso?. Veamos un ejemplo.Vamos a seguir aburriendo hasta la extenuación con los pobres fumadores y su enfermedad coronaria. En la primera tabla están los resultados de un estudio que me acabo de inventar sobre tabaco e infarto de miocardio.

variable_interferenciaVemos que, de forma global, los fumadores tienen un riesgo siete veces superior de sufrir infarto que los no fumadores (riesgo relativo, RR = 7). Vamos a suponer que fumadores y no fumadores tienen una distribución de edad semejante, pero que al desglosar los datos en dos grupos de edad los riesgos son diferentes. El RR en menores de 50 años es de 2, frente al de los mayores, cuyo riesgo de infarto es tres veces mayor para los fumadores que para los no fumadores.

RR_estandarizadoVamos a calcular las dos medidas de asociación, una suponiendo que todos fuman y la otra suponiendo que no fuma ninguno. En menores de 50 años, el riesgo de infarto si todos fuman es de 5/197 = 0,02. Si tenemos 454 menores de 50 años, el número de casos de infarto esperables sería de 454×0,02 = 9,1. El riesgo en no fumadores sería de 3/257 = 0,01, luego esperaríamos encontrar 0,01×454 = 4,5 infartos en no fumadores.

Hacemos los mismos cálculos con los mayores de 50 años y sumamos el total de personas (770), el total de infartos en fumadores (47,1) y en no fumadores (10,8). El riesgo estandarizado en los fumadores de esta población es de 47,1/770 = 0,06. El riesgo estandarizado en no fumadores, 10,8/770 = 0,01. Por último, calculamos el RR estandarizado: 0,06/0,01 = 6. Esto significa que, de forma global, fumar multiplica por seis el riesgo de infarto, pero no olvidemos que este resultado es válido solo para esta población estándar y que no lo sería probablemente para otra población diferente.

Solo una cosa más antes de acabar. Como ocurre con el análisis de las variables de confusión, el análisis de la modificación de efecto puede hacerse también mediante regresión, introduciendo en la ecuación obtenida unos coeficientes de interacción que corrigen el efecto. Además, estos coeficientes nos resultan muy útiles porque su significación estadística nos sirve para distinguir entre confusión e interacción. Pero esa es otra historia…

¿A qué lo atribuye?

Parece que fue ayer. Yo empezaba mis andanzas en los hospitales y tenía mis primeros contactos con El Paciente. Y de enfermedades no es que supiese demasiado, por cierto, pero sabía sin necesidad de pensar en ello cuáles eran las tres preguntas con las que se iniciaba toda buena historia clínica: ¿qué le pasa?, ¿desde cuándo?, ¿a qué lo atribuye?.

Y es que la necesidad de saber el porqué de las cosas es inherente a la naturaleza humana y, por supuesto, tiene gran importancia en medicina. Todo el mundo está loco por establecer relaciones de causa-efecto, por lo que a veces estas relaciones se hacen sin mucho rigor y llega uno a creerse que el culpable de su catarro de verano es el fulano del supermercado, que ha puesto el aire acondicionado muy fuerte. Por eso es de capital importancia que los estudios sobre etiología se realicen y se valoren con rigor. Por eso, y porque cuando hablamos de causa nos referimos también a las que hacen daño, incluidas nuestras propias acciones (lo que la gente culta llama iatrogenia).

Esta es la razón de que los estudios de etiología/daño tengan diseños similares. El ideal sería el ensayo clínico, y podemos usarlo, por ejemplo, para saber si un tratamiento es la causa de la curación del paciente. Pero cuando estudiamos factores de riesgo o exposiciones nocivas, el principio ético de no maleficencia nos impide aleatorizar las exposiciones, por lo que hemos de recurrir a estudios observacionales como los estudios de cohortes o los estudios de casos y controles, aunque siempre el nivel de evidencia será menor que el de los estudios experimentales.

Para valorar críticamente un trabajo sobre etiología/daño recurriremos a nuestros consabidos pilares: validez, importancia y aplicabilidad.

En primer lugar nos centraremos en la VALIDEZ o rigor científico del trabajo, que debe responder a la pregunta sobre si el factor o la intervención que estudiamos fue la causa del efecto adverso o la enfermedad producida.

Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen, dejaremos el trabajo y nos dedicaremos a otra cosa más provechosa. Lo primero será determinar si se han comparado grupos similares en cuanto a otros factores determinantes del efecto diferentes de la exposición estudiada. La aleatorización de los ensayos clínicos facilita que los grupos sean homogéneos, pero no podemos contar con ella en el caso de estudios observacionales. La homogeneidad de las dos cohortes es fundamental y sin ella el estudio no tendrá validez. Uno siempre se puede defender diciendo que ha estratificado por las diferencias entre los dos grupos o que ha hecho un análisis multivariante para controlar el efecto de las variables confusoras conocidas pero, ¿qué hacemos con las desconocidas?. Lo mismo se aplica a los estudios de casos y controles, mucho más sensibles a sesgos y confusiones.

¿Se han valorado la exposición y el efecto de la misma forma en todos los grupos?. En los ensayos y cohortes debemos comprobar que el efecto ha tenido la misma probabilidad de aparecer y ser detectado en los dos grupos. Por otra parte, en los estudios de casos y controles es muy importante valorar adecuadamente la exposición previa, por lo que debemos investigar si ha habido posibles sesgos de recogida de datos, como el sesgo de memoria (los enfermos suelen acordarse mejor de sus síntomas pasados que los sanos). Por último, debemos considerar si el seguimiento ha sido lo suficientemente largo y completo. Las pérdidas durante el estudio, frecuentes en los diseños observacionales, pueden sesgar los resultados.

Si hemos contestado sí a las tres preguntas anteriores, pasamos a considerar los criterios secundarios de validez. Los resultados del estudio deben ser evaluados para determinar si la asociación entre exposición y efecto satisface las pruebas de causalidad razonable. HillUna herramienta que podemos usar son los criterios de Hill, que fue un señor que sugirió utilizar una serie de aspectos para tratar de distinguir el carácter causal o no causal de una asociación. Estos criterios son los siguientes: a) fuerza de la asociación, que es la razón de riesgos de exposición y efecto, que consideraremos en breve; b) consistencia, que es la reproducibilidad en poblaciones o situaciones diferentes; c) especificidad, que quiere decir que una causa produce un único efecto y no múltiples; d) temporalidad: es fundamental que la causa preceda al efecto; e) gradiente biológico: a más intensidad de causa, mayor intensidad de efecto; f) plausibilidad: tiene que tener su lógica según nuestros conocimientos biológicos; g) coherencia, que no entre en conflicto con lo que se sabe de la enfermedad o el efecto; h) evidencia experimental, difícil de obtener muchas veces en humanos por problemas éticos; y, finalmente, i) analogía con otras situaciones conocidas. Aunque estos criterios son ya viejecillos y alguno puede ser irrelevante (evidencia experimental o analogía) o erróneo (especificidad), pueden servirnos de orientación. El criterio de temporalidad sería necesario y se complementaría muy bien con los de gradiente biológico, plausibilidad y coherencia.

Otro aspecto importante es estudiar si, al margen de la intervención en estudio, se han tratado los dos grupos de forma similar. En este tipo de estudios en los que el doble ciego brilla por su ausencia es en los que hay más riesgo de sesgo debido a cointervenciones, sobre todo si éstas son tratamientos con un efecto mucho mayor que la exposición en estudio.

En cuanto a la IMPORTANCIA de los resultados, debemos considerar la magnitud y la precisión de la asociación entre exposición y efecto.

¿Cuál fue la fuerza de la asociación?. La medida de asociación más habitual es el riesgo relativo (RR), que podremos usar en los ensayos y en los estudios de cohortes. Sin embargo, en los estudios de casos y controles desconocemos la incidencia del efecto (ya se ha producido al realizarse el estudio), por lo que utilizamos la odds ratio (OR). Como ya sabemos, la interpretación de los dos parámetros es similar. Incluso los dos son similares cuando la frecuencia del efecto es muy baja. Sin embargo, cuánto mayor es la magnitud o la frecuencia del efecto, más diferentes son RR y OR, con la peculiaridad de que la OR tiende a sobreestimar la fuerza de la asociación cuando es mayor que 1 y a subestimarla cuando es menor que 1. De todas formas, estos caprichos de la OR excepcionalmente nos modificarán la interpretación cualitativa de los resultados.

Hay que tener en cuenta que en un ensayo es válido cualquier valor de OR o RR cuyo intervalo de confianza no incluya el uno, pero en estudios observacionales hay que ser un poco más exigente. Así, en un estudio de cohortes daremos valor a RR mayores o iguales a tres y, en uno de casos y controles, a OR de cuatro o más.

Otro parámetro muy útil (en ensayos y cohortes) es la diferencia de riesgos o diferencia de incidencias, que es una forma rebuscada de llamar a nuestra conocida reducción absoluta de riesgo (RAR), que nos permite calcular el NNT (o NND, número necesario a dañar), parámetro que mejor nos cuantifica la importancia clínica de la asociación. También, similar a la reducción relativa del riesgo (RRR), contamos con la fracción atribuible en los expuestos, que es el porcentaje de riesgo observado en los expuestos que se debe a la exposición.

Y, ¿cuál es la precisión de los resultados?. Como ya sabemos, tiraremos de nuestros queridos intervalos de confianza, que nos servirán para determinar la precisión de la estimación del parámetro en la población. Siempre es conveniente disponer de todos estos parámetros, por lo que deben figurar en el estudio o debe ser posible su cálculo a partir de los datos proporcionados por los autores.

Para finalizar, nos fijaremos en la APLICABILIDAD de los resultados en nuestra práctica.

¿Son aplicables los resultados a nuestros pacientes?. Buscaremos si hay diferencias que desaconsejen extrapolar los resultados del trabajo a nuestro medio. Además, consideraremos cuál es la magnitud del riesgo en nuestros pacientes en función de los resultados del estudio y de las características del paciente en quien queramos aplicarlos. Y, finalmente, teniendo todos estos datos en mente, habrá que pensar en nuestras condiciones de trabajo, las alternativas que tenemos y las preferencias del paciente para decidir si hay que evitar la exposición que se ha estudiado. Por ejemplo, si la magnitud del riesgo es alta y disponemos de una alternativa eficaz la decisión está clara, pero las cosas no siempre serán tan sencillas.

Como siempre, os aconsejo que utilicéis los recursos CASPe para valorar los trabajos, tanto las parrillas adecuadas a cada diseño para hacer la lectura crítica, como las calculadoras para valorar la importancia de los resultados.

Antes de acabar, dejadme aclarar una cosa. Aunque hemos comentado que en las cohortes y ensayos usamos RR y en los casos y controles usamos OR, podemos usar OR en cualquier tipo de estudio (no así RR, para los cuáles hay que conocer la incidencia del efecto). El problema es que son algo menos precisas, por lo que se prefieren los RR y los NNT, cuando es posible utilizarlos. De todas formas, la OR es cada vez más popular por otro motivo, y es su utilización en los modelos de regresión logística, que nos permiten obtener estimadores ajustados por las diferentes variables de confusión. Pero esa es otra historia…

Una de romanos

¡Qué tíos esos romanos!. Iban, veían y vencían. Con esas legiones, cada una con sus diez cohortes, cada cohorte con sus casi quinientos romanos con su falda y sus sandalias de correas. Las cohortes eran grupos de soldados que estaban al alcance de la arenga de un mismo jefe y siempre avanzaban, nunca retrocedían. Así se puede conquistar la Galia (aunque no en su totalidad, como es bien sabido).

En epidemiología, una cohorte es también un grupo de personas que comparten algo, pero en lugar de ser la arenga de su jefe es la exposición a un factor que se estudia a lo largo del tiempo (tampoco son imprescindibles ni la falda ni las sandalias). Así, un estudio de cohortes es un tipo de diseño observacional, analítico y longitudinal que compara la frecuencia con la que ocurre un determinado efecto (generalmente una enfermedad) en dos grupos diferentes (las cohortes), uno de ellos expuesto a un factor y otro no expuesto al mismo factor. Ambas cohortes se estudian a lo largo del tiempo, por lo que la mayor parte de los estudios de cohortes son prospectivos (van hacia delante, como las cohortes romanas). Sin embargo, es posible hacer estudios de cohortes retrospectivos una vez ocurridos tanto la exposición como el efecto, identificándose los dos grupos en un momento atrás en el tiempo lo suficientemente alejado como para permitir que el efecto se haya desarrollado.

Como curiosidad, también podemos hacer un estudio con una sola cohorte si queremos estudiar la incidencia o la evolución de una determinada enfermedad, pero en realidad este tipo de diseños se engloba en los estudios descriptivos longitudinales.

Al realizarse un seguimiento a lo largo del tiempo, los estudios de cohortes permiten calcular la incidencia del efecto entre expuestos y no expuestos, calculando a partir de ellas una serie de medidas de asociación y de medidas de impacto características.

La medida de asociación es el riesgo relativo (RR), que es la proporción entre la incidencia de expuestos (Ie) y no expuestos (I0): RR = Ie/I0. Esta medida nos permite estimar la fuerza de la asociación entre la exposición al factor y el efecto, pero no nos informa sobre el impacto potencial que tiene la exposición sobre la salud de la población. Para esto debemos recurrir a las medidas de impacto, fundamentalmente la diferencia de incidencias (DI) y la proporción atribuible al factor en el grupo expuesto (PAE) o en la población (PAP).

La DI sería, como su nombre indica, la diferencia entre la incidencia de expuestos y no expuestos (Ie-I0). Esta medida, que es el equivalente a la reducción absoluta del riesgo de los ensayos clínicos, nos cuantifica la diferencia de incidencia que puede atribuirse al factor estudiado. Aunque puede sonar parecido al RR, en realidad son dos medidas bien diferentes. Veámoslo con un ejemplo. Supongamos dos estudios E1 y E2. Aunque el RR es igual a 3 en los dos estudios, la DI en E1 es del 40% mientras que en E2 es del 2%, con lo que el exceso de riesgo en los expuestos es mucho mayor en el primer estudio que en el segundo, a pesar de que los RR sean iguales en ambos. Digamos que el RR es más informativo para determinar posibles causas de un efecto, mientras que la DI, que depende también de la incidencia, es más útil desde el punto de vista epidemiológico para calcular los efectos sobre grupos de población.

La PAE es la DI respecto al grupo de expuestos y nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. Esta medida puede calcularse también a partir del RR entre expuestos y no expuestos.

Por su parte, la PAP nos da una idea del efecto que se produciría en la población (cuánto disminuiría la enfermedad) si pudiésemos eliminar totalmente la exposición al factor estudiado.

Como vemos, pues, los estudios de cohortes son muy útiles para calcular la asociación y el impacto entre efecto y exposición pero, cuidado, no sirven para establecer relaciones causales. Para eso son necesarios otros tipos de estudios.

El problema con los estudios de cohortes es que son difíciles (y costosos) de realizar de forma adecuada, suelen requerir muestran grandes y, a veces, periodos de seguimiento prolongados (con el consiguiente riesgo de pérdidas). Además, son poco útiles para enfermedades raras. Y no debemos olvidar que no nos permiten establecer relaciones de causalidad con la seguridad suficiente, aunque para ello sean mejores que sus primos los estudios de casos y controles, pero esa es otra historia…

La de nombre extranjero

¿Os gusta el juego?. Me refiero a los juegos de azar que la gente busca en los casinos con la vana esperanza de ganar un poco (o no tan poco) de dinero a la vez que se divierte. Pero la gente que desea enriquecerse de forma rápida y divertida olvida dos cosas. La primera es que todo lo que ve alrededor (y mucho más que no ve) lo pagan los miles que previamente fracasaron en un intento similar al suyo. La segunda es estudiar antes a fondo cuáles son sus probabilidades de ganar… y sus odds.

Os preguntaréis qué es una odds y por qué usamos un término tan raro. A la segunda pregunta os diré que no he encontrado una palabra castellana que guste a la mayoría. Quizás las que más me gustan a mí sean “oportunidad relativa” o “probabilidad relativa”, pero para seguir la corriente general, me quedaré con odds. Para contestar a la primera pregunta tenemos que calentarnos un poco las neuronas.

Todos entendemos el concepto de probabilidad. Si nos preguntan cuál es la probabilidad de sacar un seis si tiramos un dado en el casino, responderemos rápidamente que la probabilidad es una entre seis o 1/6 (0,16 ó 16,66%). Pero al jugador quizás le interese más saber cuánto es más probable que salga el seis frente a que no salga. Y la respuesta no es 1/6, sino 1/5. ¿Por qué?: porque la probabilidad de que salga es 1/6 y la de que no salga es 5/6. Para saber cuánto más probable es sacar el seis debemos dividir 1/6 entre 5/6, lo que nos daría 1/5 (20%). Esta es la odds: la probabilidad de que ocurra un suceso respecto a la probabilidad de que no ocurra: odds = p / (1-p), para los amantes de las fórmulas.

Salgamos ahora del casino. He observado que la noche que echo una mirada a las noticias en Internet antes de acostarme duermo peor. Supongamos que hago una encuesta preguntando a la gente que me encuentro por la calle si duermen bien y si acostumbran a ver las noticias antes de acostarse y obtengo los resultados que os muestro en la tabla.

Podemos preguntarnos ¿cuál es la probabilidad de que alguien que lea las noticias sea insomne?. Fácil: 25/79 ó 0,31 (número de lectores insomnes dividido por número de lectores). Por otra parte, ¿cuál es la odds del lector de ser insomne?. También sencillo: probabilidad de lector insomne partido de probabilidad de lector no insomne, o sea 25/54 ó 0,46.

Calculamos igualmente la probabilidad de que un no lector sea insomne como el cociente 105/355 = 0,29 (no lectores insomnes dividido por el total de no lectores). La odds, por su parte, sería de 105/250 = 0,42 (no lectores con insomnio dividido por no lectores sin insomnio).

Si calculamos ahora el cociente de las dos probabilidades obtendremos el riesgo relativo, RR = 0,31/0,29 = 1.06. Esto quiere decir que el riesgo de tener insomnio es más o menos el mismo entre los que leen las noticias y los que no. Si calculamos el cociente de las dos odds obtendremos un valor de 1,09 (0,46/0,42). Esta es la denominada odds ratio (OR), un parámetro bastante interesante que, en breve, veremos para qué sirve.

Vamos ahora a analizar de nuevo los datos de la tabla, pero esta vez al revés. ¿Cuál es la probabilidad de que un insomne lea las noticias?: 25/130 = 0,19. ¿Cuál es la odds del insomne de leer frente a no leer las noticias?: 25/105 = 0,23. ¿Cuál es la probabilidad de que el que no tiene insomnio sea lector?: 54/304 = 0,17. ¿Y su odds?: 54/250 = 0,21.

Si calculamos el RR = 0,19/0,17 = 1,11, nos dirá que los insomnes tienen el mismo riesgo, aproximadamente, de haber leído las noticias antes de acostarse que los que duermen plácidamente. ¿Y la OR?: 0,23/0,58 = 1,09. ¡Pásmate!, la OR es la misma se miren los datos como se miren, lo cual no puede ser casualidad, sino que debe esconder algún significado.

Y esto es así porque la OR, también llamada razón de predominio, mide la fuerza de la asociación entre el efecto (el insomnio) y la exposición (leer las noticias). Su valor es siempre el mismo aunque cambiemos el orden de las proporciones en la tabla. Como ocurre con otros parámetros, lo correcto será calcular su intervalo de confianza para conocer la precisión de la estimación. Además, esta asociación será significativa si el intervalo no incluye el uno, que es el valor neutro para la OR. Cuánto mayor sea la OR, mayor será la fuerza de la asociación. Las OR menores de uno son más complejas de interpretar, aunque podemos hacer un razonamiento similar al que hacíamos con los RR menores que uno. Pero aquí acaba la similitud entre los dos. El uso correcto del RR precisa del conocimiento de la incidencia del efecto en las dos poblaciones comparadas mientras que la OR se calcula en base a la frecuencia observada en las dos, por lo que no son parámetros equiparables aunque su interpretación sea similar. Solo tienden a igualarse en los casos en los que el efecto tiene una probabilidad muy baja de presentarse. Por estos motivos, la OR es la medida de asociación utilizada en estudios de casos y controles y metaanálisis, mientras que los RR son preferible para los estudios de cohortes y los ensayos clínicos.

Un par de consideraciones antes de acabar con el tema de la OR. Primera, aunque nos permita comparar la asociación entre dos variables cualitativas (categorizadas como sí o no), no sirve para establecer relaciones de causa-efecto entre las dos. Segunda, tiene gran utilidad porque permite evaluar el efecto de otras variables sobre esta asociación, lo que puede servir para planificar la realización de estudios estadísticos de regresión logística. Pero esa es otra historia…

Que no te la den con queso

Si tenéis por casa un vino que se os haya estropeado un poco, hacedme caso, no lo tiréis. Esperad a que vaya alguna de esas visitas gorronas (¡yo no he mencionado a ningún cuñado!) y ponédselo para que se lo beban. Eso sí, tenéis que acompañarlo de un queso fuertecillo. Cuánto más fuerte el queso, mejor sabrá el vino (vosotros podéis tomaros otra cosa con cualquier excusa). Pues bien, este truco, tan viejo casi como la especie humana, tiene sus paralelismos en la presentación de los resultados de trabajos científicos.

Imaginemos que realizamos un ensayo clínico en el que probamos un antibiótico nuevo (llamémosle A) para el tratamiento de una infección grave de la localización que nos interese estudiar. Aleatorizamos los pacientes seleccionados y les damos el fármaco nuevo o el tratamiento habitual (nuestro grupo de control), según les corresponda por azar. Al final, medimos en cuántos de nuestros pacientes fracasa el tratamiento (el evento que queremos evitar).

De los 100 pacientes que reciben el fármaco A, 36 presentan el evento a evitar. Por tanto, podemos concluir que el riesgo o incidencia del evento en los expuestos (Ie) es de 0,36 (36 de cada 100, en tanto por uno). Por otra parte, 60 de los 100 controles (los llamamos el grupo de no expuestos) han presentado el suceso, por lo que rápidamente calculamos que el riesgo o incidencia en los no expuestos (Io) es de 0,6.

A simple vista ya vemos que el riesgo es distinto en cada grupo, pero como en la ciencia hay que medirlo todo, podemos dividir los riesgos entre expuestos y no expuestos, obteniendo así el denominado riesgo relativo (RR = Ie/Io). Un RR = 1 significa que el riesgo es igual en los dos grupos. Si el RR > 1 el evento será más probable en el grupo de expuestos (la exposición que estemos estudiando será un factor de riesgo para la producción del evento) y si RR está entre 0 y 1, el riesgo será menor en los expuestos. En nuestro caso, RR = 0,36/0,6 = 0,6. Es más sencillo interpretar los RR > 1. Por ejemplo, un RR de 2 quiere decir que la probabilidad del evento es dos veces mayor en el grupo expuesto. Siguiendo el mismo razonamiento, un RR de 0,3 nos diría que el evento es una tercera parte menos frecuente en los expuestos que en los controles.

Pero lo que a nosotros nos interesa es saber cuánto disminuye el riesgo del evento con nuestra intervención para estimar cuánto esfuerzo hace falta para prevenir cada uno. Para ello podemos calcular la reducción relativa del riesgo (RRR) y la reducción absoluta del riesgo (RRA). La RRR es la diferencia de riesgo entre los dos grupos respecto del control (RRR = [Ie-Io]/Io). En nuestro caso es de 0,6, lo que quiere decir que la intervención probada disminuye el riesgo un 60% respecto al tratamiento habitual.

La RAR es más sencilla: es la resta entre los riesgos de expuestos y controles (RAR = Ie – Io). En nuestro caso es de 0,24 (prescindimos del signo negativo), lo que quiere decir que de cada 100 pacientes que tratemos con el nuevo fármaco se producirán 24 eventos menos que si hubiésemos utilizado el tratamiento control. Pero aún hay más: podemos saber cuántos tenemos que tratar con el fármaco nuevo para evitar un evento con solo hacer la regla de tres (24 es a 100 como 1 es a x) o, más fácil de recordar, calculando el inverso de la RAR. Así, el número necesario a tratar (NNT) = 1/RAR = 4,1. En nuestro caso tendríamos que tratar a cuatro pacientes para evitar un suceso adverso. El contexto nos dirá siempre la importancia clínica de esta cifra.

Como veis, la RRR, aunque es técnicamente correcta, tiende a magnificar el efecto y no nos cuantifica claramente el esfuerzo a realizar para obtener los resultados. Además, puede ser similar en situaciones diferentes con implicaciones clínicas totalmente distintas. Veámoslo con otro ejemplo. Supongamos otro ensayo con un fármaco B en los que obtenemos tres eventos en los 100 tratados y cinco en los 100 controles. Si hacéis los cálculos, el RR es de 0,6 y la RRR de 0,4, igual que en el ejemplo anterior, pero si calculáis la RAR veréis que es muy diferente (RAR = 0,02), con un NNT de 50. Se ve claramente que el esfuerzo para evitar un evento es mucho mayor (cuatro frente a 50) a pesar de que coincidan el RR y la RRR.

Así que, llegados a este punto, permitidme un consejo. Dado que con los datos necesarios para calcular la RRR es incluso más sencillo calcular la RAR (y el NNT), si en un trabajo científico os lo ocultan y solo os ofrecen la RRR, desconfiad como del cuñado que os pone un queso curado con el vino y preguntadle por qué no os pone mejor un pincho de jamón ibérico. Bueno, en realidad quería decir que os preguntéis por qué no os dan la RAR y la calculéis vosotros con los datos del trabajo.

Una última reflexión para cerrar este tema. Existe cierta tendencia y confusión a la hora de utilizar o analizar otra medida de asociación utilizada en ciertos estudios observacionales: la odds ratio. Aunque en algunas ocasiones puedan ser equiparables, como cuando la prevalencia del efecto es muy pequeña, en general la odds ratio tiene otras implicaciones en cuanto a significado e interpretación, pero esa es otra historia…