Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

Una relación simple

image_pdf

Hoy vamos a volver a hablar de la relación que puede existir entre dos variables. Vimos en una entrada anterior como podíamos medir la relación entre dos variables mediante el procedimiento de correlación, que nos medía la fuerza de relación entre dos variables cuando ninguna de las dos puede considerarse predictora de la otra. Esto es, cuando los valores de una no nos sirven para calcular los valores de la otra, aunque las dos varíen de una forma predecible.

Una cosa parecida, de la que vamos a hablar en esta entrada, es la regresión. Esta no solo explica la relación que hay entre dos variables, sino que podemos cuantificar cómo varía una de las variables, que llamaremos dependiente, con las variaciones de la otra variables, que será la independiente.

Pero todavía podemos llegar un paso más allá: los valores de la variable independiente nos pueden servir para predecir el correspondiente valor de la variable dependiente. Supongamos que medimos peso y talla y calculamos el modelo de regresión entre el peso y la talla. Si sabemos la talla de un individuo podemos utilizar la ecuación de regresión para estimar cuál será su peso (en este caso la talla es la variable independiente y el peso la dependiente).

Si llamamos x a la variable independiente e y a la variable dependiente, los modelos de regresión simple pueden representarse mediante la siguiente ecuación:

Función(y) = a + bx

En esta ecuación, a representa el valor de la función de y cuando x vale cero. Se suele llamar interceptor porque es el punto donde la representación gráfica de la recta de regresión cruza el eje de las y. Por su parte, b representa la llamada pendiente, que es la cantidad que varía y con las variaciones de x (si x aumenta en b unidades, y aumenta en b unidades).

¿Y qué significa función(y)?. Pues depende del tipo de variable que sea la variable dependiente. Sabemos que las variables se clasifican en cuantitativas (o continuas), cualitativas (nominales u ordinales) y de tiempo a suceso (también llamadas de supervivencia). Pues bien, según el tipo de la variable dependiente la función(y) será diferente porque aplicaremos un modelos de regresión simple diferente.

En el caso de variables continuas, el modelo de regresión que aplicamos es el de regresión lineal simple y la función de y será su media aritmética. La ecuación será la siguiente:

y = a + bx

Volviendo al ejemplo del peso y la talla, si sustituimos x por el valor de talla deseado y resolvemos la ecuación obtendremos el peso medio de los individuos de esa talla.

En el caso de que la variable dependiente sea cualitativa binaria utilizaremos un modelo de regresión logística. En este caso codificaremos la variable dependiente como cero y uno y la función de y ya no será la media, sino el logaritmo neperiano de la odds ratio del valor uno de la variable. Imaginemos que calculamos la relación entre peso (variable independiente) y sexo (variable dependiente). En este caso podríamos codificar como uno si es mujer y cero si es hombre, representando la recta de regresión de la siguiente forma:

Ln(OR) = a + bx

Si sustituimos x por el peso en cuestión y resolvemos la ecuación, obtendremos el logaritmo de la OR de ser mujer (el valor 1). Para obtener la OR debemos elevar el número e al resultado de la ecuación (hacer el antilogaritmo), obteniendo así la OR de que sea mujer. A partir de aquí es sencillo calcular el valor de la probabilidad de que sea mujer (p = OR/1+OR)  u hombre (uno menos el valor de la probabilidad de que sea mujer).

Esta función del ln(OR) se expresa en muchas ocasiones como ln(p/1-p), ya que la odds ratio es la probabilidad de que un suceso ocurra (p) dividida de la probabilidad de que no ocurra (1-p). A esta función se la denomina logit, por lo que podemos ver también representada la regresión logística de la siguiente forma:

Logit(y) = a + bx

Por último, podemos encontrarnos el caso de que la variable dependiente sea una variable de tiempo a suceso. En este caso hay que utilizar un modelo de regresión de riesgos proporcionales de Cox. La estructura es muy similar a la de la regresión logística, solo que la función de y es el logaritmo de la hazard ratio en lugar del de la odds ratio:

Ln(HR) = a + bx

Igual que hacíamos con la regresión logística, para calcular el valor de la hazard ratio hay que hacer el antilogaritmo natural del producto de la ecuación de regresión (e elevado al resultado de la ecuación).

Y, aunque hay muchos más, estos son los tres modelos de regresión más utilizados. En todos estos casos hemos hablado de ecuaciones con una variable independiente, por lo que decimos que hablamos de regresión simple. Pero podemos meter todas las variables independientes que queramos, según la siguiente fórmula:

Función(y) = a + bx1 + cx2 + … + nxn

Claro que ya no hablaríamos de regresión simple, sino de regresión múltiple, pero todo lo que hemos descrito sería igual de aplicable.

Y aquí lo vamos a dejar. Podríamos hablar del valor del interceptor y de la pendiente según la variable independiente sea continua o cualitativa, ya que se leen de forma un poco diferente. Pero esa es otra historia…

Ovejas negras

image_pdf

Se dice que es una oveja negra aquél elemento de un grupo que va en dirección distinta o contraria a la del resto del grupo. Por ejemplo, en una familia de adictos a la telebasura, la oveja negra sería un miembro de esa familia que se desviviese por ver los documentales de la segunda cadena. Claro que si la familia es adicta a los documentales, la oveja negra se morirá por ver la telebasura. Siempre al revés.

En estadística hay algo parecido a las ovejas negras. Son los datos anómalos, también llamados datos extremos, pero más conocidos por su nombre en inglés: outliers.

Un outlier es una observación que parece inconsistente con el resto de los valores de la muestra, siempre teniendo en cuenta el modelo probabilístico supuesto que debe seguir la muestra. Como veis, es un dato que lleva la contraria a los demás, como una oveja negra.

El problema del outlier es que puede hacer mucho daño al estimar parámetros poblacionales a partir de una muestra. Vamos a recordar un ejemplo que vimos en otra entrada sobre el cálculo de medidas de centralidad robustas. Se trataba de un colegio con cinco maestros y un director fanático del futbol. Al hacer los contratos establece los siguientes sueldos: 1200 euros al mes para el profesor de ciencias, 1500 para el de mates, 800 para el de literatura y 1100 para el de historia. Pero resulta que se le antoja contratar a Pep Guardiola como profesor de gimnasia, así que tiene que pagarle nada menos que 20000 euros mensuales.

¿Veis por dónde la va la cosa? Efectivamente, Pep es la oveja negra, el valor anómalo. Fijaos qué pasa si calculamos la media: 4920 euros al mes es el sueldo medio de los profesores de este centro. ¿Os parece una estimación real? Claramente no, el valor de la media está desplazada en la dirección del outlier, y se desplazaría más cuánto más extremo sea el valor anómalo. Si a Pep le pagasen 100000 euros, el sueldo medio ascendería a 20920 euros. Una locura.

Si un valor anómalo puede hacerle tanto daño a un estimador, imaginad lo que puede hacer con un contraste de hipótesis, en el que la respuesta es un aceptar o rechazar la hipótesis nula. Así que nos planteamos, ¿qué podemos hacer cuando descubrimos que entre nuestros datos hay una (o varias) ovejas negras? Pues podemos hacer varias cosas.

La primera que se nos pasa por la cabeza es tirar el outlier a la basura. Prescindir de él a la hora de analizar los datos. Esto estaría bien si el valor extremo es producto de un error en la recogida de los datos pero, claro, podemos prescindir de datos que dan información adicional. En nuestro ejemplo, el outlier no es ningún error, sino que es producto del historial deportivo del profesor en cuestión. Necesitaríamos algún método más objetivo para poder decidir suprimir el outlier, y aunque existen unas pruebas llamadas de discordancia, tienen sus problemas.

La segunda cosa que podemos hacer es identificarlo. Esto significa que tenemos que averiguar si el valor es tan extremo por alguna razón concreta, como pasa en nuestro ejemplo. Un valor extremo puede estar señalando algún hallazgo importante y no tenemos porqué desdeñarlo con rapidez, sino tratar de interpretar su significado.

En tercer lugar, podemos incorporarlos. Como hemos dicho al definirlos, el outlier lleva la contraria a los demás datos de la muestra según el modelo de probabilidad que suponemos que sigue la muestra. A veces, un dato extremo deja de serlo si asumimos que los datos siguen otro modelo. Por ejemplo, un outlier puede serlo si consideramos que los datos siguen una distribución normal pero no si consideramos que siguen una logarítmica.

Y, en cuarto lugar, la opción más correcta de todas: utilizar técnicas robustas para hacer nuestras estimaciones y nuestros contrastes de hipótesis. Se llaman técnicas robustas porque se afectan menos por la presencia de valores extremos. En nuestro ejemplo con los profesores utilizaríamos una medida de centralidad robusta como es la mediana. En nuestro caso es de 1200 euros, bastante más ajustada a la realidad que la media. Además, aunque le paguen a Pep 100000 euros al mes, la mediana seguirá siendo de 1200 euros mensuales.

Y con esto terminamos con los valores anómalos, esas ovejas negras que se mezclan con nuestros datos. No hemos comentado nada por simplificar, pero también podríamos tratar de averiguar cómo afecta el outlier a la estimación del parámetro, para lo cual existe toda una serie de metodología estadística basada en la determinación de la llamada función de influencia. Pero esa es otra historia…

Yo me lo guiso, yo me lo como

image_pdf

Cuando queremos conocer la relación entre una exposición o intervención y un efecto, lo ideal es poder hacer un ensayo clínico controlado y aleatorizado. Claro que eso no siempre es posible, generalmente debido a la naturaleza de la exposición. Por ejemplo, supongamos que queremos conocer el efecto del tabaquismo sobre el infarto de miocardio. Como cualquiera puede comprender, no podemos aleatorizar dos grupos y poner a uno de ellos a fumar dos cajetillas al día para ver si se infartan. La ética y el sentido común nos lo impiden, además de la dificultad para encontrar participantes para un ensayo de estas características.

En casos similares tenemos que recurrir a estudios observacionales. En nuestro ejemplo, nos valdría con un estudio de casos y controles. Así, seleccionaríamos dos grupos en función de si han tenido infarto (los casos) o si no lo han tenido (los controles) y compararíamos el nivel de exposición entre los dos grupos para tratar de dilucidar si hay asociación entre exposición (tabaco) y efecto (infarto).

El punto clave de este tipo de estudios está en la selección de los controles, que tienen que ser representativos del nivel de exposición al factor de riesgo evaluado en la población de la que proceden los casos.

Una selección adecuada de los controles es aún más difícil cuando el efecto es de producción brusca. Por ejemplo, si queremos saber si una comida copiosa aumenta el riesgo de infarto tendríamos más dificultad en recoger controles representativos de la población, ya que los factores de riesgo pueden actuar instantes antes del evento.

Para evitar estas dificultades se aplicó el principio de “yo me guiso, yo me lo como” y se diseñó un tipo de estudio en el que cada participante actúa, a la vez, como su propio control. Son los estudios cruzados, también llamados de casos y autocontroles.

Estos estudios se centran en el momento en que se produce el evento y tratan de ver si se ha producido algo inusual que los haya favorecido, comparando las exposiciones de momentos inmediatos al evento con otros anteriores que sirven de control. Por tanto, comparamos momentos casos con momentos controles, actuando cada individuo como su propio control.

Para que el estudio tenga validez desde el punto de vista metodológico, los autores tienen que describir con claridad una serie de periodos de tiempo característicos. El primero es el periodo de inducción, que es tiempo de retraso que se produce desde el inicio de la exposición hasta la producción del efecto.

periodos caso cruzadoEl segundo es el periodo de efecto, que es el intervalo durante el cual la exposición puede desencadenar el efecto. Por último, el periodo de riesgo sería la suma de los dos periodos previos, desde que se produce la exposición hasta el inicio del evento.

El periodo de inducción suele ser muy breve la mayor parte de las veces, así que periodo de riesgo y efecto suelen ser equivalentes. En la figura adjunta os muestro la relación entre los tres periodos para que la entendáis mejor.

Es fundamental que estos tres periodos se especifiquen con claridad, ya que una mala estimación del periodo de efecto, tanto por exceso como por defecto produce una dilución del efecto de la exposición y dificulta su detección.

Algunos de vosotros me diréis que estos estudios son similares a otros estudios con autocontroles, como el de casos y controles emparejados. La diferencia es que en este último se eligen uno o varios controles similares por cada caso, mientras que en el autocontrolado cada uno es su propio control. También se parecen un poco a los ensayos clínicos cruzados, en el que todos los participantes son sometidos a la intervención y al control, pero éstos son estudios experimentales en los que el investigador interviene en la producción de la exposición, mientras que los autocontrolados son estudios observacionales.

En lo que sí se parecen a los casos y controles emparejados es en el análisis estadístico, solo que aquí se analizan momentos casos y momentos control. De esta forma, lo habitual es utilizar modelos de regresión logística condicional, siendo la medida de asociación más habitual  la odds ratio.

Y aquí dejamos el tema por hoy. Solo comentar que todo lo que hemos dicho se refiere a los denominados estudios cruzados unidireccionales, en los que existe una relación temporal muy puntual entre exposición y efecto. Para los casos en que la exposición es más mantenida pueden emplearse otros tipos de estudios cruzados llamados bidireccionales, en los que se seleccionan periodos de control anteriores y posteriores al efecto. Pero esa es otra historia…

No abuses de las tartas

image_pdf

¡Qué ricas las tartas! El problema es que, como ya sabéis, lo que no está mal visto socialmente, o engorda o produce cáncer. Y las tartas no podían ser menos, así que hay que procurar no comer demasiado para que no se nos vayan al michelín o a otros sitios peores.

Pero hay una tarta que no engorda nada en absoluto (tampoco produce cáncer) y es el diagrama de tarta, que se utiliza con mucha frecuencia en estadística. ¿He dicho con mucha frecuencia? Probablemente me quede corto. Como no engorda ni tiene otros efectos perjudiciales para la salud hay tendencia a abusar de su uso.

tartaEl gráfico de tarta, cuyo nombre correcto es gráfico de sectores, es muy sencillo de dibujar. Consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizando la frecuencia absoluta de la categoría, según la siguiente regla de tres:

\frac{Frecuencia\ absoluta}{Frecuencia\ total\ de\ datos}=\frac{Grados\ del\ sector}{360}

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

\frac{%\ de\ la\ variable}{100%}=\frac{Grados\ del\ sector}{360}

Las fórmulas son muy sencillas pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros.

El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras.

El diagrama de sectores será especialmente útil cuando haya pocas variables. Si hay muchas la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados el gráfico perderá claridad y será más difícil de leer.

Para terminar, deciros que tampoco tiene sentido utilizar una tarta para representar una variable cuantitativa. Para eso existe otro procedimiento más adecuado, que es el de utilizar un histograma, gráfico que mejor representa la distribución de frecuencias de una variable cuantitativa continua. Pero esa es otra historia…

¿Por qué sobra uno?

image_pdf

Hoy vamos a hablar sobre uno de esos misterios de la estadística que muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s).

La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

estimador_sesgadoNosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos σ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de σ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

Del triángulo a la tarta

image_pdf

Las cosas no ocurren porque sí. Y las enfermedades tampoco. ¿Por qué una persona que está sana de repente enferma y otra no? Pues porque hay una serie de factores que se distribuyen en la población que hacen que algunas personas tengan más riesgo de enfermar que otras.

Esto ha llamado la atención de los epidemiólogos desde siempre, de ahí que hayan intentado describir modelos para ilustrar la relación entre enfermos y enfermedades, para tratar de comprender cuáles son las causas de la enfermedad.

El modelo más sencillo lo forma un triángulo perverso entre tres elementos: el agente, el huésped y el ambiente. Estos tres elementos interrelacionan en una forma más o menos compleja para dar lugar a la aparición de la enfermedad.

Este modelo se ideó inicialmente para enfermedades infecciosas, así que el agente es el microorganismo en cuestión que puede producir la enfermedad. Por ejemplo, el plasmodio que produce el paludismo. Como es lógico, diferentes enfermedades dependen de la presencia de diferentes agentes, además de distintas interacciones entre agente, huésped y ambiente.

El huésped es el pobre sujeto que adquiere la enfermedad. No todos los huéspedes son igual de susceptibles a la enfermedad. Puede existir una serie de factores de riesgo intrínsecos al huésped que aumenten o disminuyan el riesgo de enfermar, aunque entre en contacto con el agente. En nuestro ejemplo del paludismo, los sujetos con anemia drepanocítica tienen menor riesgo de contraer el paludismo que los portadores de una hemoglobina normal.

El tercer lado de este triángulo lo constituye el ambiente, cuya función fundamental sería poner en contacto al agente con el huésped para producir la enfermedad. Si no hay mosquitos que trasmitan el parásito no tendremos casos de paludismo, por mucho plasmodio que haya en la charca.

El problema de este modelo tan elegante es que explica mucho mejor las enfermedades infecciosas que otros tipos de padecimientos. Tomemos el ejemplo del tabaco y el cáncer de pulmón. Todos sabemos que fumar provoca cáncer, pero ni todos los que fuman lo sufren ni todos los pacientes con cáncer han sido fumadores. Parece, pues, que esto de las causas es algo bastante más complejo.

Y aquí es donde nos topamos con la tarta. Imaginad todas las causas que se puedan relacionar con una enfermedad como los pedazos de una tarta. Si la tarta tiene las porciones necesarias, la enfermedad se produce. En caso contrario, la enfermedad no llega a producirse.

Pero no todos los pedazos de la tarta tienen la misma importancia. Así, reconocemos varias categorías de causas. Una porción podría ser una causa componente, que es cada uno de los componentes individuales que pueden dar lugar a la enfermedad.

Una causa componente puede estar constituida por factores relacionados con el agente, con el huésped y con el ambiente, pero por si solas no suelen ser suficientes para que la enfermedad aparezca. Uno puede estar expuesto años al agente y no desarrollar la enfermedad. Por ejemplo, la exposición a un virus no garantiza la infección si el huésped no tiene, además, otros factores de susceptibilidad.

Por otro lado estarían las causas necesarias. Sin ellas la enfermedad no se produce aunque concurran varias causas componentes. Pensemos por ejemplo en una infección por un germen oportunista en un inmunodeprimido. El germen no es capaz de producir la infección si el sistema inmune está indemne, luego la inmunodepresión sería causa necesaria para que se produzca la infección.

Por último, el pedazo más grande de la tarta, la causa suficiente. Este trozo completa por sí solo la tarta. Esta causa sola da lugar a la enfermedad sin necesidad de causas componentes o necesarias. Una enfermedad puede tener una o varias causas suficientes. Por último, podemos pensar como causa suficiente la concurrencia de varias causas componentes.

Para acabar, podemos rizar el rizo con esto de los tipos de causas y combinarlos en los siguientes:

– Necesaria y no suficiente: sin la causa no hay enfermedad, pero su presencia no la garantiza. Por ejemplo, el virus del papiloma y el cáncer de útero.

– No necesaria y suficiente: produce la enfermedad, pero esta puede darse también por otros factores causales que pueden actuar por sí solos. Por ejemplo, pensad en un tumor que pueda ser producido por la radiación, pero también por cancerígenos químicos.

– No necesaria y no suficiente: ninguno de los factores del huésped es imprescindible para la enfermedad y ninguno la causa por sí solo. Por ejemplo, todos los factores de riesgo de diabetes o de enfermedad coronaria.

Y aquí dejamos los triángulos y las tartas, no sin antes hacer una pequeña reflexión. Todo lo que hemos dicho sobre causas de enfermedades podríamos haberlo dicho sobre factores protectores contra el desarrollo de la enfermedad. Por ejemplo, la eliminación del tabaco sería un factor componente para la prevención del cáncer de pulmón. Pero esa es otra historia…

La liebre y la tortuga

image_pdf

Todos conocemos la fábula de la liebre y la tortuga. Resulta que, por alguna razón que no alcanzo a comprender, a alguien se le ocurre hacer una carrera con dos participantes: una tortuga y una liebre. Como es lógico, la gran favorita de la carrera es la liebre, infinitamente más rápida que la tortuga. Pero resulta que la liebre se confía en exceso y se echa a dormir, de forma que cuando quiere darse cuenta ya no puede recuperar la ventaja de la tortuga y pierde la carrera contra todo pronóstico. Moraleja: nunca menosprecies a los demás y no te duerma en los laureles, no sea que te pase como a la liebre.

En ocasiones, podemos pensar en el ensayo clínico como una carrera entre los participantes. Esto es así cuando la variable principal de resultado es una variable de tiempo a suceso. Estas variables miden cuántos participantes presentan el suceso en cuestión y, lo que es más importante, el tiempo que tardan en presentarlo. Las variables de tiempo a suceso se llaman también variables de supervivencia, aunque no tienen por qué estar relacionadas con la mortalidad.

Veamos un ejemplo. Supongamos que queremos saber la eficacia de un fármaco sobre el control de la presión arterial. Le damos el fármaco a los del grupo de intervención y un placebo a los del grupo control para ver cuántos se controlan mejor y en cuánto tiempo lo hacen.

Una posibilidad sería utilizar riesgos relativos. Dividimos la proporción de pacientes que se controlan en el grupo de intervención por la proporción que se controla en el de control y obtenemos nuestro riesgo relativo. El problema es que obtendremos información de cuántos más mejoran en un grupo que en otro, pero no nos dirá nada del aspecto temporal. No sabemos si lo hacen pronto o no.

Otra posibilidad es tomar como variable de resultado dicotómica el controlar la presión arterial (sí o no) y calcular un modelo de regresión logística. Con este modelo obtendremos una odds ratio, que nos dará una información similar a la del riesgo relativo, pero que tampoco tendrá en cuenta el aspecto temporal de la aparición del suceso.

El método adecuado de analizar este problema sería establecer la medida dicotómica de control arterial, pero calculando un modelo de regresión de riesgo proporcionales o regresión de Cox. Este modelo de regresión sí tiene en cuenta el tiempo que tarda en producirse el suceso.

El modelo de regresión de Cox calcula el riesgo de presentar el suceso en expuestos a la intervención frente a no expuestos en cada  momento dado. Para esto calcula cuánto más probable es que se produzca el suceso, en el intervalo temporal siguiente, entre los sujetos que todavía no lo han presentado. Llevando esta medida al límite, si vamos acortando el intervalo de tiempo hasta que vale cero llegamos al riesgo instantáneo, que va oscilando con el tiempo, pero del que el modelo nos calcula una extrapolación media. Este índice es el llamado cociente de riesgos instantáneos, más conocido por su nombre en inglés, hazard ratio (HR).

La HR puede tener valores entre cero e infinito. El valor neutro es uno, que indica el mismo riesgo en los dos grupos. Un valor menor que uno indica menor riesgo en el grupo expuesto. Por último, un valor mayor de uno indica mayor riesgo en expuestos, tanto mayor cuanto mayor sea el valor de la HR.

La HR no es una medida de probabilidad, sino una odds, por lo que su interpretación es similar a la de la odds ratio, solo que, además, tiene en cuenta el aspecto temporal. Un error frecuente es pensar que la HR informa de la duración temporal hasta el suceso. Por ejemplo, una HR = 2 no significa que los expuestos desarrollan el suceso dos veces más rápido, sino que los que todavía no lo han presentado tienen el doble de probabilidad de presentarlo que los no expuesto.

Si queremos información sobre la velocidad a la que se produce el suceso podemos recurrir a otro de los índices que nos proporciona la regresión de Cox, que es la mediana de tiempo en que presentan el suceso el 50% de los participantes.

Volviendo a nuestra fábula de la carrera, la HR nos diría quién tiene más probabilidades de ganar la carrera, mientras que la mediana nos diría cuánto ventaja sacaría el ganador al perdedor.

Y aquí dejamos el asunto de la liebre, la tortuga y la regresión de riesgos proporcionales. No hemos hablado nada de la forma de representar los resultados del modelo de regresión de Cox. Para ellos se utilizan un tipo especial de gráficos denominados curvas de supervivencia o de Kaplan-Meier. Pero esa es otra historia…

Una caja con bigotes

image_pdf

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

El fallo de la democracia

image_pdf

Que nadie se preocupe que hoy no vamos a hablar de política. En su lugar, hoy trataremos de algo bastante más interesante. Hoy vamos a hablar de las votaciones en las revisiones narrativas. ¿De qué estoy hablando?. Sigue leyendo y lo comprenderás.

Vamos a ilustrarlo con un ejemplo totalmente ficticio, además de absurdo. Supongamos que queremos saber si los que ven más de dos horas de televisión al día tienen más riesgo de presentar ataques agudos de caspa. Nos vamos a nuestra base de datos favorita, que puede ser TripDatabase o Pubmed y hacemos una búsqueda. Obtenemos una revisión narrativa con seis trabajos, cuatro de los cuales no obtienen un riesgo relativo mayor en los teleadictos de presentar ataques de caspa y dos en los que se encuentran diferencias significativas entre los que ven mucha o poca televisión.

¿Qué conclusión sacamos?. ¿Es o no es un riesgo ver mucha tele?. Lo primero que se nos pasa por la cabeza es aplicar la norma democrática. Contamos cuántos estudios obtienen un riesgo con un valor de p significativo y en cuántos el valor de la p no es estadísticamente significativo (tomando el valor arbitrario de p = 0,05).

Qué bien, parece una solución razonable. Tenemos dos a favor y cuatro en contra, por lo que parece claro que ganan los de “en contra”, así que podemos concluir tranquilamente que el ver la tele no es un factor de riesgo para presentar ataques de caspa. El problema es que podemos estar metiendo la pata, también tranquilamente.

Esto es así porque estamos cometiendo un error bastante habitual. Cuando hacemos un contraste de hipótesis partimos de la hipótesis nula de que no existe efecto. Nosotros al hacer el experimento siempre obtenemos una diferencia entre los dos grupos, aunque sea por puro azar. Así que calculamos la probabilidad de, por azar, encontrar una diferencia como la que hemos obtenido o mayor. Este es el valor de p. Si es menor de 0,05 (según el convenio habitual) decimos que es muy poco probable que se deba al azar, por lo que la diferencia debe ser real.

Resumiendo, una p estadísticamente significativa indica que el efecto existe. El problema, y ahí radica nuestro error en el ejemplo que hemos puesto, es que lo contrario no se cumple. Si la p es mayor de 0,05 (no es estadísticamente significativa) puede significar que el efecto no existe, pero también que el efecto sí que existe pero el estudio no tiene la potencia estadística suficiente para detectarlo.

Como sabemos, la potencia depende del tamaño del efecto y del tamaño de la muestra. Aunque el efecto sea grande, puede no ser estadísticamente significativo si el tamaño de la muestra no es suficiente. Así, ante una p > 0,05 no podemos concluir con seguridad que el efecto no es real (simplemente, no podemos rechazar la hipótesis nula de no efecto).

Visto esto, ¿cómo vamos a hacer una votación contando cuántos estudios hay a favor y cuántos en contra?. En algunos de los que no se detecta significación puede ser por falta de potencia y no porque el efecto sea real. En nuestro ejemplo hay cuatro estudios no significativos frente a dos pero, ¿podemos estar seguros de que los cuatro indican ausencia de efecto?. Ya hemos visto que la respuesta es no.

votacionesLo correcto en estos casos es aplicar técnicas de metanálisis y obtener un valor resumen ponderado de todos los estudios de la revisión. Veamos otro ejemplo con los cinco estudios que veis en la figura que os adjunto. Aunque los riesgos relativos de los cinco estudios indican un efecto protector (son menores de 1, el valor nulo) ninguno alcanza significación estadística porque sus intervalos de confianza cruzan el valor nulo, que es el uno para los riesgos relativos.

Sin embargo, si obtenemos un resumen ponderado, éste tiene mayor precisión que los estudios individuales, por lo que, aunque el valor del riesgo relativo es el mismo, el intervalo de confianza es más estrecho y ya no cruza el valor nulo: es estadísticamente significativo.

Aplicando el método de los votos habríamos concluido que no existe efecto protector, mientras que parece probable que sí existe cuando aplicamos el método adecuado. En resumen, el método de la votación no es fiable y no debe emplearse.

Y esto es todo por hoy. Ya veis que la democracia, aunque buena en política, no lo es tanto al hablar de estadística. No hemos hablado nada de cómo se obtiene un valor resumen ponderado de todos los estudios de la revisión. Hay varios métodos que se siguen según el metanálisis aplique un modelo de efecto fijo o de efectos aleatorios. Pero esa es otra historia…

Torciendo paralelas

image_pdf

Dicen los matemáticos que dos líneas paralelas son aquellas que, por más que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es mucha distancia. No creo que nadie haya prolongado dos paralelas lo suficiente como para estar seguro de esta afirmación. Claro que, por otro lado, si llegan a juntarse es que no eran paralelas, ¿verdad?

Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo clínico cruzado.

En un ensayo clínico en paralelo clásico cada participante se asigna aleatoriamente a una, y solo una, de las ramas del ensayo, la de intervención en estudio o la de control. Sin embargo, podemos cruzar las paralelas y conseguir un diseño que permite que cada paciente reciba tanto la intervención en estudio como la de control siempre, eso sí, estableciendo un orden determinado y durante un periodo de tiempo establecido. ensayo cruzadoAsí, cada sujeto actúa como su propio control, experimentando ambas intervenciones en una secuencia de periodos establecida de modo aleatorio y separado ambos periodos por uno de estabilización o periodo de lavado. Podéis ver un esquema de este diseño en la figura que os adjunto.

Existen algunas variaciones sobre el tema de los ensayos cruzados, según todos los participantes sean sometidos a las dos intervenciones (ensayo completo) o algunos solo a una de ellas (ensayo incompleto). Además, es posible extender este tipo de diseño y probar más de dos intervenciones, dando lugar a distintos órdenes de secuencia que reciben nombres como diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a profundizar en esta entrada.

La ventaja principal de los estudios cruzados radica en una característica que ya hemos comentado: cada sujeto actúa como su propio control. Esto, que puede parecer una chorrada sin importancia, no es tal. Si lo pensamos un poco, lo que hacemos es valorar el efecto de la intervención activa y de la de control en el mismo sujeto, con lo cual obtendremos menor variabilidad que si comparamos los efectos en participantes diferentes, como se hace en el ensayo en paralelo, en el que cada participante se expone solo a una de las dos intervenciones.

Al ser menor la variabilidad, la precisión de las observaciones será mayor, con lo que el tamaño muestral necesario para detectar una determinada diferencia de efecto del tratamiento será menor. Y no un poco menor, sino que la muestra necesaria puede verse reducida de forma importante en comparación con la que haría falta en el ensayo paralelo correspondiente.

Esta reducción del tamaño de la muestra depende de la correlación entre las distintas medidas de resultado del estudio. En el peor de los casos, con una correlación cero, la muestra se ve dividida por la mitad. Si la correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero es que esta reducción es cada vez mayor según el valor de la correlación se vaya aproximando a uno.

Por si fuera poco, además de una estimación más precisa, ésta es menos sesgada, ya que se asume una respuesta constante de cada sujeto a las dos intervenciones probadas, mientras que en el ensayo en paralelo esta respuesta es más variable por medirse en sujetos diferentes.

Pero no todo va a ser ventajas a favor de los diseños cruzados. También plantean algunos inconvenientes. La mayor limitación es el coñazo que se les da a los participantes con tanta intervención y tanto periodo. Y esto es importante no solo por la consideración que podamos sentir hacia los participantes, sino porque aumenta el riesgo de pérdidas durante el estudio. Y resulta que los estudios cruzados son más sensibles a las pérdidas durante el seguimiento que los paralelos, sobre todo si el número de participantes que completan cada secuencia es diferente.

Otra limitación es que es importante que los sujetos sean similares al comienzo de cada periodo, por lo que estos estudios solo sirven si se trata de enfermos crónicos con síntomas estables. Tampoco sirven si la variable de resultado produce un efecto permanente. Pensemos en la más permanente de todas, la mortalidad. Si el participante se muere en el primer periodo, será más que difícil valorar su respuesta en el periodo siguiente.

Además, alguna de sus ventajas, como el reducido tamaño muestral, se torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en estudios de fase III, en los que queramos valorar seguridad, tolerancia, eficacia, detección de efectos adversos impredecibles, etc. En estos casos, la muestra pequeña no solo no es imprescindible, sino que puede resultar inadecuada.

Por último, referirnos a tres debilidades desde el punto de vista de diseño, los llamados efecto residual, efecto secuencia y efecto periodo.

El efecto residual se produce cuando en un periodo persiste el efecto de la intervención del periodo anterior. Pensemos que hemos dado un fármaco y quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando el periodo de lavado, pero hay ocasiones en que esto no es tan fácil. Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo periodo sea más favorable por el simple hecho de estar incluido en el estudio (efecto placebo).

El efecto secuencia se produce cuando el orden de las intervenciones afecta el resultado final, con lo que solo podríamos valorar adecuadamente los resultados de la primera intervención.

Por último, puede ocurrir que las características del paciente cambien a lo largo del estudio, modificando su respuesta a las diferentes intervenciones. Nos encontramos ante un efecto periodo.

Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a tamaño muestral que los ensayos paralelos, siempre que se cumplan las condiciones óptimas para su empleo. Son muy útiles para estudios de fase I y fase II en los que queremos conocer la farmacocinética y farmacodinámica, la seguridad, la titulación de dosis, etc. En fases posteriores del desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya hemos comentado, no se trata de enfermedades crónicas con sintomatología estable.

Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis estadístico de los resultados. En el caso del ensayo en paralelo los resultados de las dos ramas pueden compararse directamente, pero esto no es así con los ensayos cruzados, en los que deberemos asegurarnos de que no se haya producido efectos residual, efecto secuencia o efecto periodo. Pero esa es otra historia…