Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasRegresión de Cox
image_pdf

Una relación simple

Hoy vamos a volver a hablar de la relación que puede existir entre dos variables. Vimos en una entrada anterior como podíamos medir la relación entre dos variables mediante el procedimiento de correlación, que nos medía la fuerza de relación entre dos variables cuando ninguna de las dos puede considerarse predictora de la otra. Esto es, cuando los valores de una no nos sirven para calcular los valores de la otra, aunque las dos varíen de una forma predecible.

Una cosa parecida, de la que vamos a hablar en esta entrada, es la regresión. Esta no solo explica la relación que hay entre dos variables, sino que podemos cuantificar cómo varía una de las variables, que llamaremos dependiente, con las variaciones de la otra variables, que será la independiente.

Pero todavía podemos llegar un paso más allá: los valores de la variable independiente nos pueden servir para predecir el correspondiente valor de la variable dependiente. Supongamos que medimos peso y talla y calculamos el modelo de regresión entre el peso y la talla. Si sabemos la talla de un individuo podemos utilizar la ecuación de regresión para estimar cuál será su peso (en este caso la talla es la variable independiente y el peso la dependiente).

Si llamamos x a la variable independiente e y a la variable dependiente, los modelos de regresión simple pueden representarse mediante la siguiente ecuación:

Función(y) = a + bx

En esta ecuación, a representa el valor de la función de y cuando x vale cero. Se suele llamar interceptor porque es el punto donde la representación gráfica de la recta de regresión cruza el eje de las y. Por su parte, b representa la llamada pendiente, que es la cantidad que varía y con las variaciones de x (si x aumenta en b unidades, y aumenta en b unidades).

¿Y qué significa función(y)?. Pues depende del tipo de variable que sea la variable dependiente. Sabemos que las variables se clasifican en cuantitativas (o continuas), cualitativas (nominales u ordinales) y de tiempo a suceso (también llamadas de supervivencia). Pues bien, según el tipo de la variable dependiente la función(y) será diferente porque aplicaremos un modelos de regresión simple diferente.

En el caso de variables continuas, el modelo de regresión que aplicamos es el de regresión lineal simple y la función de y será su media aritmética. La ecuación será la siguiente:

y = a + bx

Volviendo al ejemplo del peso y la talla, si sustituimos x por el valor de talla deseado y resolvemos la ecuación obtendremos el peso medio de los individuos de esa talla.

En el caso de que la variable dependiente sea cualitativa binaria utilizaremos un modelo de regresión logística. En este caso codificaremos la variable dependiente como cero y uno y la función de y ya no será la media, sino el logaritmo neperiano de la odds ratio del valor uno de la variable. Imaginemos que calculamos la relación entre peso (variable independiente) y sexo (variable dependiente). En este caso podríamos codificar como uno si es mujer y cero si es hombre, representando la recta de regresión de la siguiente forma:

Ln(OR) = a + bx

Si sustituimos x por el peso en cuestión y resolvemos la ecuación, obtendremos el logaritmo de la OR de ser mujer (el valor 1). Para obtener la OR debemos elevar el número e al resultado de la ecuación (hacer el antilogaritmo), obteniendo así la OR de que sea mujer. A partir de aquí es sencillo calcular el valor de la probabilidad de que sea mujer (p = OR/1+OR)  u hombre (uno menos el valor de la probabilidad de que sea mujer).

Esta función del ln(OR) se expresa en muchas ocasiones como ln(p/1-p), ya que la odds ratio es la probabilidad de que un suceso ocurra (p) dividida de la probabilidad de que no ocurra (1-p). A esta función se la denomina logit, por lo que podemos ver también representada la regresión logística de la siguiente forma:

Logit(y) = a + bx

Por último, podemos encontrarnos el caso de que la variable dependiente sea una variable de tiempo a suceso. En este caso hay que utilizar un modelo de regresión de riesgos proporcionales de Cox. La estructura es muy similar a la de la regresión logística, solo que la función de y es el logaritmo de la hazard ratio en lugar del de la odds ratio:

Ln(HR) = a + bx

Igual que hacíamos con la regresión logística, para calcular el valor de la hazard ratio hay que hacer el antilogaritmo natural del producto de la ecuación de regresión (e elevado al resultado de la ecuación).

Y, aunque hay muchos más, estos son los tres modelos de regresión más utilizados. En todos estos casos hemos hablado de ecuaciones con una variable independiente, por lo que decimos que hablamos de regresión simple. Pero podemos meter todas las variables independientes que queramos, según la siguiente fórmula:

Función(y) = a + bx1 + cx2 + … + nxn

Claro que ya no hablaríamos de regresión simple, sino de regresión múltiple, pero todo lo que hemos descrito sería igual de aplicable.

Y aquí lo vamos a dejar. Podríamos hablar del valor del interceptor y de la pendiente según la variable independiente sea continua o cualitativa, ya que se leen de forma un poco diferente. Pero esa es otra historia…

La liebre y la tortuga

Todos conocemos la fábula de la liebre y la tortuga. Resulta que, por alguna razón que no alcanzo a comprender, a alguien se le ocurre hacer una carrera con dos participantes: una tortuga y una liebre. Como es lógico, la gran favorita de la carrera es la liebre, infinitamente más rápida que la tortuga. Pero resulta que la liebre se confía en exceso y se echa a dormir, de forma que cuando quiere darse cuenta ya no puede recuperar la ventaja de la tortuga y pierde la carrera contra todo pronóstico. Moraleja: nunca menosprecies a los demás y no te duerma en los laureles, no sea que te pase como a la liebre.

En ocasiones, podemos pensar en el ensayo clínico como una carrera entre los participantes. Esto es así cuando la variable principal de resultado es una variable de tiempo a suceso. Estas variables miden cuántos participantes presentan el suceso en cuestión y, lo que es más importante, el tiempo que tardan en presentarlo. Las variables de tiempo a suceso se llaman también variables de supervivencia, aunque no tienen por qué estar relacionadas con la mortalidad.

Veamos un ejemplo. Supongamos que queremos saber la eficacia de un fármaco sobre el control de la presión arterial. Le damos el fármaco a los del grupo de intervención y un placebo a los del grupo control para ver cuántos se controlan mejor y en cuánto tiempo lo hacen.

Una posibilidad sería utilizar riesgos relativos. Dividimos la proporción de pacientes que se controlan en el grupo de intervención por la proporción que se controla en el de control y obtenemos nuestro riesgo relativo. El problema es que obtendremos información de cuántos más mejoran en un grupo que en otro, pero no nos dirá nada del aspecto temporal. No sabemos si lo hacen pronto o no.

Otra posibilidad es tomar como variable de resultado dicotómica el controlar la presión arterial (sí o no) y calcular un modelo de regresión logística. Con este modelo obtendremos una odds ratio, que nos dará una información similar a la del riesgo relativo, pero que tampoco tendrá en cuenta el aspecto temporal de la aparición del suceso.

El método adecuado de analizar este problema sería establecer la medida dicotómica de control arterial, pero calculando un modelo de regresión de riesgo proporcionales o regresión de Cox. Este modelo de regresión sí tiene en cuenta el tiempo que tarda en producirse el suceso.

El modelo de regresión de Cox calcula el riesgo de presentar el suceso en expuestos a la intervención frente a no expuestos en cada  momento dado. Para esto calcula cuánto más probable es que se produzca el suceso, en el intervalo temporal siguiente, entre los sujetos que todavía no lo han presentado. Llevando esta medida al límite, si vamos acortando el intervalo de tiempo hasta que vale cero llegamos al riesgo instantáneo, que va oscilando con el tiempo, pero del que el modelo nos calcula una extrapolación media. Este índice es el llamado cociente de riesgos instantáneos, más conocido por su nombre en inglés, hazard ratio (HR).

La HR puede tener valores entre cero e infinito. El valor neutro es uno, que indica el mismo riesgo en los dos grupos. Un valor menor que uno indica menor riesgo en el grupo expuesto. Por último, un valor mayor de uno indica mayor riesgo en expuestos, tanto mayor cuanto mayor sea el valor de la HR.

La HR no es una medida de probabilidad, sino una odds, por lo que su interpretación es similar a la de la odds ratio, solo que, además, tiene en cuenta el aspecto temporal. Un error frecuente es pensar que la HR informa de la duración temporal hasta el suceso. Por ejemplo, una HR = 2 no significa que los expuestos desarrollan el suceso dos veces más rápido, sino que los que todavía no lo han presentado tienen el doble de probabilidad de presentarlo que los no expuesto.

Si queremos información sobre la velocidad a la que se produce el suceso podemos recurrir a otro de los índices que nos proporciona la regresión de Cox, que es la mediana de tiempo en que presentan el suceso el 50% de los participantes.

Volviendo a nuestra fábula de la carrera, la HR nos diría quién tiene más probabilidades de ganar la carrera, mientras que la mediana nos diría cuánto ventaja sacaría el ganador al perdedor.

Y aquí dejamos el asunto de la liebre, la tortuga y la regresión de riesgos proporcionales. No hemos hablado nada de la forma de representar los resultados del modelo de regresión de Cox. Para ellos se utilizan un tipo especial de gráficos denominados curvas de supervivencia o de Kaplan-Meier. Pero esa es otra historia…