Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasIndependencia
image_pdf

El valor de la independencia

Los médicos estamos todo el día midiendo cosas. Es lo que mejor se nos da. Si fuésemos tan capaces para curar a nuestros pacientes como para medir cosas en ellos, la mitad de los médicos estaríamos de más por falta de enfermos. Solo hay una cosa que nos gusta más que medir: prohibir. Nos encanta prohibir a la gente todo aquello que les gusta, con las excusas más variadas. Y ahora que se van aproximando las fiestas de fin de año llega nuestra hora feliz de prohibir a diestro y siniestro: que si el alcohol, que si el turrón, que si las fiestas, que si esto o aquello.

Pero, hasta que llegue el momento, tendremos que conformarnos con medir. Habitualmente medimos variables, que son datos que, como su propio nombre indica, varían de persona a persona. Una vez que hemos medido muchas variables en un grupo de personas tenemos que empezar a trabajar con los datos para poder sacar alguna conclusión de provecho.

Lo primero que haremos será describir los datos con medidas de tendencia central y medidas de dispersión. Acto seguido aplicaremos pruebas estadísticas diversas para comparar unas variables con otras. Y es aquí donde juega un papel fundamental el concepto de independencia de las variables estudiadas, ya que los procedimientos estadísticos pueden variar enormemente según trabajemos con variables dependientes o variables independientes y, si no lo tenemos en cuenta, podemos cometer graves errores a la hora de hacer cualquier tipo de inferencia estadística.

Dicho de una forma muy sencilla, dos variables son independientes cuando el conocer una de ellas no nos da ninguna información sobre el valor que puede tener la otra. Por el contrario, son dependientes cuando el valor de una puede darnos una idea de cómo va a ser la otra.

Imaginemos dos variables dependientes: el peso y el índice de masa corporal. Si sabemos que un individuo pesa 18 kilos, ya podemos imaginar que su índice de masa corporal va a ser minúsculo (a excepción, claro está, que sea uno de los enanitos del cuento). Al revés, si tiene un índice de 60, ya podremos ir reparando la báscula después de haberle pesado.

Este ejemplo es muy claro, pero no siempre es tan fácil discernir si dos variables son dependientes o independientes. Supongamos que medimos la altura de los alumnos de una clase. La talla de un chico cualquiera no nos dice cómo va a ser la de otra chica cualquiera de la clase, salvo que sean hermanos o algo parecido. Podremos comparar las tallas de ambos sexos considerándolas variables independientes.

Ahora pensad que hacemos un estudio longitudinal de crecimiento con los mismos alumnos. Los valores de la talla de cada uno nos indicarán más o menos como serán sus valores sucesivos, así que no podremos considerar como independientes los pares de valores de cada alumno en particular.

Por último, vamos a plantear un ejemplo algo más complejo. Supongamos que medimos la talla a un grupo de madres y a sus hijos. A primera vista podría considerarse que las medias de tallas en niños y madres son independientes pero, ¿qué pasaría si las madres más bajas tuviesen más hijos que las más altas?. Probablemente la media de talla en los hijos sería diferente a la que obtendríamos si todas tuviesen el mismo número de hijos.

Otro ejemplo no tan evidente de dependencia es la de los estudios hechos por conglomerados. Imaginaos que estudiamos una técnica diagnóstica y la aplicamos en unos hospitales y en otros no para evitar la contaminación dentro del mismo centro. Habría que tener en cuenta esta relación entre centro y técnica utilizada a la hora de realizar conclusiones sobre los resultados obtenidos.

Para finalizar la entrada de hoy, solo advertiros que no debéis confundir el concepto de independencia que hemos explicado con los conceptos de variable dependiente e independiente de los modelos de regresión. En estos casos el término variable dependiente hace referencia a la variable de resultado, mientras que el de independiente se refiere a la variable explicativa. Pero esa es otra historia…

¿Estudias o trabajas?

Supongo que a los más jóvenes esta frase no os dirá nada o, a lo sumo, os hará reír de lo pasada de moda que está. Pero a los de mi quinta, y a otros más mayores, seguro que les trae buenos recuerdos. Qué tiempos aquellos cuando empezabas una conversación con esta frase, sabiendo que te importaba bien poco cuál era la respuesta, con tal de que no te mandasen a hacer puñetas. Aquello podía ser el origen de una gran amistad… y de otras cosas.

Así que como se da el caso de que yo, por suerte o por desgracia, llevo eones sin pronunciarla, voy a inventarme uno de mis ejemplos sin sentido para tener la excusa de volverla a utilizar y, de paso, meteros un rollo sobre las bondades de la chi cuadrado. Veréis cómo.

Supongamos que por alguna razón quiero saber si el nivel de estudios influye en tener hábitos como el fumar o beber bebidas alcohólicas. Así que tomo una muestra aleatoria de 585 chicas de 21 años y les pregunto, y aquí viene lo bueno: ¿estudias o trabajas?.  Clasifico así el nivel de estudios (universitarios y de escuela secundaria) y, acto seguido, registro si tienen uno de los dos hábitos, los dos o ninguno. Con los resultados construyo mi consabida tabla de contingencia.estudias

Vemos que, en nuestra muestra, las universitarias tienen más incidencia de hábito tabáquico y de ingesta de alcohol. Solo un 19% (72 de las 362) no sigue ninguno de los. Este porcentaje sube al 38% (85 de 223) entre las de secundaria. Por lo tanto, el consumo de tabaco y alcohol es más frecuente en las primeras pero, ¿esto es extrapolable a la población general o las diferencias que observamos pueden deberse al azar por el error del muestreo aleatorio?. Para responder a esta pregunta es para lo que recurrimos a nuestra prueba de la chi cuadrado.

Lo primero que hacemos es calcular los valores esperados, multiplicando el valor marginal de cada fila por el marginal de la columna y dividiendo por el total. Por ejemplo, para la primera celda el cálculo sería (125×362)/585 = 77,3. Así hacemos para todas las celdas.

Una vez que tenemos los valores esperados, lo que nos interesa saber es cuánto se alejan de los observados y si esa diferencia puede explicarse por el azar. Claro que si calculamos las diferencias y las sumamos, las positivas y las negativas se nos van a anular unas con otras y el valor total será cero. Por eso recurrimos al mismo truco que se emplea para el cálculo de la desviación estándar: elevar las diferencias al cuadrado, con lo que los signos negativos desaparecen.

Pero, además, un mismo valor de diferencia puede tener mayor o menor importancia según los valores esperados. Hay más error si esperamos uno y obtenemos tres que si esperamos 25 y obtenemos 27, aunque la diferencia en ambos casos sea dos. Para compensar este efecto lo que hacemos es estandarizar las diferencias dividiéndolas por el valor esperado.

Y ahora sí, sumamos todos estos valores y obtenemos el total de todas las celdas, que en nuestro ejemplo es de 26,64. Solo nos queda responder a la pregunta de si 26,64 es mucho o es poco para poder ser explicado por el azar.

Sabemos que este valor sigue, aproximadamente, una distribución de frecuencias de chi cuadrado con un número de grados de libertad de (filas-1) más (columnas-1), dos en nuestro caso. Así que solo tenemos que calcular la probabilidad de encontrar ese valor o, lo que es lo mismo, la p.

En este caso voy a utilizar R, un programa de estadística que podéis encontrar y bajaros de Internet. El comando es

pchisq(c(26.64), df=2, lower.tail=FALSE)

El resultado es una p menor de 0,001. Como p<0,05, rechazamos nuestra hipótesis nula que, como suele ser habitual, dice que las dos variables (nivel de estudios y hábitos nocivos) son independientes y las diferencias se deben al azar.

¿Y qué quiere decir esto?. Pues simplemente que las dos variables no son independientes. Pero que a nadie se le ocurra pensar que esto implica causalidad entre las dos. Esto no quiere decir que estudiar más te haga fumar o beber, sino simplemente que la distribución de las dos variables es distinta de la que podría esperarse solo por azar. La explicación puede estar en estas o en otras variables que no hayamos considerado. Por ejemplo, se me ocurre que la edad de los dos grupos podría ser una explicación más lógica de este ejemplo que, por otra parte, es solo producto de mi imaginación.

Y una vez que sabemos que las dos variables son dependientes, ¿la relación será más fuerte cuanto mayor sea la chi o menor la p?. Ni hablar. Cuanto mayor sea la chi o menor la sea la p, menor será la probabilidad de equivocarnos y cometer un error de tipo 1. Si queremos conocer la fuerza de la asociación tenemos que recurrir a otros indicadores, como el riesgo relativo o la odds ratio. Pero esa es otra historia…

Una relación sin compromiso

Sabemos ya de la relación entre variables. ¿Quién duda que fumar mata, o que la tele seca el cerebro?. La cuestión radica en que estas relaciones hay que intentar cuantificarlas de una forma objetiva ya que, en caso contrario, siempre habrá alguien que pueda ponerlas en duda. Para ello, habrá que utilizar algún parámetro que estudie si nuestras dos variables varían de forma relacionada.

Cuando las dos variables son dicotómicas la solución es sencilla: podemos usar la odds ratio. En el caso de la tele y el daño cerebral podríamos utilizarla para calcular si realmente es más probable que tengan los sesos secos los que ven la tele que los que no (aunque yo no perdería el tiempo). Pero, ¿qué ocurre si las dos variables son continuas?. Aquí no nos vale la odds ratio, sino que hay que emplear otras herramientas. Veámoslo con un ejemplo.

R_generalSupongamos que tomo la presión arterial a una muestra de 300 personas y represento los valores de presión sistólica y diastólica, tal y como os muestro en el primer gráfico. Viendo el gráfico a simple vista uno ya se da cuenta de que aquí hay tomate. Si os fijáis, los valores altos de presión sistólica se suelen asociar con valores altos de diastólica y, al contrario, los valores bajos de sistólica se asocian con valores bajos de diastólica. Yo diría que varían de forma similar: a mayores valores de una, mayores de la otra, y viceversa. Para verlo mejor, fijaos en los dos gráficos siguientes.R_estandar_simple

En el primero se muestran los valores de presión estandarizados (cada valor menos la media). Ya vemos que la mayor parte de los puntos están en los cuadrantes inferior izquierdo y superior derecho. Estos todavía se ve mejor en el segundo gráfico, en el que me he comido los valores de sistólica entre ±10 mmHg y de diastólica entre ±5 mmHg alrededor del cero, que serían las medias estandarizadas. Vamos a ver si podemos cuantificar esto de alguna manera.

Recordáis que la varianza medía cuánto variaban los valores de una distribución respecto de la media. A cada valor se le restaba la media, se elevaba al cuadrado para que fuese siempre positivo (y no se anulasen las diferencias positivas con las negativas), se sumaban todas estas diferencias y se dividía por el tamaño de la muestra (en realidad, por el tamaño de la muestra menos uno, y no preguntéis porqué, solo los matemáticos lo saben). Ya sabéis que la raíz cuadrada de la varianza es la desviación típica o desviación estándar, la reina de las medidas de dispersión.

Pues bien, con una pareja de variables podemos hacer una cosa similar. Calculamos, para cada pareja, las diferencias con sus medias y multiplicamos estas diferencias (es el equivalente a la elevación al cuadrado de la diferencia que hacíamos con la varianza). Por último, sumamos todos estos productos y los dividimos entre el tamaño de la muestra menos uno, obteniendo así está versión de la varianza de las parejas que se llama, como no podía ser de otra forma, covarianza.

varianza = \frac{1}{n-1}\sum_{i=1}^{n}{(x_{i}-\overline{x})}^{2}      covarianza = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{\mu }_{x})(x_{i}-\overline{\mu }_{y})

¿Y qué nos dice el valor de la covarianza?. Pues, poca cosa, ya que dependerá de las magnitudes de las variables, que pueden ser diferentes según de qué estemos hablando. Para esquivar este problemilla recurrimos a una solución muy socorrida en este tipo de situaciones: estandarizar.

De esta forma, dividimos las diferencias respecto a la media por sus desviaciones estándar, obteniendo así el mundialmente famoso coeficiente de correlación lineal de Pearson.

coeficiente\ de\ correlación\ de\ Pearson = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{{}x_{i}-\overline{\mu }_{x}}{\sigma _{x}})(\frac{{}y_{i}-\overline{\mu }_{y}}{\sigma _{y}})

Bueno es que sepáis que, en realidad, Pearson solo hizo el desarrollo inicial y que el verdadero padre del coeficiente de marras fue Francis Galton. El pobre estuvo toda su vida intentando hacer algo importante porque tenía celos de su primo, mucho más famoso, un tal Charles Darwin, que me parece que escribió algo sobre unas especies que se comen unas a otras y que decía que el secreto está en procrear lo más posible para sobrevivir.

R_ejemplos_independEl coeficiente de correlación de Pearson, r para los amigos, puede tener cualquier valor entre -1 y 1. Cuando vale cero quiere decir que las variables no están correlacionadas, pero no confundáis esto con que sean o no independientes; como dice el título de esta entrada, la relación del coeficiente de Pearson no compromete a las variables a nada serio. No tienen nada que ver correlación e independencia, son conceptos diferentes. Si nos fijamos en las dos gráficas de ejemplo podremos ver que r es igual a cero en las dos. Sin embargo, aunque en la primera las variables sean independientes, esto no es cierto en la segunda, la que representa la función y = |x|.

Si r es mayor que cero quiere decir que la correlación es positiva, de forma que las dos variables varían en el mismo sentido: cuando una aumenta, también lo hace la otra y, al revés, cuando una disminuye también disminuye la segunda. Se dice que esta correlación positiva es perfecta cuando r vale 1. Por otra parte, cuando r es negativo quiere decir que las variables varían en sentido opuesto: cuando una aumenta la otra disminuye, y viceversa. Una vez más, la correlación es perfecta cuando r vale -1.

Es fundamental entender que correlación tampoco implica obligatoriamente causalidad. Ya dijo Stephen J. Gould, en su libro “La falsa medida del hombre”, que asumir este hecho es uno de los dos o tres errores más graves y frecuentes del razonamiento humano. Y debe ser verdad porque, por más que he buscado, no he encontrado ningún primo suyo que le hiciese sombra, lo que me induce a pensar que lo dijo porque estaba convencido de ello. Así que ya lo sabéis, aunque cuando hay causalidad suele haber correlación, al revés no siempre ocurre lo mismo.

R_histohramasOtro error que podemos cometer es utilizar este coeficiente sin hacer una serie de comprobaciones previas. La primera es que la correlación entre las dos variables debe ser lineal. Esto es fácil de comprobar representando gráficamente los puntos y viendo que no se parece a una parábola, hipérbole o cualquier otra forma curva. La segunda es que, al menos, una de las variables debe seguir una distribución de frecuencias normal. Para esto podemos utilizar pruebas estadísticas como la de Kolmogorov-Smirnov o de Shapiro-Wilks, pero muchas veces basta con representar los histogramas con las curvas de frecuencias y ver si se ajustan. En nuestro caso, la diastólica puede que se ajuste a una normal, pero por la sistólica no pondría la mano en el fuego. Otra pista nos la da la nube de puntos del gráfico inicial: la forma elíptica o en balón de rugby nos indica que, probablemente, las variables siguen una distribución normal. Por último, la tercera comprobación es asegurar que las muestras son aleatorias. Además, solo podemos usar r dentro del rango de datos obtenidos. Si extrapolamos fuera de este rango podemos cometer errores.

Una última advertencia: no confundáis correlación con regresión. La correlación investiga la fuerza de la relación lineal entre dos variables continuas y no es útil para estimar el valor de una variable basándose en el valor de la otra. Por otra parte, la regresión (lineal, en este caso) investiga la naturaleza de la relación lineal entre dos variables continuas. La regresión sí nos sirve para predecir el valor de una variable (la dependiente) basándonos en la otra (la variable independiente). Esta técnica nos proporciona la ecuación de la recta que mejor se adapta a la nube de puntos, con dos coeficientes que nos indican el punto de corte con el eje de ordenadas y la pendiente de la recta.

¿Y qué pasa si las variables no siguen una distribución normal?. Pues que no podemos usar el coeficiente de Pearson. Pero no desesperéis, tenemos el coeficiente de Spearman y toda una batería de pruebas basadas en los rangos de los datos. Pero esa es otra historia…