Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasTabla de contingencia
image_pdf

El porqué de las cosas

¿Recordáis la pasada entrada en la que hablábamos de chicas estudiantes con hábitos nocivos para la salud?. Para aquellos de memoria floja, hagamos un breve recordatorio.

Resulta que entrevistábamos a 585 chicas y averiguábamos su nivel de estudios y si bebían, fumaban, ambas cosas o ninguna. Con los resultados construíamos la tabla de contingencia que os vuelvo a mostrar aquí.estudias

Nosotros queríamos saber si había alguna relación entre el nivel de estudios y el tener hábitos nocivos, para lo cual empezábamos por establecer nuestra hipótesis nula de que ambas variables cualitativas eran independientes.

Así que procedíamos a realizar una prueba de la chi cuadrado para llegar a una conclusión. Lo primero que teníamos que hacer era calcular los valores esperados de cada celda, cosa que es muy sencilla, ya que solo hay que multiplicar el total de la fila por el total de la columna y dividirlo por el total de la tabla… Alto! ¿Y por qué?. ¿De dónde sale esta regla?. ¿Sabéis por qué ese producto dividido por el total equivale al número esperado de esa celda?. Está bien tener reglas que nos faciliten las tareas, pero a mí me gusta saber de dónde salen las cosas y seguro que pocos os habéis parado a pensarlo. Vamos a verlo.

Partimos de la base de que vamos a razonar bajo el supuesto de la hipótesis nula de que las variables hábito nocivo y nivel de estudios son independientes. Vamos a calcular el valor esperado de la celda que corresponde a las estudiantes de secundaria con dos hábitos nocivos.

Como ambas situaciones (haber estudiado hasta secundaria y fumar y beber) son independientes, la probabilidad de que las dos ocurran será igual a la probabilidad de una por la probabilidad de la otra:

P(secundaria y dos hábitos) = P(secundaria) x P(dos hábitos)

Sabemos que P(secundaria) será igual al número total de chicas con nivel de secundaria dividido por el total de entrevistadas. Igualmente, P(dos hábitos) será igual a todas las que beben y fuman dividido por el total de entrevistadas (el total de la tabla). Si sustituimos la expresión anterior por sus valores, obtenemos:

P(secundaria y dos hábitos) = (223/585) x (303/585)

Ya sabemos cuál es la probabilidad de cada una de pertenecer a esa celda. ¿Cuál es el número esperado?. Pues muy sencillo, la probabilidad de cada una multiplicado por el número total de chicas entrevistadas:

P(secundaria y dos hábitos) = 585 x (223/585) x (303/585)

Y si anulamos los 585 de numerador y denominador y simplificamos la expresión, nos quedará:

P(secundaria y dos hábitos) = (223 x 303) / 585

Que no es otra cosa que el marginal de la fila por el marginal de la columna y dividido por el total de la tabla y cuyo resultado, en nuestro ejemplo, es de 115,5.

Veis, pues, de donde sale la regla para calcular el número de ocurrencias esperadas en una tabla de contingencia. Claro que ya sabéis que para averiguar si son o no variables independientes todavía quedaría estandarizar los cuadrados de las diferencias, calcular la suma y obtener su probabilidad según la distribución de la chi cuadrado. Pero esa es otra historia…

La tabla

Existen gran cantidad de tablas. Y tienen un gran papel a lo largo de nuestra vida. Quizás la que primero nos asalta en nuestra más tierna infancia es la tabla de multiplicar. ¿Quién no recuerda con nostalgia, al menos los más mayorcitos, como  repetíamos como loros aquello del dos por uno es dos, dos por… hasta que lo aprendíamos de memoria?. Pero no hicimos más que dominar las múltiples tablas de multiplicar cuando nos topamos con la tabla periódica de los elementos. Otra vez a aprender de memoria, esta vez ayudados de reglas nemotécnicas imposiblemente idiotas sobre Indios que Ganaban Buena Altura y no sé qué.

Pero es con los años cuando llega una de las peores de todas: la tabla de composición de alimentos, con su celda llena de calorías. Esta tabla nos persigue hasta en sueños. Y todo porque comer mucho tiene gran número de inconvenientes, demostrados la mayor parte de ellos gracias a la ayuda de otro tipo de tabla: la tabla de contingencia.

Las tablas de contingencia son usadas muy frecuentemente en Epidemiología para analizar la relación entre dos o más variables. Están formadas por filas y columnas. En las filas se suelen colocar los grupos por nivel de exposición al factor de estudio y en las columnas las diferentes categorías que tienen que ver con el estado de enfermedad o daño que investigamos. Filas y columnas se cruzan para formar celdas donde se representa la frecuencia de esa determinada combinación de variables.

Lo más habitual es que se representen dos variables (nuestra querida tabla 2×2), una dependiente y otra independiente, pero esto no siempre es así. Puede haber más de dos variables y, en ocasiones, puede no existir una dirección de dependencia entre las variables antes de realizar el análisis.

Las tablas 2×2 simples permiten analizar la relación entre dos variables dicotómicas. Según su contenido y el diseño del estudio al que pertenezcan, sus celdas pueden tener significados ligeramente diferentes, lo mismo que ocurre con las medidas que podemos calcular a partir de los datos de la tabla.

contingencia_transversalLas primeras serían las tablas de estudios transversales. En este tipo de estudios se representa una especie de foto fija de nuestra muestra que nos permite estudiar la relación entre las variables. Son, pues, estudios de prevalencia y, aunque los datos se recojan a lo largo de un periodo de tiempo, los resultados representan esa foto fija a la que ya nos hemos referido. En las columnas se coloca la variable dependiente (enfermedad o daño producido) y en las filas la independiente (el grado de exposición), con lo que podemos calcular una serie de medidas de frecuencia, de asociación y de significación estadística.

Las medidas de frecuencia son la prevalencia de enfermedad entre expuestos (EXP) y no expuestos (NEXP) y la prevalencia de exposición entre enfermos (ENF) y no enfermos (NENF). Estas prevalencias representan el número de personas enfermas, sanas, expuestas y no expuestas en relación con el total de cada grupo, por lo que son tasas estimadas en un momento puntual.

Las medidas de asociación son las razones de las prevalencias que acabamos de mencionar según enfermedad y exposición y la odds ratio, que nos dice cuánto más probable es que se produzca la enfermedad respecto a que no se produzca en EXP frente a NEXP. Un valor de estas medidas mayor de uno indica que el factor es de riesgo para que se produzca la enfermedad. Si vale de cero a uno querrá decir que el factor es de protección. Y si vale uno, pues que ni carne ni pescado.

Por último, como en todos los tipos de tablas que vamos a mencionar, se pueden calcular medidas de asociación estadística, fundamentalmente la chi-cuadrado con o sin corrección, la prueba exacta de Fisher y el valor de la p, uni o bilateral.

Muy parecidas a estas que hemos visto son las tablas de los estudios de casos y controles. En estos se trata de ver si diferentes grados de la exposición explican diferentes grados de enfermedad. En la columnas se colocan los casos y los controles y en las filas los EXP y NEXP.

contingencia_casos_controlesLas medidas de frecuencia que podemos calcular son la proporción de casos expuestos (respecto al total de casos) y la proporción de controles expuestos (respecto al total de controles). Lógicamente, podemos calcular también las proporciones de NEXP calculando los complementarios de los anteriores.

La medida de asociación fundamental es la odds ratio, que ya conocemos y en la que no nos vamos a detener mucho. Ya sabéis que, de forma simplificada, podemos calcularla como el cociente de los productos cruzados de la tabla y que nos indica cuánto es más probable contraer la enfermedad en EXP que en NEXP. La otra medida sería la fracción atribuible en los expuestos (FAExp), que nos indica el número de enfermos que son debidos a la acción directa de la exposición.

Podemos, en este tipo de tablas, calcular, además, una medida de impacto: la fracción atribuible en la población (FAPob), que sería el impacto potencial que tendría sobre la población el eliminar el factor de exposición. Si es un factor de riesgo sería un impacto positivo y, a la inversa, si es protector, negativo.

Comentar que las medidas de significación estadística dependerán de que los datos sean pareados (utilizaremos la prueba de McNemar) o no pareados (chi-cuadrado, prueba exacta de Fisher y valor de p).

contingencia_cohortes_acumulada

El tercer tipo de tablas de contingencia es el que corresponde a los estudios de cohortes, aunque la estructura difiere un poco si son estudios de casos nuevos producidos durante todo el periodo de estudio (incidencia acumulada) o si consideran el periodo de tiempo del estudio, el momento de aparición de la enfermedad y el diferente seguimiento de los grupos (tasa de incidencia o densidad de incidencia).

Las tablas de los estudios de incidencia acumulada (IA) son similares a las que hemos visto hasta ahora. En las columnas se representa el estado de enfermedad y en las filas el de exposición. Por otra parte, las de densidad o tasa de incidencia (TI) representan en una de las columnas el número de enfermos y en la otra el seguimiento en personas-año, de forma que los que tienen un seguimiento más prolongado tienen un mayor peso a la hora de calcular las medidas de frecuencia, asociación, etc.

contingencia_cohortes_densidadLas medidas de frecuencia serían los riesgos en EXP (Re) y en NEXP (Ro) para los casos de IA y las tasas de incidencia en EXP (TIe) y NEXP (TIo) en los de TI.

Los cocientes de las medidas anteriores nos permiten calcular las medidas de asociación: riesgos relativos (RR), reducción absoluta de riesgo (RAR) y reducción relativa de riesgo (RRR) para los estudios de IA y reducciones absolutas y relativas de las TI para los estudios de densidad. Podemos calcular también la FAExp como hacíamos con los estudios de casos y controles, al igual que la FAPob como medida de impacto.

En teoría pueden calcularse también las odds ratios, pero suelen ser menos utilizadas en este tipo de tablas. En cualquier caso, ya sabemos que odds ratio y RR se parecerán cuando la prevalencia de la enfermedad sea baja.

Para terminar con este tipo de tablas, podemos calcular las medidas de asociación estadística: chi-cuadrado, Fisher y p para estudios de IA y otras pruebas de asociación para los estudios de densidad de incidencia.

Como siempre, todos estos cálculos pueden realizarse a mano, aunque os recomiendo utilizar calculadoras, como la disponible en la Red CASPe. Es más sencillo, más rápido y, además, nos proporcionan todos estos parámetros con sus correspondientes intervalos de confianza, con lo que podemos estimar también su precisión.

Y con esto hemos llegado al final. Existen más tipos de tablas, con múltiples niveles por tratar más de dos variables, estratificadas según diferentes factores, etc. Pero esa es otra historia…

Gestión de residuos

Vivimos casi en una economía de subsistencia. No se tira nada. Y lo que no hay más remedio que tirar, se recicla. Sí, el reciclaje es una buena práctica, con sus ventajas económicas y ecológicas. Y es que los residuos son siempre aprovechables.

Pero además de no tirarse, en el campo de la estadística y de la epidemiología los residuos son muy importantes para interpretar los datos a partir de los que proceden. ¿Alguien no lo cree?. Imaginemos un ejemplo absurdo pero muy ilustrativo.

Supongamos que queremos saber qué tipo de pescado gusta más en la Europa Mediterránea. La razón para querer saber esto debe ser tan estúpida que todavía no se me ha ocurrido, pero hacemos una encuesta entre 5.281 habitantes de cuatro países del Sur de Europa.

Lo más útil y sencillo es lo que suele hacerse siempre en primer lugar: construir una tabla de contingencia con las frecuencias de los resultados, tal como la que os muestro a continuación.Web

Las tablas de contingencia suelen utilizarse para estudiar la asociación o relación entre dos variables cualitativas. En nuestro caso sería pescado favorito y lugar de residencia. Normalmente se intenta explicar una variable (la dependiente) en función de la otra (la independiente). En nuestro ejemplo queremos ver si la nacionalidad del encuestado influye sobre sus gustos alimentarios.

La tabla de valores totales ya es informativa. Por ejemplo, vemos que el mero y el pez espada gustan bastante más que la merluza, que a los italianos les gusta el atún menos que a los españoles, etc. Sin embargo, en tablas grandes como la nuestra puede ser laborioso y difícil sacar muchas conclusiones con los totales. Por eso, una alternativa útil es construir la tabla con los porcentajes de filas, columnas o de todas las celdas, como la que veis a continuación.Web

Resulta útil comparar los porcentajes de las columnas entre si para ver el efecto de una variable independiente (la nacionalidad, en nuestro ejemplo) con la dependiente (el pescado preferido). Por otra parte, los porcentajes de las filas nos muestran la distribución de frecuencias de la variable dependiente según las categorías de la independiente (el país en nuestro ejemplo). Pero, de los dos, los más interesantes son los porcentajes de columna: si son muy distintos entre las distintas categorías de la variable independiente (los países) nos hará sospechar que pueda haber asociación estadística entre las variables.

En nuestro ejemplo, los porcentajes dentro de cada columna son muy diferentes, así que sospechamos que no gustan los mismos peces en todos los países. Claro que esto hay que cuantificarlo de forma objetiva para saber que el resultado no es fruto de la casualidad. ¿Cómo?. Utilizando los residuos, que en seguida veremos qué son y cómo obtenerlos.

Lo primero que tenemos que hacer es construir una tabla con los valores esperados si el gusto por el pescado no se influyese por el país de origen. Esto es necesario porque buena parte de los estadísticos de asociación y de significación se basan en la comparación entre frecuencias observadas y frecuencias esperadas. Para calcular la frecuencia esperada de cada celda si las variables no tuviesen relación multiplicamos el marginal de la fila (el total de esa fila) por el marginal de la columna y lo dividimos por el total de la tabla. Obtenemos así la tabla de valores observados y esperados que os muestro a continuación.Web

En el caso de que las variables no estén relacionadas los valores observados y esperados serán prácticamente los mismos, con las pequeñas diferencias debidas al error de muestreo que nos produce el azar. Si las diferencias son grandes, probablemente haya alguna relación entre las dos variables que las expliquen. Y a la hora de valorar estas diferencias es donde entran en juego nuestros residuos.

El residuo no es más que la diferencia entre el valor esperado y el observado. Ya hemos dicho que cuando el residuo se aleja del cero puede haber significación pero, ¿cuánto se tiene que alejar?.Web

Podemos transformar los residuos dividiéndolos por la raíz cuadrada del valor esperado. Obtenemos así el residuo estandarizado o residuo de Pearson. A su vez, los residuos de Pearson pueden dividirse por la desviación estándar de los residuos, obteniendo así los residuos ajustados. Construimos ahora la tabla de residuos que veis al lado.

La gran utilidad del residuo ajustado es que es un valor estandarizado, así que podemos comparar los de las diferentes celdas. Además, el residuo ajustado sigue una distribución de frecuencias normal estándar (de media cero y desviación típica uno), por lo que podemos usar un programa informático o una tabla de probabilidades para conocer la probabilidad de que el valor del residuo no se deba al azar. En una distribución normal, el 95% de los valores están entre la media más menos dos desviaciones típicas, aproximadamente. Así que si el valor del residuo ajustado es mayor de 2 o menor de menos dos, la probabilidad de que esta diferencia se deba al azar será menor del 5% y diremos que ese residuo es significativo.  Por ejemplo, en nuestra tabla vemos que a los franceses les gusta el besugo más de lo que sería esperable si el país no influyese, al mismo tiempo que aborrecen el atún.

Estos residuos ajustados nos permiten valorar la significación de cada celda, pero si queremos saber si hay una asociación global tenemos que sumarlos todos. Y es que la suma de los residuos ajustados sigue también una distribución de frecuencias, pero esta vez una chi-cuadrado con (filas-1) x (columnas-1) grados de libertad. Si calculamos el valor para nuestra tabla obtendremos una chi2=368,3921, con una p<0,001, con lo que podremos concluir que existe una relación estadísticamente significativa entre las dos variables.

Como veis, los residuos son muy útiles, y no solo para calcular la chi, sino también muchos otros estadísticos. Sin embargo, los epidemiólogos prefieren utilizar otro tipo de medidas de asociación con las tablas de contingencia. Y esto es así porque la chi-cuadrado no varía de cero a uno, con lo que nos dice si existe significación estadística pero no nos da ninguna información sobre la fuerza de la asociación. Para eso necesitamos otros parámetros que sí oscilan de cero a uno, como el riesgo relativo y la odds ratio. Pero esa es otra historia…