Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasVariable cualitativa

Columnas, tartas y un italiano ilustre

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas variables. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…

Como un reloj olvidado

No me gusta el final del verano. Empiezan los días con mal tiempo, me levanto totalmente de noche y anochece cada vez más temprano. Y, por si fuera poco, se aproxima el engorroso momento del cambio de hora.

Además de las molestias del cambio y del tedio de estar dos o tres días recordando la hora que es y la que podría ser de no haber cambiado, hay que proceder a cambiar un montón de relojes de forma manual. Y, por mucho que te esfuerces en cambiarlos todos, siempre te dejas alguno con la hora vieja. No te pasa con el reloj de la cocina, que miras siempre para saber cómo de rápido tienes que desayunar, o con el del coche, que te mira fijamente todas las mañanas. Pero seguro que hay alguno que no cambias. Incluso, alguna vez me ha pasado, que me doy cuenta cuando al siguiente cambio de hora veo que no lo necesita porque lo dejé sin cambiar en la vez anterior.

Estos relojes olvidados me recuerdan un poco a las variables categóricas o cualitativas.

Pensaréis que, una vez más, me he olvidado de tomar la pastilla esta mañana, pero no. Todo tiene su razonamiento. Cuando terminamos un estudio y tenemos ya los resultados, lo primero que hacemos es una descripción de los mismos para, después, pasar a hacer todo tipo de contrastes, si viene al caso.

Pues bien, las variables cualitativas siempre se menosprecian cuando aplicamos nuestros conocimientos de estadística descriptiva. Habitualmente nos limitamos a clasificarlas y hacer tablas de frecuencia con las que calcular algunos índices como su frecuencia relativa o acumulada, dar alguna medida representativa como la moda y poco más. Con su representación gráfica ya nos esforzamos un poco más, con diagramas de barras o de sectores, pictogramas y otros inventos parecidos. Y, por último, nos aplicamos un poco más cuando relacionamos dos variables cualitativas mediante una tabla de contingencia.

Sin embargo, nos olvidamos de la variabilidad, algo que nunca haríamos con una variable cuantitativa. Las variables cuantitativas son como ese reloj de la pared de la cocina que nos mira directamente a los ojos cada mañana y que no consiente que lo dejemos fuera de hora. Por eso, recurrimos a esos conceptos que entendemos tan bien como la media y la varianza o la desviación típica. Pero el que no conozcamos la forma de medir de forma objetiva la variabilidad de las variables cualitativas o categóricas, ya sean nominales u ordinales, no quiere decir que no exista. Para este fin, se han desarrollado diversos índices de diversidad, que algunos autores distinguen como índices de dispersión, variabilidad y disparidad. Vamos a ver algunos de ellos, cuyas fórmulas podéis ver en el recuadro adjunto, para que podáis disfrutar de la belleza del lenguaje matemático.

Los dos índices más conocidos y utilizados para medir la variabilidad o diversidad son el índice de Blau (o de Hirschman-Herfindal) y el índice de entropía (o de Teachman). Ambos tienen un significado muy similar y, de hecho, están correlacionados linealmente.

El índice de Blau cuantifica la probabilidad de que dos individuos tomados al azar de una población estén en diferentes categorías de una variable (siempre que el tamaño de la población sea infinito o el muestreo se realice con reemplazo). Su valor mínimo, cero, indicaría que todos los miembros están en la misma categoría, con lo que no habría variedad. Cuanto mayor sea su valor, más dispersos entre las diferentes categorías de la variable estarán los componentes del grupo. Este valor máximo se alcanza cuando los componentes se distribuyen de manera igual entre todas las categorías (sus frecuencias relativas son iguales). Su valor máximo sería (k-1)/k, con lo que es función de k (el número de categorías de la variable cualitativa) y no del tamaño de la población. Este valor tiende a 1 al aumentar el número de categorías (para decirlo de forma más correcta, cuando k tiende a infinito).

Veamos algunos ejemplos para aclararnos un poco. Si os fijáis en la fórmula del índice de Blau, el sumatorio de los cuadrados de las frecuencias relativas en una población totalmente homogénea valdrá 1, con lo que el índice valdrá 0. Solo habrá una categoría con frecuencia 1 (el 100%) y el resto con frecuencia cero.

Como hemos dicho, aunque los sujetos se distribuyan de forma similar en todas las categorías, el índice aumenta al aumentar el número de categorías. Por ejemplo, si hay cuatro categorías con una frecuencia de 0,25, el índice de Blau valdrá 0,75 (1 –  (4 x 0,252)). Si hay cinco categorías con una frecuencia de 0,2, el índice valdrá 0,8 (1 – (5 x 0,22). Y así sucesivamente.

Como ejemplo práctico, imaginad una enfermedad en la que hay diversidad desde el punto de vista genético. En una ciudad A tienen el genotipo 1 el 85% de los enfermos y el genotipo 2 el 15%. El índice de Blau valdrá 1 – (0,852 + 0,152) = 0,255. A la vista de este resultado podremos decir que, aunque no es homogénea, el grado de heterogeneidad no es muy alto.

Ahora imaginad una ciudad B con un 60% de genotipo 1, un 25% de genotipo 2 y un 15% de genotipo 3. El índice de Blau valdrá 1 – (0,62 x 0,252 x 0,152) = 0,555. Claramente, el grado de heterogeneidad es mayor entre los enfermos de la ciudad B que entre los de A. Los más listillos me diréis que eso ya se veía sin calcular el índice, pero tenéis que tener en cuenta que son ejemplos muy sencillos para no echar las bilis calculando. En los estudios de la vida real, más complejos, no suele ser tan evidente y, en cualquier caso, siempre es más objetivo cuantificar la medida que quedarnos con nuestra impresión subjetiva.

Este índice podría usarse también para comparar la diversidad de dos variables diferentes (siempre que tenga sentido hacerlo) pero, el hecho de que su valor máximo dependa del número de categorías de la variable, y no del tamaño de la muestra o de la población, cuestiona su utilidad para comparar la diversidad de variables con diferente número de categorías. Para evitar este problema el índice de Blau puede normalizarse dividiéndolo por su máximo, obteniéndose así el índice de variación cualitativa. Su significado es, lógicamente, el mismo que el del índice de Blau y su valor oscila entre 0 y 1. Así, podremos usar cualquiera de los dos si comparamos la diversidad de dos variables con el mismo número de categorías, pero será más correcto usar el índice de variación cualitativa si las variables tienen un número de categorías diferente.

El otro índice, algo menos famoso, es el índice de Teachman o índice de entropía, cuya fórmula también os adjunto. Muy brevemente diremos que su valor mínimo, que es cero, indica que no hay diferencias entre los componentes en la variable de interés (la población es homogénea). Su valor máximo puede estimarse como el valor negativo del logaritmo neperiano del inverso del número de categorías (-ln(1/k)) y se alcanza cuando todas las categorías tienen la misma frecuencia relativa (la entropía alcanza su valor máximo). Como veis, muy parecido al de Blau, que es mucho más sencillo de calcular que el de Teachman.

Para ir acabando esta entrada, el tercer índice del que os quiero hablar hoy nos indica, más que la variabilidad de la población, la dispersión que sus componentes tienen respecto al valor más frecuente. Esto puede medirse mediante la razón de variación, que indica el grado en que los valores observados no coinciden con el de la moda, que es la categoría más frecuente. Como con los anteriores, también os dejo la fórmula en el recuadro adjunto.

Para no desentonar con los anteriores, su valor mínimo también es cero y se obtiene cuando todos los casos coinciden con la moda. Cuanto más bajo el valor, menos dispersión. Cuanto más baja sea la frecuencia absoluta de la moda, más se aproximará a 1, el valor que indica máxima dispersión. Creo que este índice es muy sencillito, así que no le vamos a dedicar más atención.

Y hemos llegado al final. Espero que a partir de ahora prestemos más atención al análisis descriptivo de los resultados de las variables cualitativas. Claro que habría que completarlo con una descripción gráfica adecuada utilizando los archiconocidos diagramas de barras o de sectores (las tartas) y otros menos conocidos como los diagramas de Pareto. Pero esa es otra historia…

Ni tanto ni tan calvos

¿Os habéis preguntado alguna vez por qué la gente se queda calva, especialmente los varones a determinada edad?. Creo que tiene algo que ver con las hormonas. El caso es que es algo que suele gustar poco al afectado, y eso que hay una creencia popular que dice que los calvos son más inteligentes. A mí me parece que no tiene nada de malo ser calvo (es mucho peor ser gilipollas), claro que yo tengo todo mi pelo en la cabeza.

Siguiendo el hilo de la calvicie, supongamos que queremos saber si el color de pelo tiene algo que ver con quedarse calvo antes o después. Montamos un ensayo absurdo en el que reunimos 50 rubios y 50 morenos para estudiar cuántos se quedan calvos y en qué momento lo hacen.

Este ejemplo nos sirve para ilustrar los diferentes tipos de variables que podemos encontrarnos en un ensayo clínico y los diferentes métodos que debemos utilizar para comparar cada una de ellas.

Algunas variables son de tipo cuantitativo continuo. Por ejemplo, el peso de los participantes, su talla, su sueldo, el número de pelos por centímetro cuadrado, etc. Otras son de tipo cualitativo, como el color de pelo. En nuestro caso lo simplificaríamos a una variable binaria: rubio o moreno. Por último, encontramos variables llamadas de tiempo a evento, que nos muestran el tiempo que tardan los participantes en sufrir el evento en estudio, en nuestro caso, la calvicie.

Pues bien, a la hora de comparar si existen diferencias entre estas variables entre los dos grupos el método que elijamos vendrá determinado por el tipo de variable que estemos considerando.

Si queremos comparar una variable continua como la edad o el peso entre calvos y peludos, o entre rubios y morenos, tendremos que utilizar la prueba de la t de Student, siempre que nuestros datos se ajusten a una distribución normal. En el caso de que no sea así, la prueba no paramétrica que tendríamos que utilizar es la de Mann-Withney.

¿Y qué pasa si queremos comparar varias variables continuas a la vez?. Pues que podremos utilizar la regresión lineal múltiple para hacer las comparaciones entre variables.

En el caso de las variables cualitativas el enfoque es diferente. Para saber si existe dependencia estadísticamente significativa entre dos variables tendremos que construir la tabla de contingencia y recurrir a la prueba de la chi-cuadrado o a la prueba exacta de Fisher, según la naturaleza de los datos. Ante la duda podemos hacer siempre la prueba de Fisher. Aunque implica un cálculo más complejo, esto no es problema para cualquiera de los paquetes estadísticos disponibles hoy en día.

Otra posibilidad es calcular una medida de asociación como el riesgo relativo o la odds ratio con sus correspondientes intervalos de confianza. Si los intervalos no cruzan la línea de efecto nulo (el uno), consideraremos que la asociación es estadísticamente significativa.

Pero puede ocurrir que lo que queramos comparar sean varias variables cualitativas. En estos casos podremos utilizar un modelo de regresión logística.

Por último, vamos a hablar de las variables de tiempo a evento, algo más complicadas de comparar. Si utilizamos una variable como puede ser el tiempo que tardan en quedarse calvos nuestros sujetos podemos construir una curva de supervivencia o de Kaplan-Meier, que nos muestra de forma gráfica que porcentaje de sujetos queda en cada momento sin presentar el evento (o que porcentaje ya lo ha presentado, según como la leamos). Ahora bien, podemos comparar las curvas de supervivencia de rubios y morenos y ver si existen diferencias en la velocidad a la que se quedan calvos los dos grupos. Para esto utilizamos la prueba de los rangos logarítmicos, más conocida por su nombre en inglés: log rank test.

Este método se basa en la comparación entre las dos curvas en base a las diferencias entre los valores observados y los esperados si la supervivencia (la producción del evento en estudio, que no tiene porqué ser muerte) fuese igual en los dos grupos. Con este método podemos obtener un valor de p que nos indica si la diferencia entre las dos curvas de supervivencia es o no estadísticamente significativa, aunque no nos dice nada de la magnitud de la diferencia.

El caso de cálculo más complejo sería el supuesto de que queramos comparar más de dos variables. Para el análisis multivariado hay que servirse de un modelo de regresión de riesgos proporcionales de Cox. Este modelo es más complejo que los anteriores pero, una vez más, los programas informáticos lo llevan a cabo sin la menor dificultad si les introducimos los datos adecuados.

Y vamos a dejar a los calvos tranquilos de una vez. Podríamos hablar más acerca de las variables de tiempo a evento. Las curvas de Kaplan-Meier nos dan una idea de quién va presentando el evento a lo largo del tiempo, pero no nos dicen nada del riesgo de presentarlo en cada momento. Para eso necesitamos otro indicador, que es el cociente de riesgos instantáneos o hazard ratio. Pero esa es otra historia…