Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasHistograma
image_pdf

Como un huevo a una castaña

¿En qué se parecen un huevo y una castaña?. Si disparamos nuestra imaginación podemos dar algunas respuestas tan absurdas como rebuscadas. Los dos son de forma más o menos redondeada, los dos pueden servir de alimento y los dos tienen una cubierta dura que encierra la parte que se come. Pero, en realidad, un huevo y una castaña no se parecen en nada aunque queramos buscar similitudes.

Lo mismo les pasa a dos herramientas gráficas muy utilizadas en estadística descriptiva: el diagrama de barras y el histograma. A primera vista pueden parecer muy similares pero, si nos fijamos bien, existen claras diferencias entre ambos tipos de gráficos, que encierran conceptos totalmente diferentes.

Ya sabemos que hay distintos tipos de variables. Por un lado están las cuantitativas, que pueden ser continuas o discretas. Las continuas son aquellas que pueden tomar un valor cualquiera dentro de un intervalo, como ocurre con el peso o la presión arterial (en la práctica pueden limitarse los valores posibles debido a la precisión de los aparatos de medida, pero en la teoría podemos encontrar cualquier valor de peso entre el mínimo y máximo de una distribución). Las discretas son las que solo pueden adoptar ciertos valores dentro de un conjunto como, por ejemplo, el número de hijos o el número de episodios de isquemia coronaria.

Por otra parte están las variables cualitativas, que representan atributos o categorías de la variable. Cuando las variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable fumador sería cualitativa nominal si tiene dos posibilidades: sí o no. Sin embargo, si la definimos como ocasional, poco fumador, moderado o muy fumador, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

Pues bien, el diagrama de barras sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.diagrama barras

El gran mérito de los diagramas de barras es expresar la magnitud de las diferencias entre las categorías de la variable. Pero ahí está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes. Como podéis ver en la primera figura, la diferencia entre poco y fumadores ocasionales parece mucho mayor en el segundo gráfico, en el que nos hemos comido parte del eje vertical. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

histogramaCambiando de tema, el histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse. Como veis en la segunda figura, las columnas, a diferencia del diagrama de barras, están todas juntas y el punto medio es el que da el nombre al intervalo. Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre tendrán un área mayor aquellos intervalos con mayor frecuencia.

Existe, además, otra diferencia muy importante entre el diagrama de barras y el histograma. En el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Y aquí dejamos estos gráficos que pueden parecer lo mismo pero que, como queda demostrado, se parecen como un huevo a una castaña.

Solo un último comentario. Dijimos al principio que era un error utilizar diagramas de barras (y no digamos ya histogramas) para representar variables cualitativas nominales. ¿Y cuál utilizamos?. Pues un diagrama de sectores, la famosa y ubicua tarta que se utiliza en más ocasiones de las debidas y que tiene su propia idiosincrasia. Pero esa es otra historia…

Dame una barra y estandarizaré el mundo

Pero no me vale una barra cualquiera. Tiene que ser una barra muy especial. O mejor, una serie de barras. Y no estoy pensando en un diagrama de barras, tan conocidos y utilizados que cuando abres el PowerPoint casi te hace uno sin que se lo pidas. No, estos diagramas son muy insulsos, solo representan cuántas veces se repite cada uno de los valores de una variable cualitativa, pero no nos dicen nada más.

Yo estoy pensando en un diagrama mucho más profundo. Me refiero al histograma. ¡Vaya!, me diréis, pues no es otro diagrama de barras. Sí, pero de otra clase de barras, mucho más informativas. Para empezar, el histograma se utiliza (o debería) para representar frecuencias de variables cuantitativas continuas. El histograma no es un diagrama de barras, sino una distribución de frecuencias. ¿Y eso qué significa?. Pues que las barras, en el fondo, son algo artificial. Supongamos una variable cuantitativa continua como puede ser el peso. Imaginemos que el rango de nuestra distribución va de 38 a 118 kg de peso. En teoría, podemos tener infinitos valores de peso (como con cualquier variable continua), pero para representar la distribución dividimos el rango en un número de intervalos arbitrario y dibujamos una barra para cada intervalo cuya altura (y, por tanto, superficie) sea proporcional al número de casos del intervalo. Eso es un histograma: la distribución de frecuencias.

Ahora supongamos que hacemos los intervalos cada vez más estrechos. El perfil que forman las barras se irá pareciendo cada vez más a una curva según se estrechen los intervalos. Al final, lo que tendremos será una curva que se llama curva de densidad de probabilidad. La probabilidad de un determinado valor será cero (uno pensaría que debería ser la altura de la curva en ese punto, pero resulta que no, que es cero), pero la probabilidad de los valores de un determinado intervalo será igual a la superficie del área bajo la curva en ese intervalo. Y, ¿cuál será el área bajo toda la curva?. Pues fácil: la probabilidad de encontrar cualquier valor, o sea, uno (100% para los amigos del porciento).

Veis, pues, que el histograma es mucho más de lo que parece. Nos dice que la probabilidad de encontrar un valor inferior a la media es 0,5, pero no solo eso, sino que podemos calcular la densidad de probabilidad de cualquier valor utilizando una formulita que prefiero no poner porque cerraríais  el navegador y dejaríais de leer esta entrada. Además, hay una forma de solucionarlo algo más simple.

Con las variables que siguen una distribución normal (la famosa campana) la solución es sencilla. Sabemos que una distribución normal se define perfectamente por su media y su desviación estándar. El problema es que cada distribución tiene las suyas, con lo que la densidad de probabilidad también es específica de cada distribución. ¿Qué hacemos?. Pues nos inventamos una distribución normal estándar de media cero y desviación típica 1 y nos estudiamos su densidad de probabilidad de tal forma que no necesitemos fórmulas ni tablas para conocer la probabilidad de un segmento determinado.

Una vez hecho esto, tomamos cualquier valor de nuestra distribución y los transformamos en su alma gemela de la distribución estándar. A este proceso se le denomina estandarización y es tan sencillo como restar al valor la media y dividirlo por la desviación típica. Así obtenemos otro de los estadísticos que los médicos en general, y los pediatras en particular, veneramos más profundamente: el z score.

Las probabilidades de la distribución estándar son bien conocidas. Un z de cero está en la media. El intervalo de z = 0 ± 1,64 engloba el 90% de la distribución, el z = 0 ± 1,96 el 95%, y el z = 0 ± 2,58 el 99%. Lo que se hace, en la práctica, es determinar el z deseable para la variable que medimos, una vez estandarizada. Este valor suele ser ±1 ó ± 2, según lo que midamos. Además, podemos comparar cómo se modifica el z en determinaciones sucesivas.

El problema surge porque en medicina hay muchas variables cuya distribución se encuentra sesgada y no se ajusta a una distribución normal, como es el caso de la talla, el colesterol sanguíneo y muchas otras. Pero no desesperéis, para eso los matemáticos se han inventado una cosa que llaman el teorema central del límite, que viene a decir que si el tamaño de la muestra es lo suficientemente grande podemos estandarizar cualquier distribución y enlazarla con la distribución normal estándar. Este teorema es una cosa estupenda, ya que permite estandarizar incluso para variables no continuas que siguen otro tipo de distribuciones como la binomial, la de Poisson u otras.

Pero la cosa no queda aquí. La estandarización es la base para calcular otras características de la distribución, como su índice de asimetría o su curtosis, y está además en la base de muchas pruebas de contraste de hipótesis que buscan estadísticos de distribución conocida para calcular la significación, pero esa es otra historia…