Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasRango intercuartílico
image_pdf

Una caja con bigotes

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

El estadístico más deseado por una madre

Aquellos que estéis leyendo y que forméis parte de la mafia de los pediatras ya sabréis a que me estoy refiriendo: al percentil 50. No hay madre que no desee que su retoño se encuentre por encima de él en peso, talla, inteligencia y en todo lo que una buena madre pueda desear para su hijo. Por eso a los pediatras, que dedicamos nuestra vida al cuidado de los niños, nos gustan tanto los percentiles. Pero, ¿qué significado tiene el término percentil?. Empecemos desde el principio…

Cuando tenemos una distribución de valores de una variable podemos resumirla con una medida de centralización y una de dispersión. Las más habituales son la media y la desviación estándar, respectivamente, pero en ocasiones podemos utilizar otras medidas de centralización (como la mediana o la moda) y de dispersión.

La más básica de esas otras medidas de dispersión es el rango, que se define como la diferencia entre los valores mínimo y máximo de la distribución. Supongamos que reunimos los pesos al nacimiento de los últimos 100 niños de nuestra maternidad y los ordenamos tal y como aparecen en la tabla. El valor más bajo fue de 2200 gramos, mientras que el premio máximo se lo llevó un neonato que pesó 4000 gramos. El rango en este caso sería de 1800 gramos pero, claro está, si no disponemos de la tabla y solo nos dicen esto no tendríamos idea de cómo de grandes son nuestros recién nacidos. Por eso suele ser mejor expresar el rango con los valores mínimo y máximo. En nuestro caso sería de 2200 a 4000 gramos.

Si recordáis de cómo se calcula la mediana, veréis que está en 3050 gramos. Para completar el cuadro necesitamos una medida que nos diga cómo se distribuyen el resto de los pesos alrededor de la mediana y dentro del rango.

La forma más sencilla es dividir la distribución en cuatro partes iguales que incluya cada una el 25% de los niños. Cada uno de estos marcadores se denomina cuartil y hay tres: el primer cuartil (entre el mínimo y el 25%), el segundo cuartil (que coincide con la mediana y se sitúa entre el mínimo y el 50%) y el tercer cuartil (entre el mínimo y el 75%). Obtenemos así cuatro segmentos: del mínimo al primer cuartil, del primero al segundo (la mediana), del segundo al tercero y del tercero al máximo. En nuestro caso, los tres cuartiles serían 2830, 3050 y 3200 gramos. Hay quien llamaría a estos cuartiles el inferior, la mediana y el superior, pero estaríamos hablando de lo mismo.

Pues bien, si nos dicen que la mediana es de 3050 gramos y que el 50% de los niños pesan entre 2830 y 3200 gramos, ya nos hacemos una idea bastante aproximada de cuál es el peso al nacimiento de nuestros recién nacidos. Este intervalo se denomina rango intercuartílico y suele proporcionarse junto con la mediana para resumir la distribución. En nuestro caso: mediana de 3050 gramos, rango intercuartílico de 2830 a 3200 gramos.

Pero podemos ir mucho más allá. Podemos dividir la distribución en el número de segmentos que queramos. Los deciles la dividen en diez segmentos y nuestros venerados percentiles en cien.

Existe una fórmula bastante sencilla para calcular el percentil que queramos. Por ejemplo, el percentil P estará en la posición (P/100)x(n+1), donde n representa el tamaño de la muestra. En nuestra distribución de neonatos, el percentil 22 estaría en la posición (22/100)x(100+1) = 22,2, o sea, 2770 gramos.

Los más avispados ya os habréis dado cuenta que nuestros 3050 gramos corresponden, no solo a la mediana, sino también al decil quinto y al percentil 50, el deseado por nuestras madres.

La gran utilidad de los percentiles, además de dar satisfacción al 50% de las madres (aquellas que tienen a sus hijos por encima de la media) es que nos permiten estimar la probabilidad de determinado valor de la variable medida dentro de la población. En general, cuanto más cerca esté uno de la media siempre será mejor (por lo menos en medicina) y cuanto más alejado más probable será que alguien te lleve a un médico para ver porqué no estás en el dichoso percentil 50 o, incluso mejor, algo por encima.

Pero si de verdad queremos afinar más sobre la probabilidad de obtener un valor determinado dentro de una distribución de datos hay otros métodos que pasan por la estandarización de la medida de dispersión que utilicemos, pero esa es otra historia…