Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasMediana
image_pdf

Una caja con bigotes

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

¿Carne o pescado?

Este es el difícil dilema que se me presenta cada vez que voy a comer a un buen restaurante. Yo, la verdad, soy más de carne, pero como los libros de ciencias dicen que soy un animal omnívoro y no me gusta contradecirles, procuro comer de todo, incluido pescado.

Cada uno tiene sus razones a favor y en contra. La carne es más sencilla de comer. Por otro lado, me resulta más difícil comer un buen pescado si no es en un buen restaurante, así que me cuesta perder la oportunidad. Pero es que la carne está tan rica. Difícil decisión…

Es mucho más fácil decidir entre una media y una mediana, donde va a parar.

Como todos sabéis, la media (nos referimos a la media aritmética) y la mediana son medidas de tendencia o centralización. Nos dan información sobre cuál es el valor central de una distribución.

La forma más sencilla de calcular la media aritmética es sumando todos los valores de la distribución y dividiendo el valor resultante por el número de elementos de la distribución, la querida n.

Para calcular la mediana tenemos que ordenar los valores de la distribución de menor a mayor y localizar aquel que ocupa el lugar central. Si el número de elementos es impar la mediana será el valor del elemento central. Por ejemplo, si tenemos una distribución de 11 elementos ordenados de menor a mayor, el valor del que ocupa el lugar sexto será la mediana de la distribución. Si el número es par, la mediana es la media de los dos centrales. Por ejemplo, si tenemos 10 elementos, será la media del quinto y el sexto. Hay fórmulas y otras formas para calcular la mediana cuando el número de elementos es grande, pero lo mejor es, como siempre, recurrir a un programa informático que lo hará sin el menor esfuerzo.

En general, es mucho más sencillo decidir entre media y mediana que entre carne y pescado, ya que existen unas normas generales que podemos aplicar a cada caso concreto.

La primera, cuando los datos no se ajustan a una distribución normal es más correcto utilizar la mediana. Esto es así porque la mediana es mucho más robusta, lo que quiere decir que se afecta menos por la presencia de sesgos en la distribución o de valores extremos.

La segunda tiene que ver con lo anterior. Cuando haya valores muy extremos la mediana informará mejor del punto central de la distribución que la media, que tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son.

Por último, algunos dicen que con algunas variables tiene más sentido utilizar mediana que media. Por ejemplo, si hablamos de supervivencia, la mediana nos informa sobre el tiempo de supervivencia, pero también sobre cuánto sobrevive la mitad de la muestra, por lo que sería más informativa que la media aritmética.

En cualquier lugar, elijamos la que elijamos, las dos medidas siguen teniendo utilidad. Y para entender todo esto vamos a ver un par de ejemplos tan buenos como que me los acabo de inventar.

Supongamos un colegio con cinco profesores. Al de ciencias le pagan 1200 euros al mes, al de matemáticas 1500, al de literatura 800 y al de historia 1100. Ahora resulta que el director es un fanático del fútbol, así que contrata a Pep Guardiola como profesor de gimnasia. El problema es que Pep no trabaja por 1000 euros al mes, así que le asignan un sueldo nada menos que de 20000 euros mensuales.

En este caso la media es de 4920 euros al mes y la mediana de 1200 euros. ¿Cuál os parece mejor medida de tendencia central en este caso?. Parece claro que la mediana da una mejor idea de lo que suelen ganar los profesores en este colegio. La media se dispara mucho porque se va detrás del valor extremo de 20000 euros mensuales.

Muchos pensaréis, incluso, que la media tiene poca utilidad en este caso. Pero eso es porque lo miráis desde el punto de vista del aspirante a profesor. Si fueseis aspirantes al cargo de gerente del colegio y tuvieseis que preparar el presupuesto mensual, ¿cuál de las dos medidas os sería más útil?. No cabe duda que la media, que os permitiría saber cuánto dinero tenéis que dedicar al pago de los profesores, conociendo el número de profesores del colegio, claro está.

Veamos otro ejemplo. Supongamos que reúno 20 gordos y los reparto en dos grupos para ensayar dos dietas de adelgazamiento. Haciendo un alarde de imaginación las vamos a llamar dieta A y dieta B.

Al cabo de tres meses los de la dieta A pierden 3,4 kg de media, mientras que los de la dieta B pierden una media de 2,7 kg. ¿Cuál de las dos dietas es más eficaz?.

Para aquellos listillos que habéis dicho que la dieta A, voy a proporcionaros un poco más de información. Esta es la diferencia de peso final menos inicial para los pacientes de la dieta A: 2, 4, 0, 0, -1, -1, -2, -2, -3 y -35. Y este es el mismo dato para los sujetos que siguieron la dieta B: -1, -1, -2, -2, -3, -3, -3, -3, -4 y -5. ¿Seguís pensando que la dieta A es más eficaz?.

Seguro que los más atentos habréis detectado ya la trampa de este ejemplo. En el grupo A hay un valor extremo que pierde 35 kg con la dieta, lo que hace que la media se dispare hacia esos -35 kg. Así que vamos a calcular las medianas: -0,5 kg para la dieta A y -3 kg para la dieta B. Parece que la dieta B es más eficaz y que las medianas, en este caso, dan una mejor información sobre la tendencia central de las distribuciones. Pensad que en este ejemplo es fácil darse cuenta mirando los datos crudos, pero si en lugar de 10 tenemos 1000 participantes no podríamos hacerlo así. Tendríamos que detectar la existencia de extremos y utilizar una medida de centralización más robusta, como la mediana.

Seguro que alguno borraría el valor extremo y se manejaría con las medias, pero esto no es aconsejable, porque los valores extremos pueden dar también información sobre aspectos determinados. Por ejemplo, ¿quién nos dice que no hay una situación metabólica especial en la que la dieta A es mucho más eficaz que la B, que lo es en la mayoría de los casos?.

Y aquí vamos a dejarlo por hoy. Solo deciros que en algunas ocasiones podemos recurrir a la transformación de los datos para que se ajusten a una normal o para reducir el efecto de los extremos. También existen también otros indicadores de centralización robustos diferentes a la mediana, como la media geométrica o la media recortada. Pero esa es otra historia…

El estadístico más deseado por una madre

Aquellos que estéis leyendo y que forméis parte de la mafia de los pediatras ya sabréis a que me estoy refiriendo: al percentil 50. No hay madre que no desee que su retoño se encuentre por encima de él en peso, talla, inteligencia y en todo lo que una buena madre pueda desear para su hijo. Por eso a los pediatras, que dedicamos nuestra vida al cuidado de los niños, nos gustan tanto los percentiles. Pero, ¿qué significado tiene el término percentil?. Empecemos desde el principio…

Cuando tenemos una distribución de valores de una variable podemos resumirla con una medida de centralización y una de dispersión. Las más habituales son la media y la desviación estándar, respectivamente, pero en ocasiones podemos utilizar otras medidas de centralización (como la mediana o la moda) y de dispersión.

La más básica de esas otras medidas de dispersión es el rango, que se define como la diferencia entre los valores mínimo y máximo de la distribución. Supongamos que reunimos los pesos al nacimiento de los últimos 100 niños de nuestra maternidad y los ordenamos tal y como aparecen en la tabla. El valor más bajo fue de 2200 gramos, mientras que el premio máximo se lo llevó un neonato que pesó 4000 gramos. El rango en este caso sería de 1800 gramos pero, claro está, si no disponemos de la tabla y solo nos dicen esto no tendríamos idea de cómo de grandes son nuestros recién nacidos. Por eso suele ser mejor expresar el rango con los valores mínimo y máximo. En nuestro caso sería de 2200 a 4000 gramos.

Si recordáis de cómo se calcula la mediana, veréis que está en 3050 gramos. Para completar el cuadro necesitamos una medida que nos diga cómo se distribuyen el resto de los pesos alrededor de la mediana y dentro del rango.

La forma más sencilla es dividir la distribución en cuatro partes iguales que incluya cada una el 25% de los niños. Cada uno de estos marcadores se denomina cuartil y hay tres: el primer cuartil (entre el mínimo y el 25%), el segundo cuartil (que coincide con la mediana y se sitúa entre el mínimo y el 50%) y el tercer cuartil (entre el mínimo y el 75%). Obtenemos así cuatro segmentos: del mínimo al primer cuartil, del primero al segundo (la mediana), del segundo al tercero y del tercero al máximo. En nuestro caso, los tres cuartiles serían 2830, 3050 y 3200 gramos. Hay quien llamaría a estos cuartiles el inferior, la mediana y el superior, pero estaríamos hablando de lo mismo.

Pues bien, si nos dicen que la mediana es de 3050 gramos y que el 50% de los niños pesan entre 2830 y 3200 gramos, ya nos hacemos una idea bastante aproximada de cuál es el peso al nacimiento de nuestros recién nacidos. Este intervalo se denomina rango intercuartílico y suele proporcionarse junto con la mediana para resumir la distribución. En nuestro caso: mediana de 3050 gramos, rango intercuartílico de 2830 a 3200 gramos.

Pero podemos ir mucho más allá. Podemos dividir la distribución en el número de segmentos que queramos. Los deciles la dividen en diez segmentos y nuestros venerados percentiles en cien.

Existe una fórmula bastante sencilla para calcular el percentil que queramos. Por ejemplo, el percentil P estará en la posición (P/100)x(n+1), donde n representa el tamaño de la muestra. En nuestra distribución de neonatos, el percentil 22 estaría en la posición (22/100)x(100+1) = 22,2, o sea, 2770 gramos.

Los más avispados ya os habréis dado cuenta que nuestros 3050 gramos corresponden, no solo a la mediana, sino también al decil quinto y al percentil 50, el deseado por nuestras madres.

La gran utilidad de los percentiles, además de dar satisfacción al 50% de las madres (aquellas que tienen a sus hijos por encima de la media) es que nos permiten estimar la probabilidad de determinado valor de la variable medida dentro de la población. En general, cuanto más cerca esté uno de la media siempre será mejor (por lo menos en medicina) y cuanto más alejado más probable será que alguien te lleve a un médico para ver porqué no estás en el dichoso percentil 50 o, incluso mejor, algo por encima.

Pero si de verdad queremos afinar más sobre la probabilidad de obtener un valor determinado dentro de una distribución de datos hay otros métodos que pasan por la estandarización de la medida de dispersión que utilicemos, pero esa es otra historia…

Sí, en el medio está la virtud, pero…

¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una noche de verano, no debe ser tan sencilla de responder cuando disponemos de varias formas de localizar el medio o centro de una distribución de datos.

Y es que encontrar el virtuoso medio es muy útil para describir nuestros resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa por la cabeza dar los resultados como un listado de los 1500 valores obtenidos. Habitualmente buscamos una especie de resumen que nos de una idea de cómo es esa variable en nuestra muestra, generalmente calculando una medida de centralización (el medio) y una de dispersión (cómo varían los datos alrededor del medio).

Supongamos que, por alguna razón difícil de explicar, queremos conocer la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.

Una vez que hemos recogido los datos, la medida de centralización que primero se nos viene a la cabeza es la media aritmética, que es el promedio de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se divide por el número de valores obtenidos. En nuestro caso su valor sería de 170 cm y nos da una idea del promedio de estatura de los componentes de nuestra muestra.

Pero ahora supongamos que el autobús de la selección nacional de baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que tomar el metro para ir al partido, con la desgracia para nosotros de que viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente no. En este caso echaríamos mano de otra medida de centralización: la mediana.

Para calcular la mediana ordenamos los valores de talla de menor a mayor y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15 medidas, la mediana sería el valor de la número 8 (deja 7 por arriba y 7 por abajo). Al ser par, la mediana se calcula como la media aritmética de los dos valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda probabilidad bastante más cercano al de la población y muy próximo al del vagón que paramos en el primer ejemplo.

Vemos, pues, que la media resume muy bien los datos cuando éstos se distribuyen de forma simétrica, pero que si la distribución está sesgada la mediana nos dará una idea más acertada del centro de la distribución.

Cuando la distribución está muy sesgada podemos emplear otros dos parámetros que son primos de la media aritmética: la media geométrica y la media armónica.

Para calcular la media geométrica calculamos el logaritmo neperiano de todos los valores, obtenemos su media aritmética y hacemos la transformación inversa exponencial con base e (el número e). Para la media armónica se calculan los valores recíprocos (1/valor), se calcula la media aritmética y se hace la transformación inversa (que nadie se asuste por la matemática del asunto, los programas de estadística calculan esta clase de cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles cuando la distribución está muy sesgada por tener la mayor parte de los valores alrededor de un número y una distribución o cola larga hacia la derecha. Por ejemplo, si montamos un control de alcoholemia en carretera un lunes a las seis de la mañana, la mayor parte de los conductores estarán muy cerca del cero, pero siempre habrá algunas determinaciones de valores más altos (los que se han acostado tarde y los que prefieren desayunar fuerte). En estos casos cualquiera de estas dos medias daría un valor más representativo que la media aritmética o la mediana.

Un último apunte sobre otra medida de centralización. Si nos fijamos en los pantalones de nuestros viajeros de metro y vemos que 12 visten vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de vestir preferida?. En efecto: la moda. Es el valor que más se repite en una distribución y puede ser muy útil cuando estamos describiendo variables cualitativas en lugar de cuantitativas.

De todas formas, no hay que olvidar que para resumir adecuadamente una distribución no solo hay que elegir la medida de centralización correcta, sino que hay que acompañarla de una medida de dispersión, de las que también disponemos de unas cuantas. Pero esa es otra historia…