Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

¿Carne o pescado?

This post is also available in: Inglés

image_pdf

Este es el difícil dilema que se me presenta cada vez que voy a comer a un buen restaurante. Yo, la verdad, soy más de carne, pero como los libros de ciencias dicen que soy un animal omnívoro y no me gusta contradecirles, procuro comer de todo, incluido pescado.

Cada uno tiene sus razones a favor y en contra. La carne es más sencilla de comer. Por otro lado, me resulta más difícil comer un buen pescado si no es en un buen restaurante, así que me cuesta perder la oportunidad. Pero es que la carne está tan rica. Difícil decisión…

Es mucho más fácil decidir entre una media y una mediana, donde va a parar.

Como todos sabéis, la media (nos referimos a la media aritmética) y la mediana son medidas de tendencia o centralización. Nos dan información sobre cuál es el valor central de una distribución.

La forma más sencilla de calcular la media aritmética es sumando todos los valores de la distribución y dividiendo el valor resultante por el número de elementos de la distribución, la querida n.

Para calcular la mediana tenemos que ordenar los valores de la distribución de menor a mayor y localizar aquel que ocupa el lugar central. Si el número de elementos es impar la mediana será el valor del elemento central. Por ejemplo, si tenemos una distribución de 11 elementos ordenados de menor a mayor, el valor del que ocupa el lugar sexto será la mediana de la distribución. Si el número es par, la mediana es la media de los dos centrales. Por ejemplo, si tenemos 10 elementos, será la media del quinto y el sexto. Hay fórmulas y otras formas para calcular la mediana cuando el número de elementos es grande, pero lo mejor es, como siempre, recurrir a un programa informático que lo hará sin el menor esfuerzo.

En general, es mucho más sencillo decidir entre media y mediana que entre carne y pescado, ya que existen unas normas generales que podemos aplicar a cada caso concreto.

La primera, cuando los datos no se ajustan a una distribución normal es más correcto utilizar la mediana. Esto es así porque la mediana es mucho más robusta, lo que quiere decir que se afecta menos por la presencia de sesgos en la distribución o de valores extremos.

La segunda tiene que ver con lo anterior. Cuando haya valores muy extremos la mediana informará mejor del punto central de la distribución que la media, que tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son.

Por último, algunos dicen que con algunas variables tiene más sentido utilizar mediana que media. Por ejemplo, si hablamos de supervivencia, la mediana nos informa sobre el tiempo de supervivencia, pero también sobre cuánto sobrevive la mitad de la muestra, por lo que sería más informativa que la media aritmética.

En cualquier lugar, elijamos la que elijamos, las dos medidas siguen teniendo utilidad. Y para entender todo esto vamos a ver un par de ejemplos tan buenos como que me los acabo de inventar.

Supongamos un colegio con cinco profesores. Al de ciencias le pagan 1200 euros al mes, al de matemáticas 1500, al de literatura 800 y al de historia 1100. Ahora resulta que el director es un fanático del fútbol, así que contrata a Pep Guardiola como profesor de gimnasia. El problema es que Pep no trabaja por 1000 euros al mes, así que le asignan un sueldo nada menos que de 20000 euros mensuales.

En este caso la media es de 4920 euros al mes y la mediana de 1200 euros. ¿Cuál os parece mejor medida de tendencia central en este caso?. Parece claro que la mediana da una mejor idea de lo que suelen ganar los profesores en este colegio. La media se dispara mucho porque se va detrás del valor extremo de 20000 euros mensuales.

Muchos pensaréis, incluso, que la media tiene poca utilidad en este caso. Pero eso es porque lo miráis desde el punto de vista del aspirante a profesor. Si fueseis aspirantes al cargo de gerente del colegio y tuvieseis que preparar el presupuesto mensual, ¿cuál de las dos medidas os sería más útil?. No cabe duda que la media, que os permitiría saber cuánto dinero tenéis que dedicar al pago de los profesores, conociendo el número de profesores del colegio, claro está.

Veamos otro ejemplo. Supongamos que reúno 20 gordos y los reparto en dos grupos para ensayar dos dietas de adelgazamiento. Haciendo un alarde de imaginación las vamos a llamar dieta A y dieta B.

Al cabo de tres meses los de la dieta A pierden 3,4 kg de media, mientras que los de la dieta B pierden una media de 2,7 kg. ¿Cuál de las dos dietas es más eficaz?.

Para aquellos listillos que habéis dicho que la dieta A, voy a proporcionaros un poco más de información. Esta es la diferencia de peso final menos inicial para los pacientes de la dieta A: 2, 4, 0, 0, -1, -1, -2, -2, -3 y -35. Y este es el mismo dato para los sujetos que siguieron la dieta B: -1, -1, -2, -2, -3, -3, -3, -3, -4 y -5. ¿Seguís pensando que la dieta A es más eficaz?.

Seguro que los más atentos habréis detectado ya la trampa de este ejemplo. En el grupo A hay un valor extremo que pierde 35 kg con la dieta, lo que hace que la media se dispare hacia esos -35 kg. Así que vamos a calcular las medianas: -0,5 kg para la dieta A y -3 kg para la dieta B. Parece que la dieta B es más eficaz y que las medianas, en este caso, dan una mejor información sobre la tendencia central de las distribuciones. Pensad que en este ejemplo es fácil darse cuenta mirando los datos crudos, pero si en lugar de 10 tenemos 1000 participantes no podríamos hacerlo así. Tendríamos que detectar la existencia de extremos y utilizar una medida de centralización más robusta, como la mediana.

Seguro que alguno borraría el valor extremo y se manejaría con las medias, pero esto no es aconsejable, porque los valores extremos pueden dar también información sobre aspectos determinados. Por ejemplo, ¿quién nos dice que no hay una situación metabólica especial en la que la dieta A es mucho más eficaz que la B, que lo es en la mayoría de los casos?.

Y aquí vamos a dejarlo por hoy. Solo deciros que en algunas ocasiones podemos recurrir a la transformación de los datos para que se ajusten a una normal o para reducir el efecto de los extremos. También existen también otros indicadores de centralización robustos diferentes a la mediana, como la media geométrica o la media recortada. Pero esa es otra historia…

Deja un comentario

A %d blogueros les gusta esto: