Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasMedia geométrica
image_pdf

Una familia muy robusta

La media es un estadístico caprichoso. Me refiero a la media aritmética, claro. ¿Y por qué digo que es caprichosa?. Por su gusto por irse tras los valores extremos.

La media aritmética (a partir de ahora, simplemente la media) es la medida de tendencia central más utilizada. Y una medida de tendencia central es aquella que nos informa sobre cuál es el centro de la distribución.

Supongamos que medimos los valores de colesterol sérico y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155.

Si os fijáis, la mayor parte de los valores (16, para ser exactos), están entre 150 y 180 mg/dl. Vamos a calcular la media a ver si nos informa correctamente sobre el centro de la distribución.

Como sabéis, para calcular la media se suman todas las observaciones y se divide por el número total de observaciones. Para los que gustéis de fórmulas, sería la siguiente:\bar{x}= \frac{\sum_{i=1}^{n}x_{i}}{n}Si lo calculáis, veréis que la media es de 190. Este valor está fuera del intervalo que incluye al 80% de los elementos. ¿Y cómo puede ser?. Fácil, ya lo habréis visto. Resulta que en la muestra se nos han colado dos hermanos con hipercolesterolemia familiar y tienen unos valores altísimos, que actúan como valores extremos de la distribución. Y aquí es donde entra la tendencia de la media a abandonar el punto central e irse detrás de los valores extremos. Como los valores extremos están hacia la derecha, la media se desplaza hacia la derecha y pierde su cualidad de representar el punto medio.

En estos casos, si queremos determinar mejor cuál es el centro de la distribución tenemos que recurrir a medidas robustas. Este término no tiene nada que ver con la fuerza física que hay que emplear para calcularlas, sino que hace referencia a los estadísticos que no se ven influidos (o que se afectan poco) por cambios pequeños en la muestra o por valores extremos.

En este sentido, la media aritmética es muy poco robusta. Fijaos que si quitamos simplemente los dos valores extremos, pasa de 190 a 163 (mucho más representativo del centro de la distribución).

Existen una serie de medidas robustas de tendencia central. La más conocida es la mediana. Para calcularla, lo primero que tenemos que hacer es ordenar los valores de menor a mayor: 143, 152, 152, 152, 154, 155, 155, 159, 163, 166, 167, 168, 168, 170, 171, 177, 183, 185, 426 y 435. Como son 20 valores, la mediana será el valor promedio de los que ocupan las posiciones décima y undécima (166 y 167), o sea, 166,5. Como veis, más cerca del centro sin necesidad de suprimir los valores extremos.

Además de la mediana, existe una serie de parientes de la media aritmética que pertenecen a la familia de las medidas de tendencia central robustas.

Una de ellas es la media geométrica, que se calcula multiplicando todos los valores y hallando la raíz con exponente n (número de casos). Para los amantes de las fórmulas, ahí va:Media\ geom\acute{e}trica= \sqrt[n]{\prod_{i=1}^n{x_{i}}}En nuestro caso multiplicaríamos 143X152X152…x426x435 y haríamos la raíz de índice 20 del producto. En nuestro caso vale 179,57. El cálculo es un poco engorroso, por eso yo he usado el programa R para calcularla. Hay otra forma de llegar al mismo valor que consiste en hallar los logaritmos neperianos de los valores, calcular su media aritmética y, finalmente, hacer el antilogaritmo del promedio. En cualquier caso, cualquier programa estadístico puede calcular la media geométrica sin pestañear. Esta media es poco utilizada, aunque podemos verla en ocasiones en trabajos sobre Microbiología, ya que algunos de los parámetros que utilizan, como los títulos de las diluciones, siguen una escala logarítmica.

Para aquellos que les haya parecido sencillo lo de la media geométrica tengo preparada la media armónica. Esta se calcula dividiendo el número de observaciones por la suma total del inverso de cada valor. Quizás con la fórmula se entienda mejor:Media\ arm\acute{o}nica= \frac{n}{\sum_{i=1}^{n}\frac{1}{x_{i}}}Haciendo otra vez uso de R, su valor es de 173,36, un valor parecido al anterior. Esta media tampoco es utilizada muy a menudo, aunque a veces podemos encontrarla, sobre todo en trabajos sobre Farmacología.

Mucho más sencilla de calcular es la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Su valor es de 165,31.

Una variante de esta última es la media winsorizada. En vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. En nuestro caso 143 y 152 se sustituirían por 152 y 426 y 435 por 185. Su valor es de 165,95.

Quizás el miembro de esta robusta familia que se utiliza con más frecuencia, después de la mediana, sea la media ponderada. A cada elemento se le atribuye un peso determinado (w) y, para calcular la media ponderada, se suman los productos de cada valor por su peso y se divide el total por la suma de pesos. La fórmula es la siguiente:Media\ ponderada= \frac{\sum_{i=1}^{n}(x_{i}w_{i})}{\sum_{i=1}^{n}w_{i}}Vamos a calcular una media ponderada inventada de los valores de presión arterial en la que el peso para la sistólica vale 20 y para la diastólica 10. Si los valores de sistólica y diastólica son 120 y 60, respectivamente, la media ponderada valdría

Media\ ponderada= \frac{(120\times 20)+(60\times 10)}{20+10}= 100

Una especie de media ponderada es la que se conoce con el nombre de trimedia. Esta se calcula como la media aritmética de los tres cuartiles (primero, mediana y tercero), ponderando la mediana por dos y los cuartiles primero y tercero por uno (la suma se divide por cuatro). En nuestro ejemplo del colesterol el primer cuartil vale 154,8, la mediana 166,5 y el tercer cuartil 172,5, así que la trimedia es igual aTrimedia= \frac{154,8+(2\times 166,5)+172,5}{4}= 165Y aquí lo vamos a dejar por hoy. Veis que las primas robustas de la media aritmética forman una gran familia. Pero no penséis que hemos hablado de todos los miembros de esta familia. Existen muchos otros cuya estadística es bastante más antipática, pero que podemos calcular con la mayoría de los paquetes informáticos. Son, por ejemplo, los estimadores R de tendencia y los estimadores M de tendencia, como el de Huber, el biponderado de Tukey, el redescendente de Hampel, el de Andrew, etc, etc. Pero esa es otra historia…

Sí, en el medio está la virtud, pero…

¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una noche de verano, no debe ser tan sencilla de responder cuando disponemos de varias formas de localizar el medio o centro de una distribución de datos.

Y es que encontrar el virtuoso medio es muy útil para describir nuestros resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa por la cabeza dar los resultados como un listado de los 1500 valores obtenidos. Habitualmente buscamos una especie de resumen que nos de una idea de cómo es esa variable en nuestra muestra, generalmente calculando una medida de centralización (el medio) y una de dispersión (cómo varían los datos alrededor del medio).

Supongamos que, por alguna razón difícil de explicar, queremos conocer la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.

Una vez que hemos recogido los datos, la medida de centralización que primero se nos viene a la cabeza es la media aritmética, que es el promedio de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se divide por el número de valores obtenidos. En nuestro caso su valor sería de 170 cm y nos da una idea del promedio de estatura de los componentes de nuestra muestra.

Pero ahora supongamos que el autobús de la selección nacional de baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que tomar el metro para ir al partido, con la desgracia para nosotros de que viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente no. En este caso echaríamos mano de otra medida de centralización: la mediana.

Para calcular la mediana ordenamos los valores de talla de menor a mayor y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15 medidas, la mediana sería el valor de la número 8 (deja 7 por arriba y 7 por abajo). Al ser par, la mediana se calcula como la media aritmética de los dos valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda probabilidad bastante más cercano al de la población y muy próximo al del vagón que paramos en el primer ejemplo.

Vemos, pues, que la media resume muy bien los datos cuando éstos se distribuyen de forma simétrica, pero que si la distribución está sesgada la mediana nos dará una idea más acertada del centro de la distribución.

Cuando la distribución está muy sesgada podemos emplear otros dos parámetros que son primos de la media aritmética: la media geométrica y la media armónica.

Para calcular la media geométrica calculamos el logaritmo neperiano de todos los valores, obtenemos su media aritmética y hacemos la transformación inversa exponencial con base e (el número e). Para la media armónica se calculan los valores recíprocos (1/valor), se calcula la media aritmética y se hace la transformación inversa (que nadie se asuste por la matemática del asunto, los programas de estadística calculan esta clase de cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles cuando la distribución está muy sesgada por tener la mayor parte de los valores alrededor de un número y una distribución o cola larga hacia la derecha. Por ejemplo, si montamos un control de alcoholemia en carretera un lunes a las seis de la mañana, la mayor parte de los conductores estarán muy cerca del cero, pero siempre habrá algunas determinaciones de valores más altos (los que se han acostado tarde y los que prefieren desayunar fuerte). En estos casos cualquiera de estas dos medias daría un valor más representativo que la media aritmética o la mediana.

Un último apunte sobre otra medida de centralización. Si nos fijamos en los pantalones de nuestros viajeros de metro y vemos que 12 visten vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de vestir preferida?. En efecto: la moda. Es el valor que más se repite en una distribución y puede ser muy útil cuando estamos describiendo variables cualitativas en lugar de cuantitativas.

De todas formas, no hay que olvidar que para resumir adecuadamente una distribución no solo hay que elegir la medida de centralización correcta, sino que hay que acompañarla de una medida de dispersión, de las que también disponemos de unas cuantas. Pero esa es otra historia…