Una familia muy robusta

Medidas de centralización robustas.

Medidas de centralización robustas

Se describen las medidas de centralización robustas a la presencia de valores extremos que la media aritmética.

La media es un estadístico caprichoso. Me refiero a la media aritmética, claro. ¿Y por qué digo que es caprichosa?. Por su gusto por irse tras los valores extremos.

La media aritmética (a partir de ahora, simplemente la media) es la medida de tendencia central más utilizada. Y una medida de tendencia central es aquella que nos informa sobre cuál es el centro de la distribución.

La media aritmética es sensible a la presencia de valores extremos

Supongamos que medimos los valores de colesterol sérico y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155.

Si os fijáis, la mayor parte de los valores (16, para ser exactos), están entre 150 y 180 mg/dl. Vamos a calcular la media a ver si nos informa correctamente sobre el centro de la distribución.

Como sabéis, para calcular la media se suman todas las observaciones y se divide por el número total de observaciones. Para los que gustéis de fórmulas, sería la siguiente:\bar{x}= \frac{\sum_{i=1}^{n}x_{i}}{n}Si lo calculáis, veréis que la media es de 190. Este valor está fuera del intervalo que incluye al 80% de los elementos. ¿Y cómo puede ser?. Fácil, ya lo habréis visto. Resulta que en la muestra se nos han colado dos hermanos con hipercolesterolemia familiar y tienen unos valores altísimos, que actúan como valores extremos de la distribución. Y aquí es donde entra la tendencia de la media a abandonar el punto central e irse detrás de los valores extremos. Como los valores extremos están hacia la derecha, la media se desplaza hacia la derecha y pierde su cualidad de representar el punto medio.

Medidas de centralización robustas

En estos casos, si queremos determinar mejor cuál es el centro de la distribución tenemos que recurrir a medidas robustas. Este término no tiene nada que ver con la fuerza física que hay que emplear para calcularlas, sino que hace referencia a los estadísticos que no se ven influidos (o que se afectan poco) por cambios pequeños en la muestra o por valores extremos.

En este sentido, la media aritmética es muy poco robusta. Fijaos que si quitamos simplemente los dos valores extremos, pasa de 190 a 163 (mucho más representativo del centro de la distribución).

Existen una serie de medidas robustas de tendencia central. La más conocida es la mediana. Para calcularla, lo primero que tenemos que hacer es ordenar los valores de menor a mayor: 143, 152, 152, 152, 154, 155, 155, 159, 163, 166, 167, 168, 168, 170, 171, 177, 183, 185, 426 y 435. Como son 20 valores, la mediana será el valor promedio de los que ocupan las posiciones décima y undécima (166 y 167), o sea, 166,5. Como veis, más cerca del centro sin necesidad de suprimir los valores extremos.

Además de la mediana, existe una serie de parientes de la media aritmética que pertenecen a la familia de las medidas de tendencia central robustas.

Una de ellas es la media geométrica, que se calcula multiplicando todos los valores y hallando la raíz con exponente n (número de casos). Para los amantes de las fórmulas, ahí va:Media\ geom\acute{e}trica= \sqrt[n]{\prod_{i=1}^n{x_{i}}}En nuestro caso multiplicaríamos 143X152X152…x426x435 y haríamos la raíz de índice 20 del producto. En nuestro caso vale 179,57. El cálculo es un poco engorroso, por eso yo he usado el programa R para calcularla. Hay otra forma de llegar al mismo valor que consiste en hallar los logaritmos neperianos de los valores, calcular su media aritmética y, finalmente, hacer el antilogaritmo del promedio.

En cualquier caso, cualquier programa estadístico puede calcular la media geométrica sin pestañear. Esta media es poco utilizada, aunque podemos verla en ocasiones en trabajos sobre Microbiología, ya que algunos de los parámetros que utilizan, como los títulos de las diluciones, siguen una escala logarítmica.

Para aquellos que les haya parecido sencillo lo de la media geométrica tengo preparada la media armónica. Esta se calcula dividiendo el número de observaciones por la suma total del inverso de cada valor. Quizás con la fórmula se entienda mejor:

Media\ arm\acute{o}nica= \frac{n}{\sum_{i=1}^{n}\frac{1}{x_{i}}}

Haciendo otra vez uso de R, su valor es de 173,36, un valor parecido al anterior. Esta media tampoco es utilizada muy a menudo, aunque a veces podemos encontrarla, sobre todo en trabajos sobre Farmacología.

Mucho más sencilla de calcular es la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Su valor es de 165,31.

Una variante de esta última es la media winsorizada. En vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. En nuestro caso 143 y 152 se sustituirían por 152 y 426 y 435 por 185. Su valor es de 165,95.

Quizás el miembro de esta robusta familia que se utiliza con más frecuencia, después de la mediana, sea la media ponderada. A cada elemento se le atribuye un peso determinado (w) y, para calcular la media ponderada, se suman los productos de cada valor por su peso y se divide el total por la suma de pesos. La fórmula es la siguiente:

Media\ ponderada= \frac{\sum_{i=1}^{n}(x_{i}w_{i})}{\sum_{i=1}^{n}w_{i}}

Vamos a calcular una media ponderada inventada de los valores de presión arterial en la que el peso para la sistólica vale 20 y para la diastólica 10. Si los valores de sistólica y diastólica son 120 y 60, respectivamente, la media ponderada valdría

Media\ ponderada= \frac{(120\times 20)+(60\times 10)}{20+10}= 100

Una especie de media ponderada es la que se conoce con el nombre de trimedia. Esta se calcula como la media aritmética de los tres cuartiles (primero, mediana y tercero), ponderando la mediana por dos y los cuartiles primero y tercero por uno (la suma se divide por cuatro). En nuestro ejemplo del colesterol el primer cuartil vale 154,8, la mediana 166,5 y el tercer cuartil 172,5, así que la trimedia es igual a

Trimedia= \frac{154,8+(2\times 166,5)+172,5}{4}= 165

Nos vamos…

Y aquí lo vamos a dejar por hoy. Veis que las primas robustas de la media aritmética forman una gran familia. Pero no penséis que hemos hablado de todos los miembros de esta familia. Existen muchos otros cuya estadística es bastante más antipática, pero que podemos calcular con la mayoría de los paquetes informáticos. Son, por ejemplo, los estimadores R de tendencia y los estimadores M de tendencia, como el de Huber, el biponderado de Tukey, el redescendente de Hampel, el de Andrew, etc, etc. Pero esa es otra historia…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Manuel Molina Arias.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Aleph que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Antes de aceptar puedes ver Configurar cookies para realizar un consentimiento selectivo.    Más información
Privacidad