Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado porjunio 2016
image_pdf

No te dejes llevar por los extremos

Ya vimos en una entrada anterior que los valores extremos de una distribución, los llamados outliers, pueden sesgar las estimaciones de los estadísticos que calculamos en nuestra muestra.

Un ejemplo típico es el de la media aritmética, que se desplaza en la dirección de los valores extremos, si los hay, tanto más cuanto más extremos sean los valores. Vimos que, para evitar este inconveniente, existían una serie de familiares de la media aritmética que se consideraban robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de outliers. De todos estos, el más conocido es la mediana, aunque existen algunos más, como la media recortada, la winsorizada, la ponderada, la geométrica, etc.

Pues bien, algo parecido a lo que le pasa a la media ocurre también con la desviación típica, el estadístico de escala o dispersión utilizado con más frecuencia. La desviación típica o estándar también se ve sesgada por la presencia de valores extremos, obteniendo valores que son poco representativos de la dispersión real de la distribución.

Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos de la media. Supongamos que medimos los valores de colesterol sérico en un grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435 mg/dl) que nos sesgarán los estadísticos habituales que son la media y la desviación típica. En nuestro caso, podemos calcular la desviación típica y ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación de la mayoría de los valores respecto a cualquiera de las medidas de centralización robustas que podamos elegir.

¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores robustos de la desviación, que hay varios. Algunos de ellos surgen a partir de los estimadores robustos de la media. Veamos algunos.

El primero, que surge a partir de la mediana, es la desviación absoluta mediana (DAM). Si recordáis, la desviación típica es la suma de las diferencias de cada valor con la media, elevadas al cuadrado, y dividida por el número de elementos, n (o por n-1 si lo que queremos es obtener un estimador no sesgado de la desviación típica poblacional). Pues bien, de modo similar, podemos calcular la mediana de las desviaciones absolutas de cada valor con la mediana de la muestra, según la siguiente fórmula

DAM = Mediana {|Xi – Me|}, para i=1 hasta n.

Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl, bastante más ajustado que la desviación típica clásica.

El segundo se calcula a partir de la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Pues bien, podemos calcular la desviación de la forma clásica con los elementos recortados, obteniendo el valor de 10,5 mg/dl.

Por último, en tercer lugar podríamos hacerlo siguiendo el razonamiento que se utiliza para calcular la media winsorizada. En este caso, en vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. Una vez winsorizada la distribución, calculamos la desviación típica con los nuevos valores de la forma habitual. Su valor es de 9,3 mg/dl, similar a la anterior.

¿Cuál utilizamos de las tres?. Pues nos interesa utilizar una que se comporte de forma eficiente cuando la distribución sea normal (en estos casos la mejor es la desviación típica clásica) pero que no sea muy sensible cuando la distribución se aparte de la normal. En este sentido, la mejor es la desviación absoluta mediana, seguida de la desviación típica winsorizada muestral.

Un último consejo antes de finalizar. No os pongáis a calcular estas medidas a mano, ya que puede resultar muy laborioso, Los programas de estadística hacen los cálculos por nosotros sin el menor esfuerzo.

Y aquí terminamos. No hemos hablado nada de otros estimadores de la familia de los M-estimadores, como la varianza media biponderada o la varianza media de porcentaje ajustado. Estas medias son mucho más difíciles de comprender desde el punto de vista matemático, aunque son muy fáciles de calcular con el paquete informático adecuado. Pero esa es otra historia…