Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasValores extremos
image_pdf

Ovejas negras

Se dice que es una oveja negra aquél elemento de un grupo que va en dirección distinta o contraria a la del resto del grupo. Por ejemplo, en una familia de adictos a la telebasura, la oveja negra sería un miembro de esa familia que se desviviese por ver los documentales de la segunda cadena. Claro que si la familia es adicta a los documentales, la oveja negra se morirá por ver la telebasura. Siempre al revés.

En estadística hay algo parecido a las ovejas negras. Son los datos anómalos, también llamados datos extremos, pero más conocidos por su nombre en inglés: outliers.

Un outlier es una observación que parece inconsistente con el resto de los valores de la muestra, siempre teniendo en cuenta el modelo probabilístico supuesto que debe seguir la muestra. Como veis, es un dato que lleva la contraria a los demás, como una oveja negra.

El problema del outlier es que puede hacer mucho daño al estimar parámetros poblacionales a partir de una muestra. Vamos a recordar un ejemplo que vimos en otra entrada sobre el cálculo de medidas de centralidad robustas. Se trataba de un colegio con cinco maestros y un director fanático del futbol. Al hacer los contratos establece los siguientes sueldos: 1200 euros al mes para el profesor de ciencias, 1500 para el de mates, 800 para el de literatura y 1100 para el de historia. Pero resulta que se le antoja contratar a Pep Guardiola como profesor de gimnasia, así que tiene que pagarle nada menos que 20000 euros mensuales.

¿Veis por dónde la va la cosa? Efectivamente, Pep es la oveja negra, el valor anómalo. Fijaos qué pasa si calculamos la media: 4920 euros al mes es el sueldo medio de los profesores de este centro. ¿Os parece una estimación real? Claramente no, el valor de la media está desplazada en la dirección del outlier, y se desplazaría más cuánto más extremo sea el valor anómalo. Si a Pep le pagasen 100000 euros, el sueldo medio ascendería a 20920 euros. Una locura.

Si un valor anómalo puede hacerle tanto daño a un estimador, imaginad lo que puede hacer con un contraste de hipótesis, en el que la respuesta es un aceptar o rechazar la hipótesis nula. Así que nos planteamos, ¿qué podemos hacer cuando descubrimos que entre nuestros datos hay una (o varias) ovejas negras? Pues podemos hacer varias cosas.

La primera que se nos pasa por la cabeza es tirar el outlier a la basura. Prescindir de él a la hora de analizar los datos. Esto estaría bien si el valor extremo es producto de un error en la recogida de los datos pero, claro, podemos prescindir de datos que dan información adicional. En nuestro ejemplo, el outlier no es ningún error, sino que es producto del historial deportivo del profesor en cuestión. Necesitaríamos algún método más objetivo para poder decidir suprimir el outlier, y aunque existen unas pruebas llamadas de discordancia, tienen sus problemas.

La segunda cosa que podemos hacer es identificarlo. Esto significa que tenemos que averiguar si el valor es tan extremo por alguna razón concreta, como pasa en nuestro ejemplo. Un valor extremo puede estar señalando algún hallazgo importante y no tenemos porqué desdeñarlo con rapidez, sino tratar de interpretar su significado.

En tercer lugar, podemos incorporarlos. Como hemos dicho al definirlos, el outlier lleva la contraria a los demás datos de la muestra según el modelo de probabilidad que suponemos que sigue la muestra. A veces, un dato extremo deja de serlo si asumimos que los datos siguen otro modelo. Por ejemplo, un outlier puede serlo si consideramos que los datos siguen una distribución normal pero no si consideramos que siguen una logarítmica.

Y, en cuarto lugar, la opción más correcta de todas: utilizar técnicas robustas para hacer nuestras estimaciones y nuestros contrastes de hipótesis. Se llaman técnicas robustas porque se afectan menos por la presencia de valores extremos. En nuestro ejemplo con los profesores utilizaríamos una medida de centralidad robusta como es la mediana. En nuestro caso es de 1200 euros, bastante más ajustada a la realidad que la media. Además, aunque le paguen a Pep 100000 euros al mes, la mediana seguirá siendo de 1200 euros mensuales.

Y con esto terminamos con los valores anómalos, esas ovejas negras que se mezclan con nuestros datos. No hemos comentado nada por simplificar, pero también podríamos tratar de averiguar cómo afecta el outlier a la estimación del parámetro, para lo cual existe toda una serie de metodología estadística basada en la determinación de la llamada función de influencia. Pero esa es otra historia…

Una caja con bigotes

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…