Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasMedia
image_pdf

¿Por qué sobra uno?

Hoy vamos a hablar sobre uno de esos misterios de la estadística que muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s).

La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

estimador_sesgadoNosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos σ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de σ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

¿Carne o pescado?

Este es el difícil dilema que se me presenta cada vez que voy a comer a un buen restaurante. Yo, la verdad, soy más de carne, pero como los libros de ciencias dicen que soy un animal omnívoro y no me gusta contradecirles, procuro comer de todo, incluido pescado.

Cada uno tiene sus razones a favor y en contra. La carne es más sencilla de comer. Por otro lado, me resulta más difícil comer un buen pescado si no es en un buen restaurante, así que me cuesta perder la oportunidad. Pero es que la carne está tan rica. Difícil decisión…

Es mucho más fácil decidir entre una media y una mediana, donde va a parar.

Como todos sabéis, la media (nos referimos a la media aritmética) y la mediana son medidas de tendencia o centralización. Nos dan información sobre cuál es el valor central de una distribución.

La forma más sencilla de calcular la media aritmética es sumando todos los valores de la distribución y dividiendo el valor resultante por el número de elementos de la distribución, la querida n.

Para calcular la mediana tenemos que ordenar los valores de la distribución de menor a mayor y localizar aquel que ocupa el lugar central. Si el número de elementos es impar la mediana será el valor del elemento central. Por ejemplo, si tenemos una distribución de 11 elementos ordenados de menor a mayor, el valor del que ocupa el lugar sexto será la mediana de la distribución. Si el número es par, la mediana es la media de los dos centrales. Por ejemplo, si tenemos 10 elementos, será la media del quinto y el sexto. Hay fórmulas y otras formas para calcular la mediana cuando el número de elementos es grande, pero lo mejor es, como siempre, recurrir a un programa informático que lo hará sin el menor esfuerzo.

En general, es mucho más sencillo decidir entre media y mediana que entre carne y pescado, ya que existen unas normas generales que podemos aplicar a cada caso concreto.

La primera, cuando los datos no se ajustan a una distribución normal es más correcto utilizar la mediana. Esto es así porque la mediana es mucho más robusta, lo que quiere decir que se afecta menos por la presencia de sesgos en la distribución o de valores extremos.

La segunda tiene que ver con lo anterior. Cuando haya valores muy extremos la mediana informará mejor del punto central de la distribución que la media, que tiene el defecto de desviarse hacia los valores extremos, tanto más cuanto más extremos son.

Por último, algunos dicen que con algunas variables tiene más sentido utilizar mediana que media. Por ejemplo, si hablamos de supervivencia, la mediana nos informa sobre el tiempo de supervivencia, pero también sobre cuánto sobrevive la mitad de la muestra, por lo que sería más informativa que la media aritmética.

En cualquier lugar, elijamos la que elijamos, las dos medidas siguen teniendo utilidad. Y para entender todo esto vamos a ver un par de ejemplos tan buenos como que me los acabo de inventar.

Supongamos un colegio con cinco profesores. Al de ciencias le pagan 1200 euros al mes, al de matemáticas 1500, al de literatura 800 y al de historia 1100. Ahora resulta que el director es un fanático del fútbol, así que contrata a Pep Guardiola como profesor de gimnasia. El problema es que Pep no trabaja por 1000 euros al mes, así que le asignan un sueldo nada menos que de 20000 euros mensuales.

En este caso la media es de 4920 euros al mes y la mediana de 1200 euros. ¿Cuál os parece mejor medida de tendencia central en este caso?. Parece claro que la mediana da una mejor idea de lo que suelen ganar los profesores en este colegio. La media se dispara mucho porque se va detrás del valor extremo de 20000 euros mensuales.

Muchos pensaréis, incluso, que la media tiene poca utilidad en este caso. Pero eso es porque lo miráis desde el punto de vista del aspirante a profesor. Si fueseis aspirantes al cargo de gerente del colegio y tuvieseis que preparar el presupuesto mensual, ¿cuál de las dos medidas os sería más útil?. No cabe duda que la media, que os permitiría saber cuánto dinero tenéis que dedicar al pago de los profesores, conociendo el número de profesores del colegio, claro está.

Veamos otro ejemplo. Supongamos que reúno 20 gordos y los reparto en dos grupos para ensayar dos dietas de adelgazamiento. Haciendo un alarde de imaginación las vamos a llamar dieta A y dieta B.

Al cabo de tres meses los de la dieta A pierden 3,4 kg de media, mientras que los de la dieta B pierden una media de 2,7 kg. ¿Cuál de las dos dietas es más eficaz?.

Para aquellos listillos que habéis dicho que la dieta A, voy a proporcionaros un poco más de información. Esta es la diferencia de peso final menos inicial para los pacientes de la dieta A: 2, 4, 0, 0, -1, -1, -2, -2, -3 y -35. Y este es el mismo dato para los sujetos que siguieron la dieta B: -1, -1, -2, -2, -3, -3, -3, -3, -4 y -5. ¿Seguís pensando que la dieta A es más eficaz?.

Seguro que los más atentos habréis detectado ya la trampa de este ejemplo. En el grupo A hay un valor extremo que pierde 35 kg con la dieta, lo que hace que la media se dispare hacia esos -35 kg. Así que vamos a calcular las medianas: -0,5 kg para la dieta A y -3 kg para la dieta B. Parece que la dieta B es más eficaz y que las medianas, en este caso, dan una mejor información sobre la tendencia central de las distribuciones. Pensad que en este ejemplo es fácil darse cuenta mirando los datos crudos, pero si en lugar de 10 tenemos 1000 participantes no podríamos hacerlo así. Tendríamos que detectar la existencia de extremos y utilizar una medida de centralización más robusta, como la mediana.

Seguro que alguno borraría el valor extremo y se manejaría con las medias, pero esto no es aconsejable, porque los valores extremos pueden dar también información sobre aspectos determinados. Por ejemplo, ¿quién nos dice que no hay una situación metabólica especial en la que la dieta A es mucho más eficaz que la B, que lo es en la mayoría de los casos?.

Y aquí vamos a dejarlo por hoy. Solo deciros que en algunas ocasiones podemos recurrir a la transformación de los datos para que se ajusten a una normal o para reducir el efecto de los extremos. También existen también otros indicadores de centralización robustos diferentes a la mediana, como la media geométrica o la media recortada. Pero esa es otra historia…

El error de la confianza

Nuestra vida está llena de incertidumbre. Muchas veces queremos conocer información que está fuera de nuestro alcance, por lo que tenemos que conformarnos con aproximaciones. El problema de las aproximaciones es que están sujetas a error, por lo que nunca podemos estar completamente seguros de que nuestras estimaciones sean ciertas. Eso sí, podemos medir nuestro grado de incertidumbre.

De eso se encarga en gran parte la estadística, de cuantificar la incertidumbre. Por ejemplo, supongamos que queremos saber cuál es el valor medio de colesterol de los adultos de entre 18 y 65 años de la ciudad donde vivo. Si quiero el valor medio exacto tengo que llamarlos a todos, convencerlos para que se dejen hacer un análisis (la mayoría estarán sanos y no querrán hacerse nada) y hacer la determinación a cada uno de ellos para calcular después la media que quiero conocer.

El problema es que vivo en una ciudad muy grande, con unos cinco millones de habitantes, así que es imposible desde un punto de vista práctica determinarcolesterol_normal el colesterol a todos los adultos del intervalo de edad que me interesa. ¿Qué puedo hacer?. Tomar una muestra más asequible de mi población, calcular el valor medio de colesterol y estimar cuál es el valor medio de toda la población.

Así que escojo 500 individuos al azar y determino sus valores de colesterol en sangre, en miligramos por decilitro, obteniendo una media de 165, una desviación estándar de 25 y una distribución de los valores aparentemente normal, tal como os muestro en el gráfico que se adjunta.

Lógicamente, como la muestra es bastante grande, el valor medio de la población probablemente estará cerca de los 165 que he obtenido de la muestra, pero también es muy probable que no sea exactamente ese. ¿Cómo puedo saber el valor de la población?. La respuesta es que no puedo saber el valor exacto, pero sí aproximadamente entre qué valores está. En otras palabras, puedo calcular un intervalo dentro del cual se encuentre el valor inasequible de mi población, siempre con un nivel de confianza (o incertidumbre) determinado.

Pensemos por un momento qué pasaría si repitiésemos el experimento muchas veces. Cada vez obtendríamos un valor medio un poco diferente, pero todos ellos deberían ser parecidos y próximos al valor real de la población. Si repetimos el experimento cien veces y obtenemos cien valores medios, estos valores seguirán una distribución normal con un valor medio y una desviación estándar determinados.

Ahora bien, sabemos que, en una distribución normal, aproximadamente el 95% de la muestra se encuentra en el intervalo formado por la media más menos dos desviaciones estándar. En el caso de la distribución de medias de nuestros experimentos, la desviación estándar de la distribución de medias se denomina error estándar de la media, pero su significado es el mismo que el de cualquier desviación estándar: el intervalo comprendido por la media más menos dos errores estándar contiene el 95% de las medias. Esto quiere decir, aproximadamente, que la media de nuestra población se encontrará el 95% de las veces en el intervalo formado por la media de nuestro experimento (no necesitamos repetirlo cien veces) más menos dos veces el error estándar. ¿Y cómo se calcula el error estándar de la media?. Muy sencillo, aplicando la fórmula siguiente:

error estándar = desviación estándar / raíz cuadrada del tamaño de la muestra

EE= \frac{DE}{\sqrt{n}}

En nuestro caso, el error estándar vale 1,12, lo que quiere decir que el valor medio de colesterol en nuestra población se encuentra dentro del intervalo 165 – 2,24 a 165 + 2,24 o, lo que es lo mismo, de 162,76 a 167,24, siempre con una probabilidad de error del 5% (un nivel de confianza del 95%).

Hemos calculado así el intervalo de confianza del 95% de nuestra media, que nos permite estimar entre qué valores se encuentra el valor real. Todos los intervalos de confianza se calculan de forma similar, variando en cada caso la forma de calcular el error estándar, que será diferente según se trate de una media, una proporción, un riesgo relativo, etc.

Para terminar esta entrada comentaros que la forma en la que hemos hecho este cálculo es una aproximación. Cuando conocemos la desviación estándar de la población podemos utilizar una distribución normal para el cálculo del intervalo de confianza. Si no la conocemos, que es lo habitual, y la muestra es grande, cometeremos poco error aproximando con una normal. Pero si la muestra es pequeña, la distribución de medias ya no sigue una normal, sino una t de Student, por lo que tendríamos que utilizar esta distribución para el cálculo del intervalo. Pero esa es otra historia…

Sí, en el medio está la virtud, pero…

¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una noche de verano, no debe ser tan sencilla de responder cuando disponemos de varias formas de localizar el medio o centro de una distribución de datos.

Y es que encontrar el virtuoso medio es muy útil para describir nuestros resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa por la cabeza dar los resultados como un listado de los 1500 valores obtenidos. Habitualmente buscamos una especie de resumen que nos de una idea de cómo es esa variable en nuestra muestra, generalmente calculando una medida de centralización (el medio) y una de dispersión (cómo varían los datos alrededor del medio).

Supongamos que, por alguna razón difícil de explicar, queremos conocer la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.

Una vez que hemos recogido los datos, la medida de centralización que primero se nos viene a la cabeza es la media aritmética, que es el promedio de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se divide por el número de valores obtenidos. En nuestro caso su valor sería de 170 cm y nos da una idea del promedio de estatura de los componentes de nuestra muestra.

Pero ahora supongamos que el autobús de la selección nacional de baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que tomar el metro para ir al partido, con la desgracia para nosotros de que viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente no. En este caso echaríamos mano de otra medida de centralización: la mediana.

Para calcular la mediana ordenamos los valores de talla de menor a mayor y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15 medidas, la mediana sería el valor de la número 8 (deja 7 por arriba y 7 por abajo). Al ser par, la mediana se calcula como la media aritmética de los dos valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda probabilidad bastante más cercano al de la población y muy próximo al del vagón que paramos en el primer ejemplo.

Vemos, pues, que la media resume muy bien los datos cuando éstos se distribuyen de forma simétrica, pero que si la distribución está sesgada la mediana nos dará una idea más acertada del centro de la distribución.

Cuando la distribución está muy sesgada podemos emplear otros dos parámetros que son primos de la media aritmética: la media geométrica y la media armónica.

Para calcular la media geométrica calculamos el logaritmo neperiano de todos los valores, obtenemos su media aritmética y hacemos la transformación inversa exponencial con base e (el número e). Para la media armónica se calculan los valores recíprocos (1/valor), se calcula la media aritmética y se hace la transformación inversa (que nadie se asuste por la matemática del asunto, los programas de estadística calculan esta clase de cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles cuando la distribución está muy sesgada por tener la mayor parte de los valores alrededor de un número y una distribución o cola larga hacia la derecha. Por ejemplo, si montamos un control de alcoholemia en carretera un lunes a las seis de la mañana, la mayor parte de los conductores estarán muy cerca del cero, pero siempre habrá algunas determinaciones de valores más altos (los que se han acostado tarde y los que prefieren desayunar fuerte). En estos casos cualquiera de estas dos medias daría un valor más representativo que la media aritmética o la mediana.

Un último apunte sobre otra medida de centralización. Si nos fijamos en los pantalones de nuestros viajeros de metro y vemos que 12 visten vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de vestir preferida?. En efecto: la moda. Es el valor que más se repite en una distribución y puede ser muy útil cuando estamos describiendo variables cualitativas en lugar de cuantitativas.

De todas formas, no hay que olvidar que para resumir adecuadamente una distribución no solo hay que elegir la medida de centralización correcta, sino que hay que acompañarla de una medida de dispersión, de las que también disponemos de unas cuantas. Pero esa es otra historia…