Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

Otra piedra con la que no tropezar

Dice el refrán que el hombre es el único animal que tropieza dos veces con la misma piedra. Dejando aparte las connotaciones del uso de la palabra animal, la frase quiere dar a entender que podemos cometer muchas veces el mismo error, aún a pesar de darnos cuenta de ello.

Dándose cuenta o no, en estadística hay una serie de errores que se cometen con mucha frecuencia, utilizando parámetros o pruebas estadísticas de forma incorrecta, ya sea por ignorancia o, lo que es peor, para obtener resultados más llamativos.

Un caso frecuente es el uso del coeficiente de correlación de Pearson para estudiar el grado de acuerdo entre dos formas de medir una variable cuantitativa. Veamos un ejemplo.

Supongamos que queremos valorar la fiabilidad de un nuevo tensiómetro de muñeca para medir la presión arterial. Tomamos una muestra de 300 escolares sanos y les medimos la presión dos veces. La primera con un manguito convencional de brazo, obteniendo una media de presión sistólica de 120 mmHg y una desviación estándar de 15 mmHg. La segunda, con un nuevo tensiómetro de muñeca, con el que obtenemos una media de 119,5 mmHg y una desviación estándar de 23,6 mmHg. La pregunta que nos hacemos es la siguiente: considerando el manguito de brazo como patrón de referencia, ¿es fiable la determinación de presión arterial con el de muñeca?.

Podría pensarse que para contestar a esta pregunta se podría calcular el coeficiente de correlación entre ambos, pero cometeríamos un error de los gordos. El coeficiente de correlación mide la relación entre dos variables (cómo varía una cuando varía la otra), pero no su grado de acuerdo. Pensad, por ejemplo, si cambiamos la escala de uno de los dos métodos: la correlación no se modifica, pero el acuerdo que hubiese puede perderse por completo.

¿Cómo podemos saber entonces si la técnica nueva es fiable comparada con la convencional?. Lo lógico es pensar que los dos métodos no van a coincidir siempre, así que lo primero que debemos preguntarnos es cuánto es razonable que difieran para dar validez a los resultados. Esta diferencia debe definirse antes de comparar los dos métodos y de establecer el tamaño muestral necesario para hacer la comparación. En nuestro caso vamos a considerar que la diferencia no debe ser mayor a una desviación estándar de lo obtenido con el método de referencia, que es de 15 mmHg.

dos_variablesEl primer paso que podemos dar es examinar los datos. Para ello hacemos un diagrama de puntos representando los resultados obtenidos con los dos métodos. Parece que hay cierta relación entre las dos variables, de forma que aumentan y disminuyen las dos en el mismo sentido. Pero esta vez no caemos en la trampa de dibujar la línea de regresión, que solo nos informaría de la correlación entre las dos variables.

Otra posibilidad es examinar cómo son las diferencias. Si existiese un buen acuerdo, las diferencias entre los dos métodos se distribuirían de forma normal alrededor del cero. Podemos comprobar diferenciasesto haciendo el histograma con las diferencias de las dos medidas, como veis en la segunda figura. En efecto, parece que su distribución se ajusta bastante bien a una normal.

De todas formas, seguimos sin saber si el acuerdo es lo suficientemente bueno. ¿Qué tipo de gráfico nos puede servir?. Lo que nos dará más información será representar la media de cada pareja de mediciones frente a su diferencia, construyendo así el llamado gráfico de Bland-Altman que podéis ver en la tercera figura.

Como veis, los puntos se agrupan, más o menos, alrededor de una línea (en el cero) con un grado de dispersión que vendrá determinado por la amplitud de las diferencias de resultados entre los dos métodos. Cuanta mayor sea ese grado de dispersión, peor será el acuerdo entre los dos métodos. En nuestro caso, hemos dibujado las líneas que coinciden con una desviación estándar por debajo y por encima de la media cero, que eran los límites que considerábamos como aceptables entre los dos métodos para considerar un buen acuerdo.

bland_altmanComo veis hay bastantes puntos que caen fuera de los límites, así que tendríamos que valorar si el nuevo método reproduce los resultados de forma fiable. Otra posibilidad sería dibujar las líneas horizontales que engloban la gran mayoría de los puntos y considerar si estos intervalos tienen utilidad desde el punto de vista clínico.

El método de Bland-Altaman permite, además, calcular los intervalos de confianza de las diferencias y estimar la precisión del resultado. Además, hay que fijarse que el grado de dispersión sea uniforme. Puede ocurrir que el acuerdo sea aceptable en determinado intervalo de valores pero no lo sea en otro (por ejemplo, valores muy altos o muy bajos), en los que la dispersión sea inaceptable. Este efecto puede corregirse a veces transformando los datos (por ejemplo, transformación logarítmica), aunque siempre habrá que valorar considerar la utilidad de la medición en ese intervalo. Si miramos en nuestro ejemplo, parece que el tensiómetro de muñeca da valores más altos para sistólicas más bajas, mientras que da valores más bajos cuando la presión sistólica es mayor (la nube de puntos tiene una discreta pendiente negativa de izquierda a derecha). El método sería más fiable para sistólicas en torno a 120 mmHg, pero perdería reproducibilidad según se aleje el valor de presión arterial sistólica de los 120 mmHg.

Otra utilidad del método de Bland-Altman es la de representar las parejas de resultados de las mediciones hechas con el mismo método o instrumento, para así comprobar la reproducibilidad de los resultados de la prueba.

Y con esto termino lo que quería contaros del método de Bland-Altman. Antes de acabar, quiero aclarar que los datos empleados en esta entrada son totalmente inventados por mí y no corresponden a ningún experimento real. Los he generado con un ordenador con el fin de explicar el ejemplo, así que no quiero que ningún vendedor de tensiómetros de muñeca me venga con reclamaciones.

Para finalizar, deciros que este método se usa solo cuando se quiere valorar el grado de acuerdo entre variables cuantitativas. Existen otros métodos, como el índice kappa de concordancia, para cuando tratamos con resultados cualitativos. Pero esa es otra historia…

La unión hace la fuerza

¿Cuántas veces habremos escuchado esta frase u otras por el estilo?. Las ventajas de trabajar juntos, en equipo, están perfectamente demostradas. Casi nadie niega el hecho de que dos (o más) cabezas piensan mejor que una. Pero el trabajo en equipo también tiene sus puntos oscuros, ya que dentro del equipo suele haber diversidad de caracteres que pueden enturbiar la armonía que debería reinar dentro del grupo. Si estas divergencias son lo suficientemente importantes puede arruinarse la colaboración y hacer que sea más ventajoso el esfuerzo individual que el colectivo.

Y este mismo razonamiento puede aplicarse al uso de variables de resultados en los estudios científicos. En ocasiones, generalmente para aumentar la frecuencia del número de eventos de estudio que se producen y disminuir las necesidades de un tamaño muestral mayor, los investigadores combinan varias variables de resultado en un único evento, que se denomina variable de resultado compuesta.

Un ejemplo frecuente es la variable compuesta MACE, muy utilizada en Cardiología, y que incluye muerte, infarto, ictus, revascularización coronaria, reestenosis, isquemia recurrente y rehospitalización. Considerando un evento producido cuando se produce cualquiera de las situaciones se consigue un mayor número de eventos que si hay que medir cada uno de ellos por separado. En consecuencia, el tamaño muestral necesario para detectar diferencias significativas se reduce.

El problema con las variables compuestas es que, en muchas ocasiones, se abusa de ellas y no se cumplen una serie de requisitos para su correcta utilización. Además, como los componentes de la variable suelen variar de un ensayo a otro, contribuyen enormemente a la heterogeneidad entre estudios, lo que puede dificultar el llegar a conclusiones globales.

Idealmente, todos los componentes deberían ser intercambiables y cumplir tres condiciones. Primera, tener más o menos la misma importancia desde el punto de vista clínico. Segunda, todos los componentes deberían ocurrir con una frecuencia similar. Y tercera, deberían tener una sensibilidad al tratamiento similar.

Sin embargo, estas condiciones no se cumplen prácticamente nunca. Lo habitual es combinar algunos componentes duros e infrecuentes (el más duro de todos es la mortalidad) con otros no tan graves y más frecuentes. Esto tiene como consecuencia que son los efectos más frecuentes (y, por tanto, menos graves) los que suelen condicionar la frecuencia de la variable de resultado compuesta y la sensibilidad para detectar el efecto de la intervención.

Otra cosa que no debe hacerse es combinar variables que responden a diferentes mecanismos fisiopatológicos o formar una variable compuesta con componentes con gran gradiente de importancia clínica o de susceptibilidad al tratamiento.

Este hecho se hace muy evidente cuando se combinan resultados de seguridad con resultados de eficacia para valorar un beneficio clínico neto. Si la intervención es muy eficaz, la valoración neta puede enmascarar la existencia de efectos perjudiciales, sobre todo si no se hace una ponderación de los distintos componentes de la variable compuesta.

Esta combinación de seguridad y eficacia en la misma variable de resultado plantea un problema adicional en los estudios de no inferioridad. Puede ocurrir que una intervención poco eficaz pero muy segura pueda parecer tan buena o mejor que la intervención del grupo de comparación.

Por último, la heterogeneidad de la susceptibilidad al efecto de la intervención de los distintos componentes de la variable puede también plantear problemas a la hora de interpretar los resultados. Por ejemplo, puede producirse un efecto positivo sobre los componentes de menor importancia clínica y afectarse de forma negativa los de mayor importancia (como la mortalidad). Si se da este hecho, el efecto neto puede ser beneficioso por la mayor frecuencia de los componentes más leves, aunque tenga más trascendencia desde el punto de vista clínico el efecto negativo sobre los más graves, mucho menos frecuentes.

Una solución a este problema puede ser asignar una ponderación a cada uno de los componentes de la variable. El problema es que esto es bastante subjetivo y, además, puede disminuir la potencia del estudio, con lo que se pierde el beneficio teórico de usar variables compuestas.

¿Qué hacemos entonces?. ¿Nos olvidamos de las variables de resultado compuestas?. Pues yo creo que no hay necesidad de tanto. Solo conviene seguir una serie de recomendaciones cuando queramos emplearlas para hacerlo con unas garantías máximas: 1) deberá justificarse la validez de cada componente individual; 2) evitaremos utilizar componentes con poca importancia desde el punto de vista clínico; 3) no incluiremos componentes con poca probabilidad de influirse por la intervención; 4) tendremos que describir la variable compuesta y sus componentes por separado; 5) valorar la heterogeneidad del efecto del tratamiento sobre cada uno de los componentes; 6) ponderar los componentes según su importancia clínica; y 7) hacer un análisis de sensibilidad para determinar cómo afectan los resultados el uso de la ponderación de los componentes de la variable compuesta.

Y con esto terminamos por hoy. Hemos tenido la oportunidad de reflexionar sobre una más de las múltiples herramientas que, a menudo, se utilizan de forma incorrecta en los trabajos que vemos publicados en revistas científicas, incluso de alto impacto. Y no es la única. Hay muchas más de las que se abusa para conseguir los resultados buscados. Por ejemplo, se me viene a la cabeza el caso de las comparaciones múltiples de subgrupos. Pero esa es otra historia…

Una tarea imposible

Eso es el bootstrapping. Una idea imposible de llevar a cabo. Además de un palabro intraducible, claro está.

El nombre tiene relación con la especie de correas (straps, en inglés) que tienen las botas (boots, también en inglés) en su parte superior, sobre todo esas botas de vaqueros que vemos en las películas. Bootstrapping es un término que, al parecer, hace referencia a la acción de elevarse a uno mismo del suelo tirando simultáneamente de las correas de las dos botas. Como os dije, una tarea imposible gracias a la tercera ley de Newton, el famoso principio de acción y reacción.  He buscado y rebuscado términos adecuados para traducirlo al castellano, pero no he encontrado ninguno que me agrade, así que se admiten sugerencias al respecto.

El bootstrapping es una técnica de remuestreo que se emplea en estadística cada vez con más frecuencia gracias a la potencia de los ordenadores actuales, que permiten hacer cálculos que antes podían ser inconcebibles. Quizás su nombre tenga que ver con su carácter de tarea imposible, porque el bootstrapping se utiliza para hacer posibles tareas que podrían parecer imposibles cuando el tamaño de nuestras muestras es muy pequeño o cuando las distribuciones están muy sesgadas, como la obtención de intervalos de confianza, de pruebas de significación estadística o de cualquier otro estadístico en el que estemos interesados.

Como recordaréis de cuando calculamos el intervalo de confianza de una media, podemos hacer el experimento teórico de obtener múltiples muestras de una población para calcular la media de cada muestra y representar la distribución de las medias obtenidas de las múltiples muestras. Es la llamada distribución de muestreo, cuya media es el estimador del parámetro en la población y cuya desviación estándar es el llamado error estándar del estadístico que nos permitirá calcular el intervalo de confianza que deseemos. De esta forma, la extracción de muestras repetidas de la población nos permite hacer descripciones e inferencias estadísticas.

Pues bien, el bootstrapping es algo parecido, pero con una diferencia fundamental: las muestras sucesivas se extraen de nuestra muestra y no de la población de la que procede. El procedimiento sigue una serie de pasos repetitivos.

En primer lugar extraemos una muestra a partir de la muestra original. Esta muestra debe extraerse utilizando un muestreo con reposición, de tal forma que algunos elementos no serán seleccionados y otros lo podrán ser más de una vez en cada muestreo. Es lógico, si tenemos una muestra de 10 elementos y extraemos 10 elementos sin reposición, la muestra obtenida será igual a la original, con lo que no ganamos nada.

De esta nueva muestra se obtiene el estadístico deseado y se utiliza como estimador de la población. Como este estimador sería poco preciso, repetimos los dos pasos anteriores un gran número de veces, obteniendo así un número alto de estimaciones.

Ya casi estamos. Con todos estos estimadores construimos su distribución, que llamamos distribución de bootstrap, y que representa una aproximación de la verdadera distribución del estadístico en la población. Lógicamente, para esto hace falta que la muestra original de la que partimos sea representativa de su población. Cuánto más se aleje, menos fiable será la aproximación de la distribución que hemos calculado.

Por último, con esta distribución de bootstrap podemos calcular el valor central (el estimador puntual) y sus intervalos de confianza de forma similar a como hacíamos para calcular el intervalo de confianza de una media a partir de la distribución de muestreo.

Como veis, un método ingenioso que a nadie se le ocurriría poner en práctica sin la ayuda de un programa de estadística y un buen ordenador. Vamos a ver un ejemplo práctico para entenderlo mejor.

Supongamos por un momento que queremos saber cuál es el consumo de alcohol en un grupo determinado de personas. Reunimos 20 individuos y calculamos su consumo de alcohol en gramos semanales, obteniendo los siguientes resultados:

ingesta alcohol

consumo_alcoholLos datos podemos verlos representados en el primer histograma. Como veis, la distribución es asimétrica con un sesgo positivo (hacia la derecha). Tenemos un grupo de abstemios o bebedores escasos y una cola representada por los que van teniendo consumos cada vez más altos, que son cada vez menos frecuentes. Este tipo de distribución es muy frecuente en biología.

En este caso la media no sería buena medida de tendencia central, así que preferimos calcular la mediana. Para ello, podemos ordenar los valores de menor a mayor y hacer la media entre los que ocupan los lugares décimo y undécimo. Yo me he molestado en hacerlo y sé que la mediana vale (4,77+5)/2 = 4,88.

Ahora bien, a mí me interesa saber el valor de la mediana en la población de la que procede la muestra. Con una muestra tan pequeña y tan sesgada no puedo aplicar los procedimientos habituales y no tengo posibilidad de buscar más individuos de la población para hacerles el estudio. En este momento es donde entra en juego el bootstrapping.

Así que obtengo 1000 muestras con reposición de mi muestra original y calculo la mediana de las 1000 muestras. La distribución de bootstrap de esas 1000 medianas aparece representada en el segundo histograma. Como puede comprobarse, se parece a una distribución normal, cuya media es 4,88 y cuya desviación estándar es 1,43.

Bueno, ya podemos calcular nuestro intervalo de confianza para hacer la estimación poblacional. Podemos hacerlo de dos formas. La primera, calculando los márgenes que engloban el 95% de la muestra (calculando los percentiles 2,5 y 97,5) y que veis representados en el tercer gráfico. Yo he utilizado el programa R, pero puede hacerse de forma manual utilizando fórmulas para el cálculo de percentiles (aunque no es muy recomendable, ya que hay 1000 medianas que ordenar). Así, obtengo una mediana de 4,88 con un intervalo de confianza del 95% de 2,51 a 7,9.

La otra forma es recurriendo al teorema central del límite, que no podíamos usar con la muestra original pero sí con la distribución de bootstrap. Sabemos que el intervalo de confianza del 95% será igual a la mediana más menos 1,96 veces el error estándar (que es la desviación estándar de la distribución de bootstrap). Luego:

IC 95 = 4,88 ± 1,96 x 1,43 = 2,08 a 7,68.

Como veis, se parece bastante al que habíamos obtenido con la aproximación de los percentiles.

Y aquí lo dejamos, antes de que alguna cabeza se recaliente demasiado. Para animaros un poco, todo este rollo puede evitarse si se utiliza directamente un programa como R, que calcula el intervalo, y hace el bootstrapping si es necesario, con una instrucción tan sencilla como el comando ci.median() de la librería asbio.

Nada más por hoy. Solo deciros que el bootstrapping es quizás la más famosa de las técnicas de remuestreo, pero no la única. Hay más, algunas también con nombre peculiar como jacknife, pruebas de aleatorización y permutación o prueba de validación cruzada. Pero esa es otra historia…

No todo es normal

Dice el diccionario que una cosa es normal cuando se halla en un estado natural o que se ajusta a unas normas fijadas de antemano. Y este es su significado más normal. Pero como muchas otras palabras, normal tiene otros muchos significados. En estadística, al hablar de normal nos referimos a una distribución de probabilidad determinada, la llamada distribución normal, la famosa campana de Gauss.

Esta distribución se caracteriza por su simetría alrededor de una media, que coincide con la mediana, además que otras características que ya comentamos en una entrada anterior. La gran ventaja de la distribución normal es que nos permite calcular probabilidades de aparición de datos de esa distribución, lo que tiene como consecuencia la posibilidad de inferir datos de la población a partir de los obtenidos de una muestra de la misma.

Así, prácticamente todas las pruebas paramétricas de contraste de hipótesis necesitan que los datos sigan una distribución normal. Podría pensarse que esto no es un gran problema. Si se llama normal será porque los datos biológicos suelen seguir, más o menos, esta distribución. Craso error, muchos datos siguen una distribución que se aparta de la normalidad. Pensemos, por ejemplo, en el consumo de alcohol. Los datos no se agruparán de forma simétrica alrededor de una media. Al contrario, la distribución tendrá un sesgo positivo (hacia la derecha): habrá un número grande alrededor del cero (los abstemios o bebedores muy ocasionales) y una larga cola hacia la derecha formada por personas con un consumo más alto. La cola se prolongará mucho hacia la derecha con los valores de consumo de esas personas que se desayunan con cazalla.

¿Y en qué nos afecta para nuestros cálculos estadísticos que la variable no siga una normal?. ¿Qué tenemos que hacer si los datos no son normales?.

curva_normalLo primero que tenemos que hacer es darnos cuenta de que la variable no sigue una distribución normal. Ya vimos que existen una serie de métodos gráficos que nos permiten aproximar de forma visual si los datos siguen la normal. El histograma o el diagrama de cajas (box-plot) nos permiten comprobar si la distribución está sesgada, si es demasiado plana o picuda, o si tiene valores extremos. El gráfico más específico para este fin es el de probabilidad normal (q-q plot), en el que los valores se ajustan a la línea diagonal si la distribución sigue una normal.

Otra posibilidad es emplear pruebas de contraste numéricas como la de Shapiro-Wilk o la de Kolmogorov-Smirnov. El problema de estas pruebas es que son muy sensibles al efecto del tamaño de la muestra. Si la muestra es grande pueden afectarse por desviaciones de la normalidad poco importantes. Al contrario, si la muestra es pequeña, pueden fracasar en la detección de desviaciones grandes de la normalidad. Pero es que estas pruebas, además, tienen otro inconveniente que entenderéis mejor tras un pequeño inciso.

Ya sabemos que en un contraste de hipótesis se establece una hipótesis nula que, habitualmente, dice lo contrario de lo que queremos demostrar. Así, si el valor de significación estadística es menor de valor definido (habitualmente 0,05), rechazamos la hipótesis nula y nos quedamos con la alternativa, que dirá precisamente lo que queremos demostrar. El problema es que la hipótesis nula es solo falsable, nunca podemos decir que sea verdadera. Simplemente, si la significación estadística es alta, no podremos rechazar que sea falsa, pero eso no quiere tampoco decir que sea cierta. Puede ocurrir que el estudio no tenga potencia suficiente para descartar una hipótesis nula que, en realidad, es falsa.

Pues bien, da la casualidad de que los contrastes de normalidad están planteados con una hipótesis nula que dice que los datos siguen una normal. Por eso, si la significación es pequeña, podremos descartarla y decir que los datos no son normales. Pero si la significación es alta, simplemente no podremos rechazarla y diremos que no tenemos capacidad para decir que los datos no siguen una normal, lo que no es lo mismo que poder afirmar que son normales. Por estos motivos, siempre es conveniente complementar los contrastes numéricos con algún método gráfico para comprobar la normalidad de la variable.

Una vez que sabemos que los datos no son normales, tendremos que tenerlo en cuenta a la hora de describirlos. Si la distribución es muy sesgada no podremos utilizar la media como medida de centralización y tendremos que recurrir a otros estimadores robustos, como la mediana o el otro abanico de medias disponibles para estas situaciones.

Además, la ausencia de normalidad puede desaconsejar el uso de pruebas paramétricas de contraste. La prueba de la t de Student o el análisis de la varianza (ANOVA) precisan que la distribución sea normal. La t de Student es bastante robusta en este sentido, de forma que si la muestra es grande (n > 80) puede emplearse con cierta seguridad. Pero si la muestra es pequeña o la distribución se aparta mucho de la normal, no podremos utilizar pruebas paramétricas de contraste.

Una de las posibles soluciones a este problema sería intentar una transformación de los datos. La más frecuentemente empleada en biología es la transformación logarítmica, muy útil para aproximar a una normal aquellas distribuciones con sesgo positivo (hacia la derecha). No hay que olvidar deshacer la transformación de los datos una vez realizado el contraste con la prueba en cuestión.

La otra posibilidad es emplear pruebas no paramétricas, que no precisan de ninguna asunción sobre la distribución de la variable. Así, para comparar dos medias de datos no pareados emplearemos el test de la suma de rangos de Wilcoxon (también llamado test de la U de Mann-Withney). Si los datos son pareados habrá que usar el test de los signos de los rangos de Wilcoxon. En caso de comparaciones de más de dos medias medias, el test de Kruskal-Wallis será el equivalente no paramétrico de la ANOVA. Por último, comentar que el equivalente no paramétrico del coeficiente de correlación de Pearson es el coeficiente de correlación de Spearman.

El problema de las pruebas no paramétricas es que son más exigentes para conseguir significación estadística que sus equivalentes paramétricos, pero deben emplearse en cuanto haya la menor duda sobre la normalidad de la variable que estemos contrastando.

Y aquí lo vamos a dejar por hoy. Podríamos hablar de una tercera posibilidad de enfrentarnos a una variable no normal, mucho más exótica que las mencionadas. Se trata de la utilización de técnicas de remuestreo como el bootstrapping, que consiste en hacer una distribución empírica de las medias de muchas muestras extraídas de nuestros datos para poder hacer inferencias con los resultados obtenidos, conservando así las unidades originales de la variable y evitando el vaivén de las técnicas de trasformación de datos. Pero esa es otra historia…

Una familia muy robusta

La media es un estadístico caprichoso. Me refiero a la media aritmética, claro. ¿Y por qué digo que es caprichosa?. Por su gusto por irse tras los valores extremos.

La media aritmética (a partir de ahora, simplemente la media) es la medida de tendencia central más utilizada. Y una medida de tendencia central es aquella que nos informa sobre cuál es el centro de la distribución.

Supongamos que medimos los valores de colesterol sérico y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155.

Si os fijáis, la mayor parte de los valores (16, para ser exactos), están entre 150 y 180 mg/dl. Vamos a calcular la media a ver si nos informa correctamente sobre el centro de la distribución.

Como sabéis, para calcular la media se suman todas las observaciones y se divide por el número total de observaciones. Para los que gustéis de fórmulas, sería la siguiente:\bar{x}= \frac{\sum_{i=1}^{n}x_{i}}{n}Si lo calculáis, veréis que la media es de 190. Este valor está fuera del intervalo que incluye al 80% de los elementos. ¿Y cómo puede ser?. Fácil, ya lo habréis visto. Resulta que en la muestra se nos han colado dos hermanos con hipercolesterolemia familiar y tienen unos valores altísimos, que actúan como valores extremos de la distribución. Y aquí es donde entra la tendencia de la media a abandonar el punto central e irse detrás de los valores extremos. Como los valores extremos están hacia la derecha, la media se desplaza hacia la derecha y pierde su cualidad de representar el punto medio.

En estos casos, si queremos determinar mejor cuál es el centro de la distribución tenemos que recurrir a medidas robustas. Este término no tiene nada que ver con la fuerza física que hay que emplear para calcularlas, sino que hace referencia a los estadísticos que no se ven influidos (o que se afectan poco) por cambios pequeños en la muestra o por valores extremos.

En este sentido, la media aritmética es muy poco robusta. Fijaos que si quitamos simplemente los dos valores extremos, pasa de 190 a 163 (mucho más representativo del centro de la distribución).

Existen una serie de medidas robustas de tendencia central. La más conocida es la mediana. Para calcularla, lo primero que tenemos que hacer es ordenar los valores de menor a mayor: 143, 152, 152, 152, 154, 155, 155, 159, 163, 166, 167, 168, 168, 170, 171, 177, 183, 185, 426 y 435. Como son 20 valores, la mediana será el valor promedio de los que ocupan las posiciones décima y undécima (166 y 167), o sea, 166,5. Como veis, más cerca del centro sin necesidad de suprimir los valores extremos.

Además de la mediana, existe una serie de parientes de la media aritmética que pertenecen a la familia de las medidas de tendencia central robustas.

Una de ellas es la media geométrica, que se calcula multiplicando todos los valores y hallando la raíz con exponente n (número de casos). Para los amantes de las fórmulas, ahí va:Media\ geom\acute{e}trica= \sqrt[n]{\prod_{i=1}^n{x_{i}}}En nuestro caso multiplicaríamos 143X152X152…x426x435 y haríamos la raíz de índice 20 del producto. En nuestro caso vale 179,57. El cálculo es un poco engorroso, por eso yo he usado el programa R para calcularla. Hay otra forma de llegar al mismo valor que consiste en hallar los logaritmos neperianos de los valores, calcular su media aritmética y, finalmente, hacer el antilogaritmo del promedio. En cualquier caso, cualquier programa estadístico puede calcular la media geométrica sin pestañear. Esta media es poco utilizada, aunque podemos verla en ocasiones en trabajos sobre Microbiología, ya que algunos de los parámetros que utilizan, como los títulos de las diluciones, siguen una escala logarítmica.

Para aquellos que les haya parecido sencillo lo de la media geométrica tengo preparada la media armónica. Esta se calcula dividiendo el número de observaciones por la suma total del inverso de cada valor. Quizás con la fórmula se entienda mejor:Media\ arm\acute{o}nica= \frac{n}{\sum_{i=1}^{n}\frac{1}{x_{i}}}Haciendo otra vez uso de R, su valor es de 173,36, un valor parecido al anterior. Esta media tampoco es utilizada muy a menudo, aunque a veces podemos encontrarla, sobre todo en trabajos sobre Farmacología.

Mucho más sencilla de calcular es la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Su valor es de 165,31.

Una variante de esta última es la media winsorizada. En vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. En nuestro caso 143 y 152 se sustituirían por 152 y 426 y 435 por 185. Su valor es de 165,95.

Quizás el miembro de esta robusta familia que se utiliza con más frecuencia, después de la mediana, sea la media ponderada. A cada elemento se le atribuye un peso determinado (w) y, para calcular la media ponderada, se suman los productos de cada valor por su peso y se divide el total por la suma de pesos. La fórmula es la siguiente:Media\ ponderada= \frac{\sum_{i=1}^{n}(x_{i}w_{i})}{\sum_{i=1}^{n}w_{i}}Vamos a calcular una media ponderada inventada de los valores de presión arterial en la que el peso para la sistólica vale 20 y para la diastólica 10. Si los valores de sistólica y diastólica son 120 y 60, respectivamente, la media ponderada valdría

Media\ ponderada= \frac{(120\times 20)+(60\times 10)}{20+10}= 100

Una especie de media ponderada es la que se conoce con el nombre de trimedia. Esta se calcula como la media aritmética de los tres cuartiles (primero, mediana y tercero), ponderando la mediana por dos y los cuartiles primero y tercero por uno (la suma se divide por cuatro). En nuestro ejemplo del colesterol el primer cuartil vale 154,8, la mediana 166,5 y el tercer cuartil 172,5, así que la trimedia es igual aTrimedia= \frac{154,8+(2\times 166,5)+172,5}{4}= 165Y aquí lo vamos a dejar por hoy. Veis que las primas robustas de la media aritmética forman una gran familia. Pero no penséis que hemos hablado de todos los miembros de esta familia. Existen muchos otros cuya estadística es bastante más antipática, pero que podemos calcular con la mayoría de los paquetes informáticos. Son, por ejemplo, los estimadores R de tendencia y los estimadores M de tendencia, como el de Huber, el biponderado de Tukey, el redescendente de Hampel, el de Andrew, etc, etc. Pero esa es otra historia…

Teniendo la n grande, ¿quién necesita una p pequeña?

El culto a la p es una de las religiones más extendidas en Medicina. Sus creyentes buscan siempre los valores de p cuando leen un trabajo científico y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada de ceros.

Pero a este culto le ha surgido en los últimos tiempos un serio competidor: los adoradores de la n que, como todos sabemos, representa el tamaño de la muestra. Y es que con las herramientas de manejo de información de que se dispone en la actualidad es relativamente fácil hacer estudios con tamaños muestrales enormes. Muy bien, pensaréis, podemos combinar las dos creencias en una y venerar aquellos trabajos que, con tamaños de muestra enormes, consiguen valores de p minúsculos. El problema es que esto nos desvía de la que debería ser nuestra verdadera religión, que no debe ser otra que la valoración del tamaño del efecto observado y de su importancia clínica.

Cuando observamos una diferencia de efecto entre las dos ramas de un ensayo debemos preguntarnos si esa diferencia es real o es simplemente debida al azar. Lo que hacemos es establecer una hipótesis nula que dice que la diferencia se debe al azar y calculamos un estadístico que nos da el valor de probabilidad de que la diferencia sea debida, en efecto, al azar. Este es el valor de significación estadística, nuestra p. El valor de p solo indica eso: la probabilidad de que la diferencia se deba al azar. Habitualmente se toma por convenio el límite de 0,05, de forma que si p vale menos de ese valor se considera razonablemente improbable que la diferencia se deba al azar y consideramos que el efecto realmente existe.

El valor de p que podemos obtener depende de varios factores, como la dispersión de la variable que estemos midiendo, el tamaño del efecto y el tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los valores de p, manteniendo el resto de factores sin modificar, son más pequeños cuanto mayor sea el tamaño muestral.

Imaginemos que comparamos presión arterial media con dos fármacos en un ensayo clínico y tenemos una diferencia de medias entre los dos grupos de 5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser significativo (ser mayor de 0,05), pero es muy probable que esta misma diferencia sea significativa si en el ensayo participan 10000 pacientes. En efecto, en muchas ocasiones el alcanzar significación estadística puede ser solo cuestión de aumentar el tamaño de la muestra. Esto hace que con muestras muy grandes tengamos significación para tamaños de efecto muy pequeños. En nuestro ejemplo, un intervalo de confianza de diferencias de medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero, valor nulo para las diferencias de medias), aunque probablemente el efecto es insignificante desde el punto de vista clínico. La diferencia es real, aunque su importancia clínica puede ser inexistente.

En resumen, cualquier efecto, por insignificante que sea, puede llegar a ser estadísticamente significativo si la muestra es lo suficientemente grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.

El mínimo coeficiente de correlación que alcanzará una significación estadística (p<0,05) para un tamaño de muestra determinado valdrá, aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las fórmulas de cálculo del intervalo de confianza del 95% de R).

Esto quiere decir que si n=10, cualquier valor de R > 0,63 será estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable para establecer la correlación entre las dos variables, es posible que tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable dependiente se explica por los cambios en la independiente. Pero pensad un momento que pasaría si n=100000. Cualquier valor de R>0,006 será significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por muy significativa que sea, ya que será despreciable la cantidad de variabilidad de una de las variables que se pueda explicar por los cambios en la otra.

El problema que se plantea en la práctica es que es mucho más difícil definir los límites de la significación clínica que los de la estadística. Como regla general, un efecto es estadísticamente significativo cuando su intervalo de confianza no cruza el valor nulo. Por otra parte, será clínicamente relevante cuando algunos de los valores de dentro del intervalo sean considerados importantes por el investigador.

Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de terminar. He simplificado un poco el razonamiento de la relación entre la n y la p, exagerando un poco para demostrar que las muestras grandes pueden ser tan discriminativas que el valor de p pierde un poco su razón de ser. Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del tamaño del menor grupo analizado, así que cuando el efecto estudiado sea muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra historia…

Como un huevo a una castaña

¿En qué se parecen un huevo y una castaña?. Si disparamos nuestra imaginación podemos dar algunas respuestas tan absurdas como rebuscadas. Los dos son de forma más o menos redondeada, los dos pueden servir de alimento y los dos tienen una cubierta dura que encierra la parte que se come. Pero, en realidad, un huevo y una castaña no se parecen en nada aunque queramos buscar similitudes.

Lo mismo les pasa a dos herramientas gráficas muy utilizadas en estadística descriptiva: el diagrama de barras y el histograma. A primera vista pueden parecer muy similares pero, si nos fijamos bien, existen claras diferencias entre ambos tipos de gráficos, que encierran conceptos totalmente diferentes.

Ya sabemos que hay distintos tipos de variables. Por un lado están las cuantitativas, que pueden ser continuas o discretas. Las continuas son aquellas que pueden tomar un valor cualquiera dentro de un intervalo, como ocurre con el peso o la presión arterial (en la práctica pueden limitarse los valores posibles debido a la precisión de los aparatos de medida, pero en la teoría podemos encontrar cualquier valor de peso entre el mínimo y máximo de una distribución). Las discretas son las que solo pueden adoptar ciertos valores dentro de un conjunto como, por ejemplo, el número de hijos o el número de episodios de isquemia coronaria.

Por otra parte están las variables cualitativas, que representan atributos o categorías de la variable. Cuando las variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable fumador sería cualitativa nominal si tiene dos posibilidades: sí o no. Sin embargo, si la definimos como ocasional, poco fumador, moderado o muy fumador, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

Pues bien, el diagrama de barras sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.diagrama barras

El gran mérito de los diagramas de barras es expresar la magnitud de las diferencias entre las categorías de la variable. Pero ahí está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes. Como podéis ver en la primera figura, la diferencia entre poco y fumadores ocasionales parece mucho mayor en el segundo gráfico, en el que nos hemos comido parte del eje vertical. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

histogramaCambiando de tema, el histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse. Como veis en la segunda figura, las columnas, a diferencia del diagrama de barras, están todas juntas y el punto medio es el que da el nombre al intervalo. Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre tendrán un área mayor aquellos intervalos con mayor frecuencia.

Existe, además, otra diferencia muy importante entre el diagrama de barras y el histograma. En el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Y aquí dejamos estos gráficos que pueden parecer lo mismo pero que, como queda demostrado, se parecen como un huevo a una castaña.

Solo un último comentario. Dijimos al principio que era un error utilizar diagramas de barras (y no digamos ya histogramas) para representar variables cualitativas nominales. ¿Y cuál utilizamos?. Pues un diagrama de sectores, la famosa y ubicua tarta que se utiliza en más ocasiones de las debidas y que tiene su propia idiosincrasia. Pero esa es otra historia…

Con poco afinamos mucho

A todos nos gusta saber qué va a pasar en el futuro. Por eso tratamos de inventar cosas que nos ayuden a saber qué va a ocurrir, cuál va a ser el resultado de una determinada cosa. Un ejemplo muy claro es el de las elecciones en política o el de las encuestas para preguntar a la gente sobre una cuestión de interés. Por eso se han inventado los sondeos, para tratar de anticipar el resultado de una encuesta antes de realizarla. Hay mucha gente que no se fía mucho de los sondeos pero, como veremos a continuación, son una herramienta bastante útil: nos permiten realizar estimaciones bastantes finas y con un esfuerzo relativamente pequeño.

Pensemos, por ejemplo, que vamos a hacer un referéndum a la suiza para preguntar a la gente si quiere reducir la jornada laboral. Algunos me diréis que esto es perder el tiempo, ya que en España una encuesta así tendría un resultado más que previsible, pero nunca se sabe. En Suiza se preguntó y prefirieron seguir trabajando más tiempo.

Si queremos saber con seguridad cuál va a ser el resultado de la votación tendríamos que preguntar a todo el mundo cuál va a ser su voto, lo que resulta poco práctico para llevarlo a cabo. Así que hacemos un sondeo: elegimos una muestra de un tamaño determinado y les preguntamos. Obtenemos así una estimación del resultado final, con una precisión que vendrá determinada por el intervalo de confianza del estimador que calculemos.

¿Y la muestra tendrá que ser muy amplia?. Pues no demasiado, siempre que esté bien elegida. Veámoslo.

Cada vez que hacemos el sondeo, obtenemos un valor de la proporción p que votará, por ejemplo, sí a la propuesta. Si repitiésemos el sondeo muchas veces, obtendríamos un conjunto de valores próximos entre sí y, probablemente, próximos al valor real de la población al que no podemos acceder. Pues bien, estos valores (resultado de los diferentes sondeos repetidos) siguen una distribución normal, de tal manera que sabemos que el 95% de los valores estarían entre el valor de la proporción en la población más menos dos veces la desviación estándar (en realidad, 1,96 veces la desviación). A esta desviación estándar se le llama error estándar, y es la medida que nos permite calcular el margen de error de la estimación mediante su intervalo de confianza:

Intervalo de confianza del 95% (IC 95) = proporción estimada ± 1,96 x error estándar

En realidad, esta es una ecuación simplificada. Si partimos de una muestra finita (n) obtenida de una población (N), el error estándar debe multiplicarse por un factor de corrección, de tal forma que la fórmula queda de la siguiente manera:

IC 95 = p ± 1,96 error estándar x \sqrt{1-\frac{n}{N}}

Si os paráis a pensar un momento, cuando la población es muy grande el cociente n/N tiende a cero, con lo que el resultado del factor de corrección tiende a uno. Es por esto por lo que la muestra no tiene porqué ser excesivamente grande y por lo que un mismo tamaño de muestra nos puede servir para estimar el resultado de unas elecciones municipales o el de unas nacionales.

Por lo tanto, la precisión de la estimación está más en relación con el error estándar. ¿Cuál sería el error estándar en nuestro ejemplo?. Al ser el resultado una proporción, sabemos que seguirá una distribución binomial, por lo que el error estándar será igual a

Error estándar = \sqrt{\frac{p(1-p)}{n}}, siendo p la proporción obtenida y n el tamaño muestral.

La imprecisión (la amplitud del intervalo de confianza) será mayor cuanto mayor sea el error estándar. Por lo tanto, a mayor producto p(1-p) o a menor tamaño muestral, menos precisa será nuestra estimación y mayor será nuestro margen de error.

De todas formas, este margen de error es limitado. Veamos por qué.

px1-pSabemos que p puede tener valores entre cero y uno. Si examinamos la figura con la curva de p frente a p(1-p), vemos que el valor máximo del producto se obtiene cuando p=0,5, con un valor de 0,25. Según p se aleje de 0,5 en uno u otro sentido, el producto será menor.

Luego, para un mismo valor de n, el error estándar será máximo cuando p valga 0,5, según la ecuación siguiente:

M\acute{a}ximo \ error\ est\acute{a}ndar= \sqrt{\frac{0,5 \times 0,5}{n}}  =  \sqrt{\frac{0,25}{n}}\frac{0,5}{\sqrt{n}}

Así, si expresamos la fórmula del intervalo de confianza más amplio:

M\acute{a}ximo\ IC 95\%=p\pm1,96\times\frac{0,25}{\sqrt{n}}\approxp\pm2\times\frac{0,25}{\sqrt{n}}=p\pm\frac{1}{\sqrt{n}}

O sea, que el margen de error máximo es de \frac{1}{\sqrt{n}}. Esto quiere decir que con una muestra de 100 personas tendremos un margen de error máximo de más menos un 10%, dependiendo del valor de p que hayamos obtenido (pero, como máximo, un 10%). Vemos, pues, que con una muestra que no tiene porqué ser muy grande se puede obtener un resultado bastante preciso.

Y con esto terminamos por hoy. Os preguntaréis, después de todo lo que hemos dicho, por qué hay encuestas cuyo resultado no se parece nada al definitivo. Pues se me ocurren dos respuestas. La primera, nuestro amigo en azar. Hemos podido elegir, por puro azar, una muestra que no está centrada alrededor del verdadero valor de la población (nos pasará un 5% de las veces). El segundo, puede que la muestra no sea representativa de la población general. Y este es un factor fundamental, porque si la técnica de muestreo no es correcta, los resultados de la encuesta no serán nada fiables. Pero esa es otra historia…

Otra de monedas

Pocas cosas son inmutables en este mundo. Todo cambia y todo es relativo. Incluso la probabilidad de un suceso puede ser algo cambiante. Me explico.

Habitualmente vemos el mundo de la probabilidad desde un punto de vista frecuentista. Si tenemos un dado con seis caras asumimos que cada cara tiene una probabilidad de aparecer de una entre seis cada vez que lancemos el dado (suponiendo que el dado es legal y todas las caras tienen la misma probabilidad de salir).

Si tenemos dudas sobre si el dado es legal, lo que hacemos es tirar el dado un número enorme de veces hasta que somos capaces de calcular cuántas veces es predecible que aparezca cada cara, calculando así su probabilidad. Pero, en ambos casos, una vez que obtenemos el dato, ya no nos movemos de ahí. Pase lo que pase, seguiremos afirmando que la probabilidad de sacar un cinco en una tirada es un sexto.

Pero a veces la probabilidad puede cambiar y volverse diferente de la que preestablecimos en un comienzo. Una probabilidad inicial puede cambiar si inyectamos información nueva en el sistema y puede depender de eventos que vayan sucediendo a lo largo del tiempo. Esto da origen al punto de vista estadístico bayesiano, basado en gran parte en la regla de Bayes, en el que la probabilidad de un evento puede ir actualizándose a lo largo del tiempo. Pongamos un ejemplo.

Supongamos, como no, que tenemos tres monedas. Pero son tres monedas muy particulares, ya que solo una de ellas es legal (cara y cruz, CZ). De las otras dos, una tiene dos caras (CC) y la otra, dos cruces (ZZ). Ahora metemos las tres monedas en una bolsa y sacamos una de ellas sin mirar. La pregunta es: ¿cuál es la probabilidad de haber sacado la moneda con dos caras?.

¡Qué sencillo!, pensaréis la mayoría. Es el típico caso de eventos favorables dividido por eventos posibles. Como hay un evento favorable (CC) y tres posibles (CC, ZZ y CZ), la probabilidad es de un tercio. Tenemos una probabilidad del 33% de haber sacado la moneda con dos caras.

Pero, ¿qué pasa si os digo que lanzo la moneda al aire y me sale cara?. ¿Sigo teniendo la misma probabilidad de un tercio de tener la moneda con dos caras en la mano?. La respuesta, evidentemente, es no. ¿Y cuál es ahora la probabilidad de tener en la mano la moneda con dos caras?. Para calcularlo no nos valen los eventos favorables y los posibles, sino que tenemos que recurrir a la regla de Bayes. Vamos a razonarla.

La probabilidad de que se produzcan dos sucesos independientes A y B es igual a la probabilidad de A por la probabilidad de B. En el caso de que los dos sucesos sean dependientes, la probabilidad de A y B sería igual a la probabilidad de A por la probabilidad de B una vez que se ha producido A:

P(A y B) = P(A) x P(B|A)

Llevándolo al ejemplo de nuestras monedas, la probabilidad de que salga cara y de que tengamos la moneda de dos caras podemos expresarla como

P(C y CC) = P(C) x P(CC|C) (probabilidad de obtener cara por probabilidad de tener la moneda CC una vez que sale cara).

Pero también lo podemos expresar al revés:

P(C y CC) = P(CC) x P(C|CC) (probabilidad de tener la moneda CC por la probabilidad de sacar cara si tenemos la moneda CC).

Así que podemos igualar las dos expresiones y obtener nuestra buscada regla de Bayes:

P(C) x P(CC|C) = P(CC) x P(C|CC)

P(CC|C) = [P(CC) x P(C|CC)] / P(C)

Vamos a calcular nuestra probabilidad de tener la moneda CC si hemos sacado cara. Sabemos que P(CC) = 1/3. P(C|CC) = 1: si tenemos la moneda con dos caras la posibilidad de que salga cara es del 100%. ¿Cuál es la P(C)?.

La probabilidad de sacar cara será igual a la probabilidad de haber sacado de la bolsa la moneda ZZ por la posibilidad de tener cara con ZZ más la probabilidad de haber sacado CC por la probabilidad de cara con CC más la probabilidad de haber sacado la moneda legal por la probabilidad de cara con esta moneda:

P(C) = (1/3 x 0) + (1/3 x 1/2) + (1/3 x 1) = 1/2

Luego, P(CC|C) = [1 x 1/3] / 1/2 = 2/3 = 0,66

Esto quiere decir que si hemos tirado la moneda y ha salido cara, la probabilidad de que tengamos la moneda con dos caras sube del 33% al 66% (y la de tener la moneda con dos cruces baja del 33% al 0).

¿Veis cómo se ha actualizado la probabilidad?. ¿Qué pasaría si volvemos a lanzar la moneda y vuelve a salir cara?. ¿Cuál sería entonces la probabilidad de tener la moneda con dos caras?. Vamos a calcularlo siguiendo el mismo razonamiento:

P(CC|C) = [P(CC) x P(C|CC)] / P(C)

En este caso, P(CC) ya no vale 1/3, sino 2/3. P(C|CC) sigue valiendo 1. Por último P(C) también se ha modificado: ya hemos descartado la posibilidad de haber sacado la moneda con dos cruces, así que la probabilidad de sacar cara en el segundo lanzamiento es la probabilidad de tener CC por la probabilidad de cara con CC más la probabilidad de tener la moneda legal por la probabilidad de cara con esta moneda:

P(C) = (2/3 x 1) + (1/3 x 1/2) = 5/6

Así que P(CC|C) = (2/3 x 1) / (5/6) = 4/5 = 0,8

Si en el segundo lanzamiento volvemos a sacar cara, la probabilidad de que estemos lanzando la moneda con dos caras sube del 66% al 80%. Lógicamente, si seguimos repitiendo el experimento, cuántas más caras saquemos, más seguros estaremos de que tenemos la moneda con dos caras, aunque nunca tendremos una certeza total. Por supuesto, el experimento termina en el momento en que sacamos cruz, en el que la probabilidad de la moneda CC bajaría automáticamente a cero (y la de la moneda legal a 100%).

Como veis, la probabilidad no es tan inmutable como parece.

Y aquí dejamos de jugar con monedas por hoy. Solo deciros que, aunque sea menos conocido que el enfoque frecuentista, esto de la estadística bayesiana da para mucho. Existen manuales, programas informáticos especiales y métodos de análisis de resultados que incorporan la información que se deriva del estudio. Pero esa es otra historia…

El engaño de la intuición

Es una cosa curiosa, pero hay un problema de probabilidad con el que últimamente me topo cada dos por tres. Me lo encuentro leyendo, haciendo mis cursos y estudiando mis libros. Así que, por qué no, voy a compartirlo con vosotros, aunque es algo difícil de comprender y quizás muchos ya lo conoceréis.

Se trata del problema del cumpleaños y es una especie de acertijo que se usa para demostrar que nuestra intuición puede engañarnos en muchas ocasiones cuando manejamos conceptos de probabilidad, sobre todo si en el asunto hay grandes números de por medio.

Supongamos que vamos un día al cine. Ya nos llama la atención la poca gente que hay, así que nos tememos lo peor. Por desgracia, nuestros temores se ven confirmados y la película es un verdadero rollo, así que nuestra mente empieza a divagar, comenzando por contar cuánta gente hay en la sala. Vemos que estamos solo 35 personas y entonces nos hacemos la pregunta del millón: ¿cuál será la probabilidad de que al menos dos de estas 35 personas cumplan años el mismo día?.

¿Qué os parece?. A simple vista parece bastante difícil de calcular pero, ¿pensáis que la probabilidad es alta o baja?. Nuestra intuición nos dice que la probabilidad no debe ser muy alta, ya que solo hay 35 personas para repartir en coincidencias entre nada menos que 365 días que tiene un año (nos olvidamos de los bisiestos). Sin embargo, como dice el título de esta entrada, la intuición puede a veces engañarnos. Vamos a calcular cuál es la probabilidad real de que haya al menos dos personas en la sala a las que les coincida su cumpleaños.

Para calcular la probabilidad de un suceso debemos dividir el número de sucesos favorables entre el número de sucesos posibles. Por ejemplo, para calcular la probabilidad de sacar un seis en una tirada de un dado dividimos uno (el número de jugadas que nos interesa, el seis) entre seis (el número posible de resultados que podemos obtener al tirar un dado, del uno al seis). Pues bien, en este caso vamos a hacer lo mismo. En el numerador tendremos que poner el número de combinaciones existentes de que haya al menos una coincidencia y en el denominador el número de combinaciones que pueden hacerse de 35 cumpleaños con los 365 días del año.

El primer problema lo encontramos en el numerador. El número posible de coincidencias incluye una coincidencia, dos, tres…., multitud de ellas. Esto puede ser terriblemente complejo de calcular, así que vamos a recurrir a un pequeño truco muy utilizado en probabilidad.

Si lo pensáis, pueden darse dos situaciones: que haya al menos una coincidencia o que no haya ninguna. Por tanto, la probabilidad de los dos sucesos es igual a uno (100%). Así que ¿por qué no calculamos la probabilidad de que nunca haya coincidencias y le restamos a uno el resultado que nos dé?

P(al menos una coincidencia) = 1 – P(ninguna coincidencia)

Vamos a construir nuestra fracción para calcular la probabilidad que estamos buscando y, al final, calcularemos su valor complementario.

Empecemos por el denominador, que es más sencillo. ¿De cuántas formas podemos combinar 35 cumpleaños con 365 días?. Se trata de calcular el número de permutaciones posibles permitiendo el reemplazamiento, porque consideramos la posibilidad de que haya coincidencias de dos personas el mismo día. Así que sería 365x365x…x365 35 veces o, lo que es lo mismo, 36535.

Vamos con el numerador. ¿De cuántas formas distintas podemos distribuir 365 días entre 35 personas sin que haya coincidencias?. En este caso, se trata de combinaciones múltiples sin reemplazamiento, de forma que podemos calcularlo como el factorial de 365 (ya sabéis, 365x364x363x…x2x1) dividido por el factorial de la diferencia entre los días del año y el número de personas, 330.

Ya tenemos construida nuestra fórmula para el cálculo de probabilidad:

P= \frac{\frac{365!}{(365-35)!}}{365^{35}}

Ya solo nos queda resolverla. No intentéis hacerlo con vuestra calculadora de bolsillo, porque puede que explote. Yo he utilizado el programa R e, incluso, he tenido que hacer un poco de álgebra primero para simplificar los factoriales. El resultado es 0,18.

Pues bien, ya sabemos que la probabilidad de que no haya coincidencias entre los cumpleaños de las personas de la sala es de 0,18. Si le restamos a uno ese valor obtenemos 0,82. Esto quiere decir que hay un 82% de probabilidad de que al menos dos personas cumplan los años el mismo día. Impresionante cómo puede engañarnos nuestra intuición. Si no lo creéis, id un día al cine y haced la prueba.

Y creo que es el momento de dejarlo por hoy. Podríamos haber profundizado y detallado más cómo calcular el numerador y el denominador de nuestra fórmula de probabilidad, explicando los conceptos de combinatoria. Para aquellos que no lo sepáis, la combinatoria es un conjunto de herramientas matemáticas que sirve, entre otras cosas, para contar elementos. Pero esa es otra historia…