Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado por elEstadística Categora

Un caso de probabilidad engañosa

Print Friendly, PDF & Email

Hoy vamos a ver otro de esos ejemplos en los que la intuición sobre el valor de determinadas probabilidades nos juega malas pasadas. Y, para ello, vamos a utilizar nada menos que el teorema de Bayes, jugando un poco con las probabilidades condicionadas. Vamos a ver paso a paso cómo funciona.

¿Cuál es la probabilidad de que se produzcan dos sucesos? La probabilidad de que ocurra un suceso A es P(A) y la de que ocurra B, P(B). Pues bien, la probabilidad de que ocurran los dos es P(A∩B) que, si los dos sucesos son independientes, es igual a P(A) x P(B).

Imaginemos que tenemos un dado con seis caras. Si lo lanzamos una vez, la probabilidad de sacar, por ejemplo, un cinco es de 1/6 (un resultado entre los seis posibles). La de sacar un cuatro es, igualmente, 1/6. ¿Cuál será la probabilidad de sacar un cuatro, una vez que en la primera tirada sacamos un cinco?. Como las dos tiradas son independientes, la probabilidad de la combinación cinco seguida de cuatro será de 1/6 x 1/6 = 1/36.

Ahora pensemos otro ejemplo. Supongamos que en un grupo de 10 personas hay cuatro médicos, dos de los cuáles son cirujanos. Si tomamos uno al azar, la probabilidad de que sea médico es de 4/10 = 0,4 y la de que sea cirujano es de 2/10 = 0,2. Pero, si sacamos a uno y sabemos que es médico, la probabilidad de que sea cirujano ya no será de 0,2, porque los dos sucesos, ser médico y cirujano, no son independientes. Si es médico, la probabilidad de que sea cirujano será de 0,5 (la mitad de los médicos de nuestro grupo son cirujanos).

Cuando dos sucesos son dependientes, la probabilidad de que ocurran los dos será la probabilidad de ocurrir el primero, una vez que ocurre el segundo, por la probabilidad de ocurrir el segundo. Así que la P(médico∩cirujano) = P(cirujano|médico) x P(médico). Podemos generalizar la expresión de la siguiente manera:

P(A∩B) = P(A|B) x P(B), y cambiando de orden los componentes de la expresión, obtenemos la llamada regla de Bayes, de la siguiente forma:

P(A|B) = P(A∩B) / P(B).

La P(A∩B) será la probabilidad de B, una vez que se produce A, por la probabilidad de A = P(B|A) x P(A). Por otra parte, la probabilidad de B será igual a la suma de la probabilidad de producirse B una vez que se produzca A más la probabilidad de producirse B sin que ocurra A, lo que puesto de forma matemática queda de la siguiente forma:

P(B|A) x P(A) + P(B|Ac) x P(Ac), siendo P(Ac) la probabilidad de que no ocurra A.

Si sustituimos la regla inicial por sus valores desarrollados, obtendremos la expresión más conocida del teorema de Bayes:

P(A|B)=\frac{P(B|A) \times P(A)}{P(B|A) \times P(A)+P(B|A^{{c}}) \times P(A^{{c}})}Vamos a ver cómo se aplica el teorema de Bayes con un ejemplo práctico. Pensemos en el caso de la fildulastrosis aguda, una grave enfermedad cuya prevalencia en la población es, afortunadamente, bastante baja, de uno por cada 1000 habitantes. Luego, la P(F) = 0,001.

Por suerte tenemos una buena prueba diagnóstica, con una sensibilidad del 98% y una especificidad del 95%. Supongamos ahora que yo me hago la prueba y me da un resultado positivo. ¿Tengo que asustarme mucho? ¿Cuál es la probabilidad de que realmente tenga la enfermedad? ¿Os parece que será alta o baja? Veámoslo.

Una sensibilidad del 98% quiere decir que la probabilidad de dar positivo cuando se tiene la enfermedad es de 0,98. Matemáticamente, P(POS|F) = 0,98. Por otra parte, una especificidad del 95% quiere decir que la probabilidad de que dé un resultado negativo estando sano es de 0,95. O sea, P(NEG|Fc) = 0,95. Pero nosotros lo que queremos saber no es ninguna de estas dos cosas, sino que realmente buscamos cuál es la probabilidad de estar enfermo una vez que damos positivo en la prueba, o sea, la P(F|POS).

Para calcularla, no tenemos más que aplicar el teorema de Bayes:

P(F|POS)=\frac{P(POS|F) \times P(F)}{P(POS|F) \times P(F)+P(POS|F^{{c}}) \times P(F^{{c}})}A continuación, sustituimos los símbolos con sus valores y resolvemos la ecuación:

P(F|POS)=\frac{0,98 \times 0,001}{0,98 \times 0,001+[(1-0,95) \times (1-0,001)]}=0,02Así que vemos que, en principio, no tengo que asustarme mucho cuando la prueba me da un  resultado positivo, ya que la probabilidad de estar enfermo es solo de un 2%. Como veis, mucho más baja de lo que la intuición nos diría con una sensibilidad y una especificidad tan altas. ¿Por qué ocurre esto? Muy sencillo, porque la prevalencia de la enfermedad es muy baja. Vamos a repetir el experimento suponiendo ahora que la prevalencia es del 10% (0,1):

P(F|POS)=\frac{0,98 \times 0,1}{0,98 \times 0,1+[(1-0,95) \times (1-0,1)]}=0,68Como veis, en este caso la probabilidad de estar enfermo si doy positivo sube hasta el 68%. Esta probabilidad es el conocido valor predictivo positivo que, como podemos comprobar, puede variar enormemente según la frecuencia del efecto que estemos estudiando.

Y aquí lo dejamos por hoy. Antes de terminar, dejadme advertiros que no busquéis qué es la fildulastrosis. Me sorprendería mucho que alguien la encontrase en algún libro de medicina. Además, tened cuidado de no confundir P(POS|F) con P(F|POS), ya que incurriríais en un pecado llamado falacia inversa o falacia de la transposición de los condicionales, que es un error grave.

Hemos visto como el cálculo de probabilidades se complica un poco cuando los sucesos no son independientes. También hemos aprendido lo poco de fiar que son los valores predictivos cuando cambia la prevalencia de la enfermedad. Por eso se inventaron los cocientes de probabilidades, que no dependen tanto de la prevalencia de la enfermedad que se diagnostica y permiten valorar mejor de forma global la potencia de la prueba diagnóstica. Pero esa es otra historia…

No te dejes llevar por los extremos

Print Friendly, PDF & Email

Ya vimos en una entrada anterior que los valores extremos de una distribución, los llamados outliers, pueden sesgar las estimaciones de los estadísticos que calculamos en nuestra muestra.

Un ejemplo típico es el de la media aritmética, que se desplaza en la dirección de los valores extremos, si los hay, tanto más cuanto más extremos sean los valores. Vimos que, para evitar este inconveniente, existían una serie de familiares de la media aritmética que se consideraban robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de outliers. De todos estos, el más conocido es la mediana, aunque existen algunos más, como la media recortada, la winsorizada, la ponderada, la geométrica, etc.

Pues bien, algo parecido a lo que le pasa a la media ocurre también con la desviación típica, el estadístico de escala o dispersión utilizado con más frecuencia. La desviación típica o estándar también se ve sesgada por la presencia de valores extremos, obteniendo valores que son poco representativos de la dispersión real de la distribución.

Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos de la media. Supongamos que medimos los valores de colesterol sérico en un grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435 mg/dl) que nos sesgarán los estadísticos habituales que son la media y la desviación típica. En nuestro caso, podemos calcular la desviación típica y ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación de la mayoría de los valores respecto a cualquiera de las medidas de centralización robustas que podamos elegir.

¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores robustos de la desviación, que hay varios. Algunos de ellos surgen a partir de los estimadores robustos de la media. Veamos algunos.

El primero, que surge a partir de la mediana, es la desviación absoluta mediana (DAM). Si recordáis, la desviación típica es la suma de las diferencias de cada valor con la media, elevadas al cuadrado, y dividida por el número de elementos, n (o por n-1 si lo que queremos es obtener un estimador no sesgado de la desviación típica poblacional). Pues bien, de modo similar, podemos calcular la mediana de las desviaciones absolutas de cada valor con la mediana de la muestra, según la siguiente fórmula

DAM = Mediana {|Xi – Me|}, para i=1 hasta n.

Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl, bastante más ajustado que la desviación típica clásica.

El segundo se calcula a partir de la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Pues bien, podemos calcular la desviación de la forma clásica con los elementos recortados, obteniendo el valor de 10,5 mg/dl.

Por último, en tercer lugar podríamos hacerlo siguiendo el razonamiento que se utiliza para calcular la media winsorizada. En este caso, en vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. Una vez winsorizada la distribución, calculamos la desviación típica con los nuevos valores de la forma habitual. Su valor es de 9,3 mg/dl, similar a la anterior.

¿Cuál utilizamos de las tres?. Pues nos interesa utilizar una que se comporte de forma eficiente cuando la distribución sea normal (en estos casos la mejor es la desviación típica clásica) pero que no sea muy sensible cuando la distribución se aparte de la normal. En este sentido, la mejor es la desviación absoluta mediana, seguida de la desviación típica winsorizada muestral.

Un último consejo antes de finalizar. No os pongáis a calcular estas medidas a mano, ya que puede resultar muy laborioso, Los programas de estadística hacen los cálculos por nosotros sin el menor esfuerzo.

Y aquí terminamos. No hemos hablado nada de otros estimadores de la familia de los M-estimadores, como la varianza media biponderada o la varianza media de porcentaje ajustado. Estas medias son mucho más difíciles de comprender desde el punto de vista matemático, aunque son muy fáciles de calcular con el paquete informático adecuado. Pero esa es otra historia…

Una relación simple

Print Friendly, PDF & Email

Hoy vamos a volver a hablar de la relación que puede existir entre dos variables. Vimos en una entrada anterior como podíamos medir la relación entre dos variables mediante el procedimiento de correlación, que nos medía la fuerza de relación entre dos variables cuando ninguna de las dos puede considerarse predictora de la otra. Esto es, cuando los valores de una no nos sirven para calcular los valores de la otra, aunque las dos varíen de una forma predecible.

Una cosa parecida, de la que vamos a hablar en esta entrada, es la regresión. Esta no solo explica la relación que hay entre dos variables, sino que podemos cuantificar cómo varía una de las variables, que llamaremos dependiente, con las variaciones de la otra variables, que será la independiente.

Pero todavía podemos llegar un paso más allá: los valores de la variable independiente nos pueden servir para predecir el correspondiente valor de la variable dependiente. Supongamos que medimos peso y talla y calculamos el modelo de regresión entre el peso y la talla. Si sabemos la talla de un individuo podemos utilizar la ecuación de regresión para estimar cuál será su peso (en este caso la talla es la variable independiente y el peso la dependiente).

Si llamamos x a la variable independiente e y a la variable dependiente, los modelos de regresión simple pueden representarse mediante la siguiente ecuación:

Función(y) = a + bx

En esta ecuación, a representa el valor de la función de y cuando x vale cero. Se suele llamar interceptor porque es el punto donde la representación gráfica de la recta de regresión cruza el eje de las y. Por su parte, b representa la llamada pendiente, que es la cantidad que varía y con las variaciones de x (si x aumenta en b unidades, y aumenta en b unidades).

¿Y qué significa función(y)?. Pues depende del tipo de variable que sea la variable dependiente. Sabemos que las variables se clasifican en cuantitativas (o continuas), cualitativas (nominales u ordinales) y de tiempo a suceso (también llamadas de supervivencia). Pues bien, según el tipo de la variable dependiente la función(y) será diferente porque aplicaremos un modelos de regresión simple diferente.

En el caso de variables continuas, el modelo de regresión que aplicamos es el de regresión lineal simple y la función de y será su media aritmética. La ecuación será la siguiente:

y = a + bx

Volviendo al ejemplo del peso y la talla, si sustituimos x por el valor de talla deseado y resolvemos la ecuación obtendremos el peso medio de los individuos de esa talla.

En el caso de que la variable dependiente sea cualitativa binaria utilizaremos un modelo de regresión logística. En este caso codificaremos la variable dependiente como cero y uno y la función de y ya no será la media, sino el logaritmo neperiano de la odds ratio del valor uno de la variable. Imaginemos que calculamos la relación entre peso (variable independiente) y sexo (variable dependiente). En este caso podríamos codificar como uno si es mujer y cero si es hombre, representando la recta de regresión de la siguiente forma:

Ln(OR) = a + bx

Si sustituimos x por el peso en cuestión y resolvemos la ecuación, obtendremos el logaritmo de la OR de ser mujer (el valor 1). Para obtener la OR debemos elevar el número e al resultado de la ecuación (hacer el antilogaritmo), obteniendo así la OR de que sea mujer. A partir de aquí es sencillo calcular el valor de la probabilidad de que sea mujer (p = OR/1+OR)  u hombre (uno menos el valor de la probabilidad de que sea mujer).

Esta función del ln(OR) se expresa en muchas ocasiones como ln(p/1-p), ya que la odds ratio es la probabilidad de que un suceso ocurra (p) dividida de la probabilidad de que no ocurra (1-p). A esta función se la denomina logit, por lo que podemos ver también representada la regresión logística de la siguiente forma:

Logit(y) = a + bx

Por último, podemos encontrarnos el caso de que la variable dependiente sea una variable de tiempo a suceso. En este caso hay que utilizar un modelo de regresión de riesgos proporcionales de Cox. La estructura es muy similar a la de la regresión logística, solo que la función de y es el logaritmo de la hazard ratio en lugar del de la odds ratio:

Ln(HR) = a + bx

Igual que hacíamos con la regresión logística, para calcular el valor de la hazard ratio hay que hacer el antilogaritmo natural del producto de la ecuación de regresión (e elevado al resultado de la ecuación).

Y, aunque hay muchos más, estos son los tres modelos de regresión más utilizados. En todos estos casos hemos hablado de ecuaciones con una variable independiente, por lo que decimos que hablamos de regresión simple. Pero podemos meter todas las variables independientes que queramos, según la siguiente fórmula:

Función(y) = a + bx1 + cx2 + … + nxn

Claro que ya no hablaríamos de regresión simple, sino de regresión múltiple, pero todo lo que hemos descrito sería igual de aplicable.

Y aquí lo vamos a dejar. Podríamos hablar del valor del interceptor y de la pendiente según la variable independiente sea continua o cualitativa, ya que se leen de forma un poco diferente. Pero esa es otra historia…

Ovejas negras

Print Friendly, PDF & Email

Se dice que es una oveja negra aquél elemento de un grupo que va en dirección distinta o contraria a la del resto del grupo. Por ejemplo, en una familia de adictos a la telebasura, la oveja negra sería un miembro de esa familia que se desviviese por ver los documentales de la segunda cadena. Claro que si la familia es adicta a los documentales, la oveja negra se morirá por ver la telebasura. Siempre al revés.

En estadística hay algo parecido a las ovejas negras. Son los datos anómalos, también llamados datos extremos, pero más conocidos por su nombre en inglés: outliers.

Un outlier es una observación que parece inconsistente con el resto de los valores de la muestra, siempre teniendo en cuenta el modelo probabilístico supuesto que debe seguir la muestra. Como veis, es un dato que lleva la contraria a los demás, como una oveja negra.

El problema del outlier es que puede hacer mucho daño al estimar parámetros poblacionales a partir de una muestra. Vamos a recordar un ejemplo que vimos en otra entrada sobre el cálculo de medidas de centralidad robustas. Se trataba de un colegio con cinco maestros y un director fanático del futbol. Al hacer los contratos establece los siguientes sueldos: 1200 euros al mes para el profesor de ciencias, 1500 para el de mates, 800 para el de literatura y 1100 para el de historia. Pero resulta que se le antoja contratar a Zinedine Zidane como profesor de gimnasia, así que tiene que pagarle nada menos que 20000 euros mensuales.

¿Veis por dónde la va la cosa? Efectivamente, Zuzu es la oveja negra, el valor anómalo. Fijaos qué pasa si calculamos la media: 4920 euros al mes es el sueldo medio de los profesores de este centro. ¿Os parece una estimación real? Claramente no, el valor de la media está desplazada en la dirección del outlier, y se desplazaría más cuánto más extremo sea el valor anómalo. Si a Zuzu le pagasen 100000 euros, el sueldo medio ascendería a 20920 euros. Una locura.

Si un valor anómalo puede hacerle tanto daño a un estimador, imaginad lo que puede hacer con un contraste de hipótesis, en el que la respuesta es un aceptar o rechazar la hipótesis nula. Así que nos planteamos, ¿qué podemos hacer cuando descubrimos que entre nuestros datos hay una (o varias) ovejas negras? Pues podemos hacer varias cosas.

La primera que se nos pasa por la cabeza es tirar el outlier a la basura. Prescindir de él a la hora de analizar los datos. Esto estaría bien si el valor extremo es producto de un error en la recogida de los datos pero, claro, podemos prescindir de datos que dan información adicional. En nuestro ejemplo, el outlier no es ningún error, sino que es producto del historial deportivo del profesor en cuestión. Necesitaríamos algún método más objetivo para poder decidir suprimir el outlier, y aunque existen unas pruebas llamadas de discordancia, tienen sus problemas.

La segunda cosa que podemos hacer es identificarlo. Esto significa que tenemos que averiguar si el valor es tan extremo por alguna razón concreta, como pasa en nuestro ejemplo. Un valor extremo puede estar señalando algún hallazgo importante y no tenemos porqué desdeñarlo con rapidez, sino tratar de interpretar su significado.

En tercer lugar, podemos incorporarlos. Como hemos dicho al definirlos, el outlier lleva la contraria a los demás datos de la muestra según el modelo de probabilidad que suponemos que sigue la muestra. A veces, un dato extremo deja de serlo si asumimos que los datos siguen otro modelo. Por ejemplo, un outlier puede serlo si consideramos que los datos siguen una distribución normal pero no si consideramos que siguen una logarítmica.

Y, en cuarto lugar, la opción más correcta de todas: utilizar técnicas robustas para hacer nuestras estimaciones y nuestros contrastes de hipótesis. Se llaman técnicas robustas porque se afectan menos por la presencia de valores extremos. En nuestro ejemplo con los profesores utilizaríamos una medida de centralidad robusta como es la mediana. En nuestro caso es de 1200 euros, bastante más ajustada a la realidad que la media. Además, aunque le paguen a Zuzu 100000 euros al mes, la mediana seguirá siendo de 1200 euros mensuales.

Y con esto terminamos con los valores anómalos, esas ovejas negras que se mezclan con nuestros datos. No hemos comentado nada por simplificar, pero también podríamos tratar de averiguar cómo afecta el outlier a la estimación del parámetro, para lo cual existe toda una serie de metodología estadística basada en la determinación de la llamada función de influencia. Pero esa es otra historia…

No abuses de las tartas

Print Friendly, PDF & Email

¡Qué ricas las tartas! El problema es que, como ya sabéis, lo que no está mal visto socialmente, o engorda o produce cáncer. Y las tartas no podían ser menos, así que hay que procurar no comer demasiado para que no se nos vayan al michelín o a otros sitios peores.

Pero hay una tarta que no engorda nada en absoluto (tampoco produce cáncer) y es el diagrama de tarta, que se utiliza con mucha frecuencia en estadística. ¿He dicho con mucha frecuencia? Probablemente me quede corto. Como no engorda ni tiene otros efectos perjudiciales para la salud hay tendencia a abusar de su uso.

tartaEl gráfico de tarta, cuyo nombre correcto es gráfico de sectores, es muy sencillo de dibujar. Consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizando la frecuencia absoluta de la categoría, según la siguiente regla de tres:

\frac{Frecuencia\ absoluta}{Frecuencia\ total\ de\ datos}=\frac{Grados\ del\ sector}{360}

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

\frac{%\ de\ la\ variable}{100%}=\frac{Grados\ del\ sector}{360}

Las fórmulas son muy sencillas pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros.

El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras.

El diagrama de sectores será especialmente útil cuando haya pocas variables. Si hay muchas la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados el gráfico perderá claridad y será más difícil de leer.

Para terminar, deciros que tampoco tiene sentido utilizar una tarta para representar una variable cuantitativa. Para eso existe otro procedimiento más adecuado, que es el de utilizar un histograma, gráfico que mejor representa la distribución de frecuencias de una variable cuantitativa continua. Pero esa es otra historia…

¿Por qué sobra uno?

Print Friendly, PDF & Email

Hoy vamos a hablar sobre uno de esos misterios de la estadística que muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s).

La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

estimador_sesgadoNosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos σ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de σ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

Una caja con bigotes

Print Friendly, PDF & Email

No me negaréis que es un nombre bastante curioso para un gráfico. Al pensar en el nombre a uno se le viene a la cabeza una imagen de una caja de zapatos con bigotes de gato, pero, en realidad, yo creo que este gráfico se parece más a las naves de caza de tipo tie fighter de la Guerra de las Galaxias.

En cualquier caso, el gráfico de caja y bigotes, cuyo nombre formal es el de gráfico de caja (boxplot en inglés), es empleado con muchísima frecuencia en estadística por sus interesantes capacidades descriptivas.

boxplotPara saber de qué hablamos, tenéis representados dos gráficos de caja en la primera figura que os adjunto. Como veis, el gráfico, que puede representarse en vertical y en horizontal, consta de una caja y dos segmentos (los bigotes).

Describiendo la representación vertical, que quizás sea la más habitual, el borde inferior de la caja representa el percentil 25º de la distribución o, lo que es lo mismo, el primer cuartil. Por su parte, el borde superior (que se corresponde con el borde derecho de la representación horizontal) representa el percentil 75º de la distribución o, lo que es lo mismo, el tercer cuartil. De esta manera, la amplitud de la caja se corresponde con la distancia entre los percentiles 25º y 75º, que no es otra que el recorrido o rango intercuartílico. Por último, en el interior de la caja hay una línea que representa la mediana (o segundo cuartil) de la distribución. A veces puede verse una segunda línea que representa la media, aunque no es lo más habitual.

Vamos ahora con los bigotes. El superior se extiende hasta el valor máximo de la distribución, pero no puede llegar más allá de 1,5 veces el rango intercuartílico. Si existen valores más altos que la mediana más 1,5 veces el rango intercuartílico, éstos se representan como puntos más allá del extremo del bigote superior. Estos puntos son los denominados valores extremos, outliers en inglés. Vemos en nuestro ejemplo que hay un outlier que se sitúa más allá del bigote superior. Si no hay valores extremos u outliers, el máximo de la distribución lo marca el extremo del bigote superior. Si los hay, el máximo será el valor extremo más alejado de la caja.

Por añadidura, todo esto vale para el bigote inferior, que se extiende hasta el valor mínimo cuando no hay valores extremos o hasta la mediana menos 1,5 veces el rango intercuartílico cuando los haya. En estos casos, el valor mínimo será el outlier más alejado de la caja por debajo del bigote inferior.

Pues ya podemos comprender la utilidad del gráfico de caja. De un vistazo podemos obtener la mediana y el rango intercuartílico de su distribución e intuir la simetría de la distribución. Es fácil imaginarse cómo es el histograma de una distribución viendo su gráfico de caja, como podéis ver en la segunda figura. El primer gráfico corresponde a una distribución simétrica, próxima a la normal, ya que la mediana está centrada en la caja y los dos bigotes son más o menos simétricos.boxplot_histogramaSi nos fijamos en la distribución central, la mediana está desplazada hacia el borde inferior de la caja y el bigote superior es más largo que el inferior. Esto es así porque la distribución tiene la mayoría de los datos hacia la izquierda y una larga cola hacia la derecha, como puede verse en su histograma. Lo mismo que hemos dicho para la distribución central vale parta la tercera, pero en este caso el bigote largo es el inferior y el sesgo es hacia la izquierda.

boxplot_varianzasPor último, este tipo de gráfico sirve también para comparar varias distribuciones. En la tercera imagen que os adjunto podéis ver dos distribuciones aparentemente normales y con medianas muy similares. Si queremos hacer un contraste de hipótesis sobre la igualdad de sus medias, primero tenemos que saber si sus varianzas son iguales (si existe homocedasticidad) para saber qué tipo de test hay que utilizar.

Si comparamos las dos distribuciones, vemos que la amplitud de la caja y de los bigotes es mucho mayor en la primera que en la segunda, por lo que podemos concluir que la varianza de la primera distribución es mucho mayor, por lo que no podremos asumir la igualdad de varianzas y tendremos que aplicar la corrección pertinente.

Y esto es todo lo que quería contar sobre esta caja con bigotes, que tan útil resulta en estadística descriptiva. Ni que decir tiene que, aunque nos sirve para saber aproximadamente si la distribución se ajusta a una normal o si las varianzas de varias distribuciones son semejantes, existen pruebas específicas para estudiar estos puntos de forma matemática. Pero esa es otra historia…

El fallo de la democracia

Print Friendly, PDF & Email

Que nadie se preocupe que hoy no vamos a hablar de política. En su lugar, hoy trataremos de algo bastante más interesante. Hoy vamos a hablar de las votaciones en las revisiones narrativas. ¿De qué estoy hablando?. Sigue leyendo y lo comprenderás.

Vamos a ilustrarlo con un ejemplo totalmente ficticio, además de absurdo. Supongamos que queremos saber si los que ven más de dos horas de televisión al día tienen más riesgo de presentar ataques agudos de caspa. Nos vamos a nuestra base de datos favorita, que puede ser TripDatabase o Pubmed y hacemos una búsqueda. Obtenemos una revisión narrativa con seis trabajos, cuatro de los cuales no obtienen un riesgo relativo mayor en los teleadictos de presentar ataques de caspa y dos en los que se encuentran diferencias significativas entre los que ven mucha o poca televisión.

¿Qué conclusión sacamos?. ¿Es o no es un riesgo ver mucha tele?. Lo primero que se nos pasa por la cabeza es aplicar la norma democrática. Contamos cuántos estudios obtienen un riesgo con un valor de p significativo y en cuántos el valor de la p no es estadísticamente significativo (tomando el valor arbitrario de p = 0,05).

Qué bien, parece una solución razonable. Tenemos dos a favor y cuatro en contra, por lo que parece claro que ganan los de “en contra”, así que podemos concluir tranquilamente que el ver la tele no es un factor de riesgo para presentar ataques de caspa. El problema es que podemos estar metiendo la pata, también tranquilamente.

Esto es así porque estamos cometiendo un error bastante habitual. Cuando hacemos un contraste de hipótesis partimos de la hipótesis nula de que no existe efecto. Nosotros al hacer el experimento siempre obtenemos una diferencia entre los dos grupos, aunque sea por puro azar. Así que calculamos la probabilidad de, por azar, encontrar una diferencia como la que hemos obtenido o mayor. Este es el valor de p. Si es menor de 0,05 (según el convenio habitual) decimos que es muy poco probable que se deba al azar, por lo que la diferencia debe ser real.

Resumiendo, una p estadísticamente significativa indica que el efecto existe. El problema, y ahí radica nuestro error en el ejemplo que hemos puesto, es que lo contrario no se cumple. Si la p es mayor de 0,05 (no es estadísticamente significativa) puede significar que el efecto no existe, pero también que el efecto sí que existe pero el estudio no tiene la potencia estadística suficiente para detectarlo.

Como sabemos, la potencia depende del tamaño del efecto y del tamaño de la muestra. Aunque el efecto sea grande, puede no ser estadísticamente significativo si el tamaño de la muestra no es suficiente. Así, ante una p > 0,05 no podemos concluir con seguridad que el efecto no es real (simplemente, no podemos rechazar la hipótesis nula de no efecto).

Visto esto, ¿cómo vamos a hacer una votación contando cuántos estudios hay a favor y cuántos en contra?. En algunos de los que no se detecta significación puede ser por falta de potencia y no porque el efecto sea real. En nuestro ejemplo hay cuatro estudios no significativos frente a dos pero, ¿podemos estar seguros de que los cuatro indican ausencia de efecto?. Ya hemos visto que la respuesta es no.

votacionesLo correcto en estos casos es aplicar técnicas de metanálisis y obtener un valor resumen ponderado de todos los estudios de la revisión. Veamos otro ejemplo con los cinco estudios que veis en la figura que os adjunto. Aunque los riesgos relativos de los cinco estudios indican un efecto protector (son menores de 1, el valor nulo) ninguno alcanza significación estadística porque sus intervalos de confianza cruzan el valor nulo, que es el uno para los riesgos relativos.

Sin embargo, si obtenemos un resumen ponderado, éste tiene mayor precisión que los estudios individuales, por lo que, aunque el valor del riesgo relativo es el mismo, el intervalo de confianza es más estrecho y ya no cruza el valor nulo: es estadísticamente significativo.

Aplicando el método de los votos habríamos concluido que no existe efecto protector, mientras que parece probable que sí existe cuando aplicamos el método adecuado. En resumen, el método de la votación no es fiable y no debe emplearse.

Y esto es todo por hoy. Ya veis que la democracia, aunque buena en política, no lo es tanto al hablar de estadística. No hemos hablado nada de cómo se obtiene un valor resumen ponderado de todos los estudios de la revisión. Hay varios métodos que se siguen según el metanálisis aplique un modelo de efecto fijo o de efectos aleatorios. Pero esa es otra historia…

La falacia de la p pequeña

Print Friendly, PDF & Email

Una falacia es un argumento que parece válido pero no lo es. A veces se usan para engañar a la gente y darles gato por liebre, pero la mayor parte de las veces se utilizan por una razón mucho más triste: por pura ignorancia.

Hoy vamos a hablar de una de estas falacias, muy poco reconocida, pero en la que se cae con una gran frecuencia a la hora de interpretar resultados de contrastes de hipótesis.

Cada vez más vemos que las publicaciones científicas nos proporcionan el valor exacto de p, de forma que tendemos a pensar que cuánto menor es el valor de p mayor es la plausibilidad del efecto observado.

Para entender lo que vamos a explicar, recordemos primero la lógica de la falsificación de la hipótesis nula (H0). Partimos de una H0 de que el efecto no existe, por lo que calculamos la probabilidad de, por azar, encontrar unos resultados tan extremos o más que los que hemos encontrado, siendo H0 cierta. Esta probabilidad es el valor de p, de forma que cuanto menor sea, menos probable es que el resultado sea debido al azar y, por tanto, más probable que el efecto sea real. El problema es que, por muy pequeña que sea la p, siempre hay una probabilidad de cometer un error de tipo I y rechazar la H0 siendo cierta (o lo que es lo mismo, obtener un falso positivo y dar por bueno un efecto que en realidad no existe).

Es importante tener en cuenta que el valor de p solo indica si hemos alcanzado el umbral de significación estadística, que es un valor totalmente arbitrario. Si obtenemos un valor umbral de p = 0,05 tendemos a pensar una de las cuatro posibilidades siguientes:

  1. Que hay un 5% de probabilidades de que el resultado sea un falso positivo (de que H0 sea cierta).
  2. Que hay un 95% de probabilidades de que el efecto sea real (de que H0 sea falsa).
  3. Que la probabilidad de que el efecto observado se deba al azar es del 5%.
  4. Que la tasa de error de tipo I es del 5%.

Sin embargo, todo lo anterior es incorrecto, ya que estamos cayendo en la falacia inversa o falacia de la transposición de los condicionales. Todo es un problema de entender mal las probabilidades condicionadas. Vamos a verlo despacio.

A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados si la hipótesis nula es cierta, o sea, P(resultados|H0).

Vamos a verlo con un ejemplo sencillo. La probabilidad de ser español si uno es andaluz es alta (debería ser del 100%). La inversa es más baja. La probabilidad de tener cefalea si uno tiene una meningitis es alta. La inversa es más baja. Si los eventos son frecuentes, la probabilidad será más alta que si son raros. Así, como nosotros queremos saber P(H0|resultados), deberemos valorar la probabilidad basal de la H0 para evitar sobrestimar las pruebas que apoyan que el efecto es cierto.

Si lo pensamos despacio, es bastante intuitivo. La probabilidad de H0 antes del estudio es una medida de la creencia subjetiva que refleja su plausibilidad basada en estudios previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Ni que decir tiene que existe un método matemático para calcular la probabilidad posterior de H0 en función de su probabilidad basal y el valor de p, pero sería una grosería poner un formulón enorme a estas alturas de la entrada.

heldEn su lugar, vamos a utilizar un método más sencillo, recurriendo a un recurso gráfico que se llama nomograma de Held y que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos.

Imaginad un estudio con un valor marginal de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real.

Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos así como la probabilidad posterior cambia según la probabilidad previa.

Y aquí lo dejamos. Seguro que esto del nomograma de Held os ha recordado a otro nomograma mucho más famoso pero con una filosofía similar, el nomograma de Fagan. Este se utiliza para calcular la probabilidad postprueba en función de la probabilidad preprueba y el cociente de probabilidad de una prueba diagnóstica. Pero esa es otra historia…

Aunque la mona se vista de seda…

Print Friendly, PDF & Email

…mona se queda. Y se queda. Por mucho que lo intente, seguirá siendo una mona. Y esto es así porque las características de cada uno o sus defectos naturales no pueden evitarse simplemente porque hagamos mejoras externas. Pero, eso sí, será una mona mucho más elegante.

En el mundo de los estudios en epidemiología y biomedicina hay un tipo de diseño que no necesita vestirse de seda. Por supuesto, me estoy refiriendo al rey de reyes, al ensayo clínico aleatorizado, el ECA, para abreviar.

El vestido de seda de los ECA es la aleatorización, que no es más que la asignación no predecible de los participantes en el ensayo a una de las alternativas de intervención, dando baza al azar de forma que no podamos saber a qué grupo va a ser asignado cada participante. Así, se consigue que las características de los participantes que puedan actuar como factores de confusión o modificadores de efecto se repartan por igual entre los dos grupos de la intervención, de forma que si hay diferencias podamos afirmar que se deben a la intervención en estudio, la única diferencia entre los dos grupos.

Por otro lado, los estudios observacionales carecen de aleatorización, por lo que nunca podemos estar seguros de que las diferencias observadas se deban a variables de confusión que son, incluso, desconocidas para el investigador. Así, con los estudios de cohortes y de casos y controles no se pueden afirmar relaciones de causalidad de la forma que pueden establecerse con los resultados del ECA.

Para evitar esto se han inventado múltiples estrategias, como la estratificación o el análisis mediante regresión logística, que permiten estimar el efecto de cada variable sobre el resultado de la intervención en cada grupo. Uno de estos métodos es el que vamos a tratar aquí y es el de los índices de propensión, los propensity score de nuestros amigos angloparlantes.

Vamos a ver si con un ejemplo podemos entenderlo. Supongamos que queremos comparar la duración del ingreso de niños con fildulastrosis según el tratamiento que reciban. Seguimos suponiendo que esta terrible enfermedad se puede tratar con pastillas o con supositorios, eligiendo cualquiera de los dos a criterio del médico que atiende al enfermo en el momento del ingreso. Hacemos un estudio retrospectivo de las dos cohortes y encontramos que los que reciben supositorio están ingresados cinco días más de media que los que reciben tratamiento oral. ¿Podemos concluir que la resolución es más rápida dando pastillas que supositorios?. Pues si así lo hacemos correremos el riesgo de equivocarnos, porque puede haber otros factores que no estamos teniendo en cuenta, además del tratamiento recibido.

Si se tratase de un ensayo, cualquier participante tendría la misma probabilidad de recibir cualquiera de los dos tratamientos, así que podríamos hacer una interpretación directa del resultado. Sin embargo, estamos ante un estudio de cohortes, observacional, y el riesgo de recibir pastillas o supositorios puede haber dependido de otros factores. Pensad, por ejemplo, que un médico puede mandar los supositorios a los niños más pequeños, que tragan peor las pastillas, mientras que otro no tendría en cuenta este factor y le daría pastillas a todos, porque le gustan más. Si la edad tiene algo que ver con la duración del ingreso, estaremos mezclando el efecto del tratamiento con el de la edad del niño, comparando los supositorios de uno (niños más pequeños) con las pastillas de otro (no diferencia de edad). Con esto pensad una cosa: si la probabilidad de recibir uno u otro tratamiento varía en cada participante, ¿cómo vamos a compararlos sin tener en cuenta esta probabilidad?. Habrá que comparar aquellos que tengan una probabilidad similar.

Pues bien, aquí es donde entran en juego los índices de propensión (IP), que estiman la probabilidad de cada participante de recibir un tratamiento basándose en sus características.

Los IP se calculan mediante un modelo de regresión logística con la intervención como resultado y las covariables como predictores. Así, se obtiene una ecuación con cada una de las variables que hayamos metido en el modelo porque pensemos que puedan actuar como factores de confusión. Por ejemplo, la probabilidad de recibir el tratamiento A sería igual a:

P(A) = β0 + β1a + β2b + β3c +….+ βnn,

Donde P(A) es la probabilidad de recibir A (en realidad, el modelo proporciona el logaritmo natural de la odds ratio), los betas son los coeficientes y a,b,c,…,n representan las variables del modelo.

Si sustituimos las letras de “a” a “n” por las características de cada participante, obtenemos una puntuación, que es su IP. Y ahora ya podemos comparar entre sí los participantes de las dos ramas de tratamiento que tengan una puntuación similar.

Esta comparación puede hacerse de varias formas, siendo las más sencillas el emparejamiento y la estratificación.

indices de propensionMediante estratificación se dividen los participantes en grupos con un intervalo de puntuación y se comparan los grupos entre sí para determinar el efecto de la intervención. Mediante emparejamiento, se compara cada participante de uno de los grupos con otro que tenga una puntuación igual o, en caso de que no exista, similar (lo que se conoce como el vecino más próximo). En la figura podéis ver un ejemplo de emparejamiento con el vecino más próximo de algunos de los participantes de nuestro estudio ficticio.

Y esto son los IP. Una argucia para poder comparar los participantes intentando evitar el efecto de las variables de confusión y parecerse a los ECA, convirtiéndose en casi estudios cuasiexperimentales. Pero ya lo hemos dicho, aunque la mona se vista de seda, mona se queda. Por muchas variables que metamos en el modelo de regresión para calcular los IP, nunca estaremos seguros de haber metido todas, ya que puede haber variables confusoras que desconozcamos. Por eso siempre es conveniente comprobar las conclusiones de un estudio observacional con el ECA correspondiente.

Y aquí lo dejamos por hoy, aunque los IP dan para mucho más. Por ejemplo, hemos hablado solo de emparejamiento y estratificación, aunque hay más métodos, más complejos y menos utilizados en medicina, como son el ajuste de covariables por IP o la ponderación por el inverso de la probabilidad de recibir la intervención. Pero esa es otra historia…