Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

La escopeta de feria

image_pdf

Hace unos días estuve con mi primo en las fiestas de nuestro barrio y, para entretenernos un rato, estuvimos disparando unos perdigones en una de las casetas, a ver si conseguíamos llevarnos el osito de peluche.

Pero, nada, ni por casualidad.

Yo disparé un montón de veces, pero no metí ni un perdigón en la diana. Todos quedaron alrededor, pero ni uno solo en el centro. Mi primo, sin embargo, es un tirador de primera. El problema es que le dieron una escopeta con la mira torcida, así que le salieron todos los perdigones desviados y tampoco metió ninguno dentro de la diana. En resumen, nos quedamos sin peluche. En la figura que os adjunto podéis ver el destrozo de disparos que hicimos los dos.error sistematico y aleatorio

De todas formas y para sacar provecho de esta situación, mirando las dianas se me ocurre que guardan algún parecido con los dos tipos de error que podemos tener en nuestros estudios epidemiológicos.

Estos son, en sentido general, dos: el error aleatorio y el error sistemático.

El error aleatorio se debe a nuestro amigo el azar, del que no hay manera de librarse. Puede tener dos causas fundamentales. La primera, el error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas.

La otra fuente de error aleatorio es la propia variabilidad en la medición. Si nos tomamos la presión arterial varias veces, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos.

Este error aleatorio se relacionará con la precisión del resultado. Una medida será tanto más precisa cuanto menor sea el componente aleatorio, por lo que puede aumentarse la precisión aumentando el tamaño de la muestra o siendo más cuidadoso con las mediciones.

En nuestro ejemplo del tiro, yo representaría el error aleatorio. Se me desvían los tiros al azar, de modo que por la nube de impactos puede uno imaginarse por donde está la diana, pero ningún disparo la alcanza. Lógicamente, cuantos más disparos haga, más probabilidad habrá de dar en el centro, aunque sea por azar.

El segundo error que mencionamos es el error sistemático, también llamado sesgo. Este se debe a un error en el diseño o en el análisis del estudio, que produce una estimación incorrecta o no válida del efecto que estamos estudiando. En nuestro ejemplo, como ya habréis adivinado, mi primo representa el error sistemático. El tira muy bien, pero como la escopeta está mal calibrada, los tiros dan fuera de la diana, desviándose todos sistemáticamente en una misma dirección. Viendo solo los tiros no podemos imaginar donde está el centro, como veíamos con mis disparos en mi diana, porque pensaríamos que el centro está en una localización que, en realidad, no le corresponde. Así, el error aleatorio afecta a la precisión, mientras que el sistemático compromete la validez de los resultados. Y otra cosa, por más que mi primo aumente el número de disparos, le seguirán saliendo torcidos. El error sistemático no disminuye porque aumentemos el tamaño de la muestra.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de los tipos de errores sistemáticos, que hay varios. Se pueden dividir en sesgos de selección, de información y de análisis que, a su vez, pueden dividirse en otros muchos. Pero esa es otra historia…

Juntos, pero no revueltos

image_pdf

Los estudios observacionales son aquellos en los que, como su propio nombre indica, el investigador se limita a observar lo que pasa. Bueno, a observar y a analizar, pero no tiene ningún papel activo sobre la exposición o intervención en estudio. Dentro de estos estudios observacionales, todos conocemos los estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Por su parte en un estudio de casos y controles, se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y actúa como control.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso.

Vamos a empezar con el de casos y controles anidados. Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte).

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Y aquí vamos a dejarlo por hoy. Para resumir un poco, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudio convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte). Pero esa es otra historia…

Las generalizaciones son peligrosas

image_pdf

A todos nos gusta generalizar y a los estadísticos y epidemiólogos más que a nadie. A fin de cuentas, uno de los propósitos principales de estas dos ciencias es sacar conclusiones de una población inaccesible a partir de los resultados obtenidos en una muestra más pequeña y, por tanto, más manejable.

Por ejemplo, cuando hacemos un estudio sobre el efecto de un factor de riesgo sobre una determinada enfermedad, normalmente lo hacemos con un pequeño número de casos, que es nuestra muestra, pero para sacar conclusiones que podamos extrapolar a toda la población. Claro que, para poder hacerlo, necesitamos que la muestra sea la adecuada  y sea representativa de la población en la que queremos generalizar los resultados. Vamos a ver con un ejemplo qué pasa cuando esta premisa no se cumple.

Berkson1Supongamos que queremos estudiar si los sujetos afectos de neumonía tienen más riesgo de tener hipertensión arterial. Si vamos a lo más fácil, podemos usar nuestra base de datos de ingresos hospitalarios y obtener nuestra muestra de estudio tal como observamos en la primera tabla. Vemos que nuestra muestra engloba 135 pacientes que han requerido ingreso, 19 de los cuales tuvieron neumonía y cuatro, además hipertensión. Por otra parte, también podemos ver el número de hipertensos que es de 10, cuatro con neumonía y seis sin ella.

En primer lugar, vamos a ver si hay asociación entre las dos variables. Para ello podemos hacer un test de la chi-cuadrado bajo la hipótesis nula de no asociación. Yo he usado el programa R para calcularlo. Primero construyo la tabla con el siguiente comando:

Ingreso <- matrix(c(4,6,15,110), ncol=2)

y luego calculo la chi aplicando la corrección de Yates (hay una celda con valor menor de cinco):

chisq.test(Ingreso, correct=T)

Obtengo así un valor de chi = 3,91, que para un grado de libertad corresponde a una p=0,04. Como es menor de 0,05, rechazo la hipótesis nula de no asociación y concluyo que sí hay asociación entre las dos variables.

Ahora, para calcular la fuerza de la asociación calculo su odds ratio, utilizando para ello cualquiera de las calculadoras de epidemiología disponibles en Internet. La odds ratio es de 4,89, con un intervalo de confianza del 95% de 1,24 a 19,34. Concluimos así que los pacientes con neumonía tienen casi cinco veces más riesgo de tener hipertensión.

Y hasta aquí todo va bien. El problema surgiría si caemos en la tentación de generalizar el resultado a la población general. Y esto es así porque la odds ratio mide la fuerza de la asociación entre dos variables siempre que la muestra se haya obtenido de forma aleatoria, lo que no es nuestro caso. Veamos qué pasa si repetimos el experimento con una muestra más grande obtenida, no de nuestro registro hospitalario, sino de la población general (donde están incluidos los participantes en el primer experimento).

berkson2Obtenemos así la segunda tabla de contingencia, que engloba 2591 pacientes, 211 de los cuales son hipertensos. Siguiendo el mismo procedimiento del primer experimento, calculamos primero la chi-cuadrado, que, en este caso, tiene un valor de 1,86, al que le corresponde una p=0,17. Al ser mayor de 0,05 no podemos rechazar la hipótesis nula, luego tenemos que concluir que no hay asociación entre las dos variables.

Ya no tiene mucho sentido calcular la odds ratio, pero si lo hacemos veremos que vale 0,96, con un intervalo de confianza del 95% de 0,73 a 1,21. Como incluye el valor  uno, la odds ratio tampoco es significativa.

¿Por qué ocurre esta diferencia entre los dos resultados?.  Esto ocurre porque los riesgos de hospitalización son diferentes entre los distintos grupos. De los 100 individuos que tienen neumonía (segunda tabla), cuatro precisan ingreso (primera tabla), luego el riesgo es de 4/10 = 0,4. El riesgo entre los que tienen solo hipertensión es de 6/111 = 0,05, y el de los que no tienen ninguna enfermedad es de 110/1230 = 0,09.

De esta forma, vemos que los pacientes con neumonía tienen más riesgo que el resto de ser hospitalizados.  Si cometemos el error de incluir solo pacientes hospitalizados, nuestros resultados estarán sesgados respecto a la población general, observando así una asociación que, en realidad, no existe. Este tipo de asociación espuria entre variables que se produce por una elección incorrecta de la muestra se conoce con el nombre de falacia de Berkson.

Y aquí lo dejamos. Vemos que el modo de elegir la muestra es de importancia capital a la hora de generalizar los resultados de un estudio. Es lo que suele ocurrir con los ensayos clínicos con criterios de inclusión muy estrictos, que es difícil generalizar sus resultados. Por eso hay autores que prefieren realizar ensayos clínicos pragmáticos, más pegados a la realidad cotidiana y mucho más generalizables. Pero esa es otra historia…

No te dejes llevar por los extremos

image_pdf

Ya vimos en una entrada anterior que los valores extremos de una distribución, los llamados outliers, pueden sesgar las estimaciones de los estadísticos que calculamos en nuestra muestra.

Un ejemplo típico es el de la media aritmética, que se desplaza en la dirección de los valores extremos, si los hay, tanto más cuanto más extremos sean los valores. Vimos que, para evitar este inconveniente, existían una serie de familiares de la media aritmética que se consideraban robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de outliers. De todos estos, el más conocido es la mediana, aunque existen algunos más, como la media recortada, la winsorizada, la ponderada, la geométrica, etc.

Pues bien, algo parecido a lo que le pasa a la media ocurre también con la desviación típica, el estadístico de escala o dispersión utilizado con más frecuencia. La desviación típica o estándar también se ve sesgada por la presencia de valores extremos, obteniendo valores que son poco representativos de la dispersión real de la distribución.

Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos de la media. Supongamos que medimos los valores de colesterol sérico en un grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435 mg/dl) que nos sesgarán los estadísticos habituales que son la media y la desviación típica. En nuestro caso, podemos calcular la desviación típica y ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación de la mayoría de los valores respecto a cualquiera de las medidas de centralización robustas que podamos elegir.

¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores robustos de la desviación, que hay varios. Algunos de ellos surgen a partir de los estimadores robustos de la media. Veamos algunos.

El primero, que surge a partir de la mediana, es la desviación absoluta mediana (DAM). Si recordáis, la desviación típica es la suma de las diferencias de cada valor con la media, elevadas al cuadrado, y dividida por el número de elementos, n (o por n-1 si lo que queremos es obtener un estimador no sesgado de la desviación típica poblacional). Pues bien, de modo similar, podemos calcular la mediana de las desviaciones absolutas de cada valor con la mediana de la muestra, según la siguiente fórmula

DAM = Mediana {|Xi – Me|}, para i=1 hasta n.

Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl, bastante más ajustado que la desviación típica clásica.

El segundo se calcula a partir de la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Pues bien, podemos calcular la desviación de la forma clásica con los elementos recortados, obteniendo el valor de 10,5 mg/dl.

Por último, en tercer lugar podríamos hacerlo siguiendo el razonamiento que se utiliza para calcular la media winsorizada. En este caso, en vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. Una vez winsorizada la distribución, calculamos la desviación típica con los nuevos valores de la forma habitual. Su valor es de 9,3 mg/dl, similar a la anterior.

¿Cuál utilizamos de las tres?. Pues nos interesa utilizar una que se comporte de forma eficiente cuando la distribución sea normal (en estos casos la mejor es la desviación típica clásica) pero que no sea muy sensible cuando la distribución se aparte de la normal. En este sentido, la mejor es la desviación absoluta mediana, seguida de la desviación típica winsorizada muestral.

Un último consejo antes de finalizar. No os pongáis a calcular estas medidas a mano, ya que puede resultar muy laborioso, Los programas de estadística hacen los cálculos por nosotros sin el menor esfuerzo.

Y aquí terminamos. No hemos hablado nada de otros estimadores de la familia de los M-estimadores, como la varianza media biponderada o la varianza media de porcentaje ajustado. Estas medias son mucho más difíciles de comprender desde el punto de vista matemático, aunque son muy fáciles de calcular con el paquete informático adecuado. Pero esa es otra historia…

Una relación simple

image_pdf

Hoy vamos a volver a hablar de la relación que puede existir entre dos variables. Vimos en una entrada anterior como podíamos medir la relación entre dos variables mediante el procedimiento de correlación, que nos medía la fuerza de relación entre dos variables cuando ninguna de las dos puede considerarse predictora de la otra. Esto es, cuando los valores de una no nos sirven para calcular los valores de la otra, aunque las dos varíen de una forma predecible.

Una cosa parecida, de la que vamos a hablar en esta entrada, es la regresión. Esta no solo explica la relación que hay entre dos variables, sino que podemos cuantificar cómo varía una de las variables, que llamaremos dependiente, con las variaciones de la otra variables, que será la independiente.

Pero todavía podemos llegar un paso más allá: los valores de la variable independiente nos pueden servir para predecir el correspondiente valor de la variable dependiente. Supongamos que medimos peso y talla y calculamos el modelo de regresión entre el peso y la talla. Si sabemos la talla de un individuo podemos utilizar la ecuación de regresión para estimar cuál será su peso (en este caso la talla es la variable independiente y el peso la dependiente).

Si llamamos x a la variable independiente e y a la variable dependiente, los modelos de regresión simple pueden representarse mediante la siguiente ecuación:

Función(y) = a + bx

En esta ecuación, a representa el valor de la función de y cuando x vale cero. Se suele llamar interceptor porque es el punto donde la representación gráfica de la recta de regresión cruza el eje de las y. Por su parte, b representa la llamada pendiente, que es la cantidad que varía y con las variaciones de x (si x aumenta en b unidades, y aumenta en b unidades).

¿Y qué significa función(y)?. Pues depende del tipo de variable que sea la variable dependiente. Sabemos que las variables se clasifican en cuantitativas (o continuas), cualitativas (nominales u ordinales) y de tiempo a suceso (también llamadas de supervivencia). Pues bien, según el tipo de la variable dependiente la función(y) será diferente porque aplicaremos un modelos de regresión simple diferente.

En el caso de variables continuas, el modelo de regresión que aplicamos es el de regresión lineal simple y la función de y será su media aritmética. La ecuación será la siguiente:

y = a + bx

Volviendo al ejemplo del peso y la talla, si sustituimos x por el valor de talla deseado y resolvemos la ecuación obtendremos el peso medio de los individuos de esa talla.

En el caso de que la variable dependiente sea cualitativa binaria utilizaremos un modelo de regresión logística. En este caso codificaremos la variable dependiente como cero y uno y la función de y ya no será la media, sino el logaritmo neperiano de la odds ratio del valor uno de la variable. Imaginemos que calculamos la relación entre peso (variable independiente) y sexo (variable dependiente). En este caso podríamos codificar como uno si es mujer y cero si es hombre, representando la recta de regresión de la siguiente forma:

Ln(OR) = a + bx

Si sustituimos x por el peso en cuestión y resolvemos la ecuación, obtendremos el logaritmo de la OR de ser mujer (el valor 1). Para obtener la OR debemos elevar el número e al resultado de la ecuación (hacer el antilogaritmo), obteniendo así la OR de que sea mujer. A partir de aquí es sencillo calcular el valor de la probabilidad de que sea mujer (p = OR/1+OR)  u hombre (uno menos el valor de la probabilidad de que sea mujer).

Esta función del ln(OR) se expresa en muchas ocasiones como ln(p/1-p), ya que la odds ratio es la probabilidad de que un suceso ocurra (p) dividida de la probabilidad de que no ocurra (1-p). A esta función se la denomina logit, por lo que podemos ver también representada la regresión logística de la siguiente forma:

Logit(y) = a + bx

Por último, podemos encontrarnos el caso de que la variable dependiente sea una variable de tiempo a suceso. En este caso hay que utilizar un modelo de regresión de riesgos proporcionales de Cox. La estructura es muy similar a la de la regresión logística, solo que la función de y es el logaritmo de la hazard ratio en lugar del de la odds ratio:

Ln(HR) = a + bx

Igual que hacíamos con la regresión logística, para calcular el valor de la hazard ratio hay que hacer el antilogaritmo natural del producto de la ecuación de regresión (e elevado al resultado de la ecuación).

Y, aunque hay muchos más, estos son los tres modelos de regresión más utilizados. En todos estos casos hemos hablado de ecuaciones con una variable independiente, por lo que decimos que hablamos de regresión simple. Pero podemos meter todas las variables independientes que queramos, según la siguiente fórmula:

Función(y) = a + bx1 + cx2 + … + nxn

Claro que ya no hablaríamos de regresión simple, sino de regresión múltiple, pero todo lo que hemos descrito sería igual de aplicable.

Y aquí lo vamos a dejar. Podríamos hablar del valor del interceptor y de la pendiente según la variable independiente sea continua o cualitativa, ya que se leen de forma un poco diferente. Pero esa es otra historia…

Ovejas negras

image_pdf

Se dice que es una oveja negra aquél elemento de un grupo que va en dirección distinta o contraria a la del resto del grupo. Por ejemplo, en una familia de adictos a la telebasura, la oveja negra sería un miembro de esa familia que se desviviese por ver los documentales de la segunda cadena. Claro que si la familia es adicta a los documentales, la oveja negra se morirá por ver la telebasura. Siempre al revés.

En estadística hay algo parecido a las ovejas negras. Son los datos anómalos, también llamados datos extremos, pero más conocidos por su nombre en inglés: outliers.

Un outlier es una observación que parece inconsistente con el resto de los valores de la muestra, siempre teniendo en cuenta el modelo probabilístico supuesto que debe seguir la muestra. Como veis, es un dato que lleva la contraria a los demás, como una oveja negra.

El problema del outlier es que puede hacer mucho daño al estimar parámetros poblacionales a partir de una muestra. Vamos a recordar un ejemplo que vimos en otra entrada sobre el cálculo de medidas de centralidad robustas. Se trataba de un colegio con cinco maestros y un director fanático del futbol. Al hacer los contratos establece los siguientes sueldos: 1200 euros al mes para el profesor de ciencias, 1500 para el de mates, 800 para el de literatura y 1100 para el de historia. Pero resulta que se le antoja contratar a Pep Guardiola como profesor de gimnasia, así que tiene que pagarle nada menos que 20000 euros mensuales.

¿Veis por dónde la va la cosa? Efectivamente, Pep es la oveja negra, el valor anómalo. Fijaos qué pasa si calculamos la media: 4920 euros al mes es el sueldo medio de los profesores de este centro. ¿Os parece una estimación real? Claramente no, el valor de la media está desplazada en la dirección del outlier, y se desplazaría más cuánto más extremo sea el valor anómalo. Si a Pep le pagasen 100000 euros, el sueldo medio ascendería a 20920 euros. Una locura.

Si un valor anómalo puede hacerle tanto daño a un estimador, imaginad lo que puede hacer con un contraste de hipótesis, en el que la respuesta es un aceptar o rechazar la hipótesis nula. Así que nos planteamos, ¿qué podemos hacer cuando descubrimos que entre nuestros datos hay una (o varias) ovejas negras? Pues podemos hacer varias cosas.

La primera que se nos pasa por la cabeza es tirar el outlier a la basura. Prescindir de él a la hora de analizar los datos. Esto estaría bien si el valor extremo es producto de un error en la recogida de los datos pero, claro, podemos prescindir de datos que dan información adicional. En nuestro ejemplo, el outlier no es ningún error, sino que es producto del historial deportivo del profesor en cuestión. Necesitaríamos algún método más objetivo para poder decidir suprimir el outlier, y aunque existen unas pruebas llamadas de discordancia, tienen sus problemas.

La segunda cosa que podemos hacer es identificarlo. Esto significa que tenemos que averiguar si el valor es tan extremo por alguna razón concreta, como pasa en nuestro ejemplo. Un valor extremo puede estar señalando algún hallazgo importante y no tenemos porqué desdeñarlo con rapidez, sino tratar de interpretar su significado.

En tercer lugar, podemos incorporarlos. Como hemos dicho al definirlos, el outlier lleva la contraria a los demás datos de la muestra según el modelo de probabilidad que suponemos que sigue la muestra. A veces, un dato extremo deja de serlo si asumimos que los datos siguen otro modelo. Por ejemplo, un outlier puede serlo si consideramos que los datos siguen una distribución normal pero no si consideramos que siguen una logarítmica.

Y, en cuarto lugar, la opción más correcta de todas: utilizar técnicas robustas para hacer nuestras estimaciones y nuestros contrastes de hipótesis. Se llaman técnicas robustas porque se afectan menos por la presencia de valores extremos. En nuestro ejemplo con los profesores utilizaríamos una medida de centralidad robusta como es la mediana. En nuestro caso es de 1200 euros, bastante más ajustada a la realidad que la media. Además, aunque le paguen a Pep 100000 euros al mes, la mediana seguirá siendo de 1200 euros mensuales.

Y con esto terminamos con los valores anómalos, esas ovejas negras que se mezclan con nuestros datos. No hemos comentado nada por simplificar, pero también podríamos tratar de averiguar cómo afecta el outlier a la estimación del parámetro, para lo cual existe toda una serie de metodología estadística basada en la determinación de la llamada función de influencia. Pero esa es otra historia…

Yo me lo guiso, yo me lo como

image_pdf

Cuando queremos conocer la relación entre una exposición o intervención y un efecto, lo ideal es poder hacer un ensayo clínico controlado y aleatorizado. Claro que eso no siempre es posible, generalmente debido a la naturaleza de la exposición. Por ejemplo, supongamos que queremos conocer el efecto del tabaquismo sobre el infarto de miocardio. Como cualquiera puede comprender, no podemos aleatorizar dos grupos y poner a uno de ellos a fumar dos cajetillas al día para ver si se infartan. La ética y el sentido común nos lo impiden, además de la dificultad para encontrar participantes para un ensayo de estas características.

En casos similares tenemos que recurrir a estudios observacionales. En nuestro ejemplo, nos valdría con un estudio de casos y controles. Así, seleccionaríamos dos grupos en función de si han tenido infarto (los casos) o si no lo han tenido (los controles) y compararíamos el nivel de exposición entre los dos grupos para tratar de dilucidar si hay asociación entre exposición (tabaco) y efecto (infarto).

El punto clave de este tipo de estudios está en la selección de los controles, que tienen que ser representativos del nivel de exposición al factor de riesgo evaluado en la población de la que proceden los casos.

Una selección adecuada de los controles es aún más difícil cuando el efecto es de producción brusca. Por ejemplo, si queremos saber si una comida copiosa aumenta el riesgo de infarto tendríamos más dificultad en recoger controles representativos de la población, ya que los factores de riesgo pueden actuar instantes antes del evento.

Para evitar estas dificultades se aplicó el principio de “yo me guiso, yo me lo como” y se diseñó un tipo de estudio en el que cada participante actúa, a la vez, como su propio control. Son los estudios cruzados, también llamados de casos y autocontroles.

Estos estudios se centran en el momento en que se produce el evento y tratan de ver si se ha producido algo inusual que los haya favorecido, comparando las exposiciones de momentos inmediatos al evento con otros anteriores que sirven de control. Por tanto, comparamos momentos casos con momentos controles, actuando cada individuo como su propio control.

Para que el estudio tenga validez desde el punto de vista metodológico, los autores tienen que describir con claridad una serie de periodos de tiempo característicos. El primero es el periodo de inducción, que es tiempo de retraso que se produce desde el inicio de la exposición hasta la producción del efecto.

periodos caso cruzadoEl segundo es el periodo de efecto, que es el intervalo durante el cual la exposición puede desencadenar el efecto. Por último, el periodo de riesgo sería la suma de los dos periodos previos, desde que se produce la exposición hasta el inicio del evento.

El periodo de inducción suele ser muy breve la mayor parte de las veces, así que periodo de riesgo y efecto suelen ser equivalentes. En la figura adjunta os muestro la relación entre los tres periodos para que la entendáis mejor.

Es fundamental que estos tres periodos se especifiquen con claridad, ya que una mala estimación del periodo de efecto, tanto por exceso como por defecto produce una dilución del efecto de la exposición y dificulta su detección.

Algunos de vosotros me diréis que estos estudios son similares a otros estudios con autocontroles, como el de casos y controles emparejados. La diferencia es que en este último se eligen uno o varios controles similares por cada caso, mientras que en el autocontrolado cada uno es su propio control. También se parecen un poco a los ensayos clínicos cruzados, en el que todos los participantes son sometidos a la intervención y al control, pero éstos son estudios experimentales en los que el investigador interviene en la producción de la exposición, mientras que los autocontrolados son estudios observacionales.

En lo que sí se parecen a los casos y controles emparejados es en el análisis estadístico, solo que aquí se analizan momentos casos y momentos control. De esta forma, lo habitual es utilizar modelos de regresión logística condicional, siendo la medida de asociación más habitual  la odds ratio.

Y aquí dejamos el tema por hoy. Solo comentar que todo lo que hemos dicho se refiere a los denominados estudios cruzados unidireccionales, en los que existe una relación temporal muy puntual entre exposición y efecto. Para los casos en que la exposición es más mantenida pueden emplearse otros tipos de estudios cruzados llamados bidireccionales, en los que se seleccionan periodos de control anteriores y posteriores al efecto. Pero esa es otra historia…

No abuses de las tartas

image_pdf

¡Qué ricas las tartas! El problema es que, como ya sabéis, lo que no está mal visto socialmente, o engorda o produce cáncer. Y las tartas no podían ser menos, así que hay que procurar no comer demasiado para que no se nos vayan al michelín o a otros sitios peores.

Pero hay una tarta que no engorda nada en absoluto (tampoco produce cáncer) y es el diagrama de tarta, que se utiliza con mucha frecuencia en estadística. ¿He dicho con mucha frecuencia? Probablemente me quede corto. Como no engorda ni tiene otros efectos perjudiciales para la salud hay tendencia a abusar de su uso.

tartaEl gráfico de tarta, cuyo nombre correcto es gráfico de sectores, es muy sencillo de dibujar. Consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizando la frecuencia absoluta de la categoría, según la siguiente regla de tres:

\frac{Frecuencia\ absoluta}{Frecuencia\ total\ de\ datos}=\frac{Grados\ del\ sector}{360}

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

\frac{%\ de\ la\ variable}{100%}=\frac{Grados\ del\ sector}{360}

Las fórmulas son muy sencillas pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros.

El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras.

El diagrama de sectores será especialmente útil cuando haya pocas variables. Si hay muchas la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados el gráfico perderá claridad y será más difícil de leer.

Para terminar, deciros que tampoco tiene sentido utilizar una tarta para representar una variable cuantitativa. Para eso existe otro procedimiento más adecuado, que es el de utilizar un histograma, gráfico que mejor representa la distribución de frecuencias de una variable cuantitativa continua. Pero esa es otra historia…

¿Por qué sobra uno?

image_pdf

Hoy vamos a hablar sobre uno de esos misterios de la estadística que muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el tamaño muestral) o entre n-1 para calcular las medidas de centralización y dispersión de una muestra, concretamente su media (m) y su desviación estándar (s).

La media sabemos todos lo que es. Su propio nombre lo dice, es el promedio de valores de una distribución de datos. Para calcularla sumamos todos los valores de la distribución y dividimos entre el total de elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos la medida de centralización más utilizada.

Por su parte, la desviación estándar, es una medida de la desviación media de cada valor respecto a la media de la distribución. Para obtenerla calculamos las diferencias de cada elemento con la media, las elevamos al cuadrado para que las negativas no se anulen con las positivas, las sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada. Al ser la media de cada desviación, habrá que dividir las sumas de las desviaciones entre el total de elementos, n, como hacíamos con la media, según la conocida fórmula de la desviación estándar.

Sin embargo, en muchas ocasiones vemos que, para calcular la desviación estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.

estimador_sesgadoNosotros habitualmente trabajamos con muestras, de las que obtenemos sus medidas de centralización y dispersión. Sin embargo, lo que a nosotros nos interesaría saber en realidad es el valor de los parámetros en la población de la que procede la muestra. Por desgracia, no podemos calcular estos parámetros directamente, pero sí que podemos estimarlos a partir de los estadísticos de la muestra. Así, queremos saber si la media de la muestra, m, es un buen estimador de la media de la población, µ. Además, queremos saber si la desviación estándar de la muestra, s, es un buen estimador de la desviación de la población, que llamaremos σ.

Vamos a hacer un experimento para ver si m y s son buenos estimadores de µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.

Primero generamos una población de 1000 individuos con una distribución normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una vez hecho, vamos a ver primero qué pasa con la media.

Si obtenemos una muestra de 25 elementos de la población y calculamos su media, esta se parecerá a la de la población (siempre que la muestra sea representativa de la población), pero puede haber diferencia debidas al azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes, con sus 50 medias. Estas medias siguen una distribución normal (la llamada distribución de muestreo), cuya media es la media de todas las que hemos obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50. Vemos, pues, que con las medias de las muestras podemos estimar bien el valor de la media de la distribución.

¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo (extraer 50 muestras, calcular su s y, por último, calcular la media de la 50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15 de la población, pero se ajusta menos que el valor de la media. ¿Por qué?

La respuesta es que la media muestral es lo que se llama un estimador no sesgado de la media poblacional, ya que el valor medio de la distribución de muestreo es un buen estimador del parámetro en la población. Sin embargo, con la desviación estándar no pasa lo mismo, porque es un estimador sesgado. Esto es así porque la variación de los datos (que es a fin de cuentas lo que mide la desviación estándar) será mayor en la población que en la muestra, al tener la población un tamaño mayor (a mayor tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para que el resultado sea un poco más alto.

Si hacemos el experimento con R dividiendo entre n-1 obtenemos una desviación estándar no sesgada de 15,1, algo más próxima que la que obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería un estimador no sesgado de la desviación estándar poblacional. Entonces, ¿cuál empleamos? Si queremos saber la desviación estándar de la muestra podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale el valor teórico en la población, el estimador se aproximará más al valor de σ si dividimos entre n-1.

Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos obtener no solo el estimador a partir de la distribución de muestreo, sino también su intervalo de confianza, que nos diría entre que valores está el parámetro de la población, con un nivel de confianza determinado. Pero esa es otra historia…

Del triángulo a la tarta

image_pdf

Las cosas no ocurren porque sí. Y las enfermedades tampoco. ¿Por qué una persona que está sana de repente enferma y otra no? Pues porque hay una serie de factores que se distribuyen en la población que hacen que algunas personas tengan más riesgo de enfermar que otras.

Esto ha llamado la atención de los epidemiólogos desde siempre, de ahí que hayan intentado describir modelos para ilustrar la relación entre enfermos y enfermedades, para tratar de comprender cuáles son las causas de la enfermedad.

El modelo más sencillo lo forma un triángulo perverso entre tres elementos: el agente, el huésped y el ambiente. Estos tres elementos interrelacionan en una forma más o menos compleja para dar lugar a la aparición de la enfermedad.

Este modelo se ideó inicialmente para enfermedades infecciosas, así que el agente es el microorganismo en cuestión que puede producir la enfermedad. Por ejemplo, el plasmodio que produce el paludismo. Como es lógico, diferentes enfermedades dependen de la presencia de diferentes agentes, además de distintas interacciones entre agente, huésped y ambiente.

El huésped es el pobre sujeto que adquiere la enfermedad. No todos los huéspedes son igual de susceptibles a la enfermedad. Puede existir una serie de factores de riesgo intrínsecos al huésped que aumenten o disminuyan el riesgo de enfermar, aunque entre en contacto con el agente. En nuestro ejemplo del paludismo, los sujetos con anemia drepanocítica tienen menor riesgo de contraer el paludismo que los portadores de una hemoglobina normal.

El tercer lado de este triángulo lo constituye el ambiente, cuya función fundamental sería poner en contacto al agente con el huésped para producir la enfermedad. Si no hay mosquitos que trasmitan el parásito no tendremos casos de paludismo, por mucho plasmodio que haya en la charca.

El problema de este modelo tan elegante es que explica mucho mejor las enfermedades infecciosas que otros tipos de padecimientos. Tomemos el ejemplo del tabaco y el cáncer de pulmón. Todos sabemos que fumar provoca cáncer, pero ni todos los que fuman lo sufren ni todos los pacientes con cáncer han sido fumadores. Parece, pues, que esto de las causas es algo bastante más complejo.

Y aquí es donde nos topamos con la tarta. Imaginad todas las causas que se puedan relacionar con una enfermedad como los pedazos de una tarta. Si la tarta tiene las porciones necesarias, la enfermedad se produce. En caso contrario, la enfermedad no llega a producirse.

Pero no todos los pedazos de la tarta tienen la misma importancia. Así, reconocemos varias categorías de causas. Una porción podría ser una causa componente, que es cada uno de los componentes individuales que pueden dar lugar a la enfermedad.

Una causa componente puede estar constituida por factores relacionados con el agente, con el huésped y con el ambiente, pero por si solas no suelen ser suficientes para que la enfermedad aparezca. Uno puede estar expuesto años al agente y no desarrollar la enfermedad. Por ejemplo, la exposición a un virus no garantiza la infección si el huésped no tiene, además, otros factores de susceptibilidad.

Por otro lado estarían las causas necesarias. Sin ellas la enfermedad no se produce aunque concurran varias causas componentes. Pensemos por ejemplo en una infección por un germen oportunista en un inmunodeprimido. El germen no es capaz de producir la infección si el sistema inmune está indemne, luego la inmunodepresión sería causa necesaria para que se produzca la infección.

Por último, el pedazo más grande de la tarta, la causa suficiente. Este trozo completa por sí solo la tarta. Esta causa sola da lugar a la enfermedad sin necesidad de causas componentes o necesarias. Una enfermedad puede tener una o varias causas suficientes. Por último, podemos pensar como causa suficiente la concurrencia de varias causas componentes.

Para acabar, podemos rizar el rizo con esto de los tipos de causas y combinarlos en los siguientes:

– Necesaria y no suficiente: sin la causa no hay enfermedad, pero su presencia no la garantiza. Por ejemplo, el virus del papiloma y el cáncer de útero.

– No necesaria y suficiente: produce la enfermedad, pero esta puede darse también por otros factores causales que pueden actuar por sí solos. Por ejemplo, pensad en un tumor que pueda ser producido por la radiación, pero también por cancerígenos químicos.

– No necesaria y no suficiente: ninguno de los factores del huésped es imprescindible para la enfermedad y ninguno la causa por sí solo. Por ejemplo, todos los factores de riesgo de diabetes o de enfermedad coronaria.

Y aquí dejamos los triángulos y las tartas, no sin antes hacer una pequeña reflexión. Todo lo que hemos dicho sobre causas de enfermedades podríamos haberlo dicho sobre factores protectores contra el desarrollo de la enfermedad. Por ejemplo, la eliminación del tabaco sería un factor componente para la prevención del cáncer de pulmón. Pero esa es otra historia…