Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

En busca de la causalidad

image_pdf

En Medicina es frecuente que tratemos de buscar relaciones de causa efecto. Si queremos demostrar que el fármaco X produce un efecto, no tenemos más que tomar dos grupos de personas, a un grupo le damos el fármaco, al otro grupo no se lo damos y vemos si hay diferencias.

Pero la cosa no es tan sencilla, porque nunca podemos estar seguros de que las diferencias en efecto entre los dos grupos se deban en realidad a otros factores distintos al tratamiento que hemos empleado. Estos factores son los llamados factores de confusión, que pueden ser conocidos o desconocidos y que nos pueden sesgar los resultados de la comparación.

Para resolver este problema se inventó el elemento clave de un ensayo clínico, la aleatorización. Si repartimos los participantes en el ensayo entre las dos ramas de forma aleatoria conseguiremos que estas variables de confusión se repartan de forma homogénea entre las dos ramas del ensayo, con lo que cualquier diferencia entre las dos tendrá que ser debida a la intervención. Solo así podremos establecer relaciones de causa-efecto entre nuestra exposición o tratamiento y la variable de resultado que midamos.

El problema de los estudios cuasi-experimentales y de los observacionales es que carecen de aleatorización. Por este motivo, nunca podremos estar seguros de que las diferencias se deban a la exposición y no a cualquier variable confusora, por lo que no podemos establecer con seguridad relaciones causales.

Este es un inconveniente molesto, ya que muchas veces será imposible realizar ensayos aleatorizados ya sea por motivos éticos, económicos, de la naturaleza de la intervención o de lo que sea. Por eso se han inventado algunas argucias para poder establecer relaciones causales en ausencia de aleatorización. Una de estas técnicas es la de los propensity score que vimos en una entrada anterior. Otra es la que vamos a desarrollar hoy, que tiene el bonito nombre de regresión discontinua.

La regresión discontinua es un diseño cuasi-experimental que permite realizar inferencia causal en ausencia de aleatorización. Se puede aplicar cuando la exposición de interés se asigna, al menos parcialmente, según el valor de una variable aleatoria continua si esta variable cae por encima o por debajo de un determinado valor umbral.regresion-discontinua_umbral Pensemos, por ejemplo, en un fármaco hipocolesterolemiante que pautaremos cuando el colesterol LDL aumente por encima de un valor determinado, o de una terapia antirretroviral en un enfermo de sida que indicaremos cuando su contaje de CD4 disminuya por debajo de determinado valor. Existe una discontinuidad en el valor umbral de la variable que produce un cambio brusco en la probabilidad de asignación al grupo de intervención, tal como os muestro en la figura adjunta.

En estos casos en los que la asignación del tratamiento depende, al menos en parte, del valor de una variable continua, la asignación en las proximidades del umbral es casi como si fuese aleatoria. ¿Por qué? Porque las determinaciones están sujetas a una variabilidad aleatoria por error de muestreo (además de la propia variabilidad de las variables biológicas), lo que hace que los individuos que están muy cerca del umbral, por encima o por debajo, sean muy similares en cuanto a las variables que puedan actuar como confusoras (el estar por encima o por debajo del umbral puede depender de la variabilidad aleatoria del resultado de la medición de la variable), de manera similar a como ocurre en un ensayo clínico. A fin de cuentas, podemos pensar que un ensayo clínico no es más que un diseño de discontinuidad en el que el umbral es un número aleatorio.

La matemática de la regresión discontinua es solo para iniciados y no es mi intención explicarla aquí (primero tendría que entenderla yo), así que nos vamos a conformar con conocer algunos términos que nos servirán para entender los trabajos que empleen esta metodología.

La regresión discontinua puede ser nítida o difusa. En la nítida, la probabilidad de asignación cambia de cero a uno en el umbral (la asignación del tratamiento sigue una regla determinista). Por ejemplo, se inicia el tratamiento cuando se cruza el umbral, con independencia de otros factores. Por otra parte, en la difusa hay otros factores en juego que hacen que en el umbral la probabilidad de asignación cambie, pero no de cero a uno, sino que puede depender de esos otros factores añadidos.

Así, el resultado del modelo de regresión varía un poco según se trate de una regresión discontinua nítida o difusa. En el caso de la regresión nítida se calcula el llamado efecto causal medio, según el cual los participantes son asignados a la intervención con seguridad si traspasan el umbral. En el caso de la regresión difusa, la asignación ya no se realiza según un modelo determinista, sino según uno probabilístico (según el valor respecto al umbral y el de otros factores que el investigador puede considerar importantes). En estos casos hay que hacer un análisis por intención de tratamiento según la diferencia de la probabilidad de asignación cerca del punto de corte (algunos pueden no traspasar el umbral pero ser asignados a la intervención porque así lo considere el investigador según los otros factores).

Así, en el modelo probabilístico habrá que medir el efecto en los cumplidores (los asignados a la intervención), por lo que el modelo de regresión nos dará el efecto causal medio de los cumplidores, que es la medida típica de la regresión discontinua difusa.

Y creo que aquí lo vamos a dejar por hoy. No hemos hablado nada sobre la ecuación de regresión, pero baste decir que tiene en cuenta las pendientes de la función de probabilidad de asignación antes y después del umbral y una variable de interacción para la posibilidad de que los efectos del tratamiento sean heterogéneos a ambos lados del umbral. Como veis, todo bastante complicado, pero para eso están los paquetes estadísticos como R o Stata que implementan estos modelos sin apenas esfuerzo.

Para terminar, decir solo que lo habitual es ver modelos que utilizan regresión lineal para variables de resultado cuantitativas, pero existen extensiones del modelo que utilizan variables dicotómicas y técnicas de regresión logística, e incluso modelos con estudios de supervivencia y variables de tiempo a suceso. Pero esa es otra historia…

Censura

image_pdf

En el sentido más conocido de la palabra, censura es la acción de examinar una obra destinada al público, suprimiendo o modificando la parte que no se ajusta a determinados planteamientos políticos, morales o religiosos, para determinar si se puede o no publicar o exhibir. Entonces, ¿qué queremos decir en estadística cuando hablamos de datos censurados?. Nada que ver con la política, moral ni la religión. Para explicar lo que es un dato censurado tendremos que hablar primero de las variables de tiempo a suceso y de los análisis de supervivencia.

De manera general, podemos decir que hay tres tipos de variables: cuantitativas, cualitativas y de tiempo a suceso. Las dos primeras se entienden bastante bien en general, pero las de tiempo a suceso son un poco más complicadas de entender.

Imaginemos que queremos estudiar la mortalidad de esa terrible enfermedad que es la fildulastrosis. Podríamos contar el número de fallecidos al final del periodo del estudio y dividirlos por la población total al inicio. Por ejemplo, si al inicio hay 50 enfermos y se nos mueren cuatro durante el seguimiento, podríamos calcular la mortalidad como 4/50 = 0,08, o sea del 8%. Así, si hemos seguido a la población durante cinco años, podremos decir que la supervivencia de la enfermedad a los cinco años es del 92% (100-8 = 92).

Sencillo, ¿verdad? El problema es que esto solo es válido cuando todos los sujetos tienen el mismo periodo de seguimiento y no se producen pérdidas o abandonos a lo largo del estudio, situación que suele estar lejos de la realidad en la mayor parte de los casos.

En estos casos, lo correcto es medir no solo si se produce el fallecimiento (que sería una variable dicotómica), sino también cuándo se produce, teniendo en cuenta además el diferente periodo de seguimiento y las pérdidas. Así, utilizaríamos una variable de tiempo a suceso, que está compuesta por una variable dicotómica (el suceso que se mide) y una continua (el tiempo de seguimiento cuando se produce).

Siguiendo el ejemplo anterior, los participantes en el estudio podrían clasificarse en tres tipos: aquéllos que fallecen durante el seguimiento, los que permaneces vivos al final del estudio y los que se pierden durante el seguimiento.

De los que se mueren podemos calcular su supervivencia pero, ¿cuál es la supervivencia de los que están vivos al final del estudio? ¿Y cuál es la supervivencia de los que se pierden durante el seguimiento? Está claro que algunos de los perdidos pueden haber fallecido al final del estudio sin que nosotros lo detectemos, por lo que nuestra medida de la mortalidad no será exacta.

Y aquí es donde nos encontramos con los datos censurados. Todos aquellos que no presentan el evento durante un estudio de supervivencia se denominan censurados (las pérdidas y los que acaban el estudio sin presentar el evento). La importancia de estos datos censurados es que hay que tenerlos en cuenta al hacer el estudio de supervivencia, tal como veremos a continuación.

La metodología a seguir es confeccionar una tabla de supervivencia que tenga en cuenta los sucesos (en este caso las muertes) y los datos censurados, tal como vemos en la tabla adjunta.

Las columnas de la tabla representan lo siguiente: x, el número de año del seguimiento; Nx, el número de participantes vivos al inicio de ese año; Cx, el número de pérdidas de ese año (censurados); Mx, el número de fallecidos durante ese periodo; PM, probabilidad de morir en ese periodo; PSP, la probabilidad de sobrevivir en ese periodo (la probabilidad de no presentar el evento); y PSG, la probabilidad de supervivencia hasta ese momento.censuraComo vemos, el primer año partimos de 50 participantes, de los cuales uno fallece. La probabilidad de fallecer en ese periodo es de 1/50 = 0,02, con lo que la probabilidad de supervivencia en el periodo (que es igual a la global por ser el primer periodo) es de 1-0,02 = 0,98.

En el segundo periodo partimos de 49 y no fallece ni se pierde nadie. La PM en el periodo es cero y la de supervivencia uno. Así, la probabilidad global será de 1×0,98 = 0,98.

En el tercer periodo seguimos con 49. Se pierden dos y fallece uno. La PM es de 1/49 = 0,0204 y la PSP de 1-0,0204 = 0,9796. Si multiplicamos la PSP por la global del periodo anterior, obtenemos la supervivencia global de este periodo: 0,9796×0,98 = 0,96.

En el cuarto periodo partimos de 46 participantes, produciéndose cinco pérdidas y dos fallecimientos. La PM será de 2/46 = 0,0434, la PSP de 1-0,0434 = 0,9566 y la PSG de 0,9566×0,96 = 0,9183.

Por último, en el quinto periodo partimos de 39 participantes. Tenemos dos censurados y ningún evento (fallecimiento). PM es cero, PSP es igual a uno (no se muere nadie en este periodo) y PSG 1×0,9183 = 0,9183.

Finalmente, teniendo en cuenta los datos censurados, podemos decir que la supervivencia global de la fildulastrosis es del 91,83% a los cinco años.

Y con esto vamos a dejarlo por hoy. Hemos visto cómo se construye una tabla de supervivencia con datos censurados para tener en cuenta el seguimiento desigual de los participantes y las pérdidas durante el seguimiento.

Solo dos reflexiones antes de terminar. En primer lugar, aunque se hable de análisis de supervivencia, el evento no tiene porqué ser el fallecimiento de los participantes. Puede ser cualquier evento que se produzca a lo largo del seguimiento del estudio.

En segundo lugar, las variables de tiempo a suceso y los datos censurados son la base para realizar otras técnicas estadísticas que estiman la probabilidad de producirse el evento en estudio en un momento determinado, como los modelos de regresión de Cox. Pero esa es otra historia…

Simplificando el impacto

image_pdf

En los estudios epidemiológicos es habitual encontrar un conjunto de medidas de efecto como pueden ser los riesgos en expuestos y no expuestos, los riesgos relativos y las reducciones de riesgo. Sin embargo, para que el análisis de un estudio pueda considerarse bien hecho, conviene que las medidas de efecto se acompañen de una serie de medidas de impacto, que son las que nos informan de forma más precisa sobre el verdadero efecto de la exposición o intervención sobre el efecto que estamos estudiando.

Por ejemplo, si realizamos un estudio sobre la prevención de la mortalidad por una enfermedad con un tratamiento X, un riesgo relativo de 0,5 nos dirá que existe la mitad de probabilidad de morirse si tomamos el fármaco, pero no podemos ver de forma clara el impacto del tratamiento. Sin embargo, si calculamos el número necesario a tratar (NNT) y nos sale que es de dos, sabremos que uno de cada dos personas tratadas evitarán la muerte por esa enfermedad. Esta medida de impacto, el NNT, sí nos da una idea más clara del efecto real de la intervención en nuestra práctica.

Existen diversas medidas de impacto, además del NNT. En los estudios de cohortes, que son en los que nos vamos a centrar hoy, podemos calcular la diferencia de incidencias entre expuestos y no expuestos, la proporción atribuible en expuestos (PAE), la proporción evitable en expuestos (PEE) y la proporción atribuible poblacional (PAP).

La PAE nos indica el riesgo de presentar el efecto en los expuestos que se debe específicamente a eso, a haber estado expuesto. La PEE nos informaría de los casos de enfermedad en el grupo expuesto que podrían haberse evitado si no hubiese existido la exposición. formulas_cohortesPor último, la PAP es un riesgo específico atribuible que describe la proporción de casos que se podrían prevenir en la población si se eliminase completamente el factor de riesgo en estudio. Como un cuarto parámetro, considerando la presencia de exposición y enfermedad, podemos calcular la fracción de exposición en los casos (FEc), que define la proporción de casos expuestos que son atribuibles al factor de riesgo.

En la tabla que os adjunto podéis ver las fórmulas para el cálculo de estos parámetros.

El problema de estas medidas de impacto es que pueden ser, en ocasiones, difíciles de interpretar por parte del clínico. Por ese motivo, e inspirados en el cálculo de los NNT, se han ideado una serie de medidas denominadas números de impacto, que nos dan una idea más directa del efecto del factor de exposición sobre la enfermedad en estudio. Estos números de impacto son el número de impacto en expuestos (NIE), el número de impacto en casos (NIC) y el número de impacto de los casos expuestos (NICE).

Empecemos por el más sencillo. El NIE sería el equivalente al NNT y se calcularía como el inverso de la reducción absoluta de riesgos o de la diferencia de riesgos. El NNT es el número de personas que deben ser tratadas para prevenir un caso en comparación con el grupo control. El NIE representa el número medio de personas que tienen que exponerse al factor de riesgo para que se produzca un nuevo caso de enfermedad en comparación con las personas no expuestas. Por ejemplo, un NIE de 10 significa que de cada 10 expuestos se producirá un caso de enfermedad atribuible al factor de riesgo estudiado.

El NIC es el inverso de la PAP, así que define el número medio de personas enfermas entre las que un caso es debido al factor de riesgo. Un NIC de 10 quiere decir que por cada 10 enfermos de la población, uno es atribuible al factor de riesgo en estudio.

Por fin, el NICE es el inverso de la FEc. Es el número medio de enfermos entre los que un caso es atribuible al factor de riesgo.

En resumen, estas tres medidas miden el impacto de la exposición entre todos los expuestos (NIE), entre todos los enfermos (NIC) y entre todos los enfermos que han estado expuestos (NICE).

numeros-impactoVeamos un ejemplo con los datos de la tabla adjunta, que se corresponden a un estudio ficticio sobre el efecto de la mortalidad coronaria por el hábito de fumar. Yo he usado una calculadora epidemiológica de las muchas que hay disponibles en Internet y he calculado una diferencia de riesgos de 0,0027, una PAP de 0,16 y una FEc de 0,4. Ya podemos calcular nuestros números de impacto.

El NIE será de 1/0,0027 = 366. Redondeando, de cada 365 fumadores, uno morirá por una cardiopatía atribuible al tabaco.

El NIC será de 1/0,16 = 6,25. De cada seis muertos por cardiopatía en la población, uno será atribuible al tabaco.

Por fin, el NICE será de 1/0,4 = 2,5. Aproximadamente, por cada tres muertos por cardiopatía entre los que fumaban, uno sería atribuible al vicio del tabaco.

Y aquí lo dejamos por hoy. No olvidéis que los datos del ejemplo son ficticios y no sé si se ajustan mucho a la realidad.

Hemos hablado solo de las estimaciones puntuales de los números de impacto pero, como siempre, lo preferible es el cálculo de sus intervalos de confianza. Los tres se pueden calcular con los límites de los intervalos de las medidas a partir de las que se obtienen los números de impacto, pero lo mejor es utilizar una calculadora que lo haga por nosotros. El cálculo de los intervalos de algunos parámetros como, por ejemplo, de la PAP puede ser complejo. Pero esa es otra historia…

Las tribulaciones de un intervalo

image_pdf

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

Un caso de probabilidad engañosa

image_pdf

Hoy vamos a ver otro de esos ejemplos en los que la intuición sobre el valor de determinadas probabilidades nos juega malas pasadas. Y, para ello, vamos a utilizar nada menos que el teorema de Bayes, jugando un poco con las probabilidades condicionadas. Vamos a ver paso a paso cómo funciona.

¿Cuál es la probabilidad de que se produzcan dos sucesos? La probabilidad de que ocurra un suceso A es P(A) y la de que ocurra B, P(B). Pues bien, la probabilidad de que ocurran los dos es P(A∩B) que, si los dos sucesos son independientes, es igual a P(A) x P(B).

Imaginemos que tenemos un dado con seis caras. Si lo lanzamos una vez, la probabilidad de sacar, por ejemplo, un cinco es de 1/6 (un resultado entre los seis posibles). La de sacar un cuatro es, igualmente, 1/6. ¿Cuál será la probabilidad de sacar un cuatro, una vez que en la primera tirada sacamos un cinco?. Como las dos tiradas son independientes, la probabilidad de la combinación cinco seguida de cuatro será de 1/6 x 1/6 = 1/36.

Ahora pensemos otro ejemplo. Supongamos que en un grupo de 10 personas hay cuatro médicos, dos de los cuáles son cirujanos. Si tomamos uno al azar, la probabilidad de que sea médico es de 4/10 = 0,4 y la de que sea cirujano es de 2/10 = 0,2. Pero, si sacamos a uno y sabemos que es médico, la probabilidad de que sea cirujano ya no será de 0,2, porque los dos sucesos, ser médico y cirujano, no son independientes. Si es médico, la probabilidad de que sea cirujano será de 0,5 (la mitad de los médicos de nuestro grupo son cirujanos).

Cuando dos sucesos son dependientes, la probabilidad de que ocurran los dos será la probabilidad de ocurrir el primero, una vez que ocurre el segundo, por la probabilidad de ocurrir el segundo. Así que la P(médico∩cirujano) = P(cirujano|médico) x P(médico). Podemos generalizar la expresión de la siguiente manera:

P(A∩B) = P(A|B) x P(B), y cambiando de orden los componentes de la expresión, obtenemos la llamada regla de Bayes, de la siguiente forma:

P(A|B) = P(A∩B) / P(B).

La P(A∩B) será la probabilidad de B, una vez que se produce A, por la probabilidad de A = P(B|A) x P(A). Por otra parte, la probabilidad de B será igual a la suma de la probabilidad de producirse B una vez que se produzca A más la probabilidad de producirse B sin que ocurra A, lo que puesto de forma matemática queda de la siguiente forma:

P(B|A) x P(A) + P(B|Ac) x P(Ac), siendo P(Ac) la probabilidad de que no ocurra A.

Si sustituimos la regla inicial por sus valores desarrollados, obtendremos la expresión más conocida del teorema de Bayes:

P(A|B)=\frac{P(B|A) \times P(A)}{P(B|A) \times P(A)+P(B|A^{{c}}) \times P(A^{{c}})}Vamos a ver cómo se aplica el teorema de Bayes con un ejemplo práctico. Pensemos en el caso de la fildulastrosis aguda, una grave enfermedad cuya prevalencia en la población es, afortunadamente, bastante baja, de uno por cada 1000 habitantes. Luego, la P(F) = 0,001.

Por suerte tenemos una buena prueba diagnóstica, con una sensibilidad del 98% y una especificidad del 95%. Supongamos ahora que yo me hago la prueba y me da un resultado positivo. ¿Tengo que asustarme mucho? ¿Cuál es la probabilidad de que realmente tenga la enfermedad? ¿Os parece que será alta o baja? Veámoslo.

Una sensibilidad del 98% quiere decir que la probabilidad de dar positivo cuando se tiene la enfermedad es de 0,98. Matemáticamente, P(POS|F) = 0,98. Por otra parte, una especificidad del 95% quiere decir que la probabilidad de que dé un resultado negativo estando sano es de 0,95. O sea, P(NEG|Fc) = 0,95. Pero nosotros lo que queremos saber no es ninguna de estas dos cosas, sino que realmente buscamos cuál es la probabilidad de estar enfermo una vez que damos positivo en la prueba, o sea, la P(F|POS).

Para calcularla, no tenemos más que aplicar el teorema de Bayes:

P(F|POS)=\frac{P(POS|F) \times P(F)}{P(POS|F) \times P(F)+P(POS|F^{{c}}) \times P(F^{{c}})}A continuación, sustituimos los símbolos con sus valores y resolvemos la ecuación:

P(F|POS)=\frac{0,98 \times 0,001}{0,98 \times 0,001+[(1-0,95) \times (1-0,001)]}=0,02Así que vemos que, en principio, no tengo que asustarme mucho cuando la prueba me da un  resultado positivo, ya que la probabilidad de estar enfermo es solo de un 2%. Como veis, mucho más baja de lo que la intuición nos diría con una sensibilidad y una especificidad tan altas. ¿Por qué ocurre esto? Muy sencillo, porque la prevalencia de la enfermedad es muy baja. Vamos a repetir el experimento suponiendo ahora que la prevalencia es del 10% (0,1):

P(F|POS)=\frac{0,98 \times 0,1}{0,98 \times 0,1+[(1-0,95) \times (1-0,1)]}=0,68Como veis, en este caso la probabilidad de estar enfermo si doy positivo sube hasta el 68%. Esta probabilidad es el conocido valor predictivo positivo que, como podemos comprobar, puede variar enormemente según la frecuencia del efecto que estemos estudiando.

Y aquí lo dejamos por hoy. Antes de terminar, dejadme advertiros que no busquéis qué es la fildulastrosis. Me sorprendería mucho que alguien la encontrase en algún libro de medicina. Además, tened cuidado de no confundir P(POS|F) con P(F|POS), ya que incurriríais en un pecado llamado falacia inversa o falacia de la transposición de los condicionales, que es un error grave.

Hemos visto como el cálculo de probabilidades se complica un poco cuando los sucesos no son independientes. También hemos aprendido lo poco de fiar que son los valores predictivos cuando cambia la prevalencia de la enfermedad. Por eso se inventaron los cocientes de probabilidades, que no dependen tanto de la prevalencia de la enfermedad que se diagnostica y permiten valorar mejor de forma global la potencia de la prueba diagnóstica. Pero esa es otra historia…

Clientes habituales

image_pdf

Vimos en una entrada anterior que el tamaño muestral es muy importante. La muestra debe ser del tamaño adecuado, ni más ni menos. Si es demasiado grande estaremos malgastando recursos, algo a tener muy en cuenta en los tiempos actuales. Si usamos una muestra pequeña ahorraremos dinero, pero perderemos potencia estadística. Esto quiere decir que puede ocurrir que exista una diferencia de efecto entre las dos intervenciones probadas en un ensayo clínico y no seamos capaces de reconocerla, con lo cual acabamos tirando dinero de igual forma.

El problema es que en algunas ocasiones puede ser muy difícil acceder al tamaño muestral adecuado, siendo necesarios periodos de tiempo excesivamente largos para alcanzar el tamaño deseado. Pues bien, para estos casos, alguien con mentalidad comercial ha ideado un método que consiste en incluir al mismo participante muchas veces en el ensayo. Es como en los bares. Es mejor tener una clientela habitual que acuda muchas veces al establecimiento, siempre más fácil que tener una parroquia muy concurrida (que también es deseable).

Existen ocasiones en que el mismo paciente necesita el mismo tratamiento en múltiples ocasiones repetidas. Pensemos, por ejemplo, en el asmático que necesita tratamiento broncodilatador en repetidas ocasiones, o en la pareja sometida a un proceso de fertilización in vitro, que requiere varios ciclos hasta tener éxito.

Aunque la norma habitual en los ensayos clínicos es aleatorizar participantes, en estos casos podemos aleatorizar cada participante de forma independiente cada vez que necesite tratamiento. Por ejemplo, si estamos probando dos broncodilatadores, podemos aleatorizar al mismo sujeto a uno de los dos cada vez que tenga una crisis asmática y necesite tratamiento. Este procedimiento se conoce con el nombre de realeatorización y consiste, como hemos visto, en aleatorizar situaciones en lugar de participantes.

Este truco es totalmente correcto desde el punto de vista metodológico, siempre que se cumplan algunas condiciones que veremos a continuación.

El participante entra en el ensayo la primera vez de la forma habitual, siendo asignado al azar a una de las dos ramas del ensayo. Posteriormente se realiza el seguimiento durante el periodo apropiado y se recogen los resultados de las variables en estudio. Una vez acabado el periodo de seguimiento, si el paciente precisa nuevo tratamiento y sigue cumpliendo los criterios de inclusión del ensayo es de nuevo aleatorizado, repitiéndose este ciclo las veces necesarias para alcanzar el tamaño muestral deseado.

Este modo de reclutar situaciones en lugar de participantes permite alcanzar el tamaño muestral con un número de participantes menor. Por ejemplo, si necesitamos 500 participantes, podemos aleatorizar 500 una vez, 250 dos veces o 200 una vez y 50 seis. Lo importante es que el número de aleatorizaciones de cada participante no se especifique previamente, sino que dependa de la necesidad de tratamiento de cada uno.

Para aplicar este método de manera correcta hace falta cumplir tres requisitos. El primero, solo puede realeatorizarse un paciente cuando haya finalizado completamente el periodo de seguimiento del procedimiento anterior. Esto es lógico, ya que, de no ser así, se solaparían los efectos de los dos tratamientos y se obtendría una medida sesgada del efecto de la intervención.

El segundo, cada nueva aleatorización en el mismo participante debe hacerse de manera independiente a las anteriores. Dicho de otro modo, la probabilidad de asignación a cada intervención no debe depender de las asignaciones previas. Hay autores que caen en la tentación de utilizar las reasignaciones para equilibrar los dos grupos, pero esto puede sesgar las comparaciones entre los dos grupos.

El tercero, el participante debe recibir el mismo beneficio de cada intervención. De lo contrario, obtendremos una estimación sesgada del efecto del tratamiento.

Vemos, pues, como este es un buen método para alcanzar con más facilidad el tamaño de la muestra que deseemos. El problema con este tipo de diseño es que el análisis de los resultados es algo más complejo que el del ensayo clínico convencional.

Básicamente y sin entrar en detalles, existen dos métodos de análisis de resultados. El más sencillo es el análisis no ajustado, en el que todas las intervenciones, incluso aunque pertenezcan al mismo participante, son tratadas de forma independiente. Este modelo, que se suele expresar mediante un modelo de regresión lineal, no tiene en cuenta el efecto que los participantes puedan tener sobre los resultados.

El otro método es el ajustado por el efecto de los pacientes, que sí tiene en cuenta la correlación existente entre observaciones de los mismos participantes.

Y aquí lo dejamos por hoy. No hemos hablado nada del tratamiento matemático del método ajustado para no quemar las neuronas de los lectores. Baste decir que existen varios modelos que tienen que ver con el uso de modelos lineales generalizados y modelos de efectos mixtos. Pero esa es otra historia…

La escopeta de feria

image_pdf

Hace unos días estuve con mi primo en las fiestas de nuestro barrio y, para entretenernos un rato, estuvimos disparando unos perdigones en una de las casetas, a ver si conseguíamos llevarnos el osito de peluche.

Pero, nada, ni por casualidad.

Yo disparé un montón de veces, pero no metí ni un perdigón en la diana. Todos quedaron alrededor, pero ni uno solo en el centro. Mi primo, sin embargo, es un tirador de primera. El problema es que le dieron una escopeta con la mira torcida, así que le salieron todos los perdigones desviados y tampoco metió ninguno dentro de la diana. En resumen, nos quedamos sin peluche. En la figura que os adjunto podéis ver el destrozo de disparos que hicimos los dos.error sistematico y aleatorio

De todas formas y para sacar provecho de esta situación, mirando las dianas se me ocurre que guardan algún parecido con los dos tipos de error que podemos tener en nuestros estudios epidemiológicos.

Estos son, en sentido general, dos: el error aleatorio y el error sistemático.

El error aleatorio se debe a nuestro amigo el azar, del que no hay manera de librarse. Puede tener dos causas fundamentales. La primera, el error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas.

La otra fuente de error aleatorio es la propia variabilidad en la medición. Si nos tomamos la presión arterial varias veces, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos.

Este error aleatorio se relacionará con la precisión del resultado. Una medida será tanto más precisa cuanto menor sea el componente aleatorio, por lo que puede aumentarse la precisión aumentando el tamaño de la muestra o siendo más cuidadoso con las mediciones.

En nuestro ejemplo del tiro, yo representaría el error aleatorio. Se me desvían los tiros al azar, de modo que por la nube de impactos puede uno imaginarse por donde está la diana, pero ningún disparo la alcanza. Lógicamente, cuantos más disparos haga, más probabilidad habrá de dar en el centro, aunque sea por azar.

El segundo error que mencionamos es el error sistemático, también llamado sesgo. Este se debe a un error en el diseño o en el análisis del estudio, que produce una estimación incorrecta o no válida del efecto que estamos estudiando. En nuestro ejemplo, como ya habréis adivinado, mi primo representa el error sistemático. El tira muy bien, pero como la escopeta está mal calibrada, los tiros dan fuera de la diana, desviándose todos sistemáticamente en una misma dirección. Viendo solo los tiros no podemos imaginar donde está el centro, como veíamos con mis disparos en mi diana, porque pensaríamos que el centro está en una localización que, en realidad, no le corresponde. Así, el error aleatorio afecta a la precisión, mientras que el sistemático compromete la validez de los resultados. Y otra cosa, por más que mi primo aumente el número de disparos, le seguirán saliendo torcidos. El error sistemático no disminuye porque aumentemos el tamaño de la muestra.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de los tipos de errores sistemáticos, que hay varios. Se pueden dividir en sesgos de selección, de información y de análisis que, a su vez, pueden dividirse en otros muchos. Pero esa es otra historia…

Juntos, pero no revueltos

image_pdf

Los estudios observacionales son aquellos en los que, como su propio nombre indica, el investigador se limita a observar lo que pasa. Bueno, a observar y a analizar, pero no tiene ningún papel activo sobre la exposición o intervención en estudio. Dentro de estos estudios observacionales, todos conocemos los estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Por su parte en un estudio de casos y controles, se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y actúa como control.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso.

Vamos a empezar con el de casos y controles anidados. Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte).

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Y aquí vamos a dejarlo por hoy. Para resumir un poco, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudio convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte). Pero esa es otra historia…

Las generalizaciones son peligrosas

image_pdf

A todos nos gusta generalizar y a los estadísticos y epidemiólogos más que a nadie. A fin de cuentas, uno de los propósitos principales de estas dos ciencias es sacar conclusiones de una población inaccesible a partir de los resultados obtenidos en una muestra más pequeña y, por tanto, más manejable.

Por ejemplo, cuando hacemos un estudio sobre el efecto de un factor de riesgo sobre una determinada enfermedad, normalmente lo hacemos con un pequeño número de casos, que es nuestra muestra, pero para sacar conclusiones que podamos extrapolar a toda la población. Claro que, para poder hacerlo, necesitamos que la muestra sea la adecuada  y sea representativa de la población en la que queremos generalizar los resultados. Vamos a ver con un ejemplo qué pasa cuando esta premisa no se cumple.

Berkson1Supongamos que queremos estudiar si los sujetos afectos de neumonía tienen más riesgo de tener hipertensión arterial. Si vamos a lo más fácil, podemos usar nuestra base de datos de ingresos hospitalarios y obtener nuestra muestra de estudio tal como observamos en la primera tabla. Vemos que nuestra muestra engloba 135 pacientes que han requerido ingreso, 19 de los cuales tuvieron neumonía y cuatro, además hipertensión. Por otra parte, también podemos ver el número de hipertensos que es de 10, cuatro con neumonía y seis sin ella.

En primer lugar, vamos a ver si hay asociación entre las dos variables. Para ello podemos hacer un test de la chi-cuadrado bajo la hipótesis nula de no asociación. Yo he usado el programa R para calcularlo. Primero construyo la tabla con el siguiente comando:

Ingreso <- matrix(c(4,6,15,110), ncol=2)

y luego calculo la chi aplicando la corrección de Yates (hay una celda con valor menor de cinco):

chisq.test(Ingreso, correct=T)

Obtengo así un valor de chi = 3,91, que para un grado de libertad corresponde a una p=0,04. Como es menor de 0,05, rechazo la hipótesis nula de no asociación y concluyo que sí hay asociación entre las dos variables.

Ahora, para calcular la fuerza de la asociación calculo su odds ratio, utilizando para ello cualquiera de las calculadoras de epidemiología disponibles en Internet. La odds ratio es de 4,89, con un intervalo de confianza del 95% de 1,24 a 19,34. Concluimos así que los pacientes con neumonía tienen casi cinco veces más riesgo de tener hipertensión.

Y hasta aquí todo va bien. El problema surgiría si caemos en la tentación de generalizar el resultado a la población general. Y esto es así porque la odds ratio mide la fuerza de la asociación entre dos variables siempre que la muestra se haya obtenido de forma aleatoria, lo que no es nuestro caso. Veamos qué pasa si repetimos el experimento con una muestra más grande obtenida, no de nuestro registro hospitalario, sino de la población general (donde están incluidos los participantes en el primer experimento).

berkson2Obtenemos así la segunda tabla de contingencia, que engloba 2591 pacientes, 211 de los cuales son hipertensos. Siguiendo el mismo procedimiento del primer experimento, calculamos primero la chi-cuadrado, que, en este caso, tiene un valor de 1,86, al que le corresponde una p=0,17. Al ser mayor de 0,05 no podemos rechazar la hipótesis nula, luego tenemos que concluir que no hay asociación entre las dos variables.

Ya no tiene mucho sentido calcular la odds ratio, pero si lo hacemos veremos que vale 0,96, con un intervalo de confianza del 95% de 0,73 a 1,21. Como incluye el valor  uno, la odds ratio tampoco es significativa.

¿Por qué ocurre esta diferencia entre los dos resultados?.  Esto ocurre porque los riesgos de hospitalización son diferentes entre los distintos grupos. De los 100 individuos que tienen neumonía (segunda tabla), cuatro precisan ingreso (primera tabla), luego el riesgo es de 4/10 = 0,4. El riesgo entre los que tienen solo hipertensión es de 6/111 = 0,05, y el de los que no tienen ninguna enfermedad es de 110/1230 = 0,09.

De esta forma, vemos que los pacientes con neumonía tienen más riesgo que el resto de ser hospitalizados.  Si cometemos el error de incluir solo pacientes hospitalizados, nuestros resultados estarán sesgados respecto a la población general, observando así una asociación que, en realidad, no existe. Este tipo de asociación espuria entre variables que se produce por una elección incorrecta de la muestra se conoce con el nombre de falacia de Berkson.

Y aquí lo dejamos. Vemos que el modo de elegir la muestra es de importancia capital a la hora de generalizar los resultados de un estudio. Es lo que suele ocurrir con los ensayos clínicos con criterios de inclusión muy estrictos, que es difícil generalizar sus resultados. Por eso hay autores que prefieren realizar ensayos clínicos pragmáticos, más pegados a la realidad cotidiana y mucho más generalizables. Pero esa es otra historia…

No te dejes llevar por los extremos

image_pdf

Ya vimos en una entrada anterior que los valores extremos de una distribución, los llamados outliers, pueden sesgar las estimaciones de los estadísticos que calculamos en nuestra muestra.

Un ejemplo típico es el de la media aritmética, que se desplaza en la dirección de los valores extremos, si los hay, tanto más cuanto más extremos sean los valores. Vimos que, para evitar este inconveniente, existían una serie de familiares de la media aritmética que se consideraban robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de outliers. De todos estos, el más conocido es la mediana, aunque existen algunos más, como la media recortada, la winsorizada, la ponderada, la geométrica, etc.

Pues bien, algo parecido a lo que le pasa a la media ocurre también con la desviación típica, el estadístico de escala o dispersión utilizado con más frecuencia. La desviación típica o estándar también se ve sesgada por la presencia de valores extremos, obteniendo valores que son poco representativos de la dispersión real de la distribución.

Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos de la media. Supongamos que medimos los valores de colesterol sérico en un grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166, 143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426, 163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435 mg/dl) que nos sesgarán los estadísticos habituales que son la media y la desviación típica. En nuestro caso, podemos calcular la desviación típica y ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación de la mayoría de los valores respecto a cualquiera de las medidas de centralización robustas que podamos elegir.

¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores robustos de la desviación, que hay varios. Algunos de ellos surgen a partir de los estimadores robustos de la media. Veamos algunos.

El primero, que surge a partir de la mediana, es la desviación absoluta mediana (DAM). Si recordáis, la desviación típica es la suma de las diferencias de cada valor con la media, elevadas al cuadrado, y dividida por el número de elementos, n (o por n-1 si lo que queremos es obtener un estimador no sesgado de la desviación típica poblacional). Pues bien, de modo similar, podemos calcular la mediana de las desviaciones absolutas de cada valor con la mediana de la muestra, según la siguiente fórmula

DAM = Mediana {|Xi – Me|}, para i=1 hasta n.

Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl, bastante más ajustado que la desviación típica clásica.

El segundo se calcula a partir de la media recortada. Esta, como su nombre indica, se calcula recortando un determinado porcentaje de la distribución, por sus extremos (la distribución tiene que estar ordenada de menor a mayor). Por ejemplo para calcular la media recortada al 20% de nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los restantes. Pues bien, podemos calcular la desviación de la forma clásica con los elementos recortados, obteniendo el valor de 10,5 mg/dl.

Por último, en tercer lugar podríamos hacerlo siguiendo el razonamiento que se utiliza para calcular la media winsorizada. En este caso, en vez de eliminar los valores, los sustituiríamos por los valores más próximos sin eliminar. Una vez winsorizada la distribución, calculamos la desviación típica con los nuevos valores de la forma habitual. Su valor es de 9,3 mg/dl, similar a la anterior.

¿Cuál utilizamos de las tres?. Pues nos interesa utilizar una que se comporte de forma eficiente cuando la distribución sea normal (en estos casos la mejor es la desviación típica clásica) pero que no sea muy sensible cuando la distribución se aparte de la normal. En este sentido, la mejor es la desviación absoluta mediana, seguida de la desviación típica winsorizada muestral.

Un último consejo antes de finalizar. No os pongáis a calcular estas medidas a mano, ya que puede resultar muy laborioso, Los programas de estadística hacen los cálculos por nosotros sin el menor esfuerzo.

Y aquí terminamos. No hemos hablado nada de otros estimadores de la familia de los M-estimadores, como la varianza media biponderada o la varianza media de porcentaje ajustado. Estas medias son mucho más difíciles de comprender desde el punto de vista matemático, aunque son muy fáciles de calcular con el paquete informático adecuado. Pero esa es otra historia…