Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado porAgosto 2013
image_pdf

A bulto

En el mundo de la ciencia en general, y de la medicina en particular, estamos habituados a hacer todo de forma muy precisa y detallada. ¿Quién no ha pautado alguna vez 123,5 mg de amoxicilina cada ocho horas?. Sin embargo, las cosas pueden hacerse también a bulto y sin hacer ninguna chapuza. Claro que el bulto tiene que seguir unas reglas determinadas. Veamos un ejemplo.

Supongamos que queremos saber si nuestro sistema educativo es tan bueno como debería. Tomamos una clase de veinte alumnos de primer año de secundaria y les pasamos dos exámenes facilitos, uno sobre ciencias naturales y otro sobre literaura. Las notas podéis verlas en la tabla adjunta.

 notas_a bulto

Si os molestáis en calcularlo, los alumnos sacan en ciencias una media de 6,8 puntos con una desviación estándar (DS) de 1,6. Por su parte, en literatura sacan una media de 6,4 con una DS de 1,7. Parece, pues, que nuestros alumnos están mejor preparados en ciencias naturales que en sociales. La pregunta es inmediata: ¿esto puede extrapolarse a todos los alumnos de nuestro sistema educativo?.

Para saberlo solo tenemos que hacer una prueba de la t de Student, suponiendo que la distribución de las notas se ajuste a una normal, lo cual parece razonable. Podríamos pedírselo a un programa de estadística o hacerlo nosotros calculando la diferencia de medias y el error estándar de la diferencia para obtener la t y ver su probabilidad, para así saber si podemos aceptar o rechazar nuestra hipótesis nula, que en este caso es que la diferencia observada se debe al azar y los conocimientos de nuestros chicos son similares en ambas asignaturas.

Pero hemos dicho que lo íbamos a hacer a bulto, de forma mucho más simple. Si os fijáis, la mayor parte de los alumnos (quince) tienen mejor nota en ciencias, mientras que solo cinco (los números 4, 8, 14, 17 y 20) tienen mejor nota en literatura. Pensemos ahora un poco.

Si la hipótesis nula de que los conocimientos de las dos asignaturas son similares fuese cierta, la probabilidad de tener mayor nota en cualquiera de las dos sería del 50% (0,5). Quiere decir que diez alumnos tendrían mejor nota en ciencias y diez en literatura. Así que nos preguntamos: ¿cuál es la probabilidad de que la diferencia observada (quince en lugar de diez) se deba al azar?.

Y esto, señoras y señores, es un típico caso de probabilidad binominal, donde n=20, p=0,5 y k>14 (siendo n el total de alumnos, p la probabilidad de tener más nota en ciencias y k el número de alumnos con más nota en ciencias). Podemos resolver la ecuación según la fórmula de la probabilidad binomial o utilizar una de las calculadoras disponibles en Internet para llegar a la conclusión de que la probabilidad de que quince saquen más nota en ciencias por azar es del 2,07%. Por tanto, al ser menor del 5%, rechazamos nuestra hipótesis nula y concluimos que a nuestros alumnos se les dan mejor las ciencias, siempre, claro está, con una probabilidad de error de tipo 1 del 2,07%.

Esta prueba que acabamos de ver tiene el bonito nombre de prueba de los signos, y es una de las muchas pruebas no paramétricas que pueden utilizarse para realizar inferencia estadística. Como habéis visto, no tiene en cuenta ni el valor de los parámetros (por algo se llama no paramétrica) ni la magnitud de las diferencias, pero tampoco necesita que los datos sigan una distribución normal ni que la muestra sea muy grande.

Por eso suelen utilizarse las pruebas no paramétricas cuando no puede asumirse normalidad o cuando la muestra es pequeña, pero podríamos usarlas en cualquier situación. ¿Y por qué no se usan siempre?. Pues fundamentalmente porque son más exigentes que las pruebas paramétricas y precisan que la magnitud del efecto sea mayor para poder rechazar la hipótesis nula.

Y con esto terminamos esta entrada. No penséis que todas las pruebas no paramétricas son igual de sencillas. Aquí os he contado la prueba de los signos, pero el equivalente no paramétrico de la comparación de medias es la prueba de Wilcoxon, que ordena las diferencias entre los datos pareados de mayor a menor, por lo que se llama también prueba de los rangos. Pero esa es otra historia…

…Ni están todos los que son

Supongo que conocéis esta frase. Habitualmente se usa para dar a entender que alguien no anda muy en sus cabales por algo que haya dicho. Ya sabéis también que la frase pertenece a un refrán más largo que dice que “ni son todos los que están, ni están todos los que son”, que suele referirse a los manicomios. Según el refrán, ni todos los que están ingresados en un manicomio están locos, ni todos los que estamos fuera estamos cuerdos. Yo, personalmente, no puedo decir nada de la primera mitad, ya que nunca he estado ingresado en uno de ellos, aunque siempre se está a tiempo. En cuanto a la segunda mitad, es evidente que es cierta. Yo me atrevería a decir que hay incluso más locos fuera que dentro.

Pero hoy no vamos a hablar de locos, sino de otros que tampoco están. Pero estos no están no por no ser nada, sino simplemente por faltar. Son los datos faltantes, mundialmente conocidos como missing, por aquello del dominio de la lengua inglesa en el mundo de la ciencia.

La ausencia de datos es muy frecuente en cualquier estudio de investigación. No hay encuesta o base de datos de cualquier estudio en el que no haya casillas vacías, a veces incluso de datos con gran interés para el investigador. Las causas para que falten datos pueden ser múltiples. A veces, los encuestados no responden por falta de tiempo o de interés. A veces responden, pero contestan algo sin sentido o el investigador se equivoca al codificar la respuesta. Otras veces están relacionadas con las pérdidas durante el seguimiento que se producen en muchos estudios, o con faltas de cumplimiento de los tratamientos de los ensayos.

Hay varias formas de reaccionar ante la pérdida de datos, pero cuál elegir depende en gran parte de los mecanismos que producen esta ausencia de datos. En este sentido, los datos pueden perderse al azar (DPA), perderse de forma no aleatoria (DPNA) y de forma completamente aleatoria (DPCA).

Las ausencias de DPA pueden estar relacionadas con una determinada variable, pero no con el valor que tenga. Por ejemplo, si valoramos el efecto teratogénico de un fármaco, el valor de la variable dependerá de la variable “embarazo previo” o de la variable “indicación del fármaco”, que pueden también faltar del registro. Otro ejemplo es la omisión u olvido accidental a la hora de contestar una de las preguntas de la encuesta. Por otro lado, los DPCA no están relacionados con ninguna de las variables medidas ni con los factores conocidos o desconocidos que puedan influir en la variable. Como su nombre indica, las pérdidas ocurren totalmente al azar, pero esto es algo que ocurre pocas veces. Asumir que las pérdidas son totalmente aleatorias es difícil de probar, porque siempre pueden ser debidas a una variable en la que no se haya pensado y que tenga un efecto desconocido sobre la variable de resultado.

Por último, los DPNA responden a una causa determinada que habitualmente no hemos observado. Por ejemplo, si los participantes de un ensayo faltan a una visita intermedia por olvido, la ausencia de datos en esa visita puede ser aleatoria. Pero si faltan porque en esa visita se encuentran fatal por un efecto de la intervención, los datos faltantes no podrán ser considerados aleatorios.

Los DPA y los DPCA pueden ser ignorados, aunque siempre con cierto riesgo de sesgo. Sin embargo, nunca deben ignorarse los DPNA. Hacerlo nos llevará siempre a la obtención de estimaciones sesgadas, comprometiendo la validez interna y externa de los resultados.

¿Y qué podemos hacer con los datos ausentes?. Lo ideal, claro está, es que no nos falten datos, para lo cual deberemos ser cuidadosos al diseñar el estudio, en especial las fases de recolección de datos. Pero, por muy cuidadosos que seamos, será raro que no tengamos datos faltantes. En este caso podemos hacer dos cosas: ignorarlos o inventarlos.

Podemos ignorarlos y hacer un análisis de los datos completos. El problema es que siempre perdemos la información de los participantes con algún datos ausente, además de correr el riesgo de cometer algún sesgo. Y ya hemos dicho que esta práctica está totalmente desaconsejada en el caso de DPNA. En estos casos, las pérdidas deben analizarse y tratar de explicarlas.

La otra posibilidad es inventarlos, pero como esto suena muy mal, usamos la palabra imputarlos. Hay diversas técnicas de imputación de datos, las simples y las múltiples.

Entre las técnicas de imputación simple están el método de medias no condicionadas, el método de medias condicionadas para datos agrupados, la imputación con variables ficticias, la imputación mediante una distribución no condicionada (el hot deck de los ingleses), la imputación del valor vecino más próximo (cold deck) y la imputación por regresión.

La mayor parte de los investigadores suelen preferir los métodos de imputación múltiple, asegurándose previamente de que las pérdidas sean aleatorias, lo que, en ocasiones, puede ser complicado, como ya hemos mencionado previamente. Estos métodos utilizan una simulación de Monte Carlo y sustituyen los datos faltantes por otros obtenidos a partir de un número de simulaciones, que se suele considerar óptimo entre 3 y 10. La matemática es compleja, pero la mayor parte de las aplicaciones informáticas estadísticas implementa algún método de imputación de datos.

Es difícil decidir cuándo utilizar un método de imputación simple o uno múltiple. En general, si tratamos con una encuesta compleja y el número de datos faltantes no es muy alto, es probable que un método simple reproduzca bien las características de esta subpoblación de interés en la que faltan los datos. Sin embargo, no nos dejemos  tentar por lo más fácil: los métodos de imputación múltiple suelen ser más adecuados para este fin que los simples.

Para terminar con los datos faltantes deciros que hay alguna opción más aparte de obviarlos o inventarlos. Por ejemplo, con variables continuas pueden utilizarse modelos lineales de mediciones repetidas para analizar los resultados a lo largo del seguimiento. Para las variables categóricas existen también otras técnicas estadísticas más complejas, como los modelos de ecuaciones de estimaciones generalizadas o los modelos lineales mixtos de efectos aleatorios generalizados. Pero esa es otra historia…

Hazlo con sensibilidad

Hacer las cosas con sensibilidad suele ser garantía de buenos resultados. Pero seguro que no habíais pensado que esto también se aplica en la ciencia: cuando utilizamos el método científico, para garantizar la validez de nuestros resultados tenemos que analizarlos con sensibilidad. Bueno, en realidad tenemos que hacer un análisis de sensibilidad.

Resulta que en los estudios en biomedicina se asumen en ocasiones ciertos supuestos a la hora de realizarlos y estos supuestos, que suelen concernir a los métodos de análisis o a los modelos empleados, pueden influir en los resultados que obtenemos. Siempre que nos podamos preguntar si los resultados cambiarían si cambiásemos alguna de las definiciones del estudio, o el método de análisis, o el modo de tratar los datos faltantes o el cumplimiento o violaciones del protocolo de estudio, la validez de nuestros resultados puede verse comprometida. Para defendernos de esto podemos hacer un análisis de sensibilidad y si los resultados siguen siendo los mismos, podremos decir que nuestras conclusiones son robustas.

Un análisis de sensibilidad es, por tanto, el método que usamos para determinar la robustez de una valoración examinando en qué grado los resultados se influyen por cambios en la metodología o en los modelos utilizados en el estudio.

Así que, siempre que nuestros resultados se basen en suposiciones que puedan influir en su impacto, estaremos obligados a hacer un análisis de sensibilidad, cuya metodología dependerá de cada escenario clínico concreto.

Un ejemplo puede ser la presencia de datos extremos (outliers para nuestros amigos ingleses), que pueden sesgar la media de una muestra y alterar las estimaciones que se hacen a partir de ella. Lo más sencillo es ver si existen mediante un diagrama de cajas (boxplot) y, en caso afirmativo, hacer el análisis con y sin los valores extremos para ver cómo cambian los resultados.

Otras veces existe falta de cumplimiento de la intervención o violaciones del protocolo de estudio que pueden diluir el efecto de la intervención. Podremos, en estos casos, realizar un análisis por intención de tratar y un análisis por protocolo y estudiar si existen diferencias.

En otras ocasiones la definición de las variables de resultado puede ser arbitraria, por lo que puede ser útil estudiar las conclusiones que se obtienen aplicando otros puntos de corte.

Si el muestreo se realiza en bloques, como ocurre con los estudios multicéntricos, tendremos que comparar los resultados haciendo el análisis global y el análisis por bloques, con y sin ajustar por la pertenencia de cada participante a cada bloque, ya que la homogeneidad de los datos dentro de cada bloque puede ser diferente.

Un caso curioso es el de los riesgos competitivos. Por ejemplo, si valoramos como variables de resultado infarto, angina y muerte, esta última evita la posibilidad de que vuelvan a ocurrir las dos primeras, con lo cual el análisis de supervivencia puede verse interferido. Para evitar esto hay métodos de análisis utilizando las curvas de Kaplan-Meier censurando las ocurrencias de las variables competitivas. En cualquier caso, el análisis de sensibilidad debe hacer un ajuste por el factor de riesgo competitivo.

Parecido ocurre cuando existen diferencias en las características basales de las poblaciones de control y de intervención. En estos casos, el análisis simple debe completarse con un análisis que ajuste por estas diferencias, habitualmente utilizando un modelo de regresión multivariante.

Y, para acabar, dos problemas un poco espinosos respecto al análisis estadístico. El primero se refiere al tipo de distribución de frecuencias que empleamos para el análisis. Suele asumirse que las variables continuas siguen una distribución normal, las discretas una de Poisson y las binarias una binomial. Habitualmente se comprueba que los datos se ajustan a estas distribuciones pero, si queremos tener más seguridad acerca de su validez, podemos probar los resultados asumiendo distribuciones diferentes, como la t de Student para la normal o la binomial negativa para la de Poisson.

El segundo sería el problema con los datos que faltan (los missing). En este caso tenemos dos opciones: hacer el análisis solo con los datos completos o suponer (imputar dicen los que saben de esto) los valores que faltan para incluirlos todos en el análisis. Con ambas posibilidades corremos riesgo de sesgos, dependiendo en gran parte de qué condiciona que falten los datos y de si los datos que se pierden son al azar o no. Habitualmente se hace el análisis completo y el análisis con imputación de datos y se estudian las diferencias en los resultados obtenidos.

Y esto es, a grandes rasgos, lo que es un análisis de sensibilidad. Hemos pasado muy por encima el asunto de la imputación de datos, que da para escribir un libro de los gordos. Y es que, aunque lo ideal es tratar de prevenir que nos falten datos, cuando esto ocurre tenemos un montón de formas de inventárnoslos. Pero esa es otra historia…

Libertad en grados

La libertad es uno de esos conceptos que todo el mundo entiende con facilidad pero que es tremendamente difícil definir. Si no me creéis, intentad enunciar una definición de libertad y veréis que no es tan fácil. En seguida entraremos en conflicto con la libertad de los demás cuando tratemos de definir la nuestra, o nos preguntaremos a qué tipo de libertad nos estamos refiriendo en nuestra definición.

Sin embargo, a los grados de libertad les ocurre justamente lo contrario. Son bastante más fáciles de definir, pero muchos tienen problemas para entender el significado exacto de este concepto, aparentemente tan abstracto.

El número de grados de libertad se refiere al número de observaciones de una muestra que pueden tomar cualquier valor posible (que son “libres” de tomar cualquier valor) una vez que se ha calculado previamente y de forma independiente la estimación de un determinado parámetro en la muestra o en la población de origen. ¿Comprendéis ahora por qué os digo que es fácil de definir pero no tanto de entender?. Vamos a ver un ejemplo para intentar aclararnos un poco.

En un alarde de imaginación delirante, vamos a suponer que somos maestros de escuela. El director del colegio nos dice que hay un concurso entre los colegios de la zona y que tenemos que seleccionar cinco alumnos para representar a nuestra clase. La única condición es que la calificación media final de los cinco alumnos tiene que ser de siete. Supongamos también que da la casualidad de que nuestro hijo mayor, que tiene uno ocho, está en la clase. Actuando con imparcialidad le elegimos para representar a sus compañeros. Nos quedan cuatro así que, por qué no seguir con nuestro sentido de la justicia y escoger a sus cuatro amigos. Su amigo Felipe tiene 9, Juan 6, Luis 5 (aprueba por los pelos) y Evaristo un 10 (el muy empollón). ¿Cuál es el problema? Pues que la media de los cinco es 7,6 y nos piden que sea de 7. ¿Qué podemos hacer?.

Supongamos que quitamos a Luis, que para eso es el que tiene peores notas. Tendremos que escoger a un alumno con una nota de 2 para que la media sea de 7. Pero no podemos llevar a un alumno que haya suspendido. Pues quitamos al empollón de Evaristo, pero entonces necesitaremos buscar un alumno con un 7. Si lo pensáis, podemos hacer todas las combinaciones con los cinco amigos, pero siempre eligiendo solo a cuatro, ya que el quinto sería obligado por el valor de la media de los cinco que hemos predeterminado. Pues esto quiere decir, ni más ni menos, que tenemos cuatro grados de libertad.

Cuando realizamos una inferencia estadística sobre una población, si queremos que los resultados sean fiables debemos hacer cada estimación de forma independiente. Por ejemplo, si calculamos la media y la desviación típica deberíamos hacerlo de forma independiente, pero lo habitual es que esto no sea así, ya que para calcular la desviación necesitamos previamente una estimación de la media. Así, no todas las estimaciones pueden considerarse libres e independientes de la media. Al menos una de ellas estará condicionada por el valor previo de la media.

Así que ya vemos que el número de grados de libertad nos está indicando el número de observaciones independientes que están implicadas en la estimación de un parámetro de la población.

Esto tiene su importancia porque los estimadores siguen distribuciones de frecuencias específicas cuya forma depende del número de grados de libertad asociados con su estimación. Cuanto mayor sea el número de grados de libertad, más estrecha será la distribución de frecuencias y mayor será la potencia del estudio para realizar la estimación. De esta manera, potencia y grados de libertad se relacionan positivamente con el tamaño de la muestra, de tal forma que cuanto mayor sea el tamaño de la muestra mayor será el número de grados de libertad y, por tanto, mayor será la potencia.

Calcular el número de grados de libertad de una prueba suele ser sencillo, pero es diferente según la prueba en cuestión. El caso más sencillo sería el del cálculo de la media de una muestra, que ya vimos que es igual a n-1, siendo n el tamaño muestral. De forma parecida, cuando hay dos muestras y dos medias, el número de grados de libertad es de n1+n2-2. En general, cuando se calculan varios parámetros, los grados de libertad se calculan como n-p-1, siendo p el número de parámetros a estimar. Esto es útil cuando hacemos un análisis de la varianza para comparar dos o más medias.

Y así podríamos dar ejemplos para el cálculo de cada prueba o estadístico en particular que queramos llevar a cabo. Pero esa es otra historia…