Yo he venido aquí a hablar de mi libro

Print Friendly, PDF & Email

No hace todavía tres meses que se han cumplido 27 años de uno de los momentos más antológicos de toda la historia de la televisión en nuestro país. A finales de marzo de 1993, el escritor Francisco Umbral fue invitado a participar en un programa de televisión presentado y conducido por Mercedes Milá que, al parecer, le había convencido para que asistiese con el gancho de hablar del último libro que acababa de publicar.

El problema es que el pobre Umbral se encontró en una mesa con dos contertulios más que, siguiendo el hilo del programa, hablaban de todo menos de su libro, con la aparente complicidad de la presentadora y la cooperación entusiasta del público del plató.

Y pasó lo que tenía que pasar. El tiempo corría, el programa se iba a acabar y allí no se hablaba del libro, así que Umbral, demostrando otras cualidades menos conocidas que su genialidad como novelista y periodista, estalló exigiendo que se hablase de su libro, que para eso le habían llevado a la tele, pronunciando repetidamente la frase que ha quedado para siempre en el acervo cultural español: “Yo he venido aquí a hablar de mi libro”.

Los habituales del blog estáis acostumbrados a ver que las entradas suelen comenzar con algún desvarío de mi imaginación que acaba dando paso al verdadero tema del día, que nada tiene que ver con lo que se hablaba al comienzo de la entrada, así que ya os estaréis preguntando de qué irá la entrada de hoy.

Pero hoy os vais a llevar una sorpresa. No hay tema sobre medicina basada en la evidencia. Porque hoy, yo he venido aquí a hablar de mi libro.

El blog “Ciencia sin seso… locura doble” nace el 26 de julio de 2012, con el ambicioso propósito de enseñar temas de metodología de investigación y de medicina basada en la evidencia de forma que parezcan fáciles y hasta divertidos. Desde entonces se han publicado cerca de 160 entradas en dos idiomas (en castellano y en algo que se quiere parecer a la lengua del Bardo de Avon) y ha ido creciendo en audiencia y en diversidad de temas, aunque el hito más importante desde el punto de vista de su difusión y prestigio fue la inclusión en el portal AnestesiaR en mayo de 2014.

Ya era hora, pues, de darle cuerpo al menos a parte de los contenidos para que formasen un conjunto coherente y homogéneo. Y así es como nace “El ovillo y la espada”, el libro del que he venido a hablar hoy aquí.

Ya podéis ver que sigo con mi manía de darle un título que nada tiene que ver con el contenido de la obra. En realidad, “El ovillo y la espada” es un “Manual de lectura crítica de documentos científicos”, compuesto por una selección de entradas del blog que, agrupadas, pretenden proporcionar al lector los conocimientos necesarios para poder enfrentarse a la lectura crítica de los artículos a los que tenemos que recurrir a diario en nuestro ejercicio profesional.

El manual se compone de una serie de bloques en los que se tratan los pasos habituales que componen la sistemática de la medicina basada en la evidencia: la generación de la pregunta clínica estructurada ante una laguna de conocimiento, la búsqueda bibliográfica, las características de los diseños epidemiológicos más habituales y las normas para la lectura crítica de los trabajos basados en estos diseños.

Para ir acabando, solo me queda dar las gracias a mis compañeros y amigos del Comité de Pediatría Basado en la Evidencia de la AEP-AEPap y de AnestesiaR. Con los primeros he aprendido todo lo que sé de estos temas (no creáis que es mucho solo porque escriba un libro) y gracias a los segundos el blog ha alcanzado una difusión que estaba fuera de mis posibilidades, además de hacer realidad el proyecto que os estoy presentando hoy. Mi libro, por si alguien no se ha enterado todavía.

Y con esto nos vamos. Espero que os animéis a leer mi criatura y que os sea de gran utilidad. Llegamos al final de esta entrada sin explicar qué son eso de los ovillos y las espadas del título del manual. Os diré que tiene algo que ver con un tal Teseo. Pero esa es otra historia…

La distancia más corta

Print Friendly, PDF & Email

El método de los mínimos cuadrados

El otro día estaba intentando medir la distancia entre Madrid y Nueva York en Google Earth y me encontré con algo inesperado: cuando intentaba trazar una línea recta entre las dos ciudades, esta se torcía y formaba un arco, y no había forma de evitarlo.

Me quedé pensando si no sería verdad aquello que dijo Euclides de que la línea recta es el camino más corto entre dos puntos. Claro que, en seguida, me di cuenta de dónde estaba el error: Euclides pensaba en la distancia entre dos puntos situados en un plano y yo estaba dibujando la distancia mínima entre dos puntos situados en una esfera. Evidentemente, en este caso la distancia más corta no la marca una recta, sino un arco, tal como Google me mostraba.

Y como una cosa lleva a la otra, esto me llevó a pensar en qué pasaría si en vez de dos puntos hubiese muchos más. Esto tiene que ver, como algunos ya imagináis, con la recta de regresión que se calcula para ajustarse a una nube de puntos. Aquí, como es fácil comprender, la recta no puede pasar por todos los puntos sin perder su rectitud, así que los estadísticos idearon una forma para calcular la recta que más se aproxime en promedio a todos los puntos. El método que más utilizan es el que llaman método de los mínimos cuadrados, cuyo nombre hace presagiar algo extraño y esotérico. Sin embargo, el razonamiento para calcularlo es mucho más sencillo y, por ello, no menos ingenioso. Veámoslo.

El método de los mínimos cuadrados

El modelo de regresión lineal posibilita, una vez establecida una relación lineal, efectuar predicciones sobre el valor de una variable Y sabiendo los valores de un conjunto de variables X1, X2,… Xn. A la variable Y la llamamos dependiente, aunque también se la conoce como variable objetivo, endógena, criterio o explicada. Por su parte, las variables X son las variables independientes, conocidas también como predictoras, explicativas, exógenas o regresoras.

Cuando hay varias variables independientes nos encontramos ante un modelo de regresión lineal múltiple, mientras que cuando hay solo una hablaremos de la regresión lineal simple. Por hacerlo más sencillo, nos centraremos, cómo no, en la regresión simple, aunque el razonamiento vale también para la múltiple.

Como ya hemos dicho, la regresión lineal requiere eso, que la relación entre las dos variables sea lineal, así que puede representarse mediante la siguiente ecuación de una línea recta:

Recta de regresión

Aquí nos encontramos con dos amigos nuevos acompañando a nuestras variables dependiente e independiente: son los coeficientes del modelo de regresión. β0 representa la constante del modelo (también llamada intercepto) y es el punto donde la recta corta el eje de ordenadas (el de las Y, para entendernos bien). Representaría el valor teórico de la variable Y cuando la variable X vale cero.

Por su parte, β1 representa la pendiente (inclinación) de la recta de regresión. Este coeficiente nos dice el incremento de unidades de la variable Y que se produce por cada incremento de una unidad de la variable X.

Nos volvemos a encontrar con el azar

Esta sería la recta teórica general del modelo. El problema es que la distribución de valores no se va a ajustar nunca de manera perfecta a ninguna recta así que, cuando vayamos a calcular un valor de Y determinado (yi) a partir de un valor de X (xi) habrá una diferencia entre el valor real de yi y el que obtengamos con la fórmula de la recta. Ya nos hemos vuelto a encontrar con el azar, nuestro compañero inseparable, así que no tendremos más remedio que incluirlo en la ecuación:

Recta de regresión con el componente aleatorio

Aunque parezca una fórmula similar a la anterior, ha sufrido una profunda transformación. Ahora tiene dos componentes bien diferenciados, un componente determinista y otro estocástico (error). El componente determinista lo marcan los dos primeros elementos de la ecuación, mientras que el estocástico lo marca el error en la estimación. Los dos componentes se caracterizan por su variable aleatoria, yi y εi, respectivamente, mientras que xi sería un valor determinado y conocido de la variable X.

Vamos a centrarnos un poco en el valor de εi. Ya hemos dicho que representa la diferencia entre el valor real de yi en nuestra nube de puntos y el que nos proporcionaría la ecuación de la recta (el valor estimado, representado como ŷi). Podemos representarlo matemáticamente de la siguiente forma:

Cálculo del residuo de una estimación

Este valor se conoce con el nombre de residuo y su valor depende del azar, aunque si el modelo no está bien especificado pueden también influir otros factores de manera sistemática, pero eso no nos influye para lo que estamos tratando.

Recapitulemos

Vamos a recapitular lo que tenemos hasta aquí:

  1. Una nube de puntos sobre la que queremos dibujar la recta que mejor se ajuste a la nube.
  2. Un número infinito de rectas posibles, de entre las que queremos seleccionar una concreta.
  3. Un modelo general con dos componentes: uno determinista y otro estocástico. Este segundo va a depender, si el modelo es correcto, del azar.

Los valores de las variables X e Y ya los tenemos en nuestra nube de puntos para la que queremos calcular la recta. Lo que variará en la ecuación de la recta que seleccionemos serán los coeficientes del modelo, β0 y β1. ¿Y qué coeficientes nos interesan? Lógicamente, aquellos con los que el componente aleatorio de la ecuación (el error) sea lo menor posible. Dicho de otra forma, queremos la ecuación con un valor de la suma de residuos lo más bajo posible.

Partiendo de la ecuación anterior de cada residuo, podemos representar la suma de residuos de la forma siguiente, donde n es el número de pares de valores de X e Y de que disponemos:

Sumatorio de residuos

Pero esta fórmula no nos sirve. Si la diferencia entre el valor estimado y el real es aleatoria, unas veces será positiva y otras, negativa. Es más, su media será o estará muy próxima a cero. Por este motivo, como en otras ocasiones en las que lo que interesa es medir la magnitud de la desviación, tenemos que recurrir a un método que impida que los negativos se anulen con los positivos, así que calculamos estas diferencias elevadas al cuadrado, según la fórmula siguiente:

Sumatorio del cuadrado de los residuos

¡Ya lo tenemos!

¡Por fin! Ya sabemos de dónde viene el método de los mínimos cuadrados: buscamos la recta de regresión que nos proporcione un valor lo menor posible de la suma de los cuadrados de los residuos. Para calcular los coeficientes de la recta de regresión solo tendremos que ampliar un poco la ecuación anterior, sustituyendo el valor estimado de Y por los términos de la ecuación de la recta de regresión:

Sumatorio del cuadrado de los residuos

y encontrar los valores de b0 y b1 que minimicen la función. A partir de aquí la cosa es coser y cantar, solo tenemos que igualar a cero las derivadas parciales de la ecuación anterior (tranquilos, vamos a ahorrarnos la jerga matemática dura) para obtener el valor de b1:

Cálculo de la pendiente de la recta

Donde tenemos en el numerador la covarianza de las dos variables y, en el denominador, la varianza de la variable independiente. A partir de aquí, el cálculo de b0 es pan comido:

Cálculo del interceptor

Ya podemos construir nuestra recta que, si os fijáis un poco, pasa por los valores medios de X e Y.

Un ejemplo práctico

Y con esto terminamos la parte ardua de esta entrada. Todo lo que hemos dicho es para poder comprender qué significa lo de los mínimos cuadrados y de dónde viene el asunto, pero no es necesario hacer todo esto para calcular la recta de regresión lineal. Los paquetes estadísticos lo hacen en un abrir y cerra de ojos.

Cálculo del modelo de regresión lineal con RPor ejemplo, en R se calcula mediante la función lm(), iniciales de linear model. Veamos un ejemplo utilizando la base de datos “trees” (circunferencia, volumen y altura de 31 observaciones sobre árboles), calculando la recta de regresión para estimar el volumen de los árboles conociendo su altura:

modelo_reg <- lm(Height~Volume, data = trees)

summary(modelo_reg)

La función lm() devuelve el modelo a la variable que le hemos indicado (modelo_reg, en este caso), que podremos explotar después, por ejemplo, con la función summary(). Esto nos proporcionará una serie de datos, tal como podéis ver en la figura adjunta.

En primer lugar, los cuartiles y la mediana de los residuos. Para que el modelo sea correcto interesa que la mediana esté próxima a cero y que los valores absolutos de los residuos se distribuyan de manera uniforme entre los cuartiles (similar entre máximo y mínimo y entre primer y tercer cuartil).

A continuación, se muestra la estimación puntual de los coeficientes junto con su error estándar, lo que nos permitirá calcular sus intervalos de confianza. Esto se acompaña de los valores del estadístico t con su significación estadística. No lo hemos dicho, pero los coeficientes siguen una distribución de la t de Student con n-2 grados de libertad, lo que nos permite saber si son estadísticamente significativos.

Por último, se proporciona la desviación estándar de los residuos, el cuadrado del coeficiente de correlación múltiple o coeficiente de determinación (la precisión con que la recta representa la relación funcional entre las dos variables; su raíz cuadrada en regresión simple es el coeficiente de correlación de Pearson), su valor ajustado (que será más fiable cuando calculemos modelos de regresión con muestras pequeñas) y el contraste F para validar el modelo (los cocientes de las varianzas siguen una distribución de la F de Snedecor).

Así, nuestra recta de regresión quedaría de la siguiente manera:Representación gráfica de la nube de puntos y la recta de regresión

Altura = 69 + 0,23xVolumen

Ya podríamos calcular qué altura tendría un árbol con un volumen determinado que no estuviese en nuestra muestra (aunque debería estar dentro del rango de datos utilizados para calcular la recta de regresión, ya que es arriesgado hacer predicciones fuera de este intervalo).

Además, con el comando scatterplot(Volume ~ Height, regLine = TRUE, smooth = FALSE, boxplots = FALSE, data = trees), podríamos dibujar la nube de puntos y la recta de regresión, como podéis ver en la segunda figura.

Y podríamos calcular muchos más parámetros relacionados con el modelo de regresión calculado por R, pero lo vamos a dejar aquí por hoy.

Nos vamos…

Antes de terminar, deciros que el método de los mínimos cuadrados no es el único que nos permite calcular la recta de regresión que mejor se ajuste a nuestra nube de puntos. Existe también otro método que es el de la máxima verosimilitud, que da más importancia a la elección de los coeficientes más compatibles con los valores observados. Pero esa es otra historia…

¿Rioja o Ribera?

Print Friendly, PDF & Email

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Un punto débil

Print Friendly, PDF & Email

Hasta los más grandes tienen puntos débiles. Es una realidad que afecta incluso al gran NNT, el número necesario a tratar, sin duda el rey de las medidas de impacto absoluto de la metodología de investigación en los ensayos clínicos.

Claro que eso no es una desgracia irreparable. Únicamente tenemos que ser bien conscientes de sus fortalezas y debilidades para poder aprovechar las primeras y tratar de mitigar y controlar las segundas. Y es que el NNT depende de los riesgos basales de los grupos de intervención y de control, que pueden ser unos compañeros de viaje poco constantes y sujetos a variación por diversos factores.

Como todos sabemos, el NNT es una medida absoluta de efecto que se utiliza para estimar la eficacia o seguridad de una intervención. Este indicador, como si de un buen matrimonio se tratase, es útil en lo bueno y en lo malo, en la salud y en la enfermedad.

Así, en el lado bueno hablamos del NNT, que es el número de pacientes que es necesario tratar para que uno presente un resultado que consideramos bueno. Por otra parte, en el lado oscuro tenemos el número necesario a dañar (NND), que indica a cuántos tenemos que tratar para que uno presente un evento adverso.

En un principio se ideó para describir el efecto de la intervención respecto al grupo control en los ensayos clínicos, aunque posteriormente se extendió su uso para interpretar los resultados de las revisiones sistemáticas y de los metanálisis. Y aquí es donde puede surgir el problema ya que, a veces, se generaliza la forma de calcularlo en los ensayos para los metanálisis, lo cual puede llevarnos a error.

La forma más sencilla de obtener el NNT es calcular el inverso de la reducción absoluta del riesgo entre el grupo de intervención y el de control. El problema es que esta forma es la que es más susceptible de verse sesgada por la presencia de factores que pueden influir en el valor del NNT. Aunque es el rey de las medidas absolutas de impacto, también tiene sus limitaciones, siendo diversos los factores que pueden influir en su magnitud, por no hablar de su significado clínico.

Uno de estos factores es la duración del periodo de seguimiento del estudio. Esta duración puede influir sobre el número de eventos, buenos o malos, que puedan presentar los participantes del estudio, lo que hace que no sea correcto comparar los NNT de estudios con seguimientos de distinta duración.

 Otro puede ser el riesgo basal de presentar el evento. Pensemos que el término “riesgo”, desde el punto de vista estadístico, no implica siempre algo malo. Podemos hablar, por ejemplo, de riesgo de curación. Si el riesgo basal es mayor, se producirán probablemente más eventos y el NNT puede ser menor. También habría que tener en cuenta la variable de resultado utilizada y la alternativa de tratamiento con que comparamos la intervención.

Y, en tercer lugar, por mencionar algunos más de estos factores, pueden influir la dirección y el tamaño del efecto, la escala de medida y la precisión de las estimaciones del NNT, sus intervalos de confianza.

Fórmulas para el cálculo del NNTY aquí surge el problema con las revisiones sistemáticas y los metanálisis. Por mucho que queramos, siempre habrá cierto grado de heterogeneidad entre los estudios primarios de la revisión, por lo que estos factores que hemos comentado pueden ser diferentes entre los distintos estudios. Llegados a este punto, es fácil comprender que la estimación del NNT global en base a las medidas resumen de riesgos entre los dos grupos puede no ser la más indicada, ya que se ve muy influida por las variaciones del riesgo basal en los controles (RBC).

Para estos casos, es mucho más recomendable realizar otras estimaciones más robustas del NNT, siendo las más utilizadas las que emplean otras medidas de asociación como el riesgo relativo (RR) o la odds ratio (OR), que son más robustas ante variaciones del RBC. En la figura adjunta os pongo las fórmulas para el cálculo del NNT utilizando las diferentes medidas de asociación y efecto.

De todas formas, no hay que perder de vista la recomendación de no realizar síntesis cuantitativa ni cálculo de medidas resumen si existe una heterogeneidad importante entre los estudios primarios, ya que entonces las estimaciones globales serán poco fiables, hagamos lo que hagamos.

Pero no creáis que hemos solucionado el problema. No podemos terminar esta entrada sin mencionar que también estos métodos alternativos para el cálculo del NNT tienen su punto débil. Este tiene que ver con la obtención de un valor resumen global del RBC, que también varía entre los estudios primarios.

La forma más sencilla sería dividir la suma de eventos en los grupos control de los estudios primarios entre el total de participantes en dicho grupo. Esto suele ser posible simplemente tomando los datos del forest plot del metanálisis. Sin embargo, este método es poco recomendable, ya que ignora totalmente la variabilidad entre los estudios y las posibles diferencias en la aleatorización.

Otra forma más correcta sería calcular la media o la mediana de los RBC de todos los estudios primarios e, incluso mejor, calcular alguna medida ponderada en función de la variabilidad de cada estudio.

Incluso, si las variaciones del riesgo basal entre los estudios son muy importantes, podría utilizarse una estimación basada en los conocimientos del investigador o en otros estudios, así como utilizar un intervalo de valores posibles del RBC y comparar las diferencias entre los distintos NNT que podrían obtenerse.

Hay que tener mucho cuidado con los métodos de ponderación por la varianza de los estudios, ya que el RBC tiene la fea costumbre de no seguir una distribución normal, sino una binomial. El problema con la distribución binomial es que su varianza depende enormemente de la media de la distribución, siendo máxima en valores de la media alrededor de 0,5.

Por el contrario, la varianza disminuye si la media se encuentra próxima a 0 o a 1, con lo que todos los métodos de ponderación basados en la varianza asignarán un peso mayor a los estudios cuánto más se separe su media del 0,5 (recordemos que el RBC puede valer de 0 a 1, como cualquier otro valor de probabilidad). Por este motivo, es necesario realizar una transformación para que los valores se aproximen a una normal en lugar de a una binomial y poder así realizar la ponderación.

Y creo que aquí lo vamos a dejar por hoy. No vamos a entrar en los métodos para transformar el RBC, como el del doble arcoseno o el de la aplicación de modelos lineales generalizados mixtos, ya que eso queda para las mentes más exclusivas, entre las cuales no se incluye la de un servidor. De todas formas, no os compliquéis la vida. Os aconsejo que calculéis el NNT utilizando paquetes estadísticos o calculadoras, como Calcupedev. Existen otros usos del NNT que también podríamos comentar y que pueden obtenerse con estas herramientas, como es el caso de los NNT en los estudios de supervivencia. Pero esa es otra historia…

Yo soy Espartaco

Print Friendly, PDF & Email

Me encontraba yo pensando en el tamaño del efecto en diferencias de medias y cómo saber cuándo ese efecto es realmente grande y, por aquello de la asociación de ideas, me ha venido a la cabeza alguien grande que, tristemente, nos ha dejado recientemente. Me estoy refiriendo a Kirk Douglas, ese pedazo de actor que siempre recordaré por sus papeles como vikingo, como Van Gogh o como Espartaco, en la famosa escena de la película en que todos los esclavos, al estilo de nuestro español Fuenteovejuna, se levantan y proclaman ser Espartaco para que no puedan hacerle nada al verdadero (o para que se los fumiguen a todos por igual, mucho más típico del modus operandi de los romanos de aquel tiempo).

No me diréis que el tío no era grande. Pero, ¿cuánto de grande si lo comparamos con otros? ¿Cómo podemos medirlo? Está claro que no por el número de Oscars, ya que eso solo serviría para medir la miopía prolongada de los llamados académicos del cine, que tardaron lo suyo hasta que le concedieron el premio honorífico por toda su carrera. No es nada fácil encontrar un parámetro que nos defina la grandeza de un personaje como Issur Danielovitch Demsky, que así es como se llamaba el hijo del trapero antes de convertirse en leyenda.

Nosotros lo tenemos más fácil para cuantificar el tamaño del efecto en nuestros estudios, aunque la verdad es que los investigadores suelen estar más interesados en contarnos la significación estadística que en el tamaño del efecto. Es tan poco habitual calcularlo que, incluso, muchos paquetes estadísticos olvidan contar con rutinas para poder obtenerlo. Nosotros vamos a centrarnos hoy en la forma de medir el tamaño del efecto en diferencias de medias.

Imaginemos que queremos hacer un ensayo para comparar el efecto de un nuevo tratamiento frente al placebo y que vamos a medir el resultado con una variable cuantitativa X. Lo que haremos es calcular la media de efecto entre participantes del grupo experimental o de intervención y la compararemos con la media de los participantes del grupo control. Así, el tamaño del efecto de la intervención respecto al placebo se verá representado por la magnitud de la diferencia entre la media en el grupo experimental y la del grupo control:d= \bar{x}_{e}-\bar{x}_{c}Sin embargo, aunque es lo más sencillo de calcular, este valor no nos sirve para hacernos una idea del tamaño del efecto, ya que su magnitud va a depender de varios factores, como la unidad de medida de la variable. Pensemos cómo cambian las diferencias si una media es el doble de la otra según valgan 1 y 2 o 0,001 y 0,002. Para que esta diferencia pueda sernos útil es necesario estandarizarla, así que un señor llamado Gene Glass pensó que podía hacerlo dividiéndola por la desviación estándar del grupo control. Obtuvo así la conocida delta de Glass, que se calcula según la siguiente fórmula:\delta = \frac{\bar{x}_{e}-\bar{x}_{c}}{S_{s}}Ahora bien, como lo que queremos es hacer una estimación de cuánto valdría el valor de delta en la población, deberemos calcular la desviación estándar utilizando n-1 en el denominador en lugar de n, ya que sabemos que esta cuasivarianza es un mejor estimador del valor poblacional de la desviación:S_{c}=\sqrt{\frac{\sum_{i=1}^{n_{c}}(x_{ic}-\bar{x}_{c})}{n_{c}-1}}Pero no os dejéis impresionar por delta, no es más que una puntuación Z (las que se obtienen restando el valor menos su media y dividiéndolo por la desviación estándar): cada unidad del valor de delta equivale a una desviación estándar, por lo que representa la diferencia estandarizada del efecto que se produce entre los dos grupos por efecto de la intervención.

Este valor nos permite estimar el porcentaje de superioridad del efecto calculando el área bajo la curva de la normal estándar N(0,1) para un valor de delta (equivale a la desviación estándar) determinado. Por ejemplo, podemos calcular el área que corresponde a un valor de delta = 1,3. Nada más sencillo que utilizar una tabla de valores de la distribución normal estándar o, incluso mejor, la función pnorm() de R, que nos devuelve el valor 0,90. Esto quiere decir que el efecto en el grupo de intervención supera en un 90% el efecto en el grupo control.

El problema de la delta de Glass es que la diferencia de medias depende de la variabilidad entre los dos grupos, lo que hace que sea sensible a estas diferencias de varianza. Si las varianzas de los dos grupos son muy diferentes, el valor de delta puede resultar sesgado. Por eso un tal Larry Vernon Hedges quiso contribuir con su propia letra a este particular abecedario y decidió hacer el cálculo de Glass de forma similar, pero utilizando una varianza unificada que no asuma la igualdad de las mismas, según la fórmula siguiente:S_{u}=\sqrt{\frac{(n_{e}-1)S_{e}^{2}+(n_{c}-1)S_{c}^{2}}{n_{e}+n_{c}-2}}Si sustituimos la varianza del grupo control de la fórmula de la delta de Glass por esta varianza unificada obtendremos la denominada g de Hedges. La ventaja de utilizar esta desviación estándar unificada es que tiene en cuenta las varianzas y los tamaños de los dos grupos, por lo que la g tiene menos riesgo de sesgo que la delta cuando no podemos asumir igualdad de varianzas entre los dos grupos.

De todas formas, tanto la delta como la g tienen un sesgo positivo, lo que quiere decir que tienden a sobreestimar el tamaño del efecto. Para evitar esto, Hedges modificó el cálculo de su parámetro para poder obtener así una g ajustada, según la fórmula siguiente:g_{a}=g\left ( 1-\frac{3}{4gl-9} \right )donde gl son los grados de libertad, que se calculan como ne+nc.

Esta corrección es más necesaria con muestras pequeñas (pocos grados de libertad). Es lógico, si miramos la fórmula, a más grados de libertad, menos necesario será corregir el sesgo.

Hasta ahora hemos tratado de solucionar el problema de calcular un estimador del tamaño del efecto que no esté sesgado por la falta de igualdad de varianzas. El asunto es que, en el rígido y controlado mundo de los ensayos clínicos, lo habitual es que podamos asumir la igualdad de varianzas entre los grupos de las dos ramas del estudio. Podríamos pensar, pues, que si esto se cumple no sería necesario recurrir a los artificios del n-1.

Pues esto mismo pensó Jacob Cohen, así que ideó su propio parámetro, la d de Cohen. Esta d de Cohen es parecida a la g de Hedges, pero todavía más sensible a la desigualdad de varianzas, por lo que solo la usaremos cuando podamos asumir la igualdad de varianzas entre los dos grupos. Su cálculo es idéntico al de la g de Hedges, pero empleando n en lugar de n-1 para obtener la varianza unificada.

Para andar por casa, podemos decir que el tamaño del efecto es pequeño para d=0,2, medio para d=0,5, grande para d=0,8 y muy grande para d=1,20. Además, podemos establecer una relación entre d y el coeficiente de correlación de Pearson (r), que también es una medida muy utilizada para estimar el tamaño del efecto.

El coeficiente de correlación nos mide la relación entre una variable independiente binaria (intervención o control) y la variable dependiente numérica (nuestra X). La gran ventaja de esta medida es que es más sencilla de interpretar que los parámetros que hemos visto hasta ahora, que funcionan todos como puntuaciones Z estandarizadas. Ya sabemos que r puede valer de -1 a 1 y el significado de estos valores.

r=\frac{d}{\sqrt{d^{2}+\left ( \frac{1}{pq} \right )}}

Así, si queréis calcular r a partir de d, no tenéis más que aplicar la siguiente fórmula:siendo p y q las proporciones de sujetos de los grupos experimental y control (p=ne/n y q=nc/n). En general, cuanto mayor tamaño de efecto, mayor r y viceversa (aunque hay que tener en cuenta que r también es menor al aumentar la diferencia entre p y q). De todas formas, el factor que más condiciona el valor de r es el valor de d.

Y con esto vamos a terminar por hoy. No creáis que hemos tratado todas las medidas de esta familia. Hay cerca de un centenar de parámetros para estimar el tamaño del efecto, como el coeficiente de determinación, la eta-cuadrado, la ji-cuadrado, etc., incluso otras que inventó el propio Cohen (no satisfecho solo con la d), como la f-cuadrado o la q de Cohen. Pero esa es otra historia…

Cuando nada malo pasa, ¿va todo bien?

Print Friendly, PDF & Email

Tengo un cuñado que cada vez tiene más miedo a subirse a un avión. Es capaz de hacer viajes por carretera durante varios días seguidos con tal de no despegarse del suelo. Pero resulta que, el pobrecillo, no tiene más remedio que hacer un viaje transcontinental y no le queda otra que tomar un avión para hacer el desplazamiento.

Eso sí, mi cuñado, además de miedoso, es una persona ocurrente. Se ha dedicado a contar el número de viajes de las diferentes compañías aéreas y el número de accidentes que ha tenido cada una para poder calcular la probabilidad de tener un percance con cada una de ellas y volar con la más segura. El asunto es muy sencillo si recordamos aquello de probabilidad igual a casos favorables dividido por casos posibles.

Además, está feliz porque hay una compañía que ha hecho 1500 vuelos y nunca ha tenido ningún accidente, luego la probabilidad de tener un accidente volando en sus aviones será, según mi cuñado, de 0/1500 = 0. Se ha quedado tan tranquilo y, casi, hasta se le ha quitado el miedo. Matemáticamente es prácticamente seguro que no le vaya a pasar nada. ¿Qué pensáis de mi cuñado?

Muchos de vosotros ya estaréis pensando que utilizar a los cuñados para estos ejemplos tiene estos problemas. Todos sabemos cómo son los cuñados… Pero no seáis injustos con ellos. Como dice el famoso humorista Joaquín Reyes, “cuñados somos todos”, así que no os paséis de la raya. De lo que no hay duda, en eso estaremos todos de acuerdo, es de que mi cuñado se equivoca: el que no haya habido ningún percance en los 1500 vuelos no da seguridad de que no se caiga el siguiente. Dicho de otro modo, aunque el numerador de la proporción sea cero, si hacemos una estimación del riesgo real sería incorrecto quedarnos con el cero como resultado.

Esta situación se presenta con cierta frecuencia en los estudios de investigación de Biomedicina. Para dejar tranquilas a las compañías aéreas y a los aerofóbicos, pensad que tenemos un nuevo fármaco con el que queremos prevenir esa terrible enfermedad que es la fildulastrosis. Tomamos 150 personas sanas y les damos el antifildulín durante 1 año y, al cabo de este periodo, no detectamos ningún nuevo caso de enfermedad. ¿Podemos concluir entonces que el tratamiento previene con seguridad absoluta el desarrollo de la enfermedad? Obviamente, no. Pensemos un poco.

Hacer inferencias sobre probabilidades cuando el numerador de la proporción es cero puede resultar algo truculento, ya que tendemos a pensar que la no ocurrencia de eventos es algo cualitativamente diferente de la ocurrencia de uno, pocos o muchos eventos, y esto no es realmente así. Un numerador igual a cero no quiere decir que el riesgo sea cero, así como tampoco nos impide hacer inferencias acerca del tamaño del riesgo, ya que podemos aplicar los mismos principios estadísticos que a los numeradores distintos de cero.

Volviendo a nuestro ejemplo, supongamos que la incidencia de fildulastrosis en la población general es de 3 casos por cada 2000 personas al año (1,5 por mil, 0,15% o 0,0015). ¿Podemos inferir con nuestro experimento si el tomar antifildulín aumenta, disminuye o no modifica el riesgo de fildulastrosis? Siguiendo la conocida frase, sí, podemos.

Vamos a seguir nuestra costumbre de considerar la hipótesis nula de igualdad de efecto, de forma que el riesgo de enfermedad no se modifique por el nuevo tratamiento. Así, el riesgo de cada uno de los 150 participantes de enfermar a lo largo del estudio será de 0,0015. Dicho de otro modo, el riesgo de no enfermar será de 1-0,0015 = 0,9985. ¿Cuál será la probabilidad de que no enferme ninguno durante el año del estudio? Como son 150 sucesos independientes, la probabilidad de que 150 sujetos no enfermen será de 0,9985150 = 0,8. Vemos, pues, que aunque el riesgo sea el mismo que el de la población general, con este número de pacientes tenemos un 80% de probabilidades de no detectar ningún evento (fildulastrosis) durante el estudio, así que sería más sorprendente encontrar algún enfermo que no el hecho de no tener ninguno. Pero lo más sorprendente es que estamos, así, dando la probabilidad de que no tengamos ningún enfermo en nuestra muestra: que no haya ningún enfermo, como piensa mi cuñado, no tiene una probabilidad de 0 (0/150), ¡sino del 80%!

Y lo peor es que, visto este resultado, el pesimismo nos invade: es posible, incluso, que el riesgo de enfermedad con el nuevo fármaco sea mayor y no estemos detectándolo. Supongamos que el riesgo con la medicación es del 1% (frente al 0,15% de la población general). El riesgo de que no enferme ninguno sería de (1-0,01)150 = 0,22. Incluso con un riesgo del 2%, el riesgo de que no enferme ninguno es de (1-0,02)150 = 0,048. Recordad que el 5% es el valor que solemos adoptar como límite “seguro” para rechazar la hipótesis nula sin cometer un error de tipo 1.

Llegados a este punto, podemos preguntarnos si estamos gafados y no hemos tenido la suerte de detectar casos de enfermedad cuando el riesgo es alto o, por el contrario, que no somos tan desgraciados y, en realidad, el riesgo debe ser bajo. Para aclararnos, podemos volver a nuestro límite de confianza habitual del 5% y ver con qué riesgo de enfermar con el tratamiento tenemos, al menos, un 5% de probabilidades de detectar algún enfermo:

– Riesgo de 1,5/1000: (1-0,0015)150 = 0,8.

– Riesgo de 1/1000: (1-0,001)150 = 0,86.

– Riesgo de 1/200: (1-0,005)150 = 0,47.

– Riesgo de 1/100: (1-0,01)150 = 0,22.

– Riesgo de 1/50: (1-0,02)150 = 0,048.

– Riesgo de 1/25: (1-0,04)150 = 0,002.

Como vemos en la serie anterior, nuestro rango de “seguridad” del 5% se alcanza cuando el riesgo está por debajo de 1/50 (2% o 0,02). Esto quiere decir que, con una probabilidad de equivocarnos de un 5%, el riesgo de presentar fildulastrosis tomando el antifuldulín es igual o menor de 2%. En otras palabras, el intervalo de confianza del 95% de nuestra estimación valdría de 0 a 0,02 (y no 0, si calculamos la probabilidad de una forma simplista).

Para evitar que nuestras recalentadas neuronas terminen por fundirse, vamos a ver una forma más sencilla de automatizar este proceso. Para ello empleamos la conocida como regla del 3. Si hacemos el estudio con n pacientes y ninguno presenta el evento, podemos afirmar que la probabilidad del evento no es cero, sino menor o igual a 3/n. En nuestro ejemplo, 3/150 = 0,02, la probabilidad que calculamos con el método laborioso de más arriba. A esta regla llegaremos tras resolver la ecuación que utilizamos con el método anterior:

(1 – riesgo máximo)n = 0,05

Primero, la reescribimos:

1 – riesgo máximo = 0,051/n

Si n es mayor de 30, 0,051/n se aproxima a (n-3)/n, que es lo mismo que 1-(3/n). De esta manera, podemos reescribir la ecuación como:

1- riesgo máximo = 1 – (3/n)

con lo que podemos resolver la ecuación y obtener la regla final:

Riesgo máximo = 3/n.

Habéis visto que hemos hecho la consideración de que n sea mayor de 30. Esto es debido a que, por debajo de 30, la regla tiende a sobreestimar el riesgo ligeramente, lo que tendremos que tener en cuenta si la usamos con muestras reducidas.

Y con esto vamos a ir dando fin a esta entrada con algunas consideraciones. La primera, y como es fácil de imaginar, los programas estadísticos calculan los intervalos de confianza del riesgo sin mayor esfuerzo aunque el numerador valga cero. De igual manera, puede hacerse también de forma manual y mucho más elegante recurriendo a la distribución de probabilidad de Poisson, aunque el resultado es similar al que se obtiene con la regla del 3.

La segunda, ¿qué pasa si el numerador no vale 0 pero es un número pequeño? ¿Puede aplicarse una regla similar? La respuesta, de nuevo, es sí. Aunque no existe una regla general, sí se han desarrollado extensiones de la regla para un número de eventos de hasta 4. Pero esa es otra historia…

Como el hipermercado

Print Friendly, PDF & Email

Hay una cosa que me ocurre de forma recurrente y que me sienta a cuerno quemado. Resulta que a mí me gusta hacer la compra una vez a la semana, así que suelo ir todos los viernes al hipermercado. Yo soy un animal de costumbres que come siempre las mismas cosas y casi los mismos días, así que voy raudo y veloz por los pasillos del hiper echando cosas en el carro y termino de comprar en un santiamén. El problema es que en los hipermercados tienen la mala costumbre de cambiar periódicamente los productos de sitio, con lo que uno se vuelve loco hasta que se lo aprende otra vez. Por si esto fuera poco, los primeros días han cambiado las cosas, pero no los carteles, con lo que tengo que dar mil vueltas hasta encontrar las latas de calamares en su tinta que, como todos sabemos, forman parte de la base de la alimentación actual.

Os preguntaréis por qué os cuento todo este rollo. Pues resulta que la National Library of Medicine (NML) ha hecho una cosa parecida: ahora que por fin había conseguido aprender cómo funcionaba el buscador, van y lo cambian completamente.

Claro que hay que decir en honor de la NML que no se ha limitado a cambiar las cajas de ventana, sino que ha implementado un cambio radical con una interfaz que definen como más limpia y sencilla, además de mejor adaptada a los dispositivos móviles, cada vez más utilizados para hacer las búsquedas bibliográficas. Pero ahí no queda la cosa: hay un montón de mejoras en los algoritmos para buscar los más de 30 millones de citas que incluye Pubmed y, además, la plataforma se aloja en la nube, con lo que promete ser más estable y eficiente.

La NLM anunció el nuevo Pubmed en octubre de 2019 y será la opción por defecto a primeros del año 2020 así que, aunque le versión legacy estará disponible unos meses más, no nos queda más remedio que aprender a manejar la nueva versión. Echemos un vistazo.

Aunque todas las funcionalidades que conocemos de la versión antigua están también presentes en la nueva, el aspecto es radicalmente diferente desde la página de inicio, que os muestro en la primera figura.El elemento más importante es la nueva caja de búsqueda, donde tenemos que introducir el texto para pulsar seguidamente sobre el botón “Search”. Si la NLM no nos engaña, este será el único recurso que tendremos que utilizar la inmensa mayoría de las veces, aunque seguimos teniendo a nuestra disposición un enlace para entrar en el modo de búsqueda avanzada.

Más abajo tenemos cuatro apartados, entre ellos el que contiene ayuda para aprender a usar la nueva versión, y que incluyen herramientas que ya conocíamos, como “Clinical Queries”, “Single Citation Matcher” o “MeSH Database”. En el momento de escribir esta entrada, estos enlaces te dirigen a las versiones antiguas de las herramientas, pero esto cambiará cuando la nueva interfaz sea a la que se acceda por defecto.

Por último, más abajo se ha añadido un componente nuevo llamado “Trending Articles”. Aquí se muestran artículos de interés, que no tienen por qué ser los más recientes, sino aquellos que han despertado interés últimamente y se han podido viralizar de una u otra forma. Junto a esto tenemos la sección de “Latest Literature”, donde se muestran artículos recientes de revistas de alto impacto.

Veamos ahora un poco cómo se hacen las búsquedas con el nuevo Pubmed. Una de las claves de esta actualización es la caja de búsqueda simple, que se ha vuelto mucho más lista al incorporar una serie de nuevos sensores que, según la NLM, tratan de detectar exactamente qué es lo que queremos buscar a partir del texto que hemos introducido.

Por ejemplo, sin introducimos información sobre el autor, la abreviatura de la revista y el año, el sensor de citación detectará que hemos introducido información básica de citación y tratará de encontrar el artículo que estamos buscando. Por ejemplo, si yo escribo “campoy jpgn 2019”, obtengo los resultados que se ven en la segunda figura, donde se muestran los dos trabajos que Pubmed encuentra de esta doctora publicados en este Journal en 2019. Sería algo parecido a lo que antes obteníamos utilizando el “Single Citation Matcher”.

También podemos hacer la búsqueda de forma más tradicional. Por ejemplo, si queremos buscar por autor, lo más recomendable es escribir el apellido seguido de la inicial del nombre, todo en minúsculas, sin etiquetas ni signos de puntuación. Por ejemplo, si queremos buscar trabajos de Yvan Vandenplas, escribiremos “vandenplas y”, con lo que obtendremos los trabajos que os muestro en la tercera figura. Por supuesto, también podemos buscar por tema. Si escribo “parkinson” en la caja de búsqueda, Pubmed me hará una serie de sugerencias sobre los términos de búsqueda parecidos. Si pulso “Search”, obtengo los resultados de la cuarta figura que, como veis, incluye todos los resultados con los términos relacionados.

Pasemos ahora a la página de resultados, que también está llena de sorpresas. Podéis ver un detalle en la quinta figura. Debajo de la caja de búsqueda tenemos dos enlaces: “Advanced”, para acceder a la búsqueda avanzada, y “Create alert”, para que Pubmed nos avise cada vez que se incorpore un nuevo artículo relacionado con esta búsqueda (ya sabéis que para esto tenemos que abrir cuenta en NCBI y entrar pulsando el botón “Login” de la parte superior; esta cuenta es gratuita y guarda toda nuestra actividad en Pubmed para usos posteriores).

Debajo de estos enlaces tenemos tres botones que nos permiten guardar la búsqueda (“Save”), enviarla por correo electrónico (“Email”) y, dentro de los tres puntos, enviarla al portapapeles o a nuestra bibliografía o colecciones, si tenemos cuenta en NCBI.

A la derecha tenemos los botones para ordenar los resultados. El “Best Match” es una de las nuevas prioridades de la NLM, que intenta mostrarnos en las primeras posiciones los trabajos más relevantes. De todas formas, podemos ordenarlos por orden cronológico (“Most recent”), al igual que cambiar la forma de presentarlos pulsando sobre la rueda dentada de la derecha (en formato “Summary” o “Abstract”).

Pasamos a la izquierda de la página de resultados. Lo primero que vemos es un gráfico con los resultados indexados por año. Este gráfico puede ampliarse, lo que nos permite ver la evolución del número de trabajos sobre el tema indexados a lo largo del tiempo. Además, podemos modificar el intervalo temporal y restringir la búsqueda a lo publicado en un periodo determinado. En la sexta figura os muestro como limitar la búsqueda a los resultados de los 10 últimos años.Debajo de cada resultado tenemos dos enlaces nuevos: “Cite” y “Share”. El primero nos permite escribir la cita del trabajo en varios formatos diferentes. El segundo, compartirlo en redes sociales.

Por último, a la izquierda de la pantalla de resultados tenemos el listado de filtros que podemos aplicar. Estos pueden añadirse o quitarse de forma similar a cómo se hacía con la versión antigua de Pubmed y su funcionamiento es muy intuitivo, así que no le vamos a dedicar más tiempo.

Si pulsamos sobre uno de los artículos de la lista de resultados accederemos a la pantalla con el texto del mismo (séptima figura). Esta pantalla es similar a la de la versión clásica de Pubmed, aunque se incluyen botones nuevos como “Cite” y los de acceso a redes sociales, además de información adicional sobre artículos relacionados y artículos en los que se cita el que hemos seleccionado. También como novedad, tenemos unas flechas de navegación en los extremos izquierdo y derecho de la pantalla para pasar al texto de los artículos anterior y posterior, respectivamente.

Para ir acabando esta entrada, vamos a echar un vistazo a la nueva búsqueda avanzada, a la que podemos acceder pulsando sobre el enlace “Advanced”, que nos llevará a la pantalla que veis en la octava figura.

El funcionamiento es muy similar al de la versión clásica. Podemos ir añadiendo términos con los operadores booleanos, combinar búsquedas, etc. Os animo a que juguéis con la búsqueda avanzada, las posibilidades son infinitas. La parte más novedosa de esta herramienta es la sección con la historia y los detalles de búsqueda (“History and Search Details”), en la parte inferior. Esto permite conservar búsquedas previas y volver a ellas, teniendo en cuenta siempre que todo esto se borra al salir de Pubmed si no tenemos cuenta en NCBI.

Llamo vuestra atención sobre la pestaña “Search Details”, que podéis abrir tal como os muestro en la novena figura. La búsqueda se hace más transparente, ya que nos muestra cómo la ha interpretado Pubmed en base a un sistema automático de elección de términos (“Automatic Term Mapping”). Aunque nosotros no sepamos muy bien cómo acotar la búsqueda a términos específicos de la enfermedad de Parkinson, Pubmed sí que sabe sobre qué estamos buscando e incluye todos los términos en la búsqueda, además de la cadena inicial que nosotros introducimos, claro está.

Y aquí acabamos por hoy. Habéis podido ver que estos de la NLM se han superado, poniendo a nuestra disposición una nueva herramienta más sencilla de utilizar, pero, a la vez, mucho más potente e inteligente. Google debe estar temblando, pero nos os preocupéis, seguro que inventa algo para superarse.

Ya podéis ir dejando la versión vieja, no esperéis a que desaparezca para poder empezar a disfrutar de la nueva. Tendremos que volver a hablar de estos temas cuando se establezcan las nuevas versiones del resto de las herramientas, como las Clinical Queries, pero esa es otra historia…

Columnas, tartas y un italiano ilustre

Print Friendly, PDF & Email

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas categorías de la variable. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…

Como un reloj olvidado

Print Friendly, PDF & Email

No me gusta el final del verano. Empiezan los días con mal tiempo, me levanto totalmente de noche y anochece cada vez más temprano. Y, por si fuera poco, se aproxima el engorroso momento del cambio de hora.

Además de las molestias del cambio y del tedio de estar dos o tres días recordando la hora que es y la que podría ser de no haber cambiado, hay que proceder a cambiar un montón de relojes de forma manual. Y, por mucho que te esfuerces en cambiarlos todos, siempre te dejas alguno con la hora vieja. No te pasa con el reloj de la cocina, que miras siempre para saber cómo de rápido tienes que desayunar, o con el del coche, que te mira fijamente todas las mañanas. Pero seguro que hay alguno que no cambias. Incluso, alguna vez me ha pasado, que me doy cuenta cuando al siguiente cambio de hora veo que no lo necesita porque lo dejé sin cambiar en la vez anterior.

Estos relojes olvidados me recuerdan un poco a las variables categóricas o cualitativas.

Pensaréis que, una vez más, me he olvidado de tomar la pastilla esta mañana, pero no. Todo tiene su razonamiento. Cuando terminamos un estudio y tenemos ya los resultados, lo primero que hacemos es una descripción de los mismos para, después, pasar a hacer todo tipo de contrastes, si viene al caso.

Pues bien, las variables cualitativas siempre se menosprecian cuando aplicamos nuestros conocimientos de estadística descriptiva. Habitualmente nos limitamos a clasificarlas y hacer tablas de frecuencia con las que calcular algunos índices como su frecuencia relativa o acumulada, dar alguna medida representativa como la moda y poco más. Con su representación gráfica ya nos esforzamos un poco más, con diagramas de barras o de sectores, pictogramas y otros inventos parecidos. Y, por último, nos aplicamos un poco más cuando relacionamos dos variables cualitativas mediante una tabla de contingencia.

Sin embargo, nos olvidamos de la variabilidad, algo que nunca haríamos con una variable cuantitativa. Las variables cuantitativas son como ese reloj de la pared de la cocina que nos mira directamente a los ojos cada mañana y que no consiente que lo dejemos fuera de hora. Por eso, recurrimos a esos conceptos que entendemos tan bien como la media y la varianza o la desviación típica. Pero el que no conozcamos la forma de medir de forma objetiva la variabilidad de las variables cualitativas o categóricas, ya sean nominales u ordinales, no quiere decir que no exista. Para este fin, se han desarrollado diversos índices de diversidad, que algunos autores distinguen como índices de dispersión, variabilidad y disparidad. Vamos a ver algunos de ellos, cuyas fórmulas podéis ver en el recuadro adjunto, para que podáis disfrutar de la belleza del lenguaje matemático.

Los dos índices más conocidos y utilizados para medir la variabilidad o diversidad son el índice de Blau (o de Hirschman-Herfindal) y el índice de entropía (o de Teachman). Ambos tienen un significado muy similar y, de hecho, están correlacionados linealmente.

El índice de Blau cuantifica la probabilidad de que dos individuos tomados al azar de una población estén en diferentes categorías de una variable (siempre que el tamaño de la población sea infinito o el muestreo se realice con reemplazo). Su valor mínimo, cero, indicaría que todos los miembros están en la misma categoría, con lo que no habría variedad. Cuanto mayor sea su valor, más dispersos entre las diferentes categorías de la variable estarán los componentes del grupo. Este valor máximo se alcanza cuando los componentes se distribuyen de manera igual entre todas las categorías (sus frecuencias relativas son iguales). Su valor máximo sería (k-1)/k, con lo que es función de k (el número de categorías de la variable cualitativa) y no del tamaño de la población. Este valor tiende a 1 al aumentar el número de categorías (para decirlo de forma más correcta, cuando k tiende a infinito).

Veamos algunos ejemplos para aclararnos un poco. Si os fijáis en la fórmula del índice de Blau, el sumatorio de los cuadrados de las frecuencias relativas en una población totalmente homogénea valdrá 1, con lo que el índice valdrá 0. Solo habrá una categoría con frecuencia 1 (el 100%) y el resto con frecuencia cero.

Como hemos dicho, aunque los sujetos se distribuyan de forma similar en todas las categorías, el índice aumenta al aumentar el número de categorías. Por ejemplo, si hay cuatro categorías con una frecuencia de 0,25, el índice de Blau valdrá 0,75 (1 –  (4 x 0,252)). Si hay cinco categorías con una frecuencia de 0,2, el índice valdrá 0,8 (1 – (5 x 0,22). Y así sucesivamente.

Como ejemplo práctico, imaginad una enfermedad en la que hay diversidad desde el punto de vista genético. En una ciudad A tienen el genotipo 1 el 85% de los enfermos y el genotipo 2 el 15%. El índice de Blau valdrá 1 – (0,852 + 0,152) = 0,255. A la vista de este resultado podremos decir que, aunque no es homogénea, el grado de heterogeneidad no es muy alto.

Ahora imaginad una ciudad B con un 60% de genotipo 1, un 25% de genotipo 2 y un 15% de genotipo 3. El índice de Blau valdrá 1 – (0,62 x 0,252 x 0,152) = 0,555. Claramente, el grado de heterogeneidad es mayor entre los enfermos de la ciudad B que entre los de A. Los más listillos me diréis que eso ya se veía sin calcular el índice, pero tenéis que tener en cuenta que son ejemplos muy sencillos para no echar las bilis calculando. En los estudios de la vida real, más complejos, no suele ser tan evidente y, en cualquier caso, siempre es más objetivo cuantificar la medida que quedarnos con nuestra impresión subjetiva.

Este índice podría usarse también para comparar la diversidad de dos variables diferentes (siempre que tenga sentido hacerlo) pero, el hecho de que su valor máximo dependa del número de categorías de la variable, y no del tamaño de la muestra o de la población, cuestiona su utilidad para comparar la diversidad de variables con diferente número de categorías. Para evitar este problema el índice de Blau puede normalizarse dividiéndolo por su máximo, obteniéndose así el índice de variación cualitativa. Su significado es, lógicamente, el mismo que el del índice de Blau y su valor oscila entre 0 y 1. Así, podremos usar cualquiera de los dos si comparamos la diversidad de dos variables con el mismo número de categorías, pero será más correcto usar el índice de variación cualitativa si las variables tienen un número de categorías diferente.

El otro índice, algo menos famoso, es el índice de Teachman o índice de entropía, cuya fórmula también os adjunto. Muy brevemente diremos que su valor mínimo, que es cero, indica que no hay diferencias entre los componentes en la variable de interés (la población es homogénea). Su valor máximo puede estimarse como el valor negativo del logaritmo neperiano del inverso del número de categorías (-ln(1/k)) y se alcanza cuando todas las categorías tienen la misma frecuencia relativa (la entropía alcanza su valor máximo). Como veis, muy parecido al de Blau, que es mucho más sencillo de calcular que el de Teachman.

Para ir acabando esta entrada, el tercer índice del que os quiero hablar hoy nos indica, más que la variabilidad de la población, la dispersión que sus componentes tienen respecto al valor más frecuente. Esto puede medirse mediante la razón de variación, que indica el grado en que los valores observados no coinciden con el de la moda, que es la categoría más frecuente. Como con los anteriores, también os dejo la fórmula en el recuadro adjunto.

Para no desentonar con los anteriores, su valor mínimo también es cero y se obtiene cuando todos los casos coinciden con la moda. Cuanto más bajo el valor, menos dispersión. Cuanto más baja sea la frecuencia absoluta de la moda, más se aproximará a 1, el valor que indica máxima dispersión. Creo que este índice es muy sencillito, así que no le vamos a dedicar más atención.

Y hemos llegado al final. Espero que a partir de ahora prestemos más atención al análisis descriptivo de los resultados de las variables cualitativas. Claro que habría que completarlo con una descripción gráfica adecuada utilizando los archiconocidos diagramas de barras o de sectores (las tartas) y otros menos conocidos como los diagramas de Pareto. Pero esa es otra historia…

Idolatrada, pero incomprendida

Print Friendly, PDF & Email

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…