¿Exotérico o esotérico?

Print Friendly, PDF & Email

Análisis multivariante

Hay días que vengo bíblico. Otros días vengo mitológico. Hoy vengo filosófico y hasta un poco masónico.

Y es que el otro día me dio por preguntarme cuál es la diferencia entre exotérico y esotérico, así que lo consulté con ese amigo de todos que tanto sabe de todo, nuestro amigo Google. Amablemente me explicó que ambos términos son parecidos y suelen explicar dos aspectos de una misma doctrina. El exoterismo hace referencia al saber que no se ve limitado a un determinado grupo de la comunidad que trata esos conocimientos, conocimientos que pueden ser divulgados y puestos al alcance de cualquiera. Por otra parte, el esoterismo hace referencia a los conocimientos que pertenecen a un orden más profundo y elevado, solo al alcance de unos pocos privilegiados especialmente educados para comprenderlos.

Y ahora, una vez comprendida la diferencia, os hago una pregunta un poco capciosa: la estadística multivariante, ¿es exotérica o esotérica? La respuesta, como es lógico, dependerá de cada uno, pero vamos a ver si es verdad que ambos conceptos no son contradictorios, sino complementarios, y podemos quedarnos en un justo término medio, al menos en la comprensión de la utilidad de las técnicas multivariantes.

Análisis multivariante

Estamos más habituados a utilizar técnicas de estadística univariante o bivariante, que permiten estudiar de forma conjunta un máximo de dos características de los individuos de una población para detectar relaciones entre ellas.

Sin embargo, con el desarrollo matemático y, sobre todo, de la capacidad de cálculo de nuestros ordenadores, cobran cada vez más importancia las técnicas de estadística multivariante o multivariada.

Podemos definir el análisis multivariado como el conjunto de procedimientos estadísticos que estudian de forma simultánea varias características de un mismo sujeto o entidad, con el fin de analizar la interrelación que pueda existir entre todas las variables aleatorias que representan dichas características. Permitidme que insista en los dos aspectos de estas técnicas: la multiplicidad de variables y el estudio de sus posibles interrelaciones.

Hay multitud de técnicas de análisis multivariante, abarcando desde los métodos puramente descriptivos hasta los que utilizan técnicas de inferencia estadística para obtener conclusiones de los datos y poder elaborar modelos que no son evidentes a simple vista observando los datos obtenidos. También nos permitirán desarrollar modelos de predicción de varias variables y establecer relaciones entre las mismas.

Algunas de estas técnicas son la extensión de sus equivalentes con dos variables, una dependiente y otra independiente o explicativa. Otras, no tienen nada equivalente parecido en la estadística de dos dimensiones.

Algunos autores clasifican estas técnicas en tres grandes grupos: los modelos de rango completo y no completo, las técnicas para reducir la dimensionalidad y los métodos de clasificación y discriminación. No os preocupéis si esto parece un galimatías, vamos a tratar de simplificarlo un poco.

Para poder hablar de las TÉCNICAS DE RANGO COMPLETO Y NO COMPLETO, creo que habrá que explicar primero a qué rango nos estamos refiriendo.

Un inciso previo

Aunque no vamos a entrar en ello ni de lejos, todos estos métodos encierran en su interior técnicas de cálculo matricial. Ya sabéis, las matrices, un conjunto de números en dos dimensiones (las que vamos a tratar aquí) que forman filas y columnas y que pueden sumarse y multiplicarse entre sí, además de otras operaciones.

Se define el rango de una matriz como el número de filas o columnas que son linealmente independientes (da igual filas o columnas, el número es el mismo). El rango puede valer desde 0 hasta el mínimo número de filas o de columnas. Por ejemplo, una matriz de 2 filas y 3 columnas podrá tener un rango de 0 a 2. Una matriz de 5 filas y 3 columnas podrá tener un rango de 0 a 3. Ahora imaginad una matriz de dos filas, la primera 1 2 3 y la segunda 3 6 9 (tiene 3 columnas). Su rango máximo sería 2 (el número menor de filas y de columnas) pero, si os fijáis, la segunda fila es la primera multiplicada por 3, así que solo hay una linealmente independiente, por lo que su rango es igual a 1.

Pues bien, se dice que una matriz es de rango completo cuando su rango es igual al más grande posible para una matriz de sus mismas dimensiones. El tercer ejemplo que os he puesto sería una matriz de rango no completo, ya que una matriz de 2×3 tendría un rango máximo de 2 y el de nuestra matriz es de 1.

Una vez entendido esto, vamos con los métodos de rango completo y no completo.

Regresión lineal múltiple

El primero que veremos es el modelo de regresión lineal múltiple. Este modelo, extensión del de regresión lineal simple, se utiliza cuando tenemos una variable dependiente y una serie de variables explicativas, todas ellas cuantitativas, y se cumple que se pueden relacionar de forma lineal y que las explicativas conforman una matriz de rango completo.

De forma similar a la regresión simple, esta técnica nos permite predecir los cambios de la variable dependiente en función de las variables explicativas. La fórmula es similar a la de la regresión simple, pero incluyendo todas las variables independientes explicativas, así que no os voy a aburrir con ella. No obstante, dado que os he castigado con los rangos y las matrices, dejadme que os diga que, en términos matriciales, se puede expresar de la siguiente manera:

Y = Xβ + ei

donde X es la matriz de rango completo de las variables explicativas. La ecuación incluye un término de error que se justifica por la posible omisión en el modelo de variables explicativas relevantes o de errores de medida.

Correlación canónica

Para complicar las cosas, imaginad que tratásemos de correlacionar simultáneamente varias variables independientes con varias dependientes. En este caso no nos sirve la regresión múltiple y tendríamos que recurrir a la técnica de correlación canónica, que permite realizar predicciones de varias variables dependientes en función del valor de varias explicativas.

Técnicas de rango no completo

Si recordáis de la estadística bivariante, el análisis de la varianza (ANOVA) es la técnica que nos permite estudiar el efecto sobre una variable dependiente cuantitativa de las variables explicativas cuando estas son categorías de una variable cualitativa (a estas categorías las llamamos factores). En este caso, como cada observación puede pertenecer a uno y solo uno de los factores de la variable explicativa, la matriz X será de rango no completo.

Una situación un poco más complicada se produce cuando las explicativas son una variable cuantitativa y uno o más factores de una cualitativa. En estas ocasiones recurrimos a un modelo lineal generalizado denominado análisis de la covarianza (ANCOVA).

Trasladando lo que acabamos de decir al reino de la estadística multivariante, tendríamos que utilizar la extensión de estas técnicas.  La extensión del ANOVA cuando hay más de una variable dependiente que no se puede combinar en una sola es el análisis multivariante de la varianza (MANOVA). Si coexisten factores de variables cualitativas con variables cuantitativas, recurriremos al análisis multivariante de la covarianza (MANCOVA).

El segundo grupo de técnicas multivariantes son las que tratan de REDUCIR LA DIMENSIONALIDAD.

En algunas ocasiones tenemos que manejar un número de variables tan elevado que resulta complejo organizarlas y llegar a alguna conclusión útil. Ahora bien, si tenemos la suerte de que las variables estén correlacionadas entre sí, la información que aporte el conjunto será redundante, ya que la que den unas variables incluirá la que ya aportan otras variables del conjunto.

En estos casos resulta útil reducir la dimensión del problema disminuyendo el número de variables a un conjunto más pequeño de variables no correlacionadas entre sí y que recojan la mayor parte de la información incluida en el conjunto original. Y decimos la mayor parte porque, como es obvio, cuanto más reduzcamos el número, más información perderemos.

Las dos técnicas fundamentales que utilizaremos en estos casos son el análisis de componentes principales y el análisis factorial.

Análisis de componentes principales

El análisis de componentes principales toma un conjunto de p variables correlacionadas y las transforma en uno nuevo de variables no correlacionadas, al que denominamos componentes principales. Estas componentes principales nos permiten explicar las variables en términos de sus dimensiones comunes.

Sin entrar en detalle, se elabora una matriz de correlaciones y una serie de vectores que nos proporcionarán las nuevas componentes principales, ordenadas de mayor a menor según la varianza de los datos originales que explique cada componente. Cada componente será una combinación lineal de las variables originales, algo similar a una recta de regresión.

Imaginemos un caso muy sencillo con seis variables explicativas (X1 a X6). La componente principal 1 (CP1) puede ser igual, por decir algo, a 0,15X1 + 0,5X2 – 0,6X3 + 0,25X4 – 0,1X5 – 0,2X6 y, además, explicar el 47% de la varianza. Si la CP2 resulta que explica el 30% de la varianza, con CP1 y CP2 tendremos controlado el 77% con un conjunto de datos más fácil de manejar (pensemos si en lugar de 6 variables tenemos 50). Y no solo eso, si representamos gráficamente CP1 frente a CP2, podemos ver si se produce algún tipo de agrupamiento de la variable en estudio según los valores de las componentes principales.

De esta manera, si tenemos suerte y unas pocas componentes recogen la mayor parte de la varianza de las variables originales, habremos reducido la dimensión del problema. Y aunque, en ocasiones, esto no es posible, siempre nos puede servir para encontrar agrupaciones en los datos definidos por un gran número de variables, lo cual nos enlaza con la siguiente técnica, el análisis factorial.

Análisis factorial

Sabemos que la varianza total de nuestros datos (la que estudia el análisis de componentes principales) es la suma de tres componentes: la varianza común o compartida, la varianza específica de cada variable y la varianza debida al azar y los errores de medición. Una vez más, y sin entrar en detalles, el método del análisis factorial parte de la matriz de correlaciones para aislar únicamente la varianza común y tratar de encontrar una serie de dimensiones subyacentes comunes, llamadas factores, que no son observables viendo el conjunto original de variables.

Como vemos, estos dos métodos son muy parecidos, por lo que existe mucha confusión sobre cuándo se debe utilizar uno y cuándo otro, máxime teniendo en cuenta que el análisis de componentes principales puede ser el primer paso en la metodología del análisis factorial.

Ya lo hemos dicho, el análisis de componentes principales trata de explicar la máxima proporción posible de la varianza total de los datos originales, mientras que el objetivo del estudio del análisis factorial es explicar la covarianza o correlación que existe entre sus variables. Por tanto, habitualmente se utilizará el análisis de componentes principales para buscar combinaciones lineales de las variables originales y reducir un conjunto de datos extenso a otro más reducido y manejable, mientras que recurriremos al análisis factorial cuando busquemos un nuevo conjunto de variables, generalmente más reducido que el original, y que represente lo que tienen en común las variables originales.

Avanzando en nuestro arduo camino de hoy, para aquellos esforzados que todavía sigáis leyendo, vamos a tratar los MÉTODOS DE CLASIFICACIÓN Y DISCRIMINACIÓN, que son dos: el análisis de conglomerados y el análisis discriminante.

Análisis de conglomerados

El análisis de conglomerados trata de reconocer patrones o formas para resumir la información contenida en las variables iniciales, que se agrupan en función de su mayor o menor homogeneidad. En resumen, buscamos grupos que sean mutuamente excluyentes, de forma que los elementos sean lo más parecidos posible a los de su grupo y lo más diferentes posible a los de los otros grupos.

La parte más famosa del análisis de conglomerados es, sin duda, su representación gráfica, con árboles de decisión y dendrogramas, en los que se van separando de forma jerárquica grupos homogéneos cada vez más diferentes a los más alejados entre las ramas del árbol.

Pero, en lugar de querer segmentar la población, vamos a suponer que ya tenemos una población segmentada en un número de clases, k. Supongamos que tenemos un grupo de individuos definidos por un número p de variables aleatorias. Si queremos saber a qué clase de la población puede pertenecer un determinado individuo, recurriremos a la técnica del análisis discriminante.

Análisis discriminante

Imaginemos que tenemos un nuevo tratamiento que es muy caro, así que solo queremos indicarlo en los pacientes que estemos seguros de que van a cumplir bien el tratamiento. Así, nuestra población está segmentada en cumplidores y no cumplidores. Nos sería muy útil seleccionar un conjunto de variables que nos permitiesen discriminar a qué clase puede pertenecer una persona concreta e, incluso, cuáles de estas variables son las que discriminan mejor entre los dos grupos. Así, mediremos las variables en el candidato al tratamiento y, utilizando lo que se conoce como criterio o regla de discriminación, lo asignaremos a uno u otro grupo y procederemos en consecuencia. Eso sí, no nos olvidemos, siempre habrá una probabilidad de equivocarse, por lo que nos interesará encontrar la regla discriminante que minimice la probabilidad de error de discriminación.

El análisis discriminante puede parecernos similar al análisis por conglomerados, pero, si lo pensamos, la diferencia es clara. En el análisis discriminante los grupos están previamente definidos (cumplidores o no cumplidores, en nuestro ejemplo), mientras que en el análisis por conglomerados buscamos grupos que no son evidentes: analizaríamos los datos y descubriríamos que hay pacientes que no se toman la pastilla que les mandamos, algo que ni se nos había pasado por la cabeza (además de nuestra ignorancia, demostraríamos nuestra inocencia).

Nos vamos…

Y aquí lo vamos a dejar por hoy. Hemos sobrevolado desde gran altura el escarpado paisaje de la estadística multivariante y espero que haya servido para trasladarla del campo de lo esotérico al de lo exotérico (¿o era al revés?). No hemos entrado en la metodología específica de cada técnica, ya que podríamos haber escrito un libro entero. Con entender qué es cada método y para qué sirve, más o menos, creo que tenemos bastante ganado. Además, los paquetes estadísticos los llevan a cabo, como siempre, sin esfuerzo.

Tampoco penséis que hemos tratado todos los métodos que se han desarrollado para el análisis multivariante. Existen otros muchos, como el análisis conjunto y el escalamiento multidimensional, muy utilizados en publicidad para determinar los atributos de un objeto que son preferidos por la población y cómo influyen en la percepción que tienen sobre el mismo. También podríamos perdernos entre otras técnicas más nuevas, como el análisis de correspondencias, o los modelos de probabilidad lineal, como el análisis logit y el probit, que son combinaciones de regresión múltiple y análisis discriminante, por no hablar de los modelos de ecuaciones simultáneas o estructurales. Pero esa es otra historia…

Por tus acciones te juzgarán

Print Friendly, PDF & Email

Tamaño muestral en estudios de supervivencia

Hoy me vais a perdonar, pero vengo un poco bíblico. Y es que estaba pensando en el cálculo del tamaño de la muestra para los estudios de supervivencia y me ha recordado el mensaje que nos transmite Ezequiel: según tus caminos y tus obras te juzgarán.

Una vez más, pensaréis que de tanto darle vueltas a la medicina basada en la evidencia se me ha ido un poco la cabeza, pero si aguantáis un poco y seguís leyendo, veréis que la analogía tiene su punto.

Una pequeña introducción

Uno de los indicadores de calidad metodológica más valorados de un estudio es el cálculo previo del tamaño muestral necesario para demostrar (o rechazar) la hipótesis de trabajo. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori), teniendo en cuenta para ello el nivel de significación y la potencia que queramos que tenga el estudio.

En resumen, si detectamos el tamaño de efecto que previamente establecimos, la diferencia entre los dos grupos será estadísticamente significativa (nuestra ansiada p<0,05). Por el contrario, si no hay diferencia significativa, probablemente no exista diferencia real, aunque siempre con el riesgo de cometer un error de tipo 2 que es igual a 1 menos la potencia del estudio.

Hasta aquí parece que está claro, tenemos que calcular el número de participantes que necesitamos. Pero esto no es tan sencillo para los estudios de supervivencia.

El planteamiento del problema

Los estudios de supervivencia agrupan una serie de técnicas estadísticas para aquellas situaciones en las que no basta observar un suceso, sino que es fundamental el tiempo que transcurre hasta que el suceso se produce. En estos casos, la variable de resultado no será ni cuantitativa ni cualitativa, sino de tiempo a suceso. Es una especie de variable mixta que tiene una parte dicotómica (el suceso se produce o no) y una cuantitativa (cuánto tarda en producirse).

El nombre de estudios de supervivencia es un poco engañoso y uno puede pensar que el suceso en estudio será la muerte de los participantes, pero nada más lejos de la realidad. El suceso puede ser cualquier tipo de evento, bueno o malo para el participante. Lo que ocurre es que los primeros estudios se aplicaron a situaciones en los que el suceso de interés era la muerte y el nombre ha prevalecido.

En estos estudios, el periodo de seguimiento de los participantes suele ser desigual e, incluso, algunos pueden terminar el estudio sin presentar el suceso de interés o perderse del estudio antes de que finalice.

Por estos motivos, si queremos saber si hay diferencias entre la presentación del suceso de interés en las dos ramas del estudio, para calcular la muestra no será tan importante el número de sujetos que participen, sino el número de sucesos que necesitamos para que la diferencia sea significativa si se alcanza la diferencia clínicamente importante, que deberemos establecer a priori.

Vamos a ver cómo se hace, dependiendo del tipo de contraste que tengamos pensado utilizar.

Tamaño muestral en estudios de supervivencia

Si solo queremos determinar el número de sucesos necesarios que tenemos que observar para detectar una diferencia entre un grupo determinado y la población de la que procede, la fórmula para hacerlo es la siguiente:

Donde E es el número de sucesos que necesitamos observar, K es el valor determinado por el nivel de confianza y la potencia del estudio y lnTR es el logaritmo natural de la tasa de riesgo.

Cálculo del valor de K según el nivel de confianza, el tipo de contraste y la potencia del estudio. K = (Zα + Zβ)2El valor de K se calcula como (Zα + Zβ)2, siendo z el valor estandarizado para el nivel de confianza y de potencia elegido. Lo más habitual es realizar un contraste bilateral (con dos colas) con un nivel de confianza de 0,05 y una potencia de 80%. En este caso, los valores son Zα = 1,96, Zβ = 0,84 y K = 7,9. En la tabla adjunta os dejo los valores más frecuentes de K, para que no tengáis que calcularlos.

La tasa de riesgo es el cociente entre el riesgo del grupo en estudio y el riesgo en la población, que se supone que conocemos. Se define como Sm1/Sm2, donde Sm1 es el tiempo medio de aparición del evento en la población y Sm2 el que esperamos en el grupo de estudio.

Vamos a poner un ejemplo para entender mejor lo dicho hasta ahora.

Supongamos que los pacientes que toman un determinado fármaco (que llamaremos A para no esforzarnos mucho) tienen riesgo de desarrollar úlcera de estómago durante el primer año de tratamiento. Ahora seleccionamos un grupo y les damos un tratamiento (B, esta vez) que actúa como profilaxis, de tal forma que esperamos que el evento tarde un año más en producirse. ¿Cuántas úlceras tenemos que observar para un estudio con un nivel de confianza de 0,05 y una potencia de 0,8 (80%)?

K sabemos que vale 7,9. Sm1 = 1 y Sm2 = 2. Sustituimos sus valores en la fórmula que ya conocemos:

Necesitaremos observar 33 úlceras durante el seguimiento. Ahora ya podemos calcular cuántos pacientes tenemos que incluir en el estudio (veo complicado reclutar úlceras).

Vamos a suponer que podemos reclutar 12 pacientes anuales. Si tenemos que observar 33 úlceras, el seguimiento se deberá prolongar durante 33/12 = 2,75, o sea, 3 años. Para más seguridad, planificaríamos un seguimiento un poco superior.

Comparación de curvas de supervivencia

Este es el caso más sencillo. Cuando lo que queremos es comparar las dos curvas de supervivencia (pensamos hacer una prueba de log-rank), el cálculo del tamaño muestral es un pelín más complejo, pero no mucho. Al fin y al cabo, ya estaremos comparando las curvas de probabilidad de supervivencia de los dos grupos.

En estos casos, la fórmula para el cálculo del número de sucesos necesarios es la siguiente:

Nos encontramos un parámetro nuevo, C, que es la relación de participantes entre un grupo y el otro (1:1, 1:2, etc.).

Pero hay otra diferencia con el supuesto anterior. En estos casos la TR se calcula como el cociente de los logaritmos naturales de π1 y π2, que son las proporciones de participantes de cada grupo que presentan el evento en un periodo de tiempo determinado.

Siguiendo el ejemplo anterior, supongamos que conocemos que el riesgo de úlcera en los que toman A es del 50% en los 6 primeros meses y el de los que toman B del 20%. ¿Cuántas úlceras necesitamos observar con el mismo nivel de confianza y la misma potencia del estudio?

Sustituyamos los valores en la fórmula anterior:

Necesitaremos observar 50 úlceras durante el estudio. Ahora necesitamos saber cuántos participantes (no sucesos) necesitamos en cada rama del estudio. Lo podemos obtener con la siguiente fórmula:

Si sustituimos nuestros valores en la ecuación, obtenemos un valor de 29,4, así que necesitaremos 30 pacientes en cada rama del estudio, 60 en total.

Para ir terminando ya, vamos a ver que pasaría si queremos una proporción de participantes diferente de la más fácil, 1:1. En ese caso, el cálculo de n con la última fórmula debe ajustarse teniendo en cuenta esta proporción, que es nuestra conocida C:

Supongamos que queremos una relación 2:1. Sustituimos los valores en la ecuación:

Necesitaríamos 23 participantes en una rama y 46, el doble, en la otra, 69 en total.

Nos vamos…

Y aquí lo dejamos por hoy.

Como siempre, todo lo que hemos dicho en esta entrada es para que podamos comprender los fundamentos del cálculo del tamaño muestral. De todos modos, os aconsejo que, si tenéis que hacerlo alguna vez, utilicéis un programa estadístico o una calculadora de tamaño muestral. Hay muchas disponibles y algunas hasta son totalmente gratis.

Espero que ahora comprendáis lo de Ezequiel: son más importantes las cosas que hacemos (o padecemos) que cuántos las hacemos (o padecemos). Hemos visto la forma más sencilla para calcular el tamaño de la muestra de un estudio de supervivencia. Todavía podríamos complicarnos la vida y calcular el tamaño muestral basándonos en estimaciones de los riesgos relativos o de las tasas de riesgos instantáneos, nuestras queridas hazard ratios. Pero esa es otra historia…

Yo he venido aquí a hablar de mi libro

Print Friendly, PDF & Email

No hace todavía tres meses que se han cumplido 27 años de uno de los momentos más antológicos de toda la historia de la televisión en nuestro país. A finales de marzo de 1993, el escritor Francisco Umbral fue invitado a participar en un programa de televisión presentado y conducido por Mercedes Milá que, al parecer, le había convencido para que asistiese con el gancho de hablar del último libro que acababa de publicar.

El problema es que el pobre Umbral se encontró en una mesa con dos contertulios más que, siguiendo el hilo del programa, hablaban de todo menos de su libro, con la aparente complicidad de la presentadora y la cooperación entusiasta del público del plató.

Y pasó lo que tenía que pasar. El tiempo corría, el programa se iba a acabar y allí no se hablaba del libro, así que Umbral, demostrando otras cualidades menos conocidas que su genialidad como novelista y periodista, estalló exigiendo que se hablase de su libro, que para eso le habían llevado a la tele, pronunciando repetidamente la frase que ha quedado para siempre en el acervo cultural español: “Yo he venido aquí a hablar de mi libro”.

Los habituales del blog estáis acostumbrados a ver que las entradas suelen comenzar con algún desvarío de mi imaginación que acaba dando paso al verdadero tema del día, que nada tiene que ver con lo que se hablaba al comienzo de la entrada, así que ya os estaréis preguntando de qué irá la entrada de hoy.

Pero hoy os vais a llevar una sorpresa. No hay tema sobre medicina basada en la evidencia. Porque hoy, yo he venido aquí a hablar de mi libro.

El blog “Ciencia sin seso… locura doble” nace el 26 de julio de 2012, con el ambicioso propósito de enseñar temas de metodología de investigación y de medicina basada en la evidencia de forma que parezcan fáciles y hasta divertidos. Desde entonces se han publicado cerca de 160 entradas en dos idiomas (en castellano y en algo que se quiere parecer a la lengua del Bardo de Avon) y ha ido creciendo en audiencia y en diversidad de temas, aunque el hito más importante desde el punto de vista de su difusión y prestigio fue la inclusión en el portal AnestesiaR en mayo de 2014.

Ya era hora, pues, de darle cuerpo al menos a parte de los contenidos para que formasen un conjunto coherente y homogéneo. Y así es como nace “El ovillo y la espada”, el libro del que he venido a hablar hoy aquí.

Ya podéis ver que sigo con mi manía de darle un título que nada tiene que ver con el contenido de la obra. En realidad, “El ovillo y la espada” es un “Manual de lectura crítica de documentos científicos”, compuesto por una selección de entradas del blog que, agrupadas, pretenden proporcionar al lector los conocimientos necesarios para poder enfrentarse a la lectura crítica de los artículos a los que tenemos que recurrir a diario en nuestro ejercicio profesional.

El manual se compone de una serie de bloques en los que se tratan los pasos habituales que componen la sistemática de la medicina basada en la evidencia: la generación de la pregunta clínica estructurada ante una laguna de conocimiento, la búsqueda bibliográfica, las características de los diseños epidemiológicos más habituales y las normas para la lectura crítica de los trabajos basados en estos diseños.

Para ir acabando, solo me queda dar las gracias a mis compañeros y amigos del Comité de Pediatría Basado en la Evidencia de la AEP-AEPap y de AnestesiaR. Con los primeros he aprendido todo lo que sé de estos temas (no creáis que es mucho solo porque escriba un libro) y gracias a los segundos el blog ha alcanzado una difusión que estaba fuera de mis posibilidades, además de hacer realidad el proyecto que os estoy presentando hoy. Mi libro, por si alguien no se ha enterado todavía.

Y con esto nos vamos. Espero que os animéis a leer mi criatura y que os sea de gran utilidad. Llegamos al final de esta entrada sin explicar qué son eso de los ovillos y las espadas del título del manual. Os diré que tiene algo que ver con un tal Teseo. Pero esa es otra historia…

La distancia más corta

Print Friendly, PDF & Email

El método de los mínimos cuadrados

El otro día estaba intentando medir la distancia entre Madrid y Nueva York en Google Earth y me encontré con algo inesperado: cuando intentaba trazar una línea recta entre las dos ciudades, esta se torcía y formaba un arco, y no había forma de evitarlo.

Me quedé pensando si no sería verdad aquello que dijo Euclides de que la línea recta es el camino más corto entre dos puntos. Claro que, en seguida, me di cuenta de dónde estaba el error: Euclides pensaba en la distancia entre dos puntos situados en un plano y yo estaba dibujando la distancia mínima entre dos puntos situados en una esfera. Evidentemente, en este caso la distancia más corta no la marca una recta, sino un arco, tal como Google me mostraba.

Y como una cosa lleva a la otra, esto me llevó a pensar en qué pasaría si en vez de dos puntos hubiese muchos más. Esto tiene que ver, como algunos ya imagináis, con la recta de regresión que se calcula para ajustarse a una nube de puntos. Aquí, como es fácil comprender, la recta no puede pasar por todos los puntos sin perder su rectitud, así que los estadísticos idearon una forma para calcular la recta que más se aproxime en promedio a todos los puntos. El método que más utilizan es el que llaman método de los mínimos cuadrados, cuyo nombre hace presagiar algo extraño y esotérico. Sin embargo, el razonamiento para calcularlo es mucho más sencillo y, por ello, no menos ingenioso. Veámoslo.

El método de los mínimos cuadrados

El modelo de regresión lineal posibilita, una vez establecida una relación lineal, efectuar predicciones sobre el valor de una variable Y sabiendo los valores de un conjunto de variables X1, X2,… Xn. A la variable Y la llamamos dependiente, aunque también se la conoce como variable objetivo, endógena, criterio o explicada. Por su parte, las variables X son las variables independientes, conocidas también como predictoras, explicativas, exógenas o regresoras.

Cuando hay varias variables independientes nos encontramos ante un modelo de regresión lineal múltiple, mientras que cuando hay solo una hablaremos de la regresión lineal simple. Por hacerlo más sencillo, nos centraremos, cómo no, en la regresión simple, aunque el razonamiento vale también para la múltiple.

Como ya hemos dicho, la regresión lineal requiere eso, que la relación entre las dos variables sea lineal, así que puede representarse mediante la siguiente ecuación de una línea recta:

Recta de regresión

Aquí nos encontramos con dos amigos nuevos acompañando a nuestras variables dependiente e independiente: son los coeficientes del modelo de regresión. β0 representa la constante del modelo (también llamada intercepto) y es el punto donde la recta corta el eje de ordenadas (el de las Y, para entendernos bien). Representaría el valor teórico de la variable Y cuando la variable X vale cero.

Por su parte, β1 representa la pendiente (inclinación) de la recta de regresión. Este coeficiente nos dice el incremento de unidades de la variable Y que se produce por cada incremento de una unidad de la variable X.

Nos volvemos a encontrar con el azar

Esta sería la recta teórica general del modelo. El problema es que la distribución de valores no se va a ajustar nunca de manera perfecta a ninguna recta así que, cuando vayamos a calcular un valor de Y determinado (yi) a partir de un valor de X (xi) habrá una diferencia entre el valor real de yi y el que obtengamos con la fórmula de la recta. Ya nos hemos vuelto a encontrar con el azar, nuestro compañero inseparable, así que no tendremos más remedio que incluirlo en la ecuación:

Recta de regresión con el componente aleatorio

Aunque parezca una fórmula similar a la anterior, ha sufrido una profunda transformación. Ahora tiene dos componentes bien diferenciados, un componente determinista y otro estocástico (error). El componente determinista lo marcan los dos primeros elementos de la ecuación, mientras que el estocástico lo marca el error en la estimación. Los dos componentes se caracterizan por su variable aleatoria, yi y εi, respectivamente, mientras que xi sería un valor determinado y conocido de la variable X.

Vamos a centrarnos un poco en el valor de εi. Ya hemos dicho que representa la diferencia entre el valor real de yi en nuestra nube de puntos y el que nos proporcionaría la ecuación de la recta (el valor estimado, representado como ŷi). Podemos representarlo matemáticamente de la siguiente forma:

Cálculo del residuo de una estimación

Este valor se conoce con el nombre de residuo y su valor depende del azar, aunque si el modelo no está bien especificado pueden también influir otros factores de manera sistemática, pero eso no nos influye para lo que estamos tratando.

Recapitulemos

Vamos a recapitular lo que tenemos hasta aquí:

  1. Una nube de puntos sobre la que queremos dibujar la recta que mejor se ajuste a la nube.
  2. Un número infinito de rectas posibles, de entre las que queremos seleccionar una concreta.
  3. Un modelo general con dos componentes: uno determinista y otro estocástico. Este segundo va a depender, si el modelo es correcto, del azar.

Los valores de las variables X e Y ya los tenemos en nuestra nube de puntos para la que queremos calcular la recta. Lo que variará en la ecuación de la recta que seleccionemos serán los coeficientes del modelo, β0 y β1. ¿Y qué coeficientes nos interesan? Lógicamente, aquellos con los que el componente aleatorio de la ecuación (el error) sea lo menor posible. Dicho de otra forma, queremos la ecuación con un valor de la suma de residuos lo más bajo posible.

Partiendo de la ecuación anterior de cada residuo, podemos representar la suma de residuos de la forma siguiente, donde n es el número de pares de valores de X e Y de que disponemos:

Sumatorio de residuos

Pero esta fórmula no nos sirve. Si la diferencia entre el valor estimado y el real es aleatoria, unas veces será positiva y otras, negativa. Es más, su media será o estará muy próxima a cero. Por este motivo, como en otras ocasiones en las que lo que interesa es medir la magnitud de la desviación, tenemos que recurrir a un método que impida que los negativos se anulen con los positivos, así que calculamos estas diferencias elevadas al cuadrado, según la fórmula siguiente:

Sumatorio del cuadrado de los residuos

¡Ya lo tenemos!

¡Por fin! Ya sabemos de dónde viene el método de los mínimos cuadrados: buscamos la recta de regresión que nos proporcione un valor lo menor posible de la suma de los cuadrados de los residuos. Para calcular los coeficientes de la recta de regresión solo tendremos que ampliar un poco la ecuación anterior, sustituyendo el valor estimado de Y por los términos de la ecuación de la recta de regresión:

Sumatorio del cuadrado de los residuos

y encontrar los valores de b0 y b1 que minimicen la función. A partir de aquí la cosa es coser y cantar, solo tenemos que igualar a cero las derivadas parciales de la ecuación anterior (tranquilos, vamos a ahorrarnos la jerga matemática dura) para obtener el valor de b1:

Cálculo de la pendiente de la recta

Donde tenemos en el numerador la covarianza de las dos variables y, en el denominador, la varianza de la variable independiente. A partir de aquí, el cálculo de b0 es pan comido:

Cálculo del interceptor

Ya podemos construir nuestra recta que, si os fijáis un poco, pasa por los valores medios de X e Y.

Un ejemplo práctico

Y con esto terminamos la parte ardua de esta entrada. Todo lo que hemos dicho es para poder comprender qué significa lo de los mínimos cuadrados y de dónde viene el asunto, pero no es necesario hacer todo esto para calcular la recta de regresión lineal. Los paquetes estadísticos lo hacen en un abrir y cerra de ojos.

Cálculo del modelo de regresión lineal con RPor ejemplo, en R se calcula mediante la función lm(), iniciales de linear model. Veamos un ejemplo utilizando la base de datos “trees” (circunferencia, volumen y altura de 31 observaciones sobre árboles), calculando la recta de regresión para estimar el volumen de los árboles conociendo su altura:

modelo_reg <- lm(Height~Volume, data = trees)

summary(modelo_reg)

La función lm() devuelve el modelo a la variable que le hemos indicado (modelo_reg, en este caso), que podremos explotar después, por ejemplo, con la función summary(). Esto nos proporcionará una serie de datos, tal como podéis ver en la figura adjunta.

En primer lugar, los cuartiles y la mediana de los residuos. Para que el modelo sea correcto interesa que la mediana esté próxima a cero y que los valores absolutos de los residuos se distribuyan de manera uniforme entre los cuartiles (similar entre máximo y mínimo y entre primer y tercer cuartil).

A continuación, se muestra la estimación puntual de los coeficientes junto con su error estándar, lo que nos permitirá calcular sus intervalos de confianza. Esto se acompaña de los valores del estadístico t con su significación estadística. No lo hemos dicho, pero los coeficientes siguen una distribución de la t de Student con n-2 grados de libertad, lo que nos permite saber si son estadísticamente significativos.

Por último, se proporciona la desviación estándar de los residuos, el cuadrado del coeficiente de correlación múltiple o coeficiente de determinación (la precisión con que la recta representa la relación funcional entre las dos variables; su raíz cuadrada en regresión simple es el coeficiente de correlación de Pearson), su valor ajustado (que será más fiable cuando calculemos modelos de regresión con muestras pequeñas) y el contraste F para validar el modelo (los cocientes de las varianzas siguen una distribución de la F de Snedecor).

Así, nuestra recta de regresión quedaría de la siguiente manera:Representación gráfica de la nube de puntos y la recta de regresión

Altura = 69 + 0,23xVolumen

Ya podríamos calcular qué altura tendría un árbol con un volumen determinado que no estuviese en nuestra muestra (aunque debería estar dentro del rango de datos utilizados para calcular la recta de regresión, ya que es arriesgado hacer predicciones fuera de este intervalo).

Además, con el comando scatterplot(Volume ~ Height, regLine = TRUE, smooth = FALSE, boxplots = FALSE, data = trees), podríamos dibujar la nube de puntos y la recta de regresión, como podéis ver en la segunda figura.

Y podríamos calcular muchos más parámetros relacionados con el modelo de regresión calculado por R, pero lo vamos a dejar aquí por hoy.

Nos vamos…

Antes de terminar, deciros que el método de los mínimos cuadrados no es el único que nos permite calcular la recta de regresión que mejor se ajuste a nuestra nube de puntos. Existe también otro método que es el de la máxima verosimilitud, que da más importancia a la elección de los coeficientes más compatibles con los valores observados. Pero esa es otra historia…

¿Rioja o Ribera?

Print Friendly, PDF & Email

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Un punto débil

Print Friendly, PDF & Email

Cálculo del NNT en metanálisis

Hasta los más grandes tienen puntos débiles. Es una realidad que afecta incluso al gran NNT, el número necesario a tratar, sin duda el rey de las medidas de impacto absoluto de la metodología de investigación en los ensayos clínicos.

Claro que eso no es una desgracia irreparable. Únicamente tenemos que ser bien conscientes de sus fortalezas y debilidades para poder aprovechar las primeras y tratar de mitigar y controlar las segundas. Y es que el NNT depende de los riesgos basales de los grupos de intervención y de control, que pueden ser unos compañeros de viaje poco constantes y sujetos a variación por diversos factores.

Como todos sabemos, el NNT es una medida absoluta de efecto que se utiliza para estimar la eficacia o seguridad de una intervención. Este indicador, como si de un buen matrimonio se tratase, es útil en lo bueno y en lo malo, en la salud y en la enfermedad.

Así, en el lado bueno hablamos del NNT, que es el número de pacientes que es necesario tratar para que uno presente un resultado que consideramos bueno. Por otra parte, en el lado oscuro tenemos el número necesario a dañar (NND), que indica a cuántos tenemos que tratar para que uno presente un evento adverso.

En un principio se ideó para describir el efecto de la intervención respecto al grupo control en los ensayos clínicos, aunque posteriormente se extendió su uso para interpretar los resultados de las revisiones sistemáticas y de los metanálisis. Y aquí es donde puede surgir el problema ya que, a veces, se generaliza la forma de calcularlo en los ensayos para los metanálisis, lo cual puede llevarnos a error.

Cálculo del NNT en metanálisis

La forma más sencilla de obtener el NNT es calcular el inverso de la reducción absoluta del riesgo entre el grupo de intervención y el de control. El problema es que esta forma es la que es más susceptible de verse sesgada por la presencia de factores que pueden influir en el valor del NNT. Aunque es el rey de las medidas absolutas de impacto, también tiene sus limitaciones, siendo diversos los factores que pueden influir en su magnitud, por no hablar de su significado clínico.

Uno de estos factores es la duración del periodo de seguimiento del estudio. Esta duración puede influir sobre el número de eventos, buenos o malos, que puedan presentar los participantes del estudio, lo que hace que no sea correcto comparar los NNT de estudios con seguimientos de distinta duración.

 Otro puede ser el riesgo basal de presentar el evento. Pensemos que el término “riesgo”, desde el punto de vista estadístico, no implica siempre algo malo. Podemos hablar, por ejemplo, de riesgo de curación. Si el riesgo basal es mayor, se producirán probablemente más eventos y el NNT puede ser menor. También habría que tener en cuenta la variable de resultado utilizada y la alternativa de tratamiento con que comparamos la intervención.

Y, en tercer lugar, por mencionar algunos más de estos factores, pueden influir la dirección y el tamaño del efecto, la escala de medida y la precisión de las estimaciones del NNT, sus intervalos de confianza.

Riesgo basal en los controles

Fórmulas para el cálculo del NNTY aquí surge el problema con las revisiones sistemáticas y los metanálisis. Por mucho que queramos, siempre habrá cierto grado de heterogeneidad entre los estudios primarios de la revisión, por lo que estos factores que hemos comentado pueden ser diferentes entre los distintos estudios. Llegados a este punto, es fácil comprender que la estimación del NNT global en base a las medidas resumen de riesgos entre los dos grupos puede no ser la más indicada, ya que se ve muy influida por las variaciones del riesgo basal en los controles (RBC).

Para estos casos, es mucho más recomendable realizar otras estimaciones más robustas del NNT, siendo las más utilizadas las que emplean otras medidas de asociación como el riesgo relativo (RR) o la odds ratio (OR), que son más robustas ante variaciones del RBC. En la figura adjunta os pongo las fórmulas para el cálculo del NNT utilizando las diferentes medidas de asociación y efecto.

De todas formas, no hay que perder de vista la recomendación de no realizar síntesis cuantitativa ni cálculo de medidas resumen si existe una heterogeneidad importante entre los estudios primarios, ya que entonces las estimaciones globales serán poco fiables, hagamos lo que hagamos.

Pero no creáis que hemos solucionado el problema. No podemos terminar esta entrada sin mencionar que también estos métodos alternativos para el cálculo del NNT tienen su punto débil. Este tiene que ver con la obtención de un valor resumen global del RBC, que también varía entre los estudios primarios.

La forma más sencilla sería dividir la suma de eventos en los grupos control de los estudios primarios entre el total de participantes en dicho grupo. Esto suele ser posible simplemente tomando los datos del forest plot del metanálisis. Sin embargo, este método es poco recomendable, ya que ignora totalmente la variabilidad entre los estudios y las posibles diferencias en la aleatorización.

Otra forma más correcta sería calcular la media o la mediana de los RBC de todos los estudios primarios e, incluso mejor, calcular alguna medida ponderada en función de la variabilidad de cada estudio.

Incluso, si las variaciones del riesgo basal entre los estudios son muy importantes, podría utilizarse una estimación basada en los conocimientos del investigador o en otros estudios, así como utilizar un intervalo de valores posibles del RBC y comparar las diferencias entre los distintos NNT que podrían obtenerse.

Hay que tener mucho cuidado con los métodos de ponderación por la varianza de los estudios, ya que el RBC tiene la fea costumbre de no seguir una distribución normal, sino una binomial. El problema con la distribución binomial es que su varianza depende enormemente de la media de la distribución, siendo máxima en valores de la media alrededor de 0,5.

Por el contrario, la varianza disminuye si la media se encuentra próxima a 0 o a 1, con lo que todos los métodos de ponderación basados en la varianza asignarán un peso mayor a los estudios cuánto más se separe su media del 0,5 (recordemos que el RBC puede valer de 0 a 1, como cualquier otro valor de probabilidad). Por este motivo, es necesario realizar una transformación para que los valores se aproximen a una normal en lugar de a una binomial y poder así realizar la ponderación.

We’re leaving…

Y creo que aquí lo vamos a dejar por hoy. No vamos a entrar en los métodos para transformar el RBC, como el del doble arcoseno o el de la aplicación de modelos lineales generalizados mixtos, ya que eso queda para las mentes más exclusivas, entre las cuales no se incluye la de un servidor. De todas formas, no os compliquéis la vida. Os aconsejo que calculéis el NNT utilizando paquetes estadísticos o calculadoras, como Calcupedev. Existen otros usos del NNT que también podríamos comentar y que pueden obtenerse con estas herramientas, como es el caso de los NNT en los estudios de supervivencia. Pero esa es otra historia…

Yo soy Espartaco

Print Friendly, PDF & Email

Tamaño de efecto con diferencias de medias

Me encontraba yo pensando en el tamaño del efecto en diferencias de medias y cómo saber cuándo ese efecto es realmente grande y, por aquello de la asociación de ideas, me ha venido a la cabeza alguien grande que, tristemente, nos ha dejado recientemente. Me estoy refiriendo a Kirk Douglas, ese pedazo de actor que siempre recordaré por sus papeles como vikingo, como Van Gogh o como Espartaco, en la famosa escena de la película en que todos los esclavos, al estilo de nuestro español Fuenteovejuna, se levantan y proclaman ser Espartaco para que no puedan hacerle nada al verdadero (o para que se los fumiguen a todos por igual, mucho más típico del modus operandi de los romanos de aquel tiempo).

No me diréis que el tío no era grande. Pero, ¿cuánto de grande si lo comparamos con otros? ¿Cómo podemos medirlo? Está claro que no por el número de Oscars, ya que eso solo serviría para medir la miopía prolongada de los llamados académicos del cine, que tardaron lo suyo hasta que le concedieron el premio honorífico por toda su carrera. No es nada fácil encontrar un parámetro que nos defina la grandeza de un personaje como Issur Danielovitch Demsky, que así es como se llamaba el hijo del trapero antes de convertirse en leyenda.

Nosotros lo tenemos más fácil para cuantificar el tamaño del efecto en nuestros estudios, aunque la verdad es que los investigadores suelen estar más interesados en contarnos la significación estadística que en el tamaño del efecto. Es tan poco habitual calcularlo que, incluso, muchos paquetes estadísticos olvidan contar con rutinas para poder obtenerlo. Nosotros vamos a centrarnos hoy en la forma de medir el tamaño del efecto en diferencias de medias.

Tamaño de efecto con diferencias de medias

Imaginemos que queremos hacer un ensayo para comparar el efecto de un nuevo tratamiento frente al placebo y que vamos a medir el resultado con una variable cuantitativa X. Lo que haremos es calcular la media de efecto entre participantes del grupo experimental o de intervención y la compararemos con la media de los participantes del grupo control. Así, el tamaño del efecto de la intervención respecto al placebo se verá representado por la magnitud de la diferencia entre la media en el grupo experimental y la del grupo control:d= \bar{x}_{e}-\bar{x}_{c}Sin embargo, aunque es lo más sencillo de calcular, este valor no nos sirve para hacernos una idea del tamaño del efecto, ya que su magnitud va a depender de varios factores, como la unidad de medida de la variable. Pensemos cómo cambian las diferencias si una media es el doble de la otra según valgan 1 y 2 o 0,001 y 0,002. Para que esta diferencia pueda sernos útil es necesario estandarizarla, así que un señor llamado Gene Glass pensó que podía hacerlo dividiéndola por la desviación estándar del grupo control. Obtuvo así la conocida delta de Glass, que se calcula según la siguiente fórmula:\delta = \frac{\bar{x}_{e}-\bar{x}_{c}}{S_{s}}Ahora bien, como lo que queremos es hacer una estimación de cuánto valdría el valor de delta en la población, deberemos calcular la desviación estándar utilizando n-1 en el denominador en lugar de n, ya que sabemos que esta cuasivarianza es un mejor estimador del valor poblacional de la desviación:S_{c}=\sqrt{\frac{\sum_{i=1}^{n_{c}}(x_{ic}-\bar{x}_{c})}{n_{c}-1}}Pero no os dejéis impresionar por delta, no es más que una puntuación Z (las que se obtienen restando el valor menos su media y dividiéndolo por la desviación estándar): cada unidad del valor de delta equivale a una desviación estándar, por lo que representa la diferencia estandarizada del efecto que se produce entre los dos grupos por efecto de la intervención.

Este valor nos permite estimar el porcentaje de superioridad del efecto calculando el área bajo la curva de la normal estándar N(0,1) para un valor de delta (equivale a la desviación estándar) determinado. Por ejemplo, podemos calcular el área que corresponde a un valor de delta = 1,3. Nada más sencillo que utilizar una tabla de valores de la distribución normal estándar o, incluso mejor, la función pnorm() de R, que nos devuelve el valor 0,90. Esto quiere decir que el efecto en el grupo de intervención supera en un 90% el efecto en el grupo control.

El problema de la delta de Glass es que la diferencia de medias depende de la variabilidad entre los dos grupos, lo que hace que sea sensible a estas diferencias de varianza. Si las varianzas de los dos grupos son muy diferentes, el valor de delta puede resultar sesgado. Por eso un tal Larry Vernon Hedges quiso contribuir con su propia letra a este particular abecedario y decidió hacer el cálculo de Glass de forma similar, pero utilizando una varianza unificada que no asuma la igualdad de las mismas, según la fórmula siguiente:S_{u}=\sqrt{\frac{(n_{e}-1)S_{e}^{2}+(n_{c}-1)S_{c}^{2}}{n_{e}+n_{c}-2}}Si sustituimos la varianza del grupo control de la fórmula de la delta de Glass por esta varianza unificada obtendremos la denominada g de Hedges. La ventaja de utilizar esta desviación estándar unificada es que tiene en cuenta las varianzas y los tamaños de los dos grupos, por lo que la g tiene menos riesgo de sesgo que la delta cuando no podemos asumir igualdad de varianzas entre los dos grupos.

De todas formas, tanto la delta como la g tienen un sesgo positivo, lo que quiere decir que tienden a sobreestimar el tamaño del efecto. Para evitar esto, Hedges modificó el cálculo de su parámetro para poder obtener así una g ajustada, según la fórmula siguiente:g_{a}=g\left ( 1-\frac{3}{4gl-9} \right )donde gl son los grados de libertad, que se calculan como ne+nc.

Esta corrección es más necesaria con muestras pequeñas (pocos grados de libertad). Es lógico, si miramos la fórmula, a más grados de libertad, menos necesario será corregir el sesgo.

Hasta ahora hemos tratado de solucionar el problema de calcular un estimador del tamaño del efecto que no esté sesgado por la falta de igualdad de varianzas. El asunto es que, en el rígido y controlado mundo de los ensayos clínicos, lo habitual es que podamos asumir la igualdad de varianzas entre los grupos de las dos ramas del estudio. Podríamos pensar, pues, que si esto se cumple no sería necesario recurrir a los artificios del n-1.

Pues esto mismo pensó Jacob Cohen, así que ideó su propio parámetro, la d de Cohen. Esta d de Cohen es parecida a la g de Hedges, pero todavía más sensible a la desigualdad de varianzas, por lo que solo la usaremos cuando podamos asumir la igualdad de varianzas entre los dos grupos. Su cálculo es idéntico al de la g de Hedges, pero empleando n en lugar de n-1 para obtener la varianza unificada.

Para andar por casa, podemos decir que el tamaño del efecto es pequeño para d=0,2, medio para d=0,5, grande para d=0,8 y muy grande para d=1,20. Además, podemos establecer una relación entre d y el coeficiente de correlación de Pearson (r), que también es una medida muy utilizada para estimar el tamaño del efecto.

El coeficiente de correlación nos mide la relación entre una variable independiente binaria (intervención o control) y la variable dependiente numérica (nuestra X). La gran ventaja de esta medida es que es más sencilla de interpretar que los parámetros que hemos visto hasta ahora, que funcionan todos como puntuaciones Z estandarizadas. Ya sabemos que r puede valer de -1 a 1 y el significado de estos valores.

r=\frac{d}{\sqrt{d^{2}+\left ( \frac{1}{pq} \right )}}

Así, si queréis calcular r a partir de d, no tenéis más que aplicar la siguiente fórmula:siendo p y q las proporciones de sujetos de los grupos experimental y control (p=ne/n y q=nc/n). En general, cuanto mayor tamaño de efecto, mayor r y viceversa (aunque hay que tener en cuenta que r también es menor al aumentar la diferencia entre p y q). De todas formas, el factor que más condiciona el valor de r es el valor de d.

Nos vamos…

Y con esto vamos a terminar por hoy. No creáis que hemos tratado todas las medidas de esta familia. Hay cerca de un centenar de parámetros para estimar el tamaño del efecto, como el coeficiente de determinación, la eta-cuadrado, la ji-cuadrado, etc., incluso otras que inventó el propio Cohen (no satisfecho solo con la d), como la f-cuadrado o la q de Cohen. Pero esa es otra historia…

Cuando nada malo pasa, ¿va todo bien?

Print Friendly, PDF & Email

Cálculo de la probabilidad con denominador cero

Tengo un cuñado que cada vez tiene más miedo a subirse a un avión. Es capaz de hacer viajes por carretera durante varios días seguidos con tal de no despegarse del suelo. Pero resulta que, el pobrecillo, no tiene más remedio que hacer un viaje transcontinental y no le queda otra que tomar un avión para hacer el desplazamiento.

Eso sí, mi cuñado, además de miedoso, es una persona ocurrente. Se ha dedicado a contar el número de viajes de las diferentes compañías aéreas y el número de accidentes que ha tenido cada una para poder calcular la probabilidad de tener un percance con cada una de ellas y volar con la más segura. El asunto es muy sencillo si recordamos aquello de probabilidad igual a casos favorables dividido por casos posibles.

Además, está feliz porque hay una compañía que ha hecho 1500 vuelos y nunca ha tenido ningún accidente, luego la probabilidad de tener un accidente volando en sus aviones será, según mi cuñado, de 0/1500 = 0. Se ha quedado tan tranquilo y, casi, hasta se le ha quitado el miedo. Matemáticamente es prácticamente seguro que no le vaya a pasar nada. ¿Qué pensáis de mi cuñado?

Muchos de vosotros ya estaréis pensando que utilizar a los cuñados para estos ejemplos tiene estos problemas. Todos sabemos cómo son los cuñados… Pero no seáis injustos con ellos. Como dice el famoso humorista Joaquín Reyes, “cuñados somos todos”, así que no os paséis de la raya. De lo que no hay duda, en eso estaremos todos de acuerdo, es de que mi cuñado se equivoca: el que no haya habido ningún percance en los 1500 vuelos no da seguridad de que no se caiga el siguiente. Dicho de otro modo, aunque el numerador de la proporción sea cero, si hacemos una estimación del riesgo real sería incorrecto quedarnos con el cero como resultado.

Esta situación se presenta con cierta frecuencia en los estudios de investigación de Biomedicina. Para dejar tranquilas a las compañías aéreas y a los aerofóbicos, pensad que tenemos un nuevo fármaco con el que queremos prevenir esa terrible enfermedad que es la fildulastrosis. Tomamos 150 personas sanas y les damos el antifildulín durante 1 año y, al cabo de este periodo, no detectamos ningún nuevo caso de enfermedad. ¿Podemos concluir entonces que el tratamiento previene con seguridad absoluta el desarrollo de la enfermedad? Obviamente, no. Pensemos un poco.

Cálculo de la probabilidad con denominador cero

Hacer inferencias sobre probabilidades cuando el numerador de la proporción es cero puede resultar algo truculento, ya que tendemos a pensar que la no ocurrencia de eventos es algo cualitativamente diferente de la ocurrencia de uno, pocos o muchos eventos, y esto no es realmente así. Un numerador igual a cero no quiere decir que el riesgo sea cero, así como tampoco nos impide hacer inferencias acerca del tamaño del riesgo, ya que podemos aplicar los mismos principios estadísticos que a los numeradores distintos de cero.

Volviendo a nuestro ejemplo, supongamos que la incidencia de fildulastrosis en la población general es de 3 casos por cada 2000 personas al año (1,5 por mil, 0,15% o 0,0015). ¿Podemos inferir con nuestro experimento si el tomar antifildulín aumenta, disminuye o no modifica el riesgo de fildulastrosis? Siguiendo la conocida frase, sí, podemos.

Vamos a seguir nuestra costumbre de considerar la hipótesis nula de igualdad de efecto, de forma que el riesgo de enfermedad no se modifique por el nuevo tratamiento. Así, el riesgo de cada uno de los 150 participantes de enfermar a lo largo del estudio será de 0,0015. Dicho de otro modo, el riesgo de no enfermar será de 1-0,0015 = 0,9985. ¿Cuál será la probabilidad de que no enferme ninguno durante el año del estudio? Como son 150 sucesos independientes, la probabilidad de que 150 sujetos no enfermen será de 0,9985150 = 0,8. Vemos, pues, que aunque el riesgo sea el mismo que el de la población general, con este número de pacientes tenemos un 80% de probabilidades de no detectar ningún evento (fildulastrosis) durante el estudio, así que sería más sorprendente encontrar algún enfermo que no el hecho de no tener ninguno. Pero lo más sorprendente es que estamos, así, dando la probabilidad de que no tengamos ningún enfermo en nuestra muestra: que no haya ningún enfermo, como piensa mi cuñado, no tiene una probabilidad de 0 (0/150), ¡sino del 80%!

Y lo peor es que, visto este resultado, el pesimismo nos invade: es posible, incluso, que el riesgo de enfermedad con el nuevo fármaco sea mayor y no estemos detectándolo. Supongamos que el riesgo con la medicación es del 1% (frente al 0,15% de la población general). El riesgo de que no enferme ninguno sería de (1-0,01)150 = 0,22. Incluso con un riesgo del 2%, el riesgo de que no enferme ninguno es de (1-0,02)150 = 0,048. Recordad que el 5% es el valor que solemos adoptar como límite “seguro” para rechazar la hipótesis nula sin cometer un error de tipo 1.

Llegados a este punto, podemos preguntarnos si estamos gafados y no hemos tenido la suerte de detectar casos de enfermedad cuando el riesgo es alto o, por el contrario, que no somos tan desgraciados y, en realidad, el riesgo debe ser bajo. Para aclararnos, podemos volver a nuestro límite de confianza habitual del 5% y ver con qué riesgo de enfermar con el tratamiento tenemos, al menos, un 5% de probabilidades de detectar algún enfermo:

– Riesgo de 1,5/1000: (1-0,0015)150 = 0,8.

– Riesgo de 1/1000: (1-0,001)150 = 0,86.

– Riesgo de 1/200: (1-0,005)150 = 0,47.

– Riesgo de 1/100: (1-0,01)150 = 0,22.

– Riesgo de 1/50: (1-0,02)150 = 0,048.

– Riesgo de 1/25: (1-0,04)150 = 0,002.

Como vemos en la serie anterior, nuestro rango de “seguridad” del 5% se alcanza cuando el riesgo está por debajo de 1/50 (2% o 0,02). Esto quiere decir que, con una probabilidad de equivocarnos de un 5%, el riesgo de presentar fildulastrosis tomando el antifuldulín es igual o menor de 2%. En otras palabras, el intervalo de confianza del 95% de nuestra estimación valdría de 0 a 0,02 (y no 0, si calculamos la probabilidad de una forma simplista).

Para evitar que nuestras recalentadas neuronas terminen por fundirse, vamos a ver una forma más sencilla de automatizar este proceso. Para ello empleamos la conocida como regla del 3. Si hacemos el estudio con n pacientes y ninguno presenta el evento, podemos afirmar que la probabilidad del evento no es cero, sino menor o igual a 3/n. En nuestro ejemplo, 3/150 = 0,02, la probabilidad que calculamos con el método laborioso de más arriba. A esta regla llegaremos tras resolver la ecuación que utilizamos con el método anterior:

(1 – riesgo máximo)n = 0,05

Primero, la reescribimos:

1 – riesgo máximo = 0,051/n

Si n es mayor de 30, 0,051/n se aproxima a (n-3)/n, que es lo mismo que 1-(3/n). De esta manera, podemos reescribir la ecuación como:

1- riesgo máximo = 1 – (3/n)

con lo que podemos resolver la ecuación y obtener la regla final:

Riesgo máximo = 3/n.

Habéis visto que hemos hecho la consideración de que n sea mayor de 30. Esto es debido a que, por debajo de 30, la regla tiende a sobreestimar el riesgo ligeramente, lo que tendremos que tener en cuenta si la usamos con muestras reducidas.

Nos vamos…

Y con esto vamos a ir dando fin a esta entrada con algunas consideraciones. La primera, y como es fácil de imaginar, los programas estadísticos calculan los intervalos de confianza del riesgo sin mayor esfuerzo aunque el numerador valga cero. De igual manera, puede hacerse también de forma manual y mucho más elegante recurriendo a la distribución de probabilidad de Poisson, aunque el resultado es similar al que se obtiene con la regla del 3.

La segunda, ¿qué pasa si el numerador no vale 0 pero es un número pequeño? ¿Puede aplicarse una regla similar? La respuesta, de nuevo, es sí. Aunque no existe una regla general, sí se han desarrollado extensiones de la regla para un número de eventos de hasta 4. Pero esa es otra historia…

Como el hipermercado

Print Friendly, PDF & Email

La nueva interfaz de Pubmed

Hay una cosa que me ocurre de forma recurrente y que me sienta a cuerno quemado. Resulta que a mí me gusta hacer la compra una vez a la semana, así que suelo ir todos los viernes al hipermercado. Yo soy un animal de costumbres que come siempre las mismas cosas y casi los mismos días, así que voy raudo y veloz por los pasillos del hiper echando cosas en el carro y termino de comprar en un santiamén. El problema es que en los hipermercados tienen la mala costumbre de cambiar periódicamente los productos de sitio, con lo que uno se vuelve loco hasta que se lo aprende otra vez. Por si esto fuera poco, los primeros días han cambiado las cosas, pero no los carteles, con lo que tengo que dar mil vueltas hasta encontrar las latas de calamares en su tinta que, como todos sabemos, forman parte de la base de la alimentación actual.

Os preguntaréis por qué os cuento todo este rollo. Pues resulta que la National Library of Medicine (NML) ha hecho una cosa parecida: ahora que por fin había conseguido aprender cómo funcionaba el buscador, van y lo cambian completamente.

Claro que hay que decir en honor de la NML que no se ha limitado a cambiar las cajas de ventana, sino que ha implementado un cambio radical con una interfaz que definen como más limpia y sencilla, además de mejor adaptada a los dispositivos móviles, cada vez más utilizados para hacer las búsquedas bibliográficas. Pero ahí no queda la cosa: hay un montón de mejoras en los algoritmos para buscar los más de 30 millones de citas que incluye Pubmed y, además, la plataforma se aloja en la nube, con lo que promete ser más estable y eficiente.

La nueva interfaz de Pubmed

La NLM anunció el nuevo Pubmed en octubre de 2019 y será la opción por defecto a primeros del año 2020 así que, aunque le versión legacy estará disponible unos meses más, no nos queda más remedio que aprender a manejar la nueva versión. Echemos un vistazo.

Aunque todas las funcionalidades que conocemos de la versión antigua están también presentes en la nueva, el aspecto es radicalmente diferente desde la página de inicio, que os muestro en la primera figura.El elemento más importante es la nueva caja de búsqueda, donde tenemos que introducir el texto para pulsar seguidamente sobre el botón “Search”. Si la NLM no nos engaña, este será el único recurso que tendremos que utilizar la inmensa mayoría de las veces, aunque seguimos teniendo a nuestra disposición un enlace para entrar en el modo de búsqueda avanzada.

Más abajo tenemos cuatro apartados, entre ellos el que contiene ayuda para aprender a usar la nueva versión, y que incluyen herramientas que ya conocíamos, como “Clinical Queries”, “Single Citation Matcher” o “MeSH Database”. En el momento de escribir esta entrada, estos enlaces te dirigen a las versiones antiguas de las herramientas, pero esto cambiará cuando la nueva interfaz sea a la que se acceda por defecto.

Por último, más abajo se ha añadido un componente nuevo llamado “Trending Articles”. Aquí se muestran artículos de interés, que no tienen por qué ser los más recientes, sino aquellos que han despertado interés últimamente y se han podido viralizar de una u otra forma. Junto a esto tenemos la sección de “Latest Literature”, donde se muestran artículos recientes de revistas de alto impacto.

Veamos ahora un poco cómo se hacen las búsquedas con el nuevo Pubmed. Una de las claves de esta actualización es la caja de búsqueda simple, que se ha vuelto mucho más lista al incorporar una serie de nuevos sensores que, según la NLM, tratan de detectar exactamente qué es lo que queremos buscar a partir del texto que hemos introducido.

Por ejemplo, sin introducimos información sobre el autor, la abreviatura de la revista y el año, el sensor de citación detectará que hemos introducido información básica de citación y tratará de encontrar el artículo que estamos buscando. Por ejemplo, si yo escribo “campoy jpgn 2019”, obtengo los resultados que se ven en la segunda figura, donde se muestran los dos trabajos que Pubmed encuentra de esta doctora publicados en este Journal en 2019. Sería algo parecido a lo que antes obteníamos utilizando el “Single Citation Matcher”.

También podemos hacer la búsqueda de forma más tradicional. Por ejemplo, si queremos buscar por autor, lo más recomendable es escribir el apellido seguido de la inicial del nombre, todo en minúsculas, sin etiquetas ni signos de puntuación. Por ejemplo, si queremos buscar trabajos de Yvan Vandenplas, escribiremos “vandenplas y”, con lo que obtendremos los trabajos que os muestro en la tercera figura. Por supuesto, también podemos buscar por tema. Si escribo “parkinson” en la caja de búsqueda, Pubmed me hará una serie de sugerencias sobre los términos de búsqueda parecidos. Si pulso “Search”, obtengo los resultados de la cuarta figura que, como veis, incluye todos los resultados con los términos relacionados.

Pasemos ahora a la página de resultados, que también está llena de sorpresas. Podéis ver un detalle en la quinta figura. Debajo de la caja de búsqueda tenemos dos enlaces: “Advanced”, para acceder a la búsqueda avanzada, y “Create alert”, para que Pubmed nos avise cada vez que se incorpore un nuevo artículo relacionado con esta búsqueda (ya sabéis que para esto tenemos que abrir cuenta en NCBI y entrar pulsando el botón “Login” de la parte superior; esta cuenta es gratuita y guarda toda nuestra actividad en Pubmed para usos posteriores).

Debajo de estos enlaces tenemos tres botones que nos permiten guardar la búsqueda (“Save”), enviarla por correo electrónico (“Email”) y, dentro de los tres puntos, enviarla al portapapeles o a nuestra bibliografía o colecciones, si tenemos cuenta en NCBI.

A la derecha tenemos los botones para ordenar los resultados. El “Best Match” es una de las nuevas prioridades de la NLM, que intenta mostrarnos en las primeras posiciones los trabajos más relevantes. De todas formas, podemos ordenarlos por orden cronológico (“Most recent”), al igual que cambiar la forma de presentarlos pulsando sobre la rueda dentada de la derecha (en formato “Summary” o “Abstract”).

Pasamos a la izquierda de la página de resultados. Lo primero que vemos es un gráfico con los resultados indexados por año. Este gráfico puede ampliarse, lo que nos permite ver la evolución del número de trabajos sobre el tema indexados a lo largo del tiempo. Además, podemos modificar el intervalo temporal y restringir la búsqueda a lo publicado en un periodo determinado. En la sexta figura os muestro como limitar la búsqueda a los resultados de los 10 últimos años.Debajo de cada resultado tenemos dos enlaces nuevos: “Cite” y “Share”. El primero nos permite escribir la cita del trabajo en varios formatos diferentes. El segundo, compartirlo en redes sociales.

Por último, a la izquierda de la pantalla de resultados tenemos el listado de filtros que podemos aplicar. Estos pueden añadirse o quitarse de forma similar a cómo se hacía con la versión antigua de Pubmed y su funcionamiento es muy intuitivo, así que no le vamos a dedicar más tiempo.

Si pulsamos sobre uno de los artículos de la lista de resultados accederemos a la pantalla con el texto del mismo (séptima figura). Esta pantalla es similar a la de la versión clásica de Pubmed, aunque se incluyen botones nuevos como “Cite” y los de acceso a redes sociales, además de información adicional sobre artículos relacionados y artículos en los que se cita el que hemos seleccionado. También como novedad, tenemos unas flechas de navegación en los extremos izquierdo y derecho de la pantalla para pasar al texto de los artículos anterior y posterior, respectivamente.

La búsqueda avanzada

Para ir acabando esta entrada, vamos a echar un vistazo a la nueva búsqueda avanzada, a la que podemos acceder pulsando sobre el enlace “Advanced”, que nos llevará a la pantalla que veis en la octava figura.

El funcionamiento es muy similar al de la versión clásica. Podemos ir añadiendo términos con los operadores booleanos, combinar búsquedas, etc. Os animo a que juguéis con la búsqueda avanzada, las posibilidades son infinitas. La parte más novedosa de esta herramienta es la sección con la historia y los detalles de búsqueda (“History and Search Details”), en la parte inferior. Esto permite conservar búsquedas previas y volver a ellas, teniendo en cuenta siempre que todo esto se borra al salir de Pubmed si no tenemos cuenta en NCBI.

Llamo vuestra atención sobre la pestaña “Search Details”, que podéis abrir tal como os muestro en la novena figura. La búsqueda se hace más transparente, ya que nos muestra cómo la ha interpretado Pubmed en base a un sistema automático de elección de términos (“Automatic Term Mapping”). Aunque nosotros no sepamos muy bien cómo acotar la búsqueda a términos específicos de la enfermedad de Parkinson, Pubmed sí que sabe sobre qué estamos buscando e incluye todos los términos en la búsqueda, además de la cadena inicial que nosotros introducimos, claro está.

Nos vamos…

Y aquí acabamos por hoy. Habéis podido ver que estos de la NLM se han superado, poniendo a nuestra disposición una nueva herramienta más sencilla de utilizar, pero, a la vez, mucho más potente e inteligente. Google debe estar temblando, pero nos os preocupéis, seguro que inventa algo para superarse.

Ya podéis ir dejando la versión vieja, no esperéis a que desaparezca para poder empezar a disfrutar de la nueva. Tendremos que volver a hablar de estos temas cuando se establezcan las nuevas versiones del resto de las herramientas, como las Clinical Queries, pero esa es otra historia…

Columnas, tartas y un italiano ilustre

Print Friendly, PDF & Email

Representación de variables cualitativas

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

Representación de variables cualitativas

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Diagrama de sectores

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas categorías de la variable. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

Diagrama de barras

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Diagrama de Pareto

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Nos vamos…

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…