¿Exotérico o esotérico?

Print Friendly, PDF & Email

Análisis multivariante

Hay días que vengo bíblico. Otros días vengo mitológico. Hoy vengo filosófico y hasta un poco masónico.

Y es que el otro día me dio por preguntarme cuál es la diferencia entre exotérico y esotérico, así que lo consulté con ese amigo de todos que tanto sabe de todo, nuestro amigo Google. Amablemente me explicó que ambos términos son parecidos y suelen explicar dos aspectos de una misma doctrina. El exoterismo hace referencia al saber que no se ve limitado a un determinado grupo de la comunidad que trata esos conocimientos, conocimientos que pueden ser divulgados y puestos al alcance de cualquiera. Por otra parte, el esoterismo hace referencia a los conocimientos que pertenecen a un orden más profundo y elevado, solo al alcance de unos pocos privilegiados especialmente educados para comprenderlos.

Y ahora, una vez comprendida la diferencia, os hago una pregunta un poco capciosa: la estadística multivariante, ¿es exotérica o esotérica? La respuesta, como es lógico, dependerá de cada uno, pero vamos a ver si es verdad que ambos conceptos no son contradictorios, sino complementarios, y podemos quedarnos en un justo término medio, al menos en la comprensión de la utilidad de las técnicas multivariantes.

Análisis multivariante

Estamos más habituados a utilizar técnicas de estadística univariante o bivariante, que permiten estudiar de forma conjunta un máximo de dos características de los individuos de una población para detectar relaciones entre ellas.

Sin embargo, con el desarrollo matemático y, sobre todo, de la capacidad de cálculo de nuestros ordenadores, cobran cada vez más importancia las técnicas de estadística multivariante o multivariada.

Podemos definir el análisis multivariado como el conjunto de procedimientos estadísticos que estudian de forma simultánea varias características de un mismo sujeto o entidad, con el fin de analizar la interrelación que pueda existir entre todas las variables aleatorias que representan dichas características. Permitidme que insista en los dos aspectos de estas técnicas: la multiplicidad de variables y el estudio de sus posibles interrelaciones.

Hay multitud de técnicas de análisis multivariante, abarcando desde los métodos puramente descriptivos hasta los que utilizan técnicas de inferencia estadística para obtener conclusiones de los datos y poder elaborar modelos que no son evidentes a simple vista observando los datos obtenidos. También nos permitirán desarrollar modelos de predicción de varias variables y establecer relaciones entre las mismas.

Algunas de estas técnicas son la extensión de sus equivalentes con dos variables, una dependiente y otra independiente o explicativa. Otras, no tienen nada equivalente parecido en la estadística de dos dimensiones.

Algunos autores clasifican estas técnicas en tres grandes grupos: los modelos de rango completo y no completo, las técnicas para reducir la dimensionalidad y los métodos de clasificación y discriminación. No os preocupéis si esto parece un galimatías, vamos a tratar de simplificarlo un poco.

Para poder hablar de las TÉCNICAS DE RANGO COMPLETO Y NO COMPLETO, creo que habrá que explicar primero a qué rango nos estamos refiriendo.

Un inciso previo

Aunque no vamos a entrar en ello ni de lejos, todos estos métodos encierran en su interior técnicas de cálculo matricial. Ya sabéis, las matrices, un conjunto de números en dos dimensiones (las que vamos a tratar aquí) que forman filas y columnas y que pueden sumarse y multiplicarse entre sí, además de otras operaciones.

Se define el rango de una matriz como el número de filas o columnas que son linealmente independientes (da igual filas o columnas, el número es el mismo). El rango puede valer desde 0 hasta el mínimo número de filas o de columnas. Por ejemplo, una matriz de 2 filas y 3 columnas podrá tener un rango de 0 a 2. Una matriz de 5 filas y 3 columnas podrá tener un rango de 0 a 3. Ahora imaginad una matriz de dos filas, la primera 1 2 3 y la segunda 3 6 9 (tiene 3 columnas). Su rango máximo sería 2 (el número menor de filas y de columnas) pero, si os fijáis, la segunda fila es la primera multiplicada por 3, así que solo hay una linealmente independiente, por lo que su rango es igual a 1.

Pues bien, se dice que una matriz es de rango completo cuando su rango es igual al más grande posible para una matriz de sus mismas dimensiones. El tercer ejemplo que os he puesto sería una matriz de rango no completo, ya que una matriz de 2×3 tendría un rango máximo de 2 y el de nuestra matriz es de 1.

Una vez entendido esto, vamos con los métodos de rango completo y no completo.

Regresión lineal múltiple

El primero que veremos es el modelo de regresión lineal múltiple. Este modelo, extensión del de regresión lineal simple, se utiliza cuando tenemos una variable dependiente y una serie de variables explicativas, todas ellas cuantitativas, y se cumple que se pueden relacionar de forma lineal y que las explicativas conforman una matriz de rango completo.

De forma similar a la regresión simple, esta técnica nos permite predecir los cambios de la variable dependiente en función de las variables explicativas. La fórmula es similar a la de la regresión simple, pero incluyendo todas las variables independientes explicativas, así que no os voy a aburrir con ella. No obstante, dado que os he castigado con los rangos y las matrices, dejadme que os diga que, en términos matriciales, se puede expresar de la siguiente manera:

Y = Xβ + ei

donde X es la matriz de rango completo de las variables explicativas. La ecuación incluye un término de error que se justifica por la posible omisión en el modelo de variables explicativas relevantes o de errores de medida.

Correlación canónica

Para complicar las cosas, imaginad que tratásemos de correlacionar simultáneamente varias variables independientes con varias dependientes. En este caso no nos sirve la regresión múltiple y tendríamos que recurrir a la técnica de correlación canónica, que permite realizar predicciones de varias variables dependientes en función del valor de varias explicativas.

Técnicas de rango no completo

Si recordáis de la estadística bivariante, el análisis de la varianza (ANOVA) es la técnica que nos permite estudiar el efecto sobre una variable dependiente cuantitativa de las variables explicativas cuando estas son categorías de una variable cualitativa (a estas categorías las llamamos factores). En este caso, como cada observación puede pertenecer a uno y solo uno de los factores de la variable explicativa, la matriz X será de rango no completo.

Una situación un poco más complicada se produce cuando las explicativas son una variable cuantitativa y uno o más factores de una cualitativa. En estas ocasiones recurrimos a un modelo lineal generalizado denominado análisis de la covarianza (ANCOVA).

Trasladando lo que acabamos de decir al reino de la estadística multivariante, tendríamos que utilizar la extensión de estas técnicas.  La extensión del ANOVA cuando hay más de una variable dependiente que no se puede combinar en una sola es el análisis multivariante de la varianza (MANOVA). Si coexisten factores de variables cualitativas con variables cuantitativas, recurriremos al análisis multivariante de la covarianza (MANCOVA).

El segundo grupo de técnicas multivariantes son las que tratan de REDUCIR LA DIMENSIONALIDAD.

En algunas ocasiones tenemos que manejar un número de variables tan elevado que resulta complejo organizarlas y llegar a alguna conclusión útil. Ahora bien, si tenemos la suerte de que las variables estén correlacionadas entre sí, la información que aporte el conjunto será redundante, ya que la que den unas variables incluirá la que ya aportan otras variables del conjunto.

En estos casos resulta útil reducir la dimensión del problema disminuyendo el número de variables a un conjunto más pequeño de variables no correlacionadas entre sí y que recojan la mayor parte de la información incluida en el conjunto original. Y decimos la mayor parte porque, como es obvio, cuanto más reduzcamos el número, más información perderemos.

Las dos técnicas fundamentales que utilizaremos en estos casos son el análisis de componentes principales y el análisis factorial.

Análisis de componentes principales

El análisis de componentes principales toma un conjunto de p variables correlacionadas y las transforma en uno nuevo de variables no correlacionadas, al que denominamos componentes principales. Estas componentes principales nos permiten explicar las variables en términos de sus dimensiones comunes.

Sin entrar en detalle, se elabora una matriz de correlaciones y una serie de vectores que nos proporcionarán las nuevas componentes principales, ordenadas de mayor a menor según la varianza de los datos originales que explique cada componente. Cada componente será una combinación lineal de las variables originales, algo similar a una recta de regresión.

Imaginemos un caso muy sencillo con seis variables explicativas (X1 a X6). La componente principal 1 (CP1) puede ser igual, por decir algo, a 0,15X1 + 0,5X2 – 0,6X3 + 0,25X4 – 0,1X5 – 0,2X6 y, además, explicar el 47% de la varianza. Si la CP2 resulta que explica el 30% de la varianza, con CP1 y CP2 tendremos controlado el 77% con un conjunto de datos más fácil de manejar (pensemos si en lugar de 6 variables tenemos 50). Y no solo eso, si representamos gráficamente CP1 frente a CP2, podemos ver si se produce algún tipo de agrupamiento de la variable en estudio según los valores de las componentes principales.

De esta manera, si tenemos suerte y unas pocas componentes recogen la mayor parte de la varianza de las variables originales, habremos reducido la dimensión del problema. Y aunque, en ocasiones, esto no es posible, siempre nos puede servir para encontrar agrupaciones en los datos definidos por un gran número de variables, lo cual nos enlaza con la siguiente técnica, el análisis factorial.

Análisis factorial

Sabemos que la varianza total de nuestros datos (la que estudia el análisis de componentes principales) es la suma de tres componentes: la varianza común o compartida, la varianza específica de cada variable y la varianza debida al azar y los errores de medición. Una vez más, y sin entrar en detalles, el método del análisis factorial parte de la matriz de correlaciones para aislar únicamente la varianza común y tratar de encontrar una serie de dimensiones subyacentes comunes, llamadas factores, que no son observables viendo el conjunto original de variables.

Como vemos, estos dos métodos son muy parecidos, por lo que existe mucha confusión sobre cuándo se debe utilizar uno y cuándo otro, máxime teniendo en cuenta que el análisis de componentes principales puede ser el primer paso en la metodología del análisis factorial.

Ya lo hemos dicho, el análisis de componentes principales trata de explicar la máxima proporción posible de la varianza total de los datos originales, mientras que el objetivo del estudio del análisis factorial es explicar la covarianza o correlación que existe entre sus variables. Por tanto, habitualmente se utilizará el análisis de componentes principales para buscar combinaciones lineales de las variables originales y reducir un conjunto de datos extenso a otro más reducido y manejable, mientras que recurriremos al análisis factorial cuando busquemos un nuevo conjunto de variables, generalmente más reducido que el original, y que represente lo que tienen en común las variables originales.

Avanzando en nuestro arduo camino de hoy, para aquellos esforzados que todavía sigáis leyendo, vamos a tratar los MÉTODOS DE CLASIFICACIÓN Y DISCRIMINACIÓN, que son dos: el análisis de conglomerados y el análisis discriminante.

Análisis de conglomerados

El análisis de conglomerados trata de reconocer patrones o formas para resumir la información contenida en las variables iniciales, que se agrupan en función de su mayor o menor homogeneidad. En resumen, buscamos grupos que sean mutuamente excluyentes, de forma que los elementos sean lo más parecidos posible a los de su grupo y lo más diferentes posible a los de los otros grupos.

La parte más famosa del análisis de conglomerados es, sin duda, su representación gráfica, con árboles de decisión y dendrogramas, en los que se van separando de forma jerárquica grupos homogéneos cada vez más diferentes a los más alejados entre las ramas del árbol.

Pero, en lugar de querer segmentar la población, vamos a suponer que ya tenemos una población segmentada en un número de clases, k. Supongamos que tenemos un grupo de individuos definidos por un número p de variables aleatorias. Si queremos saber a qué clase de la población puede pertenecer un determinado individuo, recurriremos a la técnica del análisis discriminante.

Análisis discriminante

Imaginemos que tenemos un nuevo tratamiento que es muy caro, así que solo queremos indicarlo en los pacientes que estemos seguros de que van a cumplir bien el tratamiento. Así, nuestra población está segmentada en cumplidores y no cumplidores. Nos sería muy útil seleccionar un conjunto de variables que nos permitiesen discriminar a qué clase puede pertenecer una persona concreta e, incluso, cuáles de estas variables son las que discriminan mejor entre los dos grupos. Así, mediremos las variables en el candidato al tratamiento y, utilizando lo que se conoce como criterio o regla de discriminación, lo asignaremos a uno u otro grupo y procederemos en consecuencia. Eso sí, no nos olvidemos, siempre habrá una probabilidad de equivocarse, por lo que nos interesará encontrar la regla discriminante que minimice la probabilidad de error de discriminación.

El análisis discriminante puede parecernos similar al análisis por conglomerados, pero, si lo pensamos, la diferencia es clara. En el análisis discriminante los grupos están previamente definidos (cumplidores o no cumplidores, en nuestro ejemplo), mientras que en el análisis por conglomerados buscamos grupos que no son evidentes: analizaríamos los datos y descubriríamos que hay pacientes que no se toman la pastilla que les mandamos, algo que ni se nos había pasado por la cabeza (además de nuestra ignorancia, demostraríamos nuestra inocencia).

Nos vamos…

Y aquí lo vamos a dejar por hoy. Hemos sobrevolado desde gran altura el escarpado paisaje de la estadística multivariante y espero que haya servido para trasladarla del campo de lo esotérico al de lo exotérico (¿o era al revés?). No hemos entrado en la metodología específica de cada técnica, ya que podríamos haber escrito un libro entero. Con entender qué es cada método y para qué sirve, más o menos, creo que tenemos bastante ganado. Además, los paquetes estadísticos los llevan a cabo, como siempre, sin esfuerzo.

Tampoco penséis que hemos tratado todos los métodos que se han desarrollado para el análisis multivariante. Existen otros muchos, como el análisis conjunto y el escalamiento multidimensional, muy utilizados en publicidad para determinar los atributos de un objeto que son preferidos por la población y cómo influyen en la percepción que tienen sobre el mismo. También podríamos perdernos entre otras técnicas más nuevas, como el análisis de correspondencias, o los modelos de probabilidad lineal, como el análisis logit y el probit, que son combinaciones de regresión múltiple y análisis discriminante, por no hablar de los modelos de ecuaciones simultáneas o estructurales. Pero esa es otra historia…

Por tus acciones te juzgarán

Print Friendly, PDF & Email

Tamaño muestral en estudios de supervivencia

Hoy me vais a perdonar, pero vengo un poco bíblico. Y es que estaba pensando en el cálculo del tamaño de la muestra para los estudios de supervivencia y me ha recordado el mensaje que nos transmite Ezequiel: según tus caminos y tus obras te juzgarán.

Una vez más, pensaréis que de tanto darle vueltas a la medicina basada en la evidencia se me ha ido un poco la cabeza, pero si aguantáis un poco y seguís leyendo, veréis que la analogía tiene su punto.

Una pequeña introducción

Uno de los indicadores de calidad metodológica más valorados de un estudio es el cálculo previo del tamaño muestral necesario para demostrar (o rechazar) la hipótesis de trabajo. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori), teniendo en cuenta para ello el nivel de significación y la potencia que queramos que tenga el estudio.

En resumen, si detectamos el tamaño de efecto que previamente establecimos, la diferencia entre los dos grupos será estadísticamente significativa (nuestra ansiada p<0,05). Por el contrario, si no hay diferencia significativa, probablemente no exista diferencia real, aunque siempre con el riesgo de cometer un error de tipo 2 que es igual a 1 menos la potencia del estudio.

Hasta aquí parece que está claro, tenemos que calcular el número de participantes que necesitamos. Pero esto no es tan sencillo para los estudios de supervivencia.

El planteamiento del problema

Los estudios de supervivencia agrupan una serie de técnicas estadísticas para aquellas situaciones en las que no basta observar un suceso, sino que es fundamental el tiempo que transcurre hasta que el suceso se produce. En estos casos, la variable de resultado no será ni cuantitativa ni cualitativa, sino de tiempo a suceso. Es una especie de variable mixta que tiene una parte dicotómica (el suceso se produce o no) y una cuantitativa (cuánto tarda en producirse).

El nombre de estudios de supervivencia es un poco engañoso y uno puede pensar que el suceso en estudio será la muerte de los participantes, pero nada más lejos de la realidad. El suceso puede ser cualquier tipo de evento, bueno o malo para el participante. Lo que ocurre es que los primeros estudios se aplicaron a situaciones en los que el suceso de interés era la muerte y el nombre ha prevalecido.

En estos estudios, el periodo de seguimiento de los participantes suele ser desigual e, incluso, algunos pueden terminar el estudio sin presentar el suceso de interés o perderse del estudio antes de que finalice.

Por estos motivos, si queremos saber si hay diferencias entre la presentación del suceso de interés en las dos ramas del estudio, para calcular la muestra no será tan importante el número de sujetos que participen, sino el número de sucesos que necesitamos para que la diferencia sea significativa si se alcanza la diferencia clínicamente importante, que deberemos establecer a priori.

Vamos a ver cómo se hace, dependiendo del tipo de contraste que tengamos pensado utilizar.

Tamaño muestral en estudios de supervivencia

Si solo queremos determinar el número de sucesos necesarios que tenemos que observar para detectar una diferencia entre un grupo determinado y la población de la que procede, la fórmula para hacerlo es la siguiente:

Donde E es el número de sucesos que necesitamos observar, K es el valor determinado por el nivel de confianza y la potencia del estudio y lnTR es el logaritmo natural de la tasa de riesgo.

Cálculo del valor de K según el nivel de confianza, el tipo de contraste y la potencia del estudio. K = (Zα + Zβ)2El valor de K se calcula como (Zα + Zβ)2, siendo z el valor estandarizado para el nivel de confianza y de potencia elegido. Lo más habitual es realizar un contraste bilateral (con dos colas) con un nivel de confianza de 0,05 y una potencia de 80%. En este caso, los valores son Zα = 1,96, Zβ = 0,84 y K = 7,9. En la tabla adjunta os dejo los valores más frecuentes de K, para que no tengáis que calcularlos.

La tasa de riesgo es el cociente entre el riesgo del grupo en estudio y el riesgo en la población, que se supone que conocemos. Se define como Sm1/Sm2, donde Sm1 es el tiempo medio de aparición del evento en la población y Sm2 el que esperamos en el grupo de estudio.

Vamos a poner un ejemplo para entender mejor lo dicho hasta ahora.

Supongamos que los pacientes que toman un determinado fármaco (que llamaremos A para no esforzarnos mucho) tienen riesgo de desarrollar úlcera de estómago durante el primer año de tratamiento. Ahora seleccionamos un grupo y les damos un tratamiento (B, esta vez) que actúa como profilaxis, de tal forma que esperamos que el evento tarde un año más en producirse. ¿Cuántas úlceras tenemos que observar para un estudio con un nivel de confianza de 0,05 y una potencia de 0,8 (80%)?

K sabemos que vale 7,9. Sm1 = 1 y Sm2 = 2. Sustituimos sus valores en la fórmula que ya conocemos:

Necesitaremos observar 33 úlceras durante el seguimiento. Ahora ya podemos calcular cuántos pacientes tenemos que incluir en el estudio (veo complicado reclutar úlceras).

Vamos a suponer que podemos reclutar 12 pacientes anuales. Si tenemos que observar 33 úlceras, el seguimiento se deberá prolongar durante 33/12 = 2,75, o sea, 3 años. Para más seguridad, planificaríamos un seguimiento un poco superior.

Comparación de curvas de supervivencia

Este es el caso más sencillo. Cuando lo que queremos es comparar las dos curvas de supervivencia (pensamos hacer una prueba de log-rank), el cálculo del tamaño muestral es un pelín más complejo, pero no mucho. Al fin y al cabo, ya estaremos comparando las curvas de probabilidad de supervivencia de los dos grupos.

En estos casos, la fórmula para el cálculo del número de sucesos necesarios es la siguiente:

Nos encontramos un parámetro nuevo, C, que es la relación de participantes entre un grupo y el otro (1:1, 1:2, etc.).

Pero hay otra diferencia con el supuesto anterior. En estos casos la TR se calcula como el cociente de los logaritmos naturales de π1 y π2, que son las proporciones de participantes de cada grupo que presentan el evento en un periodo de tiempo determinado.

Siguiendo el ejemplo anterior, supongamos que conocemos que el riesgo de úlcera en los que toman A es del 50% en los 6 primeros meses y el de los que toman B del 20%. ¿Cuántas úlceras necesitamos observar con el mismo nivel de confianza y la misma potencia del estudio?

Sustituyamos los valores en la fórmula anterior:

Necesitaremos observar 50 úlceras durante el estudio. Ahora necesitamos saber cuántos participantes (no sucesos) necesitamos en cada rama del estudio. Lo podemos obtener con la siguiente fórmula:

Si sustituimos nuestros valores en la ecuación, obtenemos un valor de 29,4, así que necesitaremos 30 pacientes en cada rama del estudio, 60 en total.

Para ir terminando ya, vamos a ver que pasaría si queremos una proporción de participantes diferente de la más fácil, 1:1. En ese caso, el cálculo de n con la última fórmula debe ajustarse teniendo en cuenta esta proporción, que es nuestra conocida C:

Supongamos que queremos una relación 2:1. Sustituimos los valores en la ecuación:

Necesitaríamos 23 participantes en una rama y 46, el doble, en la otra, 69 en total.

Nos vamos…

Y aquí lo dejamos por hoy.

Como siempre, todo lo que hemos dicho en esta entrada es para que podamos comprender los fundamentos del cálculo del tamaño muestral. De todos modos, os aconsejo que, si tenéis que hacerlo alguna vez, utilicéis un programa estadístico o una calculadora de tamaño muestral. Hay muchas disponibles y algunas hasta son totalmente gratis.

Espero que ahora comprendáis lo de Ezequiel: son más importantes las cosas que hacemos (o padecemos) que cuántos las hacemos (o padecemos). Hemos visto la forma más sencilla para calcular el tamaño de la muestra de un estudio de supervivencia. Todavía podríamos complicarnos la vida y calcular el tamaño muestral basándonos en estimaciones de los riesgos relativos o de las tasas de riesgos instantáneos, nuestras queridas hazard ratios. Pero esa es otra historia…

La distancia más corta

Print Friendly, PDF & Email

El método de los mínimos cuadrados

El otro día estaba intentando medir la distancia entre Madrid y Nueva York en Google Earth y me encontré con algo inesperado: cuando intentaba trazar una línea recta entre las dos ciudades, esta se torcía y formaba un arco, y no había forma de evitarlo.

Me quedé pensando si no sería verdad aquello que dijo Euclides de que la línea recta es el camino más corto entre dos puntos. Claro que, en seguida, me di cuenta de dónde estaba el error: Euclides pensaba en la distancia entre dos puntos situados en un plano y yo estaba dibujando la distancia mínima entre dos puntos situados en una esfera. Evidentemente, en este caso la distancia más corta no la marca una recta, sino un arco, tal como Google me mostraba.

Y como una cosa lleva a la otra, esto me llevó a pensar en qué pasaría si en vez de dos puntos hubiese muchos más. Esto tiene que ver, como algunos ya imagináis, con la recta de regresión que se calcula para ajustarse a una nube de puntos. Aquí, como es fácil comprender, la recta no puede pasar por todos los puntos sin perder su rectitud, así que los estadísticos idearon una forma para calcular la recta que más se aproxime en promedio a todos los puntos. El método que más utilizan es el que llaman método de los mínimos cuadrados, cuyo nombre hace presagiar algo extraño y esotérico. Sin embargo, el razonamiento para calcularlo es mucho más sencillo y, por ello, no menos ingenioso. Veámoslo.

El método de los mínimos cuadrados

El modelo de regresión lineal posibilita, una vez establecida una relación lineal, efectuar predicciones sobre el valor de una variable Y sabiendo los valores de un conjunto de variables X1, X2,… Xn. A la variable Y la llamamos dependiente, aunque también se la conoce como variable objetivo, endógena, criterio o explicada. Por su parte, las variables X son las variables independientes, conocidas también como predictoras, explicativas, exógenas o regresoras.

Cuando hay varias variables independientes nos encontramos ante un modelo de regresión lineal múltiple, mientras que cuando hay solo una hablaremos de la regresión lineal simple. Por hacerlo más sencillo, nos centraremos, cómo no, en la regresión simple, aunque el razonamiento vale también para la múltiple.

Como ya hemos dicho, la regresión lineal requiere eso, que la relación entre las dos variables sea lineal, así que puede representarse mediante la siguiente ecuación de una línea recta:

Recta de regresión

Aquí nos encontramos con dos amigos nuevos acompañando a nuestras variables dependiente e independiente: son los coeficientes del modelo de regresión. β0 representa la constante del modelo (también llamada intercepto) y es el punto donde la recta corta el eje de ordenadas (el de las Y, para entendernos bien). Representaría el valor teórico de la variable Y cuando la variable X vale cero.

Por su parte, β1 representa la pendiente (inclinación) de la recta de regresión. Este coeficiente nos dice el incremento de unidades de la variable Y que se produce por cada incremento de una unidad de la variable X.

Nos volvemos a encontrar con el azar

Esta sería la recta teórica general del modelo. El problema es que la distribución de valores no se va a ajustar nunca de manera perfecta a ninguna recta así que, cuando vayamos a calcular un valor de Y determinado (yi) a partir de un valor de X (xi) habrá una diferencia entre el valor real de yi y el que obtengamos con la fórmula de la recta. Ya nos hemos vuelto a encontrar con el azar, nuestro compañero inseparable, así que no tendremos más remedio que incluirlo en la ecuación:

Recta de regresión con el componente aleatorio

Aunque parezca una fórmula similar a la anterior, ha sufrido una profunda transformación. Ahora tiene dos componentes bien diferenciados, un componente determinista y otro estocástico (error). El componente determinista lo marcan los dos primeros elementos de la ecuación, mientras que el estocástico lo marca el error en la estimación. Los dos componentes se caracterizan por su variable aleatoria, yi y εi, respectivamente, mientras que xi sería un valor determinado y conocido de la variable X.

Vamos a centrarnos un poco en el valor de εi. Ya hemos dicho que representa la diferencia entre el valor real de yi en nuestra nube de puntos y el que nos proporcionaría la ecuación de la recta (el valor estimado, representado como ŷi). Podemos representarlo matemáticamente de la siguiente forma:

Cálculo del residuo de una estimación

Este valor se conoce con el nombre de residuo y su valor depende del azar, aunque si el modelo no está bien especificado pueden también influir otros factores de manera sistemática, pero eso no nos influye para lo que estamos tratando.

Recapitulemos

Vamos a recapitular lo que tenemos hasta aquí:

  1. Una nube de puntos sobre la que queremos dibujar la recta que mejor se ajuste a la nube.
  2. Un número infinito de rectas posibles, de entre las que queremos seleccionar una concreta.
  3. Un modelo general con dos componentes: uno determinista y otro estocástico. Este segundo va a depender, si el modelo es correcto, del azar.

Los valores de las variables X e Y ya los tenemos en nuestra nube de puntos para la que queremos calcular la recta. Lo que variará en la ecuación de la recta que seleccionemos serán los coeficientes del modelo, β0 y β1. ¿Y qué coeficientes nos interesan? Lógicamente, aquellos con los que el componente aleatorio de la ecuación (el error) sea lo menor posible. Dicho de otra forma, queremos la ecuación con un valor de la suma de residuos lo más bajo posible.

Partiendo de la ecuación anterior de cada residuo, podemos representar la suma de residuos de la forma siguiente, donde n es el número de pares de valores de X e Y de que disponemos:

Sumatorio de residuos

Pero esta fórmula no nos sirve. Si la diferencia entre el valor estimado y el real es aleatoria, unas veces será positiva y otras, negativa. Es más, su media será o estará muy próxima a cero. Por este motivo, como en otras ocasiones en las que lo que interesa es medir la magnitud de la desviación, tenemos que recurrir a un método que impida que los negativos se anulen con los positivos, así que calculamos estas diferencias elevadas al cuadrado, según la fórmula siguiente:

Sumatorio del cuadrado de los residuos

¡Ya lo tenemos!

¡Por fin! Ya sabemos de dónde viene el método de los mínimos cuadrados: buscamos la recta de regresión que nos proporcione un valor lo menor posible de la suma de los cuadrados de los residuos. Para calcular los coeficientes de la recta de regresión solo tendremos que ampliar un poco la ecuación anterior, sustituyendo el valor estimado de Y por los términos de la ecuación de la recta de regresión:

Sumatorio del cuadrado de los residuos

y encontrar los valores de b0 y b1 que minimicen la función. A partir de aquí la cosa es coser y cantar, solo tenemos que igualar a cero las derivadas parciales de la ecuación anterior (tranquilos, vamos a ahorrarnos la jerga matemática dura) para obtener el valor de b1:

Cálculo de la pendiente de la recta

Donde tenemos en el numerador la covarianza de las dos variables y, en el denominador, la varianza de la variable independiente. A partir de aquí, el cálculo de b0 es pan comido:

Cálculo del interceptor

Ya podemos construir nuestra recta que, si os fijáis un poco, pasa por los valores medios de X e Y.

Un ejemplo práctico

Y con esto terminamos la parte ardua de esta entrada. Todo lo que hemos dicho es para poder comprender qué significa lo de los mínimos cuadrados y de dónde viene el asunto, pero no es necesario hacer todo esto para calcular la recta de regresión lineal. Los paquetes estadísticos lo hacen en un abrir y cerra de ojos.

Cálculo del modelo de regresión lineal con RPor ejemplo, en R se calcula mediante la función lm(), iniciales de linear model. Veamos un ejemplo utilizando la base de datos “trees” (circunferencia, volumen y altura de 31 observaciones sobre árboles), calculando la recta de regresión para estimar el volumen de los árboles conociendo su altura:

modelo_reg <- lm(Height~Volume, data = trees)

summary(modelo_reg)

La función lm() devuelve el modelo a la variable que le hemos indicado (modelo_reg, en este caso), que podremos explotar después, por ejemplo, con la función summary(). Esto nos proporcionará una serie de datos, tal como podéis ver en la figura adjunta.

En primer lugar, los cuartiles y la mediana de los residuos. Para que el modelo sea correcto interesa que la mediana esté próxima a cero y que los valores absolutos de los residuos se distribuyan de manera uniforme entre los cuartiles (similar entre máximo y mínimo y entre primer y tercer cuartil).

A continuación, se muestra la estimación puntual de los coeficientes junto con su error estándar, lo que nos permitirá calcular sus intervalos de confianza. Esto se acompaña de los valores del estadístico t con su significación estadística. No lo hemos dicho, pero los coeficientes siguen una distribución de la t de Student con n-2 grados de libertad, lo que nos permite saber si son estadísticamente significativos.

Por último, se proporciona la desviación estándar de los residuos, el cuadrado del coeficiente de correlación múltiple o coeficiente de determinación (la precisión con que la recta representa la relación funcional entre las dos variables; su raíz cuadrada en regresión simple es el coeficiente de correlación de Pearson), su valor ajustado (que será más fiable cuando calculemos modelos de regresión con muestras pequeñas) y el contraste F para validar el modelo (los cocientes de las varianzas siguen una distribución de la F de Snedecor).

Así, nuestra recta de regresión quedaría de la siguiente manera:Representación gráfica de la nube de puntos y la recta de regresión

Altura = 69 + 0,23xVolumen

Ya podríamos calcular qué altura tendría un árbol con un volumen determinado que no estuviese en nuestra muestra (aunque debería estar dentro del rango de datos utilizados para calcular la recta de regresión, ya que es arriesgado hacer predicciones fuera de este intervalo).

Además, con el comando scatterplot(Volume ~ Height, regLine = TRUE, smooth = FALSE, boxplots = FALSE, data = trees), podríamos dibujar la nube de puntos y la recta de regresión, como podéis ver en la segunda figura.

Y podríamos calcular muchos más parámetros relacionados con el modelo de regresión calculado por R, pero lo vamos a dejar aquí por hoy.

Nos vamos…

Antes de terminar, deciros que el método de los mínimos cuadrados no es el único que nos permite calcular la recta de regresión que mejor se ajuste a nuestra nube de puntos. Existe también otro método que es el de la máxima verosimilitud, que da más importancia a la elección de los coeficientes más compatibles con los valores observados. Pero esa es otra historia…

¿Rioja o Ribera?

Print Friendly, PDF & Email

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Yo soy Espartaco

Print Friendly, PDF & Email

Me encontraba yo pensando en el tamaño del efecto en diferencias de medias y cómo saber cuándo ese efecto es realmente grande y, por aquello de la asociación de ideas, me ha venido a la cabeza alguien grande que, tristemente, nos ha dejado recientemente. Me estoy refiriendo a Kirk Douglas, ese pedazo de actor que siempre recordaré por sus papeles como vikingo, como Van Gogh o como Espartaco, en la famosa escena de la película en que todos los esclavos, al estilo de nuestro español Fuenteovejuna, se levantan y proclaman ser Espartaco para que no puedan hacerle nada al verdadero (o para que se los fumiguen a todos por igual, mucho más típico del modus operandi de los romanos de aquel tiempo).

No me diréis que el tío no era grande. Pero, ¿cuánto de grande si lo comparamos con otros? ¿Cómo podemos medirlo? Está claro que no por el número de Oscars, ya que eso solo serviría para medir la miopía prolongada de los llamados académicos del cine, que tardaron lo suyo hasta que le concedieron el premio honorífico por toda su carrera. No es nada fácil encontrar un parámetro que nos defina la grandeza de un personaje como Issur Danielovitch Demsky, que así es como se llamaba el hijo del trapero antes de convertirse en leyenda.

Nosotros lo tenemos más fácil para cuantificar el tamaño del efecto en nuestros estudios, aunque la verdad es que los investigadores suelen estar más interesados en contarnos la significación estadística que en el tamaño del efecto. Es tan poco habitual calcularlo que, incluso, muchos paquetes estadísticos olvidan contar con rutinas para poder obtenerlo. Nosotros vamos a centrarnos hoy en la forma de medir el tamaño del efecto en diferencias de medias.

Imaginemos que queremos hacer un ensayo para comparar el efecto de un nuevo tratamiento frente al placebo y que vamos a medir el resultado con una variable cuantitativa X. Lo que haremos es calcular la media de efecto entre participantes del grupo experimental o de intervención y la compararemos con la media de los participantes del grupo control. Así, el tamaño del efecto de la intervención respecto al placebo se verá representado por la magnitud de la diferencia entre la media en el grupo experimental y la del grupo control:d= \bar{x}_{e}-\bar{x}_{c}Sin embargo, aunque es lo más sencillo de calcular, este valor no nos sirve para hacernos una idea del tamaño del efecto, ya que su magnitud va a depender de varios factores, como la unidad de medida de la variable. Pensemos cómo cambian las diferencias si una media es el doble de la otra según valgan 1 y 2 o 0,001 y 0,002. Para que esta diferencia pueda sernos útil es necesario estandarizarla, así que un señor llamado Gene Glass pensó que podía hacerlo dividiéndola por la desviación estándar del grupo control. Obtuvo así la conocida delta de Glass, que se calcula según la siguiente fórmula:\delta = \frac{\bar{x}_{e}-\bar{x}_{c}}{S_{s}}Ahora bien, como lo que queremos es hacer una estimación de cuánto valdría el valor de delta en la población, deberemos calcular la desviación estándar utilizando n-1 en el denominador en lugar de n, ya que sabemos que esta cuasivarianza es un mejor estimador del valor poblacional de la desviación:S_{c}=\sqrt{\frac{\sum_{i=1}^{n_{c}}(x_{ic}-\bar{x}_{c})}{n_{c}-1}}Pero no os dejéis impresionar por delta, no es más que una puntuación Z (las que se obtienen restando el valor menos su media y dividiéndolo por la desviación estándar): cada unidad del valor de delta equivale a una desviación estándar, por lo que representa la diferencia estandarizada del efecto que se produce entre los dos grupos por efecto de la intervención.

Este valor nos permite estimar el porcentaje de superioridad del efecto calculando el área bajo la curva de la normal estándar N(0,1) para un valor de delta (equivale a la desviación estándar) determinado. Por ejemplo, podemos calcular el área que corresponde a un valor de delta = 1,3. Nada más sencillo que utilizar una tabla de valores de la distribución normal estándar o, incluso mejor, la función pnorm() de R, que nos devuelve el valor 0,90. Esto quiere decir que el efecto en el grupo de intervención supera en un 90% el efecto en el grupo control.

El problema de la delta de Glass es que la diferencia de medias depende de la variabilidad entre los dos grupos, lo que hace que sea sensible a estas diferencias de varianza. Si las varianzas de los dos grupos son muy diferentes, el valor de delta puede resultar sesgado. Por eso un tal Larry Vernon Hedges quiso contribuir con su propia letra a este particular abecedario y decidió hacer el cálculo de Glass de forma similar, pero utilizando una varianza unificada que no asuma la igualdad de las mismas, según la fórmula siguiente:S_{u}=\sqrt{\frac{(n_{e}-1)S_{e}^{2}+(n_{c}-1)S_{c}^{2}}{n_{e}+n_{c}-2}}Si sustituimos la varianza del grupo control de la fórmula de la delta de Glass por esta varianza unificada obtendremos la denominada g de Hedges. La ventaja de utilizar esta desviación estándar unificada es que tiene en cuenta las varianzas y los tamaños de los dos grupos, por lo que la g tiene menos riesgo de sesgo que la delta cuando no podemos asumir igualdad de varianzas entre los dos grupos.

De todas formas, tanto la delta como la g tienen un sesgo positivo, lo que quiere decir que tienden a sobreestimar el tamaño del efecto. Para evitar esto, Hedges modificó el cálculo de su parámetro para poder obtener así una g ajustada, según la fórmula siguiente:g_{a}=g\left ( 1-\frac{3}{4gl-9} \right )donde gl son los grados de libertad, que se calculan como ne+nc.

Esta corrección es más necesaria con muestras pequeñas (pocos grados de libertad). Es lógico, si miramos la fórmula, a más grados de libertad, menos necesario será corregir el sesgo.

Hasta ahora hemos tratado de solucionar el problema de calcular un estimador del tamaño del efecto que no esté sesgado por la falta de igualdad de varianzas. El asunto es que, en el rígido y controlado mundo de los ensayos clínicos, lo habitual es que podamos asumir la igualdad de varianzas entre los grupos de las dos ramas del estudio. Podríamos pensar, pues, que si esto se cumple no sería necesario recurrir a los artificios del n-1.

Pues esto mismo pensó Jacob Cohen, así que ideó su propio parámetro, la d de Cohen. Esta d de Cohen es parecida a la g de Hedges, pero todavía más sensible a la desigualdad de varianzas, por lo que solo la usaremos cuando podamos asumir la igualdad de varianzas entre los dos grupos. Su cálculo es idéntico al de la g de Hedges, pero empleando n en lugar de n-1 para obtener la varianza unificada.

Para andar por casa, podemos decir que el tamaño del efecto es pequeño para d=0,2, medio para d=0,5, grande para d=0,8 y muy grande para d=1,20. Además, podemos establecer una relación entre d y el coeficiente de correlación de Pearson (r), que también es una medida muy utilizada para estimar el tamaño del efecto.

El coeficiente de correlación nos mide la relación entre una variable independiente binaria (intervención o control) y la variable dependiente numérica (nuestra X). La gran ventaja de esta medida es que es más sencilla de interpretar que los parámetros que hemos visto hasta ahora, que funcionan todos como puntuaciones Z estandarizadas. Ya sabemos que r puede valer de -1 a 1 y el significado de estos valores.

r=\frac{d}{\sqrt{d^{2}+\left ( \frac{1}{pq} \right )}}

Así, si queréis calcular r a partir de d, no tenéis más que aplicar la siguiente fórmula:siendo p y q las proporciones de sujetos de los grupos experimental y control (p=ne/n y q=nc/n). En general, cuanto mayor tamaño de efecto, mayor r y viceversa (aunque hay que tener en cuenta que r también es menor al aumentar la diferencia entre p y q). De todas formas, el factor que más condiciona el valor de r es el valor de d.

Y con esto vamos a terminar por hoy. No creáis que hemos tratado todas las medidas de esta familia. Hay cerca de un centenar de parámetros para estimar el tamaño del efecto, como el coeficiente de determinación, la eta-cuadrado, la ji-cuadrado, etc., incluso otras que inventó el propio Cohen (no satisfecho solo con la d), como la f-cuadrado o la q de Cohen. Pero esa es otra historia…

Cuando nada malo pasa, ¿va todo bien?

Print Friendly, PDF & Email

Tengo un cuñado que cada vez tiene más miedo a subirse a un avión. Es capaz de hacer viajes por carretera durante varios días seguidos con tal de no despegarse del suelo. Pero resulta que, el pobrecillo, no tiene más remedio que hacer un viaje transcontinental y no le queda otra que tomar un avión para hacer el desplazamiento.

Eso sí, mi cuñado, además de miedoso, es una persona ocurrente. Se ha dedicado a contar el número de viajes de las diferentes compañías aéreas y el número de accidentes que ha tenido cada una para poder calcular la probabilidad de tener un percance con cada una de ellas y volar con la más segura. El asunto es muy sencillo si recordamos aquello de probabilidad igual a casos favorables dividido por casos posibles.

Además, está feliz porque hay una compañía que ha hecho 1500 vuelos y nunca ha tenido ningún accidente, luego la probabilidad de tener un accidente volando en sus aviones será, según mi cuñado, de 0/1500 = 0. Se ha quedado tan tranquilo y, casi, hasta se le ha quitado el miedo. Matemáticamente es prácticamente seguro que no le vaya a pasar nada. ¿Qué pensáis de mi cuñado?

Muchos de vosotros ya estaréis pensando que utilizar a los cuñados para estos ejemplos tiene estos problemas. Todos sabemos cómo son los cuñados… Pero no seáis injustos con ellos. Como dice el famoso humorista Joaquín Reyes, “cuñados somos todos”, así que no os paséis de la raya. De lo que no hay duda, en eso estaremos todos de acuerdo, es de que mi cuñado se equivoca: el que no haya habido ningún percance en los 1500 vuelos no da seguridad de que no se caiga el siguiente. Dicho de otro modo, aunque el numerador de la proporción sea cero, si hacemos una estimación del riesgo real sería incorrecto quedarnos con el cero como resultado.

Esta situación se presenta con cierta frecuencia en los estudios de investigación de Biomedicina. Para dejar tranquilas a las compañías aéreas y a los aerofóbicos, pensad que tenemos un nuevo fármaco con el que queremos prevenir esa terrible enfermedad que es la fildulastrosis. Tomamos 150 personas sanas y les damos el antifildulín durante 1 año y, al cabo de este periodo, no detectamos ningún nuevo caso de enfermedad. ¿Podemos concluir entonces que el tratamiento previene con seguridad absoluta el desarrollo de la enfermedad? Obviamente, no. Pensemos un poco.

Hacer inferencias sobre probabilidades cuando el numerador de la proporción es cero puede resultar algo truculento, ya que tendemos a pensar que la no ocurrencia de eventos es algo cualitativamente diferente de la ocurrencia de uno, pocos o muchos eventos, y esto no es realmente así. Un numerador igual a cero no quiere decir que el riesgo sea cero, así como tampoco nos impide hacer inferencias acerca del tamaño del riesgo, ya que podemos aplicar los mismos principios estadísticos que a los numeradores distintos de cero.

Volviendo a nuestro ejemplo, supongamos que la incidencia de fildulastrosis en la población general es de 3 casos por cada 2000 personas al año (1,5 por mil, 0,15% o 0,0015). ¿Podemos inferir con nuestro experimento si el tomar antifildulín aumenta, disminuye o no modifica el riesgo de fildulastrosis? Siguiendo la conocida frase, sí, podemos.

Vamos a seguir nuestra costumbre de considerar la hipótesis nula de igualdad de efecto, de forma que el riesgo de enfermedad no se modifique por el nuevo tratamiento. Así, el riesgo de cada uno de los 150 participantes de enfermar a lo largo del estudio será de 0,0015. Dicho de otro modo, el riesgo de no enfermar será de 1-0,0015 = 0,9985. ¿Cuál será la probabilidad de que no enferme ninguno durante el año del estudio? Como son 150 sucesos independientes, la probabilidad de que 150 sujetos no enfermen será de 0,9985150 = 0,8. Vemos, pues, que aunque el riesgo sea el mismo que el de la población general, con este número de pacientes tenemos un 80% de probabilidades de no detectar ningún evento (fildulastrosis) durante el estudio, así que sería más sorprendente encontrar algún enfermo que no el hecho de no tener ninguno. Pero lo más sorprendente es que estamos, así, dando la probabilidad de que no tengamos ningún enfermo en nuestra muestra: que no haya ningún enfermo, como piensa mi cuñado, no tiene una probabilidad de 0 (0/150), ¡sino del 80%!

Y lo peor es que, visto este resultado, el pesimismo nos invade: es posible, incluso, que el riesgo de enfermedad con el nuevo fármaco sea mayor y no estemos detectándolo. Supongamos que el riesgo con la medicación es del 1% (frente al 0,15% de la población general). El riesgo de que no enferme ninguno sería de (1-0,01)150 = 0,22. Incluso con un riesgo del 2%, el riesgo de que no enferme ninguno es de (1-0,02)150 = 0,048. Recordad que el 5% es el valor que solemos adoptar como límite “seguro” para rechazar la hipótesis nula sin cometer un error de tipo 1.

Llegados a este punto, podemos preguntarnos si estamos gafados y no hemos tenido la suerte de detectar casos de enfermedad cuando el riesgo es alto o, por el contrario, que no somos tan desgraciados y, en realidad, el riesgo debe ser bajo. Para aclararnos, podemos volver a nuestro límite de confianza habitual del 5% y ver con qué riesgo de enfermar con el tratamiento tenemos, al menos, un 5% de probabilidades de detectar algún enfermo:

– Riesgo de 1,5/1000: (1-0,0015)150 = 0,8.

– Riesgo de 1/1000: (1-0,001)150 = 0,86.

– Riesgo de 1/200: (1-0,005)150 = 0,47.

– Riesgo de 1/100: (1-0,01)150 = 0,22.

– Riesgo de 1/50: (1-0,02)150 = 0,048.

– Riesgo de 1/25: (1-0,04)150 = 0,002.

Como vemos en la serie anterior, nuestro rango de “seguridad” del 5% se alcanza cuando el riesgo está por debajo de 1/50 (2% o 0,02). Esto quiere decir que, con una probabilidad de equivocarnos de un 5%, el riesgo de presentar fildulastrosis tomando el antifuldulín es igual o menor de 2%. En otras palabras, el intervalo de confianza del 95% de nuestra estimación valdría de 0 a 0,02 (y no 0, si calculamos la probabilidad de una forma simplista).

Para evitar que nuestras recalentadas neuronas terminen por fundirse, vamos a ver una forma más sencilla de automatizar este proceso. Para ello empleamos la conocida como regla del 3. Si hacemos el estudio con n pacientes y ninguno presenta el evento, podemos afirmar que la probabilidad del evento no es cero, sino menor o igual a 3/n. En nuestro ejemplo, 3/150 = 0,02, la probabilidad que calculamos con el método laborioso de más arriba. A esta regla llegaremos tras resolver la ecuación que utilizamos con el método anterior:

(1 – riesgo máximo)n = 0,05

Primero, la reescribimos:

1 – riesgo máximo = 0,051/n

Si n es mayor de 30, 0,051/n se aproxima a (n-3)/n, que es lo mismo que 1-(3/n). De esta manera, podemos reescribir la ecuación como:

1- riesgo máximo = 1 – (3/n)

con lo que podemos resolver la ecuación y obtener la regla final:

Riesgo máximo = 3/n.

Habéis visto que hemos hecho la consideración de que n sea mayor de 30. Esto es debido a que, por debajo de 30, la regla tiende a sobreestimar el riesgo ligeramente, lo que tendremos que tener en cuenta si la usamos con muestras reducidas.

Y con esto vamos a ir dando fin a esta entrada con algunas consideraciones. La primera, y como es fácil de imaginar, los programas estadísticos calculan los intervalos de confianza del riesgo sin mayor esfuerzo aunque el numerador valga cero. De igual manera, puede hacerse también de forma manual y mucho más elegante recurriendo a la distribución de probabilidad de Poisson, aunque el resultado es similar al que se obtiene con la regla del 3.

La segunda, ¿qué pasa si el numerador no vale 0 pero es un número pequeño? ¿Puede aplicarse una regla similar? La respuesta, de nuevo, es sí. Aunque no existe una regla general, sí se han desarrollado extensiones de la regla para un número de eventos de hasta 4. Pero esa es otra historia…

Columnas, tartas y un italiano ilustre

Print Friendly, PDF & Email

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas categorías de la variable. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…

Como un reloj olvidado

Print Friendly, PDF & Email

No me gusta el final del verano. Empiezan los días con mal tiempo, me levanto totalmente de noche y anochece cada vez más temprano. Y, por si fuera poco, se aproxima el engorroso momento del cambio de hora.

Además de las molestias del cambio y del tedio de estar dos o tres días recordando la hora que es y la que podría ser de no haber cambiado, hay que proceder a cambiar un montón de relojes de forma manual. Y, por mucho que te esfuerces en cambiarlos todos, siempre te dejas alguno con la hora vieja. No te pasa con el reloj de la cocina, que miras siempre para saber cómo de rápido tienes que desayunar, o con el del coche, que te mira fijamente todas las mañanas. Pero seguro que hay alguno que no cambias. Incluso, alguna vez me ha pasado, que me doy cuenta cuando al siguiente cambio de hora veo que no lo necesita porque lo dejé sin cambiar en la vez anterior.

Estos relojes olvidados me recuerdan un poco a las variables categóricas o cualitativas.

Pensaréis que, una vez más, me he olvidado de tomar la pastilla esta mañana, pero no. Todo tiene su razonamiento. Cuando terminamos un estudio y tenemos ya los resultados, lo primero que hacemos es una descripción de los mismos para, después, pasar a hacer todo tipo de contrastes, si viene al caso.

Pues bien, las variables cualitativas siempre se menosprecian cuando aplicamos nuestros conocimientos de estadística descriptiva. Habitualmente nos limitamos a clasificarlas y hacer tablas de frecuencia con las que calcular algunos índices como su frecuencia relativa o acumulada, dar alguna medida representativa como la moda y poco más. Con su representación gráfica ya nos esforzamos un poco más, con diagramas de barras o de sectores, pictogramas y otros inventos parecidos. Y, por último, nos aplicamos un poco más cuando relacionamos dos variables cualitativas mediante una tabla de contingencia.

Sin embargo, nos olvidamos de la variabilidad, algo que nunca haríamos con una variable cuantitativa. Las variables cuantitativas son como ese reloj de la pared de la cocina que nos mira directamente a los ojos cada mañana y que no consiente que lo dejemos fuera de hora. Por eso, recurrimos a esos conceptos que entendemos tan bien como la media y la varianza o la desviación típica. Pero el que no conozcamos la forma de medir de forma objetiva la variabilidad de las variables cualitativas o categóricas, ya sean nominales u ordinales, no quiere decir que no exista. Para este fin, se han desarrollado diversos índices de diversidad, que algunos autores distinguen como índices de dispersión, variabilidad y disparidad. Vamos a ver algunos de ellos, cuyas fórmulas podéis ver en el recuadro adjunto, para que podáis disfrutar de la belleza del lenguaje matemático.

Los dos índices más conocidos y utilizados para medir la variabilidad o diversidad son el índice de Blau (o de Hirschman-Herfindal) y el índice de entropía (o de Teachman). Ambos tienen un significado muy similar y, de hecho, están correlacionados linealmente.

El índice de Blau cuantifica la probabilidad de que dos individuos tomados al azar de una población estén en diferentes categorías de una variable (siempre que el tamaño de la población sea infinito o el muestreo se realice con reemplazo). Su valor mínimo, cero, indicaría que todos los miembros están en la misma categoría, con lo que no habría variedad. Cuanto mayor sea su valor, más dispersos entre las diferentes categorías de la variable estarán los componentes del grupo. Este valor máximo se alcanza cuando los componentes se distribuyen de manera igual entre todas las categorías (sus frecuencias relativas son iguales). Su valor máximo sería (k-1)/k, con lo que es función de k (el número de categorías de la variable cualitativa) y no del tamaño de la población. Este valor tiende a 1 al aumentar el número de categorías (para decirlo de forma más correcta, cuando k tiende a infinito).

Veamos algunos ejemplos para aclararnos un poco. Si os fijáis en la fórmula del índice de Blau, el sumatorio de los cuadrados de las frecuencias relativas en una población totalmente homogénea valdrá 1, con lo que el índice valdrá 0. Solo habrá una categoría con frecuencia 1 (el 100%) y el resto con frecuencia cero.

Como hemos dicho, aunque los sujetos se distribuyan de forma similar en todas las categorías, el índice aumenta al aumentar el número de categorías. Por ejemplo, si hay cuatro categorías con una frecuencia de 0,25, el índice de Blau valdrá 0,75 (1 –  (4 x 0,252)). Si hay cinco categorías con una frecuencia de 0,2, el índice valdrá 0,8 (1 – (5 x 0,22). Y así sucesivamente.

Como ejemplo práctico, imaginad una enfermedad en la que hay diversidad desde el punto de vista genético. En una ciudad A tienen el genotipo 1 el 85% de los enfermos y el genotipo 2 el 15%. El índice de Blau valdrá 1 – (0,852 + 0,152) = 0,255. A la vista de este resultado podremos decir que, aunque no es homogénea, el grado de heterogeneidad no es muy alto.

Ahora imaginad una ciudad B con un 60% de genotipo 1, un 25% de genotipo 2 y un 15% de genotipo 3. El índice de Blau valdrá 1 – (0,62 x 0,252 x 0,152) = 0,555. Claramente, el grado de heterogeneidad es mayor entre los enfermos de la ciudad B que entre los de A. Los más listillos me diréis que eso ya se veía sin calcular el índice, pero tenéis que tener en cuenta que son ejemplos muy sencillos para no echar las bilis calculando. En los estudios de la vida real, más complejos, no suele ser tan evidente y, en cualquier caso, siempre es más objetivo cuantificar la medida que quedarnos con nuestra impresión subjetiva.

Este índice podría usarse también para comparar la diversidad de dos variables diferentes (siempre que tenga sentido hacerlo) pero, el hecho de que su valor máximo dependa del número de categorías de la variable, y no del tamaño de la muestra o de la población, cuestiona su utilidad para comparar la diversidad de variables con diferente número de categorías. Para evitar este problema el índice de Blau puede normalizarse dividiéndolo por su máximo, obteniéndose así el índice de variación cualitativa. Su significado es, lógicamente, el mismo que el del índice de Blau y su valor oscila entre 0 y 1. Así, podremos usar cualquiera de los dos si comparamos la diversidad de dos variables con el mismo número de categorías, pero será más correcto usar el índice de variación cualitativa si las variables tienen un número de categorías diferente.

El otro índice, algo menos famoso, es el índice de Teachman o índice de entropía, cuya fórmula también os adjunto. Muy brevemente diremos que su valor mínimo, que es cero, indica que no hay diferencias entre los componentes en la variable de interés (la población es homogénea). Su valor máximo puede estimarse como el valor negativo del logaritmo neperiano del inverso del número de categorías (-ln(1/k)) y se alcanza cuando todas las categorías tienen la misma frecuencia relativa (la entropía alcanza su valor máximo). Como veis, muy parecido al de Blau, que es mucho más sencillo de calcular que el de Teachman.

Para ir acabando esta entrada, el tercer índice del que os quiero hablar hoy nos indica, más que la variabilidad de la población, la dispersión que sus componentes tienen respecto al valor más frecuente. Esto puede medirse mediante la razón de variación, que indica el grado en que los valores observados no coinciden con el de la moda, que es la categoría más frecuente. Como con los anteriores, también os dejo la fórmula en el recuadro adjunto.

Para no desentonar con los anteriores, su valor mínimo también es cero y se obtiene cuando todos los casos coinciden con la moda. Cuanto más bajo el valor, menos dispersión. Cuanto más baja sea la frecuencia absoluta de la moda, más se aproximará a 1, el valor que indica máxima dispersión. Creo que este índice es muy sencillito, así que no le vamos a dedicar más atención.

Y hemos llegado al final. Espero que a partir de ahora prestemos más atención al análisis descriptivo de los resultados de las variables cualitativas. Claro que habría que completarlo con una descripción gráfica adecuada utilizando los archiconocidos diagramas de barras o de sectores (las tartas) y otros menos conocidos como los diagramas de Pareto. Pero esa es otra historia…

Idolatrada, pero incomprendida

Print Friendly, PDF & Email

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…

El detector de tramposos

Print Friendly, PDF & Email

Cuando pensamos en inventos e inventores, a la mayoría de nosotros nos viene a la cabeza el nombre de Thomas Alva Edison, conocido entre sus amigos como el mago de Menlo Park. Este señor creó más de mil inventos, de algunos de los cuales puede decirse que cambiaron el mundo. Entre ellos podemos nombrar la bombilla incandescente, el fonógrafo, el kinetoscopio, el polígrafo, el telégrafo cuádruplex, etc., etc., etc. Pero quizás su gran mérito no sea el de haber inventado todas estas cosas, sino el de aplicar métodos de producción en cadena y de trabajo en equipo al proceso de investigación, favoreciendo la difusión de sus inventos y la creación del primer laboratorio de investigación industrial.

Pero a pesar de toda su genialidad y excelencia, a Edison se le pasó inventar algo que habría tenido tanta utilidad como la bombilla: un detector de tramposos. La explicación de esta falta es doble: vivió entre los siglos XIX y XX y no se dedicaba a leer artículos sobre medicina. Si hubiese vivido en nuestro tiempo y hubiese tenido que leer literatura médica, no me cabe duda que el mago de Menlo Park se habría dado cuenta de la utilidad de este invento y se habría puesto las pilas (que, por cierto, no las inventó él, sino Alessandro Volta).

Y no es que yo esté hoy especialmente negativo, el problema es que, como ya dijo Altman hace más de 15 años, el material remitido a las revistas médicas es malo desde el punto de vista metodológico en un altísimo porcentaje de los casos. Es triste, pero el sitio más adecuado para guardar muchos de los trabajos que se publican es el cubo de la basura.

En la mayor parte de los casos la causa probablemente sea la ignorancia de los que escribimos. “Somos clínicos”, nos decimos, así que dejamos de lado los aspectos metodológicos, de los cuales tenemos una formación, en general, bastante deficiente. Para arreglarlo, las revistas mandan revisar nuestros trabajos a otros colegas, que andan más o menos como nosotros. “Somos clínicos”, se dicen, así que se comen todos nuestros errores.

Aunque esto es, de por sí, grave, puede tener remedio: estudiar. Pero es un hecho todavía más grave que, en ocasiones, estos errores pueden ser intencionados con el objetivo de inducir al lector a llegar a una determinada conclusión tras la lectura del trabajo. El remedio para este problema es hacer una lectura crítica del trabajo, prestando atención a la validez interna del estudio. En este sentido, quizás el aspecto más difícil de valorar para el clínico sin formación metodológica sea el relacionado con la estadística empleada para analizar los resultados del trabajo. Es aquí, sin ninguna duda, donde mejor se pueden aprovechar de nuestra ignorancia utilizando métodos que proporcionen resultados más vistosos, en lugar de los métodos adecuados.

Como sé que no vais a estar dispuestos a hacer un máster sobre bioestadística, en espera de que alguien invente el detector de tramposos, vamos a dar una serie de pistas para que el personal no experto pueda sospechar la existencia de estas trampas.

La primera puede parecer una obviedad, pero no lo es: ¿se ha utilizado algún método estadístico? Aunque es excepcionalmente raro, puede haber autores que no consideren utilizar ninguno. Recuerdo un congreso al que pude asistir en el que se exponían los valores de una variable a lo largo del estudio que, primero, subían y, después, bajaban, lo que permitía concluir que el resultado no era “muy allá”. Como es lógico y evidente, toda comparación debe hacerse con el adecuado contraste de hipótesis e indicarse su nivel de significación y la prueba estadística utilizada. En caso contrario, las conclusiones carecerán de validez alguna.

Un aspecto clave de cualquier estudio, especialmente en los de intervención, es el cálculo previo del tamaño muestral necesario. El investigador debe definir el efecto clínicamente importante que quiere ser capaz de detectar con su estudio y calcular a continuación qué tamaño muestral le proporcionará al estudio la potencia suficiente para demostrarlo. La muestra de un estudio no es grande o pequeña, sino suficiente o insuficiente. Si la muestra no es suficiente, puede no detectarse un efecto existente por falta de potencia (error de tipo 2). Por otro lado, una muestra mayor de lo necesario puede mostrar como estadísticamente significativo un efecto que no sea relevante desde el punto de vista clínico. Aquí hay dos trampas muy habituales. Primero, el del estudio que no alcanza significación y sus autores afirman que es por falta de potencia (por tamaño muestral insuficiente), pero no hacen ningún esfuerzo por calcular la potencia, que siempre puede hacerse a posteriori. En ese caso, podemos hacerlo nosotros usando programas de estadística o cualquiera de las calculadoras disponibles en internet, como la GRANMO. Segundo, se aumenta el tamaño muestral hasta que la diferencia observada sea significativa, encontrando la ansiada p < 0,05. Este caso es más sencillo: solo tenemos que valorar si el efecto encontrado es relevante desde el punto de vista clínico. Os aconsejo practicar y comparar los tamaños muestrales necesarios de los estudios con los que definen los autores. A lo mejor os lleváis alguna sorpresa.

Una vez seleccionados los participantes, un aspecto fundamental es el de la homogeneidad de los grupos basales. Esto es especialmente importante en el caso de los ensayos clínicos: si queremos estar seguros de que la diferencia de efecto observada entre los dos grupos se debe a la intervención, los dos grupos deben ser iguales en todo, menos en la intervención.

Para esto nos fijaremos en la clásica tabla I de la publicación del ensayo. Aquí tenemos que decir que, si hemos repartido los participantes al azar entre los dos grupos, cualquier diferencia entre ellos se deberá, sí o sí, al azar. No os dejéis engañar por las p, recordad que el tamaño muestral está calculado para la magnitud clínicamente importante de la variable principal, no para las características basales de los dos grupos. Si veis alguna diferencia y os parece clínicamente relevante, habrá que comprobar que los autores han tenido en cuenta su influencia sobre los resultados del estudio y han hecho el ajuste pertinente durante la fase de análisis.

El siguiente punto es el de la aleatorización. Esta es una parte fundamental de cualquier ensayo clínico, por lo que debe estar claramente definido cómo se hizo. Aquí os tengo que decir que el azar es caprichoso y tiene muchos vicios, pero raramente produce grupos de igual tamaño. Pensad un momento si tiráis una moneda 100 veces. Aunque la probabilidad de salir cara en cada lanzamiento sea del 50%, será muy raro que lanzando 100 veces saquéis exactamente 50 caras. Cuánto mayor sea el número de participantes, más sospechoso nos deberá parecer que los dos grupos sean iguales. Pero cuidado, esto solo vale para la aleatorización simple. Existen métodos de aleatorización en los que los grupos sí pueden quedar más equilibrados.

Otro punto caliente es el uso indebido que, a veces, puede hacerse con variables cualitativas. Aunque las variables cualitativas pueden codificarse con números, mucho cuidado con hacer operaciones aritméticas con ellos. Probablemente no tendrán ningún sentido. Otra trampa que podemos encontrarnos tiene que ver con el hecho de categorizar una variable continua. Pasar una variable continua a cualitativa suele llevar aparejada pérdida de información, así que debe tener un significado clínico claro. En caso contrario, podemos sospechar que la razón sea la búsqueda de una p < 0,05, siempre más fácil de conseguir con la variable cualitativa.

Entrando ya en el análisis de los datos, hay que comprobar que los autores han seguido el protocolo del estudio diseñado a priori. Desconfiad siempre de los estudios post hoc que no estaban planificados desde el comienzo. Si buscamos lo suficiente, siempre hallaremos un grupo que se comporta como a nosotros nos interesa. Como suele decirse, si torturas los datos lo suficiente, acabarán por confesar.

Otra conducta inaceptable es finalizar el estudio antes de tiempo por obtenerse buenos resultados. Una vez más, si la duración del seguimiento se ha establecido durante la fase de diseño como la idónea para detectar el efecto, esto debe respetarse. Cualquier violación del protocolo debe estar más que justificada. Lógicamente, es lógico terminar el estudio antes de tiempo por motivos de seguridad de los participantes, pero habrá que tener en cuenta cómo afecta este hecho en la valoración de los resultados.

Antes de realizar el análisis de los resultados, los autores de cualquier trabajo tienen que depurar sus datos, revisando la calidad y la integridad de los valores recogidos. En este sentido, uno de los aspectos a los que hay que prestar atención es al manejo de los datos extremos (los llamados outliers). Estos son los valores que se alejan mucho de los valores centrales de la distribución. En muchas ocasiones pueden deberse a errores en el cálculo, medición o transcripción del valor de la variable, pero también pueden ser valores reales que se deban a la especial idiosincrasia de la variable. El problema es que existe una tendencia a eliminarlos del análisis aún cuando no haya seguridad de que se deban a algún error. Lo correcto es tenerlos en cuenta al hacer el análisis y utilizar, si es necesario, métodos estadísticos robustos que permitan ajustar estas desviaciones.

Finalmente, el aspecto que nos puede costar más a los no muy expertos en estadística es saber si se ha empleado el método estadístico correcto. Un error frecuente es el empleo de pruebas paramétricas sin comprobar previamente si se cumplen los requisitos necesarios. Esto puede hacerse por ignorancia o para obtener la significación estadística, ya que las pruebas paramétricas son menos exigentes en este sentido. Para entendernos, la p será más pequeña que si empleamos la prueba equivalente no paramétrica.

También, con cierta frecuencia, se obvian otros requisitos para poder aplicar determinada prueba de contraste. Como ejemplo, para realizar una prueba de la t de Student o un ANOVA es necesario comprobar la homocedasticidad (una palabra muy fea que quiere decir que las varianzas son iguales), comprobación que se pasa por alto en muchos trabajos. Lo mismo ocurre con los modelos de regresión que, con frecuencia, no se acompañan del preceptivo diagnóstico del modelo que permite justificar su uso.

Otro asunto en el que puede haber trampa es el de las comparaciones múltiples. Por ejemplo, cuando el ANOVA da significativo nos dice que hay al menos dos medias que son diferentes, pero no cuáles, así que nos ponemos a compararlas dos a dos. El problema es que cuando hacemos comparaciones repetidas aumenta la probabilidad de error de tipo I, o sea, la probabilidad de encontrar diferencias significativas solo por azar. Esto puede permitir encontrar, aunque solo sea por casualidad, una p < 0,05, lo que viste mucho el estudio (sobre todo si has gastado mucho tiempo y/o dinero en hacerlo). En estos casos los autores deben emplear alguna de las correcciones disponibles (como la de Bonferroni, una de las más sencillas) para que el alfa global se mantenga en 0,05. El precio a pagar es sencillo: la p tiene que ser mucho más pequeña para ser significativa. Cuando veamos comparaciones múltiples sin corrección solo tendrá dos explicaciones: la ignorancia del que haya hecho el análisis o el intento de encontrar una significación que, probablemente, no soportaría la disminución del valor de p que conllevaría la corrección.

Otra víctima frecuente del mal uso de la estadística es el coeficiente de correlación de Pearson, que se utiliza para casi todo. La correlación, como tal, nos dice si dos variables están relacionadas, pero no nos dice nada sobre la causalidad de una variable para la producción de la otra. Otro mal uso es utilizar el coeficiente de correlación para comparar los resultados obtenidos por dos observadores, cuando probablemente lo que deba utilizarse en este caso es el coeficiente de correlación intraclase (para variables continuas) o el índice kappa (para cualitativas dicotómicas). Por último, también es incorrecto comparar dos métodos de medición (por ejemplo, glucemia capilar y venosa) mediante correlación o regresión lineal. Para estos casos lo correcto sería usar la regresión de Passing y Bablok.

Otra situación en la que una mente paranoica como la mía sospecharía es aquella en la que el método estadístico empleado no lo conocen ni los más listos del lugar. Siempre que haya una forma más conocida (y muchas veces más sencilla) de hacer el análisis, deberemos preguntarnos por qué han usado un método tan raro. En estos casos exigiremos a los autores que justifiquen su elección y que aporten una cita donde podamos revisar el método. En estadística hay que tratar de elegir la técnica correcta para cada ocasión y no aquella que nos proporcione el resultado más apetecible.

En cualquiera de los test de contraste anteriores, los autores suelen emplear un nivel de significación para p < 0,05, lo habitual, pero el contraste puede hacerse con una o con dos colas. Cuando hacemos un ensayo para probar un nuevo fármaco, lo que esperamos es que funcione mejor que el placebo o el fármaco con el que lo estemos comparando. Sin embargo, pueden ocurrir otras dos situaciones que no podemos desdeñar: que funcione igual o, incluso, que funcione peor. Un contraste bilateral (con dos colas) no asume la dirección del efecto, ya que calcula la probabilidad de obtener una diferencia igual o mayor que la observada, en las dos direcciones. Si el investigador está muy seguro de la dirección del efecto puede hacer un contraste unilateral (con una cola), midiendo la probabilidad del resultado en la dirección considerada. El problema es cuando lo hace por otra razón: la p del contraste bilateral es el doble de grande que la del unilateral, por lo que será más fácil conseguir significación estadística con el contraste unilateral. Lo que no es correcto es que este último sea el motivo para hacer un contraste unilateral. Lo correcto, salvo que haya razones bien justificadas, es hacer un contraste bilateral.

Para ir terminando esta entrada tan tramposa, diremos unas palabras sobre el uso de las medidas adecuadas para presentar los resultados. Hay muchas formas de maquillar la verdad sin llegar a mentir y, aunque en el fondo todas dicen lo mismo, la apariencia puede ser muy diferente según cómo lo digamos. El ejemplo más típico es el de usar medidas de riesgo relativas en lugar de medidas absolutas de impacto. Siempre que veamos un ensayo clínico, debemos exigir que nos presenten la reducción absoluta del riesgo y el número necesario a tratar (NNT). La reducción relativa del riesgo es un número mayor que la absoluta, por lo que parecerá que el impacto es mayor. Dado que las medidas absolutas son más fáciles de calcular y se obtienen de los mismos datos que la relativas, deberemos desconfiar si los autores no nos las ofrecen: quizás el efecto no sea tan importante como nos pretenden hacer ver.

Otro ejemplo es el uso de la odds ratio frente a los riesgos relativos (cuando pueden calcularse ambos). La odds ratio tiende a magnificar la asociación entre las variables, así que su uso no justificado también puede hacernos sospechar. Si podéis, calcular el riesgo relativo y comparad las dos medidas.

De igual manera, sospecharemos de los estudios de pruebas diagnósticas que no nos proporcionan los cocientes de probabilidad y se limiten a sensibilidad, especificidad y valores predictivos. Los valores predictivos pueden ser altos si la prevalencia de la enfermedad en la población del estudio es alta, pero no sería aplicables a poblaciones con menos proporción de enfermos. Esto se soslaya con el uso de los cocientes de probabilidad. Siempre deberemos preguntarnos el motivo que puedan tener los autores para obviar el dato parámetro más válido para calibrar la potencia de la prueba diagnóstica.

Y, por último, mucho cuidado con los gráficos: aquí las posibilidades de maquillar los resultados solo están limitadas por la imaginación. Hay que fijarse en las unidades empleadas y tratar de extraer la información del gráfico más allá de lo que pueda parecer que representa a primera vista.

Y aquí dejamos el tema por hoy. Nos ha faltado hablar en detalle sobre otra de las entidades más incomprendidas y manipuladas, que no es otra que nuestra p. A p se le atribuyen muchos significados, generalmente de forma errónea, como la probabilidad de que la hipótesis nula sea cierta, probabilidad que tiene su método específico para poder hacer una estimación. Pero esa es otra historia…