Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

El gregario

El ensayo clínico aleatorio convencional es un diseño individualista, en el que cada participante es aleatorizado para recibir la intervención o el placebo para poder medir después la variable de resultado en cada uno y comparar las diferencias. Esta aleatorización individual se complementa con el procedimiento de enmascaramiento, de forma que nadie sabe a qué grupo pertenece cada participante y no pueda haber efectos relacionados con este conocimiento.

El problema es que hay ocasiones en las que no es posible enmascarar la intervención, de forma que los participantes saben qué recibe cada uno. Imaginemos que queremos estudiar el efecto de determinados consejos sobre alimentación en los niveles de presión arterial de una población. A cada participante podemos o no darle nuestras recomendaciones, pero cada uno de ellos sabrá si se las hemos dado o no, con lo que el enmascaramiento no será posible.

Además, pueden ocurrir otros dos hechos que nos pueden invalidar la comparación de los efectos de intervenir o no intervenir. Primero, los participantes pueden compartir información entre ellos, con lo que algunos del grupo placebo conocerían también los consejos y podrían seguir algunos de ellos. Segundo, sería difícil que los propios médicos tratasen de forma objetivamente igual a los participantes de los dos grupos y podrían mezclar las recomendaciones en algún caso. Esto es lo que se conoce como contaminación entre los grupos, muy frecuente cuando tratamos de estudiar intervenciones en Salud Pública o en programas de promoción de salud.

Pero que nadie se inquiete antes de tiempo, porque para solucionar este problema podemos recurrir al primo gregario de la familia de los ensayos clínicos aleatorizados: el ensayo clínico por grupos o conglomerados.

En estos ensayos la unidad de aleatorización no es el individuo, sino grupos de individuos. Pensando en el ejemplo anterior, podríamos aleatorizar a los pacientes de un centro de salud al grupo de intervención y a los de otro centro al grupo control. Esto tiene la ventaja de que se evita la contaminación entre grupos, con la ventaja añadida de que los participantes dentro de cada grupo se comporten de una forma similar.

Para que este diseño funcione bien es necesario que haya un número de grupos suficiente para que las características basales de los componentes se balanceen bien con la aleatorización. Estos ensayos por conglomerados obligan además a una serie de consideraciones especiales durante las fases de diseño, análisis y comunicación de resultados, ya que la falta de independencia de los participantes dentro de cada grupo tiene consideraciones estadísticas importantes. Puede ocurrir que los componentes de cada grupo tengan algunas características comunes diferentes a las de otros grupos (sesgo de selección), así como una diferente distribución de las variables de confusión que puedan existir dentro de cada grupo.

Un problema con este tipo de diseño es que tiene menor potencia que el ensayo clínico aleatorizado convencional equivalente, por lo que se necesitan mayores tamaños muestrales en relación al denominado factor de inflación por grupo. Además, debe tenerse en cuenta el número y tamaño de cada grupo y la correlación que pueda existir entre los resultados de los pacientes dentro del mismo grupo, mediante el uso de un coeficiente de correlación intragrupo.

Así, para calcular el tamaño muestral tenemos que multiplicar el tamaño que tendría el ensayo convencional por un factor de diseño del estudio, que incluye el tamaño de los grupos, el coeficiente de correlación intragrupos y que se calcula según la fórmula siguiente:

N (ensayo por grupos) = Factor de inflación x N (ensayo convencional)

Factor de inflación = 1 + [(m – 1) x CCI], donde m es el tamaño de cada grupo y CCI es el coeficiente de correlación intragrupo.

Veamos un ejemplo. Supongamos que para el ejemplo que venimos considerando necesitaríamos 400 participantes para hacer el ensayo convencional para detectar determinado tamaño de efecto con la potencia y significación estadística deseadas. Estimamos que el coeficiente de correlación intragrupo es igual a 0,15 y determinamos que queremos grupos de 30 participantes. El tamaño muestral necesario para un ensayo con conglomerados sería de

N (ensayo con grupos) = (1 + [(30 – 1) x 0,15]) x 400 = 2140

Redondeando, necesitamos 72 grupos de 30 participantes, con una muestra total de 2160. Como puede verse, unas cinco veces más que el tamaño muestral del ensayo convencional.

Otra peculiaridad de los ensayos por conglomerados es que en la fase de análisis hay que tener en cuenta la falta de independencia entre los pacientes de cada grupo, tanto si calculamos resultados a nivel individual como si calculamos medidas resumen a nivel de grupo. Esto es así porque si no tenemos en cuenta la falta de independencia entre participantes aumenta la probabilidad de cometer un error de tipo I y sacar una conclusión errónea. Para entendernos, una p de 0,01 puede convertirse en otra mayor de 0,05 una vez que tenemos en cuenta este efecto.

Esto hace que pruebas como la t de Student no nos sirvan y tengamos que recurrir a análisis robustos de la varianza o, al más utilizado, el modelo de efectos aleatorios, que no solo tiene en cuenta el efecto grupo, sino que permite dar una estimación y valorar el grado de contaminación existente. Además, tiene en cuenta la heterogeneidad por factores no observados y permite realizar el ajuste por covariables que produzcan desequilibrios entre los diferentes grupos. Una posibilidad es hacer el análisis teniendo en cuenta el efecto de agrupamiento y sin tenerlo en cuenta y ver si los valores de significación son diferentes, en cuyo caso nos respaldará en el hecho de que hemos elegido el tipo de diseño adecuado para nuestro estudio.

Y estos son los aspectos más importantes que tenemos que tener en mente al realizar un ensayo por conglomerados. Su principal ventaja es evitar la contaminación entre participantes, como vimos al principio, por lo que son muy útiles para valorar estrategias de mejora de salud y programas de educación. Su principal inconveniente ya lo hemos mencionado: su menor potencia con la consecuente necesidad de tamaños muestrales mucho mayores.

Para finalizar, decir que todos estos aspectos referentes al cálculo del tamaño de la muestra y al análisis estadístico teniendo en cuenta el efecto de los conglomerados deben especificarse claramente durante la fase de comunicación de los resultados del ensayo.

Un último consejo. Si realizáis un ensayo o la lectura crítica de un ensayo clínico por grupos, no olvidéis revisar que se hayan tenido en cuenta las peculiaridades que hemos contado. Para ello podéis ayudaros de la declaración CONSORT. Esta es una lista de verificación con las características que deben cumplir los ensayos clínicos, e incluye las características específicas de los ensayos por conglomerados. Pero esa es otra historia…

La falacia de la p pequeña

Una falacia es un argumento que parece válido pero no lo es. A veces se usan para engañar a la gente y darles gato por liebre, pero la mayor parte de las veces se utilizan por una razón mucho más triste: por pura ignorancia.

Hoy vamos a hablar de una de estas falacias, muy poco reconocida, pero en la que se cae con una gran frecuencia a la hora de interpretar resultados de contrastes de hipótesis.

Cada vez más vemos que las publicaciones científicas nos proporcionan el valor exacto de p, de forma que tendemos a pensar que cuánto menor es el valor de p mayor es la plausibilidad del efecto observado.

Para entender lo que vamos a explicar, recordemos primero la lógica de la falsificación de la hipótesis nula (H0). Partimos de una H0 de que el efecto no existe, por lo que calculamos la probabilidad de, por azar, encontrar unos resultados tan extremos o más que los que hemos encontrado, siendo H0 cierta. Esta probabilidad es el valor de p, de forma que cuanto menor sea, menos probable es que el resultado sea debido al azar y, por tanto, más probable que el efecto sea real. El problema es que, por muy pequeña que sea la p, siempre hay una probabilidad de cometer un error de tipo I y rechazar la H0 siendo cierta (o lo que es lo mismo, obtener un falso positivo y dar por bueno un efecto que en realidad no existe).

Es importante tener en cuenta que el valor de p solo indica si hemos alcanzado el umbral de significación estadística, que es un valor totalmente arbitrario. Si obtenemos un valor umbral de p = 0,05 tendemos a pensar una de las cuatro posibilidades siguientes:

  1. Que hay un 5% de probabilidades de que el resultado sea un falso positivo (de que H0 sea cierta).
  2. Que hay un 95% de probabilidades de que el efecto sea real (de que H0 sea falsa).
  3. Que la probabilidad de que el efecto observado se deba al azar es del 5%.
  4. Que la tasa de error de tipo I es del 5%.

Sin embargo, todo lo anterior es incorrecto, ya que estamos cayendo en la falacia inversa o falacia de la transposición de los condicionales. Todo es un problema de entender mal las probabilidades condicionadas. Vamos a verlo despacio.

A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados si la hipótesis nula es cierta, o sea, P(resultados|H0).

Vamos a verlo con un ejemplo sencillo. La probabilidad de ser español si uno es andaluz es alta (debería ser del 100%). La inversa es más baja. La probabilidad de tener cefalea si uno tiene una meningitis es alta. La inversa es más baja. Si los eventos son frecuentes, la probabilidad será más alta que si son raros. Así, como nosotros queremos saber P(H0|resultados), deberemos valorar la probabilidad basal de la H0 para evitar sobrestimar las pruebas que apoyan que el efecto es cierto.

Si lo pensamos despacio, es bastante intuitivo. La probabilidad de H0 antes del estudio es una medida de la creencia subjetiva que refleja su plausibilidad basada en estudios previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Ni que decir tiene que existe un método matemático para calcular la probabilidad posterior de H0 en función de su probabilidad basal y el valor de p, pero sería una grosería poner un formulón enorme a estas alturas de la entrada.

heldEn su lugar, vamos a utilizar un método más sencillo, recurriendo a un recurso gráfico que se llama nomograma de Held y que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos.

Imaginad un estudio con un valor marginal de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real.

Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos así como la probabilidad posterior cambia según la probabilidad previa.

Y aquí lo dejamos. Seguro que esto del nomograma de Held os ha recordado a otro nomograma mucho más famoso pero con una filosofía similar, el nomograma de Fagan. Este se utiliza para calcular la probabilidad postprueba en función de la probabilidad preprueba y el cociente de probabilidad de una prueba diagnóstica. Pero esa es otra historia…

La intención es lo que cuenta

Siempre hay alguien que no hace lo que se le dice. Mira que el planteamiento de un ensayo clínico parece sencillo en lo que se refiere a sus participantes. Se les asigna al azar a una de las dos ramas del ensayo y unos se tienen que tomar la pastilla A y otras la B, para que nosotros podamos ver cuál de las dos funciona mejor.

Sin embargo, siempre hay alguien que no hace lo que se le dice y se toma la pastilla que no es, o no se la toma, o se la toma mal, o la deja de tomar antes de tiempo, etc, etc, etc.

¿Y qué hacemos a la hora de analizar los resultados?. El sentido común nos dice que si un participante se ha equivocado de pastilla lo incluyamos en el grupo de la pastilla que finalmente se tomó (es lo que se llama hacer un análisis por protocolo). O que si no la ha tomado, nos olvidemos de él. Pero esta actitud no es correcta si queremos realizar un análisis no sesgado de los resultados del ensayo. Si empezamos a cambiar los participantes de un grupo a otro perderemos el beneficio que obteníamos al repartirlos al azar, con lo que pueden entrar en juego variables de confusión o modificadoras de efecto que estuviesen equilibrados entre las dos ramas del ensayo por el proceso de reparto aleatorio.

Para evitar esto, lo correcto es respetar la intención inicial de asignación de grupo y analizar los resultados del sujeto que se confunde como si se hubiese tomado el tratamiento asignado de forma correcta. Es lo que se conoce como el análisis por intención de tratar, el único que preserva las ventajas de la aleatorización.

Hay varias razones por las que un participante en un ensayo puede no recibir el tratamiento tal y como se le asignó, además del mal cumplimiento por su parte. Veamos algunas.

En ocasiones puede ser el investigador el que hace una inclusión errónea del participante en el grupo de tratamiento. Imaginemos que, después de aleatorizarlos, nos damos cuenta de que algunos participantes no son idóneos para recibir la intervención, bien porque no tengan la enfermedad o porque descubramos que existe alguna contraindicación para la intervención, por ejemplo. Si somos estrictos, deberíamos incluirlos en el análisis del grupo al que se asignaron, aunque no hayan recibido la intervención. Sin embargo, puede ser razonable excluirlos si las causas de exclusión están previamente especificadas en el protocolo del ensayo. De todas formas, es importante que esto lo realice alguien que desconozca la asignación y los resultados, para que se traten de igual forma los participantes dela dos ramas del ensayo. De todas formas, si queremos una mayor seguridad, podemos hacer un análisis de sensibilidad con y sin estos sujetos para ver cómo se modifican los resultados.

Otro problema de este tipo lo pueden ocasionar los datos faltantes. Los resultados de todas las variables, y especialmente de la principal, deberían estar presentes para todos los participantes, pero esto no siempre es así, de forma que tenemos que decidir qué hacemos con los sujetos a los que les falte algún dato.

La mayor parte de los programas de estadística funcionan con datos completos, excluyendo del análisis aquéllos registros de sujetos con datos faltantes. Esto disminuye el tamaño muestral efectivo y puede sesgar los resultados, además de disminuir la potencia del estudio. Algunos modelos, como los longitudinales mixtos o la regresión de Cox, manejan registros en los que falten algunos datos, pero ninguno puede hacer nada si falta toda la información de un sujeto. En estos casos podemos recurrir a la imputación de datos con cualquiera de sus modalidades, de tal forma que rellenemos los huecos para aprovechar toda la muestra según la intención de tratamiento.

Cuando la imputación de datos no es conveniente, una cosa que podemos hacer es lo que se llama análisis de casos extremos. Esto se hace asignando a los huecos los mejores y peores resultados posibles y viendo cómo se modifican los resultados. Así nos haremos una idea del máximo impacto que pueden tener los datos faltantes sobre los resultados del estudio. En cualquier caso, no cabe duda de que la mejor estrategia será diseñar el estudio para que los datos faltantes sean los mínimos posibles.

En cualquier caso, siempre hay alguien que se equivoca y nos lía el planteamiento del ensayo. ¿Qué podemos hacer entonces?.

Una posibilidad es utilizar un análisis por intención de tratar modificado. Se incluye cada uno en el grupo asignado, pero se permite la exclusión de algunos como los que nunca empezaron el tratamiento o los que no se consideraron adecuados para el estudio. El problema es que esto abre una puerta para maquillar los datos según nos interese y sesgar los resultados en nuestro provecho. Por eso, debemos desconfiar cuando estas modificaciones no estuviesen especificadas en el protocolo del ensayo y se decidan post hoc.

La otra posibilidad es hacer el análisis según el tratamiento recibido (análisis por protocolo). El problema, ya lo hemos dicho, es que se pierde el balance de la aleatorización. Además, si los que se equivocan tienen algunas características especiales, esto puede sesgar los resultados del estudio. Por otra parte, la ventaja de analizar las cosas tal y como realmente se han hecho es que nos puede dar una idea mejor de cómo puede funcionar el tratamiento en la vida real.

Por último, quizás lo más seguro sea realizar ambos análisis, por protocolo y por intención de tratamiento, y comparar los resultados que se obtienen con cada uno. En estos casos puede ocurrir que detectemos un efecto al analizar por protocolo y no al analizar por intención de tratamiento. Esto puede deberse a dos causas principales. Primero, el análisis por protocolo puede crear asociaciones espurias al romper el balance de variables de confusión que nos garantizaba la aleatorización. Segundo, el análisis por intención de tratamiento va a favor de la hipótesis nula, por lo que su potencia es menor que la del análisis por protocolo. Eso sí, si detectamos un efecto significativo, nos veremos reforzados si el análisis se hizo por intención de tratar.

Y aquí lo dejamos por hoy. Hemos visto como intentar controlar los errores de asignación de grupo en los ensayos y cómo podemos imputar los datos faltantes, que es una forma elegante de decir que inventamos datos allá donde falten. Claro, que para poder hacerlo se han de cumplir una serie de condiciones estrictas. Pero esa es otra historia…

Aunque la mona se vista de seda…

…mona se queda. Y se queda. Por mucho que lo intente, seguirá siendo una mona. Y esto es así porque las características de cada uno o sus defectos naturales no pueden evitarse simplemente porque hagamos mejoras externas. Pero, eso sí, será una mona mucho más elegante.

En el mundo de los estudios en epidemiología y biomedicina hay un tipo de diseño que no necesita vestirse de seda. Por supuesto, me estoy refiriendo al rey de reyes, al ensayo clínico aleatorizado, el ECA, para abreviar.

El vestido de seda de los ECA es la aleatorización, que no es más que la asignación no predecible de los participantes en el ensayo a una de las alternativas de intervención, dando baza al azar de forma que no podamos saber a qué grupo va a ser asignado cada participante. Así, se consigue que las características de los participantes que puedan actuar como factores de confusión o modificadores de efecto se repartan por igual entre los dos grupos de la intervención, de forma que si hay diferencias podamos afirmar que se deben a la intervención en estudio, la única diferencia entre los dos grupos.

Por otro lado, los estudios observacionales carecen de aleatorización, por lo que nunca podemos estar seguros de que las diferencias observadas se deban a variables de confusión que son, incluso, desconocidas para el investigador. Así, con los estudios de cohortes y de casos y controles no se pueden afirmar relaciones de causalidad de la forma que pueden establecerse con los resultados del ECA.

Para evitar esto se han inventado múltiples estrategias, como la estratificación o el análisis mediante regresión logística, que permiten estimar el efecto de cada variable sobre el resultado de la intervención en cada grupo. Uno de estos métodos es el que vamos a tratar aquí y es el de los índices de propensión, los propensity score de nuestros amigos angloparlantes.

Vamos a ver si con un ejemplo podemos entenderlo. Supongamos que queremos comparar la duración del ingreso de niños con fildulastrosis según el tratamiento que reciban. Seguimos suponiendo que esta terrible enfermedad se puede tratar con pastillas o con supositorios, eligiendo cualquiera de los dos a criterio del médico que atiende al enfermo en el momento del ingreso. Hacemos un estudio retrospectivo de las dos cohortes y encontramos que los que reciben supositorio están ingresados cinco días más de media que los que reciben tratamiento oral. ¿Podemos concluir que la resolución es más rápida dando pastillas que supositorios?. Pues si así lo hacemos correremos el riesgo de equivocarnos, porque puede haber otros factores que no estamos teniendo en cuenta, además del tratamiento recibido.

Si se tratase de un ensayo, cualquier participante tendría la misma probabilidad de recibir cualquiera de los dos tratamientos, así que podríamos hacer una interpretación directa del resultado. Sin embargo, estamos ante un estudio de cohortes, observacional, y el riesgo de recibir pastillas o supositorios puede haber dependido de otros factores. Pensad, por ejemplo, que un médico puede mandar los supositorios a los niños más pequeños, que tragan peor las pastillas, mientras que otro no tendría en cuenta este factor y le daría pastillas a todos, porque le gustan más. Si la edad tiene algo que ver con la duración del ingreso, estaremos mezclando el efecto del tratamiento con el de la edad del niño, comparando los supositorios de uno (niños más pequeños) con las pastillas de otro (no diferencia de edad). Con esto pensad una cosa: si la probabilidad de recibir uno u otro tratamiento varía en cada participante, ¿cómo vamos a compararlos sin tener en cuenta esta probabilidad?. Habrá que comparar aquellos que tengan una probabilidad similar.

Pues bien, aquí es donde entran en juego los índices de propensión (IP), que estiman la probabilidad de cada participante de recibir un tratamiento basándose en sus características.

Los IP se calculan mediante un modelo de regresión logística con la intervención como resultado y las covariables como predictores. Así, se obtiene una ecuación con cada una de las variables que hayamos metido en el modelo porque pensemos que puedan actuar como factores de confusión. Por ejemplo, la probabilidad de recibir el tratamiento A sería igual a:

P(A) = β0 + β1a + β2b + β3c +….+ βnn,

Donde P(A) es la probabilidad de recibir A (en realidad, el modelo proporciona el logaritmo natural de la odds ratio), los betas son los coeficientes y a,b,c,…,n representan las variables del modelo.

Si sustituimos las letras de “a” a “n” por las características de cada participante, obtenemos una puntuación, que es su IP. Y ahora ya podemos comparar entre sí los participantes de las dos ramas de tratamiento que tengan una puntuación similar.

Esta comparación puede hacerse de varias formas, siendo las más sencillas el emparejamiento y la estratificación.

indices de propensionMediante estratificación se dividen los participantes en grupos con un intervalo de puntuación y se comparan los grupos entre sí para determinar el efecto de la intervención. Mediante emparejamiento, se compara cada participante de uno de los grupos con otro que tenga una puntuación igual o, en caso de que no exista, similar (lo que se conoce como el vecino más próximo). En la figura podéis ver un ejemplo de emparejamiento con el vecino más próximo de algunos de los participantes de nuestro estudio ficticio.

Y esto son los IP. Una argucia para poder comparar los participantes intentando evitar el efecto de las variables de confusión y parecerse a los ECA, convirtiéndose en casi estudios cuasiexperimentales. Pero ya lo hemos dicho, aunque la mona se vista de seda, mona se queda. Por muchas variables que metamos en el modelo de regresión para calcular los IP, nunca estaremos seguros de haber metido todas, ya que puede haber variables confusoras que desconozcamos. Por eso siempre es conveniente comprobar las conclusiones de un estudio observacional con el ECA correspondiente.

Y aquí lo dejamos por hoy, aunque los IP dan para mucho más. Por ejemplo, hemos hablado solo de emparejamiento y estratificación, aunque hay más métodos, más complejos y menos utilizados en medicina, como son el ajuste de covariables por IP o la ponderación por el inverso de la probabilidad de recibir la intervención. Pero esa es otra historia…

Tanto va el cántaro a la fuente…

…que termina por romperse. ¿Qué se rompe, el cántaro o la fuente?. El refrán se refiere, claro está, al cántaro. El dicho hace referencia a los tiempos en que no había agua en las casas y había que ir hasta la fuente a por ella, de forma que, más tarde o más temprano, el cántaro se rompía, ya fuese por desgaste por un uso excesivo o por algún desgraciado accidente que acababa con él hecho pedazos. Supongo que la fuente podía romperse también, pero para eso ya había que ser muy bestia, así que el refrán no contempla esa posibilidad.

En la actualidad empleamos esta frase para referirnos al hecho de que si repetimos una acción con demasiada insistencia podemos  acabar teniendo algún contratiempo.

Por ejemplo, hagamos un paralelismo entre ir a la fuente con el cántaro y hacer un contraste de hipótesis. ¿Creéis que no tienen nada que ver?. Pues lo tienen: si hacemos contrastes de hipótesis de forma insistente podemos acabar llevándonos un disgusto, que no será otro que el de cometer un error de tipo I. Me explicaré para que no penséis que me he dado con el cántaro en la cabeza en uno de los viajes a la fuente.

Recordemos que siempre que hacemos un contraste de hipótesis establecemos una hipótesis nula (H0) que dice que la diferencia observada entre los grupos de comparación se debe al azar. A continuación, calculamos la probabilidad de que la diferencia se deba al azar y, si es menor que un valor determinado (habitualmente 0,05), rechazamos H0 y afirmamos que es altamente improbable que la diferencia se deba al azar, por lo que la consideramos real. Pero claro, altamente improbable no significa seguro. Siempre hay un 5% de probabilidad de que, siendo H0 cierta, la rechacemos, dando por bueno un efecto que en realidad no existe. Esto es lo que se llama cometer un error de tipo I.

Si hacemos múltiples comparaciones la probabilidad de cometer un error aumenta. Por ejemplo, si hacemos 100 comparaciones, esperaremos equivocarnos aproximadamente cinco veces, ya que la probabilidad de equivocarnos en cada ocasión será del 5% (y la de acertar del 95%).

Así que podemos preguntarnos, si hacemos n comparaciones, ¿cuál es la probabilidad de tener al menos un falso positivo?. Esto es un poco laborioso de calcular, porque habría que calcular la probabilidad de 1,2,…,n-1 y n falsos positivos utilizando probabilidad binomial. Así que recurrimos a un truco muy utilizado en el cálculo de probabilidades, que es calcular la probabilidad del suceso complementario. Me explico. La probabilidad de algún falso positivo más la probabilidad de ninguno será de 1 (100%). Luego la probabilidad de algún falso positivo será igual a 1 menos la probabilidad de ninguno.

¿Y cuál es la probabilidad de ninguno?. La de no cometer error en cada contraste ya hemos dicho que es de 0,95. La de no cometer errores en n contrastes será de 0,95n. Así que la probabilidad de tener al menos un falso positivo será de 1 – 0,95n.

Imaginaos que hacemos 20 comparaciones. La probabilidad de cometer, como mínimo, un error de tipo I será de 1-0,9520 = 0,64. Habrá un 64% de probabilidad de que cometamos un error y demos por existente un efecto que en realidad no existe por puro azar.

Pues que chorrada, me diréis. ¿Quién se va a poner a hacer tantas comparaciones sabiendo el peligro que tiene?. Pues, si os paráis a pensarlo, lo habéis visto muchas veces. ¿Quién no ha leído un artículo sobre un ensayo que incluía un estudio post hoc con múltiples comparaciones?. Es bastante frecuente cuando el ensayo no da resultados con significación estadística. Los autores tienden a exprimir y torturar los datos hasta que encuentran un resultado satisfactorio.

Sin embargo, desconfiad siempre de los estudios post hoc. El ensayo debe tratar de responder a una pregunta previamente establecida y no buscar respuestas a preguntas que nos podemos hacer después de finalizarlo, dividiendo los participantes en grupos según características que no tienen nada que ver con la aleatorización inicial.

De todas formas, como es una costumbre difícil de erradicar, sí que podemos exigir a los autores de los ensayos que tengan una serie de precauciones si quieren hacer estudios post hoc con múltiples contrastes de hipótesis. Lo primero, todo análisis que se haga con los resultados del ensayo debe especificarse cuando se planifica el ensayo y no una vez terminado. Segundo, los grupos deben tener cierta plausibilidad biológica. Tercero, debe evitarse hacer comparaciones múltiples con subgrupos si los resultados generales del ensayo no son significativos. Y, por último, utilizar siempre alguna técnica que permita mantener la probabilidad de error de tipo I por debajo del 5%, como la corrección de Bonferroni o cualquier otra.

A nosotros nos quedará un último consejo: valorar con precaución las diferencias que se puedan encontrar entre los distintos subgrupos, sobre todo cuando los valores de p son discretos, entre 0,01 y 0,05.

Y aquí dejamos los estudios post hoc y sus trampas. No hemos comentado que hay más ejemplos de comparaciones múltiples además del análisis de subgrupos postaleatorización. Se me ocurre el ejemplo de los estudios de cohortes que estudian diferentes efectos producto de una misma exposición, o el de los análisis intermedios que se hacen durante los ensayos secuenciales para ver si se cumple la regla de finalización preestablecida. Pero esa es otra historia…

Que no se te crucen los cables

El ahorro es un condicionante importante a la hora de realizar cualquier estudio, especialmente si se trata de un ensayo clínico, habitualmente costoso en tiempo y dinero. Por eso tratan de diseñarse nuevas formas de hacer los estudios que nos permitan ahorrar, la mayor parte en lo que se refiere al número de participantes necesarios, uno de los principales condicionantes del coste final del estudio.

ensayo cruzadoUno de estos diseños es el ensayo clínico cruzado, del que ya hablamos en una entrada anterior. En este tipo de ensayos cada sujeto es aleatorizado a un grupo, se realiza la intervención, se deja pasar un periodo de lavado o blanqueo y se realiza la otra intervención, tal como veis esquematizado en el gráfico que os adjunto. Al actuar cada sujeto como su propio control se limita el efecto de las variables confusoras que puedan existir, además de ser menor la variabilidad que pueda deberse al azar respecto a los estudios en que los sujetos de intervención y los controles son diferentes. Esto hace que el tamaño muestral pueda ser menor que el del ensayo clínico en paralelo convencional.

Para poder hacer un ensayo cruzado, el efecto debe ser de producción rápida y de corta duración, a la vez que mantenerse estable a lo largo de los periodos del estudio. En caso contrario podemos encontrarnos con las dos debilidades metodológicas del ensayo cruzado: el efecto secuencia y el efecto periodo.

Por eso, además de analizar los efectos finales de las dos intervenciones en estudio, debemos ampliar el análisis estadístico de los datos para que no se nos cruce ningún cable y demos por buena una diferencia en tamaño de efecto que, en realidad, pueda deberse a un defecto metodológico de este tipo de ensayos.

Este análisis estadístico es un poco laborioso, así que lo vamos a ver con un ejemplo totalmente ficticio.

cruzados_tabla1Supongamos que queremos probar dos hipotensores que vamos a llamar A y B para no rompernos mucho la cabeza. El ejemplo lo vamos a hacer con 10 pacientes en aras de la simplicidad, pero imaginaos que son muchos más. En la primera tabla vemos representados los resultados principales del ensayo. Hemos recogido la presión arterial sistólica (TA) antes de empezar el estudio, al final de cada periodo y durante el periodo de lavado del ensayo. Como es lógico, recogemos también qué fármaco ha recibido cada participante durante cada periodo.

Lo primero que se nos ocurre es comparar las diferencias de TA entre los dos fármacos. Para eso necesitamos extraer los datos y reordenarlos. Con ellos hemos construido la segunda tabla. Si os molestáis en calcular, la media (m) de TA después de recibir A es de 118,5 mmHg, con una cruzados_tabla2desviación estándar (s) de 16 mmHg. Los valores que corresponden para B son una m=144,5 y una s=7,24. Para saber si estas diferencias son significativas debemos hacer un contraste de hipótesis, estableciendo la hipótesis nula (H0) de igualdad de efectos. Vamos a suponer que la variable sigue una distribución normal, que las varianzas son iguales y que la muestra fuese mucho más grande para poder emplear el test de la t de Student para datos pareados. Si calculáis el valor de t para 9 grados de libertad vale -5,18, lo que se corresponde con una p = 0,0005. Al ser p<0,05 rechazamos la hipótesis nula y concluimos que el fármaco A produce una mayor reducción de la TA que el fármaco B.

Y aquí terminaría el análisis si se tratase de un ensayo en paralelo, pero en nuestro caso debemos hacer alguna comprobación más para estar seguros de que no se nos cruza ningún cable por culpa de las debilidades del ensayo cruzado.

En primer lugar, comprobaremos que el efecto de las intervenciones es de corta duración y no existe un efecto residual de la primera intervención cuando comienza la segunda. Si no existe efecto residual, la TA al final del periodo de lavado debería ser similar a la TA basal, antes de cualquier intervención. La TA basal tiene una m=162,9 mmHg, con una s=14,81. Por su parte, los valores al final del periodo de lavado son de 156,6 y 23,14 mmHg, respectivamente. Si hacemos el contraste correspondiente encontraremos un valor de t=0,81, con una p=0,43. No podemos rechazar la H0 de igualdad, así que concluimos que las TA son similares antes de la primera intervención y al final del periodo de lavado, luego no hay efecto residual.

En segundo lugar, comprobaremos que no existe un efecto periodo. Si este se produjese, el efecto al final del segundo periodo sería mayor (o menor) que al final del primero. Al final del primer periodo encontramos una TA m=131,4 mmHg con una s=14,44 mmHg. Al final del segundo los valores son de 131,6 y 21,77 mmHg, respectivamente. Al hacer el contraste encontramos un valor de t=-0,02, con una p=0,98. Conclusión: no rechazamos la H0 de igualdad y concluimos que no existen pruebas de un efecto periodo en el ensayo.

Por último, vamos a investigar si pudo haber un efecto secuencia. Si esto se hubiese producido (hubiese interacción entre los dos fármacos de intervención), el efecto de cada una de las intervenciones sería diferente según el orden en que las hubiésemos llevado a cabo en cada paciente. Para ello calcularemos la media de descenso de TA en todos los pacientes al emplear la secuencia AB y la compararemos con la hallada al utilizar la secuencia BA. Los datos para la secuencia AB son m=-26,2 mmHg y s=11 mmHg. Para la secuencia BA son de -25,8 y 21,22 mmHg, respectivamente. El valor de la t de Student que encontramos si hacemos el test es de -0,04, al cual le corresponde un valor de p=0,96. Una vez más, no podemos rechazar la H0 de igualdad y concluimos que no existió efecto secuencia.

Y con esto vamos a dar por finalizado el análisis. La conclusión final es que existe una diferencia estadísticamente significativa en la potencia hipotensora de los dos fármacos a favor de A, no encontrándose signos que sugieran efectos residuales de una intervención sobre otra, efecto periodo ni efecto secuencia.

Recordad que los datos son ficticios y que hemos asumido normalidad e igualdad de varianzas con fines didácticos. Además, como ya comentamos al principio, no sería del todo correcto emplear la t de Student con una muestra tan pequeña, aunque me he tomado esta pequeña licencia para poder explicar el ejemplo con más sencillez. De todas formas, teniendo un programa informático cuesta lo mismo hacer una t de Student que un test de Wilcoxon.

Y esto es todo. Como veis, el análisis estadístico de los resultados de un ensayo cruzado es bastante más laborioso que el del ensayo en paralelo. De todas formas, aquí hemos visto el ejemplo más sencillo, cuando no hay interacción entre las dos intervenciones. Y es que cuando existe interacción el análisis no termina aquí y son necesarias todavía más comprobaciones. Pero esa es otra historia…

Otra piedra con la que no tropezar

Dice el refrán que el hombre es el único animal que tropieza dos veces con la misma piedra. Dejando aparte las connotaciones del uso de la palabra animal, la frase quiere dar a entender que podemos cometer muchas veces el mismo error, aún a pesar de darnos cuenta de ello.

Dándose cuenta o no, en estadística hay una serie de errores que se cometen con mucha frecuencia, utilizando parámetros o pruebas estadísticas de forma incorrecta, ya sea por ignorancia o, lo que es peor, para obtener resultados más llamativos.

Un caso frecuente es el uso del coeficiente de correlación de Pearson para estudiar el grado de acuerdo entre dos formas de medir una variable cuantitativa. Veamos un ejemplo.

Supongamos que queremos valorar la fiabilidad de un nuevo tensiómetro de muñeca para medir la presión arterial. Tomamos una muestra de 300 escolares sanos y les medimos la presión dos veces. La primera con un manguito convencional de brazo, obteniendo una media de presión sistólica de 120 mmHg y una desviación estándar de 15 mmHg. La segunda, con un nuevo tensiómetro de muñeca, con el que obtenemos una media de 119,5 mmHg y una desviación estándar de 23,6 mmHg. La pregunta que nos hacemos es la siguiente: considerando el manguito de brazo como patrón de referencia, ¿es fiable la determinación de presión arterial con el de muñeca?.

Podría pensarse que para contestar a esta pregunta se podría calcular el coeficiente de correlación entre ambos, pero cometeríamos un error de los gordos. El coeficiente de correlación mide la relación entre dos variables (cómo varía una cuando varía la otra), pero no su grado de acuerdo. Pensad, por ejemplo, si cambiamos la escala de uno de los dos métodos: la correlación no se modifica, pero el acuerdo que hubiese puede perderse por completo.

¿Cómo podemos saber entonces si la técnica nueva es fiable comparada con la convencional?. Lo lógico es pensar que los dos métodos no van a coincidir siempre, así que lo primero que debemos preguntarnos es cuánto es razonable que difieran para dar validez a los resultados. Esta diferencia debe definirse antes de comparar los dos métodos y de establecer el tamaño muestral necesario para hacer la comparación. En nuestro caso vamos a considerar que la diferencia no debe ser mayor a una desviación estándar de lo obtenido con el método de referencia, que es de 15 mmHg.

dos_variablesEl primer paso que podemos dar es examinar los datos. Para ello hacemos un diagrama de puntos representando los resultados obtenidos con los dos métodos. Parece que hay cierta relación entre las dos variables, de forma que aumentan y disminuyen las dos en el mismo sentido. Pero esta vez no caemos en la trampa de dibujar la línea de regresión, que solo nos informaría de la correlación entre las dos variables.

Otra posibilidad es examinar cómo son las diferencias. Si existiese un buen acuerdo, las diferencias entre los dos métodos se distribuirían de forma normal alrededor del cero. Podemos comprobar diferenciasesto haciendo el histograma con las diferencias de las dos medidas, como veis en la segunda figura. En efecto, parece que su distribución se ajusta bastante bien a una normal.

De todas formas, seguimos sin saber si el acuerdo es lo suficientemente bueno. ¿Qué tipo de gráfico nos puede servir?. Lo que nos dará más información será representar la media de cada pareja de mediciones frente a su diferencia, construyendo así el llamado gráfico de Bland-Altman que podéis ver en la tercera figura.

Como veis, los puntos se agrupan, más o menos, alrededor de una línea (en el cero) con un grado de dispersión que vendrá determinado por la amplitud de las diferencias de resultados entre los dos métodos. Cuanta mayor sea ese grado de dispersión, peor será el acuerdo entre los dos métodos. En nuestro caso, hemos dibujado las líneas que coinciden con una desviación estándar por debajo y por encima de la media cero, que eran los límites que considerábamos como aceptables entre los dos métodos para considerar un buen acuerdo.

bland_altmanComo veis hay bastantes puntos que caen fuera de los límites, así que tendríamos que valorar si el nuevo método reproduce los resultados de forma fiable. Otra posibilidad sería dibujar las líneas horizontales que engloban la gran mayoría de los puntos y considerar si estos intervalos tienen utilidad desde el punto de vista clínico.

El método de Bland-Altaman permite, además, calcular los intervalos de confianza de las diferencias y estimar la precisión del resultado. Además, hay que fijarse que el grado de dispersión sea uniforme. Puede ocurrir que el acuerdo sea aceptable en determinado intervalo de valores pero no lo sea en otro (por ejemplo, valores muy altos o muy bajos), en los que la dispersión sea inaceptable. Este efecto puede corregirse a veces transformando los datos (por ejemplo, transformación logarítmica), aunque siempre habrá que valorar considerar la utilidad de la medición en ese intervalo. Si miramos en nuestro ejemplo, parece que el tensiómetro de muñeca da valores más altos para sistólicas más bajas, mientras que da valores más bajos cuando la presión sistólica es mayor (la nube de puntos tiene una discreta pendiente negativa de izquierda a derecha). El método sería más fiable para sistólicas en torno a 120 mmHg, pero perdería reproducibilidad según se aleje el valor de presión arterial sistólica de los 120 mmHg.

Otra utilidad del método de Bland-Altman es la de representar las parejas de resultados de las mediciones hechas con el mismo método o instrumento, para así comprobar la reproducibilidad de los resultados de la prueba.

Y con esto termino lo que quería contaros del método de Bland-Altman. Antes de acabar, quiero aclarar que los datos empleados en esta entrada son totalmente inventados por mí y no corresponden a ningún experimento real. Los he generado con un ordenador con el fin de explicar el ejemplo, así que no quiero que ningún vendedor de tensiómetros de muñeca me venga con reclamaciones.

Para finalizar, deciros que este método se usa solo cuando se quiere valorar el grado de acuerdo entre variables cuantitativas. Existen otros métodos, como el índice kappa de concordancia, para cuando tratamos con resultados cualitativos. Pero esa es otra historia…

La unión hace la fuerza

¿Cuántas veces habremos escuchado esta frase u otras por el estilo?. Las ventajas de trabajar juntos, en equipo, están perfectamente demostradas. Casi nadie niega el hecho de que dos (o más) cabezas piensan mejor que una. Pero el trabajo en equipo también tiene sus puntos oscuros, ya que dentro del equipo suele haber diversidad de caracteres que pueden enturbiar la armonía que debería reinar dentro del grupo. Si estas divergencias son lo suficientemente importantes puede arruinarse la colaboración y hacer que sea más ventajoso el esfuerzo individual que el colectivo.

Y este mismo razonamiento puede aplicarse al uso de variables de resultados en los estudios científicos. En ocasiones, generalmente para aumentar la frecuencia del número de eventos de estudio que se producen y disminuir las necesidades de un tamaño muestral mayor, los investigadores combinan varias variables de resultado en un único evento, que se denomina variable de resultado compuesta.

Un ejemplo frecuente es la variable compuesta MACE, muy utilizada en Cardiología, y que incluye muerte, infarto, ictus, revascularización coronaria, reestenosis, isquemia recurrente y rehospitalización. Considerando un evento producido cuando se produce cualquiera de las situaciones se consigue un mayor número de eventos que si hay que medir cada uno de ellos por separado. En consecuencia, el tamaño muestral necesario para detectar diferencias significativas se reduce.

El problema con las variables compuestas es que, en muchas ocasiones, se abusa de ellas y no se cumplen una serie de requisitos para su correcta utilización. Además, como los componentes de la variable suelen variar de un ensayo a otro, contribuyen enormemente a la heterogeneidad entre estudios, lo que puede dificultar el llegar a conclusiones globales.

Idealmente, todos los componentes deberían ser intercambiables y cumplir tres condiciones. Primera, tener más o menos la misma importancia desde el punto de vista clínico. Segunda, todos los componentes deberían ocurrir con una frecuencia similar. Y tercera, deberían tener una sensibilidad al tratamiento similar.

Sin embargo, estas condiciones no se cumplen prácticamente nunca. Lo habitual es combinar algunos componentes duros e infrecuentes (el más duro de todos es la mortalidad) con otros no tan graves y más frecuentes. Esto tiene como consecuencia que son los efectos más frecuentes (y, por tanto, menos graves) los que suelen condicionar la frecuencia de la variable de resultado compuesta y la sensibilidad para detectar el efecto de la intervención.

Otra cosa que no debe hacerse es combinar variables que responden a diferentes mecanismos fisiopatológicos o formar una variable compuesta con componentes con gran gradiente de importancia clínica o de susceptibilidad al tratamiento.

Este hecho se hace muy evidente cuando se combinan resultados de seguridad con resultados de eficacia para valorar un beneficio clínico neto. Si la intervención es muy eficaz, la valoración neta puede enmascarar la existencia de efectos perjudiciales, sobre todo si no se hace una ponderación de los distintos componentes de la variable compuesta.

Esta combinación de seguridad y eficacia en la misma variable de resultado plantea un problema adicional en los estudios de no inferioridad. Puede ocurrir que una intervención poco eficaz pero muy segura pueda parecer tan buena o mejor que la intervención del grupo de comparación.

Por último, la heterogeneidad de la susceptibilidad al efecto de la intervención de los distintos componentes de la variable puede también plantear problemas a la hora de interpretar los resultados. Por ejemplo, puede producirse un efecto positivo sobre los componentes de menor importancia clínica y afectarse de forma negativa los de mayor importancia (como la mortalidad). Si se da este hecho, el efecto neto puede ser beneficioso por la mayor frecuencia de los componentes más leves, aunque tenga más trascendencia desde el punto de vista clínico el efecto negativo sobre los más graves, mucho menos frecuentes.

Una solución a este problema puede ser asignar una ponderación a cada uno de los componentes de la variable. El problema es que esto es bastante subjetivo y, además, puede disminuir la potencia del estudio, con lo que se pierde el beneficio teórico de usar variables compuestas.

¿Qué hacemos entonces?. ¿Nos olvidamos de las variables de resultado compuestas?. Pues yo creo que no hay necesidad de tanto. Solo conviene seguir una serie de recomendaciones cuando queramos emplearlas para hacerlo con unas garantías máximas: 1) deberá justificarse la validez de cada componente individual; 2) evitaremos utilizar componentes con poca importancia desde el punto de vista clínico; 3) no incluiremos componentes con poca probabilidad de influirse por la intervención; 4) tendremos que describir la variable compuesta y sus componentes por separado; 5) valorar la heterogeneidad del efecto del tratamiento sobre cada uno de los componentes; 6) ponderar los componentes según su importancia clínica; y 7) hacer un análisis de sensibilidad para determinar cómo afectan los resultados el uso de la ponderación de los componentes de la variable compuesta.

Y con esto terminamos por hoy. Hemos tenido la oportunidad de reflexionar sobre una más de las múltiples herramientas que, a menudo, se utilizan de forma incorrecta en los trabajos que vemos publicados en revistas científicas, incluso de alto impacto. Y no es la única. Hay muchas más de las que se abusa para conseguir los resultados buscados. Por ejemplo, se me viene a la cabeza el caso de las comparaciones múltiples de subgrupos. Pero esa es otra historia…

Una tarea imposible

Eso es el bootstrapping. Una idea imposible de llevar a cabo. Además de un palabro intraducible, claro está.

El nombre tiene relación con la especie de correas (straps, en inglés) que tienen las botas (boots, también en inglés) en su parte superior, sobre todo esas botas de vaqueros que vemos en las películas. Bootstrapping es un término que, al parecer, hace referencia a la acción de elevarse a uno mismo del suelo tirando simultáneamente de las correas de las dos botas. Como os dije, una tarea imposible gracias a la tercera ley de Newton, el famoso principio de acción y reacción.  He buscado y rebuscado términos adecuados para traducirlo al castellano, pero no he encontrado ninguno que me agrade, así que se admiten sugerencias al respecto.

El bootstrapping es una técnica de remuestreo que se emplea en estadística cada vez con más frecuencia gracias a la potencia de los ordenadores actuales, que permiten hacer cálculos que antes podían ser inconcebibles. Quizás su nombre tenga que ver con su carácter de tarea imposible, porque el bootstrapping se utiliza para hacer posibles tareas que podrían parecer imposibles cuando el tamaño de nuestras muestras es muy pequeño o cuando las distribuciones están muy sesgadas, como la obtención de intervalos de confianza, de pruebas de significación estadística o de cualquier otro estadístico en el que estemos interesados.

Como recordaréis de cuando calculamos el intervalo de confianza de una media, podemos hacer el experimento teórico de obtener múltiples muestras de una población para calcular la media de cada muestra y representar la distribución de las medias obtenidas de las múltiples muestras. Es la llamada distribución de muestreo, cuya media es el estimador del parámetro en la población y cuya desviación estándar es el llamado error estándar del estadístico que nos permitirá calcular el intervalo de confianza que deseemos. De esta forma, la extracción de muestras repetidas de la población nos permite hacer descripciones e inferencias estadísticas.

Pues bien, el bootstrapping es algo parecido, pero con una diferencia fundamental: las muestras sucesivas se extraen de nuestra muestra y no de la población de la que procede. El procedimiento sigue una serie de pasos repetitivos.

En primer lugar extraemos una muestra a partir de la muestra original. Esta muestra debe extraerse utilizando un muestreo con reposición, de tal forma que algunos elementos no serán seleccionados y otros lo podrán ser más de una vez en cada muestreo. Es lógico, si tenemos una muestra de 10 elementos y extraemos 10 elementos sin reposición, la muestra obtenida será igual a la original, con lo que no ganamos nada.

De esta nueva muestra se obtiene el estadístico deseado y se utiliza como estimador de la población. Como este estimador sería poco preciso, repetimos los dos pasos anteriores un gran número de veces, obteniendo así un número alto de estimaciones.

Ya casi estamos. Con todos estos estimadores construimos su distribución, que llamamos distribución de bootstrap, y que representa una aproximación de la verdadera distribución del estadístico en la población. Lógicamente, para esto hace falta que la muestra original de la que partimos sea representativa de su población. Cuánto más se aleje, menos fiable será la aproximación de la distribución que hemos calculado.

Por último, con esta distribución de bootstrap podemos calcular el valor central (el estimador puntual) y sus intervalos de confianza de forma similar a como hacíamos para calcular el intervalo de confianza de una media a partir de la distribución de muestreo.

Como veis, un método ingenioso que a nadie se le ocurriría poner en práctica sin la ayuda de un programa de estadística y un buen ordenador. Vamos a ver un ejemplo práctico para entenderlo mejor.

Supongamos por un momento que queremos saber cuál es el consumo de alcohol en un grupo determinado de personas. Reunimos 20 individuos y calculamos su consumo de alcohol en gramos semanales, obteniendo los siguientes resultados:

ingesta alcohol

consumo_alcoholLos datos podemos verlos representados en el primer histograma. Como veis, la distribución es asimétrica con un sesgo positivo (hacia la derecha). Tenemos un grupo de abstemios o bebedores escasos y una cola representada por los que van teniendo consumos cada vez más altos, que son cada vez menos frecuentes. Este tipo de distribución es muy frecuente en biología.

En este caso la media no sería buena medida de tendencia central, así que preferimos calcular la mediana. Para ello, podemos ordenar los valores de menor a mayor y hacer la media entre los que ocupan los lugares décimo y undécimo. Yo me he molestado en hacerlo y sé que la mediana vale (4,77+5)/2 = 4,88.

Ahora bien, a mí me interesa saber el valor de la mediana en la población de la que procede la muestra. Con una muestra tan pequeña y tan sesgada no puedo aplicar los procedimientos habituales y no tengo posibilidad de buscar más individuos de la población para hacerles el estudio. En este momento es donde entra en juego el bootstrapping.

Así que obtengo 1000 muestras con reposición de mi muestra original y calculo la mediana de las 1000 muestras. La distribución de bootstrap de esas 1000 medianas aparece representada en el segundo histograma. Como puede comprobarse, se parece a una distribución normal, cuya media es 4,88 y cuya desviación estándar es 1,43.

Bueno, ya podemos calcular nuestro intervalo de confianza para hacer la estimación poblacional. Podemos hacerlo de dos formas. La primera, calculando los márgenes que engloban el 95% de la muestra (calculando los percentiles 2,5 y 97,5) y que veis representados en el tercer gráfico. Yo he utilizado el programa R, pero puede hacerse de forma manual utilizando fórmulas para el cálculo de percentiles (aunque no es muy recomendable, ya que hay 1000 medianas que ordenar). Así, obtengo una mediana de 4,88 con un intervalo de confianza del 95% de 2,51 a 7,9.

La otra forma es recurriendo al teorema central del límite, que no podíamos usar con la muestra original pero sí con la distribución de bootstrap. Sabemos que el intervalo de confianza del 95% será igual a la mediana más menos 1,96 veces el error estándar (que es la desviación estándar de la distribución de bootstrap). Luego:

IC 95 = 4,88 ± 1,96 x 1,43 = 2,08 a 7,68.

Como veis, se parece bastante al que habíamos obtenido con la aproximación de los percentiles.

Y aquí lo dejamos, antes de que alguna cabeza se recaliente demasiado. Para animaros un poco, todo este rollo puede evitarse si se utiliza directamente un programa como R, que calcula el intervalo, y hace el bootstrapping si es necesario, con una instrucción tan sencilla como el comando ci.median() de la librería asbio.

Nada más por hoy. Solo deciros que el bootstrapping es quizás la más famosa de las técnicas de remuestreo, pero no la única. Hay más, algunas también con nombre peculiar como jacknife, pruebas de aleatorización y permutación o prueba de validación cruzada. Pero esa es otra historia…

No todo es normal

Dice el diccionario que una cosa es normal cuando se halla en un estado natural o que se ajusta a unas normas fijadas de antemano. Y este es su significado más normal. Pero como muchas otras palabras, normal tiene otros muchos significados. En estadística, al hablar de normal nos referimos a una distribución de probabilidad determinada, la llamada distribución normal, la famosa campana de Gauss.

Esta distribución se caracteriza por su simetría alrededor de una media, que coincide con la mediana, además que otras características que ya comentamos en una entrada anterior. La gran ventaja de la distribución normal es que nos permite calcular probabilidades de aparición de datos de esa distribución, lo que tiene como consecuencia la posibilidad de inferir datos de la población a partir de los obtenidos de una muestra de la misma.

Así, prácticamente todas las pruebas paramétricas de contraste de hipótesis necesitan que los datos sigan una distribución normal. Podría pensarse que esto no es un gran problema. Si se llama normal será porque los datos biológicos suelen seguir, más o menos, esta distribución. Craso error, muchos datos siguen una distribución que se aparta de la normalidad. Pensemos, por ejemplo, en el consumo de alcohol. Los datos no se agruparán de forma simétrica alrededor de una media. Al contrario, la distribución tendrá un sesgo positivo (hacia la derecha): habrá un número grande alrededor del cero (los abstemios o bebedores muy ocasionales) y una larga cola hacia la derecha formada por personas con un consumo más alto. La cola se prolongará mucho hacia la derecha con los valores de consumo de esas personas que se desayunan con cazalla.

¿Y en qué nos afecta para nuestros cálculos estadísticos que la variable no siga una normal?. ¿Qué tenemos que hacer si los datos no son normales?.

curva_normalLo primero que tenemos que hacer es darnos cuenta de que la variable no sigue una distribución normal. Ya vimos que existen una serie de métodos gráficos que nos permiten aproximar de forma visual si los datos siguen la normal. El histograma o el diagrama de cajas (box-plot) nos permiten comprobar si la distribución está sesgada, si es demasiado plana o picuda, o si tiene valores extremos. El gráfico más específico para este fin es el de probabilidad normal (q-q plot), en el que los valores se ajustan a la línea diagonal si la distribución sigue una normal.

Otra posibilidad es emplear pruebas de contraste numéricas como la de Shapiro-Wilk o la de Kolmogorov-Smirnov. El problema de estas pruebas es que son muy sensibles al efecto del tamaño de la muestra. Si la muestra es grande pueden afectarse por desviaciones de la normalidad poco importantes. Al contrario, si la muestra es pequeña, pueden fracasar en la detección de desviaciones grandes de la normalidad. Pero es que estas pruebas, además, tienen otro inconveniente que entenderéis mejor tras un pequeño inciso.

Ya sabemos que en un contraste de hipótesis se establece una hipótesis nula que, habitualmente, dice lo contrario de lo que queremos demostrar. Así, si el valor de significación estadística es menor de valor definido (habitualmente 0,05), rechazamos la hipótesis nula y nos quedamos con la alternativa, que dirá precisamente lo que queremos demostrar. El problema es que la hipótesis nula es solo falsable, nunca podemos decir que sea verdadera. Simplemente, si la significación estadística es alta, no podremos rechazar que sea falsa, pero eso no quiere tampoco decir que sea cierta. Puede ocurrir que el estudio no tenga potencia suficiente para descartar una hipótesis nula que, en realidad, es falsa.

Pues bien, da la casualidad de que los contrastes de normalidad están planteados con una hipótesis nula que dice que los datos siguen una normal. Por eso, si la significación es pequeña, podremos descartarla y decir que los datos no son normales. Pero si la significación es alta, simplemente no podremos rechazarla y diremos que no tenemos capacidad para decir que los datos no siguen una normal, lo que no es lo mismo que poder afirmar que son normales. Por estos motivos, siempre es conveniente complementar los contrastes numéricos con algún método gráfico para comprobar la normalidad de la variable.

Una vez que sabemos que los datos no son normales, tendremos que tenerlo en cuenta a la hora de describirlos. Si la distribución es muy sesgada no podremos utilizar la media como medida de centralización y tendremos que recurrir a otros estimadores robustos, como la mediana o el otro abanico de medias disponibles para estas situaciones.

Además, la ausencia de normalidad puede desaconsejar el uso de pruebas paramétricas de contraste. La prueba de la t de Student o el análisis de la varianza (ANOVA) precisan que la distribución sea normal. La t de Student es bastante robusta en este sentido, de forma que si la muestra es grande (n > 80) puede emplearse con cierta seguridad. Pero si la muestra es pequeña o la distribución se aparta mucho de la normal, no podremos utilizar pruebas paramétricas de contraste.

Una de las posibles soluciones a este problema sería intentar una transformación de los datos. La más frecuentemente empleada en biología es la transformación logarítmica, muy útil para aproximar a una normal aquellas distribuciones con sesgo positivo (hacia la derecha). No hay que olvidar deshacer la transformación de los datos una vez realizado el contraste con la prueba en cuestión.

La otra posibilidad es emplear pruebas no paramétricas, que no precisan de ninguna asunción sobre la distribución de la variable. Así, para comparar dos medias de datos no pareados emplearemos el test de la suma de rangos de Wilcoxon (también llamado test de la U de Mann-Withney). Si los datos son pareados habrá que usar el test de los signos de los rangos de Wilcoxon. En caso de comparaciones de más de dos medias medias, el test de Kruskal-Wallis será el equivalente no paramétrico de la ANOVA. Por último, comentar que el equivalente no paramétrico del coeficiente de correlación de Pearson es el coeficiente de correlación de Spearman.

El problema de las pruebas no paramétricas es que son más exigentes para conseguir significación estadística que sus equivalentes paramétricos, pero deben emplearse en cuanto haya la menor duda sobre la normalidad de la variable que estemos contrastando.

Y aquí lo vamos a dejar por hoy. Podríamos hablar de una tercera posibilidad de enfrentarnos a una variable no normal, mucho más exótica que las mencionadas. Se trata de la utilización de técnicas de remuestreo como el bootstrapping, que consiste en hacer una distribución empírica de las medias de muchas muestras extraídas de nuestros datos para poder hacer inferencias con los resultados obtenidos, conservando así las unidades originales de la variable y evitando el vaivén de las técnicas de trasformación de datos. Pero esa es otra historia…