Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasContraste de hipótesis

Idolatrada, pero incomprendida

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…

El detector de tramposos

Cuando pensamos en inventos e inventores, a la mayoría de nosotros nos viene a la cabeza el nombre de Thomas Alva Edison, conocido entre sus amigos como el mago de Menlo Park. Este señor creó más de mil inventos, de algunos de los cuales puede decirse que cambiaron el mundo. Entre ellos podemos nombrar la bombilla incandescente, el fonógrafo, el kinetoscopio, el polígrafo, el telégrafo cuádruplex, etc., etc., etc. Pero quizás su gran mérito no sea el de haber inventado todas estas cosas, sino el de aplicar métodos de producción en cadena y de trabajo en equipo al proceso de investigación, favoreciendo la difusión de sus inventos y la creación del primer laboratorio de investigación industrial.

Pero a pesar de toda su genialidad y excelencia, a Edison se le pasó inventar algo que habría tenido tanta utilidad como la bombilla: un detector de tramposos. La explicación de esta falta es doble: vivió entre los siglos XIX y XX y no se dedicaba a leer artículos sobre medicina. Si hubiese vivido en nuestro tiempo y hubiese tenido que leer literatura médica, no me cabe duda que el mago de Menlo Park se habría dado cuenta de la utilidad de este invento y se habría puesto las pilas (que, por cierto, no las inventó él, sino Alessandro Volta).

Y no es que yo esté hoy especialmente negativo, el problema es que, como ya dijo Altman hace más de 15 años, el material remitido a las revistas médicas es malo desde el punto de vista metodológico en un altísimo porcentaje de los casos. Es triste, pero el sitio más adecuado para guardar muchos de los trabajos que se publican es el cubo de la basura.

En la mayor parte de los casos la causa probablemente sea la ignorancia de los que escribimos. “Somos clínicos”, nos decimos, así que dejamos de lado los aspectos metodológicos, de los cuales tenemos una formación, en general, bastante deficiente. Para arreglarlo, las revistas mandan revisar nuestros trabajos a otros colegas, que andan más o menos como nosotros. “Somos clínicos”, se dicen, así que se comen todos nuestros errores.

Aunque esto es, de por sí, grave, puede tener remedio: estudiar. Pero es un hecho todavía más grave que, en ocasiones, estos errores pueden ser intencionados con el objetivo de inducir al lector a llegar a una determinada conclusión tras la lectura del trabajo. El remedio para este problema es hacer una lectura crítica del trabajo, prestando atención a la validez interna del estudio. En este sentido, quizás el aspecto más difícil de valorar para el clínico sin formación metodológica sea el relacionado con la estadística empleada para analizar los resultados del trabajo. Es aquí, sin ninguna duda, donde mejor se pueden aprovechar de nuestra ignorancia utilizando métodos que proporcionen resultados más vistosos, en lugar de los métodos adecuados.

Como sé que no vais a estar dispuestos a hacer un máster sobre bioestadística, en espera de que alguien invente el detector de tramposos, vamos a dar una serie de pistas para que el personal no experto pueda sospechar la existencia de estas trampas.

La primera puede parecer una obviedad, pero no lo es: ¿se ha utilizado algún método estadístico? Aunque es excepcionalmente raro, puede haber autores que no consideren utilizar ninguno. Recuerdo un congreso al que pude asistir en el que se exponían los valores de una variable a lo largo del estudio que, primero, subían y, después, bajaban, lo que permitía concluir que el resultado no era “muy allá”. Como es lógico y evidente, toda comparación debe hacerse con el adecuado contraste de hipótesis e indicarse su nivel de significación y la prueba estadística utilizada. En caso contrario, las conclusiones carecerán de validez alguna.

Un aspecto clave de cualquier estudio, especialmente en los de intervención, es el cálculo previo del tamaño muestral necesario. El investigador debe definir el efecto clínicamente importante que quiere ser capaz de detectar con su estudio y calcular a continuación qué tamaño muestral le proporcionará al estudio la potencia suficiente para demostrarlo. La muestra de un estudio no es grande o pequeña, sino suficiente o insuficiente. Si la muestra no es suficiente, puede no detectarse un efecto existente por falta de potencia (error de tipo 2). Por otro lado, una muestra mayor de lo necesario puede mostrar como estadísticamente significativo un efecto que no sea relevante desde el punto de vista clínico. Aquí hay dos trampas muy habituales. Primero, el del estudio que no alcanza significación y sus autores afirman que es por falta de potencia (por tamaño muestral insuficiente), pero no hacen ningún esfuerzo por calcular la potencia, que siempre puede hacerse a posteriori. En ese caso, podemos hacerlo nosotros usando programas de estadística o cualquiera de las calculadoras disponibles en internet, como la GRANMO. Segundo, se aumenta el tamaño muestral hasta que la diferencia observada sea significativa, encontrando la ansiada p < 0,05. Este caso es más sencillo: solo tenemos que valorar si el efecto encontrado es relevante desde el punto de vista clínico. Os aconsejo practicar y comparar los tamaños muestrales necesarios de los estudios con los que definen los autores. A lo mejor os lleváis alguna sorpresa.

Una vez seleccionados los participantes, un aspecto fundamental es el de la homogeneidad de los grupos basales. Esto es especialmente importante en el caso de los ensayos clínicos: si queremos estar seguros de que la diferencia de efecto observada entre los dos grupos se debe a la intervención, los dos grupos deben ser iguales en todo, menos en la intervención.

Para esto nos fijaremos en la clásica tabla I de la publicación del ensayo. Aquí tenemos que decir que, si hemos repartido los participantes al azar entre los dos grupos, cualquier diferencia entre ellos se deberá, sí o sí, al azar. No os dejéis engañar por las p, recordad que el tamaño muestral está calculado para la magnitud clínicamente importante de la variable principal, no para las características basales de los dos grupos. Si veis alguna diferencia y os parece clínicamente relevante, habrá que comprobar que los autores han tenido en cuenta su influencia sobre los resultados del estudio y han hecho el ajuste pertinente durante la fase de análisis.

El siguiente punto es el de la aleatorización. Esta es una parte fundamental de cualquier ensayo clínico, por lo que debe estar claramente definido cómo se hizo. Aquí os tengo que decir que el azar es caprichoso y tiene muchos vicios, pero raramente produce grupos de igual tamaño. Pensad un momento si tiráis una moneda 100 veces. Aunque la probabilidad de salir cara en cada lanzamiento sea del 50%, será muy raro que lanzando 100 veces saquéis exactamente 50 caras. Cuánto mayor sea el número de participantes, más sospechoso nos deberá parecer que los dos grupos sean iguales. Pero cuidado, esto solo vale para la aleatorización simple. Existen métodos de aleatorización en los que los grupos sí pueden quedar más equilibrados.

Otro punto caliente es el uso indebido que, a veces, puede hacerse con variables cualitativas. Aunque las variables cualitativas pueden codificarse con números, mucho cuidado con hacer operaciones aritméticas con ellos. Probablemente no tendrán ningún sentido. Otra trampa que podemos encontrarnos tiene que ver con el hecho de categorizar una variable continua. Pasar una variable continua a cualitativa suele llevar aparejada pérdida de información, así que debe tener un significado clínico claro. En caso contrario, podemos sospechar que la razón sea la búsqueda de una p < 0,05, siempre más fácil de conseguir con la variable cualitativa.

Entrando ya en el análisis de los datos, hay que comprobar que los autores han seguido el protocolo del estudio diseñado a priori. Desconfiad siempre de los estudios post hoc que no estaban planificados desde el comienzo. Si buscamos lo suficiente, siempre hallaremos un grupo que se comporta como a nosotros nos interesa. Como suele decirse, si torturas los datos lo suficiente, acabarán por confesar.

Otra conducta inaceptable es finalizar el estudio antes de tiempo por obtenerse buenos resultados. Una vez más, si la duración del seguimiento se ha establecido durante la fase de diseño como la idónea para detectar el efecto, esto debe respetarse. Cualquier violación del protocolo debe estar más que justificada. Lógicamente, es lógico terminar el estudio antes de tiempo por motivos de seguridad de los participantes, pero habrá que tener en cuenta cómo afecta este hecho en la valoración de los resultados.

Antes de realizar el análisis de los resultados, los autores de cualquier trabajo tienen que depurar sus datos, revisando la calidad y la integridad de los valores recogidos. En este sentido, uno de los aspectos a los que hay que prestar atención es al manejo de los datos extremos (los llamados outliers). Estos son los valores que se alejan mucho de los valores centrales de la distribución. En muchas ocasiones pueden deberse a errores en el cálculo, medición o transcripción del valor de la variable, pero también pueden ser valores reales que se deban a la especial idiosincrasia de la variable. El problema es que existe una tendencia a eliminarlos del análisis aún cuando no haya seguridad de que se deban a algún error. Lo correcto es tenerlos en cuenta al hacer el análisis y utilizar, si es necesario, métodos estadísticos robustos que permitan ajustar estas desviaciones.

Finalmente, el aspecto que nos puede costar más a los no muy expertos en estadística es saber si se ha empleado el método estadístico correcto. Un error frecuente es el empleo de pruebas paramétricas sin comprobar previamente si se cumplen los requisitos necesarios. Esto puede hacerse por ignorancia o para obtener la significación estadística, ya que las pruebas paramétricas son menos exigentes en este sentido. Para entendernos, la p será más pequeña que si empleamos la prueba equivalente no paramétrica.

También, con cierta frecuencia, se obvian otros requisitos para poder aplicar determinada prueba de contraste. Como ejemplo, para realizar una prueba de la t de Student o un ANOVA es necesario comprobar la homocedasticidad (una palabra muy fea que quiere decir que las varianzas son iguales), comprobación que se pasa por alto en muchos trabajos. Lo mismo ocurre con los modelos de regresión que, con frecuencia, no se acompañan del preceptivo diagnóstico del modelo que permite justificar su uso.

Otro asunto en el que puede haber trampa es el de las comparaciones múltiples. Por ejemplo, cuando el ANOVA da significativo nos dice que hay al menos dos medias que son diferentes, pero no cuáles, así que nos ponemos a compararlas dos a dos. El problema es que cuando hacemos comparaciones repetidas aumenta la probabilidad de error de tipo I, o sea, la probabilidad de encontrar diferencias significativas solo por azar. Esto puede permitir encontrar, aunque solo sea por casualidad, una p < 0,05, lo que viste mucho el estudio (sobre todo si has gastado mucho tiempo y/o dinero en hacerlo). En estos casos los autores deben emplear alguna de las correcciones disponibles (como la de Bonferroni, una de las más sencillas) para que el alfa global se mantenga en 0,05. El precio a pagar es sencillo: la p tiene que ser mucho más pequeña para ser significativa. Cuando veamos comparaciones múltiples sin corrección solo tendrá dos explicaciones: la ignorancia del que haya hecho el análisis o el intento de encontrar una significación que, probablemente, no soportaría la disminución del valor de p que conllevaría la corrección.

Otra víctima frecuente del mal uso de la estadística es el coeficiente de correlación de Pearson, que se utiliza para casi todo. La correlación, como tal, nos dice si dos variables están relacionadas, pero no nos dice nada sobre la causalidad de una variable para la producción de la otra. Otro mal uso es utilizar el coeficiente de correlación para comparar los resultados obtenidos por dos observadores, cuando probablemente lo que deba utilizarse en este caso es el coeficiente de correlación intraclase (para variables continuas) o el índice kappa (para cualitativas dicotómicas). Por último, también es incorrecto comparar dos métodos de medición (por ejemplo, glucemia capilar y venosa) mediante correlación o regresión lineal. Para estos casos lo correcto sería usar la regresión de Passing y Bablok.

Otra situación en la que una mente paranoica como la mía sospecharía es aquella en la que el método estadístico empleado no lo conocen ni los más listos del lugar. Siempre que haya una forma más conocida (y muchas veces más sencilla) de hacer el análisis, deberemos preguntarnos por qué han usado un método tan raro. En estos casos exigiremos a los autores que justifiquen su elección y que aporten una cita donde podamos revisar el método. En estadística hay que tratar de elegir la técnica correcta para cada ocasión y no aquella que nos proporcione el resultado más apetecible.

En cualquiera de los test de contraste anteriores, los autores suelen emplear un nivel de significación para p < 0,05, lo habitual, pero el contraste puede hacerse con una o con dos colas. Cuando hacemos un ensayo para probar un nuevo fármaco, lo que esperamos es que funcione mejor que el placebo o el fármaco con el que lo estemos comparando. Sin embargo, pueden ocurrir otras dos situaciones que no podemos desdeñar: que funcione igual o, incluso, que funcione peor. Un contraste bilateral (con dos colas) no asume la dirección del efecto, ya que calcula la probabilidad de obtener una diferencia igual o mayor que la observada, en las dos direcciones. Si el investigador está muy seguro de la dirección del efecto puede hacer un contraste unilateral (con una cola), midiendo la probabilidad del resultado en la dirección considerada. El problema es cuando lo hace por otra razón: la p del contraste bilateral es el doble de grande que la del unilateral, por lo que será más fácil conseguir significación estadística con el contraste unilateral. Lo que no es correcto es que este último sea el motivo para hacer un contraste unilateral. Lo correcto, salvo que haya razones bien justificadas, es hacer un contraste bilateral.

Para ir terminando esta entrada tan tramposa, diremos unas palabras sobre el uso de las medidas adecuadas para presentar los resultados. Hay muchas formas de maquillar la verdad sin llegar a mentir y, aunque en el fondo todas dicen lo mismo, la apariencia puede ser muy diferente según cómo lo digamos. El ejemplo más típico es el de usar medidas de riesgo relativas en lugar de medidas absolutas de impacto. Siempre que veamos un ensayo clínico, debemos exigir que nos presenten la reducción absoluta del riesgo y el número necesario a tratar (NNT). La reducción relativa del riesgo es un número mayor que la absoluta, por lo que parecerá que el impacto es mayor. Dado que las medidas absolutas son más fáciles de calcular y se obtienen de los mismos datos que la relativas, deberemos desconfiar si los autores no nos las ofrecen: quizás el efecto no sea tan importante como nos pretenden hacer ver.

Otro ejemplo es el uso de la odds ratio frente a los riesgos relativos (cuando pueden calcularse ambos). La odds ratio tiende a magnificar la asociación entre las variables, así que su uso no justificado también puede hacernos sospechar. Si podéis, calcular el riesgo relativo y comparad las dos medidas.

De igual manera, sospecharemos de los estudios de pruebas diagnósticas que no nos proporcionan los cocientes de probabilidad y se limiten a sensibilidad, especificidad y valores predictivos. Los valores predictivos pueden ser altos si la prevalencia de la enfermedad en la población del estudio es alta, pero no sería aplicables a poblaciones con menos proporción de enfermos. Esto se soslaya con el uso de los cocientes de probabilidad. Siempre deberemos preguntarnos el motivo que puedan tener los autores para obviar el dato parámetro más válido para calibrar la potencia de la prueba diagnóstica.

Y, por último, mucho cuidado con los gráficos: aquí las posibilidades de maquillar los resultados solo están limitadas por la imaginación. Hay que fijarse en las unidades empleadas y tratar de extraer la información del gráfico más allá de lo que pueda parecer que representa a primera vista.

Y aquí dejamos el tema por hoy. Nos ha faltado hablar en detalle sobre otra de las entidades más incomprendidas y manipuladas, que no es otra que nuestra p. A p se le atribuyen muchos significados, generalmente de forma errónea, como la probabilidad de que la hipótesis nula sea cierta, probabilidad que tiene su método específico para poder hacer una estimación. Pero esa es otra historia…

Pareja con pareja

Todos conoceréis el caso de alguien que, tras realizar un estudio y recoger varios millones de variables, se ha dirigido al estadístico de su centro de trabajo y, demostrando de forma fehaciente su claridad de ideas respecto a su trabajo, le ha dicho: por favor (hay que ser educados), crúzalo todo con todo, a ver qué sale.

Llegados a este punto te pueden ocurrir varias cosas. Si el estadístico es un desalmado sin escrúpulos te dirigirá una media sonrisa y te dirá que vuelvas al cabo de unos días. Entonces te dará varios centenares de hojas con gráficos, tablas y números que no sabrás por dónde coger. Otra cosa que te puede ocurrir es que te mande a paseo, cansado como estará de que le hagan peticiones semejantes.

Pero puedes tener suerte y encontrar un estadístico competente y paciente que, de forma abnegada, te explicará que la cosa no debe funcionar así. Lo lógico es que tú, antes de recoger ningún dato, hayas elaborado una memoria del proyecto en la que esté previsto, entre otras cosas, qué hay que analizar y qué variables hay que cruzar entre sí. Incluso, te puede sugerir que, si el análisis no es muy complicado, intentes hacerlo tú mismo.

Esto último te puede parecer el desvarío de una mente trastornada por las matemáticas pero, si lo piensas un momento, no es tan mala idea. Si nosotros hacemos el análisis, al menos el preliminar, de nuestros resultados, nos puede ayudar a entender mejor el estudio. Además, ¿quién mejor que nosotros mismos puede saber lo que queremos?

Con los paquetes estadísticos actuales, la estadística bivariante más sencilla puede estar a nuestro alcance. Únicamente tenemos que tener buen cuidado en saber elegir el test de contraste de hipótesis adecuado, para lo cual habremos de tener en cuenta tres aspectos: el tipo de variables que queremos comparar, si los datos son apareados o independientes y si tenemos que utilizar test paramétricos o no paramétricos. Veamos estos tres aspectos.

En cuanto al tipo de variables, existen múltiples denominaciones según la clasificación o el paquete estadístico que utilicemos pero, simplificando, diremos que hay tres tipos de variables. En primer lugar, están las continuas o de escala. Como su nombre indica, recogen el valor de una variable continua como puede ser el peso, la talla, la glucemia, etc. En segundo lugar, están las variables nominales, que constan de dos o más categorías que son mutuamente excluyentes. Por ejemplo, la variable color de pelo puede tener las categorías “moreno”, “rubio” y “pelirrojo”. Cuando estas variables tienen dos categorías, las llamamos dicotómicas (sí/no, vivo/muerto, etc.). Por último, cuando las categorías están ordenadas por rango, hablamos de variables ordinales: “no fuma”, “fuma poco”, “fuma moderadamente”, “fuma mucho”. Aunque a veces puedan usar números, estos indican la posición de las categorías dentro de la serie, sin implicar, por ejemplo, que la distancia de la categoría 1 a la 2 sea la misma que la de la 2 a la 3. Por ejemplo, podemos clasificar el reflujo vesicoureteral en grados I, II, III y IV (tener un grado IV es más que un II, pero no significa que se tenga el doble de reflujo).

Saber qué tipo de variable tenemos entre manos es sencillo. Si tenemos duda, podemos seguir el siguiente razonamiento basado en la respuesta a dos preguntas:

  1. ¿Tiene la variable valores teóricos infinitos? Aquí hay que abstraerse un poco y fijarse en los de “valores teóricos”. Por ejemplo, si recogemos el peso de nuestros participantes, los valores teóricos serán infinitos aunque, en la práctica, esto estará limitado por la precisión de nuestra báscula. Si la respuesta es sí estaremos antes una variable continua o de escala. Si es no, pasamos a la siguiente pregunta.
  2. ¿Los valores están ordenados en algún tipo de rango? Si la respuesta es sí, nos encontraremos ante una variable ordinal. Si la respuesta es no, tendremos una variable nominal.

El segundo aspecto es el de las medidas apareadas o independientes. Dos medidas están apareadas cuando se mide una variable en dos ocasiones tras haber aplicado algún cambio, habitualmente en el mismo sujeto. Por ejemplo: presión arterial antes y después de un test de esfuerzo, peso antes y después de una intervención nutricional, etc. Por su parte, las medidas independientes son aquellas que no tienen relación entre sí (son variables diferentes): peso, talla, género, edad, etc.

Por último, hemos mencionado lo de poder utilizar test paramétricos o no paramétricos. No vamos a entrar ahora en detalle, pero para poder utilizar un test paramétrico la variable debe cumplir una serie de características, como seguir una distribución normal, tener un determinado tamaño muestral, etc. Además, hay técnicas que son más exigentes que otras a la hora de tener que cumplir estas condiciones. Ante la duda, es preferible utilizar técnicas no paramétricas sin necesidad (el único problema es que es más difícil conseguir significación estadística, pero el contraste es igual de válido) que usar una prueba paramétrica cuando no se cumplan los requisitos necesarios.

Una vez que ya hemos dado respuesta a estos tres aspectos, solo nos queda hacer las parejas de variables que vamos a comparar y elegir el test estadístico apropiado. Lo podéis ver resumido en la tabla adjunta.En las filas está representado el tipo de variable independiente, que es aquella cuyo valor no depende de otra variable (suele estar en el eje x de las representaciones gráficas) y que suele ser la que modificamos en el estudio para ver el efecto sobre otra variable (la dependiente). En las columnas, por su parte, tenemos la variable dependiente, que es aquella cuyo valor se modifica con los cambios de la variable independiente. De todas formas, no os lieis: el programa estadístico hará el contraste de hipótesis sin tener en cuenta cuál es la dependiente y cuál la independiente, solo tendrá en cuenta los tipos de variables.

La tabla se explica sola, así que no le vamos a dar muchas vueltas. Por ejemplo, si hemos medido la presión arterial (variable de escala) y queremos saber si hay diferencias entre hombres y mujeres (género, variable nominal dicotómica), el test adecuado será el de la t de Student para muestras independientes. Si quisiéramos ver si hay diferencia en la presión antes y después de un tratamiento, utilizaríamos el mismo test de la t de Student pero para muestras apareadas.

Otro ejemplo: si queremos saber si hay diferencias significativas en el color de pelo (nominal politómica: “rubio”, “moreno” y “pelirrojo) y si el participante es del norte o sur de Europa (nominal dicotómica), podríamos emplear un test de la Ji-cuadrado.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de las peculiaridades de cada test que debemos tener en cuenta, sino que solo hemos mencionado el test en sí. Por ejemplo, la ji-cuadrado tiene que cumplir unos mínimos en cada casilla de la tabla de contingencia, en el caso de la t de Student debemos considerar si las varianzas son iguales (homocedasticidad) o no, etc. Pero esa es otra historia…

Sota, caballo y rey

A diario nos enfrentamos a multitud de situaciones en las que siempre actuamos de la misma manera. Decimos que vamos a sota, caballo y rey. Y esto es bueno, porque se supone que este tipo de actuaciones nos salen de forma rutinaria, sin tener que pensar en ellas.

El problema es que para hacer una cosa a sota, caballo y rey tenemos que comprender bien cómo hacerla. De lo contrario podemos hacer cualquier cosa menos lo que pretendemos.

Un ejemplo es el contraste de hipótesis. Siempre es lo mismo: sota, caballo y rey. Y, sin embargo, al principio nos parece algo más complicado de lo que realmente es. Porque, con independencia del contraste que estemos haciendo, los pasos a seguir son siempre los mismos: establecer nuestra hipótesis nula, seleccionar el estadístico adecuado para cada situación, utilizar las distribución de probabilidad correspondiente para calcular la probabilidad de ese valor del estadístico que hemos empleado y, según este valor de probabilidad, decidirnos en favor de la hipótesis nula o de la alternativa. Vamos a analizar estos pasos uno a uno y utilizando un ejemplo concreto para comprenderlos mejor.

talla_escolaresSupongamos que hemos medido la altura de 25 niños de una clase de un colegio y hemos obtenido las tallas que se muestran en la tabla. Si lo calculáis, la media de talla de nuestro grupo es de 135,4 cm, con una desviación estándar de 2,85 cm. Ahora resulta que hay un estudio previo a nivel de toda la provincia en la que se estima una talla de 138 para los niños de la edad de nuestra clase. La pregunta que nos planteamos es la siguiente: ¿son nuestros niños más bajos que la media o la diferencia se debe al azar de muestreo?. Ya tenemos nuestro contraste de hipótesis.

Lo primero, establezcamos la hipótesis nula y la alternativa. Como ya sabemos, cuando hacemos un contraste de hipótesis podemos rechazar la hipótesis nula si el estadístico del contraste tiene una determinada probabilidad. Lo que no podemos hacer nunca es aceptarla, solo rechazarla. Por eso se plantea habitualmente la hipótesis nula como lo contrario a lo que queremos demostrar, para poder rechazar lo que no queremos demostrar y aceptar lo que sí queremos demostrar.

En nuestro caso vamos a plantear la hipótesis nula de que la talla de nuestros alumnos es igual a la de la media de la provincia y que la diferencia encontrada es debida al error de muestreo, al puro azar. Por otra parte, la hipótesis alternativa plantea que sí existe una diferencia y que nuestros niños son más bajos.

Una vez planteadas la hipótesis nula y alternativa tenemos que elegir el estadístico adecuado para este contraste de hipótesis. Este caso es uno de los más sencillos, el de comparación de dos medias, la nuestra y la de la población. En este caso, nuestra media estandarizada respecto a la de la población sigue una distribución t de Student, según la siguiente fórmula que me vais a permitir:

t = (media del grupo – media de población) / error estándar de la media

Así que sustituimos la media por nuestro valor (135,4 cm), la media poblacional por 138 y el error estándar por su valor (la desviación estándar dividida por la raíz cuadrada del tamaño muestral) y obtenemos un valor de t de -4,55.

Ahora tenemos que calcular la probabilidad de que t sea igual a -4,55. Si pensamos un poco veremos que en el caso de que las dos medias fuesen iguales t tendría un valor de cero. Cuánto más distintas sean, más se alejará el valor de t del cero. Nosotros queremos saber si esta desviación, de cero a -4,55, se debe al azar. Para ello calculamos la probabilidad de que t valga -4,55 utilizando una tabla de la distribución de la t de Student o un programa informático, obteniendo un valor de p = 0,0001.

Ya tenemos el valor de p, así que solo nos queda el último paso, ver si podemos rechazar la hipótesis nula. El valor de p nos indica la probabilidad de que la diferencia observada entre las dos medias se deba al azar. Como es menor de 0,05 (menor del 5%), nos sentimos lo suficientemente seguros como para decir que no es debida al azar (o, al menos, es muy improbable), así que rechazamos la hipótesis nula de que la diferencia se debe al azar y abrazamos la hipótesis alternativa de que las dos medias son realmente diferentes. Conclusión: nos ha tocado la clase de los más canijos de la provincia.

Y esto es todo respecto al contraste de hipótesis de igualdad de dos medias. En este caso hemos hecho una prueba de la t de Student para una muestra, pero lo importante es que os fijéis en la dinámica del contraste de hipótesis. Siempre es la misma: sota, caballo y rey. Lo que cambia, lógicamente, es el estadístico y la distribución de probabilidad que usamos en cada ocasión.

Para terminar solo me queda llamar vuestra atención sobre otro método que podríamos haber utilizado para saber si las muestra son diferentes. Este no es más que recurrir a nuestros queridos intervalos de confianza. Podríamos haber calculado el intervalo de confianza de nuestra media y ver si incluía la media de la población, en cuyo caso habríamos concluido que eran similares. Si la media poblacional hubiese estado fuera del intervalo, habríamos rechazado la hipótesis nula, llegando lógicamente a la misma conclusión. Pero esa es otra historia…

La fragilidad de la emPeratriz

Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones.

El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar.

En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar.

Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.

Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos.

Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02.

Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?.

A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo.

Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados.

Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo.

Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados.

Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia…

Las colas de la p

Que me perdonen mis amigos que están al otro lado del Atlántico, pero no me refiero al tipo de colas que muchas mentes perversas están pensando. Lejos de eso, hoy vamos a hablar de unas colas mucho más aburridas pero que son muy importantes siempre que queramos realizar un contraste de hipótesis. Y, como suele ser habitual, lo vamos a ilustrar con un ejemplo para ver si lo entendemos mejor.

Supongamos que tomamos una moneda y, armados de una paciencia infinita, la tiramos al aire 1000 veces, obteniendo cara 560 veces. Todos sabemos que la probabilidad de sacar cara es de 0,5, así que si tiramos la moneda 1000 veces el número medio esperado de caras será de 500. Pero nosotros hemos sacado 560, así que podemos plantearnos dos posibilidades que se nos ocurren de forma inmediata.

Primera, la moneda es legal y hemos sacado 60 caras de más por puro azar. Esta será nuestra hipótesis nula, que dice que la probabilidad de sacar cara [P(cara)] es igual a 0,5. Segunda, nuestra moneda no es legal y está cargada para sacar más caras. Será nuestra hipótesis alternativa (Ha), que dice que P(cara) > 0,5.

Pues bien, vamos a hacer el contraste de hipótesis sirviéndonos de una calculadora de probabilidad binomial de las que hay disponibles en Internet. Si asumimos la hipótesis nula de que la moneda es legal, la probabilidad de que obtengamos 560 caras o más es de 0,008%. Dado que es menor de 5%, rechazamos nuestra hipótesis nula: la moneda está trucada.

Ahora, si os fijáis, la Ha tiene una direccionalidad hacia P(cara) > 0,5, pero podríamos haber planteado la hipótesis como que la moneda no fuese legal, sin presuponer ni que está cargada a favor de las caras ni de las cruces: P(cara) distinto de 0,5. En este caso calcularíamos la probabilidad de que el número de caras estuviese 60 por encima o por debajo de los 500, en las dos direcciones. La probabilidad que obtendríamos es de 0,016, rechazando nuestra hipótesis nula y concluyendo que la moneda no es legal. El problema es que la prueba no nos dice si está cargada en uno u otro sentido, pero por los resultados suponemos que es en sentido hacia las caras. En el primer caso hemos hecho una prueba con una cola, mientras que en el segundo lo hemos hecho con dos colas.

WebEn el gráfico podéis ver el área de probabilidades de cada una de las dos pruebas. En una cola el área pequeña de la derecha es la probabilidad de que la diferencia respecto al valor esperado se deba al azar. Con dos colas, esta área es doble y situada a ambos lados de la distribución. Veis que la p con dos colas vale el doble que con una cola. En nuestro ejemplo el valor de p es tan bajo que en cualquier caso nos permite rechazar la hipótesis nula. Pero esto no siempre es así, y puede haber ocasiones en que el investigador elija hacer la prueba con una cola porque con dos no consiga la significación estadística que le da la prueba con una de las colas.

Y digo una de las colas porque en el ejemplo de una cola hemos calculado la de la derecha, pero también podemos calcular el valor de la probabilidad de la cola de la izquierda. Pensemos en el improbable caso de que la moneda esté cargada en el sentido de sacar más cruces pero que, por azar, nosotros hemos sacado más caras. Nuestra Ha diría que P(cara) < 0,5. En este caso calcularíamos la probabilidad de que, asumiendo que es legal, la moneda nos de 560 caras o menos. El valor de p es de 99,9%, luego no podemos rechazar nuestra hipótesis nula de que la moneda es legal.

¿Pero qué pasa aquí?, preguntaréis. El primer contraste de hipótesis que planteamos decía que podíamos rechazar la hipótesis nula y este dice lo contrario. Si es la misma moneda y los mismos datos, ¿no deberíamos llegar a la misma conclusión?. Pues resulta que no. Recordad que no poder rechazar la hipótesis nula no es lo mismo que concluir que es cierta, cosa que nunca podremos asegurar. En este último ejemplo, la hipótesis nula de legalidad de la moneda es mejor opción que la alternativa de que está cargada para dar más cruces. Sin embargo, eso no quiere decir que podamos concluir que la moneda es legal.

Veis pues, cómo hay que tener muy claro el significado de las hipótesis nula y alternativa cuando plateemos un contraste de hipótesis. Y recordad siempre que aunque no podamos rechazar la hipótesis nula eso no quiere obligadamente decir que sea cierta. Simplemente no tenemos potencia suficiente para rechazarla. Lo cual me lleva a pensar en los errores de tipo I y tipo II y su relación con la potencia del estudio y el tamaño de la muestra. Pero esa es otra historia…

Todo gira alrededor de la hipótesis nula

La hipótesis nula, familiarmente conocida como H0, tiene un nombre engañoso. A pesar de lo que uno pudiera pensar, ese nombre no le impide ser el centro de todo contraste de hipótesis.

¿Y qué es un contraste de hipótesis? Veámoslo con un ejemplo.

Supongamos que queremos saber si los residentes (como ellos creen) son más listos que sus adjuntos. Tomamos una muestra al azar de 30 adjuntos y 30 residentes del hospital y les medimos el CI, obteniendo los adjuntos una media de 110 y los residentes de 98 (lo siento, pero yo soy adjunto y para eso pongo el ejemplo). Ante este resultado nos preguntamos: ¿cuál es la probabilidad de que los adjuntos seleccionados sean más listos que los residentes del estudio?. La respuesta es simple: el 100% (si les hemos pasado a todos el test correcto y no una encuesta de satisfacción laboral, claro). El problema es que lo que a nosotros nos interesa saber es si los adjuntos (en general) son más listos que los resis (en general). Solo hemos medido el CI de 60 personas y, claro, queremos saber qué pasa en la población general.

Llegados a este punto nos planteamos dos hipótesis:
1. Que los dos colectivos son igual de inteligentes (este ejemplo es pura ficción) y que las diferencias que hemos encontrado se deben a la casualidad (al azar). Esta, señores y señoras, es la hipótesis nula o H0. La enunciaríamos así

H0: CIA = CIR

2. Que en realidad los dos colectivos no son igual de listos. Esta sería la hipótesis alternativa

H1: CIA  ≠  CIR

Esta hipótesis la podríamos plantear como que un CI es mayor o menor que el otro, pero de momento vamos a dejarlo así.

En principio, siempre asumimos que la H0 es la verdadera (para que luego la llamen nula), así que cuando cojamos nuestro programa de estadística y comparemos las dos medias (ya veremos cómo algún día), el test que utilicemos nos dará un estadístico (un numerito que dependerá del test) con la probabilidad de que la diferencia que observamos se deba a la casualidad (la famosa p). Si la p que obtenemos en menor de 0,05 (este es el valor que se suele elegir por convenio) podremos decir que la probabilidad de que H0 sea cierta es menor del 5%, por lo que podremos rechazar la hipótesis nula. Supongamos que hacemos la prueba y obtenemos una p = 0,02. La conclusión que sacamos es que es mentira que seamos igual de listos y que la diferencia observada en el estudio se deba al azar (cosa que en este caso resultaba evidente desde el comienzo, pero que en otros puede no estar tan claro).

Y si la p es mayor de 0,05 ¿quiere decir que la hipótesis nula es cierta? Pues a lo mejor sí, a lo mejor no. Lo único que podremos decir es que el estudio no tiene la potencia necesaria para rechazar la hipótesis nula, pero si la aceptamos sin más nos podríamos columpiar (en realidad podríamos cometer un error de tipo II, pero esa es otra historia…).