Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasConceptos básicos
image_pdf

El juego de las potencias

Los números son una cosa muy curiosa. Parece increíble a veces lo que se puede conseguir haciendo operaciones con algunos de ellos. Incluso puedes obtener otros números diferentes que expresan cosas distintas. Este es el caso del proceso mediante el cual podemos tomar los valores de una distribución y, a partir de la media aritmética (una medida de centralización) calcular cómo se separan de ella el resto de los valores e ir elevándolos a potencias sucesivas para obtener medidas de dispersión e, incluso, de simetría. Ya sé que parece mentira, pero os juro que es verdad. Lo acabo de leer en un libro bastante gordo. Os cuento cómo…

Una vez que tenemos la media aritmética podemos calcular el promedio de separación de cada valor respecto a ella. Restamos a cada valor la media y lo dividimos por el total de valores (es como calcular la media aritmética de las desviaciones de cada valor respecto a la media de la distribución). Pero hay un pequeño problema: como la media siempre está en medio (de ahí su nombre), las diferencias de los valores mayores (que serán positivas) se anularán con las de los valores menores (que serán negativas) y el resultado será siempre cero. Es lógico, y es una propiedad intrínseca de la media, que se aleja de todos una cantidad promedio igual. Como no podemos cambiar este carácter de la media, lo que sí podemos hacer es calcular el valor absoluto de cada resta antes de sumarlas. Calculamos así la desviación media, que es el promedio de los valores absolutos de las desviaciones de los valores con respecto a la media aritmética.

Y aquí empieza el juego de las potencias. Si en lugar de hacer el valor absoluto de las rectas las elevamos al cuadrado antes de sumarlas podemos calcular la varianza, que es la media de las desviaciones al cuadrado con respecto a la media aritmética. Ya sabemos que si hacemos la raíz cuadrada de la varianza (para recuperar las unidades originales de la variable) obtenemos la desviación estándar, que es la reina de las medidas de dispersión.

¿Y si elevamos las diferencias al cubo en lugar de al cuadrado?. Pues calcularemos el promedio del cubo de las desviaciones de los valores con respecto a la media. Si pensamos un poco en seguida nos daremos cuenta de que al elevar al cubo no perdemos los signos negativos. De esta forma, si hay predominio de valores menores (la distribución está sesgada hacia la izquierda) el resultado será negativo y, por el contrario, si predominan los valores mayores, positivo (la distribución estará sesgada hacia la derecha). Un último detalle: para poder comparar este índice de simetría con otras distribuciones debemos estandarizarlo dividiéndolo por el cubo de la desviación típica, según la fórmula que os pongo en el recuadro adjunto. La verdad es que, viéndola, acojona un poco, pero no os preocupéis, los programas de estadística pueden con esto y con cosas peores.

Y como ejemplo de cosa peor, ¿qué pasa si elevamos las restas a la cuarta potencia en lugar de al cubo?. Pues calcularemos el promedio de la cuarta potencia de las desviaciones de los valores con respecto a la media. Si nos paramos a pensar un segundo, rápidamente entenderemos su utilidad. Si todos los valores están muy cerca de la media, al multiplicarlos por sí mismos cuatro veces (elevarlos a la cuarta potencia) se harán más pequeños que si están muy alejados de la media. Así, si hay muchos valores cerca de la media (la curva de la distribución será más puntiaguda) el valor será menor que si los valores están más dispersos. Este parámetro puede estandarizarse dividiéndolo por la cuarta potencia de la desviación estándar para obtener el apuntamiento o curtosis, lo que me da pie a introducir tres palabros más: si la distribución es muy puntiaguda se denominará leptocúrtica, si los valores están dispersos por los extremos la llamaremos platicúrtica y, si ni una cosa ni la otra, mesocúrtica.

¿Y si elevamos las restas a la quinta potencia?. Pues no sé deciros qué ocurriría. Afortunadamente, y hasta donde yo sé, a nadie se le ha ocurrido todavía semejante ordinariez.

Todo este cálculo de medidas de centralización, dispersión y simetría puede parecer el delirio de alguien con muy poco trabajo, pero no os engañéis: son muy importantes, no solo para resumir de forma adecuada una distribución, sino para determinar el tipo de prueba estadística que debemos utilizar cuando queramos hacer un contraste de hipótesis. Pero esa es otra historia…

El estadístico más deseado por una madre

Aquellos que estéis leyendo y que forméis parte de la mafia de los pediatras ya sabréis a que me estoy refiriendo: al percentil 50. No hay madre que no desee que su retoño se encuentre por encima de él en peso, talla, inteligencia y en todo lo que una buena madre pueda desear para su hijo. Por eso a los pediatras, que dedicamos nuestra vida al cuidado de los niños, nos gustan tanto los percentiles. Pero, ¿qué significado tiene el término percentil?. Empecemos desde el principio…

Cuando tenemos una distribución de valores de una variable podemos resumirla con una medida de centralización y una de dispersión. Las más habituales son la media y la desviación estándar, respectivamente, pero en ocasiones podemos utilizar otras medidas de centralización (como la mediana o la moda) y de dispersión.

La más básica de esas otras medidas de dispersión es el rango, que se define como la diferencia entre los valores mínimo y máximo de la distribución. Supongamos que reunimos los pesos al nacimiento de los últimos 100 niños de nuestra maternidad y los ordenamos tal y como aparecen en la tabla. El valor más bajo fue de 2200 gramos, mientras que el premio máximo se lo llevó un neonato que pesó 4000 gramos. El rango en este caso sería de 1800 gramos pero, claro está, si no disponemos de la tabla y solo nos dicen esto no tendríamos idea de cómo de grandes son nuestros recién nacidos. Por eso suele ser mejor expresar el rango con los valores mínimo y máximo. En nuestro caso sería de 2200 a 4000 gramos.

Si recordáis de cómo se calcula la mediana, veréis que está en 3050 gramos. Para completar el cuadro necesitamos una medida que nos diga cómo se distribuyen el resto de los pesos alrededor de la mediana y dentro del rango.

La forma más sencilla es dividir la distribución en cuatro partes iguales que incluya cada una el 25% de los niños. Cada uno de estos marcadores se denomina cuartil y hay tres: el primer cuartil (entre el mínimo y el 25%), el segundo cuartil (que coincide con la mediana y se sitúa entre el mínimo y el 50%) y el tercer cuartil (entre el mínimo y el 75%). Obtenemos así cuatro segmentos: del mínimo al primer cuartil, del primero al segundo (la mediana), del segundo al tercero y del tercero al máximo. En nuestro caso, los tres cuartiles serían 2830, 3050 y 3200 gramos. Hay quien llamaría a estos cuartiles el inferior, la mediana y el superior, pero estaríamos hablando de lo mismo.

Pues bien, si nos dicen que la mediana es de 3050 gramos y que el 50% de los niños pesan entre 2830 y 3200 gramos, ya nos hacemos una idea bastante aproximada de cuál es el peso al nacimiento de nuestros recién nacidos. Este intervalo se denomina rango intercuartílico y suele proporcionarse junto con la mediana para resumir la distribución. En nuestro caso: mediana de 3050 gramos, rango intercuartílico de 2830 a 3200 gramos.

Pero podemos ir mucho más allá. Podemos dividir la distribución en el número de segmentos que queramos. Los deciles la dividen en diez segmentos y nuestros venerados percentiles en cien.

Existe una fórmula bastante sencilla para calcular el percentil que queramos. Por ejemplo, el percentil P estará en la posición (P/100)x(n+1), donde n representa el tamaño de la muestra. En nuestra distribución de neonatos, el percentil 22 estaría en la posición (22/100)x(100+1) = 22,2, o sea, 2770 gramos.

Los más avispados ya os habréis dado cuenta que nuestros 3050 gramos corresponden, no solo a la mediana, sino también al decil quinto y al percentil 50, el deseado por nuestras madres.

La gran utilidad de los percentiles, además de dar satisfacción al 50% de las madres (aquellas que tienen a sus hijos por encima de la media) es que nos permiten estimar la probabilidad de determinado valor de la variable medida dentro de la población. En general, cuanto más cerca esté uno de la media siempre será mejor (por lo menos en medicina) y cuanto más alejado más probable será que alguien te lleve a un médico para ver porqué no estás en el dichoso percentil 50 o, incluso mejor, algo por encima.

Pero si de verdad queremos afinar más sobre la probabilidad de obtener un valor determinado dentro de una distribución de datos hay otros métodos que pasan por la estandarización de la medida de dispersión que utilicemos, pero esa es otra historia…

No todas las desviaciones son perversas

Incluso me atrevería a decir que hay desviaciones muy necesarias. Pero que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra cosa, vamos a hablar de cómo varían los valores de una variable cuantitativa en una distribución.

Cuando obtenemos los datos de un parámetro determinado en una muestra y queremos dar una idea resumida de cómo se comporta, lo primero que se nos ocurre es calcular una medida que la represente, así que echamos mano de la media, la mediana o cualquier otra medida de centralización.

Sin embargo, el cálculo del valor central da poca información si no lo acompañamos de otro que nos informe sobre la heterogeneidad de los resultados dentro de la distribución. Para cuantificar el grado de variación, los matemáticos, con muy poca imaginación, han inventado una cosa que llaman la varianza.

Para calcularla se restaría la media al valor de cada individuo con la idea de sumar todas estas restas y dividirlas entre el número de mediciones. Es como calcular la media de las diferencias de cada uno respecto al valor central de la distribución. Pero surge un pequeño problema: como los valores están por encima y por debajo de la media (por obligación, que para eso es la media), las diferencias positivas y negativas se anularían al sumarlas, con lo que obtendríamos un valor próximo a cero si la distribución es simétrica aunque el grado de variación fuese grande. Para evitar esto lo que se hace es elevar las restas al cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y la suma siempre da un valor relacionado con la amplitud de las diferencias. Esto es lo que se conoce como varianza.

Por ejemplo, supongamos que medimos la presión arterial sistólica a 200 escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos todos los cuadrados y dividimos el resultado por 200 (el número de determinaciones). Obtenemos así la varianza, por ejemplo: 100 mmHg2. Y yo me pregunto, ¿qué leches es un milímetro de mercurio al cuadrado?. La varianza medirá bien la dispersión, pero no me negaréis que es un poco difícil de interpretar. Una vez más, algún genio matemático acude al rescate y discurre la solución: hacemos la raíz cuadrada de la varianza y así recuperamos las unidades originales de la variable. Acabamos de encontrarnos con la más famosa de las desviaciones: la desviación típica o estándar. En nuestro caso sería de 10 mmHg. Si consideramos las dos medidas nos hacemos idea de que la mayor parte de los escolares tendrán probablemente tensiones próximas a la media. Si hubiésemos obtenido una desviación típica de 50 mmHg pensaríamos que hay mucha variación individual de los datos de presión arterial, aunque la media de la muestra fuese la misma.

Un detalle para los puristas. La suma del cuadrado de las diferencias suele dividirse por el número de casos menos uno (n-1) en lugar de por el número de casos (n), que podría parecer más lógico. ¿Y por qué?. Capricho de los matemáticos. Por alguna arcana razón se consigue que el valor obtenido esté más próximo al valor de la población del que procede la muestra.

Ya tenemos, por tanto, los dos valores que nos definen nuestra distribución. Y lo bueno es que, no solo nos dan una idea del valor central y de la dispersión, sino de la probabilidad de encontrar un individuo de la muestra con un determinado valor.  Sabemos que el 95% tendrán un valor comprendido entre la media ± 2 veces la desviación típica (1,96 veces, para ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces, en realidad).

Esto suena peligrosamente parecido a los intervalos de confianza del 95% y 99%, pero no debemos confundirlos. Si repetimos el experimento de la tensión en escolares un número muy grande de veces, obtendremos una media ligeramente diferente cada vez. Podríamos calcular la media de los resultados de cada experimento y la desviación estándar de ese grupo de medias. Esa desviación estándar es lo que conocemos como el error estándar, y nos sirve para calcular los intervalos de confianza dentro de los cuales está el valor de la población de la que procede la muestra y que no podemos medir directamente ni conocer con exactitud. Por lo tanto, la desviación estándar nos informa de la dispersión de los datos en la muestra, mientras que el error estándar nos da idea de la precisión con que podemos estimar el verdadero valor de la variable que hemos medido en la población de la que procede la muestra.

Una última reflexión acerca de la desviación estándar. Aunque el valor de la variable en el 95% de la población esté en el intervalo formado por la media ± 2 veces la desviación típica, esta medida solo tiene sentido realizarla si la distribución es razonablemente simétrica. En caso de distribuciones con un sesgo importante la desviación típica pierde gran parte de su sentido y debemos utilizar otras medidas de dispersión, pero esa es otra historia…

Sí, en el medio está la virtud, pero…

¿Y dónde está el medio?. Esta pregunta, que parece el desvarío de una noche de verano, no debe ser tan sencilla de responder cuando disponemos de varias formas de localizar el medio o centro de una distribución de datos.

Y es que encontrar el virtuoso medio es muy útil para describir nuestros resultados. Si medimos una variable en 1500 pacientes a nadie se le pasa por la cabeza dar los resultados como un listado de los 1500 valores obtenidos. Habitualmente buscamos una especie de resumen que nos de una idea de cómo es esa variable en nuestra muestra, generalmente calculando una medida de centralización (el medio) y una de dispersión (cómo varían los datos alrededor del medio).

Supongamos que, por alguna razón difícil de explicar, queremos conocer la talla media de los usuarios del Metro de Madrid. Nos vamos a la estación más cercana y, cuando llega el convoy, hacemos bajar a los pasajeros del tercer vagón y les tallamos, obteniendo los resultados de la tabla 1.

Una vez que hemos recogido los datos, la medida de centralización que primero se nos viene a la cabeza es la media aritmética, que es el promedio de la talla. Todos sabemos cómo se calcula: la suma de todos los valores se divide por el número de valores obtenidos. En nuestro caso su valor sería de 170 cm y nos da una idea del promedio de estatura de los componentes de nuestra muestra.

Pero ahora supongamos que el autobús de la selección nacional de baloncesto ha pinchado las cuatro ruedas y los jugadores han tenido que tomar el metro para ir al partido, con la desgracia para nosotros de que viajan en el tercer vagón. Las tallas que recogeríamos se muestran en la tabla 2. En este caso la media es de 177 cm pero, ¿realmente está cerca del valor promedio de talla de los usuarios del Metro de Madrid?. Probablemente no. En este caso echaríamos mano de otra medida de centralización: la mediana.

Para calcular la mediana ordenamos los valores de talla de menor a mayor y tomamos el que ocupa el centro de la lista (tabla 3). Si tuviésemos 15 medidas, la mediana sería el valor de la número 8 (deja 7 por arriba y 7 por abajo). Al ser par, la mediana se calcula como la media aritmética de los dos valores centrales. En nuestro caso 169 + 172 = 170,5 cm, con toda probabilidad bastante más cercano al de la población y muy próximo al del vagón que paramos en el primer ejemplo.

Vemos, pues, que la media resume muy bien los datos cuando éstos se distribuyen de forma simétrica, pero que si la distribución está sesgada la mediana nos dará una idea más acertada del centro de la distribución.

Cuando la distribución está muy sesgada podemos emplear otros dos parámetros que son primos de la media aritmética: la media geométrica y la media armónica.

Para calcular la media geométrica calculamos el logaritmo neperiano de todos los valores, obtenemos su media aritmética y hacemos la transformación inversa exponencial con base e (el número e). Para la media armónica se calculan los valores recíprocos (1/valor), se calcula la media aritmética y se hace la transformación inversa (que nadie se asuste por la matemática del asunto, los programas de estadística calculan esta clase de cosas casi sin que tengamos que pedírselo). Estas dos medias son muy útiles cuando la distribución está muy sesgada por tener la mayor parte de los valores alrededor de un número y una distribución o cola larga hacia la derecha. Por ejemplo, si montamos un control de alcoholemia en carretera un lunes a las seis de la mañana, la mayor parte de los conductores estarán muy cerca del cero, pero siempre habrá algunas determinaciones de valores más altos (los que se han acostado tarde y los que prefieren desayunar fuerte). En estos casos cualquiera de estas dos medias daría un valor más representativo que la media aritmética o la mediana.

Un último apunte sobre otra medida de centralización. Si nos fijamos en los pantalones de nuestros viajeros de metro y vemos que 12 visten vaqueros, ¿qué medida usaríamos para informar de cuál es la prenda de vestir preferida?. En efecto: la moda. Es el valor que más se repite en una distribución y puede ser muy útil cuando estamos describiendo variables cualitativas en lugar de cuantitativas.

De todas formas, no hay que olvidar que para resumir adecuadamente una distribución no solo hay que elegir la medida de centralización correcta, sino que hay que acompañarla de una medida de dispersión, de las que también disponemos de unas cuantas. Pero esa es otra historia…

p o no p… ¿esa es la cuestión?

La p es uno de los valores más apreciados en la lectura de documentos científicos. Con gran frecuencia la buscamos de forma desesperada, sobre todo si el artículo que estamos leyendo es largo y farragoso, y nos inundamos de gozo y felicidad al encontrarla cuando ya estábamos un poco perdidos y a punto de tirar el trabajo a la papelera: ¡¡albricias!!, la p es significativa. Parece que nuestro esfuerzo de lectura ha servido para algo… ¿o no?

            Pues a veces sí y a veces no. Para saberlo tenemos que entender qué es y qué significa el valor de p. De forma habitual, una prueba estadística analiza datos obtenidos de una muestra para calcular la probabilidad de que una determinada hipótesis se cumpla en la población. Normalmente existen dos hipótesis excluyentes entre si: la hipótesis nula (¿recordáis?, la de nombre engañoso), que suele enunciarse como que no hay asociación o diferencia entre las dos variables de estudio, y la hipótesis alternativa de que sí existe esa diferencia o asociación.

            Supongamos que medimos el efecto hipolipemiante de dos fármacos en una muestra de pacientes con hipertrigliceridemia. Lo habitual será que las medias de disminución de lípidos que obtengamos en los dos grupos de tratamiento sean diferentes, pero no sabremos a priori si esa diferencia es reflejo del valor real de la población (al cual no tenemos acceso) o se debe al azar (con otra muestra diferente los valores obtenidos seguramente habrían sido otros distintos). Los pasos a seguir serían los siguientes:

            1. Especificamos la hipótesis nula (H0): no existe diferencia en el efecto hipolipemiante de los dos fármacos. La hipótesis alternativa sería la contraria: el efecto sí es diferente.

            2. Decidimos cuál es la prueba estadística más adecuada para comparar los resultados y calculamos el valor de p.

            3. Partiendo del supuesto de que la hipótesis nula es cierta, el valor de p representa la probabilidad de obtener una diferencia como la encontrada entre las dos muestras. Dicho de otra forma, mide la probabilidad de obtener esa diferencia por puro azar. Si p < 0,05 (5%), consideramos que la probabilidad de que la diferencia observada se deba al azar es muy baja, por lo que admitimos que esa diferencia probablemente sea reflejo del valor real de la población y rechazamos la hipótesis nula. Pero no confundamos las cosas: el valor de p no es la probabilidad de que H0 sea cierta, sino una medida del grado de incertidumbre con el que podemos aceptarla o rechazarla.

            Si p > 0,05 la probabilidad de que la diferencia se deba al azar es muy alta para poder afirmarlo con la seguridad suficiente, por lo que no podemos rechazar H0. Esto no quiere decir que H0 sea cierta, sino simplemente que no tenemos un estudio con la potencia suficiente para rechazarla.

            En esta difícil y crucial decisión podemos columpiarnos de dos elegantes maneras:

            – Rechazando la hipótesis nula cuando en realidad es cierta (error de tipo 1).

            – No obtener un valor de p significativo y no poder rechazar H0, cuando en realidad es falsa en la población (error de tipo 2).

            Y eso de rechazar la hipótesis nula ¿es bueno o es malo?. Pues depende. Para saber que nos aporta la p en un caso concreto habrá que valorarlo conjuntamente con los intervalos de confianza y en el contexto clínico específico, porque, aunque parezca increíble, resultados no significativos desde el punto de vista estadístico pueden tener mucho mayor impacto clínico que otros que sí lo sean. Pero esa es otra historia…

Busca siempre un intervalo, pero que sea de confianza

El intervalo de confianza es una de esas herramientas que nos permiten conservar uno de nuestros vicios más persistentes: querer sacar conclusiones acerca de muchos con datos obtenidos de unos pocos.

Cuando queremos conocer una característica de un determinado grupo de pacientes es frecuente que no podamos estudiarla en todos los sujetos que nos interesan, por lo que tenemos que resignarnos a seleccionar una muestra dentro de esa población y realizar las mediciones que nos parezcan oportunas. El problema entonces es evidente: sabremos cuál es el valor en nuestra muestra pero, ¿cuál es el valor en la población global? ¿no hay forma de saberlo sin estudiar a toda la población?

La mala noticia es que la única manera de saber el valor con exactitud en la población es medir la variable en todos los sujetos. La buena noticia es que podemos estimar el valor en la población a partir del que obtuvimos en la muestra, aunque dentro de unos límites de incertidumbre, que son los que marca el intervalo de confianza.

Así, el intervalo de confianza, que se calcula a partir de los resultados de la muestra, nos dice entre que límites se encuentra el valor de la variable en la población de la que procede la muestra, siempre con cierto grado de error o incertidumbre, que por convenio suele situarse en el 95%.

En la práctica, el intervalo de confianza con una probabilidad del 95% (el que más se usa habitualmente) se calcula de la forma siguiente:

            IC 95% = V ± 1,96 SE

Donde V representa el parámetro que medimos (una media, una proporción, etc) y ±1,96 corresponde al rango alrededor de la media que incluye el 95% de la población en una distribución normal estándar. SE representa el error estándar, un término bastante más antipático de explicar, que corresponde a la desviación típica de la distribución de los valores de la variable que obtendríamos si repitiésemos el estudio muchas veces. Pero no os preocupéis por todo este galimatías, los programas de estadística lo hacen todo ellos solos. Lo único que tenemos que saber es que el intervalo de confianza incluye el verdadero valor de la población con la probabilidad especificada (la realidad es un poco más compleja, pero dejémoslo así).

Una reflexión final antes de cerrar este tema. Además del grado de incertidumbre, el intervalo de confianza nos informa sobre la precisión del estudio. Cuanto menor sea el intervalo, más precisión habremos conseguido, y si el intervalo es demasiado amplio es posible que el resultado no nos valga para nada, aunque tenga significación estadística. Este tipo de información es algo que no nos da la p. Entonces, ¿para qué sirve la p?. La p sirve para otras cosas, pero esa es otra historia…

Todo gira alrededor de la hipótesis nula

La hipótesis nula, familiarmente conocida como H0, tiene un nombre engañoso. A pesar de lo que uno pudiera pensar, ese nombre no le impide ser el centro de todo contraste de hipótesis.

¿Y qué es un contraste de hipótesis? Veámoslo con un ejemplo.

Supongamos que queremos saber si los residentes (como ellos creen) son más listos que sus adjuntos. Tomamos una muestra al azar de 30 adjuntos y 30 residentes del hospital y les medimos el CI, obteniendo los adjuntos una media de 110 y los residentes de 98 (lo siento, pero yo soy adjunto y para eso pongo el ejemplo). Ante este resultado nos preguntamos: ¿cuál es la probabilidad de que los adjuntos seleccionados sean más listos que los residentes del estudio?. La respuesta es simple: el 100% (si les hemos pasado a todos el test correcto y no una encuesta de satisfacción laboral, claro). El problema es que lo que a nosotros nos interesa saber es si los adjuntos (en general) son más listos que los resis (en general). Solo hemos medido el CI de 60 personas y, claro, queremos saber qué pasa en la población general.

Llegados a este punto nos planteamos dos hipótesis:
1. Que los dos colectivos son igual de inteligentes (este ejemplo es pura ficción) y que las diferencias que hemos encontrado se deben a la casualidad (al azar). Esta, señores y señoras, es la hipótesis nula o H0. La enunciaríamos así

H0: CIA = CIR

2. Que en realidad los dos colectivos no son igual de listos. Esta sería la hipótesis alternativa

H1: CIA  ≠  CIR

Esta hipótesis la podríamos plantear como que un CI es mayor o menor que el otro, pero de momento vamos a dejarlo así.

En principio, siempre asumimos que la H0 es la verdadera (para que luego la llamen nula), así que cuando cojamos nuestro programa de estadística y comparemos las dos medias (ya veremos cómo algún día), el test que utilicemos nos dará un estadístico (un numerito que dependerá del test) con la probabilidad de que la diferencia que observamos se deba a la casualidad (la famosa p). Si la p que obtenemos en menor de 0,05 (este es el valor que se suele elegir por convenio) podremos decir que la probabilidad de que H0 sea cierta es menor del 5%, por lo que podremos rechazar la hipótesis nula. Supongamos que hacemos la prueba y obtenemos una p = 0,02. La conclusión que sacamos es que es mentira que seamos igual de listos y que la diferencia observada en el estudio se deba al azar (cosa que en este caso resultaba evidente desde el comienzo, pero que en otros puede no estar tan claro).

Y si la p es mayor de 0,05 ¿quiere decir que la hipótesis nula es cierta? Pues a lo mejor sí, a lo mejor no. Lo único que podremos decir es que el estudio no tiene la potencia necesaria para rechazar la hipótesis nula, pero si la aceptamos sin más nos podríamos columpiar (en realidad podríamos cometer un error de tipo II, pero esa es otra historia…).