Incluso me atreverÃa a decir que hay desviaciones muy necesarias. Pero que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra cosa, vamos a hablar de cómo varÃan los valores de una variable cuantitativa en una distribución.
Cuando obtenemos los datos de un parámetro determinado en una muestra y queremos dar una idea resumida de cómo se comporta, lo primero que se nos ocurre es calcular una medida que la represente, asà que echamos mano de la media, la mediana o cualquier otra medida de centralización.
Sin embargo, el cálculo del valor central da poca información si no lo acompañamos de otro que nos informe sobre la heterogeneidad de los resultados dentro de la distribución. Para cuantificar el grado de variación, los matemáticos, con muy poca imaginación, han inventado una cosa que llaman la varianza.
Para calcularla se restarÃa la media al valor de cada individuo con la idea de sumar todas estas restas y dividirlas entre el número de mediciones. Es como calcular la media de las diferencias de cada uno respecto al valor central de la distribución. Pero surge un pequeño problema: como los valores están por encima y por debajo de la media (por obligación, que para eso es la media), las diferencias positivas y negativas se anularÃan al sumarlas, con lo que obtendrÃamos un valor próximo a cero si la distribución es simétrica aunque el grado de variación fuese grande. Para evitar esto lo que se hace es elevar las restas al cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y la suma siempre da un valor relacionado con la amplitud de las diferencias. Esto es lo que se conoce como varianza.
Por ejemplo, supongamos que medimos la presión arterial sistólica a 200 escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos todos los cuadrados y dividimos el resultado por 200 (el número de determinaciones). Obtenemos asà la varianza, por ejemplo: 100 mmHg2. Y yo me pregunto, ¿qué leches es un milÃmetro de mercurio al cuadrado?. La varianza medirá bien la dispersión, pero no me negaréis que es un poco difÃcil de interpretar. Una vez más, algún genio matemático acude al rescate y discurre la solución: hacemos la raÃz cuadrada de la varianza y asà recuperamos las unidades originales de la variable. Acabamos de encontrarnos con la más famosa de las desviaciones: la desviación tÃpica o estándar. En nuestro caso serÃa de 10 mmHg. Si consideramos las dos medidas nos hacemos idea de que la mayor parte de los escolares tendrán probablemente tensiones próximas a la media. Si hubiésemos obtenido una desviación tÃpica de 50 mmHg pensarÃamos que hay mucha variación individual de los datos de presión arterial, aunque la media de la muestra fuese la misma.
Un detalle para los puristas. La suma del cuadrado de las diferencias suele dividirse por el número de casos menos uno (n-1) en lugar de por el número de casos (n), que podrÃa parecer más lógico. ¿Y por qué?. Capricho de los matemáticos. Por alguna arcana razón se consigue que el valor obtenido esté más próximo al valor de la población del que procede la muestra.
Ya tenemos, por tanto, los dos valores que nos definen nuestra distribución. Y lo bueno es que, no solo nos dan una idea del valor central y de la dispersión, sino de la probabilidad de encontrar un individuo de la muestra con un determinado valor. Sabemos que el 95% tendrán un valor comprendido entre la media ± 2 veces la desviación tÃpica (1,96 veces, para ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces, en realidad).
Esto suena peligrosamente parecido a los intervalos de confianza del 95% y 99%, pero no debemos confundirlos. Si repetimos el experimento de la tensión en escolares un número muy grande de veces, obtendremos una media ligeramente diferente cada vez. PodrÃamos calcular la media de los resultados de cada experimento y la desviación estándar de ese grupo de medias. Esa desviación estándar es lo que conocemos como el error estándar, y nos sirve para calcular los intervalos de confianza dentro de los cuales está el valor de la población de la que procede la muestra y que no podemos medir directamente ni conocer con exactitud. Por lo tanto, la desviación estándar nos informa de la dispersión de los datos en la muestra, mientras que el error estándar nos da idea de la precisión con que podemos estimar el verdadero valor de la variable que hemos medido en la población de la que procede la muestra.
Una última reflexión acerca de la desviación estándar. Aunque el valor de la variable en el 95% de la población esté en el intervalo formado por la media ± 2 veces la desviación tÃpica, esta medida solo tiene sentido realizarla si la distribución es razonablemente simétrica. En caso de distribuciones con un sesgo importante la desviación tÃpica pierde gran parte de su sentido y debemos utilizar otras medidas de dispersión, pero esa es otra historia…

