Tabla de contenidos
Intervalo de confianza y tamaño muestral
Pensemos, por ejemplo, que vamos a hacer un referéndum a la suiza para preguntar a la gente si quiere reducir la jornada laboral. Algunos me diréis que esto es perder el tiempo, ya que en España una encuesta así tendría un resultado más que previsible, pero nunca se sabe. En Suiza se preguntó y prefirieron seguir trabajando más tiempo.
Si queremos saber con seguridad cuál va a ser el resultado de la votación tendríamos que preguntar a todo el mundo cuál va a ser su voto, lo que resulta poco práctico para llevarlo a cabo. Así que hacemos un sondeo: elegimos una muestra de un tamaño determinado y les preguntamos. Obtenemos así una estimación del resultado final, con una precisión que vendrá determinada por el intervalo de confianza del estimador que calculemos.
¿Y la muestra tendrá que ser muy amplia?. Pues no demasiado, siempre que esté bien elegida. Veámoslo.
Relación entre intervalo de confianza y tamaño muestral
Cada vez que hacemos el sondeo, obtenemos un valor de la proporción p que votará, por ejemplo, sí a la propuesta. Si repitiésemos el sondeo muchas veces, obtendríamos un conjunto de valores próximos entre sí y, probablemente, próximos al valor real de la población al que no podemos acceder. Pues bien, estos valores (resultado de los diferentes sondeos repetidos) siguen una distribución normal, de tal manera que sabemos que el 95% de los valores estarían entre el valor de la proporción en la población más menos dos veces la desviación estándar (en realidad, 1,96 veces la desviación). A esta desviación estándar se le llama error estándar, y es la medida que nos permite calcular el margen de error de la estimación mediante su intervalo de confianza:
Intervalo de confianza del 95% (IC 95) = proporción estimada ± 1,96 x error estándar
En realidad, esta es una ecuación simplificada. Si partimos de una muestra finita (n) obtenida de una población (N), el error estándar debe multiplicarse por un factor de corrección, de tal forma que la fórmula queda de la siguiente manera:
IC 95 = p ± 1,96 error estándar x
Si os paráis a pensar un momento, cuando la población es muy grande el cociente n/N tiende a cero, con lo que el resultado del factor de corrección tiende a uno. Es por esto por lo que la muestra no tiene porqué ser excesivamente grande y por lo que un mismo tamaño de muestra nos puede servir para estimar el resultado de unas elecciones municipales o el de unas nacionales.
Por lo tanto, la precisión de la estimación está más en relación con el error estándar. ¿Cuál sería el error estándar en nuestro ejemplo?. Al ser el resultado una proporción, sabemos que seguirá una distribución binomial, por lo que el error estándar será igual a
Error estándar = , siendo p la proporción obtenida y n el tamaño muestral.
La imprecisión (la amplitud del intervalo de confianza) será mayor cuanto mayor sea el error estándar. Por lo tanto, a mayor producto p(1-p) o a menor tamaño muestral, menos precisa será nuestra estimación y mayor será nuestro margen de error.
De todas formas, este margen de error es limitado. Veamos por qué.
Se puede afinar mucho sin necesidad de muestras muy grandes
Luego, para un mismo valor de n, el error estándar será máximo cuando p valga 0,5, según la ecuación siguiente:
=
=
Así, si expresamos la fórmula del intervalo de confianza más amplio:
O sea, que el margen de error máximo es de . Esto quiere decir que con una muestra de 100 personas tendremos un margen de error máximo de más menos un 10%, dependiendo del valor de p que hayamos obtenido (pero, como máximo, un 10%). Vemos, pues, que con una muestra que no tiene porqué ser muy grande se puede obtener un resultado bastante preciso.
Nos vamos…
Y con esto terminamos por hoy. Os preguntaréis, después de todo lo que hemos dicho, por qué hay encuestas cuyo resultado no se parece nada al definitivo. Pues se me ocurren dos respuestas. La primera, nuestro amigo en azar. Hemos podido elegir, por puro azar, una muestra que no está centrada alrededor del verdadero valor de la población (nos pasará un 5% de las veces). El segundo, puede que la muestra no sea representativa de la población general. Y este es un factor fundamental, porque si la técnica de muestreo no es correcta, los resultados de la encuesta no serán nada fiables. Pero esa es otra historia…