Para calcular el tamaño de una muestra hay que tomar en cuenta cuatro factores:
1.- El nivel de confianza (1- α) con el cual se quiere generalizar los datos desde la muestra hacia la población total.
2.- El porcentaje de error (α) que se pretende aceptar al momento de hacer la generalización (nivel de significancia).
3.- El nivel de variabilidad que se calcula para comprobar la hipótesis (p y q)
4.- El valor crítico de la distribución Z o de la distribución normal estandarizada (Z α/2) dado el nivel de confianza.
Debemos decir que la confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del cien por ciento equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de población.
Para evitar un costo muy alto para el estudio, o debido a que, en ocasiones, llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95 por ciento de confianza.
Por lo regular se acepta entre el 4 y el 6 por ciento de error, tomando en cuenta que son complementarios la confianza y el error, en otras palabras si el área bajo la curva normal representa el 100% o bien la unidad y, si el 95% de esa área se encuentra “ocupada” por el nivel de confianza, luego entonces, el porcentaje de error sería del 5 por ciento.
La variabilidad es la probabilidad o porcentaje con el que se aceptó y se rechazó la hipótesis que se quiere verificar en alguna investigación anterior o en un ensayo previo a la investigación actual (prueba piloto). El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó la hipótesis es la variabilidad negativa, denotada por q.
Debemos tomar en cuenta que, tanto p como q, son complementarios, es decir, que su suma es a igual a la unidad p + q = 1.
Además, cuando se habla de la máxima variabilidad, en el caso de no existir antecedentes o pruebas piloto sobre la investigación, como es el caso de la presente investigación, entonces los valores de variabilidad son: p = q = 0.5 o bien el 50 por ciento.
Por último, para calcular el valor crítico de la distribución Z, dado el nivel de confianza, debemos utilizar la siguiente tabla:
Cuadro 10
Niveles de confianza más utilizados con sus respectivos valores críticos para la curva normal estandarizada:
1- α Nivel de confianza |
Z α/2 |
90% |
1.645 |
95% |
1.96 |
98% |
2.32 |
99% |
2.57 |
Fuente: Freund, Johm y Gary Simon, Estadística elemental, México, D.F., Ed. Prentice may, 1992.
Para un nivel de confianza del 95% correspondería un valor crítico de Z de 1.96. Los valores críticos de la distribución Z son aquellos límites que separan la zona de aceptación (nivel de confianza) de la zona de rechazo (nivel de significancia) en una distribución normal como la mostrada en el gráfico 6. Dicho gráfico muestra que entre más grande sea una muestra de cierta distribución más se asemejará a una normal1. Una vez que se han determinado estos cuatro factores, entonces se puede calcular el tamaño de muestra utilizando la siguiente fórmula:
Fórmula para determinar el tamaño de muestra cuando se conoce el tamaño de la población:
n = (Z)² (p)(q)(N)
(N)(E)² + (Z)² (p)(q)
Dónde:
n: es el tamaño de la muestra
Z: es el valor crítico de Z dado el nivel de confianza
p: es la variabilidad positiva
q: es la variabilidad negativa
N: es el tamaño de la población
E: es la precisión o el error, dado el nivel de confianza2
Esta fórmula se utiliza para calcular el tamaño de muestra, siempre y cuando se conozca el tamaño de población, y como contamos con los tamaños de población por secciones, es decir, el número total de abstencionistas por cada unidad geográfica básica, entonces podremos saber cuántos abstencionistas encuestar en la totalidad de los FRA y, posteriormente, en cada uno de los 21 focos rojos de abstencionismo.
Por ejemplo, el primer tamaño de población correspondería a la sección 2993 del distrito 04 de Zapopan con 2265 abstencionistas. Si consideramos un nivel de confianza del 95 por ciento, entonces el valor crítico de Z que correspondería sería 1.96, ahora bien, como este experimento nunca se ha hecho y tampoco se ha piloteado, la variabilidad que corresponde es la máxima, en otras palabras tanto la variabilidad negativa como la positiva sería de .5 o de 50 por ciento.
Según este cálculo se precisaría encuestar a 328 abstencionistas electorales en la sección 2993 del distrito 04 de Zapopan.
Al proseguir con los cálculos de los tamaños de muestra de las siguientes secciones foco rojo, tendríamos los resultados expresados en el cuadro 11.
Cuadro 11
Cálculos de los tamaños de muestra seccional tomando para su cálculo el tamaño de población seccional, ZMG, elecciones federales, 2003.
Sección |
Distrito electoral |
% de abstencionismo |
Tamaño de la población |
Tamaño de muestra |
2993 |
04, Zapopan |
60.35 |
2265 |
328 |
3007 |
04, Zapopan |
60.78 |
2410 |
331 |
3017 |
04, Zapopan |
62.02 |
1550 |
308 |
3026 |
04, Zapopan |
60.59 |
326 |
176 |
3152 |
06, Zapopan |
59.90 |
2330 |
330 |
3154 |
06, Zapopan |
62.89 |
4440 |
354 |
3157 |
06, Zapopan |
60.11 |
1939 |
321 |
3223 |
06, Zapopan |
60.97 |
1415 |
302 |
3232 |
06, Zapopan |
63.82 |
1166 |
289 |
3233 |
06, Zapopan |
90.79 |
1087 |
284 |
3293 |
07, Tonalá |
66.74 |
297 |
168 |
3320 |
10, Zapopan |
61.71 |
195 |
129 |
3323 |
10, Zapopan |
63.64 |
259 |
155 |
925 |
14, Guadalajara |
59.19 |
1337 |
298 |
3313 |
14, Guadalajara |
60.99 |
866 |
266 |
3314 |
14, Guadalajara |
63.08 |
410 |
198 |
2592 |
16, Tlaquepaque |
59.20 |
1454 |
304 |
2599 |
16, Tlaquepaque |
59.98 |
697 |
248 |
2600 |
16, Tlaquepaque |
59.86 |
689 |
247 |
2604 |
16, Tlaquepaque |
61.26 |
6535 |
263 |
3311 |
16, Tlaquepaque |
61.70 |
356 |
185 |
Totales |
|
|
32, 023 |
5,484 |
Fuente: Elaboración propia.
Como observamos en dicho cuadro, la sumatoria de los tamaños de muestra de cada una de las secciones consideradas “foco rojo” es de 5, 484 abstencionistas electorales. Debemos decir que ésta es una de las formas no tan afortunadas de calcular el tamaño total de muestra ya que al tener subpoblaciones pequeñas (abstencionistas en cada sección electoral), las muestras suelen ser grandes en términos proporcionales en comparación con sus universos correspondientes.
En este tenor, es mejor calcular el tamaño de muestra para este experimento tomando en cuenta a la población total cuyo tamaño es de N= 32,023 abstencionistas electorales. En esta tesitura, al tomar en cuenta el tamaño de población total (N) de los 21 focos rojos de abstencionismo electoral tenemos:
n = (1.96) ² (.5) (.5) (32023) ; n = 380
(32023) (.05) ² + (1.96) ² (.5) (.5)
El tamaño de muestra para este estudio es de n = 380 abstencionistas electorales.
A todas luces, este tamaño de muestra es mucho más manejable operativamente que 5, 484 abstencionistas dado que al tomar tamaños de población grandes, las muestras serán más pequeñas, empero, óptimas que garanticen el proceso de inferencia estadística3, por lo tanto, los tamaños de muestra por sección considerados en el cuadro 11 no serán tomados en cuenta para la ejecución de la prueba de hipótesis.
Ahora bien, si el tamaño de muestra total es de n = 380 para este experimento, ahora surge la pregunta: ¿cómo asignar un tamaño de submuestra para cada uno de los focos rojos de abstencionismo? En otras palabras, ¿cuántos abstencionistas se encuestarán en cada una de las secciones electorales seleccionadas?
La respuesta más correcta sería aplicar el procedimiento planteado por la teoría de los muestreos estratificados el cual establece que dado un tamaño de muestra, el cálculo de las submuestras debe hacerse en forma proporcional en cada uno de los estratos. Por lo tanto tomaremos a aquellos focos rojos o bien, a aquellas secciones electorales precisamente como estratos4.
En este tenor, procederemos a obtener las proporciones de colaboración de cada una de las secciones electorales con respecto al número total de abstencionistas (tamaño de población, N).
Acto seguido, las multiplicaremos por el tamaño de muestra definido, n = 380 y así obtener el tamaño de la submuestra correspondiente a ese foco rojo o sección electoral.
La fórmula nk = nPk nos indica el número de elementos dentro de una muestra que pertenecen a un estrato, es decir, en qué proporción participa cada uno de los estratos en la composición de la muestra. Los tamaños de muestra y los tamaños de muestra ajustados se presentan en el cuadro 12.
En dicho cuadro, podemos ver en la cuarta columna el número de abstencionistas electorales por cada uno de los focos rojos y en la quinta la proporción que le corresponde con respecto al total, es decir, se ha calculado la proporción de colaboración dividiendo cada total seccional de abstencionistas entre el total de los mismos (32,023), acto seguido, y como hemos indicado, dichas proporciones las multiplicamos por el tamaño total de muestra (380) y así obtenemos el número de abstencionistas electorales a encuestar en cada una de las secciones electorales seleccionadas.
Cuadro 12
Cálculo de los tamaños de muestra por sección electoral,
ZMG, comicios federales, 2003.
Sección |
Distrito electoral |
% de abstencionismo |
Tamaño de la población por sección |
Prop.
(Pk) |
Tamaño de muestra |
Tamaño de la muestra ajustada |
2993 |
04, Zapopan |
60.35 |
2265 |
.0707 |
26.88 |
27 |
3007 |
04, Zapopan |
60.78 |
2410 |
.0753 |
28.60 |
29 |
3017 |
04, Zapopan |
62.02 |
1550 |
.0484 |
18.39 |
18 |
3026 |
04, Zapopan |
60.59 |
326 |
.0102 |
3.87 |
4 |
3152 |
06, Zapopan |
59.90 |
2330 |
.0728 |
27.65 |
28 |
3154 |
06, Zapopan |
62.89 |
4440 |
.1387 |
52.69 |
53 |
3157 |
06, Zapopan |
60.11 |
1939 |
.0606 |
23.01 |
23 |
3223 |
06, Zapopan |
60.97 |
1415 |
.0442 |
16.79 |
17 |
3232 |
06, Zapopan |
63.82 |
1166 |
.0364 |
13.84 |
14 |
3233 |
06, Zapopan |
90.79 |
1087 |
.0339 |
12.90 |
13 |
3293 |
07, Tonalá |
66.74 |
297 |
.0093 |
3.52 |
3 |
3320 |
10, Zapopan |
61.71 |
195 |
.0061 |
2.31 |
2 |
3323 |
10, Zapopan |
63.64 |
259 |
.0081 |
3.07 |
3 |
925 |
14, Guadalajara |
59.19 |
1337 |
.0418 |
15.87 |
16 |
3313 |
14, Guadalajara |
60.99 |
866 |
.0270 |
10.28 |
10 |
3314 |
14, Guadalajara |
63.08 |
410 |
.0128 |
4.87 |
5 |
2592 |
16, Tlaquepaque |
59.20 |
1454 |
.0454 |
17.25 |
17 |
2599 |
16, Tlaquepaque |
59.98 |
697 |
.0218 |
8.27 |
8 |
2600 |
16, Tlaquepaque |
59.86 |
689 |
.0215 |
8.18 |
8 |
2604 |
16, Tlaquepaque |
61.26 |
6535 |
.2041 |
77.55 |
78 |
3311 |
16, Tlaquepaque |
61.70 |
356 |
.0111 |
4.22 |
4 |
Totales |
|
|
32, 023 |
1 |
380 |
380 |
Fuente: Elaboración propia
La séptima columna nos indica el tamaño de muestra ajustada por sección, en otras palabras, hemos convertido un número continuo a un número discreto, pues lógicamente no hay medios, o, enteros y fracción de ciudadanos abstencionistas.
Hemos operado, de tal manera que la sumatoria total del “tamaño de muestra ajustado” sea igual a 380.
2 Freund, Johm y Gary Simon, Estadística elemental, México, D.F., Ed. Prentice may, 1992.
3 Recordemos que el proceso de inferencia estadística es aquel en el que los resultados emanados de una muestra representativa pueden generalizarse hacia la población o universo designado de antemano por el investigador y que las condiciones de representatividad de una muestra son las siguientes: tamaño de muestra, la correspondencia de variables de la población en la muestra y la selección de los individuos o elementos de la muestra sobre la base de la aleatoriedad.
4 Los estratos pueden ser de cualquier índole, es decir pueden ser meramente poblaciones o bien de índole social, económica o política, pero para efectos de esta estrategia, el criterio de la estratificación será propiamente poblacional, en otras palabras, será la delineada ya por las secciones electorales definidas como “Focos Rojos de Abstencionismo”.
5 Freund, Johm y Gary Simon, Estadística elemental, Opus Citatum.
En eumed.net: |
1647 - Investigaciones socioambientales, educativas y humanísticas para el medio rural Por: Miguel Ángel Sámano Rentería y Ramón Rivera Espinosa. (Coordinadores) Este libro es producto del trabajo desarrollado por un grupo interdisciplinario de investigadores integrantes del Instituto de Investigaciones Socioambientales, Educativas y Humanísticas para el Medio Rural (IISEHMER). Libro gratis |
15 al 28 de febrero |
|
Desafíos de las empresas del siglo XXI | |
15 al 29 de marzo |
|
La Educación en el siglo XXI |