INTRODUCCIÓN A LA METODOLOGÍA DEL LA INVESTIGACIÓN

INTRODUCCIÓN A LA METODOLOGÍA DEL LA INVESTIGACIÓN

Héctor Luis Ávila Baray

Volver al índice

 

Elementos de Estadística Descriptiva

Como ya fue explicado la estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica. Estos sistemas de organización y descripción de los datos permiten realizar un análisis de datos univariado, bivariado o trivariado, dependiendo de los objetivos y de la naturaleza de la investigación que se realiza.

Distribución de Frecuencias. Comunmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de investigación.

La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia. Por ejemplo, si se construye una distribución de frecuencias sobre los resultados finales que arrojó la evaluación de un curso de planeación estratégica para estudiantes de administración correspondientes al semestre agosto-diciembre de 1998, se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente:

88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65 posteriormente se registran en una tabla de distribución de frecuencias simple (ver Tabla 4.1). Cuando se pretende “... determinar el número de observaciones que son mayores o menores que determinada cantidad,” (Webster, 1998, p. 27) se utiliza la distribución de frecuencias agrupadas también conocida como distribución de frecuencias acumuladas. La distribución de frecuencias agrupadas es una tabla que contiene las columnas siguientes: intervalo de clase, puntos medios, tabulación frecuencias y frecuencias agrupadas. Los pasos para diseñarla son:

1 Se localizan el computo mas alto y el mas bajo de la serie de datos.

2 Se encuentra la diferencia entre esos dos computos.

3 La diferencia obtenida se divide entre números nones tratando de encontrar un cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la distribución de frecuencias agrupadas y cuál va a ser la magnitud del intervalo de clase.

4 Se determina el primer intervalo de clase y posteriormente se van disminuyendo los límites del intervalo de clase de acuerdo al valor de la magnitud establecida previamente.

El ejemplo planteado en la distribución de frecuencias simples se utilizará tanto para efectos de ejemplificación de la distribución de frecuencias agrupadas como para el diseño de gráficas tipo polígono de frecuencias, histograma y ojiva. En la Figura 4.2 se presenta un ejemplo de una distribución de frecuencias agrupada.

Los computos mayor y menor son las puntuaciones 88 y 65, la diferencia es 88-65=23 y el número de intervalos de clase es 23/3= 7.68.

b) Representación Gráfica. A partir de la distribución de frecuencias se procede a presentar los datos por medio de gráficas. La información puede describirse por medio de gráficos a fin de facilitar la lectura e interpretación de las variables medidas. Los actuales sistemas computacionales como Excel, Lotus Smart Suite, Minitab, SAS-PC, Stath Graph, entre otros permiten obtener representaciones gráficas de diversos conjuntos de datos. Las gráficas pueden ser tipo histograma, polígono de frecuencias, gráfica de series de tiempo, etc,

b1) El Histograma. El histograma “... es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión,” (Gutiérrez, 1998, p.79). De acuerdo con Glass y Stanley (1994) un histograma no debe ser demasiado plano o esculpado. El ancho es de dos tercios de su altura. Los pasos para elaborar un histograma son (ver Figura 4.1):

1 Se trazan los ejes horizontal y vertical.

2 Se registran marcas equidistantes sobre ambos ejes.

3 Se marcan los puntos medios de cada intervalo de clase sobre el eje horizontal.

b2) El Polígono de Frecuencias. Un método ampliamente utilizado para mostrar información numérica de forma gráfica es el polígono de frecuencia o gráfica de línea. La construcción es similar a la del histograma pero la diferencia radica en que para indicar la frecuencia solo se utiliza un punto sobre el punto medio de cada intervalo. Los pasos para construirlo son (ver Figura 4.2):

Figura 4.1 Número de Empresas de la Industria Gráfica de

Estados Unidos por Segmento. (EPA, 1997).

Figura 4.2 Resultados de la Aplicación de una Prueba Matemáticas

con 100 ítems al Grupo de 2º. de Ingeniería en Sistemas.

1 Se trazan los ejes horizontal y vertical.

2 Se registran marcas equidistantes sobre el eje horizontal y se anotan debajo de cada una de ellas los puntos medios de los intervalos de clase en un orden de menor a mayor.

3 Se registran marcas equidistantes sobre el eje vertical y se anotan a la izquierda de cada una de ellas las frecuencias en orden ascendentes. A partir de ellas se diseña la cuadrícula del espacio enmarcado, trazando las abscisas y ordenadas.

4 Se representa con puntos las frecuencias de cada intervalo de clase. Se toma en cuenta el punto medio de cada intervalo de clase como base y las frecuencias como altura.

5 Se unen con línea gruesa los puntos así determinados.

6 Se registra el título expresando en resumen el asunto o cuestión sobre la que informa la gráfica.

b3) Gráfica de Series de Tiempo. Es una gráfica de línea en la que la línea horizontal representa el tiempo. Es utilizada para representar tendencias como puede ser el tipo de cambio peso-dólar, el índice de precios al consumidor, etc. (ver Figura 4.3).

los anteriores elementos de estadística descriptiva son utilizados en investigación para diseñar tablas y figuras que presenten de manera resumida y organizada n conjunto de datos obtenidos mediante la observación y medición de las variables estudiadas.

Figura 4.3 Tendencias de Crecimiento de la Industria

Gráfica de Estados Unidos para el periodo 1990-

2000, (EPA, 1997).

c) Medidas de Tendencia Central. Las medidas de tendencia central son útiles para encontrar indicadores representativos de un colectivo de datos. Los tres métodos que permiten obtener el punto medio de una serie de datos son la media, la mediana y la moda.

c1) Media Aritmética. Medida de tendencia central que se define como el promedio o media de un conjunto de observaciones o puntuaciones. En aquellas situaciones en que la población de estudio es pequeña suele utilizarse la media poblacional mediante la expresión:

N

donde:

= media poblacional

Xi = Sumatoria de las puntuaciones

N = Número de casos

En cambio si la población de estudio es muy numerosa se procede a obtener la media muestral definida matemáticamente por la expresión:

N

donde:

X= media muestral

Xi = Sumatoria de las puntuaciones

N = Número de casos

Al obtener la media alcanzada por la compañía XYZ que comercializa computadoras personales. Las ventas diarias realizadas por la compañía durante una semana indican las siguientes cantidades: 4, 12, 7, 9, 11, 7, 8, el cálculo de la media es:

58

7

el anterior resultado sugiere que el promedio semanal de ventas de la compañía XYZ es de 8.29 computadoras personales.

c2) La Moda. En una serie de puntuaciones se denomina moda a la observación que se presenta con mayor frecuencia. Así en el ejemplo anterior de la compañía XYZ la moda es la puntuación 7. Para obtener la moda a partir de una distribución de frecuencias agrupadas se utiliza la expresión:

donde:

Mo = Moda

Lmo = Límite inferior del intervalo de clase modal

Da = Diferencia entre la frecuencia de la clase modal y la de la clase que la

precede.

Db = Diferencia entre la frecuencia de la clase modal y la de la clase que l

la sigue.

i = Intervalo de clase.

La moda para una distribución de frecuencias agrupadas se obtiene a partir de los datos de la Tabla 4.2:

la moda tiene un valor de 86.10.

c3) La Mediana. También conocida como media posicional en virtud de que se localiza en el centro de un conjunto de observaciones presentadas en una serie ordenada de datos. Lo anterior sugiere que el 50 % de los casos se encuentra por encima de la mediana y el resto por debajo de ella. La posición central de la mediana se obtiene mediante la expresión matemática.

N + 1

2

donde:

PMd = Posición de la Mediana

N = Número de casos.

el procedimiento para obtener la mediana a partir de una distribución de

frecuencias simple o agrupada requiere de aplicar la expresión:

donde:

Md = Mediana

N = Número de casos.

FA = Frecuencia agrupada.

FS = Frecuencia del intervalo adyacente superior.

Al aplicar la ecuación 4.5 a los datos de la Tabla 4.2 se obtiene un valor de 83 para la mediana:

De las tres medidas de tendencia central la media es mas exacta que la mediana por ser una estadística obtenida a través de una medición ordinal o de razón mientras que la mediana se obtiene a un nivel de medición nominal.

La principal característica de la media consiste en tomar en cuenta al 100 % de las puntuaciones de una distribución de frecuencias. No obstante cuando se analizan medidas extremas esta medida pudiera ser afectada por desviaciones que se posicionan por debajo o por arriba de ella. Ni la mediana ni la moda tienen este problema (Webster, 1998; Hopkins, Hopkins y Glass 1997; Kazmier, 1998).

a) Medidas de Dispersión.

Las medidas de dispersión son índices que se utilizan para describir una distribución de frecuencias a partir de la variación de los valores obtenidos. Los índices más utilizados son el rango, la varianza y la desviación estándar.

d1) El Rango. Indice conocido como recorrido. Se le define como la diferencia existente entre la puntuación mayor y la menor en una serie de datos. Tiene como desventaja que solo toma en cuenta para su cálculo las puntuaciones extremas, es decir la mayor y la menor omitiendo el resto de los datos u observaciones. Debido a lo anterior no es una medida confiable dado que se obtiene prácticamente por inspección.

d2) La Varianza. La varianza es una medida de variabilidad que toma en cuenta el 100 % de las puntuaciones de manera individual. Webster (1998) la define como “la media aritmética de las desviaciones respecto a la media aritmética elevada al cuadrado,” (p. 83). La definición matemática de la varianza se expresa por medio de la ecuación 4.6:

X2

N

donde:

2 Varianza.

 Suma de

X2 Desviación de las puntuaciones de la media (X – X)

N = Número de casos.

d3) La Desviación Estándar. Dada la dificultad inherente de interpretar el significado de una varianza en virtud de que expresa valores elevados al cuadrado, para efectos de investigación es más adecuado utilizar la desviación estándar o desviación típica, definida como la raíz cuadrada de la varianza. La desviación estándar se expresa mediante la ecuación 4.7:

donde:

 X2 Suma de los cuadrados de cada puntuación

(X2Suma de las puntuaciones elevadas al cuadrado

N = Número de casos.

La desviación estándar es una medida obtenida mediante una escala de intervalo o de razón basada en la magnitud de las puntuaciones individuales de la distribución (D”Ary, Jacobs y Razavieh, 1982). Es de mucha utilidad en “... en conjunción con la...distribución normal,” (Kazmier, 1998).

e) Correlación.

La correlación es un método estadístico que permite determinar la presencia o ausencia de asociación entre dos variables sometidas a investigación. Por ejemplo se puede medir el grado de asociación entre el rendimiento académico y el nivel socioeconómico de una muestra de unidades de observación. La correlación se describe por medio de índices estadísticos denominados coeficientes de correlación que pueden sugerir si el cambio de una variable se asocia con el cambio de la otra variable.

Los índices mas utilizados para medir la asociación entre dos variables es el coeficiente de correlación producto-momento que se aplica a escalas de medición de intervalo o de razón y el coeficiente de correlación de rangos que se utiliza en escalas de medición ordinal.

Al analizar la correlación de una serie de datos el resultado que arroja un coeficiente de correlación fluctúa entre – 1.00 y + 1.00. Una puntuación de – 1.00 sugiere una correlación negativa perfecta. Una puntuación de 0.00 sugiere ausencia de asociación entre las variables y una puntuación de + 1.00 sugiere una correlación positiva perfecta. Una correlación positiva perfecta indica que si una variable aumenta la otra también aumenta, por ejemplo cabe esperar que si el tipo de cambio peso-dólar aumenta el volumen de exportaciones del sector manufacturero del país también aumenta.

En el caso de una correlación negativa perfecta ocurre el aumento de una variable y el decremento o disminución de la otra variable. Por ejemplo ante el aumento del tipo de cambio peso-dólar cabe esperar una disminución o decremento en el volumen de importaciones del país. Una adecuada técnica para leer e interpretar los valores de correlación son las gráficas de dispersión. La Tabla 4.3 muestra algunos valores de coeficientes de correlación con su respectiva descripción y gráfica de dispersión.

Determinar la existencia de asociación entre las variables no indica existencia de causalidad. Esto es, un coeficiente de correlación únicamente sugiere el grado de relación entre las variables y no una situación causal.

e1) Correlación Producto-Momento. La correlación producto-momento es conocida como r de Pearson en virtud de que el estadístico Karl Pearson desarrollo este procedimiento. Se define como la media de los productos

de las puntuaciones Z y se expresa matemáticamente mediante la ecuación:

donde:

rxy = coeficiente de correlación producto-momento.

ZyZx = Sumatoria de los productos de puntuación Z.

n = Número de casos o puntuaciones pareadas.

en situaciones en las que el conjunto de observaciones es muy numeroso se omite la aplicación de la ecuación 4.8 y es sustituida por la expresión:

donde:

rxy = coeficiente de correlación producto-momento.

n = Número de casos.

Xi = Sumatoria de las puntuaciones de la variable X.

Yi = Sumatoria de las puntuaciones de la variable Y.

XY = Sumatoria de los productos de las puntuaciones apareadas XiYi.

Xi2 = Sumatoria de los cuadrados de las puntuaciones de la variable X.

Yi2 = Sumatoria de los cuadrados de las puntuaciones de la variable Y.



Para ejemplificar el coeficiente de correlación producto-momento se desarrollará el análisis de correlación al volumen de exportaciones del Sector de Servicios de Impresión (SSI) de México en el periodo comprendido entre 1991 y 1995 en relación con el tipo de cambio peso-dólar. El volumen de exportaciones se expresa en millones de dólares. La Tabla 4.4 muestra los datos del ejemplo. Al aplicar la ecuación 4.9 se obtiene:

al calcular el coeficiente de determinación (ver sección 5.3) se obtiene un valor de:

el análisis de correlación arrojó un coeficiente de correlación de – 0.28 para la asociación del valor total de exportaciones con el tipo de cambio peso-dólar, esto indica una débil correlación inversa entre ambas variables, con un coeficiente de determinación de 0.06. Lo anterior sugiere la conclusión lógica de que mientras el volumen de exportaciones se incrementa, el tipo de cambio peso-dólar decrece, sin que lo anterior indique una relación causística, dado que para tal efecto sería necesario un análisis marginal con soporte en algún modelo económico. El análisis de correlación simple es susceptible de someterse a prueba de hipótesis estadística mediante la distribución t con gl = n – 2 (gl = grados de libertad). Para lo anterior se procede a:

a) Establecer la hipótesis nula expresada en términos estadísticos (ver sección 2.2 del capítulo II). La hipótesis es:

b) Determinar el nivel de significancia estadística al que se someterá a contrastación la hipótesis nula y que pudiera ser en nivel de:

c) Calcular la prueba de significancia estadística mediante el

d) estadístico t expresado en la ecuación:

donde:

t = prueba t para prueba de hipótesis de correlación simple

r = coeficiente de correlación

r2 = coeficiente de determinación

n = número de casos

al aplicar la ecuación 4.10 al análisis de correlación anterior se obtiene un valor t calculado de:

el valor t calculado de – 0.90 se compara con el valor t crítico a una significación de = 0.05 consultado en el apéndice A, procediendo previamente a obtener los grados de libertad para la distribución t con la ecuación:

en el problema son cinco casos por lo que gl = 5 – 2 = 3. Con tres grados de libertad el valor t crítico es de 3.182. La regla de decisión es que si el valor t calculado es mayor que el valor t crítico entonces se rechaza la hipótesis de nulidad. En este caso se acepta la hipótesis de nulidad en virtud de que el valor to = - 0.90  tc = 3.182 y se concluye que si existe asociación entre las variables volumen de exportaciones y tipo de cambio peso-dólar.

e2) Coeficiente de Correlación por Rangos. El coeficiente de correlación por rangos conocido como coeficiente de Spearman (rho) se obtiene por medio de la expresión:

donde:

= Coeficiente de correlación por rangos

D2= Sumatoria de los cuadrados de las diferencias entre los rangos.

N = Número de casos.

e3) Coeficiente de Determinación. El coeficiente de determinación (rXY2) se define como el cuadrado del coeficiente de correlación y se utiliza para medir la variación de la variable dependiente (Y) explicada por la variación de la variable independiente (X). Es más adecuado aplicarlo en modelos de regresión