Tesis doctorales de Ciencias Sociales

APROXIMACIÓN A LA MEDICIÓN DE LA CALIDAD DE VIDA SOCIAL E INDIVIDUAL EN LA EUROPA COMUNITARIA

Mª Noelia Somarriba Arechavala



 


Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (448 páginas, 2.91 Mb) pulsando aquí

 

 

 

6.3. Otras metodologías en el desarrollo de indicadores sintéticos

En la literatura sobre indicadores sintéticos se han utilizado diversos métodos para derivarlos, véase por ejemplo algunos de ellos en el libro de Pena (1977). Aquí vamos a centrarnos por un lado, en uno de los más utilizados actualmente que es el Análisis de Componentes Principales y por otro en un enfoque novedoso que utiliza la técnica del Análisis Envolvente de Datos en la derivación de indicadores sintéticos.

6.3.1. El Análisis de Componentes Principales en la elaboración de un indicador sintético

La técnica multivariante de Componentes Principales es utilizada por diversos autores [Ram (1982), Slottje (1991)] como herramienta para la construcción de indicadores sintéticos de calidad de vida. El Análisis por Componentes Principales sintetiza la información contenida en un número elevado de indicadores, en un conjunto de componentes o factores denominados componentes principales que se caracterizan por estar incorrelados entre sí y recoger la máxima variabilidad del conjunto.

A grandes rasgos, el Análisis de Componentes Principales trata de explicar la variabilidad de un conjunto de variables con el menor número de nuevas variables sintéticas llamadas componentes que se caracterizan por estar incorrelacionadas entre sí. Estas componentes están construidas como combinaciones lineales de las variables originales y recogen la mayor parte de la información contenida en las variables originales .

Como medida de la cantidad de información incorporada en un componente se va a utilizar su propia varianza.

En el indicador sintético por componentes principales, los pesos de las variables son las correspondientes cargas factoriales en el primer componente principal.

Sin embargo este indicador no se encuentra exento de problemas. Diversos autores critican el uso del Análisis de Componentes Principales como procedimiento válido en la derivación de indicadores sintéticos [Pena (1977), Ram (1982), Zarzosa (1996), entre otros]. Es necesario insistir en el hecho de que este indicador es un indicador de carácter ordinal y que las ponderaciones carecen de una interpretación económica.

En primer lugar, haremos una breve revisión de la técnica del Análisis de Componentes Principales haciendo referencia a su utilidad en la derivación de indicadores sintéticos y posteriormente analizaremos las ventajas e inconvenientes de esta metodología.

Deducción de componentes

El objetivo que persigue el Análisis de Componentes Principales “es explicar la mayor parte de la variabilidad total observada en un conjunto de variables con el menor número de componentes posibles” [Uriel (1995), pág. 343], es decir se trata de reducir la dimensión original de un conjunto de n variables observadas llamadas originales, correlacionadas entre si, en un nuevo conjunto de p variables ortogonales (no correlacionadas), denominadas componentes principales . La idea original fue concebida por Pearson (1901) y posteriormente desarrollada por Hotelling (1933).

A continuación revisaremos brevemente la metodología con el objetivo de ofrecer una panorámica de esta técnica.

Sea la matriz de estados disponibles:

Esta matriz recoge las observaciones de las n variables originales sobre m casos (países, momentos temporales…) donde representa el valor del componente i-ésimo [i=1,...,n] en el país, momento temporal o unidad j [j=1,...,m].

A partir de la matriz X podemos definir la matriz de varianzas y covarianzas muestrales de X que denotaremos por V (de orden nxn) donde los elementos de la diagonal son las varianzas de cada variable Xi con i=1,2,…,n y los elementos fuera de la diagonal recogen las covarianzas entre las variables.

Las componentes principales, tal y como hemos mencionado anteriormente, son combinaciones lineales de las variables originales,

siendo donde i=1,…,n y . Estas ecuaciones se suelen representar en notación matricial como:

El Análisis de Componentes Principales requiere que las componentes principales estén incorrelacionadas y que los coeficientes verifiquen alguna condición que asegure la unicidad de la solución. Para ello se exige la condición de normalización y ortogonalidad sobre la matriz U:

O lo que es equivalente:

La primera componente Y1 es la que tiene mayor varianza y por tanto se obtendrá eligiendo el vector u1 que procede de la resolución del siguiente programa:

Max

s.a.

Para resolver este problema se puede utilizar el método de los multiplicadores de Langrange, siendo la función de Lagrange:

de donde calculando la derivada respecto a los componentes del vector :

se obtiene . Luego es el autovalor de V con vector propio u1.

Por otra parte la varianza de este primer componente coincide con su autovalor:

La segunda componente es la segunda con más varianza y se obtiene con un argumento similar al anterior pero imponiendo la restricción de ortogonalidad que garantice la incorrelación entre las componentes Y2 e Y1.

Max

s.a.

Utilizando de nuevo la técnica de Langrange y procediendo como en el caso anterior se encuentra la siguiente solución: el vector que define la segunda componente principal es el vector propio de la matriz S asociado a ese segundo autovalor mayor, , es decir el vector que verifica la ecuación:

además es la varianza de la segunda componente.

Continuando el proceso se obtendrá la i-ésima componente que viene dada por el autovector de S correspondiente a su i-ésimo autovector más grande y además la con i=1,2,…,n.

Reiterando el proceso obtendremos como solución n componentes, cuyas varianzas son los valores propios de V ordenados en sentido decreciente.

Utilizando las propiedades de autovalores y autovectores y su relación con la diagonalización de matrices se verifica que donde es una matriz diagonal con los autovalores como elementos de la diagonal principal y que es por tanto, la matriz de varianzas y covarianzas del vector de componentes y.

De lo anterior se deduce que la varianza total de la n componentes es la suma de autovalores es decir que:

Por otro lado hay un resultado clásico de álgebra matricial que dice que la suma de los autovalores de una matriz coincide con su traza y por tanto

De las ecuaciones anteriores se concluye que la suma de las varianzas de las n variables originales coincide con la suma de las n componentes principales. Esto significa que las n componentes principales recogen la misma información que las n variables originales. Es por ello que el siguiente ratio

puede interpretarse como el porcentaje de la varianza total de los datos originales recogido por la componente i-ésima.

Deducción de componentes con variables tipificadas

En muchas ocasiones las unidades en que se miden las variables son muy diferentes entre sí y ello implica que aquellas variables con mayor varianza tengan un peso más importante en el análisis. Este problema se evita tipificando las variables de partida, ya que entonces sus varianzas son unitarias y las covarianzas de la matriz de varianzas y covarianzas se transforman en los coeficientes de correlación entre las variables.

La obtención de las componentes en este caso será:

La matriz de datos tipificada vendrá dada por Z de forma que

donde y son las media y la desviación típica de la variable Xi respectivamente con i=1,2,…,n.

Sea R la matriz de correlaciones entre las variables, que coincide con la matriz de varianzas y covarianzas de las variables tipificadas. Esta matriz viene dada por:

donde representa la correlación lineal entre variables.

En este caso las componentes principales las denotaremos por serán combinaciones lineales de las variables tipificadas de la forma:

siendo la matriz de vectores columna de la matriz de correlación R, de dimensión que además verifica que verificando las condiciones de ortogonalidad y normalización.

En donde representa el autovector asociado al i-ésimo autovalor de la matriz R, ordenados en sentido decreciente (la varianza de cada componente se corresponde con su correspondiente valor propio; por lo tanto se ordenan las componentes principales en sentido decreciente del autovalor que las genera).

La forma de obtener las componentes es la misma que hemos explicado en la sección anterior pero cambiando el papel de la matriz S por la matriz R.

Así la componente i-ésima, , viene definida ahora por el vector propio de la matriz R correspondiente a su i-ésimo autovalor más grande, digamos y se sigue verificando que con i=1,…,n.

A pesar de la similitud en la forma de obtener las componentes, es importante resaltar que los autovalores y autovectores de R no son los mismos que los de V y por tanto los resultados obtenidos con una u otra matriz no son necesariamente los mismos.

Al trabajar con la matriz R, sabemos que los términos de su diagonal principal son todos iguales a uno y por tanto:

y el porcentaje de la varianza total recogido por las k primeras componentes es:

Interpretación de las componentes y selección del número de componentes a retener

Dado que las correlaciones entre las variables originales y la componente son proporcionales al vector que define dicha componente:

donde es el i-ésimo autovalor de R y es el i-ésimo elemento del vector propio correspondiente.

Es decir las correlaciones entre la componente i-ésima y las n variables originales se obtienen multiplicando los n elementos del autovector correspondiente por la raíz cuadrada de su autovalor asociado .

Este resultado constituye una herramienta esencial en la interpretación de las componentes ya que las variables que correlacionen más con una determinada componente serán las que den mayor significado a dicha componente y permitan una interpretación más clara .

Tal y como se ha comentado, aunque para reproducir la variabilidad (varianza total) de la matriz de datos originales se requieren n componentes, en general, una gran parte de la variabilidad total queda explicada por un pequeño número de componentes, digamos p<n. Estas k variables originales pueden reemplazar a las p variables originales sin perder mucha información, de tal forma que los datos originales (m observaciones en n variables) se reducen a m observaciones en p componentes.

Existen diversos criterios para decidir de forma razonable el número de factores que permita definir de forma correcta la estructura de los datos y posibilite su posterior interpretación, véase a este respecto Castro (2002):

 Criterio de la media aritmética o raíz latente [Kaiser (1958)] se basa en la selección del número de componentes cuya raíz característica supere el valor medio de las raíces características. En el caso de variables tipificadas se traduce en seleccionar los componentes cuya raíz característica sea mayor que 1.

 Contraste de caída (Cattell (1956)). Este contraste parte de la representación gráfica de las raíces características para cada componente en orden decreciente (gráfico de sedimentación). Se escogen las componentes hasta el punto en que la curva descendente comienza a ser una línea horizontal (zona de sedimentación) lo que indica que a partir de ese punto la proporción de varianza explicada no compartida es demasiado grande.

 Porcentaje de varianza explicada, consiste en acumular el porcentaje de varianza explicada por las componentes o factores hasta llegar a un nivel mínimo (60%-70%) habitualmente en relación al número de variables y observaciones.

Sin embargo, y dado que en nuestro objetivo es la derivación de un indicador sintético, en la mayoría de los trabajos se opta por retener el primer componente. Este primer componente proporciona un método de construcción de una combinación lineal de las variables de partida de tal manera que se caracteriza por ser la que mayor varianza tiene de entre todas las combinaciones lineales, que se puede establecer con variables de partida.

Consideraciones sobre el análisis de componentes principales como método de construcción de un indicador sintético.

A continuación expondremos una serie de razones por las cuales rechazamos el método de componentes principales como procedimiento válido para elaborar un indicador sintético, aunque no negamos su validez como método de selección de indicadores. El Método de Componentes Principales no constituye un buen método para derivar indicadores sintéticos de calidad de vida, por diversas causas que a continuación procedemos a comentar.

Su aplicación sólo nos permite ordenar casos, es una medida de carácter ordinal, y no nos permiten realizar comparaciones interespaciales e intertemporales excepto para el caso de comparaciones ordinales, dado que sus resultados numéricos carecen de interpretación cuantitativa

En este indicador las ponderaciones de las variables se corresponden con las cargas factoriales en la primera componente. Estas ponderaciones suelen tener sentido desde un punto de vista matemático pero carecen de interpretación desde un punto de vista socio-económico.

Por otro lado, este procedimiento no tiene en cuenta toda información no redundante, tan solo explica la varianza de la primera componente y se elimina del indicador información útil. Recordemos que las componentes son ortogonales entre sí de forma que aunque la componente 2 tenga un porcentaje de variabilidad menor que la componente 1, se trata de información nueva no contenida en la primera componente y lo mismo ocurre con el resto de componentes.

Otro problema que plantea este método es la afirmación de que la primera componente es la que mide el nivel de bienestar.

Tal y como comenta Pena (1977), el análisis factorial y los métodos de distancia son métodos complementarios en ningún caso sustitutivos. Los primeros sintetizan la información de las variables y los segundos comparan la posición de nuestras unidades de análisis.


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios