"Contribuciones a la Economía" es una revista
académica con el
Número Internacional Normalizado
de Publicaciones Seriadas
ISSN 1696-8360
Mercedes del Carmen Franco Rodríguez (CV)
Lucrecia Ramos Estive
Yunieski Hernández Cruzata
mechy@eco.uo.edu.cu
RESUMEN
En las últimas décadas el desarrollo de la informática y el manejo de grandes volúmenes de información han propiciado combinar los datos de sección cruzada con las series temporales, surgiendo lo que se ha dado a conocer como datos de panel, para el tratamiento de este tipo de datos se han creado o transformado una serie de técnicas econométricas.
Los nuevos modelos para este tipo de datos son capaces de capturar la heterogeneidad no observable, ya sea entre agentes económicos o de estudio, así como también a través del tiempo evitando problemas de agregación y permitiendo comparar observaciones de un individuo particular con su propio pasado.
En este material hacemos referencia a las características de este tipo de datos, los principales criterios que se manejan hoy para su tratamiento, así como los métodos de solución más eficientes que se conocen para darles solución. A manera de conclusión podemos decir que el uso de un modelo de datos de panel en cualquiera de las alternativas descritas en este trabajo, constituye una potente y novedosa opción que debemos considerar a la hora de elegir que técnica estadística puede ser útil para describir una situación económica concreta.
SUMMARY
In the last decades the computer science's development and the handling of big volumes of information have propitiated to combine the data of crossed section with the temporary series, arising what has been given to know as panel data and for the treatment of this type of data has been created or transformed several econometrics techniques.
The new models for this type of data are able to capture the heterogeneity non observable, either among economic factors or of study, as well as through the time avoiding aggregation problems and allowing to compare an individual's behaviour with their own past observations.
In this material we will make reference to the characteristics of this type of data, the main approaches that are managed today for their treatment, as well as the most efficient solution methods. Finally, we can say that the use of a model of panel data in anyone of the alternatives described in this work, constitutes a potent and novel option that we should consider when choosing the statistical technique in order to describe a concrete economic situation.
Palabras Claves: datos de panel, técnicas econométricas, efectos fijos, efectos aleatorios.
Key Words: panel data, econometrics techniques, figs effects, random effects.
Para ver el artículo completo en formato pdf comprimido zip pulse
aquí
Franco Rodríguez, Ramos Estive y Hernández Cruzata: "Combinación de Datos de Corte Transversal y de Series Temporales: La Utilización de Datos de Panel” en Contribuciones a la Economía, octubre 2010, en http://www.eumed.net/ce/2010b/
INTRODUCCIÓN
A partir de los años ochenta el uso de las técnicas de datos de panel comienza a disfrutar de una creciente popularidad en los estudios econométricos, haciéndose especialmente atractiva su utilización tanto sobre los datos de series temporales como los de corte trasversal, hecho que se refleja en la abundante literatura empírica que se registra sobre el tema.
Esto se debe en gran medida a que la disponibilidad de nuevos conjuntos de datos de este tipo; así como el desarrollo de la informática y las comunicaciones, propicio el surgimiento de mega bases y nuevas formas de manejo de la información; permitiendo al económetra, o al analista, combinar los datos de sección cruzada con las series temporales, tipos de datos que históricamente se manejaban por separado y disponían de técnicas y herramientas especificas para su tratamiento. Con la disponibilidad de este nuevo tipo de información que se ha dado en llamar datos de panel comienzan a desarrollarse una serie de herramientas estadísticas que permiten construir una serie de modelos econométricos capaces de capturar la heterogeneidad no observable, ya sea entre agentes económicos o de estudio, así como también en el tiempo.
Cuando el interés del investigador consiste en modelar las reglas de decisiones de diferentes individuos o empresas, los modelos de regresión tradicionales consideran un agente representativo que asimila las observaciones agregadas y muchas veces tras esa agregación se ocultan las características individuales de los individuos que se estudian.
Evitar problemas de agregación y facilitar el seguimiento del comportamiento individual en el tiempo son dos grandes ventajas de los datos de panel sobre las series temporales y los datos de corte transversal, el trabajo con este tipo de datos permite comparar observaciones de un individuo particular con su propio pasado.
Clasificación de los datos.
En los estudios econométricos es importante distinguir la naturaleza de los datos pues en dependencia de ella utilizamos para su tratamiento unas técnicas u otras. La información de que disponemos puede ser:
- Una serie de tiempo: incorpora información de variables o unidades de estudio individuales, durante un período de tiempo usualmente igual, en este caso cada periodo de tiempo constituye un elemento poblacional o muestral (dimensión temporal).
- Corte transversal: no incorpora el aspecto temporal, representa el análisis de información para las unidades individuales de estudio, en un momento determinado de tiempo (dimensión estructural).
- Datos de Panel: incluyen una muestra de individuos (agentes económicos, empresas, bancos, ciudades, países, etc.) para un período determinado de tiempo, combinando de esta forma los dos tipos de datos que hemos mencionado con anterioridad (dimensión temporal y dimensión estructural).
Como mencionábamos en la introducción, los datos de panel no son una suma de unidades individuales y series, son una nueva forma de presentación de la información, que ha generado el desarrollo de herramientas estadísticas que propicien la estimación de parámetros que tengan propiedades ideales.
En Econometría el término de datos de panel se refiere a datos en dos dimensiones, de este modo, son generadas múltiples observaciones puntuales para cada unidad económica.
Generalmente, los paneles de datos se distinguen unos de otros según su amplitud transversal y temporal. Así, los paneles con un número muy amplio de observaciones transversales y un número de períodos reducido se denominan Paneles Micro. En el caso contrario, número de periodos elevado e información transversal reducida se conoce con el nombre de Paneles Macro. Por último, en el caso realmente extraordinario de contar con un panel con amplia dimensión tanto temporal como transversal hablaríamos de un Campo aleatorio (Random Field). Los conjuntos de datos con más de dos dimensiones son llamados datos de panel multidimensionales.
Así mismo, resulta habitual hablar de paneles de datos equilibrados o paneles completos cuando el número de observaciones transversales es el mismo para cada período temporal.
Los modelos de datos de panel se clasifican además en dinámicos o estáticos según incluyan o no en sus ecuaciones variables pertenecientes a diferentes períodos de tiempo.
La ventaja fundamental de un panel de datos es que nos permite estudiar un número importantes de temas económicos que no podrían abordarse usando solamente modelos de series de tiempo o de corte transversal.
En particular, los datos de panel permiten tener en cuenta la existencia de efectos individuales inobservables, que pueden estar correlacionados con otras variables incluidas en la especificación de una relación econométrica. Proveen a su vez al investigador de un gran número de datos, proporcionando menos problemas de multicolinealidad (presente en numerosas ocasiones al utilizar datos de series temporales), más grados de libertad y, por tanto, mayor eficiencia de las estimaciones. Su utilización permite recoger con mayor precisión la variabilidad en los datos, tanto la existente entre individuos como la que existe a lo largo del tiempo.
Permiten modelar relaciones dinámicas entre las variables y esto es vital en la econometría, porque en muchos casos los modelos econométricos son dinámicos e incluyen variables retardadas. Por lo general las variables econométricas no son de naturaleza experimental y muchas veces el valor de una variable en el momento t esta influenciado por el valor de la variable en el momento t-1.
Este tipo de datos ofrecen al investigador gran capacidad de construir y contrastar complicados modelos de comportamiento. Además, es necesario introducir menos restricciones a la hora de estimar modelos de retardos distribuidos usando datos de panel, en relación con los que son necesarios cuando se utilizan datos de series temporales.
La gran ventaja de los datos de panel es que tienen en cuenta las diferencias permanentes entre individuos aunque estas no se observen “a simple vista”. En la práctica ha quedado demostrado que las regresiones basadas en variaciones entre individuos son significativamente distintas de las regresiones que consideran un agente representativo que “asimila” las observaciones agregadas. Esto se debe a que en estos casos los regresores están correlacionados con las diferencias inobservables incluidas en los términos de perturbación. De ahí la importancia de considerar en estas situaciones la utilidad de trabajar preferentemente con modelos de datos de panel.
En términos generales podemos decir que las desventajas asociadas a la técnica de datos de panel están relacionadas fundamentalmente con los procesos de obtención de información estadística sobre las unidades de estudio y su procesamiento. Muchas veces este tipo de información suele ser muy limitada o estar plagada de errores, haciendo que en muchas ocasiones la información no sea fiable.
Modelos para datos de panel.
Estas técnicas permiten analizar dos aspectos que forman parte de la heterogeneidad no observable, los efectos individuales específicos y los efectos temporales.
Cuando hablamos de efectos individuales específicos nos estamos refiriendo a aquellos que afectan de manera desigual a cada uno de los individuos o agentes de estudio contenidos en una muestra (bancos, empresas, ciudades, países) los cuáles son invariables en el tiempo y afectan de manera directa las decisiones que toman dichas unidades. Este tipo de efecto se identifica por lo general con la capacidad empresarial, acceso a la tecnología, eficiencia operativa, etc.
Cuando nos referimos a los efectos temporales nos referimos a aquellos que afectan por igual a todas las unidades individuales de estudio en un período de tiempo. Este tipo de efecto puede asociarse a los choque de naturaleza macroeconómica que pueden afectar por igual a todas las unidades de estudio.
Especificación General de un Modelo de Datos de Panel (I).
La expresión matemática que permite representar un modelo de Datos Panel puede escribirse:
i = 1,…, N t = 1,…, T k= 1,…, K
Donde Yit es una función lineal de k variables explicativas:
i = individuo o unidad de estudio.
t = dimensión u observaciones en el tiempo.
β0 = vector de interceptos de n parámetros.
β = es un vector de k parámetros.
k = variables explicativas.
Xkit = i-ésima observación al momento t para la variable explicativa k.
Uit = Termino de error que representa los efectos de todas las variables omitidas en el modelo.
Tenemos que β0 y βk son los parámetros que se quieren estimar; β0 es la ordenada en el origen, mientras que el resto de los parámetros βk son las pendientes de Yit con respecto a cada una de las variables independientes.
En este tipo de modelo Uit se puede descomponer en:
- los efectos no observables que difieren entre las unidades de estudio pero permanece invariable en el tiempo; generalmente asociados a la capacidad empresarial, μi.
- los efectos no cuantificables que varían en el tiempo pero no entre unidades de estudio o individuos δt.
- el término de error puramente aleatorio εit que representa el efecto de todas las otras variables que varían entre individuos y además a través del tiempo.
La mayoría de las aplicaciones de los modelos de datos de panel utilizan el modelo de componente del error conocido como “One Way”; donde δt=0 o sea no consideran efectos individuales que varían con el tiempo. Existen diferentes variantes para el modelo “One Way” de componentes de error y estas surgen de los distintos supuestos que se hacen a cerca de μi.
- Caso I: Consideran μi = 0, o sea no existe heterogeneidad no observable entre los diferentes individuos o firmas. Los Uit satisfacen todos los supuestos del modelo lineal general, por lo que el MMCO produce las mejores estimaciones lineales e insesgadas.
- Caso II: Se supone a μi como un efecto fijo y distinto para cada unidad individual, la heterogeneidad no observable se incorpora a la constante del modelo.
- Caso III: Se considera a μi como una variable aleatoria no observable que varia entre individuos pero no en el tiempo.
A partir del modelo general de datos de panel y teniendo en cuenta ciertos supuestos y restricciones acerca de algunos parámetros, se pueden derivar algunas otras variantes.
En el caso que exista heterogeneidad no observable ya sea a través del tiempo o entre unidades de estudio, debe especificarse el modelo de otra manera con la finalidad de evitar sesgos sobre los estimadores de los parámetros de las variables explicativas, que se cometerían si se empleará la especificación I.
Una forma de considerar la heterogeneidad es empleando los modelos de intercepto variable. En ellos el modelo lineal es el mismo para todas las unidades de estudio, pero la ordenada al origen es específica para cada uno de ellos. Estos modelos suponen que los efectos de todas las variables omitidas pueden presentarse en tres formas:
Una variable por cada individuo, no variable en el tiempo (características de la administración, sexo, color de la piel, religión, sector, país).
Una variable por períodos pero no variable entre individuos. Son las mismas variables para todos los individuos en un momento del tiempo pero varían a lo largo del período de estudio (precios, tasas de interés).
Variables que cambian el tiempo y por individuos (ingresos totales, nivel de beneficios, razones financieras, entre otras.)
Estos modelos de intercepto variable asumen que los efectos de las variables omitidas, ya sean específicos a cada individuo o cambien en el tiempo, no son importantes en forma individual, pero si lo son si se consideran en conjunto.
El efecto de las variables omitidas puede mantenerse constante en el tiempo para cada individuo, o ser el mismo para todos los individuos en un momento en el tiempo, o una combinación de ambos, se puede capturar en el termino constante de un modelo de regresión como un promedio que toma en cuenta la heterogeneidad entre individuos y/o en el tiempo contenida en los datos.
Las variables omitidas pueden generar cambios en los interceptos ya sea a través del tiempo o entre unidades individuales, la relación existente entre Yit y un conjunto de variables independientes Xkit puede caracterizarse de varias maneras, con el propósito de obtener estimaciones fiables y eficientes. Los modelos de efectos fijos (fixed effects models o least square dummy variable models) captan las variaciones existentes en la muestra causada por la presencia de diferentes unidades individuales con la inclusión de N-1 variables dicotómicas o dummy di. En el caso de las diferencias a través del tiempo se puede hacer lo mismo incorporando una serie de T-1 variables dummy tt, controlando así las variaciones de la constante a través del tiempo.
En el caso de los modelos de efectos aleatorios (random effects model) se parte del supuesto de que la variación ya sea a través de unidades individuales o del tiempo es aleatoria, y se recoge en el término de error de la ecuación.
En los modelos de efectos fijos β0 es considerada como un conjunto de N coeficientes adicionales que se pueden estimar junto con βk. Mientras que en el modelo de efectos aleatorios tradicional β0 es una variable aleatoria inobservable independiente de xit y que por tanto pasa a formar parte del error compuesto, como veremos más adelante.
Cada especificación implica el cumplimiento de una serie de supuestos a cerca de la relación existente entre las variables explicativas y la naturaleza del error de la ecuación de regresión.
Métodos de Solución.
En el caso de la solución de un modelo de regresión común, un problema importante a resolver es que procedimiento de estimación de los parámetros emplear. El Método de los Mínimos Cuadrados Ordinarios es generalmente el utilizado en los modelos de regresión estándar.
Este método parte de una serie de supuestos entre ellos que las varianza de los términos del error es la misma para cada una de las observaciones para todo individuo i y para todo instante t, supuesto conocido como homocedasticidad, ; además los términos del error no están correlacionados para distintos instantes de tiempo, ni tampoco están correlacionados para distintas unidades de estudio, , para todo individuo i≠j y para todos instante t≠s hecho conocido en la literatura econométrica como ruido blanco.
Cuando se trabaja con datos de panel la violación de estos supuestos se produce frecuentemente, ya sea a través de la presencia de heterocedasticidad a través de individuos o que los términos del error no sean independientes en un momento dado.
Puede suceder que los términos de error estén correlacionados a través de las diferentes unidades sociales en un momento de tiempo t, . Otra situación puede presentarse cuando para distintos instantes de tiempo, para un mismo individuo, los términos del error estén correlacionados ya sea en todos o en períodos consecutivos, lo que se conoce como autocorrelación serial, para al menos un retardo k›0.
Esto significa que los estimadores que se obtienen si empleamos el método de los mínimos cuadrados ordinarios, siguen siendo insesgados, pero no son de varianza mínima, esas propiedades solo se obtendrán de un estimador de Mínimos Cuadrados generalizados.
No siempre se muestra de forma evidente que modelo debe emplearse en un acaso u otro, el empleo de un modelo u otro genera diferencias en las estimaciones de los parámetros en los casos que t sea pequeño y n grande. Si deseamos hacer inferencias con respecto a la población, es decir que se trabaja con una muestra aleatoria, se recomienda, una especificación de un modelo de efectos aleatorios. Si por el contrario se trabaja con una muestra seleccionada a conveniencia o bien se esta trabajando con la población se recomienda un modelo efectos fijos.
Si el estudio que se realiza esta dirigido a los coeficientes de las pendientes de los parámetros y no tanto a las diferencias individuales se debe elegir entonces un modelo que trate la heterogeneidad no observable como aleatoria.
Una costumbre muy extendida en este campo es estimar ambos modelos y contrastar si los efectos son fijos o aleatorios, un gran malentendido según Arrellano . En este trabajo Arrellano plantea que el hecho de que los efectos sean fijos o aleatorios no representa una cualidad intrínseca de la especificación.
Los efectos individuales se pudieran considerar siempre aleatorios sin perdida de generalidad, la distinción importante es si los efectos están correlacionados o no con las variables explicativas xit. Si existe correlación entre β0 y las xit puede ser conveniente utilizar efectos fijos.
Cuando se plantea la cuestión de cuál es la especificación más adecuada en una situación de estudio con datos de panel, o cuál es el método de estimación más apropiado, los contrastes de hipótesis se convierten en herramientas indispensables para soportar o rechazar determinado supuestos. En la literatura empírica sobre el tema se encuentra una amplia aplicación de test para datos de panel.
La doble dimensionalidad de este tipo de datos ha permitido que en algunos casos contrastes que eran utilizados ya en algunas de sus dos dimensiones se hayan adaptado y en otros casos se han desarrollado test propios.
A continuación describiremos brevemente algunas características de los modelos de efectos fijos y aleatorios.
Modelo de efectos fijos.
El modelo de efectos fijos permite investigar la variación en el tiempo o entre unidades individuales por medio de distintos términos independientes, tratando las diferencias entre agentes sociales o instantes de tiempo como determinísticas.
Este tipo de modelo considera que las variables explicativas afectan por igual a las unidades individuales y que estas se diferencian por características propias de cada una de ellas medidas por medio del intercepto β0. En estos modelos la heterogeneidad no observable se incorpora a la ordenada en el origen del modelo. Los n intercepto se asocian con variables dummy con coeficientes específicos los cuales se deben estimar.
La variable dummy di tomará valor 1 en el caso de que la observación se refiera a la unidad uno de la muestra y cero para el resto de las observaciones, la inclusión de los coeficientes μi en el modelo de regresión estándar capta la variación en la constante β0 del modelo. Se puede hacer lo mismo con la inclusión de los coeficientes δt asociados a cada una de las variables dummy tt que toman valor 1 para un instante de tiempo y cero para el resto.
Donde:
De manera que se incorporan con μi una serie de N-1 variables dicotómicas en el modelo de regresión con el fin de controlar el efecto individual de cada individuo en la variable independiente, con δt se introducen T-1 variables dummy para controlar el efecto tiempo.
Uit no es aleatorio, tiene un componente individual fijo, invariable a través del tiempo μi pero si entre unidades individuales, también tiene un componente temporal fijo δt, que permanece invariable entre individuos. El componente aleatorio del modelo es εit que sigue una distribución normal, con media cero, no correlacionado consigo mismo, homocedástico; o sea varianza constante, no correlacionado con las variables independientes, ni con los efectos temporales o individuales.
El modelo de efectos fijos quedaría:
En este caso μi capta las diferencias estructurales entre unidades muestrales por medio de los N-1 términos independientes adicionales. Las diferencias en instantes de tiempo son captadas a través de δt. En el caso de este modelo β0 es el termino independiente para la unidad individual cuyo termino μi se ha excluido, en el momento de tiempo cuyo termino δt se ha excluido.
En los modelos de efectos fijos se permite la correlación entre los efectos individuales de μi , δt y las variables explicativas Xit pero para que los estimadores MCO sean consistentes se requiere exogeneidad estricta entre Xit y εit.
Los modelos de Efectos Fijos son útiles cuando se conoce que las diferencias entre las diferentes unidades individuales que conforman la muestra o entre los diferentes momentos de tiempo son cambios en la constante de la función de regresión, este tipo de modelos es útil en el caso de que el número de unidades de análisis o de instantes de tiempo no sea grande. En el caso de que se disponga de un número grande de observaciones a través del tiempo o cuando se conoce que las unidades sociales de la muestra han sido seleccionadas de una población de unidades sociales mucho más amplia se recomienda un modelo de efectos aleatorios.
Modelos de efectos aleatorios.
En los modelos de efectos aleatorios los efectos individuales μi y δt no son efectos fijos, varían de manera aleatoria. Los efectos aleatorios se incorporan en el término del error Ui.
El modelo de coeficientes aleatorios más utilizado es el modelo con varios componentes de error.
Donde el error μi es la perturbación aleatoria que permitirá distinguir el efecto de cada individuo en el panel, que se denomina también componente “entre grupos”¨y un componente temporal aleatorio δt que se denomina “intragrupos”. El componente del error εit es también aleatorio. Cada uno de los componentes del error: μi , δt, εit sigue una distribución normal con media cero, no esta correlacionado consigo mismo y para todo individuo i≠j y todo instante t≠s, son homocedásticos y no están correlacionados con las variables independientes o entre ellos mismos. Cuando el modelo de regresión que se estima es el de efectos aleatorios el estimador MCG será el más eficiente.
Existen modelos de coeficientes aleatorios más complejos por ejemplo cuando son las pendientes del modelo y no el término constante de la ecuación diferentes para cada unidad βi≠βj. Las diferencias en las pendientes se consideran como realizaciones diferentes de variables aleatorias con una misma distribución de probabilidad.
El conocido modelo de coeficientes aleatorios de Swamy en forma matricial puede expresarse de la siguiente manera:
Swamy propone estimar por MCG, utilizando una media ponderada o combinación lineal de dos estimadores: “entre grupos” e “intragrupos”.
Hasta ahora hemos centrado la atención en modelos de datos de panel estáticos pero existen también para el tratamiento de datos de panel modelos dinámicos que permiten heterogeneidad en la dinámica de las variables incluidas, ya no solo en sus niveles sino de forma transversal. Las regresiones dinámicas de datos de panel presentan dos fuentes de persistencia a lo largo del tiempo: la autocorrelación debida a la presencia de la endógena retardada entre los regresores y la debida a los efectos individuales que representan la heterogeneidad entre individuos.
Estas técnicas de han desarrollado mucho en los últimos años, no obstante algunos autores mencionan del Método Generalizado de Momentos, como la más completa de las disponibles hasta hoy.
Los paneles dinámicos contienen notables diferencias respecto al caso estático. Dada la escasa dimensión temporal exhibida por la mayor parte de paneles tradicionales disponibles, se ha hecho especial énfasis en modelos con dinámica homogénea, dejando relativamente al margen modelos de dinámica heterogénea. Sin embargo en la última década han comenzado a aparecer paneles con un gran número de unidades de corte transversal y un número relativamente largo de observaciones temporales; replanteándose los investigadores la conveniencia de la dinámica homogénea centrando los esfuerzos en el análisis de la dimensión temporal de los paneles y su tratamiento.
La introducción de elementos dinámicos en una ecuación panel conduce a problemas que no deben ser subvalorados. La extensión de un modelo dinámico de series temporales a un conjunto de datos de panel tiene limitaciones importantes. Que podrán ser analizados por los autores en un futuro trabajo.
A manera de conclusión podemos decir que:
1. El uso de un modelo de datos de panel en cualquiera de las alternativas descritas en este trabajo, constituye una potente y novedosa opción que debemos considerar a la hora de elegir que técnica estadística puede ser útil para describir una situación económica concreta.
2. El desarrollo impetuoso de la tecnología, el amplio volumen de información que se necesita valorar para la toma de decisiones y las innegables ventajas del enfoque de los datos de panel hacen visible un futuro fructífero de estas técnicas econométricas aplicadas a nivel mundial.
Bibliografía:
• Arellano, Manuel (2003): "Discrete choices with panel data" Investigaciones Económicas, vol. 27(3), 423-458.
• Arellano, Manuel y Bover, Olympia (1990) “La econometría de datos de panel” Investigaciones Económicas, vol 14 (No1)-1990 ISSN 15474367.
• Carrasco, Raquel (2002):”Modelos de Elección discreta para datos de panel y modelos de duración: Una revisión de la literatura. Cuadernos Económicos de I.C.E, 66. ISSN 02102633.
• Hsiao, Cheng (2003) “Analisys of panel data”, Cambribge University. ISBN 0521522714
• Hsiao, Cheng (2007) “Panel data analysis—advantages and challenges” Revista Published online: 16 March 2007. © Sociedad de Estadística e Investigación Operativa 2007.
• Lightwood, James y Hsiao, Cheng (1994) “Análisis de especificación para datos de panel.” Cuadernos Económicos de ICE No.54 ISSN 02102633.
• Nueva Época No. 12 (2003) ISSN 01850458 “Factores explicativos del nivel de endeudamiento de las empresas españolas. Un análisis con datos de panel. Economía mexicana.”
• Pérez, Cesar (2006) “Problemas Resueltos de Econometría.” ISBN 84-9732-376-9.