Angel Fredy Castelo Rivas
Gelmar García Vidal
Reyner Pérez Campdesuñer
Piedad Alarcón Toabanda
Walter Castelo Rivas
Universidad Tecnológica Equinoccial, Ecuador
angel.castelo2013@gmail.comRESUMEN
El artículo hace uso de la regresión logística para determinar qué factores tienen mayor influencia en la elección de una universidad para la obtención de un título de tercer nivel. La variable dependiente asume dos opciones, selección de la Universidad Tecnológica Equinoccial y selección de cualquier otra universidad del territorio de Santo Domingo de los Tsáchilas o fuera de él. Fueron utilizadas cinco variables independientes de las cuales, educación superior que prefiere, el horario de estudio y la categoría del colegio de procedencia fueron aquellas que ejercen mayor influencia en la selección de la universidad.
ABSTRACT
The article makes use of logistic regression to determine which factors have the greatest influence in choosing a university to obtain a bachelor's third level. The dependent variable takes two options, selecting Universidad Tecnológica Equinoccial and selection of any other university in the territory of Santo Domingo de los Tsáchilas or out of it. They were used five independent variables of which prefers higher education, the study schedule and status of the school of origin were those that exert greater influence in the selection of the university.
PALABRAS CLAVES: regresión logística binaria, preferencia de universidad.
Para citar este artículo puede uitlizar el siguiente formato:
Angel Fredy Castelo Rivas, Gelmar García Vidal, Reyner Pérez Campdesuñer, Piedad Alarcón Toabanda y Walter Castelo Rivas (2016): “Regresión logística: una aplicación para el estudio de los elementos determinantes en la selección de una universidad para alcanzar un título de tercer nivel”, Revista Atlante: Cuadernos de Educación y Desarrollo (abril 2016). En línea: http://www.eumed.net/rev/atlante/2016/04/regresion.html
http://hdl.handle.net/20.500.11763/ATLANTE-2016-04-regresion
INTRODUCCIÓN
La regresión logística suele preferirse como método estadístico cuando se cuentan con varias variable independientes y una variable dependiente no continua y no que sigue una distribución normal (es el caso de una variable binaria), debido a que, en comparación a otras pruebas estadísticas de factura semejante, no se enfrenta a supuestos estrictos que no siempre pueden validarse, incluso es más robusta cuando estos supuestos no se cumplen, haciendo muy apropiada su aplicación en situaciones diversas (Díaz González, Covarrubias Melgar, & Sistachs Vega, 2015; Hair, Anderson, Tatham, & Black, 1999; Heredia Rico, Rodríguez Hernández, & Vilalta Alonso, 2012; Mures Quintana, García Gallego, & Vallejo Pascual, 2005; Salas Velasco, 1996). Una de las ventajas de la regresión logística es que solo se necesita saber si un suceso ocurre o no para entonces utilizar un valor dicotómico como variable dependiente. A partir de este valor dicotómico, el procedimiento predice su estimación de la probabilidad de que el suceso tenga o no lugar; si la predicción de la probabilidad es mayor que 0.50, entonces la predicción es si, y en otro caso no (Balluerka, Gorostiaga, Gómez Benito, & Hidalgo, 2010; Hair, et al., 1999; Menéndez Acuña, Gabriel Argüelles, & Hernández González, 2015). La regresión logística deriva su nombre de la transformación logística utilizada con la variable dependiente (Balluerka, et al., 2010; Fernández Aguerre, 2002; Hosmer & Lemeshow, 2000). Dado que la probabilidad de un evento debe estar entre 0 y 1, no es práctico modelar dichas probabilidades con técnicas de regresión lineal ya que, el modelo de regresión lineal permite a la variable dependiente tomar valores mayores que 1 o menores que 0. El modelo de regresión logística es un tipo de modelo lineal generalizado que va más allá del modelo de regresión lineal mediante la vinculación de la gama de números reales a la gama de 0 - 1. Se debe comenzar teniendo en cuenta la existencia de una variable continua observada, Z, que se puede considerar como la "propensión hacia" el evento de interés.
En el modelo de regresión logística, la relación entre Z y la probabilidad del evento de interés es descrito por esta función de enlace (Alderete, 2006; Kleinbaum, 1994):
Donde:
πi: es la probabilidad el caso i-ésimo que experimenta el evento de interés.
zi: es el valor de la variable continua no observada para el caso i-ésimo.
El modelo asume que Z se relaciona linealmente con sus predictores:
Donde:
xij: es el predictor jth para el caso ith
bj: es el coeficiente jth
p: es el número de predictores
La utilidad de la prueba consiste entonces, en su capacidad para establecer predicciones en las condiciones en que un fenómeno se manifieste o no lo haga condicionado a un grupo de variables planteadas como determinantes (Díaz González, et al., 2015; Hosmer & Lemeshow, 2013; Salas Velasco, 1996). Este método ha sido aplicado en el contexto de la educación para análisis diversos: deserción estudiantil universitaria (Fernández Orrantia & Silva, 2014), estudio del consumo de alcohol en estudiantes universitarios (Restrepo Molina, Agudelo Martínez, Giraldo Torres, & Sánchez Diosa, 2011), estudios de test aplicados en el campo de la educación (Balluerka, et al., 2010), análisis del rendimiento académico (Corengia, Pita, Mesurado, & Centeno, 2013; Chue Gallardo, Barreno Vereau, & Millones Rivalles, 2007; Heredia Rico, et al., 2012; Ibarra & Michalus, 2010), postura corporal en estudiantes universitarios (Agudelo Martínez, 2013), estudio de las relaciones entre el síndrome de burnout y el patrón de conducta tipo A en profesores de educación infantil, primaria y secundaria (Félix Raya, Moriana, & Herruzo, 2010), determinantes sociales e institucionales de la desigualdad educativa (Fernández Aguerre, 2002), asociación entre depresión y bajo rendimiento académico en estudiantes universitarios (Franco Mejía, Gutiérrez Agudelo, & Perea, 2011), detección de estudiantes en riesgo académico (Guillén Sanchez & Chinchilla Brenes, 2005), estimación de la probabilidad de egreso de estudiantes (Nieto Méndez, 2015), relaciones entre ofertas de asignaturas y carreras universitarias (Larrán Jorge & Andrades Peña, 2015), fracaso escolar (Formichella & Krüger, 2013), dependencia emocional en estudiantes universitarios (Lemos Hoyos, Jaller Jaramillo, González Calle, Díaz León, & de La Ossa, 2012), equidad en el ingreso a la universidad pública (Yusif, Yussof, & Osman, 2013) y estudios de demanda universitaria (Mendoza Requena, Llanos Zavalaga, Rosas Aguirre, Contreras Ríos, & Huayta Zacarías, 2001; Salas Velasco, 1996).
Basado en los estudios antes mencionados el presente trabajo intenta explicar los factores que determinan que los estudiantes del último año de los colegios de Santo Domingo de los Tsáchilas prefieran la Universidad Tecnológica Equinoccial Sede Santo Domingo (UTE) para obtener su título de tercer nivel, todo lo cual permitirá actuar de forma consecuente en aquellos grupos de estudiantes que resulten demanda potencial de dicha universidad. Usando el procedimiento de regresión logística, la UTE puede orientar su labor de orientación vocacional a los estudiantes que tienen más probabilidades de optar por su oferta académica.
MÉTODOS Y MATERIALES
Se utilizó un cuestionario estructurado con ocho preguntas el cual cumple con los criterios de validez aparente y de contenido según criterio de expertos. Se siguió el método de muestreo no probabilístico por cuotas que se basa en seleccionar la muestra después de dividir la población en grupos o estratos que este caso lo constituyeron los colegios. Las cuotas se decidieron a criterio de los investigadores y se eligieron los elementos en cada estrato o grupo por métodos no probabilísticos. Se recopiló información de 556 estudiantes de una población de 14874.
La investigación se realizó en los colegios de Santo Domingo, La Concordia y San Miguel de los Bancos entre los meses de mayo y junio.
La muestra por colegios y ciudad de ubicación se muestra en la tabla que sigue:
La base de datos de depuró para realizar el análisis solo con aquellos estudiantes que deseaban continuar estudiando una vez concluidos el bachillerato quedando una total de 525 encuestados para un 94.4% del total como se aprecia en la tabla 3.
Con los resultados de la encuesta se pretendió analizar, mediante un modelo de regresión logística, la relación existente entre las características de los estudiantes de colegios encuestados (variables independientes: Naturaleza del colegio del que proviene, Educación superior que prefiere, Modalidad que prefiere para estudiar, Horario para estudiar, Fuente de financiamiento) y la elección de la universidad (variable dependiente dicotómica: Universidad seleccionada en Santo Domingo). El modelo a estimar sería el siguiente:
En el modelo propuesto se denomina 1 a la opción de respuesta "Selecciona la UTE" y se define 0 a su alternativa "Cualquier otra universidad en Santo Domingo o fuera de él". Una vez analizados los instrumentos de recopilación de información y tabulados los datos se prepara la prueba estadística utilizando el IBM SPSS 20 (Berlanga Silvente & Vilà Baños, 2014). La selección de la opción que facilita la corrida de la prueba genera la siguiente sintaxis de comando:
LOGISTIC REGRESSION VARIABLES Universidadseleccionada
/METHOD=FSTEP(LR) educaciónpreferida Modalidad Horario Fuentedefinancieamiento Especialidaddelestudiante Categoríadelcolegio
/CONTRAST (Especialidaddelestudiante)=Indicator
/SAVE=PRED COOK SRESID
/CLASSPLOT
/PRINT=GOODFIT
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).
Después de construir un modelo, es necesario determinar si este se aproxima razonablemente al comportamiento de los datos procesados. Para esto es necesario analizar la Prueba de ajuste del modelo que el procedimiento de regresión logística binaria informa la bondad de ajuste de Hosmer-Lemeshow. Además es necesario analizar los Plot residuales.
RESULTADOS
Una vez procesados los datos en el paquete estadístico utilizando la opción Regresión Logística Binaria se presentan los hallazgos encontrados. El estadístico de Hosmer-Lemeshow muestra que el modelo obtenido se ajusta adecuadamente los datos con una significación de 0.218 teniendo en cuenta el criterio de que un valor de significación es inferior a 0,05 indica un mal ajuste. Aquí, La tabla que sigue muestras estadísticas más fiables del ajuste del modelo de regresión logística binaria.
El método utilizado comienza con un modelo que no incluye ninguno de los predictores utilizados.
En cada paso, el predictor con mayor puntuación estadística cuyo significado valor es menor que un valor especificado (por defecto 0.05) se añade al modelo.
Las variables elegidas siguiendo el método paso a paso deben tener cambios significativos en -2 log-likelihood.
En el modelo de regresión lineal, el coeficiente de determinación, R2, resume la proporción de la varianza en la variable dependiente asociada con el predictor de variables (independientes), con valores más grandes R2 se indica que se explica por el modelo un mayor porcentaje de la variación, a un máximo de 1. Para los modelos de regresión con una variable dependiente categórica, no es posible calcular un único R2statistic como en caso el modelo de regresión lineal, por lo que estas aproximaciones se calculan en su lugar. El en caso que se estudia se obtiene un R2 de Cox y Snell de 0,406 y un R2 de Nagelkerke a 0,560. Estos resultados, aunque podrían ser superiores, conducen a pensar que la capacidad explicativa del modelo es adecuada (Morrison, 1972; Salas Velasco, 1996).
La tabla de clasificación muestra los resultados prácticos de la utilización del modelo de regresión logística. Para cada caso, la respuesta pronosticada es Sí selecciona a la UTE la probabilidad predicha por el modelo en cada caso es mayor que el valor de corte (cutoff) especificado en los cuadros de diálogo (en este caso, el valor por defecto de 0,5). De los casos utilizados para crear el modelo, 161 de las 183 son clasificados correctamente para la selección de la Universidad Tecnológica Equinoccial (UTE) y 250 de 342 son clasificados de forma correcta para aquellos que seleccionan otra universidad del territorio o fuera de él. De forma general, el 78,3% de todos los casos fueron clasificados correctamente correspondiéndose con el criterio de que un buen modelo debe identificar correctamente el mayor porcentaje de los casos.
La tabla de estimaciones de los parámetros resume el efecto de cada predictor. Si el nivel de significación de la estadística de Wald es pequeño (inferior a 0,05), entonces el parámetro es útil, para el modelo generado se han seleccionado los predictores Educación preferida, el Horario de preferencia para estudiar y la Categoría del colegio de procedencia.
Los predictores y valores de los coeficientes mostrados en el paso 3 se utilizarán por el procedimiento para hacer predicciones. El significado de un coeficiente de regresión logística no es tan sencillo como el de un coeficiente de regresión lineal. Mientras que B es adecuado para probar la utilidad de predictores, Exp (B) es más fácil de interpretar. Exp (B) encontrado en la última columna de la tabla representa la relación entre el cambio en la probabilidad del evento de interés, la selección de la UTE como universidad para estudiar, para un cambio de una unidad en el predictor.
Por ejemplo, Exp (B) para la variable Categoría del colegio es igual a ,457, lo que significa que las probabilidades de seleccionar a la UTE para una persona que provenga de un colegio privado es de ,457 veces las probabilidades de seleccionar la UTE que para una persona que provenga de un colegio público, todos en igualdad de condiciones.
Las probabilidades de seleccionar a la UTE para una persona que prefiere a una Universidad pública son;
por lo que la probabilidad correspondiente de seleccionar la UTE por parte de una persona que prefiera una universidad pública se reduce a 0.3136.
Utilizando el procedimiento de regresión logística, que ha construido un modelo para predecir la probabilidad de que un cliente seleccione a la UTE como universidad para realizar sus estudios de tercer nivel. Este modelo incluye solo tres variables que indicen en la probabilidad de seleccionar la UTE como universidad para continuar estudios de tercer nivel, el resto de las variables no explicaron esa variable dependiente quedando el modelo como sigue:
DISCUSIÓN Y CONCLUSIONES
El estudio realizado se apoya en la lógica seguida con los realizados por Lemos Hoyos, et. al. (2012), Yusif, et. al (2013), Mendoza Requena, et. al (2001) y Salas Velasco (1996).
No se encontraron estudios dirigidos específicamente a determinar las variables que influyen en la elección de los estudiantes respecto a la selección de la Universidad Tecnológica Equinoccial como opción para continuar estudios de tercer nivel.
De acuerdo con el modelo obtenido las variables que explicar la selección de la Universidad Tecnológica Equinoccial como opción para continuar estudios de tercer nivel son el tipo de educación superior que prefiere, el horario de estudio y la categoría del colegio de procedencia.
De igual forma se determinó que las variables excluidas no poseen suficiente influencia para explicar la selección de la Universidad Tecnológica Equinoccial como opción para continuar estudios de tercer nivel.
RECOMENDACIONES
En función a lo anterior la Universidad Tecnológica Equinoccial debe identificar a los estudiantes de colegios privados que prefieran una educación superior privada en días de semana en cualquiera de sus horarios orientar su actividad para orientar la formación vocacional y promoción de sus servicios.
REFERENCIAS BIBLIOGRÁFICAS
Agudelo Martínez, A. (2013). Factores asociados a la postura corporal en estudiantes universitarios. Revista CES Movimiento y Salud, 1(1), 11-18.
Alderete, A. M. (2006). Fundamentos del Análisis de Regresión Logística en la Investigación Psicológica. Evaluar, 6, 52- 67.
Balluerka, N., Gorostiaga, A., Gómez Benito, J., & Hidalgo, M. D. (2010). Use of multilevel logistic regression to identify the causes of differential item functioning. Psicothema, 22(4), 1018-1025.
Berlanga Silvente, V., & Vilà Baños, R. (2014). Cómo obtener un Modelo de Regresión Logística Binaria con SPSS. REIRE, Revista d’Innovació i Recerca en Educació, 7(2), 105-118.
Corengia, A., Pita, M., Mesurado, B., & Centeno, A. (2013). Predicting Academic Performance and Attrition in Undergraduate Students. Liberabit, 19(1), 101-112.
Chue Gallardo, J., Barreno Vereau, E., & Millones Rivalles, R. (2007). Sistema para el análisis estadístico de Técnicas multivariadas del rendimiento académico de los estudiantes de una institución de enseñanza superior. INTERFASES. Revista digital de la Facultad de Ingeniería de Sistemas(2), 51-82.
Díaz González, L., Covarrubias Melgar, D., & Sistachs Vega, V. (2015). Enfoque bayesiano del modelo de regresión logística usando Cadenas de Markov Monte Carlo. Revista Investigación Operacional, 36(2), 178-185.
Félix Raya, A., Moriana, J. A., & Herruzo, J. (2010). Relación entre el síndrome de burnout y el patrón de conducta tipo a en profesores. Ansiedad y Estrés, 16(1), 61-70.
Fernández Aguerre, T. (2002). Determinantes sociales e institucionales de la desigualdad educativa en sexto año de educación primaria de Argentina y Uruguay, 1999.: Una aproximación mediante un modelo de regresión logística. Revista Mexicana de Investigación Educativa, 7(16), 501-536.
Fernández Orrantia, X., & Silva, E. (2014). Deserción estudiantil universitaria en el primer semestre. El caso de una institución de educación superior ecuatoriana. Cuadernos del Contrato Social por la Educación(10), 34-48.
Formichella, M. M., & Krüger, N. (2013). El fracaso escolar en el nivel medio argentino: ¿es menos frecuente en las escuelas de gestión privada debido a su administración? Regional and Sectoral Economic Studies, 13(3), 127-144.
Franco Mejía, C., Gutiérrez Agudelo, S., & Perea, E. (2011). Asociación entre depresión y bajo rendimiento académico en estudiantes universitarios. Psicogente, 14(25), 67-75.
Guillén Sanchez, E., & Chinchilla Brenes, S. (2005). Detección de estudiantes en riesgo académico en el Instituto Tecnológico de Costa Rica. Educación, 29(2), 123-138.
Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1999). Análisis multivariante (Quinta ed.). Madrid: Prentice Hall Iberia, SRL.
Heredia Rico, J. J., Rodríguez Hernández, A. G., & Vilalta Alonso, J. A. (2012). Empleo de la regresión logística ordinal para la predicción del rendimiento académico. Revista Investigación Operacional, 33(3), 252-267.
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression (2nd ed.). New York: John Wiley and Sons.
Hosmer, D. W., & Lemeshow, S. (2013). Applied logistic regression. New York: John Wiley & Sons.
Ibarra, M. d. C., & Michalus, J. C. (2010). Análisis del rendimiento académico mediante un modelo logit. Ingeniería Industrial, 9(2), 47-56.
Kleinbaum, D. G. (1994). Logistic Regression: A Self-Learning Text. New York: Springer-Verlag.
Larrán Jorge, M., & Andrades Peña, F. J. (2015). La oferta de asignaturas de responsabilidad social corporativa y ética empresarial en las titulaciones de finanzas y contabilidad: análisis comparativo con el ámbito de la gestión de organizaciones. Revista de Contabilidad – Spanish Accounting Review, 18(1), 1-10.
Lemos Hoyos, M., Jaller Jaramillo, C., González Calle, A. M., Díaz León, Z. T., & de La Ossa, D. (2012). Perfil cognitivo de la dependencia emocional en estudiantes universitarios en Medellín, Colombia. Universitas Psycologica, 11(2), 395-404.
Mendoza Requena, D., Llanos Zavalaga, F., Rosas Aguirre, Á., Contreras Ríos, C., & Huayta Zacarías, E. (2001). Factores asociados al ingreso a medicina en la Universidad Peruana Cayetano Heredia y sus tendencias durante el periodo 1994-1999. Revista Médica Herediana, 12(1), 8-15.
Menéndez Acuña, E. P., Gabriel Argüelles, E., & Hernández González, S. (2015). Nonparametric Regression: An Alternative to the Scatter Diagram. Revista Investigación Operacional, 36(2), 156-160.
Morrison, D. G. (1972). Upper Bounds for Correlations Between Binary Outcomes and Probabilistic Predictions. Journal of the American Statistical Association, 7(68-70).
Mures Quintana, M. J., García Gallego, A., & Vallejo Pascual, M. E. (2005). Aplicación del Análisis Discriminante y Regresión Logística en el estudio de la morosidad en las entidades financieras. Comparación de resultados. Pecvnia, 1, 175-199.
Nieto Méndez, A. L. (2015). Estimación de la probabilidad de egreso de estudiantes de licenciatura en ciencias de la BUAP usando Regresión Logística. Unpublished Tesis que para obtener el título de Licenciada en Matemáticas Aplicadas, Benemérita Universidad Autónoma de Puebla, Puebla.
Restrepo Molina, L., Agudelo Martínez, A., Giraldo Torres, M. T., & Sánchez Diosa, L. (2011). Factores de contexto asociados al consumo de alcohol en estudiantes universitarios. Revista CES Salud Pública, 2(2), 136-147.
Salas Velasco, M. (1996). La regresión logística . Una aplicación a la demanda de estudios universitarios. Estadística Española, 38(141), 193-217.
Yusif, H., Yussof, I., & Osman, Z. (2013). Public university entry in Ghana: Is it equitable? International Review of Education, 59, 7-27.
Recibido: 11/03/2016
Aceptado: 10/05/2016
Publicado: Abril de 2016
Los comentarios al artículo son responsabilidad exclusiva del remitente.
Si necesita algún tipo de información referente al articulo póngase en contacto con el email suministrado por el autor del articulo al principio del mismo.
Un comentario no es mas que un simple medio para comunicar su opinion a futuros lectores.
El autor del articulo no esta obligado a responder o leer comentarios referentes al articulo.
Al escribir un comentario, debe tener en cuenta que recibirá notificaciones cada vez que alguien escriba un nuevo comentario en este articulo.
Eumed.net se reserva el derecho de eliminar aquellos comentarios que tengan lenguaje inadecuado o agresivo.
Si usted considera que algún comentario de esta página es inadecuado o agresivo, por favor,pulse aqui.