Métodos de boosting para clasificación desbalanceada con predictores categóricos: una aplicación a la predicción de deserción universitaria

dc.contributor.advisorDe La Cruz Huayanay, Alex
dc.contributor.authorSoto Torres, Cesar Christian
dc.date.EmbargoEnd2026-03-02
dc.date.accessioned2025-12-03T15:11:46Z
dc.date.available2025-12-03T15:11:46Z
dc.date.created2025
dc.date.issued2025-12-03
dc.description.abstractEl objetivo de esta investigación es estudiar el desempeño de los métodos de boosting para problemas de clasificación desbalanceada con covariables categóricas y aplicarlos a un conjunto de datos sobre deserción universitaria. Esta problemática se caracteriza por una variable respuesta con baja proporción de casos positivos (estudiantes que desertan) y por la presencia predominante de variables categóricas. Se desarrolló un estudio de simulación para evaluar el desempeño de XGBoost y CatBoost frente a la regresión logística, bajo distintos tamaños muestrales y niveles de desbalance. La evaluación comparó los métodos de generación de variables (logística y por cuartiles) y de evaluación de modelos predictivos (entrenamiento y prueba y validación cruzada k-folds). Adicionalmente, utiliza métricas apropiadas para datos desbalanceados, como G-Mean, Kappa y MCC. Estas métricas ofrecen una mejor visión del desempeño en comparación con la simple precisión, especialmente al evaluar la capacidad del modelo para identificar correctamente a los desertores. Se incorporó, además, el análisis del punto de corte, lo cual permite ajustar el umbral de decisión según la métrica G-mean, que permite priorizar los aciertos de los métodos predictivos. Finalmente, se aplicaron los modelos a datos reales de estudiantes universitarios. Las variables más influyentes fueron el nivel educativo de los padres, el ingreso familiar y la experiencia laboral previa. CatBoost mostró el mejor rendimiento en métricas clave y fue el más robusto frente al desbalance y la naturaleza categórica de los datos. Los resultados respaldan el uso de métodos de boosting, especialmente CatBoost, en contextos educativos donde se requiere identificar estudiantes en riesgo de deserción.
dc.description.abstractThe aim of this research is to study the performance of boosting methods for imbalanced classification problems with categorical covariates and to apply them to a dataset on university dropout. This issue is characterized by a response variable with a low proportion of positive cases (students who drop out) and a predominance of categorical variables. A simulation study was conducted to evaluate the performance of XGBoost and CatBoost compared to logistic regression, under different sample sizes and imbalance levels. The evaluation compared methods for variable generation (logistic-based and quartile-based) and for predictive model assessment (train-test split and k-fold cross-validation). Additionally, appropriate metrics for imbalanced data were used, such as G-Mean, Kappa, and MCC. These metrics provide a better understanding of performance than simple accuracy, especially in assessing the model’s ability to correctly identify dropouts. The analysis also included the selection of the decision threshold, allowing adjustment based on the G-Mean metric, which prioritizes the correct classification of dropout cases. Finally, the models were applied to real data from university students. The most influential variables were parental education level, family income, and prior work experience. CatBoost showed the best performance in key metrics and was the most robust in the face of imbalance and the categorical nature of the data. The results support the use of boosting methods, particularly CatBoost, in educational contexts where it is necessary to identify students at risk of dropping out.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/32617
dc.language.isospa
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.subjectAprendizaje automático (Inteligencia artificial)
dc.subjectEstudiantes universitarios--Deserciones
dc.subjectEstadística--Predicciones
dc.subjectEstadística--Modelos matemáticos
dc.subjectAnálisis de regresión
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.01.03
dc.titleMétodos de boosting para clasificación desbalanceada con predictores categóricos: una aplicación a la predicción de deserción universitaria
dc.typeinfo:eu-repo/semantics/masterThesis
renati.advisor.dni46121900
renati.advisor.orcidhttps://orcid.org/0000-0003-0746-0803
renati.author.dni72648045
renati.discipline542037
renati.jurorValdivieso Serrano, Luis Hilmar
renati.jurorDe La Cruz Huayanay, Alex
renati.jurorTarazona Vargas, Enver Gerald
renati.levelhttps://purl.org/pe-repo/renati/level#maestro
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineEstadísticaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgrado.es_ES
thesis.degree.levelMaestríaes_ES
thesis.degree.nameMaestro en Estadísticaes_ES

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
SOTO_TORRES_CESAR_CHRISTIAN.pdf
Tamaño:
1.14 MB
Formato:
Adobe Portable Document Format
Descripción:
Texto completo
Cargando...
Miniatura
Nombre:
SOTO_TORRES_CESAR_CHRISTIAN_T.pdf
Tamaño:
9.15 MB
Formato:
Adobe Portable Document Format
Descripción:
Reporte de originalidad

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones