Desempeño predictivo de los métodos regresión binaria potencia logística y bosque aleatorio en clasificación desbalanceada

Título de la revista

ISSN de la revista

Título del volumen

Editor

Pontificia Universidad Católica del Perú

Acceso al texto completo solo para la Comunidad PUCP

Resumen

Los métodos de clasificación binaria fueron diseñados bajo el supuesto de que las clases o categorías se encuentran balanceadas. Sin embargo, en la realidad observamos que las clases están desbalanceadas, esto es, hay una clase que aparece con mayor frecuencia que la otra afectando, en consecuencia, la capacidad predicitiva de los métodos de clasificación. Para hacer frente al problema del desbalance encontramos métodos no paramétricos como el bosque aleatorio que de acuerdo a recientes estudios es el que mejor desempeño ha mostrado en su capacidad predicitiva cuando se le comprara con otros métodos de aprendizaje automático. Por el lado, de los métodos paramétricos las distribuciones potencia y reversa de potencia aplicadas como funciones de enlace en métodos de regresión binaria muestran un adecuado desempeño predicitivo cuando hacen frente al problema de clases desbalanceadas. Sin embargo en la literatura no existe un estudio que compare el desempeño predicitivo de los métodos paramétrico y no paramétrico. Esta investigación tiene ese objetivo, comparar y determinar cual de estos presenta la mejor performance predictiva. Para esta comparación utilizamos distintas métricas de desempeño eligiendo aquellas que resulten idóneas considerando el nivel del desbalance observado. Los métodos utilizados son el bosque aleatorio, por el lado no paramétrico, y la regresión logística con función de enlace potencia, desde la perspectiva paramétrica. En principio, se hizo un estudio de simulación considerando escenarios con distintos niveles de desbalance para diferentes tamaños de muestra. Luego, aplicamos los métodos a una situación real para lo cual utilizamos información de estudiantes de una institución de educación superior. Tanto para el estudio de simulación como en la aplicación real los resultados muestran que es la regresión logística con función de enlace potencia la que mejor desempeño obtuvo en términos de predicción. Palabras clave: Desbalance de datos, bosque aleatorio, distribución logística, enlace potencia y reversa potencia, medidas de precisión.
Binary classification methods were originally developed under the assumption that the classes or categories are balanced. However, in real world scenarios, class imbalance is frequently observed. In other words, one class occurs significantly more often than the other. This imbalance adversely affects the predictive performance of classification methods. To address the issue of imbalance, non-parametric methods such as Random Forests have been employed. According to recent studies, Random Forests exhibit superior predictive performance when compared to other machine learning algorithms. On the parametric side, the power and reversed power distributions, when used as link functions in binary regression models, have demonstrated adequate predictive capabilities in the context of imbalanced data. Nonetheless, the literature lacks comprehensive research comparing the predictive performance of parametric versus non-parametric methods. The aim of this research is to fill that gap by conducting a comparative analysis to determine which approach yields better predictive performance. For this purpose, we employ a variety of accuracy measures, selecting those most suitable for assessing models under different levels of class imbalance. The methods employed in this study include Random Forest, representing the non-parametric approach, and logistic regression with a power link function, representing the parametric perspective. Initially, a simulation study was conducted under various scenarios, considering different levels of class imbalance and sample sizes. Subsequently, the methods were applied to a real-world dataset comprising student data from a higher education institution. In both the simulation and the empirical application, logistic regression with a power link function demonstrated superior predictive performance compared to Random Forest.

Descripción

Palabras clave

Estadística--Predicciones, Análisis de la regresión, Distribución logística

Citación

Colecciones

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons

Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/openAccess