Desempeño predictivo de los métodos regresión binaria potencia logística y bosque aleatorio en clasificación desbalanceada
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Pontificia Universidad Católica del Perú
Acceso al texto completo solo para la Comunidad PUCP
Resumen
Los métodos de clasificación binaria fueron diseñados bajo el supuesto de que las clases o categorías
se encuentran balanceadas. Sin embargo, en la realidad observamos que las clases están desbalanceadas,
esto es, hay una clase que aparece con mayor frecuencia que la otra afectando, en consecuencia,
la capacidad predicitiva de los métodos de clasificación.
Para hacer frente al problema del desbalance encontramos métodos no paramétricos como el
bosque aleatorio que de acuerdo a recientes estudios es el que mejor desempeño ha mostrado en su
capacidad predicitiva cuando se le comprara con otros métodos de aprendizaje automático. Por el
lado, de los métodos paramétricos las distribuciones potencia y reversa de potencia aplicadas como
funciones de enlace en métodos de regresión binaria muestran un adecuado desempeño predicitivo
cuando hacen frente al problema de clases desbalanceadas.
Sin embargo en la literatura no existe un estudio que compare el desempeño predicitivo de los
métodos paramétrico y no paramétrico. Esta investigación tiene ese objetivo, comparar y determinar
cual de estos presenta la mejor performance predictiva. Para esta comparación utilizamos distintas
métricas de desempeño eligiendo aquellas que resulten idóneas considerando el nivel del desbalance
observado.
Los métodos utilizados son el bosque aleatorio, por el lado no paramétrico, y la regresión logística
con función de enlace potencia, desde la perspectiva paramétrica. En principio, se hizo un estudio
de simulación considerando escenarios con distintos niveles de desbalance para diferentes tamaños de
muestra. Luego, aplicamos los métodos a una situación real para lo cual utilizamos información de
estudiantes de una institución de educación superior. Tanto para el estudio de simulación como en la
aplicación real los resultados muestran que es la regresión logística con función de enlace potencia la
que mejor desempeño obtuvo en términos de predicción.
Palabras clave: Desbalance de datos, bosque aleatorio, distribución logística, enlace potencia y
reversa potencia, medidas de precisión.
Binary classification methods were originally developed under the assumption that the classes or categories are balanced. However, in real world scenarios, class imbalance is frequently observed. In other words, one class occurs significantly more often than the other. This imbalance adversely affects the predictive performance of classification methods. To address the issue of imbalance, non-parametric methods such as Random Forests have been employed. According to recent studies, Random Forests exhibit superior predictive performance when compared to other machine learning algorithms. On the parametric side, the power and reversed power distributions, when used as link functions in binary regression models, have demonstrated adequate predictive capabilities in the context of imbalanced data. Nonetheless, the literature lacks comprehensive research comparing the predictive performance of parametric versus non-parametric methods. The aim of this research is to fill that gap by conducting a comparative analysis to determine which approach yields better predictive performance. For this purpose, we employ a variety of accuracy measures, selecting those most suitable for assessing models under different levels of class imbalance. The methods employed in this study include Random Forest, representing the non-parametric approach, and logistic regression with a power link function, representing the parametric perspective. Initially, a simulation study was conducted under various scenarios, considering different levels of class imbalance and sample sizes. Subsequently, the methods were applied to a real-world dataset comprising student data from a higher education institution. In both the simulation and the empirical application, logistic regression with a power link function demonstrated superior predictive performance compared to Random Forest.
Binary classification methods were originally developed under the assumption that the classes or categories are balanced. However, in real world scenarios, class imbalance is frequently observed. In other words, one class occurs significantly more often than the other. This imbalance adversely affects the predictive performance of classification methods. To address the issue of imbalance, non-parametric methods such as Random Forests have been employed. According to recent studies, Random Forests exhibit superior predictive performance when compared to other machine learning algorithms. On the parametric side, the power and reversed power distributions, when used as link functions in binary regression models, have demonstrated adequate predictive capabilities in the context of imbalanced data. Nonetheless, the literature lacks comprehensive research comparing the predictive performance of parametric versus non-parametric methods. The aim of this research is to fill that gap by conducting a comparative analysis to determine which approach yields better predictive performance. For this purpose, we employ a variety of accuracy measures, selecting those most suitable for assessing models under different levels of class imbalance. The methods employed in this study include Random Forest, representing the non-parametric approach, and logistic regression with a power link function, representing the parametric perspective. Initially, a simulation study was conducted under various scenarios, considering different levels of class imbalance and sample sizes. Subsequently, the methods were applied to a real-world dataset comprising student data from a higher education institution. In both the simulation and the empirical application, logistic regression with a power link function demonstrated superior predictive performance compared to Random Forest.
Descripción
Palabras clave
Estadística--Predicciones, Análisis de la regresión, Distribución logística
Citación
Colecciones
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Licencia Creative Commons
Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/openAccess
