Modelos de regresión robusta para datos de conteo
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Editor
Pontificia Universidad Católica del Perú
Acceso al texto completo solo para la Comunidad PUCP
Resumen
En esta tesis se propone un nuevo modelo, denominado Regresión Binomial Negativa con
Mixtura en la Dispersión (NB-H), como una alternativa robusta para el análisis de datos
de conteo caracterizados por sobredispersión y presencia de valores atípicos. La propuesta
se basa en la introducción de una estructura de mixtura en el parámetro de dispersión de
la distribución Binomial Negativa, lo que permite que el modelo sea menos sensible a observaciones
extremas, preservando así la estructura general de los datos. Se presentan dos
formulaciones específicas, denominadas NB-G y NB-IG, que emplean distribuciones Gamma
e Inversa Gamma, respectivamente, como componentes de mezcla.
Se adopta un enfoque bayesiano para la estimación de los parámetros, utilizándose simulaciones
de cadenas de Markov Monte Carlo (MCMC) implementadas en el lenguaje Stan. Se
realiza un estudio de simulación para evaluar la robustez del modelo frente a diferentes escenarios
de contaminación, así como dos aplicaciones prácticas con datos reales provenientes
del ámbito de salud. Los resultados muestran que las variantes propuestas presentan mejor
desempeño respecto al modelo de Regresión Binomial Negativa tradicional en términos de
estabilidad y precisión, especialmente en presencia de observaciones atípicas. Esta investigación
aporta una estrategia robusta y flexible para el modelado de datos de conteo, capaz de
adaptarse a contextos con alta variabilidad y presencia de valores extremos.
This thesis proposes a new model, referred to as Negative Binomial Regression with Mixture in the Dispersion (NB-H), as a robust alternative for analyzing count data affected by overdispersion and the presence of outliers. The proposed approach incorporates a mixture structure in the dispersion parameter of the Negative Binomial distribution, making the model less sensitive to extreme observations, thereby preserving the overall data structure. Two specific formulations are developed: NB-G and NB-IG, which use Gamma and Inverse Gamma distributions, respectively, as mixing components. A Bayesian approach is adopted for parameter estimation, using Markov Chain Monte Carlo (MCMC) simulations implemented in the Stan programming language. A simulation study is performed to evaluate the robustness of the model under various contamination scenarios, alongside two real-world applications involving health-related count data. The results show that the proposed variants outperform the traditional Negative Binomial model in terms of stability and estimation accuracy, particularly in the presence of extreme values. This research introduces a flexible and resilient strategy for modeling count data under challenging conditions of high variability and outliers.
This thesis proposes a new model, referred to as Negative Binomial Regression with Mixture in the Dispersion (NB-H), as a robust alternative for analyzing count data affected by overdispersion and the presence of outliers. The proposed approach incorporates a mixture structure in the dispersion parameter of the Negative Binomial distribution, making the model less sensitive to extreme observations, thereby preserving the overall data structure. Two specific formulations are developed: NB-G and NB-IG, which use Gamma and Inverse Gamma distributions, respectively, as mixing components. A Bayesian approach is adopted for parameter estimation, using Markov Chain Monte Carlo (MCMC) simulations implemented in the Stan programming language. A simulation study is performed to evaluate the robustness of the model under various contamination scenarios, alongside two real-world applications involving health-related count data. The results show that the proposed variants outperform the traditional Negative Binomial model in terms of stability and estimation accuracy, particularly in the presence of extreme values. This research introduces a flexible and resilient strategy for modeling count data under challenging conditions of high variability and outliers.
Descripción
Palabras clave
Análisis de regresión--Modelos matemáticos, Estadística robusta, Dispersión (Matemáticas), Distribución binomial negativa
Citación
Colecciones
item.page.endorsement
item.page.review
item.page.supplemented
item.page.referenced
Licencia Creative Commons
Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/openAccess
