Modelos de regresión robusta para datos de conteo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Pontificia Universidad Católica del Perú

Acceso al texto completo solo para la Comunidad PUCP

Resumen

En esta tesis se propone un nuevo modelo, denominado Regresión Binomial Negativa con Mixtura en la Dispersión (NB-H), como una alternativa robusta para el análisis de datos de conteo caracterizados por sobredispersión y presencia de valores atípicos. La propuesta se basa en la introducción de una estructura de mixtura en el parámetro de dispersión de la distribución Binomial Negativa, lo que permite que el modelo sea menos sensible a observaciones extremas, preservando así la estructura general de los datos. Se presentan dos formulaciones específicas, denominadas NB-G y NB-IG, que emplean distribuciones Gamma e Inversa Gamma, respectivamente, como componentes de mezcla. Se adopta un enfoque bayesiano para la estimación de los parámetros, utilizándose simulaciones de cadenas de Markov Monte Carlo (MCMC) implementadas en el lenguaje Stan. Se realiza un estudio de simulación para evaluar la robustez del modelo frente a diferentes escenarios de contaminación, así como dos aplicaciones prácticas con datos reales provenientes del ámbito de salud. Los resultados muestran que las variantes propuestas presentan mejor desempeño respecto al modelo de Regresión Binomial Negativa tradicional en términos de estabilidad y precisión, especialmente en presencia de observaciones atípicas. Esta investigación aporta una estrategia robusta y flexible para el modelado de datos de conteo, capaz de adaptarse a contextos con alta variabilidad y presencia de valores extremos.
This thesis proposes a new model, referred to as Negative Binomial Regression with Mixture in the Dispersion (NB-H), as a robust alternative for analyzing count data affected by overdispersion and the presence of outliers. The proposed approach incorporates a mixture structure in the dispersion parameter of the Negative Binomial distribution, making the model less sensitive to extreme observations, thereby preserving the overall data structure. Two specific formulations are developed: NB-G and NB-IG, which use Gamma and Inverse Gamma distributions, respectively, as mixing components. A Bayesian approach is adopted for parameter estimation, using Markov Chain Monte Carlo (MCMC) simulations implemented in the Stan programming language. A simulation study is performed to evaluate the robustness of the model under various contamination scenarios, alongside two real-world applications involving health-related count data. The results show that the proposed variants outperform the traditional Negative Binomial model in terms of stability and estimation accuracy, particularly in the presence of extreme values. This research introduces a flexible and resilient strategy for modeling count data under challenging conditions of high variability and outliers.

Descripción

Palabras clave

Análisis de regresión--Modelos matemáticos, Estadística robusta, Dispersión (Matemáticas), Distribución binomial negativa

Citación

Colecciones

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons

Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/openAccess