Estadística
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/757
Browse
Item A beta inflated mean regression model with mixed effects for fractional response variables(Pontificia Universidad Católica del Perú, 2017-06-20) Fernández Villegas, Renzo; Bayes Rodríguez, Cristian LuisIn this article we propose a new mixed effects regression model for fractional bounded response variables. Our model allows us to incorporate covariates directly to the expected value, so we can quantify exactly the influence of these covariates in the mean of the variable of interest rather than to the conditional mean. Estimation is carried out from a Bayesian perspective and due to the complexity of the augmented posterior distribution we use a Hamiltonian Monte Carlo algorithm, the No-U-Turn sampler, implemented using Stan software. A simulation study for comparison, in terms of bias and RMSE, was performed showing that our model has a better performance than other traditional longitudinal models for bounded variables. Finally, we applied our Beta Inflated mixed-effects regression model to real data which consists of utilization of credit lines in the peruvian financial system.Item An application of discrete time survival models to analyze student dropouts at a private university in Peru(Pontificia Universidad Católica del Perú, 2016-06-20) Pebes Trujillo, Miguel Raúl; Sal y Rosas Celi, Víctor GiancarloDiscrete-time survival models are discussed and applied to the study of which factors are associated with student dropouts at a private university in Lima, Per_u. We studied the characteristics of 26; 790 incoming students enrolled between 2004 and 2012 in all the under-graduate programs at the University. The analysis include the estimation of the survival and hazard functions using the Kaplan-Meier method and the _tting of parametric models using the Cox proportional hazards regression and the Logistic regression for survival analysis, this last one, in order to include time varying variables as predictors. During the period of analysis, the cumulative probability of remain at the University after _ve years was 73.7% [95% CI: 73.1% - 74.4%]. In any period the hazard is greater than 4.4% and this highest value is reached in the 3rd semester. In a multivariate analysis, we found that academic factors (area of study, type of admission, standardized academic performance index, and the percentage of passed credits); economic factors (type of residence, and payment scale); and sociodemographic factors (mother education level, indicators of whether or not parents are alive, and the age of the student) were associated with the risk of dropout.Item Análisis de votos electorales usando modelos de regresión para datos de conteo(Pontificia Universidad Católica del Perú, 2013-04-08) Contreras Vilca, Norma; Bazán Guzmán, Jorge LuisSe presentan dos modelos de regresión para datos de conteo: el modelo de regresión Poisson y modelo de regresión Binomial Negativa dentro del marco de los Modelos Lineales Generalizados. Los modelos son aplicados inicialmente a un conjunto de datos conocido como ((The Aircraft Damage)) presentado en Montgomery (2006) referido al número de daños en las aeronaves durante la guerra de Vietnam. La principal aplicación de este trabajo sería el análisis de los votos obtenidos por el candidato Ollanta Humala Tasso en los resultados de las ((Elecciones Generales y Parlamento Andino 2011)), analizamos los datos de la primera vuelta a nivel de regiones considerando diversos predictores. Ambos conjunto de datos, presentan sobredispersión, esto es una varianza mayor que la media, bajo estas condiciones el modelo de Regresión Binomial Negativa resulta m as adecuado que el modelo de Regresión Poisson. Adicionalmente, se realizaron estudios de diagnósticos que confirman la elección del modelo Binomial Negativa como el más apropiado para estos datos.Item Una aplicación de intervalos de confianza para la mediana de supervivencia en el modelo de regresión de Cox(Pontificia Universidad Católica del Perú, 2015-07-17) Mondragón Arbocco, Jorge Adolfo; Bayes Rodríguez, Cristian LuisEl presente trabajo estudiará el método propuesto por Tze y Zheng (2006) aplicándolo a la obtención de intervalos de confianza para la mediana de supervivencia de líneas móviles de una empresa de telecomunicaciones. Esta metodología se aplicará con el objeto de conocer el riesgo de vida promedio de la línea móvil así como de qué manera inciden las covariables sobre el tiempo hasta el incumplimiento del pago de los clientes de la empresa. Para ello se hará uso de una extensión del modelo de Cox haciendo uso de la estimación máximo verosímil para obtener nuevas estimaciones del vector de parámetros mediante el método bootstrap lo que permita la construcción de los intervalos de confianza para la mediana de supervivencia.Item Una aplicación de la regresión de Cox con puntos de cambio en las covariables(Pontificia Universidad Católica del Perú, 2016-06-20) Trujillo Angeles, Lucía Inés; Doig Camino, ElizabethEl siguiente trabajo de tesis, estudiará el modelo de regresión de Cox con puntos de cambio en las covariables propuesto por Jensen y Lutkebohmert (2008), realizando el desarrollo y la aplicación para una base de líneas móviles postpago. El objetivo es obtener los parámetros de las covariables y el nuevo parámetro en el modelo que es el punto de cambio, para analizar la manera como estas covariables tienen influencia en la desactivación de una línea a solicitud del cliente.Item Endpoint-inflated beta-binomial regression for correlated count data(Pontificia Universidad Católica del Perú, 2021-03-29) Fazio Luna, Boris Manuel; Sal y Rosas Celi, Víctor GiancarloEl modelo de regresión binomial con in acción en los extremos permite modelar datos de conteo acotados en los que una alta proporción de las observaciones se encuentra en los extremos. Extendemos el modelo considerando una función de enlace de logit ordenado, la cual aprovecha la información de orden implícita en las probabilidades de in acción y exploramos el uso de efectos aleatorios y marginalización para manejar la presencia de observaciones repetidas. Empleamos un conjunto de datos previamente analizado en la literatura mediante un modelo de regresión binomial con in acción en los extremos que emplea el enlace softmax para mostrar el mejor ajuste logrado por nuestro modelo.Item Fusión de efectos para modelos de regresión con respuesta positiva bajo un enfoque bayesiano(Pontificia Universidad Católica del Perú, 2022-01-10) Dongo Román, Andie Bryan; Bayes Rodriguez, Cristian LuisEl presente trabajo tiene como objetivo adaptar el modelo bayesiano para fusión de efectos presentado por Pauger y Wagner (2019), de tal manera que sea adecuado para modelos de regresión con respuesta positiva bajo una distribución gamma. El modelo plantea como distribución a priori de los coeficientes de cada covariable cualitativa a una normal multivariada, deducida a partir de una distribución a priori spike y slab para la diferencia de cada par de efectos, cuya matriz de precisión permite conocer qué niveles pueden fusionarse. La estructura de la matriz de precisión depende de un hiperparámetro que permite estimar las probabilidades de fusión a posteriori entre cada par de niveles, con las cuales se pueden agrupar aquellos niveles con efectos similares mediante la función de pérdida de Binder. La estimación a posteriori del modelo es realizada con métodos MCMC utilizando el programa JAGS en R. Se aplicó la metodología a un conjunto de datos reales extraído de la Encuesta Nacional de Hogares (ENAHO) del año 2019, donde se pudo verificar la existencia de una brecha salarial por etnicidad en los entrevistados de la macro región sur del Perú. Así mismo, se incluyó en el caso aplicativo a la interacción entre los efectos de la etnicidad y el sexo, revelándose que la brecha por género existente es mayor en la población aymara y en la no indígena, en comparación con la población quechua.Item Inferencia bayesiana en el modelo de regresión spline penalizado con una aplicación a los tiempos en cola de una agencia bancaria(Pontificia Universidad Católica del Perú, 2013-04-08) Huaraz Zuloaga, Diego Eduardo; Bayes Rodríguez, Cristian LuisEn diversos campos de aplicación se requiere utilizar modelos de regresión para analizar la relación entre dos variables. Cuando esta relación es compleja, es difícil modelar los datos usando técnicas paramétricas tradicionales, por lo que estos casos requieren de la flexibilidad de los modelos no paramétricos para ajustar los datos. Entre los diferentes modelos no paramétricos está la regresión spline penalizada, que puede ser formulada dentro de un marco de modelos lineales mixtos. De este modo, los programas computacionales desarrollados originalmente para la inferencia clásica y Bayesiana de modelos mixtos pueden ser utilizados para estimarlo. La presente tesis se centra en el estudio de la inferencia Bayesiana en el modelo de regresión spline penalizado. Para lograr esto, este trabajo proporciona un marco teórico breve de este modelo semiparamétrico y su relación con el modelo lineal mixto, la inferencia Bayesiana de este modelo, y un estudio de simulación donde se comparan la inferencia clásica y Bayesiana en diferentes escenarios considerando diversos valores del n umero de nodos, tamaños de muestra y niveles de dispersión en la data simulada. Finalmente, en base a los resultados del estudio de simulación, el modelo se aplica para estimar el tiempo de espera en cola de los clientes en agencias bancarias con el fin de calcular la capacidad de personal óptima bajo determinadas metas de nivel de servicio.Item Inferencia bayesiana en un modelo de regresión cuantílica autorregresivo(Pontificia Universidad Católica del Perú, 2021-06-14) Quintos Choy, Manuel Alejandro; Bayes Rodríguez, Cristian LuisEl modelo de regresión cuantílica autorregresivo permite modelar el cuantil condicional de una serie de tiempo a partir de los rezagos de la serie. En el presente trabajo se presenta la estimación de este modelo desde la perspectiva bayesiana asumiendo que los errores se distribuyen según la distribución asimétrica de Laplace (ALD). Luego, el proceso de generación de muestras de la distribución a posteriori es simplificado utilizando una representación estocástica de la ALD propuesta por Kotz et al. (2001) y el algoritmo de datos aumentados de Tanner y Wong (1987), siguiendo la propuesta de Kozumi y Kobayashi (2011), así como las adaptaciones para el modelamiento de series de tiempo de Cai et al. (2012) y Liu y Luger (2017). Los estudios de simulación demuestran que el supuesto sobre la distribución del término error no es limitante para estimar el cuantil condicional de series de tiempo con otras distribuciones. El modelo es aplicado en la predicción del Valor en Riesgo (VaR) en la serie de tiempo de los retornos diarios de la tasa de cambio de PEN a USD, y sus resultados son comparados con las predicciones obtenidas por las metodologías RiskMetrics, GARCH(1,1) y CAVIaR. Al respecto, la evidencia numérica permite concluir que el modelo QAR es una alternativa válida para estimar el VaR.Item Inferencia bayesiana en un modelo de regresión cuantílica semiparamétrico(Pontificia Universidad Católica del Perú, 2015-07-20) Agurto Mejía, Hugo Miguel; Bayes Rodríguez, Cristian LuisEste trabajo propone un Modelo de Regresión Cuantílica Semiparamétrico. Nosotros empleamos la metodología sugerida por Crainiceanu et al. (2005) para un modelo semiparamétrico en el contexto de un modelo de regresión cuantílica. Un enfoque de inferencia Bayesiana es adoptado usando Algoritmos de Montecarlo vía Cadenas de Markov (MCMC). Se obtuvieron formas cerradas para las distribuciones condicionales completas y así el algoritmo muestrador de Gibbs pudo ser fácilmente implementado. Un Estudio de Simulación es llevado a cabo para ilustrar el enfoque Bayesiano para estimar los parámetros del modelo. El modelo desarrollado es ilustrado usando conjuntos de datos reales.Item Jointly modelling of cluster dependent pro les of fractional and binary variables from a Bayesian point of view(Pontificia Universidad Católica del Perú, 2020-10-27) Cortés Tejada, Fernando Javier; Bayes Rodríguez, Cristian LuisEn la presente tesis se proponen modelos de clasificación basados en regresiones beta inflacionadas cero-uno con efectos mixtos para modelar perfiles longitudinales de variables fraccionarias mixtas y variables binarias de forma conjunta con formación de clústeres. Las distintas parametrizaciones de los modelos propuestos permiten modelar distintos efectos, como modelar directamente la media marginal a través de covariables e interpretar fácilmente su efecto sobre ella o modelar la media condicional y las probabilidades de inflación de forma separada. Además, se forman clústeres de grupos de individuos con perfiles longitudinales similares a través de una variable latente, asumiendo que las variables respuesta siguen un modelo de mixtura finita. Debido a la complejidad de los modelos, los parámetros se estiman desde un punto de vista bayesiano, a partir de simulaciones MCMC utilizando el software JAGS en R. Se prueban los modelos propuestos sobre diferentes bases de datos simulados para medir el desempeño de los mismos y se comparan con otros modelos a fin de verificar cual ajusta mejor los perfiles longitudinales de variables fraccionarias mixtas y variables binarias. Por último, se aplican los modelos propuestos a datos reales de un banco peruano, con información del ratio de uso de tarjetas de crédito en el periodo de un año, estado de default del cliente y otras covariables correspondientes al cliente poseedor de la tarjeta, con el objetivo de obtener clústeres de individuos con similar ratio de uso de tarjeta de crédito y relacionarlos con la probabilidad de caer en default que presenta cada grupo.Item M-Splines baseline hazard approximation for the proportional hazard model with right censored data(Pontificia Universidad Católica del Perú, 2023-07-20) Juarez García, Omar Alejandro; Sal Y Rosas Celi, Victor GiancarloThe proportional hazard model plays a fundamental role in the analysis of time-to-event data. In this thesis, we conduct a simulation study to evaluate the performance of M-splines to estimate the baseline cumulative hazard function for the proportional hazard model. We assess the effect of sample size and number of knots in the estimation process. Finally, we apply this method to a sample of students from a university where the event of interest is the payment on time of the last tuition fee.Item Métodos de selección de variables bajo el enfoque bayesiano para el modelo lineal normal(Pontificia Universidad Católica del Perú, 2021-01-18) Blas Oyola, Sthip Frank; Bayes Rodríguez, Cristian LuisEn muchos casos prácticos, al realizar un análisis de regresión, se cuenta con un gran número de potenciales variables explicativas de las cuáles sólo algunas serán importantes para explicar la variable respuesta. Por lo tanto, un problema importante para la construcción de un modelo de regresión es encontrar un adecuado conjunto de variables explicativas. A los métodos que lidian con este problema se les denomina métodos de selección de variables. En el presente proyecto de tesis, se estudiarán tres métodos de selección de variables bajo inferencia bayesiana para el modelo de regresión lineal normal los cuales fueron propuestos por George y McCulloch (1993), Kuo y Mallick (1998) y Dellaportas et al. (2002). Estos métodos, a diferencia de los métodos tradicionales, consideran la selección de variables dentro del mismo modelo, por ejemplo, introduciendo variables latentes que indiquen la presencia o ausencia de una variable explicativa. Se realizaron comparaciones de estos métodos bayesianos con los métodos Lasso y Stepwise por ser los más tradicionales. A través de un estudio con datos simulados, en diversos escenarios se observa que los métodos bayesianos permiten una adecuada selección de las variables explicativas. Adicionalmente se presentan los resultados de una aplicación con datos reales.Item Modelamiento del tiempo a la ocurrencia de un evento con tiempos discretos(Pontificia Universidad Católica del Perú, 2021-01-18) Huertas Quispe, Anthony Enrique; Bayes Rodríguez, Cristian LuisEn este trabajo de tesis, se plantea estudiar el tiempo a la ocurrencia de un evento en un proceso discreto. Para ello, se considera un modelo mixtura de fracción de cura sobre una población segmentada en dos tipos de individuos: sujetos curados, o también denominados sobrevivientes a largo plazo, haciendo referencia a aquellos sujetos que no alcanzarán el evento de interés en estudio; y sujetos no curados, o también denominados sujetos susceptibles, quienes en un tiempo específico, experimentarán dicho evento de interés. Los objetivos principales de esta tesis, son el de estimar la fracción de cura, la cual está definida como la proporción de individuos curados al final del estudio, y estimar el tiempo de falla para los individuos susceptibles, entendiéndose como el tiempo a la ocurrencia del evento. Este análisis se llevará a cabo con la presencia de covariables y datos censurados, siendo la simulación e inferencia de los datos efectuados vía el software estadístico R, en donde los procesos de simulación abordarán distintos escenarios para evaluar la performance del modelo propuesto.Item El modelo de larga duración Exponencial-Poisson(Pontificia Universidad Católica del Perú, 2018-12-03) Gonzales Rodriguez, Julia Elena; Sal y Rosas Celi, Víctor GiancarloEn esta tesis se introducir y estudiar el modelo de supervivencia de larga duración Exponencial-Poisson. Este modelo permite estudiar el tiempo hasta la ocurrencia de un evento de interés cuando se asume que existe una fracción de unidades de la población inmunes a la ocurrencia de este evento. El modelo descrito en esta tesis es un modelo de mixtura que usa la distribución Exponencial-Poisson para modelar el tiempo a la ocurrencia del evento de interés en la sub población suceptible al evento de interés. Además se plantea un modelo de regresión logística sobre la probabilidad de ser inmune al evento de interés. Se realiza un estudio de simulación en el cual a través del sesgo porcentual y cobertura se comprobó la buena performancia del modelo. Finalmente, el modelo es aplicado sobre una muestra de clientes morosos de una entidad del sistema financiero Peruano donde el evento de interés es la cancelación de dicha deuda.Item Modelo de regresión cuantílica para respuestas positivas con censura intervalar(Pontificia Universidad Católica del Perú, 2022-03-21) Manrique Urbina, Justo Andrés; Bayes Rodriguez, Cristian LuisLa presente tesis propone un modelo de regresi on cuant lica en d onde la variable es no negativa y posee censura intervalar, es decir que esta no es directamente observable, y la unica informaci on que se conoce sobre ella es que se encuentra en cierto intervalo. Para evaluar si la metodolog a de estimaci on captura adecuadamente los par ametros poblacionales desde el punto de vista de la inferencia cl asica, se desarrolla un estudio de simulaci on. Finalmente, se aplica el modelo a los datos de la Encuesta Nacional de Satisfacci on de Salud ejecutada el a~no 2015. La estructura del modelo permite evaluar los factores relacionados al sueldo de los profesionales en salud (el cual hab a sido censurado desde el proceso de recolecci on de datos). El presente modelo es una extensi on al modelo de regresi on de censura intervalar expuesto en Sal y Rosas et al. (2019), pues eval ua los factores subyacentes a una variable respuesta a lo largo de sus cuantiles.Item Modelo de regresión de clases latentes: factores asociados a la valoración de una universidad privada(Pontificia Universidad Católica del Perú, 2016-06-20) Wiener Ramos, Lucia; Valdivieso Serrano, Luis HilmarEn diversos campos de análisis, especialmente en las ciencias sociales y humanas, se identifican constructos teóricos a los cuales queremos aproximarnos pero que no son directamente observables ni medibles, como por ejemplo, la calidad o satisfacción con un servicio, el nivel de estrés, el nivel de conocimiento en matemáticas, entre otras. Este tipo de constructos son llamados variables latentes y su valor solo puede ser aproximado a través de variables observadas o manifiestas que si pueden ser medidas (Bartholomew et al., 2011). En el Capítulo 2 se presenta consideraciones generales acerca del modelo lineal general de variables latentes y el modelo de clases latentes. En el Capítulo 3 se estudian los modelos de regresión de clases latentes, la estimación de sus parámetros y su implementación computacional. En el Capítulo 4 se presenta los resultados de la aplicación del modelo a un conjunto de datos reales orientados a conocer la valoración de una universidad privada. En el Capítulo 5 se presenta algunas conclusiones, recomendaciones y futuras extensiones que se podrían derivar de este trabajo.Item Modelo de regresión Dirichlet bayesiano: aplicación para estimar la prevalencia del nivel de anemia infantil en centros poblados del Perú(Pontificia Universidad Católica del Perú, 2021-03-29) Andrade Chávez, Francisco Mauricio; Quiroz Cornejo, Zaida JesúsLa anemia es una afección causada por un bajo nivel de hemoglobina en la sangre causada principalmente por un déficit en el consumo de hierro. En el Perú, es un problema de salud pública y nutrición principalmente en niñas y niños menores de cinco años, por ello el Instituto Nacional de Estadística (INEI) realiza una prueba para determinar anemia en niñas y niños a través de la Encuesta Demográfica y de Salud Familiar (ENDES). En esta encuesta se clasifica los niveles de anemia como severa si es menor a 7,0 g/dl, moderada si está entre 7,0 y 9,9 g/dl o leve si varía entre 10,0 y 11,9 g/dl. En este contexto, en esta tesis se propone aplicar el modelo de regresión de Dirichlet para estimar la prevalencia de los niveles de anemia infantil a nivel de centros poblados en el año 2017. Se propone estimar los parámetros usando inferencia bayesiana, a través del método Halmitoniano de Monte Carlo (HMC) usando Rstan. El modelo propuesto también permite identificar posibles factores determinantes de la prevalencia de la anemia infantil y tiene el propósito de mejorar las políticas públicas dirigidas a la reducción de la anemia en el país.Item Modelo de regresión lineal con censura basado en una distribución senh-normal/independiente: una perspectiva frecuentista(Pontificia Universidad Católica del Perú, 2021-08-20) Alonzo Huaman, Max Walter; Benites Sánchez, Luis EnriqueEn esta tesis se estudia el modelo de regresión lineal para datos censurados considerando una distribución senh-normal/independiente para los errores desde un enfoque frecuentista. Este trabajo considera la revisión de la teoría existente, la construcción del nuevo modelo, estimación de parámetros, estudios de simulación para recuperar los parámetros del modelo y la aplicación a un conjunto de datos reales.Item Modelo de regresión lineal con censura basado en una mixtura finita de una distribución normal asimétrica(Pontificia Universidad Católica del Perú, 2023-05-29) Yábar Geldres, Ingrid Alicia; Benites Sánchez, Luis EnriqueEl presente trabajo de tesis propone estudiar el modelo de regresión lineal con censura basado en una mixtura finita de una distribución normal asimétrica (NA), con adaptación a diferente número de componentes. Este enfoque permite modelar datos continuos con gran flexibilidad, acomodando simultáneamente multimodalidad, colas pesadas y asimetría, dependiendo de la estructura de los componentes de la mixtura. Se implementa un algoritmo de tipo EM analíticamente manejable y eficiente para calcular iterativamente las estimaciones de máxima verosimilitud de los parámetros, mediante aproximaciones estocásticas (SAEM). El algoritmo propuesto tiene algunas expresiones cerradas en el paso-E, por lo que la obtención de los errores estándar se da por el método Bootstrap. Asimismo, se realiza un estudio de simulación con el fin de evaluar si el método propuesto permite recuperar los parámetros del modelo mediante el uso del algoritmo SAEM. Por otro lado, se realiza la aplicación del modelo propuesto para el estudio de la participación en la fuerza laboral de las mujeres casadas usando la base de datos de la Universidad de Michigan (Mroz, 1987). Como segunda aplicación se utiliza un conjunto de datos de clientes que entraron en campaña en una entidad financiera local con el fin de estimar sus ingresos.