Estadística
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/757
Browse
31 results
Search Results
Item Modelos de regresión con mixtura de escala Gaussiana bajo regularización bayesiana(Pontificia Universidad Católica del Perú, 2024-09-09) Urbano Burgos, Alejandrina Margarita; Valdivieso Serrano, Luis HilmarLa presente tesis busca estudiar las propiedades, estimación y aplicación a dos conjuntos de datos reales de diversas técnicas de regularización bayesiana sobre un modelo de regresión lineal múltiple con mixtura de escala Gaussiana, modelo que incluye al de una regresión logística. Estas técnicas de regresión penalizada bayesiana plantean distribuciones a priori que realizan la penalización, introduciendo el concepto de esparcidad, el cual se refiere al hecho de que solo un reducido número de variables tengan valores distintos de cero en sus coeficientes de regresión; es decir, es una especie de truncamiento de coeficientes llevados a cero que produce a su vez modelos más manejables e interpretables. De particular interés en este trabajo, fue la comparación de las técnicas de regularización bajo penalización y las derivadas de introducir las prioris de Horseshoe y de Horseshoe + a los coeficientes de regresión del modelo. Mostrando en la presente tesis, de manera explícita, cómo realizar un muestreo de Gibbs para la estimación de estos modelos, detallando no solo las distribuciones condicionales completas necesarias; sino también como es posible, mediante el uso del paquete bayesreg de R, optimizar algunas de estas propuestas de muestreo.Item Modelo de regresión lineal usando una mixtura de distribuciones senh-normal(Pontificia Universidad Católica del Perú, 2023-09-27) Palomino Ore, Roussel Simpson; Benites Sánchez, Luis EnriqueLa distribución Senohiperbólico-Normal, denominada también como una variación de la distribución Birnbaum-Saunders, surgió inicialmente para estimar el deterioro en la calidad de los materiales sujetos a estrés. Asimismo, los modelos de mixtura han suscitado considerable interés en el campo de estadística debido a que permiten lidiar con situaciones en las que el comportamiento de los errores de un modelo con ajuste lineal se aleja significativamente de la normalidad. Esta tesis aborda los dos temas mencionados mediante la presentación de un modelo de ajuste lineal usando una mixtura de distribuciones Senohiperbólico Normal o Log-Birnbaum-Saunders. Esta propuesta es una familia versátil de distribuciones de probabilidad que posibilita representar datos que presentan multimodalidad además de provenir de poblaciones heterogéneas. Para conseguir los estimadores de máxima verosimilitud se emplea el algoritmo EM con maximización condicional. Asimismo, se llevan a cabo estudios de simulación y análisis de conjuntos de datos reales para demostrar la utilidad del método propuesto. Por último, se implementa la propuesta del algoritmo y los métodos en el software R.Item M-Splines baseline hazard approximation for the proportional hazard model with right censored data(Pontificia Universidad Católica del Perú, 2023-07-20) Juarez García, Omar Alejandro; Sal Y Rosas Celi, Victor GiancarloThe proportional hazard model plays a fundamental role in the analysis of time-to-event data. In this thesis, we conduct a simulation study to evaluate the performance of M-splines to estimate the baseline cumulative hazard function for the proportional hazard model. We assess the effect of sample size and number of knots in the estimation process. Finally, we apply this method to a sample of students from a university where the event of interest is the payment on time of the last tuition fee.Item Modelo de regresión lineal con censura basado en una mixtura finita de una distribución normal asimétrica(Pontificia Universidad Católica del Perú, 2023-05-29) Yábar Geldres, Ingrid Alicia; Benites Sánchez, Luis EnriqueEl presente trabajo de tesis propone estudiar el modelo de regresión lineal con censura basado en una mixtura finita de una distribución normal asimétrica (NA), con adaptación a diferente número de componentes. Este enfoque permite modelar datos continuos con gran flexibilidad, acomodando simultáneamente multimodalidad, colas pesadas y asimetría, dependiendo de la estructura de los componentes de la mixtura. Se implementa un algoritmo de tipo EM analíticamente manejable y eficiente para calcular iterativamente las estimaciones de máxima verosimilitud de los parámetros, mediante aproximaciones estocásticas (SAEM). El algoritmo propuesto tiene algunas expresiones cerradas en el paso-E, por lo que la obtención de los errores estándar se da por el método Bootstrap. Asimismo, se realiza un estudio de simulación con el fin de evaluar si el método propuesto permite recuperar los parámetros del modelo mediante el uso del algoritmo SAEM. Por otro lado, se realiza la aplicación del modelo propuesto para el estudio de la participación en la fuerza laboral de las mujeres casadas usando la base de datos de la Universidad de Michigan (Mroz, 1987). Como segunda aplicación se utiliza un conjunto de datos de clientes que entraron en campaña en una entidad financiera local con el fin de estimar sus ingresos.Item Regresión beta usando cópulas gaussianas para analizar series de tiempo(Pontificia Universidad Católica del Perú, 2023-01-11) Cajavilca Gonzales, Ana Rosa; Quiroz Cornejo, Zaida JesúsEste trabajo presenta una alternativa para analizar series de tiempo que se encuentran restringidas al intervalo (0; 1). Se detalla el modelo propuesto Masarotto y Varin (2012) y Guolo y Varin (2014), el cual permite capturar los efectos producidos por covariables a través de una regresión beta y adicionalmente, con el empleo de cópulas permite modelar la dependencia temporal mediante un proceso de autorregresivo de medias móviles. Como ventaja de la aplicación de este modelo se tiene que evita la necesidad de transformar la variable dependiente, así como también evita someterla al cumplimiento de diversos supuestos como los de normalidad y estacionariedad. Además, permite diferenciar los efectos de las covariables y de la dependencia temporal, lo cual coadyuva a mejorar el análisis de los resultados. Se realizó una aplicación a la tasa de desempleo desde enero de 2003 hasta octubre de 2019 en Lima Metropolitana y debido a la distribución que presenta esta variable se usó un modelo de regresión beta usando cópulas gaussianas. Para la estimación se incluyó el logaritmo del índice del PBI, así como un componente de estacionalidad anual como covariables y para tomar en cuenta la dependencia temporal se incorporó un proceso autorregresivo de medias móviles ARMA(1; 1) a través de una cópula gaussiana.Item Modelo de regresión robusta con censura intervalar(Pontificia Universidad Católica del Perú, 2023-01-10) Aliaga Flores, Luis Carlos; Bayes Rodriguez, Cristian LuisEl presente trabajo de tesis propone el modelo de regresion log t de Student, el cual permite modelar variables respuesta que presentan censura intervalar y se muestra robusto frente a la presencia de observaciones atípicas. Luego, se desarrolla aquí un estudio de simulacion clásico, con el n de analizar la sensibilidad frente a distintos niveles de valores atípicos. Finalmente, se desarrolla la aplicacion del modelo para la estimación de las demoras en órdenes de compras de los proveedores de las empresas en el Perú, concluyendo que el modelo propuesto en esta tesis tiene un mejor ajuste a los datos en comparación con el modelo Log Normal.Item Modelo de regresión cuantílica para respuestas positivas con censura intervalar(Pontificia Universidad Católica del Perú, 2022-03-21) Manrique Urbina, Justo Andrés; Bayes Rodriguez, Cristian LuisLa presente tesis propone un modelo de regresi on cuant lica en d onde la variable es no negativa y posee censura intervalar, es decir que esta no es directamente observable, y la unica informaci on que se conoce sobre ella es que se encuentra en cierto intervalo. Para evaluar si la metodolog a de estimaci on captura adecuadamente los par ametros poblacionales desde el punto de vista de la inferencia cl asica, se desarrolla un estudio de simulaci on. Finalmente, se aplica el modelo a los datos de la Encuesta Nacional de Satisfacci on de Salud ejecutada el a~no 2015. La estructura del modelo permite evaluar los factores relacionados al sueldo de los profesionales en salud (el cual hab a sido censurado desde el proceso de recolecci on de datos). El presente modelo es una extensi on al modelo de regresi on de censura intervalar expuesto en Sal y Rosas et al. (2019), pues eval ua los factores subyacentes a una variable respuesta a lo largo de sus cuantiles.Item Fusión de efectos para modelos de regresión con respuesta positiva bajo un enfoque bayesiano(Pontificia Universidad Católica del Perú, 2022-01-10) Dongo Román, Andie Bryan; Bayes Rodriguez, Cristian LuisEl presente trabajo tiene como objetivo adaptar el modelo bayesiano para fusión de efectos presentado por Pauger y Wagner (2019), de tal manera que sea adecuado para modelos de regresión con respuesta positiva bajo una distribución gamma. El modelo plantea como distribución a priori de los coeficientes de cada covariable cualitativa a una normal multivariada, deducida a partir de una distribución a priori spike y slab para la diferencia de cada par de efectos, cuya matriz de precisión permite conocer qué niveles pueden fusionarse. La estructura de la matriz de precisión depende de un hiperparámetro que permite estimar las probabilidades de fusión a posteriori entre cada par de niveles, con las cuales se pueden agrupar aquellos niveles con efectos similares mediante la función de pérdida de Binder. La estimación a posteriori del modelo es realizada con métodos MCMC utilizando el programa JAGS en R. Se aplicó la metodología a un conjunto de datos reales extraído de la Encuesta Nacional de Hogares (ENAHO) del año 2019, donde se pudo verificar la existencia de una brecha salarial por etnicidad en los entrevistados de la macro región sur del Perú. Así mismo, se incluyó en el caso aplicativo a la interacción entre los efectos de la etnicidad y el sexo, revelándose que la brecha por género existente es mayor en la población aymara y en la no indígena, en comparación con la población quechua.Item Modelo de regresión no lineal basado en una mixtura de la distribución senh-normal/independiente en el error(Pontificia Universidad Católica del Perú, 2021-09-22) Ocampo Corrales, Carlos Iván; Benites Sánchez, Luis EnriqueLa distribución normal, si bien útil para explicar la distribución de muchos conjuntos de datos, a veces es inadecuada para ello. En este sentido, en muchos casos es conveniente trabajar con transformaciones de la distribución normal por ejemplo log-normal, Birnbaum- Saunders (BS) y Senh-Normal (SN). En esta tesis se presenta un modelo de regresión no lineal basado en una mixtura finita de distribuciones Senh-Normal/Independiente (SNI) en el error considerando dos casos específicos de esta distribución, SN y Senh-t-Student (SSt), respectivamente. En el contexto de regresión se plantea una metodología de estimación mediante la aplicación del algoritmo EM y también para el cálculo de los errores estándar. Se realizaron estudios de simulación para evaluar las propiedades de las estimaciones. Los resultados muestran que el modelo estima de manera satisfactoria los parámetros, más aún, evaluando el sesgo y el RSME de las estimaciones se observa que el modelo cumple con las propiedades asintóticas de los estimadores de máxima verosimilitud. Asimismo, se realizaron estudios de aplicación tanto para el modelo SN como SSt.Item Modelos de regresión a la media con efectos mixtos para variable respuesta semicontinua(Pontificia Universidad Católica del Perú, 2021-09-01) Bautista Bautista, Luis Alberto; Valdivieso Serrano, Luis HilmarEn muchas situaciones se dispone de una variable aleatoria continua no negativa con asimetría positiva que eventualmente podría tomar el valor cero. Datos de esta naturaleza son llamados semicontinuos o cero-inflacionados y fueron tradicionalmente modelados usando el modelo de regresión de dos partes propuesto por Duan et al. (1983). En este modelo la variable respuesta sigue una distribución mixta de probabilidades conformada por una distribución de Bernoulli y una distribución continua no negativa. Una versión longitudinal de este modelo de regresión, pero que apunta a explicar la media de la variable de respuesta, fue propuesto por Smith et al. (2017). Este modelo planteaba, para su componente continua de respuesta, una distribución Log Skew Normal. El objetivo de este trabajo es estudiar un modelo alternativo al de Smith et al. (2017), que llamaremos, en general, un modelo de regresión a la media con efectos mixtos para respuestas semicontinuas, pues plantea una parametrización que permite estimar e interpretar los efectos de un conjunto de covariables sobre la media de las respuestas y no sobre la media condicionada a valores positivos. A diferencia del modelo de Smith et al. (2017), que hace uso de la distribución Log Skew Normal cero-inflacionada, nosotros modelaremos la respuesta con una distribución Gamma Generalizada cero-inflacionada. Este modelamiento, como se muestra, permite capturar de manera flexible ciertas características de los datos de respuesta, tales como, la asimetría y el comportamiento de las colas. Los resultados del estudio de simulación para el nuevo modelo mostraron un adecuado desempeño en la recuperación de sus parámetros, donde para la estimación de estos utilizamos un enfoque bayesiano y el uso de métodos MCMC Hamiltonianos. Por último, los resultados de su aplicación en el estudio longitudinal del efecto que ciertas variables podrán ejercer sobre la media de los gastos en educación de los hogares en el Perú, mostraron un mejor ajuste a los datos respecto al modelo de Smith et al. (2017), en base a los criterios de información ampliamente aplicado y de validación cruzada de Leave-one-out.