Estadística
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/757
Browse
36 results
Search Results
Item Modelos de regresión con mixtura de escala Gaussiana bajo regularización bayesiana(Pontificia Universidad Católica del Perú, 2024-09-09) Urbano Burgos, Alejandrina Margarita; Valdivieso Serrano, Luis HilmarLa presente tesis busca estudiar las propiedades, estimación y aplicación a dos conjuntos de datos reales de diversas técnicas de regularización bayesiana sobre un modelo de regresión lineal múltiple con mixtura de escala Gaussiana, modelo que incluye al de una regresión logística. Estas técnicas de regresión penalizada bayesiana plantean distribuciones a priori que realizan la penalización, introduciendo el concepto de esparcidad, el cual se refiere al hecho de que solo un reducido número de variables tengan valores distintos de cero en sus coeficientes de regresión; es decir, es una especie de truncamiento de coeficientes llevados a cero que produce a su vez modelos más manejables e interpretables. De particular interés en este trabajo, fue la comparación de las técnicas de regularización bajo penalización y las derivadas de introducir las prioris de Horseshoe y de Horseshoe + a los coeficientes de regresión del modelo. Mostrando en la presente tesis, de manera explícita, cómo realizar un muestreo de Gibbs para la estimación de estos modelos, detallando no solo las distribuciones condicionales completas necesarias; sino también como es posible, mediante el uso del paquete bayesreg de R, optimizar algunas de estas propuestas de muestreo.Item Aplicación de un modelo de riesgos competitivos bayesiano(Pontificia Universidad Católica del Perú, 2024-03-05) Saavedra Palacios, Erick Dennis; Sal Y Rosas Celi, Victor GiancarloEn el presente trabajo se presenta y discute el modelo de riesgos competitivos bayesiano propuesto por Vallejos y Steel (2017). Dentro del análisis se incluyó un estudio de simulación en donde se comparó los resultados de aplicar el modelo frecuentista con respecto al bayesiano, confirmando la eficiencia de este último con respecto al anterior. Finalmente, se aplicó este modelo a la base de datos de alumnos ingresantes a la Pontificia Universidad Católica del Perú entre los años 2004 a 2012. El resultado de la aplicación mostró como única variable significativa a si el alumno ingreso por la primera opción con respecto al haber ingresado por la vía tradicional la cual aumentaba la probabilidad de graduación y reducía la probabilidad de abandono.Item Modelamiento bayesiano espacial multivariado para datos de áreas(Pontificia Universidad Católica del Perú, 2024-01-19) Lopez Esquivel, Miguel Angel; Quiroz Cornejo, Zaida JesúsLas infecciones respiratorias son enfermedades que ingresan a nuestro tracto respiratorio afectando la faringe hasta a los pulmones y según la Organización mundial de salud es la causa más común de muertes en el mundo. En particular, en esta tesis se propone estudiar la relación entre la incidencia de infecciones respiratorias agudas (IRA) y la incidencia de neumonía en el Perú. Por un lado estas variables pueden estar correlacionadas, conforme aumenta el número de casos de una enfermedad también aumenta el de la otra. Por otro lado, si nos enfocamos en la incidencia de estas enfermedades a nivel provincial, esperamos que la incidencia de IRA sea similar en provincias vecinas, lo mismo esperamos que ocurra con la incidencia de neumonía. En este contexto, en esta tesis se propone estudiar la distribución espacial entre la incidencia de IRA y neumonía a nivel provincial en el Perú a través de un modelo espacial multivariado, el cual nos permite estudiar la distribución espacial de dos o más variables correlacionadas entre sí. En particular, se propone aplicar un modelo espacial multivariado con efectos aleatorios condicionales autoregresivos. Para conseguir implementar la inferencia bayesiana del modelo jerárquico espacial multivariado de forma eficiente se propone usar el método de integración aproximada anidada de Laplace (INLA).Item Inferencia bayesiana aproximada del modelo espacio-temporal usando NNGP(Pontificia Universidad Católica del Perú, 2023-08-23) Benites Alfaro, Omar Eduardo; Quiroz Cornejo, Zaida JesúsLos modelos espacio-temporales nos permiten estudiar la distribución espacial de una variable en el tiempo. Por ejemplo, se puede estudiar la distribución espacial del material particulado en un país a través de los años, dado que las concentraciones de material particulado en estaciones cercanas pueden ser similares y la concentración en una estación en un año puede depender de la concentración en la misma estación el año anterior anterior. En esta tesis se propone usar un modelo espacio-temporal a través del proceso gaussiano de vecinos más cercanos. Para implementar este modelo y aplicarlo en grandes bases de datos se propone usar inferencia bayesiana a través del método de integración aproximada de Laplace (INLA). La bondad de ajuste del modelo y su eficiencia se estudia a través de simulaciones. Finalmente se aplica el modelo implementado a una base de datos reales.Item Método para la fusión de categorías usando técnicas de agrupamiento(Pontificia Universidad Católica del Perú, 2022-04-28) Farro Diaz, Victor Daniel; Bayes Rodriguez, Cristian LuisEn la actualidad, muchas organizaciones disponen o tienen acceso a una gran cantidad y variedad de datos que les permiten tomar decisiones acordes en temas económicos, sociales, de educación, de salud, entre otros. Con frecuencia, los estudios que se realizan se enfocan en el objetivo de explicar una variable de interés utilizando un conjunto de variables explicativas; y si la relación de dependencia es lineal, se le conoce como modelo de regresión lineal. Los modelos de regresión lineal presentan su principal reto en la estimación de los parámetros de la regresión, que se consiguen a partir de la información obtenida mediante el análisis de las observaciones de una muestra previamente recogida. La complejidad de los modelos de regresión lineal aumenta con la existencia de covariables que son medidas en una escala nominal u ordinal, y que en muchas ocasiones presentan una gran cantidad de categorías, como por ejemplo: estado civil, grupo sanguíneo, entre otros. Lo habitual para modelar el efecto total de una covariable categórica es definir una categoría (o nivel) como línea base y utilizar variables ficticias para las otras categorías (o niveles). La presente tesis tiene como principal objetivo el desarrollo del método de fusión de efectos de covariables categóricas usando técnicas de agrupamiento PAM, propuesto por Malsiner-Walli, Pauger y Wagner (2018), y aplicarlo en un conjunto de datos reales relacionados a los ingresos monetarios de la población de Lima Metropolitana y Callao del primer trimestre del 2020.Item Approximate bayesian inference for directed acyclic graph autoregressive models(Pontificia Universidad Católica del Perú, 2022-02-02) Buendía Narváez, Julio César; Quiroz Cornejo, Zaida JesúsLa prevalencia de enfermedades epidemiológicas recolectadas en áreas geográficamente limitadas, como distritos o provincias, son cruciales para la toma de decisiones en salud pública. Usualmente esta variable respuesta presenta dependencia espacial, es decir, es similar en áreas vecinas, debido a la naturaleza de la enfermedad, clima, nivel económico y cultural, entre otras razones. En este sentido, se proponen modelos espaciales de datos áreas para identificar tendencias y factores asociados a enfermedades epidemiológicas, tomando en cuenta la dependencia espacial entre áreas geográficas. Por lo general, estos modelos ajustan a la dependencia espacial a través de efectos aleatorios derivados a través de grafos. En particular, el modelo autorregresivo de gráfico acíclico dirigido (DAGAR) se basa en un grafo acíclico dirigido y algunos efectos aleatorios \del pasado". Como consecuencia, la matriz de precisión (inversa de la covarianza) del modelo es dispersa. Este modelo tiene una interpretación intuitiva de los parámetros asociados con la dependencia espacial y se puede representar como un modelo gaussiano latente. En este contexto, en esta tesis se propone implementar el modelo DAGAR a través del método de inferencia bayesiano aproximado INLA que es determinista, bastante preciso y eficiente. Dentro de este enfoque, la estimación de datos grandes se puede realizar en segundos o minutos, y permite ajustar los datos con distribución gaussiana o no gaussiana. Finalmente, para mostrar el aporte de esta propuesta, el modelo DAGAR se ajusta a datos reales.Item Fusión de efectos para modelos de regresión con respuesta positiva bajo un enfoque bayesiano(Pontificia Universidad Católica del Perú, 2022-01-10) Dongo Román, Andie Bryan; Bayes Rodriguez, Cristian LuisEl presente trabajo tiene como objetivo adaptar el modelo bayesiano para fusión de efectos presentado por Pauger y Wagner (2019), de tal manera que sea adecuado para modelos de regresión con respuesta positiva bajo una distribución gamma. El modelo plantea como distribución a priori de los coeficientes de cada covariable cualitativa a una normal multivariada, deducida a partir de una distribución a priori spike y slab para la diferencia de cada par de efectos, cuya matriz de precisión permite conocer qué niveles pueden fusionarse. La estructura de la matriz de precisión depende de un hiperparámetro que permite estimar las probabilidades de fusión a posteriori entre cada par de niveles, con las cuales se pueden agrupar aquellos niveles con efectos similares mediante la función de pérdida de Binder. La estimación a posteriori del modelo es realizada con métodos MCMC utilizando el programa JAGS en R. Se aplicó la metodología a un conjunto de datos reales extraído de la Encuesta Nacional de Hogares (ENAHO) del año 2019, donde se pudo verificar la existencia de una brecha salarial por etnicidad en los entrevistados de la macro región sur del Perú. Así mismo, se incluyó en el caso aplicativo a la interacción entre los efectos de la etnicidad y el sexo, revelándose que la brecha por género existente es mayor en la población aymara y en la no indígena, en comparación con la población quechua.Item Identificación de conglomerados espaciales de acuerdo a niveles de morosidad de empresas en el Perú(Pontificia Universidad Católica del Perú, 2021-11-07) Tristán Gómez, Alex Edward; Quiroz Cornejo, Zaida JesúsEl cumplimiento de las obligaciones financieras que tienen las empresas es respaldado por una correcta gestión de riesgo de crédito, esto evita problemas de liquidez y solvencia. Por ello es importante detectar los niveles de riesgo de morosidad en las empresas. La presente tesis tiene como objetivo identifi car conglomerados de provincias del Perú, en funciona de la tasa de incumplimiento de pagos, conocida también como la tasa de morosidad. Para ello se propone un modelamiento en dos niveles. En el primer nivel se usan modelos aglomerativos jerárquicos para seleccionar n conglomerados candidatos a priori, donde el número fi nal de conglomerados se escoge mediante criterios de selección de modelos. Posteriormente, en un segundo nivel, modelaremos el nivel de riesgo haciendo uso del modelo de Poisson y prioris condicionales autoregresivas en base a los conglomerados de nidos en el primer nivel e incluyendo covariables. Los modelos pueden ser reescritos como modelos Gaussianos latentes, y se puede usar inferencia bayesiana para estimar sus parámetros, específicamente a través de la aproximación de Laplace anidada integrada. Finalmente, como resultado de la aproximación se obtienen conglomerados de provincias de acuerdo a sus niveles de morosidad, permitiendo clasi ficar las provincias en conglomerado de alto, medio y bajo nivel de riesgo de morosidad.Item Mixtura finita de una distribución Birnbaum-Saunders basado en la familia de mixtura en parámetros de escala de distribuciones normal asimétrica(Pontificia Universidad Católica del Perú, 2021-10-06) Gavidia Pucllas, Daniel Elías; Benites Sánchez, Luis EnriqueLa presente tesis muestra la distribución mixtura de distribuciones Birnbaum-Saunders basados en mixturas de escala normal asimétrica (MF-BS-MENA). Este modelo es una extensión a la propuesta de Maehara (2018a) para datos unimodales basados en distribuciones con mixtura de escala normal asimétrica utilizada para modelar datos con percentiles extremos y altamente concentrados a la izquierda de la distribución. El modelo propuesto permite modelar datos con dos o más componentes de mixtura de distribuciones asimétricas como la t de Student asimétrica (TA), la Slash asimétrica (SLA), y la normal contaminada asimétrica (NCA). Para estimar los parámetros del modelo propuesto se presenta un método de estimación basado en el algoritmo de maximización condicional de la esperanza (una extensión del algoritmo EM). Además, se desarrollan simulaciones que muestran la precisión de las estimaciones y los errores estándar. Por último, se realizan aplicaciones con un conjunto de datos reales.Item Modelo de regresión no lineal basado en una mixtura de la distribución senh-normal/independiente en el error(Pontificia Universidad Católica del Perú, 2021-09-22) Ocampo Corrales, Carlos Iván; Benites Sánchez, Luis EnriqueLa distribución normal, si bien útil para explicar la distribución de muchos conjuntos de datos, a veces es inadecuada para ello. En este sentido, en muchos casos es conveniente trabajar con transformaciones de la distribución normal por ejemplo log-normal, Birnbaum- Saunders (BS) y Senh-Normal (SN). En esta tesis se presenta un modelo de regresión no lineal basado en una mixtura finita de distribuciones Senh-Normal/Independiente (SNI) en el error considerando dos casos específicos de esta distribución, SN y Senh-t-Student (SSt), respectivamente. En el contexto de regresión se plantea una metodología de estimación mediante la aplicación del algoritmo EM y también para el cálculo de los errores estándar. Se realizaron estudios de simulación para evaluar las propiedades de las estimaciones. Los resultados muestran que el modelo estima de manera satisfactoria los parámetros, más aún, evaluando el sesgo y el RSME de las estimaciones se observa que el modelo cumple con las propiedades asintóticas de los estimadores de máxima verosimilitud. Asimismo, se realizaron estudios de aplicación tanto para el modelo SN como SSt.