Estadística
Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/757
Browse
Search Results
Item Modelo de regresión no lineal basado en una mixtura de la distribución senh-normal/independiente en el error(Pontificia Universidad Católica del Perú, 2021-09-22) Ocampo Corrales, Carlos Iván; Benites Sánchez, Luis EnriqueLa distribución normal, si bien útil para explicar la distribución de muchos conjuntos de datos, a veces es inadecuada para ello. En este sentido, en muchos casos es conveniente trabajar con transformaciones de la distribución normal por ejemplo log-normal, Birnbaum- Saunders (BS) y Senh-Normal (SN). En esta tesis se presenta un modelo de regresión no lineal basado en una mixtura finita de distribuciones Senh-Normal/Independiente (SNI) en el error considerando dos casos específicos de esta distribución, SN y Senh-t-Student (SSt), respectivamente. En el contexto de regresión se plantea una metodología de estimación mediante la aplicación del algoritmo EM y también para el cálculo de los errores estándar. Se realizaron estudios de simulación para evaluar las propiedades de las estimaciones. Los resultados muestran que el modelo estima de manera satisfactoria los parámetros, más aún, evaluando el sesgo y el RSME de las estimaciones se observa que el modelo cumple con las propiedades asintóticas de los estimadores de máxima verosimilitud. Asimismo, se realizaron estudios de aplicación tanto para el modelo SN como SSt.Item Modelos de regresión a la media con efectos mixtos para variable respuesta semicontinua(Pontificia Universidad Católica del Perú, 2021-09-01) Bautista Bautista, Luis Alberto; Valdivieso Serrano, Luis HilmarEn muchas situaciones se dispone de una variable aleatoria continua no negativa con asimetría positiva que eventualmente podría tomar el valor cero. Datos de esta naturaleza son llamados semicontinuos o cero-inflacionados y fueron tradicionalmente modelados usando el modelo de regresión de dos partes propuesto por Duan et al. (1983). En este modelo la variable respuesta sigue una distribución mixta de probabilidades conformada por una distribución de Bernoulli y una distribución continua no negativa. Una versión longitudinal de este modelo de regresión, pero que apunta a explicar la media de la variable de respuesta, fue propuesto por Smith et al. (2017). Este modelo planteaba, para su componente continua de respuesta, una distribución Log Skew Normal. El objetivo de este trabajo es estudiar un modelo alternativo al de Smith et al. (2017), que llamaremos, en general, un modelo de regresión a la media con efectos mixtos para respuestas semicontinuas, pues plantea una parametrización que permite estimar e interpretar los efectos de un conjunto de covariables sobre la media de las respuestas y no sobre la media condicionada a valores positivos. A diferencia del modelo de Smith et al. (2017), que hace uso de la distribución Log Skew Normal cero-inflacionada, nosotros modelaremos la respuesta con una distribución Gamma Generalizada cero-inflacionada. Este modelamiento, como se muestra, permite capturar de manera flexible ciertas características de los datos de respuesta, tales como, la asimetría y el comportamiento de las colas. Los resultados del estudio de simulación para el nuevo modelo mostraron un adecuado desempeño en la recuperación de sus parámetros, donde para la estimación de estos utilizamos un enfoque bayesiano y el uso de métodos MCMC Hamiltonianos. Por último, los resultados de su aplicación en el estudio longitudinal del efecto que ciertas variables podrán ejercer sobre la media de los gastos en educación de los hogares en el Perú, mostraron un mejor ajuste a los datos respecto al modelo de Smith et al. (2017), en base a los criterios de información ampliamente aplicado y de validación cruzada de Leave-one-out.Item Modelo de regresión lineal con censura basado en una distribución senh-normal/independiente: una perspectiva frecuentista(Pontificia Universidad Católica del Perú, 2021-08-20) Alonzo Huaman, Max Walter; Benites Sánchez, Luis EnriqueEn esta tesis se estudia el modelo de regresión lineal para datos censurados considerando una distribución senh-normal/independiente para los errores desde un enfoque frecuentista. Este trabajo considera la revisión de la teoría existente, la construcción del nuevo modelo, estimación de parámetros, estudios de simulación para recuperar los parámetros del modelo y la aplicación a un conjunto de datos reales.Item Inferencia bayesiana en un modelo de regresión cuantílica autorregresivo(Pontificia Universidad Católica del Perú, 2021-06-14) Quintos Choy, Manuel Alejandro; Bayes Rodríguez, Cristian LuisEl modelo de regresión cuantílica autorregresivo permite modelar el cuantil condicional de una serie de tiempo a partir de los rezagos de la serie. En el presente trabajo se presenta la estimación de este modelo desde la perspectiva bayesiana asumiendo que los errores se distribuyen según la distribución asimétrica de Laplace (ALD). Luego, el proceso de generación de muestras de la distribución a posteriori es simplificado utilizando una representación estocástica de la ALD propuesta por Kotz et al. (2001) y el algoritmo de datos aumentados de Tanner y Wong (1987), siguiendo la propuesta de Kozumi y Kobayashi (2011), así como las adaptaciones para el modelamiento de series de tiempo de Cai et al. (2012) y Liu y Luger (2017). Los estudios de simulación demuestran que el supuesto sobre la distribución del término error no es limitante para estimar el cuantil condicional de series de tiempo con otras distribuciones. El modelo es aplicado en la predicción del Valor en Riesgo (VaR) en la serie de tiempo de los retornos diarios de la tasa de cambio de PEN a USD, y sus resultados son comparados con las predicciones obtenidas por las metodologías RiskMetrics, GARCH(1,1) y CAVIaR. Al respecto, la evidencia numérica permite concluir que el modelo QAR es una alternativa válida para estimar el VaR.Item Modelo de regresión semiparamétrico robusto(Pontificia Universidad Católica del Perú, 2021-05-11) Esquivel Segura, Henry John; Bayes Rodríguez, Cristian LuisEl presente trabajo de tesis presenta un modelo de regresión semiparamétrico con errores t-Student, que permite estudiar el comportamiento de una variable dependiente dado un conjunto de variables explicativas cuando los supuestos de linealidad y normalidad no se cumplen. La estimación de los parámetros se realiza bajo el enfoque bayesiano a través del algoritmo de Gibbs. En el estudio de simulación se observa que el modelo propuesto es más robusto ante la presencia de valores atípicos que el usual modelo regresión semiparamétrico normal. Asimismo se presenta una aplicación con datos reales para ilustrar esta característica.Item Modelo de regresión Dirichlet bayesiano: aplicación para estimar la prevalencia del nivel de anemia infantil en centros poblados del Perú(Pontificia Universidad Católica del Perú, 2021-03-29) Andrade Chávez, Francisco Mauricio; Quiroz Cornejo, Zaida JesúsLa anemia es una afección causada por un bajo nivel de hemoglobina en la sangre causada principalmente por un déficit en el consumo de hierro. En el Perú, es un problema de salud pública y nutrición principalmente en niñas y niños menores de cinco años, por ello el Instituto Nacional de Estadística (INEI) realiza una prueba para determinar anemia en niñas y niños a través de la Encuesta Demográfica y de Salud Familiar (ENDES). En esta encuesta se clasifica los niveles de anemia como severa si es menor a 7,0 g/dl, moderada si está entre 7,0 y 9,9 g/dl o leve si varía entre 10,0 y 11,9 g/dl. En este contexto, en esta tesis se propone aplicar el modelo de regresión de Dirichlet para estimar la prevalencia de los niveles de anemia infantil a nivel de centros poblados en el año 2017. Se propone estimar los parámetros usando inferencia bayesiana, a través del método Halmitoniano de Monte Carlo (HMC) usando Rstan. El modelo propuesto también permite identificar posibles factores determinantes de la prevalencia de la anemia infantil y tiene el propósito de mejorar las políticas públicas dirigidas a la reducción de la anemia en el país.Item Endpoint-inflated beta-binomial regression for correlated count data(Pontificia Universidad Católica del Perú, 2021-03-29) Fazio Luna, Boris Manuel; Sal y Rosas Celi, Víctor GiancarloEl modelo de regresión binomial con in acción en los extremos permite modelar datos de conteo acotados en los que una alta proporción de las observaciones se encuentra en los extremos. Extendemos el modelo considerando una función de enlace de logit ordenado, la cual aprovecha la información de orden implícita en las probabilidades de in acción y exploramos el uso de efectos aleatorios y marginalización para manejar la presencia de observaciones repetidas. Empleamos un conjunto de datos previamente analizado en la literatura mediante un modelo de regresión binomial con in acción en los extremos que emplea el enlace softmax para mostrar el mejor ajuste logrado por nuestro modelo.Item Aplicación del modelo de espacio de estados con errores correlacionados a la tasa de desempleo en Perú(Pontificia Universidad Católica del Perú, 2021-02-25) Visa Flores, Rafael; Sikov, AnnaEn este trabajo se presenta los modelos de espacio de estados con errores correlacionados, propuesto por Pfeffermann y Tiller (2006), aplicado a datos reales de la tasa de desempleo para Lima Metropolitana, cuya información es recolectada mediante la Encuesta Permanente del Empleo - EPE por el Instituto Nacional de Estadística e Informática. Estos modelos permiten dar tratamiento a series de tiempo con errores de medición correlacionados, la estimación de los componentes del modelo se realiza mediante el algoritmo recursivo de Pfeffermann y Tiller, y cuando los errores son independientes se utiliza el algoritmo recursivo del filtro de Kalman. Se realizó un estudio de simulación con series de tiempo con errores correlacionados con el objetivo de comparar las predicciones obtenidas con el algoritmo del filtro de Kalman y el algoritmo de Pfeffermann y Tiller, resultando este último con menores errores de predicción. Con la finalidad de comparar la aplicación del modelo de espacio de estados con errores correlacionados con una metodología muy conocida como el desarrollado por Box and Jenkins, se ajustó los datos de la tasa de desempleo a un modelo ARIMA, se comparó las predicciones de ambos modelos con las verdaderas observaciones, donde los errores de las predicciones fueron similares, sin embargo, el menor error cuadrático medio se obtuvo con el modelo de espacio de estados con errores correlacionados.Item Modelamiento del tiempo a la ocurrencia de un evento con tiempos discretos(Pontificia Universidad Católica del Perú, 2021-01-18) Huertas Quispe, Anthony Enrique; Bayes Rodríguez, Cristian LuisEn este trabajo de tesis, se plantea estudiar el tiempo a la ocurrencia de un evento en un proceso discreto. Para ello, se considera un modelo mixtura de fracción de cura sobre una población segmentada en dos tipos de individuos: sujetos curados, o también denominados sobrevivientes a largo plazo, haciendo referencia a aquellos sujetos que no alcanzarán el evento de interés en estudio; y sujetos no curados, o también denominados sujetos susceptibles, quienes en un tiempo específico, experimentarán dicho evento de interés. Los objetivos principales de esta tesis, son el de estimar la fracción de cura, la cual está definida como la proporción de individuos curados al final del estudio, y estimar el tiempo de falla para los individuos susceptibles, entendiéndose como el tiempo a la ocurrencia del evento. Este análisis se llevará a cabo con la presencia de covariables y datos censurados, siendo la simulación e inferencia de los datos efectuados vía el software estadístico R, en donde los procesos de simulación abordarán distintos escenarios para evaluar la performance del modelo propuesto.Item Métodos de selección de variables bajo el enfoque bayesiano para el modelo lineal normal(Pontificia Universidad Católica del Perú, 2021-01-18) Blas Oyola, Sthip Frank; Bayes Rodríguez, Cristian LuisEn muchos casos prácticos, al realizar un análisis de regresión, se cuenta con un gran número de potenciales variables explicativas de las cuáles sólo algunas serán importantes para explicar la variable respuesta. Por lo tanto, un problema importante para la construcción de un modelo de regresión es encontrar un adecuado conjunto de variables explicativas. A los métodos que lidian con este problema se les denomina métodos de selección de variables. En el presente proyecto de tesis, se estudiarán tres métodos de selección de variables bajo inferencia bayesiana para el modelo de regresión lineal normal los cuales fueron propuestos por George y McCulloch (1993), Kuo y Mallick (1998) y Dellaportas et al. (2002). Estos métodos, a diferencia de los métodos tradicionales, consideran la selección de variables dentro del mismo modelo, por ejemplo, introduciendo variables latentes que indiquen la presencia o ausencia de una variable explicativa. Se realizaron comparaciones de estos métodos bayesianos con los métodos Lasso y Stepwise por ser los más tradicionales. A través de un estudio con datos simulados, en diversos escenarios se observa que los métodos bayesianos permiten una adecuada selección de las variables explicativas. Adicionalmente se presentan los resultados de una aplicación con datos reales.