Estadística

Permanent URI for this collectionhttp://98.81.228.127/handle/20.500.12404/757

Browse

Search Results

Now showing 1 - 7 of 7
  • Thumbnail Image
    Item
    Aprendizaje estadístico supervisado con máquina de soporte vectorial
    (Pontificia Universidad Católica del Perú, 2024-02-26) Falcón Cisneros, Sergio Daniel; Véliz Capuñay, Carlos Nilberto
    Actualmente las organizaciones recolectan datos en grandes volúmenes y de fuentes muy variadas. Para dar sentido y convertir los datos en información útil es necesario utilizar técnicas que permitan encontrar y entender las relaciones ocultas en los datos. Generalmente, la relación que nos interesa estudiar es cómo predecir un evento utilizando un conjunto de variables. Sin embargo, muchas veces la relación entre los datos es muy compleja y no puede ser analizada adecuadamente usando las técnicas más conocidas, dado que éstas suelen tener supuestos que no necesariamente se cumplen. Por ello, es importante conocer técnicas de análisis más complejas y flexibles. Esta tesis busca ser un instrumento de ayuda en el aprendizaje y uso de nuevas técnicas para estudiar los datos, lo cual es relevante sobre todo en el medio local en el que este tema es poco conocido. Con este objetivo, presenta una revisión introductoria de la teoría del aprendizaje estadístico, la cual provee del marco teórico para que distintos métodos utilicen los datos para aprender, y usando este conocimiento puedan hacer predicciones sobre datos nuevos o diferentes. Luego se centra en un estudio exhaustivo del método de aprendizaje de Máquinas de Soporte Vectorial (SVM por sus siglas en inglés), introduciendo y aplicando las funciones Kernel. Este método se puede entender como una representación de los datos como puntos en el espacio, asignados de tal forma que exista una brecha grande que separe a los elementos diferentes. Finalmente se pone en práctica la teoría estudiada aplicando el método SVM a datos de clientes de una entidad financiera. Esta entidad financiera usa predominantemente técnicas de aprendizaje estadístico simples y con varios supuestos; particularmente usa una de estas técnicas en un modelo que predice la propensión a la compra y persistencia del producto Seguro de Protección de Tarjetas. Por ello, la presente tesis se centra en aplicar el método SVM para construir una alternativa a este modelo.
  • Thumbnail Image
    Item
    Modelamiento bayesiano espacial multivariado para datos de áreas
    (Pontificia Universidad Católica del Perú, 2024-01-19) Lopez Esquivel, Miguel Angel; Quiroz Cornejo, Zaida Jesús
    Las infecciones respiratorias son enfermedades que ingresan a nuestro tracto respiratorio afectando la faringe hasta a los pulmones y según la Organización mundial de salud es la causa más común de muertes en el mundo. En particular, en esta tesis se propone estudiar la relación entre la incidencia de infecciones respiratorias agudas (IRA) y la incidencia de neumonía en el Perú. Por un lado estas variables pueden estar correlacionadas, conforme aumenta el número de casos de una enfermedad también aumenta el de la otra. Por otro lado, si nos enfocamos en la incidencia de estas enfermedades a nivel provincial, esperamos que la incidencia de IRA sea similar en provincias vecinas, lo mismo esperamos que ocurra con la incidencia de neumonía. En este contexto, en esta tesis se propone estudiar la distribución espacial entre la incidencia de IRA y neumonía a nivel provincial en el Perú a través de un modelo espacial multivariado, el cual nos permite estudiar la distribución espacial de dos o más variables correlacionadas entre sí. En particular, se propone aplicar un modelo espacial multivariado con efectos aleatorios condicionales autoregresivos. Para conseguir implementar la inferencia bayesiana del modelo jerárquico espacial multivariado de forma eficiente se propone usar el método de integración aproximada anidada de Laplace (INLA).
  • Thumbnail Image
    Item
    Un modelo Fay-Herriot espacial para la predicción del porcentaje de niños con anemia y riesgo de retraso del crecimiento en distritos no encuestados y en distritos con pocas observaciones disponibles
    (Pontificia Universidad Católica del Perú, 2023-02-24) Haro Abanto, Marcial Eduardo; Sikov, Anna
    La presente tesis tiene como objetivo realizar predicciones del nivel de prevalencia de anemia y riesgo de retraso del crecimiento en niños menores de 5 años, en distritos encuestados con observaciones faltantes y distritos no encuestados con niveles de pobreza mayor a 55% del país, con datos de la Encuesta Demográfica de Salud Familiar (ENDES) para el año 2019 y el censo nacional del 2017. Para alcanzar este objetivo se hace uso del modelo Fay-Herriot y su variante espacial. Este modelo permite obtener estimaciones fiables en dominios en los cuales el diseño muestral no tiene un nivel de inferencia aceptable. El uso de variables auxiliares obtenidas del censo a nivel de distrito permite implementar el modelo Fay- Herriot, obteniendo predicciones con un error de estimación menor a las estimaciones muestrales. En el caso de la variante espacial del modelo Fay-Herriot, este incluye correlaciones entre los efectos aleatorios de áreas vecinas. Además, se estima el error cuadrático medio de las predicciones obtenidas mediante los métodos de bootstrap paramétrico y no paramétrico. Los resultados muestran que los distritos de los departamentos de Puno, Cusco y Huancavelica tienen indicadores de anemia en niños menores de 5 años que superan el 48.5% en tanto que los distritos de los departamentos de Puno, Huancavelica y Tacna tienen indicadores de riesgo de retraso del crecimiento en niños menores de 5 años por encima del 45.5 %.
  • Thumbnail Image
    Item
    Método para la fusión de categorías usando técnicas de agrupamiento
    (Pontificia Universidad Católica del Perú, 2022-04-28) Farro Diaz, Victor Daniel; Bayes Rodriguez, Cristian Luis
    En la actualidad, muchas organizaciones disponen o tienen acceso a una gran cantidad y variedad de datos que les permiten tomar decisiones acordes en temas económicos, sociales, de educación, de salud, entre otros. Con frecuencia, los estudios que se realizan se enfocan en el objetivo de explicar una variable de interés utilizando un conjunto de variables explicativas; y si la relación de dependencia es lineal, se le conoce como modelo de regresión lineal. Los modelos de regresión lineal presentan su principal reto en la estimación de los parámetros de la regresión, que se consiguen a partir de la información obtenida mediante el análisis de las observaciones de una muestra previamente recogida. La complejidad de los modelos de regresión lineal aumenta con la existencia de covariables que son medidas en una escala nominal u ordinal, y que en muchas ocasiones presentan una gran cantidad de categorías, como por ejemplo: estado civil, grupo sanguíneo, entre otros. Lo habitual para modelar el efecto total de una covariable categórica es definir una categoría (o nivel) como línea base y utilizar variables ficticias para las otras categorías (o niveles). La presente tesis tiene como principal objetivo el desarrollo del método de fusión de efectos de covariables categóricas usando técnicas de agrupamiento PAM, propuesto por Malsiner-Walli, Pauger y Wagner (2018), y aplicarlo en un conjunto de datos reales relacionados a los ingresos monetarios de la población de Lima Metropolitana y Callao del primer trimestre del 2020.
  • Thumbnail Image
    Item
    Redes neuronales convolucionales para datos composicionales: Una aplicación a la industria textil de la moda
    (Pontificia Universidad Católica del Perú, 2022-04-07) Cotacallapa Amanqui, Pavel Arturo; Benites Sanchez, Luis Enrique
    En muchas situaciones prácticas es necesario el uso de modelos que puedan predecir una colección de datos limitados por un intervalo cuya suma sea una constante por cada unidad estadística. Este tipo de variable respuesta se conoce como datos composicionales. Por otro lado, el número de covariables que se usan para el entrenamiento de este tipo de modelos pueden provenir de datos asociados a imágenes como la intensidad de los pixeles. En ese contexto, se propone el uso de las redes neuronales convolucionales como una primera alternativa para intentar estimar este tipo de variable respuesta. Se utiliza la distribución de Dirichlet como distribución condicional de los datos y nalmente se propone una aplicación del modelo utilizando imágenes de prendas de vestir que se venden por catálogo en donde el objetivo es predecir las participaciones de las tallas que se venden por cada unidad estadística.
  • Thumbnail Image
    Item
    Modelos de regresión a la media con efectos mixtos para variable respuesta semicontinua
    (Pontificia Universidad Católica del Perú, 2021-09-01) Bautista Bautista, Luis Alberto; Valdivieso Serrano, Luis Hilmar
    En muchas situaciones se dispone de una variable aleatoria continua no negativa con asimetría positiva que eventualmente podría tomar el valor cero. Datos de esta naturaleza son llamados semicontinuos o cero-inflacionados y fueron tradicionalmente modelados usando el modelo de regresión de dos partes propuesto por Duan et al. (1983). En este modelo la variable respuesta sigue una distribución mixta de probabilidades conformada por una distribución de Bernoulli y una distribución continua no negativa. Una versión longitudinal de este modelo de regresión, pero que apunta a explicar la media de la variable de respuesta, fue propuesto por Smith et al. (2017). Este modelo planteaba, para su componente continua de respuesta, una distribución Log Skew Normal. El objetivo de este trabajo es estudiar un modelo alternativo al de Smith et al. (2017), que llamaremos, en general, un modelo de regresión a la media con efectos mixtos para respuestas semicontinuas, pues plantea una parametrización que permite estimar e interpretar los efectos de un conjunto de covariables sobre la media de las respuestas y no sobre la media condicionada a valores positivos. A diferencia del modelo de Smith et al. (2017), que hace uso de la distribución Log Skew Normal cero-inflacionada, nosotros modelaremos la respuesta con una distribución Gamma Generalizada cero-inflacionada. Este modelamiento, como se muestra, permite capturar de manera flexible ciertas características de los datos de respuesta, tales como, la asimetría y el comportamiento de las colas. Los resultados del estudio de simulación para el nuevo modelo mostraron un adecuado desempeño en la recuperación de sus parámetros, donde para la estimación de estos utilizamos un enfoque bayesiano y el uso de métodos MCMC Hamiltonianos. Por último, los resultados de su aplicación en el estudio longitudinal del efecto que ciertas variables podrán ejercer sobre la media de los gastos en educación de los hogares en el Perú, mostraron un mejor ajuste a los datos respecto al modelo de Smith et al. (2017), en base a los criterios de información ampliamente aplicado y de validación cruzada de Leave-one-out.
  • Thumbnail Image
    Item
    Modelamiento del tiempo a la ocurrencia de un evento con tiempos discretos
    (Pontificia Universidad Católica del Perú, 2021-01-18) Huertas Quispe, Anthony Enrique; Bayes Rodríguez, Cristian Luis
    En este trabajo de tesis, se plantea estudiar el tiempo a la ocurrencia de un evento en un proceso discreto. Para ello, se considera un modelo mixtura de fracción de cura sobre una población segmentada en dos tipos de individuos: sujetos curados, o también denominados sobrevivientes a largo plazo, haciendo referencia a aquellos sujetos que no alcanzarán el evento de interés en estudio; y sujetos no curados, o también denominados sujetos susceptibles, quienes en un tiempo específico, experimentarán dicho evento de interés. Los objetivos principales de esta tesis, son el de estimar la fracción de cura, la cual está definida como la proporción de individuos curados al final del estudio, y estimar el tiempo de falla para los individuos susceptibles, entendiéndose como el tiempo a la ocurrencia del evento. Este análisis se llevará a cabo con la presencia de covariables y datos censurados, siendo la simulación e inferencia de los datos efectuados vía el software estadístico R, en donde los procesos de simulación abordarán distintos escenarios para evaluar la performance del modelo propuesto.