Estadística

Permanent URI for this collectionhttps://hdl.handle.net/20.500.12404/757

Browse

Search Results

Now showing 1 - 10 of 10

Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
(Pontificia Universidad Católica del Perú, 2023-08-31) Zegarra López, Ángel Christopher; Benites Sánchez, Luis Enrique
Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021.
Inferencia bayesiana aproximada del modelo espacio-temporal usando NNGP
(Pontificia Universidad Católica del Perú, 2023-08-23) Benites Alfaro, Omar Eduardo; Quiroz Cornejo, Zaida Jesús
Los modelos espacio-temporales nos permiten estudiar la distribución espacial de una variable en el tiempo. Por ejemplo, se puede estudiar la distribución espacial del material particulado en un país a través de los años, dado que las concentraciones de material particulado en estaciones cercanas pueden ser similares y la concentración en una estación en un año puede depender de la concentración en la misma estación el año anterior anterior. En esta tesis se propone usar un modelo espacio-temporal a través del proceso gaussiano de vecinos más cercanos. Para implementar este modelo y aplicarlo en grandes bases de datos se propone usar inferencia bayesiana a través del método de integración aproximada de Laplace (INLA). La bondad de ajuste del modelo y su eficiencia se estudia a través de simulaciones. Finalmente se aplica el modelo implementado a una base de datos reales.
Endpoint-inflated beta-binomial regression for correlated count data
(Pontificia Universidad Católica del Perú, 2021-03-29) Fazio Luna, Boris Manuel; Sal y Rosas Celi, Víctor Giancarlo
El modelo de regresión binomial con in acción en los extremos permite modelar datos de conteo acotados en los que una alta proporción de las observaciones se encuentra en los extremos. Extendemos el modelo considerando una función de enlace de logit ordenado, la cual aprovecha la información de orden implícita en las probabilidades de in acción y exploramos el uso de efectos aleatorios y marginalización para manejar la presencia de observaciones repetidas. Empleamos un conjunto de datos previamente analizado en la literatura mediante un modelo de regresión binomial con in acción en los extremos que emplea el enlace softmax para mostrar el mejor ajuste logrado por nuestro modelo.
Combinación de reglas de portafolio con la asignación 1/N y la ponderada por capitalización bursátil
(Pontificia Universidad Católica del Perú, 2016-11-23) Rodríguez Alcócer, Augusto Fernando; Valdivieso Serrano, Luis Hilmar
La teoría del portafolio estudia el proceso a través del cual se realiza la asignación óptima de activos. El análisis Media - Varianza (MV) propone que los agentes estructuran portafolios de inversión optimizando el retorno esperado o el riesgo. Así, fijando el nivel deseado de una de estas variables, es posible elaborar una frontera eficiente compuesta por portafolios óptimos. Sin embargo, si bien el análisis MV ha sido trabajado de manera extensa presenta una limitación: los parámetros reales no son conocidos sino estimados a partir de la observación de datos. Ello incorpora el problema de incertidumbre en la modelación, por lo que las reglas de portafolio óptimo están sujetas a errores aleatorios que pueden generar que los parámetros estimados se alejen de los reales. El objetivo del presente trabajo es revisar dicho análisis bajo el enfoque de reglas de portafolio, y si existe la posibilidad de reducir el riesgo de estimación a través de la combinación de las reglas con el portafolio de pesos iguales y con el portafolio ajustado por capitalización bursátil. Para la programación se utiliza el paquete estadístico R - project. Los resultados sugieren que la combinación de las reglas con los dos portafolios seleccionados puede mejorar los resultados fuera de muestra esperados y que bajo ciertas circunstancias, combinar con el portafolio de capitalización bursátil puede ser más eficiente que con el portafolio de pesos iguales.
Un enfoque de credibilidad bajo espacios de Hilbert y su estimación mediante modelos lineales mixtos
(Pontificia Universidad Católica del Perú, 2013-04-08) Ruíz Arias, Raúl Alberto; Valdivieso Serrano, Luis Hilmar
La teoría de la credibilidad provee un conjunto de métodos que permiten a una compañía de seguros ajustar las primas futuras, sobre la base de la experiencia pasada individual e información de toda la cartera. En este trabajo presentaremos los principales modelos de credibilidad utilizados en la práctica, como lo son los modelos de Bühlmann (1967), Bühlmann-Straub (1970), Jewell (1975) y Hachemeister (1975), todos ellos analizados en sus propiedades desde un punto de vista geométrico a través de la teoría de espacios de Hilbert y en su estimación mediante el uso de los modelos lineales mixtos. Mediante un estudio de simulación se mostrará la ventaja de utilizar este último enfoque de estimación.
Inferencia bayesiana en el modelo de regresión spline penalizado con una aplicación a los tiempos en cola de una agencia bancaria
(Pontificia Universidad Católica del Perú, 2013-04-08) Huaraz Zuloaga, Diego Eduardo; Bayes Rodríguez, Cristian Luis
En diversos campos de aplicación se requiere utilizar modelos de regresión para analizar la relación entre dos variables. Cuando esta relación es compleja, es difícil modelar los datos usando técnicas paramétricas tradicionales, por lo que estos casos requieren de la flexibilidad de los modelos no paramétricos para ajustar los datos. Entre los diferentes modelos no paramétricos está la regresión spline penalizada, que puede ser formulada dentro de un marco de modelos lineales mixtos. De este modo, los programas computacionales desarrollados originalmente para la inferencia clásica y Bayesiana de modelos mixtos pueden ser utilizados para estimarlo. La presente tesis se centra en el estudio de la inferencia Bayesiana en el modelo de regresión spline penalizado. Para lograr esto, este trabajo proporciona un marco teórico breve de este modelo semiparamétrico y su relación con el modelo lineal mixto, la inferencia Bayesiana de este modelo, y un estudio de simulación donde se comparan la inferencia clásica y Bayesiana en diferentes escenarios considerando diversos valores del n umero de nodos, tamaños de muestra y niveles de dispersión en la data simulada. Finalmente, en base a los resultados del estudio de simulación, el modelo se aplica para estimar el tiempo de espera en cola de los clientes en agencias bancarias con el fin de calcular la capacidad de personal óptima bajo determinadas metas de nivel de servicio.
Análisis de votos electorales usando modelos de regresión para datos de conteo
(Pontificia Universidad Católica del Perú, 2013-04-08) Contreras Vilca, Norma; Bazán Guzmán, Jorge Luis
Se presentan dos modelos de regresión para datos de conteo: el modelo de regresión Poisson y modelo de regresión Binomial Negativa dentro del marco de los Modelos Lineales Generalizados. Los modelos son aplicados inicialmente a un conjunto de datos conocido como ((The Aircraft Damage)) presentado en Montgomery (2006) referido al número de daños en las aeronaves durante la guerra de Vietnam. La principal aplicación de este trabajo sería el análisis de los votos obtenidos por el candidato Ollanta Humala Tasso en los resultados de las ((Elecciones Generales y Parlamento Andino 2011)), analizamos los datos de la primera vuelta a nivel de regiones considerando diversos predictores. Ambos conjunto de datos, presentan sobredispersión, esto es una varianza mayor que la media, bajo estas condiciones el modelo de Regresión Binomial Negativa resulta m as adecuado que el modelo de Regresión Poisson. Adicionalmente, se realizaron estudios de diagnósticos que confirman la elección del modelo Binomial Negativa como el más apropiado para estos datos.
Modelos de regresión binaria Skew probit para el calculo de probabilidad de default en el ámbito del sistema financiero
(Pontificia Universidad Católica del Perú, 2013-02-05) Pantoja Marin, Luis; Bazán Guzmán, Jorge Luis
La presente investigación se fundamenta en el uso o aplicación de Modelos Skew Probit con enlace asimétrico desde un enfoque Bayesiano. Los modelos a usar incorporan la posibilidad de usar enlaces asimétricos para estimar la probabilidad de y i =1 en muestras no balanceadas (alta proporción de ceros y por ende pequeña proporción de unos). La formulación general de esto modelos es debida a Bazán, Bolfarine y Branco (2010). Aunque en estos modelos inicialmente su computación es complicada se usaron Cadenas de Markov por Monte Carlo (MCMC) o muestreo Gibbs (para la aplicación de estos procedimientos ver Carlin y Polson, 1992) que hacen simple la formulación del modelo y por tanto simple su implementación usando el software WinBugs (los códigos de los diferentes modelos utilizados fueron obtenidos en el programa BRMUW propuesto por Bazán y Bayes, 2010). De acuerdo al análisis y estudio de aplicación realizado sobre una muestra de clientes de préstamos pertenecientes a una entidad micro financiera, aquellos modelos Skew Probit BBB y Estándar presentan los mejores indicadores de eficiencia. El análisis sobre datos reales señala que el modelo tradicional Probit presenta un 56.6% (371/664) de mala clasificación versus los modelos Estándar y BBB que en promedio muestran dicho indicador alrededor de 43% (290/664). El análisis mediante curvas COR (Receiver Operating Characteristic) ratifica lo mencionado; el área debajo de las curvas superan el 0.74 de 1 para el modelo BBB, mientras que dicho dato es de 0.70 para el caso del modelo simétrico tradicional probit. Por tanto la sensibilidad y especificidad (eficiencia) es mayor para aquellos modelos Skew Probit (mejor modelo BBB). Dentro de los modelos con Enlaces Asimétricos los modelos (SP) BBB y Estándar son los que presentan mejores indicadores de ajuste e información as__ como mejoran la sensibilidad y especificidad de un determinado modelo. Finalmente, se pretende la sistematización de la propuesta a nivel de la entidad micro financiera y su aplicación en la estimación de la probabilidad de default de créditos pero aplicado en todos los tipos de créditos.
Modelos testlet logísticos y logísticos de exponente positivo para pruebas de compresión de textos
(Pontificia Universidad Católica del Perú, 2012-08-16) Flores Ari, Sandra Elizabeth; Bazán Guzmán, Jorge Luis
Los modelos de Teoría de Respuesta al Item (TRI) para datos binarios multivariados, permiten estimar una medida latente (de habilidad) a partir de información observada, que puede ser respuestas dicotómicas (de éxito y fracaso) a un conjunto de ítems de una determinada prueba. Uno de los supuestos críticos en los modelos TRI es la independencia condicional de los ítems, que permite el cálculo directo de la verosimilitud del modelo. En muchas situaciones de evaluación este supuesto no se cumple, como es el caso de pruebas de comprensión de textos, en la que se presenta un texto y luego varias preguntas relacionadas con ese texto. Este tipo de estructuras son denominadas como testlets. Bradlow et al. (1999) desarrollaron una parametrización adicional para recoger el efecto de esta dependencia. A partir de este trabajo se presenta el modelo Testlet logístico y se propone el modelo Testlet logístico de exponente positivo (2LPET), que es una extensión del modelo LPE propuesto por Samejima (1999) y Bazan y Bolfarine (2010) y considera enlaces asimétricos. Se desarrollaron varios estudios de simulación en los que se muestra que cuando se tiene testlets, los modelos Testlet recuperan mejor los parámetros respecto a los modelos TRI. Finalmente se realizó una aplicación con datos del Ministerio de Educación, específicamente con los resultados de la prueba de comprensión de textos de la Evaluación Censal de Estudiantes (ECE) dirigido a estudiantes de segundo grado de primaria, en un conjunto de escuelas de Lima metropolitana. De los resultados obtenidos se concluye que los modelos TRI sobreestiman la medida de habilidad respecto a los modelos Testlets y además la información de la prueba es mejor distribuida por el modelo propuesto.
El análisis de correspondencias conjunto y múltiple ajustado
(Pontificia Universidad Católica del Perú, 2012-08-15) Saavedra López, Ricardo Elías; Valdivieso Serrano, Luis Hilmar
Esta tesis presenta una revisión de los fundamentos teóricos de dos de las más recientes extensiones de la técnica estadística conocida como análisis de correspondencia (AC): el análisis de correspondencia conjunto (ACC) y el análisis de correspondencia múltiple ajustado (ACMA); y muestra una aplicación práctica de éstas a una encuesta de egresados de la Pontificia Universidad Católica del Perú. El análisis de correspondencia simple (ACS) es el primer alcance del análisis de correspondencias y se presenta cuando cada categoría de una variable se describe en función de la dependencia existente de los valores de otra única variable. Su extensión a más de 2 variables es conocida como el análisis de correspondencia múltiple (ACM). Si bien se puede encontrar literatura sobre el ACS y el ACM, es importante destacar que el ACC y el ACMA han sido poco difundidos, encontrándose escasa literatura sobre el tema, más aún, en nuestro idioma. Por lo tanto, se hace necesaria una revisión de las dos primeras a modo de contexto y una presentación metodológica y detallada de las dos últimas. Con la aplicación práctica se pretende obtener una representación de las facultades de los egresados de la PUCP en función del ingreso en su primer empleo relacionado con la formación recibida en la universidad y la percepción del grado de desarrollo de la competencia de comunicación recibida en la universidad. Esta aplicación consistiría en aplicar los 4 métodos descritos, comparándolos mediante nuevas técnicas que permiten reproducir las tablas de contingencia originales a partir de las representaciones obtenidas por los métodos indicados.

Estadística

Browse

Filters

Settings

Sort By

Results per page

Search Results