2. Maestría
Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/2
Tesis de la Escuela de Posgrado
Browse
61 results
Search Results
Item Detección de ciberbullying en español para el dominio de corpus de texto teatrales aplicado a redes sociales usando transferencia de aprendizaje y validación adversarial(Pontificia Universidad Católica del Perú, 2024-11-20) Marquez Zavaleta, Esli Samuel; Gómez Montoya, Héctor ErasmoEl aprendizaje de los modelos de detección de ciberbullying en redes sociales depende significativamente del conjunto de datos en cual fue entrenado lo que puede limitar su capacidad de generalización a otros conjuntos de datos. Este estudio propone un enfoque innovador utilizando transferencia de aprendizaje. Se desarrolló un modelo robusto de detección de ciberbullying basado en guiones teatrales, que ofrecen contextos ricos y variados. Para ello, se creó un corpus en español a partir de estos guiones, el cual fue meticulosamente etiquetado por expertos. Posteriormente, el modelo fue entrenado con este corpus para establecer una base de conocimiento que se aplicó luego a otros corpus de redes sociales. Los resultados mostraron una exactitud del 83% en las pruebas realizadas. Complementamos dicho modelo con una validación utilizando ejemplos adversarios, a partir de técnicas de data aumentada generamos más oraciones para fortalecer su capacidad de generalización, mejorando su desempeño tanto en su corpus como en distintos dominios de ciberbullying.Item Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos(Pontificia Universidad Católica del Perú, 2024-10-31) Tarazona Cruz, Luz Silvana; Fonseca Arroyo, Pablo AlejandroEl presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español, logrando una tasa de error de caracteres (character error rate - CER) promedio de 4.11% en el conjunto de validación. Posteriormente, este modelo elaborado se aplica en los manuscritos históricos peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido, ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las imágenes, así como en las características propias de los manuscritos. Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de reconocimiento de imágenes preentrenados para abordar la tarea de HTR en manuscritos históricos, y se identifican áreas para futuras mejoras, como la optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la exploración de modelos avanzados con la arquitectura Transformer.Item Gestión de riesgos de seguridad de información, bajo el estándar ISO/IEC 27005:2022, aplicando ontologías de dominio(Pontificia Universidad Católica del Perú, 2024-10-07) Santos Llanos, Daniel Elías; Brossard Núñez, Ian Paul; Beltrán Castañón, César ArmandoEl proceso de gestión de riesgos, en el dominio específico de la seguridad de información, es una labor compleja pero necesaria para prevenir eventos adversos que perjudiquen a las organizaciones. Bien por obligaciones regulatorias o porque se requiere propiciar el logro de los objetivos estratégicos, la gestión de riesgos de seguridad de información (GRSI) se ha convertido en un proceso necesario y recurrente. El desarrollo de una GRSI se fundamenta en normas locales e internacionales que establecen protocolos, actividades y criterios, que establecen diversos conceptos que guardan relaciones complejas en sus términos y taxonomías. En consecuencia, se requieren especialistas experimentados para ejecutar este proceso de manera competente. Esto, a su vez, ocasiona que los resultados de este proceso estén intrínsecamente expuestos a la subjetividad e influencia de las personas que lo realizan. En esta tesis se propone e implementa un proceso de gestión de riesgos de seguridad de información, basado en una ontología de dominio, cuyo corpus está basado en los términos establecidos en los estándares ISO de seguridad de información, las normas técnicas peruanas afines y otras regulaciones internacionales relacionadas. Como resultado de la investigación aplicada se ha comprobado que es posible estructurar los conceptos y taxonomías sobre los dominios de gestión de riesgos y seguridad de la información, en una ontología integrada. Esta ha sido implementada, para guiar y automatizar, mediante una solución informática, la ejecución de una GRSI, de manera que se han mitigado la subjetividad y los errores de consistencia en los resultados de este proceso.Item Mapeo sistemático de la literatura sobre el proceso de construcción de software empleando DevOps(Pontificia Universidad Católica del Perú, 2024-09-24) Valladares Peña, Giusephy Hugo; Quispe Vilchez, Eder RamiroDevOps se define como un conjunto prácticas que aplican una cultura de colaboración entre el área de desarrollo y operaciones, para ello se forman equipos multidisciplinarios, cuyo objetivo es aportar valor añadido al producto software en el menor tiempo posible. Además, en DevOps se realizan procesos de desarrollo a partir de metodologías agiles con fases iterativas que permiten una mejor calidad en los procesos de integración y entrega continua denominados CI/CD. Por este motivo nos vemos en la necesidad de enfocarnos en el proceso de construcción de software empleando DevOps. El objetivo del presente trabajo es identificar y clasificar las publicaciones sobre procesos de construcción de software empleando DevOps. Se presenta como resultado del trabajo realizado, que se han encontrado inicialmente 900 artículos de investigación, de los cuales al ser depurados utilizando los criterios de exclusión e inclusión, se han obtenido finalmente 110 artículos de investigación, de esta manera se presentan las estadísticas de artículos por año, país, tipo de publicación, procesos, practicas, herramientas y la calidad sobre procesos de construcción de software empleando DevOps y, por tanto, se puede concluir que el año 2022 se obtuvo la mayor cantidad de artículos sobre el tema en investigación con un porcentaje de 21.8%. Se puede comprobar que Estados Unidos y la India son los países con mayor cantidad de publicaciones con 11.8% y 9.1% respectivamente, seguidos de China y Brasil quienes presentan 8.2% y 7.3% respectivamente.Item Mapeo sistemático sobre la implementación de software usando plataformas de desarrollo Low-Code(Pontificia Universidad Católica del Perú, 2024-09-23) Huasacca Quispe, Luis Alberto; Cohn Muroy, Dennis StephenAutores señalan que existen muy pocas investigaciones que realizan mapeos y revisiones sistemáticas, y muchas de ellas no siguen un método de investigación riguroso. Prinz et al. [1] realizó una revisión de literatura, recabó información de 32 artículos primarios publicados entre 2017 y 2020, clasi ca la visión actual de las Plataformas de desarrollo Low-Code (bajo código). Rokis et al. [2] realizó una revisión de literatura para identi car los desafíos que tienen las plataformas de bajo código y/o sin código, se organizaron en 7 fases ágiles del desarrollo de software análisis de requisitos, planeamiento, diseño, desarrollo, pruebas, despliegue y mantenimiento, analizó 23 artículos primarios publicados entre 2019 2021. Pinho et al. [3] presenta una revisión de literatura donde revisa plataformas Low-Code, plataformas No-Code y la usabilidad de estas, evaluó 38 artículos primarios. El objetivo de esta investigación es realizar un estudio de mapeo sistemático sobre distintas investigaciones respecto a la implementación de software usando plataformas de desarrollo Low-Code. Se realizó un mapeo sistemático de la literatura sobre las bases de datos: Scopus, IEEE, Web of Science y ACM Digital, se evaluaron 47 artículos primarios. Los resultados muestran a las Plataformas de desarrollo Low-Code identi cadas, las características, las áreas de la organización que utilizan estas plataformas que son en su mayoría el Área de Compras y el Área de Ventas. Así mismo se han identi cado las ventajas y desventajas del uso de las LCDP como por cada una de ellas. También se ha identi cado que se desarrollan aplicaciones web y móvil como principales tipos de aplicación.Item Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español(Pontificia Universidad Católica del Perú, 2024-09-18) Cabrera Díaz, Daniel Alonso; Sobrevilla Cabezudo, Marco AntonioEsta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.Item Revisión sistemática de la literatura sobre comparativa de los estilos arquitectónicos SOA y microservicios en entornos de desarrollo ágil(Pontificia Universidad Católica del Perú, 2024-09-18) Gereda Hernandez, Davis; Cohn Muroy, Dennis Stephen(ANTECEDENTES) La búsqueda de arquitecturas eficientes y adaptables ha sido constante en el desarrollo de software, destacando la Arquitectura Orientada a Servicios (SOA) por su capacidad para integrar aplicaciones mediante servicios independientes y reutilizables. Con el avance tecnológico y la necesidad de sistemas escalables y ágiles, han surgido los microservicios, que dividen aplicaciones en partes más pequeñas con contextos y funcionalidades propias, promoviendo modularidad y facilidad de desarrollo. Comparar SOA y microservicios es esencial para entender sus diferencias, ventajas y desventajas en entornos ágiles, y para elegir el enfoque adecuado según los objetivos del proyecto. (OBJETIVOS) El objetivo es analizar comparativamente SOA y microservicios en entornos de desarrollo ágil, identificando sus contribuciones, similitudes, diferencias, problemas y soluciones. (MÉTODOS) Se realizó una revisión sistemática de la literatura en bases de datos digitales relevantes. (RESULTADOS) Se recuperaron 135 estudios, y luego del proceso de selección, se obtuvieron 30 estudios primarios los cuales permitieron dar respuesta a las preguntas planteadas en la presente investigación. Las conferencias es el medio de publicación que presenta mayor número de publicaciones con 19 estudios (63%), seguido de artículos con 8 estudios (27%) y finalmente las revisiones con 3 estudios (10%). (CONCLUSIONES) Se puede concluir que las similitudes entre SOA y microservicios se dan principalmente en aspectos como interoperabilidad, orientación a servicios, acoplamiento, reutilización y computación distribuida. De igual manera sus diferencias se encuentran en la composición del servicio, autonomía, tamaño, granularidad, comunicación, escalabilidad y gestión de datos.Item Desarrollo de un algoritmo de Instance Placement en nubes privadas que soporte cargas de Alta Performance(Pontificia Universidad Católica del Perú, 2024-09-04) Córdova Alvarado, Rubén Francisco; Santiváñez Guarniz, César Augusto; Beltrán Castañón, César ArmandoEl aumento de la capacidad computacional ha permitido el uso cada vez mayor de métodos computacionales para resolver problemas complejos de diferentes áreas, logrando tal incremento en la eficiencia y productividad que se dice que hemos empezado una nueva revolución industrial (la era del conocimiento). En esta nueva era, el uso de aplicaciones de alta, High-Performance Computing en inglés (HPC), es cada vez más común. Una forma de utilizar de manera eficiente los recursos computacionales es desplegar estas aplicaciones sobre recursos compartidos (paradigma de computo en la nube, sea esta pública o privada) en lugar de asignarlos a servidores de manera exclusiva, lo que puede resultar en tiempos muertos en el uso de alguno o todos los recursos. El problema de decidir la mejor forma de compartir recursos asignados a servidores ya sea como máquinas virtuales (VMs), contenedores, o en modo dedicado (bare metal) es llamado el problema de Instance Placement, y es fundamental para la performance de una plataforma de computo en la nube. El subproblema que se presenta cuando ya se decidió una asignación via VMs es el de VM Placement. El problema de Instance Placement es actualmente un problema abierto debido a que la solución online requiere el conocimiento no sólo de las demandas actuales y sus parámetros, sino también de las demandas futuras. Como un primer acercamiento a una solución, esta tesis busca diseñar e implementar un algoritmo de Offline Instance Placement donde el conjunto de demandas, su inicio y duración, así como sus estadísticas de uso son conocidas. El algoritmo busca asignar –de la mejor manera posible– los recursos de cómputo a instancias en una nube privada, considerando el tipo de carga a la que estas pertenecen y su nivel de servicio. Debido a que OpenStack es una de las soluciones más empleadas para nubes privadas, se toma como referencia el scheduler de OpenStack para comparar la utilidad de el algoritmo propuesto. Luego de realizar las pruebas, se obtuvo que el scheduler propuesto presenta una mayor utilidad que el scheduler de OpenStack para distintos tipos de cargas.Item Marco de trabajo para el desarrollo de proyectos de analítica de datos(Pontificia Universidad Católica del Perú, 2024-08-09) Olivera Cokan, César Alberto; Bello Ruiz, Alejandro Toribio; Pow Sang Portillo, José AntonioEl desarrollo de proyectos de analítica de datos en las organizaciones requiere de procesos bien definidos para su éxito. Existen procesos estándar de analítica de datos, como CRISP-DM, que han tenido una amplia adopción en las últimas décadas. Sin embargo, mediante una búsqueda sistemática de la literatura se ha podido evidenciar que muchas de las organizaciones a menudo no aplican CRISP-DM o procesos similares, como SEMMA y KDD, tal como están, sino que muchos de ellas adaptan estos marcos de trabajo para abordar requerimientos específicos en diversos contextos de la industria. Además, según estos estudios se evidencia que un grupo considerable de empresas emplea Scrum u otros marcos de trabajo para el desarrollo de software con el fin de llevar a cabo sus proyectos de analítica de datos, lo cual no es correcto pues estos marcos de trabajo no abordan las particularidades de un ciclo de vida de una solución analítica. Si bien CRISPDM es el marco de trabajo para analítica de datos más empleado, este mismo posee un conjunto de falencias enfocadas en diversos casos de uso o procesos de negocio que ha llevado a muchas organizaciones a adaptar este marco a sus necesidades. Hasta ahora no se ha sugerido ninguna adaptación que permita abordar las falencias que los diferentes dominios en la industria poseen. Este artículo aborda la propuesta del diseño de un marco de trabajo para proyectos de analítica de datos general denominado GEN-DA (Generic Data Analytics framework por sus siglas en inglés). GEN-DA extiende y modifica CRISP-DM para solucionar las diferentes falencias encontradas en la literatura y lograr un ciclo de vida del proyecto de analítica de datos que pueda ser empleado en todos los contextos de la industria. Este marco de trabajo ha sido diseñado y evaluado de forma iterativa empleando una metodología en ciencias del diseño gracias a la participación de expertos en analítica de datos mediante el método de validación por Juicio Experto. Los resultados obtenidos son alentadores y habilita la factibilidad de emplear este marco propuesto en un entorno real, cuyos resultados, se presume, que serán satisfactorios.Item Aprendizaje profundo para transcripción de textos históricos manuscritos en español(Pontificia Universidad Católica del Perú, 2024-07-16) Choque Dextre, Gustavo Jorge; Beltrán Castañón, Cesar ArmandoEl reconocimiento de textos historicos es considerado un problema desafiante debido a los muchos factores que ´ alteran el estado de los manuscritos y la complejidad de los diferentes estilos de escritura involucrados en este tipo de documentos; en los anos recientes se han creado muchos modelos de Reconocimiento de textos manuscritos ˜ enfocados en diversos idiomas como el ingles, chino, ´ arabe y japon ´ es entre otros, sin embargo no se han ´ encontrado muchas iniciativas de reconocimiento de texto orientadas al idioma espanol debido fundamentalmente ˜ a un escasez de datasets publicos disponibles para ayudar a solucionar la problem ´ atica en dicho idioma. ´ En esta publicacion se presenta la aplicaci ´ on de t ´ ecnicas de Deep Learning basadas en una arquitectura de ´ red neuronal encoder-decoder y convoluciones compuerta Gated-CNN las cuales en los ultimos ha demostrado ´ resultados sobresalientes para resolver dicha problematica, as ´ ´ı mismo se propone la aplicacion de mecanismos de ´ Transferencia de Aprendizaje para el reconocimiento de textos historicos en espa ´ nol. Los experimentos demuestran ˜ que la aplicacion de estos m ´ etodos puede brindar resultados sobresalientes, adem ´ as la aplicaci ´ on de otras t ´ ecnicas ´ tales como Aumentacion de Datos y Modelos de Lenguaje conllevan a mejoras significativas en los resultados finales. ´ Se propone ademas el uso de un nuevo dataset de textos hist ´ oricos en espa ´ nol conformado por 1000 elementos ˜ tomados de textos historicos peruanos referentes al siglo XVIII.