2. Maestría
Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/2
Tesis de la Escuela de Posgrado
Browse
19 results
Search Results
Item Detección de ciberbullying en español para el dominio de corpus de texto teatrales aplicado a redes sociales usando transferencia de aprendizaje y validación adversarial(Pontificia Universidad Católica del Perú, 2024-11-20) Marquez Zavaleta, Esli Samuel; Gómez Montoya, Héctor ErasmoEl aprendizaje de los modelos de detección de ciberbullying en redes sociales depende significativamente del conjunto de datos en cual fue entrenado lo que puede limitar su capacidad de generalización a otros conjuntos de datos. Este estudio propone un enfoque innovador utilizando transferencia de aprendizaje. Se desarrolló un modelo robusto de detección de ciberbullying basado en guiones teatrales, que ofrecen contextos ricos y variados. Para ello, se creó un corpus en español a partir de estos guiones, el cual fue meticulosamente etiquetado por expertos. Posteriormente, el modelo fue entrenado con este corpus para establecer una base de conocimiento que se aplicó luego a otros corpus de redes sociales. Los resultados mostraron una exactitud del 83% en las pruebas realizadas. Complementamos dicho modelo con una validación utilizando ejemplos adversarios, a partir de técnicas de data aumentada generamos más oraciones para fortalecer su capacidad de generalización, mejorando su desempeño tanto en su corpus como en distintos dominios de ciberbullying.Item Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español(Pontificia Universidad Católica del Perú, 2024-09-18) Cabrera Díaz, Daniel Alonso; Sobrevilla Cabezudo, Marco AntonioEsta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.Item Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica(Pontificia Universidad Católica del Perú, 2024-08-28) Donayre Gamboa, Gustavo Miguel; Fonseca Arroyo, Pablo AlejandroEl presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales.Item Predicción de la aceptación de pedidos por parte de los repartidores en la industria de entregas a domicilio utilizando machine learning(Pontificia Universidad Católica del Perú, 2024-08-14) Alarcon Flores, Jorge Brian; Beltrán Castañón, César ArmandoLa industria de entregas a domicilio ha experimentado un auge significativo debido a la creciente demanda de los consumidores que buscan la comodidad de recibir productos y alimentos directamente en sus hogares. El avance de tecnologías y aplicaciones móviles ha impulsado el crecimiento de este mercado, permitiéndole adaptarse a las preferencias cambiantes de los consumidores [10] [19]. Sin embargo, un componente crítico en este proceso son los repartidores, quienes, tras la realización de un pedido por parte del cliente en la plataforma de la empresa, reciben notificaciones que les ofrecen una serie de pedidos sugeridos. Si aceptan, asumen la responsabilidad de recoger y entregar el pedido a los consumidores, así como la ganancia asociada, pero en ocasiones, los repartidores pueden declinar la aceptación de un pedido, lo que potencialmente conlleva a retrasos en la entrega, generando experiencias insatisfactorias para los usuarios. Este aspecto se presenta como un desafío significativo en la optimización de las operaciones de entrega a domicilio, el cual puede abordarse con soluciones de aprendizaje de máquina. En este artículo se presentan los resultados de la experimentación realizada con diversos modelos de aprendizaje de máquina, aplicándose la técnica de balanceo Smartly OverSampling con SMOTE. Los modelos se aplicaron a un conjunto de datos proporcionado por una institución latinoamericana líder en el sector de entregas a domicilio, reportando el algoritmo LightGBM, los mejores resultados con un AUC de 0.88 y un Average Precision Recall de 0.47.Item Aprendizaje profundo para transcripción de textos históricos manuscritos en español(Pontificia Universidad Católica del Perú, 2024-07-16) Choque Dextre, Gustavo Jorge; Beltrán Castañón, Cesar ArmandoEl reconocimiento de textos historicos es considerado un problema desafiante debido a los muchos factores que ´ alteran el estado de los manuscritos y la complejidad de los diferentes estilos de escritura involucrados en este tipo de documentos; en los anos recientes se han creado muchos modelos de Reconocimiento de textos manuscritos ˜ enfocados en diversos idiomas como el ingles, chino, ´ arabe y japon ´ es entre otros, sin embargo no se han ´ encontrado muchas iniciativas de reconocimiento de texto orientadas al idioma espanol debido fundamentalmente ˜ a un escasez de datasets publicos disponibles para ayudar a solucionar la problem ´ atica en dicho idioma. ´ En esta publicacion se presenta la aplicaci ´ on de t ´ ecnicas de Deep Learning basadas en una arquitectura de ´ red neuronal encoder-decoder y convoluciones compuerta Gated-CNN las cuales en los ultimos ha demostrado ´ resultados sobresalientes para resolver dicha problematica, as ´ ´ı mismo se propone la aplicacion de mecanismos de ´ Transferencia de Aprendizaje para el reconocimiento de textos historicos en espa ´ nol. Los experimentos demuestran ˜ que la aplicacion de estos m ´ etodos puede brindar resultados sobresalientes, adem ´ as la aplicaci ´ on de otras t ´ ecnicas ´ tales como Aumentacion de Datos y Modelos de Lenguaje conllevan a mejoras significativas en los resultados finales. ´ Se propone ademas el uso de un nuevo dataset de textos hist ´ oricos en espa ´ nol conformado por 1000 elementos ˜ tomados de textos historicos peruanos referentes al siglo XVIII.Item Estimación del consumo de combustible y emisiones de co2 de un motor a gasolina de 130 hp mediante técnicas de Machine Learning(Pontificia Universidad Católica del Perú, 2024-07-16) Huancapaza Machuca, José; Cuisano Egúsquiza, Julio CésarEn el presente trabajo se estima el consumo de gasolina y las emisiones de CO2 en un motor vehicular de 130 HP, instalado en un banco de pruebas, usando técnicas de aprendizaje automático (Machine Learning). Para obtener datos de los parámetros de funcionamiento del motor, se realizaron pruebas en condiciones estacionarias de carga (torque) y régimen de giro del cigüeñal; se registraron las lecturas de sensores originalmente instalados en el motor, mediante un scanner conectado al puerto OBD2 del módulo de control electrónico del motor. Además, se instalaron equipos de laboratorio para registrar otras variables necesarias para el estudio. Con los datos disponibles, se utilizaron tres técnicas de Machine Learning: Regresión Múltiple, Máquina de Soporte Vectorial y Redes Neuronales. En la aplicación de los modelos se utilizaron datos en grupos, separados de la siguiente forma: 90% para el desarrollo de los modelos y 10 % para la prueba de los modelos. Adicionalmente, para los modelos de Máquina de Soporte Vectorial y de Redes Neuronales se realizó otra partición de los datos: 75% para entrenamiento, 15% para validación, y 15% para el test. Durante el proceso se evaluaron los datos sin estandarización y, posteriormente, estandarizados en el rango de 0 a 1; este último paso buscó asegurar la convergencia del modelo. Las variables estudiadas fueron las siguientes: i) 5 predictoras o variables independientes (presión absoluta en el colector de admisión, temperatura del aire en el colector de admisión, régimen de giro, flujo másico de aire de v admisión al motor y el torque efectivo); ii) 2 variables objetivo o dependientes (emisiones de CO2 y consumo de gasolina). Los resultados del presente trabajo de tesis muestran que el mejor método, y con menos intervención, es el de Redes Neuronales. Para la estimación del flujo másico instantáneo del CO2 se obtuvo un error máximo de 7.85%, siendo que el error obtenido para el 75% de los resultados corresponde a 0.10%. Para la estimación del consumo másico de gasolina, se obtuvo un error máximo de 9.72%, pero, en este caso, el 75% de los resultados tienen un error de 0.67%.Item Modelo prolab: Checkifood, aplicación móvil que ayuda al régimen alimenticio con machine learning(Pontificia Universidad Católica del Perú, 2024-06-21) Romero De Chorié, Gladys Enriqueta; Tineo Ramón, Miriam Erlita; Benavides Santur, Juan Diego; Guerrero Reyes, Frank Adams; Rosas Arbildo, Giovani; Hoyos Vallejo, Carlos ArturoEste informe resume los hallazgos de varios estudios sobre la repercusión de costumbres alimenticias inadecuadas, particularmente las dietas estrictas, en los niveles de agua y músculo en el cuerpo, el problema social relevante es la incidencia elevada de obesidad y sobrepeso en la comunidad peruana, incluyendo a los individuos entre 18 y 45 años. Los estudios revelan que cuando las personas abandonan las restricciones dietéticas, sus hábitos alimenticios cambian y el cuerpo lo compensa utilizando grasas para sustentarse (Hernández & Vargas, 2022). La incidencia de obesidad y sobrepeso es una preocupación mundial que ha llevado a un crecimiento de la prevalencia de morbilidades como diabetes, afecciones cardiovasculares e insuficiencia renal, particularmente en Perú donde el 70% de la población se encuentra en esta categoría (Hernández & Vargas, 2022). Al examinar los puntos débiles de los usuarios, el informe identifica las horas de las comidas (desayuno, almuerzo y cena) como las fuentes más importantes de frustración debido a la falta de opciones nutritivas. A pesar de reconocer los riesgos para la salud asociados con la elección de alimentos poco saludables, los usuarios a menudo optan por la conveniencia sobre la nutrición. La propuesta consiste en el desarrollo de una aplicación móvil que utiliza machine learning para detectar y analizar automáticamente los platos de comida a partir de fotografías. Esta innovadora solución simplifica el proceso de seguimiento de la dieta y proporciona una experiencia de usuario más fluida en comparación con las aplicaciones de la competencia que requieren entrada manual de alimentos. El modelo de negocio está diseñado para cubrir los requerimientos del público objetivo que tienen predominantemente entre 18 y 45 años y buscan cambiar sus hábitos alimenticios diarios. La aplicación está destinada a servir como una herramienta útil para ayudar a los usuarios a alcanzar sus objetivos deseados, este aplicativo es innovador y disruptivo porque combina tecnologías de vanguardia, experiencias de usuario simplificadas, personalización y un enfoque proactivo en salud preventiva, ofreciendo un recurso valioso para ayudar a las personas a mejorar sus dietas y estilos de vida. El modelo de negocio de un aplicativo enfocado en mejorar la dieta y llevar un control riguroso del régimen alimenticio tendría un potencial de crecimiento exponencial en el Perú. Esto se debe a la combinación del aumento en el uso de aplicaciones móviles y la prevalencia creciente de obesidad y sobrepeso en el país. Como menciona Soto (2020), utilizar aplicativos móviles ha experimentado un alza notable en Perú, lo que indica una gran adopción de estas herramientas tecnológicas en múltiples rubros, incluido el sector salud. Por otro lado, la obesidad y el sobrepeso son considerados actualmente como problemas de salud pública en el Perú, como lo evidencia el crecimiento en la incidencia de estas condiciones en la comunidad (INEI, 2020). El informe señala que el proyecto tiene un valor económico significativo con un VAN de S/ 3.980.520,22 soles, teniendo en cuenta una tasa de descuento del 10% y una TIR de 281,65% a cinco años. El proyecto también tiene un valor social importante, ya que promueve estilos de vida saludables y una producción y consumo responsables, al mismo tiempo que impacta positivamente en el medio ambiente. El informe concluye con un VANS de S/4,258,764.47 Soles luego de analizar los beneficios y costos sociales del proyecto.Item Evaluación de modelos de segmentación semántica para el monitoreo de deslizamiento de tierra utilizando imágenes satelitales(Pontificia Universidad Católica del Perú, 2024-04-03) Yali Samaniego, Roy Marco; Fonseca Arroyo, Pablo AlejandroEn el ámbito del aprendizaje automático, un desafío persistente es la disponibilidad de datos suficientes, especialmente en tareas de visión por computadora. Este desafío se amplifica cuando se trabaja con sensores remotos, donde las bases de datos etiquetadas para abordar problemas son escasas. Este manuscrito examina críticamente el monitoreo de deslizamientos de tierra en el paisaje peruano y presenta tres contribuciones en esta dirección. La primera contribución expande un conjunto de datos de imágenes satelital es sobre deslizamientos de tierra (Landslide4Sense) proveniente de territorios asiáticos, con 3799 imágenes debidamente etiquetadas. Reconociendo la dinámica geoespacial de Perú, se incrementó este conjunto de datos con 838 escenarios locales. Estas adiciones mantienen congruencia con el conjunto de datos original en términos de atributos y configuración, asegurando replicabilidad y escalabilidad para futuras investigaciones. La segunda evalúa varios modelos de segmentación semántica basados en la arquitectura U-net, reforzada por la función de pérdida de Entropía Cruzada Ponderada + Dice Loss, óptima en tareas de segmentación con conjuntos de datos desequilibrados. Los resultados permiten alcanzar un F1-Score del 75.5% con la arquitectura U-net (vanilla) superando el benchmark de referencia del 71.65%. La última contribución muestra un desarrollado integral para la adquisición de datos, procesamiento y entrenamiento/evaluación de modelos. Dado que este marco tiene el potencial de impulsar una aplicabilidad general de sistemas de segmentación a sistemas de monitoreo de deslizamientos de tierra, y detener un alcance más amplio a la comunidad académica y partes interesadas gubernamentales en Latinoamérica y en todo el mundo.Item Plan de negocio para crear una plataforma M-learning que brinde asesorías pedagógicas en Lima, 2021(Pontificia Universidad Católica del Perú, 2022-09-10) Solano Levano, Eric Grey; Flores Chong, Luy Lam; Murrugarra Murga, Sara Victoria; Abanto Lara, Yissella; Benzaquen de las Casas, Jorge BennyEl objetivo principal de esta investigación fue desarrollar una propuesta de negocio para la creación de una plataforma de ventas de cursos online dirigida inicialmente a docentes, estudiantes y empresas privadas interesadas en la formación y/o asesoramiento en áreas de administración, economía e informática. Inicialmente solo se espera interactuar con la demanda en el departamento de Lima, para posteriormente lograr posicionamiento a nivel nacional y luego de cinco años incursionar en el mercado internacional. La educación siempre ha sido un pilar fundamental para la sociedad y tras el escenario del covid-19, al igual que otras actividades se vio interrumpida. Acentuándose así una creciente necesidad, sobre todo en aquella población tanto de alumnos como de profesores, que aún seguía bajo metodologías de formación tradicional. Esto hizo que los métodos de aprendizaje digital acelerarán su globalización, puesto que actualmente utilizar internet es prácticamente de carácter necesario para la mayoría de actividades cotidianas, entre ellas la educación. En nuestro caso la capacitación on-line ha desencadenado que la formación sea cada más accesible desde el punto de vista técnico y económico, ya que, en cualquier parte del mundo, una persona con un dispositivo inteligente y conectividad a internet puede recibir asesoría o capacitación de calidad con tasas de inversión bajas o gratuitas. En la presente investigación se analizan escenarios y estrategias para la puesta en marcha de una empresa, que brindará servicios de asesorías pedagógicas en Lima, bajo la metodología M-learning, considerando aspectos, económicos, financieros y técnicos para lograr un negocio sólido. Junto a ello un estudio de mercado que muestra la factibilidad de incursionar en este sector. Concluyendo con una propuesta viable que arroja un Valor Actual Neto Económico (VANE) de S /. 373 '010.91 y una Tasa Interna de Retorno del 292.22%, cuyas cifras hacen factible la puesta en marcha de la propuesta.Item Comparación de modelos scoring para la estimación de probabilidad de default(Pontificia Universidad Católica del Perú, 2022-01-11) Bravo Castro, Gerson Enrique; Paiva Ramos, Walter JuniorEl presente trabajo propone el desarrollo de modelos machine learning para la estimación de la probabilidad de default, que ayuden a reducir los niveles de deterioro de las carteras de créditos de consumo de las instituciones financieras de Perú, las cuales basan sus políticas de créditos en los modelos econométricos tradicionales como la regresión logística. Las variables que mejor explican la probabilidad de default están relacionadas a la evolución de niveles de endeudamiento y la historia de comportamiento de pago en el sistema financiero. Los modelos Random Forest (Bagging) y XGBoost (Boosting) presentan mejores niveles de discriminación y predictibilidad que el modelo tradicional, asimismo, se demuestra que estos modelos machine learning se complementan muy bien con el modelo tradicional dado que permiten identificar conjuntos de intercambio de deudores con menor riesgo por deudores de mayor riesgo calificados por el modelo tradicional. Adicionalmente, estos modelos machine learning permiten una vista complementaria al momento de identificar los perfiles con mayor riesgo ya que metodológicamente no se basan en la identificación de patrones promedio como la regresión logística tradicional.