2. Maestría

Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/2

Tesis de la Escuela de Posgrado

Browse

Search Results

Now showing 1 - 10 of 26
  • Thumbnail Image
    Item
    Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica
    (Pontificia Universidad Católica del Perú, 2024-08-28) Donayre Gamboa, Gustavo Miguel; Fonseca Arroyo, Pablo Alejandro
    El presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales.
  • Thumbnail Image
    Item
    Predicción de un tiro penal de fútbol basado en la estimación de postura del jugador
    (Pontificia Universidad Católica del Perú, 2024-06-24) Mauricio Salazar, Josue Angel; Alatrista Salas, Hugo
    En este artículo se presenta una metodología innovadora para predecir un tiro penal en fútbol basado en la estimación de postura del jugador que ejecuta el disparo haciendo uso de dos herramientas de visión computacional como segmentación semántica en videos y la estimación de postura 3D mediante los métodos TAM y MMPose, respectivamente. Para ello, se construyó un corpus de videos de tiros penales y se han entrenado modelos de aprendizaje profundo para predecir la región del arco a la cual llegará el disparo. Los resultados muestran que el modelo llamado CNN 3D logra una mejor precisión con respecto a los otros modelos entrenados. Además, se ha medido la influencia de distintas partes del cuerpo con respecto a la tarea de predicción, mostrando que las piernas son las partes más influyentes. Por último, implementamos una herramienta web para el entrenamiento de porteros y jugadores de fútbol en tiros penales, ofreciendo de esta manera posibles mejoras en las tácticas de un disparo de tiro penal mediante el uso de la visión computacional.
  • Thumbnail Image
    Item
    Clasificación automática de eventos en videos de fútbol utilizando redes convolucionales profundas
    (Pontificia Universidad Católica del Perú, 2024-06-21) Laboriano Galindo, Alipio; Beltrán Castañón, César Armando
    La forma en que las nuevas generaciones consumen y experimentan el deporte especialmente el fútbol, ha generado oportunidades significativas en la difusión de contenidos deportivos en plataformas no tradicionales y en formatos más reducidos. Sin embargo, recuperar información con contenido semántico de eventos deportivos presentados en formato de video no es tarea sencilla y plantea diversos retos. En videos de partidos de fútbol entre otros retos tenemos: las posiciones de las cámaras de grabación, la superposición de eventos o jugadas y la ingente cantidad de fotogramas disponibles. Para generar resúmenes de calidad y que sean interesantes para el aficionado, en esta investigación se desarrolló un sistema basado en Redes Convolucionales Profundas para clasificar automáticamente eventos o jugadas que ocurren durante un partido de fútbol. Para ello se construyó una base de datos a partir de videos de fútbol descargados de SoccerNet, la cual contiene 1,959 videoclips de 5 eventos: saques de meta, tiros de esquina, faltas cometidas, tiros libres indirectos y remates al arco. Para la experimentación se utilizó técnicas de preprocesamiento de video, una arquitectura convolucional propia y se aplicó transfer learning con modelos como ResNet50, EfficientNetb0, Visión Transformers y Video Visión Transformers. El mejor resultado se obtuvo con una EfficentNetb0 modificada en su primera capa convolucional, con la cual se obtuvo un 91% accuracy, y una precisión de 100% para los saques de meta, 92% para los tiros de esquina, 90% para las faltas cometidas, 88% para los tiros libres indirectos y 89% para los remates al arco.
  • Thumbnail Image
    Item
    Optimal vicinity 2D median filter for fixed-point or floating-point values
    (Pontificia Universidad Católica del Perú, 2024-06-19) Chang Fu, Javier; Carranza De La Cruz, Cesar Alberto
    Los filtros medianos son una técnica digital no lineal normalmente usada para remover ruido blanco, ’sal y pimienta’ de imágenes digitales. Consiste en reemplazar el valor de cada pixel por la mediana de los valores circundantes. Las implementaciones en punto flotante usan ordenamientos con técnicas de comparación para encontrar la mediana. Un método trivial de ordenar n elementos tiene una complejidad de O(n2), y los ordenamientos más rápidos tienen complejidad de O(n log n) al calcular la mediana de n elementos. Sin embargo, éstos algoritmos suelen tener fuerte divergencia en su ejecución. Otras implementaciones usan algoritmos basados en histogramas, y obtienen sus mejores desempeños cuando operan con filtros de ventanas grandes. Estos algoritmos pueden alcanzar tiempo constante al evaluar filtros medianos, es decir, presenta una complejidad de O(1). El presente trabajo propone un algoritmo de filtro mediano rápido y altamente paralelizable. Se basa en ordenamientos sin divergencia con ejecución O(n log2 n) y mezclas O(n) con los cuales se puede calcular grupos de pixeles en paralelo. Este método se beneficia de la redundancia de valores en pixeles próximos y encuentra la vecindad de procesamiento óptima que minimiza el número de operaciones promedio por pixel. El presente trabajo (i) puede procesar indiferentemente imágenes en punto fijo o flotante, (ii) aprovecha al máximo el paralelismo de múltiples arquitecturas, (iii) ha sido implementado en CPU y GPU, (iv) se logra una aceleración respecto al estado del arte.
  • Thumbnail Image
    Item
    Generación de imágenes de acciones específicas de una persona utilizando aprendizaje profundo
    (Pontificia Universidad Católica del Perú, 2024-04-16) Morales Pariona, Jose Ulises; Beltran Castañon, Cesar Armando
    Desde que aparecieron las redes GAN, se han realizado varias investigaciones sobre cómo generar imágenes en diversos ámbitos, como la generación de imágenes, conversión de imágenes, síntesis de videos, síntesis de imágenes a partir de textos y predicción de cuadros de videos. Basándose mayormente en mejorar la generación de imágenes de alta resolución y la reconstrucción o predicción de datos. El propósito de este trabajo es implementar las redes GAN en otros ámbitos, como la generación de imágenes de entidades realizando una acción. En este caso se consideró 3 acciones de personas, que son los ejercicios de Glúteo, Abdomen y Cardio. En primer lugar, se descargaron y procesaron las imágenes de YouTube, el cual incluye una secuencia de imágenes de cada acción. Posteriormente, se separó dos grupos de imágenes, de una sola persona, y de personas diferentes realizando las acciones. En segundo lugar, se seleccionó el modelo InfoGAN para la generación de imágenes, teniendo como evaluador de rendimiento, la Puntuación Inicial (PI). Obteniendo como resultados para el primer grupo, una puntuación máxima de 1.28 y en el segundo grupo, una puntuación máxima de 1.3. En conclusión, aunque no se obtuvo el puntaje máximo de 3 para este evaluador de rendimiento, debido a la cantidad y calidad de las imágenes. Se aprecia, que el modelo si logra diferenciar los 3 tipos de ejercicios, aunque existen casos donde se muestran incorrectamente las piernas, los brazos y la cabeza.
  • Thumbnail Image
    Item
    Novel Edge-Preserving Filtering Model Based on the Quadratic Envelope of the l0 Gradient Regularization
    (Pontificia Universidad Católica del Perú, 2023-01-26) Vásquez Ortiz, Eduar Aníbal; Rodríguez Valderrama, Paul Antonio
    In image processing, the l0 gradient regularization (l0-grad) is an inverse problem which penalizes the l0 norm of the reconstructed image’s gradient. Current state-of-the art algorithms for solving this problem are based on the alternating direction method of multipliers (ADMM). l0-grad however, reconstructs images poorly in cases where the noise level is large, giving images with plain regions and abrupt changes between them, that look very distorted. This happens because it prioritizes keeping the main edges but risks losing important details when the images are too noisy. Furthermore, since kÑuk0 is a non-continuous and non-convex regularizer, l0-grad can not be directly solved by methods like the accelerated proximal gradient (APG). This thesis presents a novel edge-preserving filtering model (Ql0-grad) that uses a relaxed form of the quadratic envelope of the l0 norm of the gradient. This enables us to control the level of details that can be lost during denoising and deblurring. The Ql0-grad model can be seen as a mixture of the Total Variation and l0-grad models. The results for the denoising and deblurring problems show that our model sharpens major edges while strongly attenuating textures. When it was compared to the l0-grad model, it reconstructed images with flat, texture-free regions that had smooth changes between them, even for scenarios where the input image was corrupted with a large amount of noise. Furthermore the averages of the differences between the obtained metrics with Ql0- grad and l0-grad were +0.96 dB SNR (signal to noise ratio), +0.96 dB PSNR (peak signal to noise ratio) and +0.03 SSIM (structural similarity index measure). An early version of the model was presented in the paper Fast gradient-based algorithm for a quadratic envelope relaxation of the l0 gradient regularization which was published in the international and indexed conference proceedings of the XXIII Symposium on Image, Signal Processing and Artificial Vision.
  • Thumbnail Image
    Item
    Propuesta de Metodología para Analizar un Sistema Sectorial de Innovación y aplicar Principios de Gestión de la I+D+I: Caso del Sector de Imágenes Médicas en Radiología
    (Pontificia Universidad Católica del Perú, 2022-09-01) Medina Contreras, Zenia Julieta; Ísmodes Cascón, Aníbal Eduardo
    El estudio con el título “Propuesta de Metodología para Analizar un Sistema Sectorial de Innovación y aplicar Principios de Gestión de la I+D+I: Caso del Sector de Imágenes Médicas en Radiología” tiene un enfoque integral que busca analizar un sector con las innovaciones más importantes en salud. Los objetivos son desarrollar un método práctico para analizar un sistema sectorial de innovación (SSI) así como para analizar el estado del sistema de gestión de I+D+i en pymes del sector de imágenes médicas en radiología. Además, la investigación busca caracterizar el SSI, conocer las tendencias del sector en el Perú y evaluar la Gestión de I+D+i en sus PYMES, mediante el uso de la norma UNE 166002. La investigación se divide en cuatro etapas, la primera etapa consta de una investigación bibliográfica sobre el desarrollo de las imágenes médicas, revisión de conceptos de sistemas de innovación y de las normas de gestión de I+D+i. La segunda etapa, consiste en el uso de herramientas de vigilancia tecnológica para conocer las tendencias del sector; la tercera etapa se compone de las entrevistas a expertos para la caracterización del sector y en la etapa final las entrevistas a personal de las PYMES para la evaluación de la gestión de I+D+i en estas empresas. Como resultado se muestra una débil articulación entre los actores de este sistema, una escaza producción científica que puede mejorar si se crean los vínculos y soporte financiero adecuado tomando como ejemplo países vecinos como Colombia y Chile. Así mismo las Pymes de este sector pueden mejorar su competitividad si integran actividades formales y explicitas de su gestión en I+D+i.
  • Thumbnail Image
    Item
    Diseño de un dispositivo didáctico en torno a la transformada de Hough para la formación de ingenieros mecatrónicos
    (Pontificia Universidad Católica del Perú, 2022-08-24) Molina Quispe, César Elmer; Gonzales Hernandez, Cintya Sherley
    Esta investigación se enmarca en el problema de la enseñanza de la matemática en la formación de futuros ingenieros. Para abordar este problema se indaga la relación entre las matemáticas enseñadas y los cursos de ingeniería. Con ese fin se realiza la identificación y análisis de praxeologías en la disciplina intermediaria procesamiento digital de imágenes. Además, se plantea como objetivo general analizar la transformada de Hough para el diseño de un dispositivo didáctico definido en el paradigma del cuestionamiento del mundo, que permita a los estudiantes de ingeniería mecatrónica desarrollar actividades de modelización matemática que relacionen algunos elementos del procesamiento digital de imágenes y los primeros cursos de matemática. Para el logro de este objetivo, se ha tomado en cuenta elementos de la Teoría Antropológica de lo Didáctico, en particular el modelo praxeológico extendido propuesto por Castela. El marco teórico ha permitido estudiar las instituciones involucradas en la formación de ingenieros, analizar praxeologías y luego formular la propuesta de un dispositivo didáctico que involucran actividades de modelización. La metodología empleada en la investigación se sustenta en trabajos previos de Macias, Romo Vázquez, Siero entre otros. Se compone de dos fases, los cuales están relacionadas con el análisis preliminar, el diseño del recorrido de estudio e investigación y análisis a priori de la ingeniería didáctica. Como resultados se menciona: el análisis de los referentes epistemológicos de la transformada de Hough en la institución de la disciplina Procesamiento Digital de Imágenes, la identificación y análisis de las praxeologías mixtas dentro de esta disciplina tanto de producción como de enseñanza. Lo cual sirvió como base para determinar la Praxeología mixta de la Transformada de Hough. Finalmente, considerando un contexto de la ingeniería mecatrónica se formuló una cuestión generatriz que permitió a través de análisis a priori proponer un posible Recorrido de Estudio e Investigación en torno a la transformada de Hough.
  • Thumbnail Image
    Item
    Clasificación de cultivos de quinua orgánica mediante el uso de imágenes aéreas multiespectrales y técnicas de aprendizaje automático
    (Pontificia Universidad Católica del Perú, 2021-11-10) Flores Espinoza, Donato Andrés; Cataño Sánchez, Miguel Ángel
    Según datos de la FAO, la planta de la quinua se originó en los alrededores del lago Titicaca que comparten Perú y Bolivia, destaca por la calidad nutricional que posee, así también los requerimientos del cultivo en cuanto a la poca exigencia en la cantidad de agua, lo cual lo hace un cultivo ideal para contrarrestar el cambio climático. La producción mundial de quinua se encuentra liderada primordialmente por los países de Perú y Bolivia, quienes concentran entre el 83% (año 2015) al 67% (año 2016). En ambos países dicha actividad involucra a no menos de 150,000 familias de pequeños productores. La producción de dicho cultivo es mayoritariamente orgánica con promedios bajos de producción. Como consecuencia del escaso uso de tecnologías productivas, el incremento de plagas, así como de la variabilidad cada vez más impredecible de las condiciones climáticas, los agricultores familiares de ambas regiones continúan presentando niveles de pobreza de 42.9% y extrema pobreza de 21.3% en promedio. (INEI-Perú, INE Bolivia). El presente trabajo de investigación contribuye al mapeo de cultivos el cual constituye una herramienta esencial para la gestión agrícola y la seguridad alimentaria. El objetivo del trabajo de investigación es la evaluación de diversos métodos de clasificación del cultivo de la quinua que permitirá realizar el mapeo automático. El estudio se centra en el uso de técnicas de aprendizaje automático para clasificar cultivos de quinua a partir de imágenes aéreas multiespectrales tomadas desde un sistema aéreo no tripulado. La reflectancia espectral de cinco bandas ópticas se utiliza para determinar modelos de clasificación que se evalúan en las diferentes etapas fenológicas de la quinua. Se exploraron estrategias de aprendizaje automático a las imágenes obtenidas, tales como árboles de decisión, análisis discriminatorio, máquinas de vectores de soporte, K vecino más cercano, conjunto de clasificadores, métodos de aprendizaje profundo de Segnet y Unet. Los conjuntos de datos de entrenamiento se obtuvieron de las ubicaciones de los campos de quinua en Cabana en la región Puno de Perú. Los resultados muestran que las técnicas de aprendizaje profundo superan a otras técnicas en la tarea de clasificación. Se muestran las pruebas realizadas sobre las diversas etapas fenológicas en donde las técnicas de aprendizaje profundo obtienen una precisión de entre 81% y 95%, mientras que las demás técnicas su precisión fueron entre 58% y 87%.
  • Thumbnail Image
    Item
    Integración de imágenes de nubes de puntos obtenidas por drones
    (Pontificia Universidad Católica del Perú, 2021-09-16) Tippe Quintanilla, Percy Kim; Sipiran Mendoza, Iván Anselmo
    The Lidar technology is an environment scanning method that produces point cloud images. In this work we study the use of a Kalman filter to combine point cloud images into a single unified 3D map.