Variational methods and deep learning for semantic image segmentation

dc.contributor.advisorSipirán Mendoza, Iván Anselmo
dc.contributor.authorChicchón Apaza, Miguel Angel
dc.date.accessioned2026-03-16T15:59:41Z
dc.date.available2026-03-16T15:59:41Z
dc.date.created2025
dc.date.issued2026-03-16
dc.description.abstractActualmente, las aplicaciones de visión por computadora, que incluyen la conducción autónoma, la detección de fallas, la imagenología médica y la teledetección, son cada vez más frecuentes y necesitan mecanismos de segmentación o clasificación de píxeles más precisos. Recientemente, las técnicas de aprendizaje profundo que utilizan redes neuronales se han convertido en la estrategia dominante para resolver diversos problemas en visión por computadora; sin embargo, existen limitaciones y problemas aún por resolver. Es por ello que una integración adecuada con técnicas tradicionales, como los métodos variacionales, con sus propias ventajas y limitaciones, resulta de interés para mejorar la precisión y robustez de la segmentación semántica. Esta tesis se centra en la implementación y validación de algoritmos de segmentación de imágenes que combinan métodos variacionales y aprendizaje profundo en cuatro escenarios diferentes. En el primer escenario, que implica la segmentación de peces en entornos subacuáticos, se compararon métodos variacionales integrados utilizando enfoques de post-procesamiento, extremo a extremo (end-to-end) y una función de pérdida combinada. En el segundo escenario, que aborda la segmentación de baches y grietas en pavimentos de carreteras, se entrenaron tres arquitecturas de redes neuronales SOTA (del estado del arte) utilizando una función de pérdida de entropía cruzada combinada y contornos activos. En el tercer escenario, enfocado en la segmentación de techos de edificios en imágenes satelitales, se entrenó una red neuronal U-Net con diferentes redes SOTA en la ruta del codificador (encoder path) mediante aprendizaje por transferencia (transfer learning), y el mejor modelo fue seleccionado para ser entrenado utilizando una función combinada con pérdida de entropía cruzada y pérdida de contornos activos. Finalmente, en el cuarto escenario, que se refiere a la segmentación de cobertura terrestre en imágenes aéreas, se emplearon aprendizaje por transferencia y la función de contornos activos en el entrenamiento de redes neuronales convolucionales y transformadores (transformers). Los resultados cuantitativos consolidados demuestran mejoras significativas: la función de pérdida combinada logró aumentos promedio de4-6% en el mIoU (mean Intersection over Union) en comparación con los enfoques que solo utilizaban entropía cruzada o Dice. Específicamente, para la segmentación de peces, el modelo U-Net-scSE con un codificador ResNeSt-269e alcanzó 73.1% de mIoU; para la detección de baches, 87.45% de mIoU con una reducción de HD95 a 23.40 mm; para la segmentación de techos, se logró una mejora del 14% en IoU utilizando aprendizaje por transferencia; y para la cobertura terrestre, el modelo U-Net-scSE con un codificador MiT- B4 obtuvo 80.4% de mIoU. Estas validaciones a través de cuatro dominios heterogéneos demuestran que la integración sistemática de métodos variacionales en redes profundas proporciona mejoras cuantificables y transferibles en la exactitud de la segmentación.
dc.description.abstractCurrently, computer vision applications, including autonomous driving, fault detection, medical imaging, and remote sensing, are increasingly prevalent and necessitate more precise pixel classification or segmentation mecha- nisms. Recently, deep learning techniques utilizing neural networks have become the dominant strategy for solving various issues in computer vision, however, there are limitations and problems yet to be solved. That is why a proper integration with traditional techniques such as variational meth- ods, with their own advantages and limitations, is of interest to enhance the accuracy and robustness of semantic segmentation. This thesis focuses on the implementation and validation of image seg- mentation algorithms combining variational methods and deep learning in four different scenarios. In the first scenario, which entails fish segmen- tation in underwater environments, integrated variational methods using post-processing, end-to-end and combined loss function approaches were compared. In the second scenario, which addresses the segmentation of potholes and cracks in road pavement, three SOTA neural network archi- tectures were trained utilizing a combined cross-entropy loss function and active contours. In the third scenario, which focused on building roof seg- mentation in satellite images, a U-Net neural network was trained with dif- ferent SOTA networks in the encoder path using transfer learning and the best model was selected for training using a combined function with cross- entropy loss and active contours loss. In the fourth scenario, which pertains to the segmentation of land cover in aerial images, transfer learning and active contours function are employed in training of convolutional neural networks and transformers. The consolidated quantitative results demonstrate significant improvements: the combined loss function achieved average increases of 4-6% in mIoU com- pared to approaches using only cross-entropy or Dice. Specifically, for fish segmentation the U-Net-scSE model with a ResNeSt-269e encoder reached 73.1% mIoU; for pothole detection, 87.45% mIoU with a reduction of HD95 to 23.40 mm; for roof segmentation, a 14% improvement in IoU was achieved using transfer learning; and for land cover, the U-Net-scSE model with a MiT-B4 encoder obtained 80.4% mIoU. These validations across four het- erogeneous domains demonstrate that the systematic integration of varia- tional methods into deep networks provides quantifiable and transferable improvements in segmentation accuracy.
dc.identifier.urihttp://hdl.handle.net/20.500.12404/33388
dc.language.isoeng
dc.publisherPontificia Universidad Católica del Perúes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/closedAccess
dc.subjectAprendizaje profundo (Aprendizaje automático)
dc.subjectVisión por computadoras
dc.subjectProcesamiento de imágenes
dc.subjectCálculo de variaciones
dc.subjectAlgoritmos--Aplicaciones
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#2.00.00
dc.titleVariational methods and deep learning for semantic image segmentation
dc.typeinfo:eu-repo/semantics/doctoralThesis
renati.advisor.dni41861203
renati.advisor.orcidhttps://orcid.org/0000-0002-8766-3581
renati.author.dni41651574
renati.discipline732028
renati.jurorFerzoli Guimarães, Silvio Jamil
renati.jurorSipirán Mendoza, Iván Anselmo
renati.jurorMery, Domingo
renati.jurorBeltrán Castañón, César Armando
renati.jurorVillanueva Talavera, Edwin Rafael
renati.levelhttp://purl.org/pe-repo/renati/level#doctor
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineIngenieríaes_ES
thesis.degree.grantorPontificia Universidad Católica del Perú. Escuela de Posgradoes_ES
thesis.degree.levelDoctoradoes_ES
thesis.degree.nameDoctor en Ingenieríaes_ES

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
CHICCHON_APAZA_MIGUEL_ANGEL.pdf
Tamaño:
1.22 MB
Formato:
Adobe Portable Document Format
Descripción:
Texto completo
Cargando...
Miniatura
Nombre:
CHICCHON_APAZA_MIGUEL_ANGEL_T.pdf
Tamaño:
27.24 MB
Formato:
Adobe Portable Document Format
Descripción:
Reporte de originalidad

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: