Variational methods and deep learning for semantic image segmentation

Chicchón Apaza, Miguel Angel

Variational methods and deep learning for semantic image segmentation

Ver principales metadatos en formato legible

dc.contributor.advisor	Sipirán Mendoza, Iván Anselmo
dc.contributor.author	Chicchón Apaza, Miguel Angel
dc.date.accessioned	2026-03-16T15:59:41Z
dc.date.available	2026-03-16T15:59:41Z
dc.date.created	2025
dc.date.issued	2026-03-16
dc.description.abstract	Actualmente, las aplicaciones de visión por computadora, que incluyen la conducción autónoma, la detección de fallas, la imagenología médica y la teledetección, son cada vez más frecuentes y necesitan mecanismos de segmentación o clasificación de píxeles más precisos. Recientemente, las técnicas de aprendizaje profundo que utilizan redes neuronales se han convertido en la estrategia dominante para resolver diversos problemas en visión por computadora; sin embargo, existen limitaciones y problemas aún por resolver. Es por ello que una integración adecuada con técnicas tradicionales, como los métodos variacionales, con sus propias ventajas y limitaciones, resulta de interés para mejorar la precisión y robustez de la segmentación semántica. Esta tesis se centra en la implementación y validación de algoritmos de segmentación de imágenes que combinan métodos variacionales y aprendizaje profundo en cuatro escenarios diferentes. En el primer escenario, que implica la segmentación de peces en entornos subacuáticos, se compararon métodos variacionales integrados utilizando enfoques de post-procesamiento, extremo a extremo (end-to-end) y una función de pérdida combinada. En el segundo escenario, que aborda la segmentación de baches y grietas en pavimentos de carreteras, se entrenaron tres arquitecturas de redes neuronales SOTA (del estado del arte) utilizando una función de pérdida de entropía cruzada combinada y contornos activos. En el tercer escenario, enfocado en la segmentación de techos de edificios en imágenes satelitales, se entrenó una red neuronal U-Net con diferentes redes SOTA en la ruta del codificador (encoder path) mediante aprendizaje por transferencia (transfer learning), y el mejor modelo fue seleccionado para ser entrenado utilizando una función combinada con pérdida de entropía cruzada y pérdida de contornos activos. Finalmente, en el cuarto escenario, que se refiere a la segmentación de cobertura terrestre en imágenes aéreas, se emplearon aprendizaje por transferencia y la función de contornos activos en el entrenamiento de redes neuronales convolucionales y transformadores (transformers). Los resultados cuantitativos consolidados demuestran mejoras significativas: la función de pérdida combinada logró aumentos promedio de4-6% en el mIoU (mean Intersection over Union) en comparación con los enfoques que solo utilizaban entropía cruzada o Dice. Específicamente, para la segmentación de peces, el modelo U-Net-scSE con un codificador ResNeSt-269e alcanzó 73.1% de mIoU; para la detección de baches, 87.45% de mIoU con una reducción de HD95 a 23.40 mm; para la segmentación de techos, se logró una mejora del 14% en IoU utilizando aprendizaje por transferencia; y para la cobertura terrestre, el modelo U-Net-scSE con un codificador MiT- B4 obtuvo 80.4% de mIoU. Estas validaciones a través de cuatro dominios heterogéneos demuestran que la integración sistemática de métodos variacionales en redes profundas proporciona mejoras cuantificables y transferibles en la exactitud de la segmentación.
dc.description.abstract	Currently, computer vision applications, including autonomous driving, fault detection, medical imaging, and remote sensing, are increasingly prevalent and necessitate more precise pixel classification or segmentation mecha- nisms. Recently, deep learning techniques utilizing neural networks have become the dominant strategy for solving various issues in computer vision, however, there are limitations and problems yet to be solved. That is why a proper integration with traditional techniques such as variational meth- ods, with their own advantages and limitations, is of interest to enhance the accuracy and robustness of semantic segmentation. This thesis focuses on the implementation and validation of image seg- mentation algorithms combining variational methods and deep learning in four different scenarios. In the first scenario, which entails fish segmen- tation in underwater environments, integrated variational methods using post-processing, end-to-end and combined loss function approaches were compared. In the second scenario, which addresses the segmentation of potholes and cracks in road pavement, three SOTA neural network archi- tectures were trained utilizing a combined cross-entropy loss function and active contours. In the third scenario, which focused on building roof seg- mentation in satellite images, a U-Net neural network was trained with dif- ferent SOTA networks in the encoder path using transfer learning and the best model was selected for training using a combined function with cross- entropy loss and active contours loss. In the fourth scenario, which pertains to the segmentation of land cover in aerial images, transfer learning and active contours function are employed in training of convolutional neural networks and transformers. The consolidated quantitative results demonstrate significant improvements: the combined loss function achieved average increases of 4-6% in mIoU com- pared to approaches using only cross-entropy or Dice. Specifically, for fish segmentation the U-Net-scSE model with a ResNeSt-269e encoder reached 73.1% mIoU; for pothole detection, 87.45% mIoU with a reduction of HD95 to 23.40 mm; for roof segmentation, a 14% improvement in IoU was achieved using transfer learning; and for land cover, the U-Net-scSE model with a MiT-B4 encoder obtained 80.4% mIoU. These validations across four het- erogeneous domains demonstrate that the systematic integration of varia- tional methods into deep networks provides quantifiable and transferable improvements in segmentation accuracy.
dc.identifier.uri	http://hdl.handle.net/20.500.12404/33388
dc.language.iso	eng
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.publisher.country	PE
dc.rights	https://purl.org/coar/access_right/c_14cb
dc.subject	Aprendizaje profundo (Aprendizaje automático)
dc.subject	Visión por computadoras
dc.subject	Procesamiento de imágenes
dc.subject	Cálculo de variaciones
dc.subject	Algoritmos--Aplicaciones
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#2.00.00
dc.title	Variational methods and deep learning for semantic image segmentation
dc.type	http://purl.org/coar/resource_type/c_db06
dc.type.version	http://purl.org/coar/version/c_970fb48d4fbd8a85
renati.advisor.dni	41861203
renati.advisor.orcid	https://orcid.org/0000-0002-8766-3581
renati.author.dni	41651574
renati.discipline	73209778
renati.juror	Ferzoli Guimarães, Silvio Jamil
renati.juror	Sipirán Mendoza, Iván Anselmo
renati.juror	Mery, Domingo
renati.juror	Beltrán Castañón, César Armando
renati.juror	Villanueva Talavera, Edwin Rafael
renati.level	http://purl.org/pe-repo/renati/level#doctor
renati.type	https://purl.org/pe-repo/renati/type#tesis
thesis.degree.discipline	Ingeniería	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Escuela de Posgrado	es_ES
thesis.degree.level	Doctorado	es_ES
thesis.degree.name	Doctor en Ingeniería	es_ES

Archivos

Bloque original

Mostrando 1 - 2 de 2

Nombre:: CHICCHON_APAZA_MIGUEL_ANGEL.pdf
Tamaño:: 1.22 MB
Formato:: Adobe Portable Document Format
Descripción:: Texto completo

Descargar

Nombre:: CHICCHON_APAZA_MIGUEL_ANGEL_T.pdf
Tamaño:: 27.24 MB
Formato:: Adobe Portable Document Format
Descripción:: Reporte de originalidad

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Ingeniería (Dr.)