PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ Escuela de Posgrado Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica Trabajo de investigación para obtener el grado académico de Maestro en Informática con mención en Ciencias de la Computación que presenta: Gustavo Miguel Donayre Gamboa Asesor: Pablo Alejandro Fonseca Arroyo Lima, 2024 Informe de Similitud Yo, Pablo Alejandro FONSECA ARROYO, docente de la Escuela de Posgrado de la Pontificia Universidad Católica del Perú, asesor de el trabajo de investigación titulado Evaluación de método para la detección automática de puntos de referencia (landmark detection) en imágenes en dos dimensiones de huellas plantares para el diseño de una plantilla ortopédica de el autor Gustavo Miguel DONAYRE GAMBOA, dejo constancia de lo siguiente: - El mencionado documento tiene un índice de puntuación de similitud de 11%. Así lo consigna el reporte de similitud emitido por el software Turnitin el 11/04/2024. - He revisado con detalle dicho reporte y la tesis de investigación, y no se advierte indicios de plagio. - Las citas a otros autores y sus respectivas referencias cumplen con las pautas académicas. Lugar y fecha: San Miguel, 11 de Abril de 2024. Apellidos y nombres del asesor / de la asesora: Fonseca Arroyo, Pablo Alejandro DNI: 44695174 Firma ORCID: 0000-0002-0208-2842 i RESUMEN El presente trabajo de investigación evalúa la técnica de regresión de mapas de calor (heatmap regression - HR) para la detección automática de puntos de referencia (landmark detection) en imágenes médicas, específicamente en las imágenes de huellas plantares en dos dimensiones. El estudio se basa en la regresión de mapas de calor con aprendizaje profundo, una técnica que ha demostrado ser efectiva en la detección de puntos en rostros y en la estimación de la pose humana. Se propone un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares que servirán de referencia para el diseño base de una plantilla ortopédica bidimensional, buscando así mejorar el proceso de fabricación de plantillas ortopédicas, que actualmente se realiza de forma manual y artesanal en la mayoría de los países de América Latina. La detección automática de estos puntos de referencia en las huellas plantares tiene el potencial de agilizar este proceso y mejorar la precisión de las plantillas. Los resultados del estudio mostraron un error absoluto promedio normalizado de 0.01017 en el conjunto de validación. Estas evaluaciones se llevaron a cabo utilizando una red convolucional U-Net, la cual consta de una ruta de codificación y compresión de imágenes para capturar el contexto, y una ruta de expansión simétrica que permite una localización precisa de puntos de interés en un tiempo razonable gracias al uso de los procesadores GPU actuales. Palabras clave — Machine Learning, Deep Learning, Heatmap regression, footprint. ii ABSTRACT This paper evaluates the heatmap regression (HR) technique for landmark detection in medical images, specifically in two- dimensional footprint images. The study is based on heatmap regression with deep learning, a technique that has proven to be effective in face landmark detection and human pose estimation. We propose the evaluation of an automatic method for the detection of 8 points in the digitized images of plantar footprints that will serve as a reference for the base design of a two-dimensional orthopedic insole, thus seeking to improve the orthopedic insole manufacturing process, which is currently handmade and handcrafted in most Latin American countries. The automatic detection of reference points in the plantar footprints would speed up this process and improve the accuracy of the insoles. The results of the study showed an average normalized mean absolute error of 0.01017 in the validation set. These evaluations were carried out using a U-Net convolutional network, which consists of an image encoding and compression path to capture the context, and a symmetric expansion path that allows accurate localization of points of interest in a reasonable amount of time with current GPU processors. iii ÍNDICE DE CONTENIDO RESUMEN ............................................................................................................ i ABSTRACT........................................................................................................... ii ÍNDICE DE CONTENIDO .................................................................................... iii ÍNDICE DE TABLAS ............................................................................................ iv ÍNDICE DE FIGURAS .......................................................................................... v SECCIÓN I ........................................................................................................... 1 INTRODUCCIÓN ................................................................................................. 1 SECCIÓN II ......................................................................................................... 3 TRABAJOS RELACIONADOS ............................................................................ 3 SECCIÓN III ........................................................................................................ 4 MÉTODOS .......................................................................................................... 4 SECCIÓN IV ...................................................................................................... 13 RESULTADOS .................................................................................................. 13 SECCIÓN V ....................................................................................................... 14 CONCLUSIÓN Y DISCUSIÓN........................................................................... 14 TRABAJOS FUTUROS ..................................................................................... 15 REFERENCIAS BIBLIOGRÁFICAS .................................................................. 16 iv ÍNDICE DE TABLAS Tabla 1 Resultado de los modelos propuestos sobre el conjunto de imágenes de validación. ................................................................................................................ 13 v ÍNDICE DE FIGURAS Figura 1: Ejemplo de toma de imagen de huella plantar ............................................ 1 Figura 2: Medidas y puntos de referencia de la huella plantar ................................... 2 Figura 3: Proceso para la detección de 8 puntos de interés ...................................... 4 Figura 4: Izquierda - Imagen original. Derecha - Copia espejo huella plantar ............ 6 Figura 5: Anotación huellas plantares en VGG Image Annotator ............................... 7 Figura 6: Inversa de la imagen de huella plantar ....................................................... 8 Figura 7: Imágenes de 333x256 px con 8 anotaciones y mapas de calor por cada anotación .................................................................................................................... 9 Figura 8: Estructura de la red U-Net con base en una ResNet50 pre entrenada en la parte de la codificación (izquierda de la U-Net) ........................................................ 11 Figura 9: Resultados de la red U-Net (objetivo, predicción, mapa de calor de la predicción) ................................................................................................................ 12 Figura 10: Entrenamiento por 26 épocas de la red U-Net (ResNet50) con imágenes de 333x256 px. ......................................................................................................... 12 Figura 11: Error absoluto promedio normalizado - NMAE ........................................ 14 1 SECCIÓN I INTRODUCCIÓN En Perú, así como en la mayoría de los países de América Latina, el proceso de fabricación de plantillas ortopédicas para pacientes con diversas patologías, incluida la diabetes, se realiza mayoritariamente de forma manual y artesanal [1], como se puede observar en la fig. 1. Para poder realizar el estudio previo a la fabricación de las plantillas, se recopila información sobre la forma y las presiones que ejerce el pie del paciente, para lo cual se utiliza el podómetro. Los podómetros se pueden clasificar en dos grandes grupos: los cualitativos y los cuantitativos. En este trabajo, no se abordan los podómetros cuantitativos (con sensores electrónicos u otros), los escáneres láser en tres dimensiones y las mallas en tres dimensiones a partir de fotografías. Figura 1: Ejemplo de toma de imagen de huella plantar Los podómetros cualitativos producen una impresión de la huella plantar en una hoja de papel. Sin embargo, esta hoja impresa presenta desafíos logísticos, como la necesidad de ser transportada al lugar de fabricación de la plantilla, así como problemas relacionados con la falta de técnicos especializados para la confección de la plantilla destinada al paciente. Para elaborar la plantilla ortopédica, es necesario detectar puntos específicos y tomar medidas sobre la impresión de la huella plantar, como lo señala Kimura [2]. Estos puntos y medidas necesarios se ilustran en la fig. 2. Los puntos de interés semánticos son conjuntos de puntos o píxeles en imágenes que proporcionan información sobre la estructura o forma, como rostros, manos, cuerpos humanos y objetos cotidianos. Por lo tanto, la identificación de estos puntos de interés semánticos es crucial para diversas aplicaciones en el campo de la visión por computadora [3]. 2 Este trabajo propone evaluar un método automático para la detección de 8 puntos en las imágenes digitalizadas de huellas plantares, que servirán como referencia para el diseño base de una plantilla ortopédica en dos dimensiones. Figura 2: Medidas y puntos de referencia de la huella plantar La regresión de mapas de calor es un método ampliamente utilizado para la localización de puntos de interés basándose en redes neuronales profundas [5]. Este método busca predecir un mapa de calor en lugar de una coordenada numérica mediante una capa totalmente conectada, donde el punto máximo de activación corresponde al punto de interés semántico de la imagen de entrada [3]. Este artículo se estructura en varias secciones: la Sección II aborda los trabajos relacionados, la Sección III describe los métodos utilizados para la evaluación del modelo empleado, la Sección IV analiza los resultados obtenidos, la Sección V presenta las conclusiones y la Sección VI señala los trabajos futuros. 3 SECCIÓN II TRABAJOS RELACIONADOS En los últimos años, las redes neuronales convolucionales [4] han tenido mucho éxito en superarse continuamente en diversas tareas de reconocimiento visual. No obstante, su éxito es limitado por el tamaño de los conjuntos de datos de entrenamiento y el tamaño de las redes neuronales resultantes. El uso típico de las redes neuronales convolucionales son las tareas de clasificación, donde la salida de la red es una etiqueta de una clase a la que pertenece la imagen; sin embargo, en muchos otros casos, especialmente en el procesamiento de imágenes médicas, la salida debe incluir la información de localización, por ejemplo, indicar qué etiqueta de clase debe estar asignada a cada píxel de una imagen radiográfica. Para hacer frente a esta limitación en las imágenes médicas, se han desarrollado redes que entrenaban con una configuración de una ventana deslizante para predecir la etiqueta de cada píxel de una región local (recorte de la imagen) alrededor del mismo píxel, que es utilizado como entrada del modelo [5]. Posteriormente, esta red neuronal se ha mejorado, haciéndola más rápida y evitando en lo posible la redundancia de los recortes de imágenes a procesar. En ese sentido, la arquitectura U-Net logró un desempeño destacado en diferentes aplicaciones de segmentación en imágenes biomédicas [6]. Los algoritmos basados en redes neuronales convolucionales suelen utilizar la salida de la última capa como representación de características. Sin embargo, la información de esta capa puede ser espacialmente demasiado amplia para permitir una localización precisa. Por otro lado, las capas anteriores pueden ser precisas en la localización, pero carecer de la capacidad para capturar la semántica. Para resolver este problema, se desarrollaron soluciones que utilizan hiper-columnas como descriptores de píxeles [7]. Sin embargo, como se observó con los métodos para la estimación de la pose humana, la regresión directa de las coordenadas implica un mapeo altamente no lineal de las imágenes de entrada a coordenadas puntuales. En lugar de realizar la regresión de coordenadas, se propuso como alternativa un enfoque más sencillo: un mapeo de imagen a imagen basado en la regresión de mapas de calor, los cuales codifican la pseudo probabilidad de que un punto de referencia se encuentre en una posición de píxel determinada. De este modo, la red neuronal encargada de la estimación de la pose humana aprende a generar respuestas con valores altos en ubicaciones cercanas a la referencia objetivo, mientras que las respuestas en ubicaciones erróneas son suprimidas [8]. 4 SECCIÓN III MÉTODOS Para realizar este trabajo se ha realizado los siguientes pasos, como se puede observar en la figura 3 Figura 3: Proceso para la detección de 8 puntos de interés A. Conjunto de datos 1. Base de datos de imágenes de huellas plantares en la plataforma de ciencia de datos Kaggle: En este conjunto de datos se tienen imágenes de la impresión con tinta de huellas plantares de 32 personas, se incluyen las imágenes del pie izquierdo y derecho. Las imágenes están en formato JPEG, escaneadas desde una hoja de papel con una resolución de 300 puntos por pulgada y 32 bits RGB. Este conjunto de datos tiene en total 100 imágenes, 60 del pie izquierdo y 40 del pie derecho [9]. 2. Base de datos de imágenes de huellas plantares de la ONG Pies Felices – Trujillo - Perú: Este conjunto de datos fue entregado por la Organización No Gubernamental (ONG) Pies Felices, con sede en la ciudad de Trujillo, al norte del Perú. Las imágenes fueron escaneadas a una resolución de 300 puntos por pulgada y 32 bits RGB. El conjunto de datos comprende 65 imágenes de la impresión con tinta de huellas plantares, distribuidas en 32 del pie izquierdo y 5 33 del pie derecho. 3. Base de datos de imágenes de huellas plantares en IEEEDataPort - Datasets: El conjunto de datos BIOMETRIC 220X6 HUMAN FOOTPRINT pretende dotar a la huella humana de capacidad jurídica al ser usada como identificación biométrica. Este conjunto de datos, creado utilizando el escáner EPSON 5500, consta de 6 huellas multiespectrales del lado derecho por persona, obtenidas de 220 voluntarios en diferentes periodos de tiempo, lo que suma un total de 1320 imágenes. [10]. B. Preprocesamiento de imágenes o Análisis: Se analizaron las imágenes, todas con un tamaño variable dependiendo del conjunto de datos de procedencia. Los tamaños de las imágenes variaban desde 3507 píxeles de alto por 2550 píxeles de ancho hasta 666 píxeles de alto por 256 píxeles de ancho. o Limpieza: Se llevó a cabo una limpieza manual para eliminar anotaciones realizadas sobre las hojas con bolígrafos u otros utensilios, que contenían información diversa como nombres, codificación, etc., así como algunos errores como manchas de tinta o marcas en el papel. También se descartaron las imágenes incompletas o con errores materiales, como manchas muy grandes que cubrían parte de la huella plantar. o Transformación a 8 bits: Se procedió a transformar las imágenes a escala de grises, con 8 bits por píxel, para obtener valores de intensidad de negro entre 0 y 255 para cada píxel. o Giro horizontal: Se creó una copia espejo horizontal de las imágenes de las huellas plantares del pie izquierdo, de modo que todas las imágenes tuvieran la configuración de una huella del pie derecho. Se realizó este procedimiento para tener una única configuración de huella plantar. Como se puede observar en la figura 4, la imagen de la izquierda corresponde al pie izquierdo, mientras que la imagen de la derecha es la copia espejo que ya tiene la configuración de un pie derecho. 6 Figura 4: Izquierda - Imagen original. Derecha - Copia espejo huella plantar o Anotación de puntos de interés: Se llevó a cabo la anotación de ocho (8) puntos de interés en cada imagen, como se puede observar en la figura 5. Esta anotación se realizó sobre las imágenes con la resolución original para garantizar una mayor precisión en la tarea. Los puntos del 1 al 5 se utilizaron para obtener las coordenadas del píxel superior de la huella plantar, mientras que los puntos 6, 7 y 8 se emplearon para obtener las coordenadas de la izquierda, derecha e inferior de la huella plantar, así como los puntos de apoyo del pie. Estos puntos se detallan a continuación: ▪ Punto 1: Corresponde a la parte superior del primer dedo, hallux o dedo gordo. ▪ Punto 2: Corresponde a la parte superior del segundo dedo. ▪ Punto 3: Corresponde a la parte superior del tercer dedo. ▪ Punto 4: Corresponde a la parte superior del cuarto dedo. ▪ Punto 5: Corresponde a la parte superior del quinto dedo. ▪ Punto 6: Corresponde a la parte izquierda de la cabeza del primer metatarso, o la parte más izquierda de la huella plantar. ▪ Punto 7: Corresponde a la parte derecha de la cabeza del quinto metatarso, o la parte más derecha de la huella plantar. 7 ▪ Punto 8: Corresponde a la parte inferior del calcáneo, talón, o parte inferior de la huella plantar. Figura 5: Anotación huellas plantares en VGG Image Annotator o Inversión: Se procedió a invertir la imagen cambiando el fondo de color blanco o valores cero (0) a negro o valores doscientos cincuenta y cinco (255), de modo que la huella pudiera tener valores positivos mayores a cero (0), como se puede observar en la figura 6. 8 Figura 6: Inversa de la imagen de huella plantar Para el proceso de anotación de los ocho (8) puntos en las imágenes, se utilizó el programa de código abierto VGG Image Annotator (VIA) [11]. Para todos los procesos de modificación y transformación en las imágenes, se empleó el programa de código abierto Fiji [12]. C. Arquitectura 9 Regresión de mapas de calor: Para este método se utilizó la plataforma Google Colab. Esta implementación se realizó con la opción de una GPU NVIDIA A100 con 40 GB de RAM, y el tiempo de entrenamiento fue de aproximadamente entre 15 a 45 minutos. El tamaño total de las redes neuronales oscila entre 150 MB y 2 GB. Se han utilizado el marco de trabajo de software libre para aprendizaje automático basado en el lenguaje de programación Python, Pytorch, así como las librerías Torch y fastai, que son librerías de aprendizaje profundo. El código utilizado es una adaptación de la implementación oficial en Pytorch del trabajo “Aprendizaje profundo de representaciones de alta resolución para la estimación de la pose humana” [13]. Se entrenó una red convolucional U-Net [6], la cual consiste en una red con una ruta que codifica y contrae las imágenes para capturar contexto, y otra ruta de expansión simétrica que permite una localización de puntos de interés de manera bastante precisa y en un tiempo aceptable utilizando los procesadores GPU actuales. Nuestro método se basa en la regresión de imágenes de mapas de calor [14], que codifican la probabilidad de que un punto de interés se encuentre en una posición de píxel determinada. Al permitir un mapeo de imagen a imagen, nos beneficiamos del uso de las redes convolucionales, ya que se reduce el número de pesos de la red y, por tanto, la complejidad computacional total. D. Experimentación Para realizar la evaluación de las imágenes con este método, primero se modificó el tamaño de las imágenes. Inicialmente, se cambiaron a un tamaño de 333x256 píxeles y posteriormente, en un segundo experimento, a 333x128 píxeles. También se escaló a estos nuevos tamaños cada una de las 8 anotaciones, y se aplicó aumento de datos de entrenamiento girando la imagen hasta en 3 grados en sentido de las manecillas del reloj o en sentido contrario, de manera aleatoria. Posteriormente, se crearon los mapas de calor para cada una de las anotaciones, como se muestra en la figura 7. Figura 7: Imágenes de 333x256 px con 8 anotaciones y mapas de calor por cada anotación Se utiliza el error absoluto promedio normalizado (Normalized Mean Absolute Error – NMAE por sus siglas en inglés), que es el error absoluto porcentual 10 de cada coordenada inferida respecto a la real. En el presente trabajo, la función utilizada recibe como parámetros dos mapas de calor, que se convierten en puntos de referencia para realizar el cálculo del NMAE, como se puede observar en la ecuación 1, para evaluar tanto la etapa de entrenamiento como los resultados. Como función de pérdida (Loss function) se utiliza el error medio cuadrado (MSE por sus siglas en inglés) de dos mapas de calor. 𝑁𝑀𝐴𝐸 = 1 𝑛 ∑ |𝑦𝑖−𝑦^𝑖| |𝑦𝑖| 𝑛 𝑖=1 (1) Donde • 𝑛 es el número total de muestras en el conjunto de datos. • 𝑦𝑖 es el valor real en la posición 𝑖. • 𝑦^ 𝑖 es el valor predicho por el modelo en la posición 𝑖. El proceso de entrenamiento consiste en una combinación de operaciones de codificación y decodificación de mapas de calor. Para llevar a cabo esta tarea, se han configurado dos experimentos utilizando dos redes neuronales del tipo U-Net basadas en redes ResNet, preentrenadas con las imágenes de la base de datos Imagenet. Se ha modificado la última capa de estas redes para que la salida sea una de las 8 opciones de los puntos de referencia. En la Figura 8 se describe la estructura de la red neuronal U-Net. 11 Figura 8: Estructura de la red U-Net con base en una ResNet50 pre entrenada en la parte de la codificación (izquierda de la U-Net) Se dividieron las imágenes en 1056 para entrenamiento, 264 para validación del modelo y 132 para pruebas. Se entrenó la red neuronal por 26 épocas, con una tasa de aprendizaje (learning rate) de 1e-4 y se obtuvieron los resultados de la figura 10, también se puede observar la predicción sobre las imágenes de validación en la figura 9. 12 Figura 9: Resultados de la red U-Net (objetivo, predicción, mapa de calor de la predicción) Figura 10: Entrenamiento por 26 épocas de la red U-Net (ResNet50) con imágenes de 333x256 px. 13 SECCIÓN IV RESULTADOS De los diversos experimentos realizados, se concluye que la configuración de red U-Net basada en ResNet50 preentrenada, utilizando imágenes de 333x256 píxeles, arroja el menor valor en el conjunto de validación. Otro punto para tener en cuenta es el tiempo de entrenamiento: la red U-Net con base en ResNet50 (con un total de 339 millones de parámetros, de los cuales 315 millones son entrenables) requiere aproximadamente el doble de tiempo para completar el entrenamiento en comparación con la U-Net basada en una ResNet18 (con un total de 31 millones de parámetros, de los cuales 19 millones son entrenables). Para el presente trabajo, el entrenamiento tomó alrededor de 15 minutos para la red ResNet18 y 45 minutos para la red ResNet50, utilizando una tarjeta gráfica GPU NVIDIA A100 con 40 GB de RAM. Por otro lado, el tamaño de las redes neuronales resultantes es otro factor para tener en cuenta: las redes neuronales basadas en ResNet18 tienen un tamaño final de aproximadamente 150 MB, mientras que las redes basadas en ResNet50 tienen un tamaño final de 1500 MB, siendo diez veces en tamaño más grandes que las anteriores. El resumen de los resultados se presenta en la Tabla 1. Modelos Tamaño de la imagen NMAE U-Net (ResNet18) 333x256 0.011914 333x128 0.010470 U-Net (ResNet50) 333x256 0.010170 333x128 0.011914 Tabla 1 Resultado de los modelos propuestos sobre el conjunto de imágenes de validación. 14 SECCIÓN V CONCLUSIÓN Y DISCUSIÓN En este trabajo de investigación se han experimentado con diversas variaciones de un método propuesto conocido como regresión con mapas de calor, con el objetivo de detectar puntos de interés sobre una imagen de una huella plantar para su uso en la fabricación de una plantilla ortopédica. La red neuronal U-Net, basada en una red preentrenada ResNet50 y utilizando imágenes de 333x256 píxeles, presenta resultados que se asemejan en precisión de la ubicación de puntos de interés con el trabajo que realizan los ortopedistas en el proceso manual de desarrollo de unas plantillas basadas en las imágenes de huellas plantares, como se puede evidenciar en la figura 11. Esta red neuronal generada puede ser utilizada para resolver el problema planteado, que consiste en la detección automática de puntos de interés para la diagramación de una plantilla ortopédica, lo que permitirá agilizar significativamente el proceso de creación de estas plantillas. Figura 11: Error absoluto promedio normalizado - NMAE 15 TRABAJOS FUTUROS • Se explorarán alternativas para procesar imágenes de mayor tamaño que 333x256 píxeles, considerando las limitaciones de recursos computacionales asociadas al método de regresión de mapas de calor. • Se contemplaría investigar un segundo método para la detección de puntos de interés mediante el uso de transformadores de visión (vision transformers). • Se llevaría a cabo una investigación sobre la diagramación y codificación de una plantilla ortopédica, con el objetivo de facilitar su envío a una impresora 3D o a un torno CNC computarizado para su fabricación. 16 REFERENCIAS BIBLIOGRÁFICAS [1] P. G. Peña Montoya, “Análisis mediante elementos finitos a órtesis de pie, plantillas ortopédicas, y comparación de los modelos en base a resultados obtenidos de un sistema de medición de presiones plantares,” Master's thesis, 2018. [2] K. Kimura, T. Utsumi, M. Kouchi, and M. Mochimaru, “3d foot scanning system infoot-automated anatomical landmark detection and labeling,” in Asian Workshop on 3D Body Scanning Technologies, Tokyo, Japan, pp. 17- 18, 2012. [3] B. Yu and D. Tao, “Heatmap regression via randomized rounding,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021. [4] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” nature, vol. 521, no. 7553, pp. 436-444, 2015. [5] D. Ciresan, A. Giusti, L. Gambardella, and J. Schmidhuber, “Deep neural networks segment neuronal membranes in electron microscopy images,” Advances in neural information processing systems, vol. 25, 2012. [6] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in Medical Image Computing and Computer- Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pp. 234-241, Springer, 2015. [7] B. Hariharan, P. Arbela´ez, R. Girshick, and J. Malik, “Hypercolumns for object segmentation and fine-grained localization,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 447-456, 2015. [8] J. J. Tompson, A. Jain, Y. LeCun, and C. Bregler, “Joint training of a convolutional network and a graphical model for human pose estimation,” Advances in neural information processing systems, vol. 27, 2014. [9] R. Khokher and R. C. Singh, “Footprint-based personal recognition using dactyloscopy technique,” in Industrial Mathematics and Complex Systems, pp. 207-219, Springer, 2017. [10] K. Nagwanshi and S. Dubey, “Biometric 220x6 human footprint,” DOI: https://doi. org/10.21227/7gmx-jq63, 2019. [11] A. Dutta and A. Zisserman, “The VIA annotation software for images, audio and video,” in Proceedings of the 27th ACM International Conference on Multimedia, MM '19, (New York, NY, USA), ACM, 2019. [12] J. Schindelin, I. Arganda-Carreras, E. Frise, V. Kaynig, M. Longair, T. Pietzsch, S. Preibisch, C. Rueden, S. Saalfeld, B. Schmid, et al., “Fiji: an open-source platform for biological-image analysis,” Nature methods, vol. 9, no. 7, pp. 676-682, 2012. [13] K. Sun, B. Xiao, D. Liu, and J. Wang, “Deep high-resolution represen- tation learning for human pose estimation,” in CVPR, 2019. [14] C. Payer, D. Stern, H. Bischof, and M. Urschler, “Integrating spatial configuration into heatmap regression based cnns for landmark localization,” 17 Medical image analysis, vol. 54, pp. 207-219, 2019.