Formación de imagen completa de una página con texto impreso mediante procesamiento de imágenes obtenidas de un video
Abstract
En la presente tesis se aborda el diseño e implementación de un algoritmo que permite formar
la imagen completa de un documento con texto impreso partiendo de un video que contiene
fragmentos de la página en cuestión. Dicho algoritmo recibe como entrada un video registrado
empleando la cámara de un teléfono móvil y como resultado retornará la imagen del
documento con texto completo; esta imagen puede ser empleada posteriormente en un
algoritmo de reconocimiento óptico de caracteres (u OCR por sus siglas en inglés) para
recuperar el texto en forma digital.
El enfoque del desarrollo de esta propuesta es el de brindar una solución alternativa, en cuanto
a adquisición de imágenes, para las existentes aplicaciones móviles de OCR enfocadas en
apoyar a personas con ceguera parcial o total.
Para abarcar el planteamiento y cumplimiento de los objetivos de este proyecto, se ha
estructurado el mismo en 4 capítulos. En el capítulo 1 se aborda la actual situación de personas
con distintos grados de discapacidad visual en nuestro país y diversos sistemas que buscan
apoyarlos en recuperar su autonomía informativa y educativa. Además, se trata detalles sobre
el estado del arte en adquisición de imágenes para las aplicaciones OCR existentes en la
actualidad y sus falencias. En el capítulo 2 se presenta el marco teórico que avala el desarrollo
del algoritmo propuesto, desde la teoría necesaria en procesamiento de imágenes y, también,
sobre el registro de vídeos. En el capítulo 3 se trata el diseño e implementación del algoritmo
en dos plataformas: inicialmente en Python 3.6 para la etapa de calibración de parámetros en
una computadora de escritorio, y en C++ para las pruebas finales en un teléfono con SO
Android. En dicho capítulo también se hace presente consideraciones planteadas para la
creación del conjunto de videos de pruebas en Python. Finalmente, en el capítulo 4 se exponen
las pruebas y resultados obtenidos de la aplicación del algoritmo, en Python, sobre la base de
muestras creadas, y los resultados finales del uso de la aplicación en Android. Para estimar el
grado de conformidad de la imagen resultante se hará uso de la métrica de Levenshtein o
distancia de edición, la cual señala cuántos caracteres detectados en la imagen compuesta son
diferentes a los caracteres del texto original.
Temas
Digitalización
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
Para optar el título de
Ingeniero Electrónico
Collections
The following license files are associated with this item: