Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
Abstract
Las proteínas repetidas son proteínas no globulares caracterizadas por la presencia de
repeticiones a nivel de secuencia y estructura. Pueden ser de 5 clases, cada una con
un número variable de subclases. Estas proteínas son relevantes porque están
relacionadas con una diversidad de enfermedades. Su correcta clasificación es parte
fundamental para su estudio; sin embargo, la anotación manual de todas las estructuras
de proteínas conocidas es una tarea que es logísticamente imposible completar. Por
ello, la automatización de esta tarea es muy importante.
En el presente trabajo, se desarrolló una herramienta para la identificación y
clasificación de repeticiones de clase IV. Esta herramienta fue construida por el
acoplamiento de dos módulos: uno de filtro y otro de clasificación. El primero fue
construido reutilizando una red neuronal convolucional entrenada para la detección de
simetrías rotacionales en la estructura de una proteína. Su uso estuvo fundamentado
en el hecho que las repeticiones clase IV son de estructura cerrada, por lo que la
presencia de simetrías rotacionales era altamente probable. Para el módulo de
clasificación se transformó la información estructural en imágenes, por medio del cálculo
y superposición de tres matrices. Estas imágenes fueron usadas para aplicar una
técnica de transferencia de aprendizaje a una red Densenet, seleccionada luego de un
análisis cualitativo y cuantitativo. Como resultado, el clasificador obtenido logró una
exactitud de 89.8% sobre una muestra de 658 cadenas de proteínas.
Los anteriores módulos fueron integrados en un servicio web construido sobre Flask. Se
construyó una aplicación de una página (SPA) para hacer disponible dicho servicio en
una forma amigable con el usuario. Dicha aplicación fue desplegada en la nube para su
acceso.
Temas
Proteinas--Clasificación automática
Proteinas--Estructura
Proteinas--Identificación--Automatización
Proteinas--Estructura
Proteinas--Identificación--Automatización
Para optar el título de
Maestro en Informática con mención en Ciencias de la Computación
The following license files are associated with this item: