Facultad de Ciencias e Ingeniería
Permanent URI for this communityhttp://98.81.228.127/handle/20.500.12404/7
Browse
3 results
Search Results
Item Validation of the NVDLA architecture using its aws virtual prototype-FPGA co-simulation platform(Pontificia Universidad Católica del Perú, 2023-05-23) Freidenson Bejar, David Steven; Villegas Castillo, Ernesto CristopherLa inferencia de Redes Neuronales Profundas (o DNNs, por sus siglas en inglés, Deep Neural Networks) se ha vuelto cada vez más demandante en términos de almacenamiento de memoria, complejidad computacional y consumo de energía. Desarrollar hardware especializado en DNNs puede ser un proceso tedioso, que se alarga aún más si se considera el tiempo requerido en escribir software para ello. Así, esta tesis consiste en la validación del acelerador de hardware de redes neuronales NVDLA (por sus siglas en inglés, Nvidia Deep Learning Accelerator) utilizando un ambiente de co-simulación basado en su plataforma híbrida: un CPU implementado como Prototipo Virtual (PV), basado en el Quick Emulator (QEMU), y el modelo de hardware en RTL del NVDLA dentro de un FPGA. Para ello, la arquitectura más portátil del NVDLA nv_small es configurada en el FPGA de una instancia F1 del servicio E2C AWS. Para complementar el sistema, el PV del NVDLA es usado, consistiendo de un CPU Arm emulado con QEMU, ejecutando el sistema operativo Linux y el software runtime del NVDLA, dentro de una capa de SystemC/TLM conectada al FPGA de la instancia F1 a través de un puerto PCIe. Una vez que la plataforma híbrida de co-simulación está configurada, se ejecutan regresiones de pruebas de hardware en la implementación en el FPGA para revisar la propia funcionalidad e integridad de los bloques que componen al NVDLA. Luego, se ejecutan pruebas de sanidad de software en el PV para confirmar la configuración correcta de todo el sistema integrado. Finalmente, la DNN AlexNet es ejecutada. Los resultados muestran la propia funcionalidad del hardware y del PV, y que la red AlexNet se ejecutó exitosamente en el ambiente de co-simulación, tomando aproximadamente 112 minutos.Item Diseño de la arquitectura de transformada discreta directa e inversa del coseno para un decodificador HEVC(Pontificia Universidad Católica del Perú, 2018-11-13) Portocarrero Rodriguez, Marco Antonio; Villegas Castillo, Ernesto Cristopher; Raffo Jara, Mario AndrésEl empleo de video de alta resolución es una actividad muy común en la actualidad, debido a la existencia de dispositivos portátiles capaces de reproducir y crear secuencias de video, ya sea en HD o en resoluciones mayores, como 4k u 8k. Sin embargo, debido a que las secuencias de video de mayor resolución pueden llegar a ocupar grandes espacios de memoria, estas no pueden ser almacenadas sin antes realizar un proceso de compresión. Organizaciones especializadas como ITU-T Coding Experts Group e ISO/IEC Moving Picture Experts Group, han sido responsables del desarrollo de estándares de codificación de video. De esta manera, para mejorar la transmisión de video y poder obtener resoluciones cada vez mayores, se llevó a cabo el desarrollo del estándar de codificación HEVC o H.265, el cual es el sucesor al estándar H.264/AVC. El presente trabajo de tesis está centrado en el módulo de Transformada Discreta e Inversa del Coseno (DCT e IDCT), el cual forma parte del estándar HEVC y su función es hallar los coeficientes en el dominio de la frecuencia de muestras, para poder cuantificarlas y reducir su número. Se realizó el diseño la arquitectura, tomando en consideración la capacidad de procesamiento de pixeles requerida por el estándar, la frecuencia de operación de circuito y la cantidad de recursos lógicos usados. La arquitectura fue descrita en el lenguaje Verilog HDL y fue sintetizada para dispositivos Zynq – 7000 de la empresa Xilinx. La verificación funcional del circuito fue realizada mediante el uso de Testbenchs en el software ModelSim. Para verificar el funcionamiento de la arquitectura diseñada, se utilizó el software MATLAB para obtener los resultados esperados y se compararon con los obtenidos en la simulación funcional del circuito. La frecuencia máxima de operación fue hallada mediante la síntesis de la arquitectura, la cual llegó a ser de 135 MHz, que es equivalente al procesamiento de secuencias de vídeo de resolución 4k o 3840x2160 pixeles a 65 fps.Item Diseño de una arquitectura de predicción de vectores de movimiento y cálculo de rango de búsqueda para el estándar HEVC en tiempo real(Pontificia Universidad Católica del Perú, 2018-08-06) Chaudhry Mendívil, Haris; Villegas Castillo, Ernesto Cristopher; Raffo Jara, Mario AndrésEl estándar HEVC (High Efficiency Video Coding por sus siglas en inglés) introduce nuevos elementos y técnicas en las diferentes etapas del codificador/decodificador, con el objetivo de conseguir mejoras significativas en la eficiencia de compresión. En relación a la fase de predicción de vectores de movimiento (MV del inglés Motion Vector), el estándar ha propuesto una técnica referida como AMVP (Advanced Motion Vector Prediction por sus siglas en inglés) que supone una mayor complejidad computacional que la fase de predicción implementada en el estándar previo (H.264/AVC), a costa de un ahorro considerable en términos de bit-rate y tiempo de ejecución. Por otro lado, algoritmos y técnicas independientes que consiguen mejoras en el software de referencia del presente estándar se han venido proponiendo en el campo de estudio; siendo uno de estos el algoritmo DSR (del inglés Dynamic Search Range) el cual responde a la determinación del rango de búsqueda y consigue una notable reducción en el tiempo de ejecución del proceso de estimación de movimiento (ME del inglés Motion Estimation). Consecuentemente, la presente propuesta plantea el desarrollo de una arquitectura en hardware (HW) de la etapa inicial del proceso ME del codificador HEVC, con la finalidad de reducir la carga computacional del mismo. Este primer paso engloba la determinación de los MVs predictores y el cálculo del rango de búsqueda. En base a ello, se ha conseguido diseñar una arquitectura que atiende a dichos procesos fundado en los algoritmos AMVP y DSR, respectivamente. Asimismo, la arquitectura propuesta resuelve problemas de dependencia presentes en la etapa inicial del ME con la etapa ME propiamente dicha, lo cual permite potenciar el desempeño general. Los resultados de síntesis demuestran que la arquitectura alcanza procesar secuencias de video con calidad ultra alta definición, referido también como UHD (siglas del término en inglés Ultra High Definition) superando los recuadros por segundo requeridos para operar en tiempo real. Específicamente, el diseño logra una tasa de procesamiento de 72 recuadros por segundo para secuencias 8K (7680x4320) con espacio de color YCbCr, en un FPGA de la familia Kintex 7.