Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Castañeda Rojas, Edson Bryan

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Archivos

(8.49 MB)

(1.61 MB)

Fecha

2016-11-26

Autores

Castañeda Rojas, Edson Bryan

Editor

Pontificia Universidad Católica del Perú

URI

http://hdl.handle.net/20.500.12404/7513

Resumen

Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.

Palabras clave

Patrones de software, Sitios Web--Medidas de segurdidad

Colecciones

Informática con mención en Ingeniería de Software

Licencia Creative Commons

Excepto donde se indique lo contrario, la licencia de este ítem se describe como info:eu-repo/semantics/openAccess

Ver todos los metadatos en formato Dublin Core

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Acceso al texto completo solo para la Comunidad PUCP

URI

Resumen

Descripción

Palabras clave

Citación

Colecciones

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons