Pontificia Universidad Católica del Perú Escuela de Posgrado Análisis de la expansión vial en la Amazońıa peruana y su impacto en el cambio climático Tesis para optar por el grado de Maǵıster en Ingenieŕıa Civil Autor: Gustavo Mart́ın Larrea Gallegos Asesor: Ian Vázquez Rowe 14 de marzo de 2019 Resumen La selva amazónica alberga alrededor del 60 % del bosque tropical del mundo y es un elemento fundamental en términos de biodiversidad, clima y secuestro de carbono del planeta. En este contexto, el Gobierno Peruano ratificó el año 2015 sus intenciones por reducir sus emisiones de Gases de Efecto Invernadero en un 20 % con respecto a un escenario habitual mediante reducciones en el sector de cambio de uso de suelos. La construcción de carreteras es una de las principales actividades asociadas a este sector e importante generador de deforestación. En los últimos años el Perú se ha atravesado un considerable incremento de su infraestructura vial, y se espera que esta expansión siga en aumento. En este sentido, la presente investigación tiene como principal objetivo contribuir al entendimiento de los efectos que la expansión vial puede generar en el cambio de uso de suelos, y posteriormente en el cambio climático en toda la Amazońıa peruana. Para ello, se construyeron diferentes modelos de aprendizaje automático (random forest, regresión loǵıstica y redes neuronales) para predecir la poten- cial deforestación en un periodo de 15 años. Se utilizó información georreferenciada y herramientas computacionales del estado del arte. Los resultados indican que, evaluando solo un proyecto vial en particular, se podŕıan generar 73.2 Mt de CO2eq. Este valor supera en demaśıa a las 60 Mt de CO2eq estimadas por el Gobierno Peruano como meta de reducción. Por lo que se concluye que las estima- ciones realizadas por el estado subestiman los efectos de la construcción de carreteras. Finalmente, el marco metodológico presentado es novedoso y útil para construir e implementar modelos de predicción de deforestación para el cálculo de emisiones de GEI y puede ser implementado para analizar otros casos de estudio. A mis padres y hermanos... Índice general Índice general 2 Índice de figuras 3 Índice de tablas 5 1. Introducción 6 1.1. La deforestación como fenómeno antrópico . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. La expansión vial en el Perú . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Objetivos y justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2. Estado del arte 12 2.1. Cambio de uso de suelos: alcances y statu quo . . . . . . . . . . . . . . . . . . . . . . . 12 2.2. Avances en teledección, aprendizaje automatizado y análisis basado en la nube . . . . 13 2.3. Métodos de cálculo de emisiones de gases de efecto invernadero . . . . . . . . . . . . . 16 3. Materiales y métodos 18 3.1. Construcción de modelos de predicción de deforestación . . . . . . . . . . . . . . . . . 18 3.1.1. Selección de las zonas y sub-zonas de análisis . . . . . . . . . . . . . . . . . . . 18 3.1.2. Recolección y procesamiento de datos . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Construcción y validación de modelos de predicción . . . . . . . . . . . . . . . . . . . . 27 3.2.1. Regresión loǵıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.2. Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.3. Redes Neuronales Artificales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3. Estimación de emisiones de GEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4. Implementación del sistema de trabajo en la nube . . . . . . . . . . . . . . . . . . . . 32 4. Resultados y discusión 35 4.0.1. Análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.0.2. Búsqueda de hiperparámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.0.3. Importancia de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.0.4. Comparación entre modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.0.5. Visualización de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.0.6. Cálculo de emisiones de carbono . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5. Conclusiones 46 5.1. Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Bibliograf́ıa 48 2 Índice de figuras 1.1. Variación anual de la pérdida de superficie arbórea en el Perú en los años 2001-2017. Fuente: Global Forest Watch (2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2. Desarrollo de la Red Vial Nacional entre los años 1990 y 2017 por cada tipo de categoŕıa de v́ıa. Fuente: INEI (2019) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3. Mapa de carreteras construidas por departamento hasta el año 2016. Fuente: INEI (2019) 9 2.1. Representación gráfica del paradigma del análisis de datos. Adaptado de Breiman (2001) 15 2.2. Representación gráfica de las dos filosof́ıas de construcción de modelos en el análisis de datos. Adaptado de Breinman (2001) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1. Región de Interés seleccionada del Bioma Amazónico . . . . . . . . . . . . . . . . . . . 19 3.2. Representación gráfica del algoritmo de K-medios. Adaptado de Witten et al. (2017) . 19 3.3. Ubicación de los clusters obtenidos con el algoritmo de K-medios. Los distintos colores indican diferentes clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4. Representaciones de puntos, ĺıneas, y poĺıgonos utilizando un modelo ráster (derecha) y un modelo de vectores (izquierda) (extráıdo de Mclnerney y Kempeneers (2014)) . . 22 3.5. Flujo metodológico del procesamiento y la preparación de los datos espaciales . . . . . 26 3.6. Esquematización del proceso de muestreo estratificado y designación de los grupos de entrenamiento y prueba. Se extrae la misma cantidad de muestras deforestadas y no deforestadas de una imagen multibanda. . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.7. Representación gráfica de una función loǵıstica en el plano cartesiano. . . . . . . . . . 28 3.8. Ejemplo gráfico de un árbol de decisión. El árbol construido genera multiples separa- ciones binarias para determinar la clase a la cual pertenece el dato a predecir. Extráıdo de Loh (2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.9. Representación gráfica de un modelo de random forest. Adaptado de Verikas et al. (2016) 30 3.10. Representación gráfica del perceptron simple . . . . . . . . . . . . . . . . . . . . . . . 31 3.11. Arquitectura de una red ANN profunda en un solo sentido . . . . . . . . . . . . . . . . 31 3.12. Captura de pantalla de el interfaz gráfico de Earth Engine. El recuadro 1 muestra el repositorio y la documentación. 2 muestra el cuaderno de trabajo. 3 muestra la consola donde se exhiben resultados numéricos y se realiza la depuración. 4 muestra la pantalla de visualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.13. Flujo operacional en la nube seguido durante la investigación . . . . . . . . . . . . . . 34 4.1. Matriz de correlaciones entre variables. Se utiliza el ı́ndice de correlación de Pearson para determinar el grado de correlación existente entre las variables. . . . . . . . . . . 36 4.2. Histograma de ocurrencia de deforestación - Distancia (m) para distancias a carretera nacional (a), departamental (b), vecinal (c), zona de amortiguamiento (d), Área Natural Protegida (e) y centro poblado (f) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.3. Histograma de ocurrencia de deforestación - Distancia a carretera nacional (m) para cada cluster analizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.4. Imágen satelital de la deforestación ocurrida en el cluster 8, en los alrededores de Yuri- maguas. Comparación entre los ṕıxeles deforestados utilizados de datos (a) y las imáge- nes satelitáles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.5. Variación en la precisión de acuerdo al número de árboles para cada cluster . . . . . . 39 3 4.6. Variación de la pérdida y la precisión del modelo de red neuronal a lo largo de las distintas épocas de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.7. Importancia de las variables utilizadas en el modelo de random forest expresadas en porcentaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.8. Distribución de la precisión de los distintos modelos entrenados con datos de los distintos clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.9. Imágen satelital que muestra que la zona deforestada (a) corresponde a una plantación de aceite de palma aceitera(b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.10. Mapa de probabilidad de deforestación construido con un modelo de random forest aplicado a carreteras proyectadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.11. Mapa de probabilidad de deforestación (b) construido con los datos del proyecto de carretera Boca Manu - Iberia (a) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.12. Proceso de cálculo de emisiones de CO2 para el caso de estudio: Carretera MD-103 . . 44 4.13. (a) Tasa de emisión de carbono por cada kilómetro de distancia a la carretera. (b) Emisión acumulada de carbono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4 Índice de tablas 3.1. Descripción de clústers analizados en la investigación . . . . . . . . . . . . . . . . . . . 21 3.2. Metadatos de la información georreferenciada utilizada . . . . . . . . . . . . . . . . . . 22 3.3. Variables utilizadas en la construcción de modelos . . . . . . . . . . . . . . . . . . . . 23 3.4. Descripción de los modelos analizados en este estudio . . . . . . . . . . . . . . . . . . . 34 5 Caṕıtulo 1 Introducción 1.1. La deforestación como fenómeno antrópico La selva amazónica alberga alrededor del 60 % del bosque tropical del mundo y es un elemento fundamental en términos de biodiversidad, clima y secuestro de carbono del planeta (Houghton et al., 2000). La relevancia ambiental de este escenario hace contraste con la rampante disminución de bos- que primario y la alarmante degradación de cobertura Amazónica (Laurance et al., 2002). En el caso de Brasil, nación que contiene el 70 % de la selva amazónica, desde el año 1992 se han deforestado alrededor de 2 millones de hectáreas anuales. Este fenómeno se ha incrementado sobre todo en páıses tropicales en v́ıas de desarrollo. La pérdida de estos espacios altamente sensibles es parte de una dinámica muy compleja que está relacionada con la expansión urbana y agŕıcola, la pérdida de biodi- versidad, mineŕıa aluvial, tala selectiva de bosques y la proliferación de enfermedades endémicas (Hall and Goodman, 1991). De hecho, la deforestación asociada con la mineŕıa aluvial genera importantes cambios ecológicos (i.e., destrucción de sistemas acuáticos y creación pozos de aguas estancadas, entre otros) que incrementan los nichos de cultivo de los mosquitos portadores del vector de la malaria (e.g., mosquito Anopheles) (Silbergeld et al., 2002). La Amazońıa representa más del 30 % del área total del páıs y se ha perdido alrededor de 2 millones de hectáreas de bosque Amazónico en los últimos 15 años, lo que representa alrededor del 2 % del territorio Amazónico (WRI, 2016). Como muestra la Figura 1.1, esta pérdida de cobertura arbórea no ha sido repentina; por el contrario, es el resultado de una creciente tendencia en los últimos añós. Aun aśı, el Estado Peruano asumió el compromiso de reducir en 100 % la deforestación de bosque primario para el año 2030 (MINAM (Ministerio del Ambiente), 2016) 6 Figura 1.1: Variación anual de la pérdida de superficie arbórea en el Perú en los años 2001-2017. Fuente: Global Forest Watch (2019) En el año 2016, el Estado Peruano ratificó las Contribuciones Nacionalmente Determinadas (NDC, por sus siglas en inglés) en la Conferencia de las Partes para el Cambio Climático (COP21) (UCFCCC, 2015). Estas detallan las intenciones del Gobierno por reducir sus emisiones de Gases de Efecto Inver- nadero (GEI) en un 20 % con respecto a un escenario habitual mediante reducciones en el sector de Uso de Suelos, Cambio en el Uso de Suelos y Silvicultura (USCUSS) (MINAM (Ministerio del Am- biente), 2016). En este sentido, el manejo de bosques y las actividades asociadas a estos son relevantes, particularmente, en los territorios de la cuenca Amazónica. Más de la mitad del territorio nacional está cubierto por bosque Amazónico. Sin embargo, pese a esta evidente abundancia de superficie forestal, la contribución económica que deriva de este sector al valor de producción bruto nacional es de 1 a 3 por ciento, considerando productos forestales maderables y no maderables (Held et al., 2015). Este aporte poco significativo del sector forestal a la economı́a nacional puede dar un alcance inicial de las razones por las cuales no ha existido una postura robusta hacia la protección de los servicios forestales y el manejo sostenible de sus recursos. De hecho, el principal recurso de los bosques es la madera. En el Perú, en el año 2012, se extrajeron 7.9 millones de metros cúbicos de este recurso. Alrededor del 89 % de la madera fue destinada como leña; 10 %, al sector industrial y comercial; y 1 % utilizado como carbón (MINAGRI, 2014). Estas estad́ısticas reflejan una mı́nima participación de los recursos forestales maderables en los sistemas económicos, principalmente, debido al poco valor agregado de estos productos a lo largo de la cadena de valor. En efecto, hasta el año 2013, solo el 11 % de la pro- ducción maderable pasaba por un proceso de transformación. Esta información se refleja en su poco aporte al PBI (1.1 %) y su poca contribución en la generación de empleo (0.3 %) (MINAGRI, 2014). Sin embargo, estas cifras, aunque pequeñas, van en aumento debido al crecimiento de la población y al incremento de la demanda interna, sobre todo en aquellos sectores industriales que consumen la madera como insumo o materia prima. Como puede resultar evidente, la principal amenaza para el sector forestal es la pérdida de su principal recurso: los bosques. En este sentido, la deforestación es un fenómeno que está relacionado con las distintas actividades antrópicas en las que se busca obtener beneficios económicos del uso de los recursos forestales. Diferentes manifestaciones de esta dinámica económica han podido observarse en el último siglo. De hecho, desde la primera intrusión del sistema mercantilista extractivo en la Amazońıa desatado por la fiebre del caucho, la selva Amazónica ha sido escenario de conflictos que giraron en torno a sus recursos (Reyna, 1942). 7 1.2. La expansión vial en el Perú La infraestructura es un elemento fundamental en el desarrollo económico de un páıs y es impres- cindible por las sociedades modernas. Más espećıficamente, se ha demostrado que la infraestructura vial tiene un importante efecto sobre el crecimiento de la economı́a de distintos páıses debido a que incrementa la productividad (Aschauer, 1989; Canning and Fay, 1993). En el caso del Perú, la in- fluencia de las carreteras en la economı́a no es muy diferente a lo observado en distintos páıses. En efecto, Vásquez y Bendezú [2008] analizaron la influencia de la inversión en infraestructura vial sobre el crecimiento económico del Perú en el periodo 1970 - 2003. Los autores determinaron que la infraes- tructura vial disminuye el tiempo de adaptación de los precios ante algún determinado shock, posibilita la existencia de mercados eficientes y eleva los éstandares de calidad de vida [Banco Mundial, 1994; Vásquez y Bendezú, 2008]. Sin embargo, la relación entre el incremento de la infraestructura vial y su efecto sobre la economı́a no es lineal. Esto se debe a que a medida que la inversión en carreteras se incrementa, su efecto marginal en la economı́a disminuye [Vásquez y Bendezú, 2008; Aschauer, 1989]. Esta no-linearidad permite inferir que los beneficios económicos de invertir en carreteras serán más significativos en páıses en v́ıas de desarrollo que en páıses desarrollados. En el Perú se ha observado un considerable incremento de la infraestructura vial durante los últimos 10 años. De hecho, como muestra la figura 1.2, a partir del año 2007 se ha presenciado un importante aumento de la cantidad de kilómetros construidos que forman parte de la Red Vial Nacional (RVN). Este considerable desarrollo de infraestructura puede estar ligado al crecimiento económico por el que atravesó el Perú durante la primera década del último milenio. Sin embargo, aunque el crecimiento de RVN es notable, se considera que existe aún una importante brecha de infraestructura que requiere ser cubierta en referencia a la construcción de nuevas v́ıas y al mantenimiento de las v́ıas existentes (Coronado, 203; ?). En efecto, como puede observarse en la figura 1.3, aunque la longitud de v́ıas aumentó, hasta el año 2016, existe aún una considerable deficiencia de infraestructura vial, sobretodo en la zona de la Amazońıa peruana. En este sentido, se puede esperar que en los próximos años las regiones de la costa y sierra inviertan en mantenimiento y mejoramiento de v́ıas; mientras que las regiones de la selva lo hagan en construcción de nuevas carreteras. Figura 1.2: Desarrollo de la Red Vial Nacional entre los años 1990 y 2017 por cada tipo de categoŕıa de v́ıa. Fuente: INEI (2019) 8 Figura 1.3: Mapa de carreteras construidas por departamento hasta el año 2016. Fuente: INEI (2019) La expansión vial y el incremento de la accesibilidad no solo están asociados a los efectos positivos del crecimiento económico, sino que existen también una serie de efectos socio-ambientales vinculados a esta actividad. Por su naturaleza intrusiva, toda nueva carretera incrementa considerablemente el riesgo de deforestación. Esto último se debe a que la pérdida de bosque suele ser espacialmente rampante (Boakes et al., 2010) y a que las carreteras generan, a su vez, la aparición de más carreteras de menor jerarqúıa (Laurance et al., 2002, 2015). Como se puede esperar, estos efectos no dependen solo de la construcción de nuevas v́ıas, sino también de las modificaciones en las caracteŕısticas de las carreteras existentes. En el caso de la Amazońıa, las carreteras no-pavimentadas suelen ser inutilizadas durante los periodos de lluvia, por lo que el solo hecho de pavimentarlas permite incrementar su tiempo de uso y los efectos asociados a este (Laurance et al., 2009, 2015). Un claro ejemplo de este este fenómeno se aprecia en el caso de la carretera IIRSA SUR, que conecta los páıses de Perú y Brasil. El asfaltado de esta v́ıa condujo a que se incremente el flujo vehicular durante todo el año y a que, al mismo tiempo, se de una considerable reducción en los tiempos de viaje. Debido a estos efectos, la deforestación en los alrededores se incrementó, aśı como la expansión urbana, agŕıcola y la mineŕıa aluvial (Asner et al., 2013; Laurance et al., 2015; Delgado, 2008). 9 En este sentido, medidas como limitar directamente la construcción de nuevas carreteras, gestionar la extracción maderera, mejorar las herramientas de medición de impactos ambientales, mejorar el diseño vial, entre otras, han sido propuestas tanto por autores de la literatura (Laurance et al., 2009) como por autoridades competentes (MINAM (Ministerio del Ambiente), 2016). Desde un punto de vista taxonómico, Laurance et al. (2009) clasifica estas diversas estrategias de mitigación de dos formas. La primera clasificación engloba a los esfuerzos a escala local enfocados en reducir los impactos de las nuevas carreteras y de las ya existentes. La segunda clasificación comprende a todos los esfuerzos a escala regional que buscan limitar la expansión e intrusión de las carreteras sobre áreas ecológicamente sensibles. Como puede verse, la problemática generada por la expansión vial puede ser abordada de multiples maneras. Sin embargo, en esta investigación se buscó generar herramientas que contribuyan a las medidas encasilladas en la segunda clasificación, es decir, a aquellas de escala regional. En espećıfico, el presente manuscrito desarrollará el proceso seguido en el diseño y elaboración de una herramienta que permita mejorar las actuales estrategias de diseño vial. 1.3. Objetivos y justificación Esta investigación tiene como principal objetivo contribuir al entendimiento de los efectos que la expansión vial puede generar en el cambio de uso de suelos, y posteriormente en el cambio climático. La secuencia lógica que motiva el planteamiento de este objetivo considera a la acción de generar accesibilidad (i.e., construir una carretera) como variable que incrementa el riesgo de cambio de uso de suelo (e.g, deforestación). Aunque el enfoque de cambio de uso de suelos pued e ser amplio y complejo en su definición, esta investigación se centrará principalmente en la deforestación. En este sentido, debido a que la zona de estudio es la Amazońıa, toda mención sobre el cambio de uso de suelos en este documento será una referencia del cambio de una zona forestal a otra zona de cualquier tipo. La motivación en la selección de la Amazońıa como zona de estudio y la justificación del proyecto deriva de tres principales argumentos: Argumento 1: La selva Amazónica alberga zonas con las reservas más grandes de biodiversidad y de carbono del mundo (Asner, 2014) Argumento 2: El Estado Peruano asumió el compromiso de reducir sus emisiones del sector de Uso de Suelos y Silvicultura en 60.57 Mt CO2eq al 2030 (MINAM (Ministerio del Ambiente), 2016). Argumento 3: Muy poca superficie de la selva Amazónica peruana que se encuentra conectada por v́ıa terrestre y existe una serie de proyectos viales de gran embergadura en planificación (MTC, 2015). La combinación de estos tres argumentos conlleva a considerar justificada la necesidad de estudiar el riesgo de deforestación que estos proyectos viales pueden incentivar. Además, de contar con un modelo, se podŕıa simular los efectos de distintas alternativas de diseño, lo cual permitiŕıa tomar mejores decisiones respecto al diseño de estas v́ıas o anticipar planes de mitigación. Respecto a la estrategia metodológica adoptada en este estudio (ver Caṕıtulo 3) existen diferentes enfoques para abordar los problemas de predicción de deforestación (i.e., promedio histórico, funciones de tiempo y modelado en función de variables)(VCS, 2012). Se buscó que el flujo metodológico a implementar tuviese un enfoque de modelado en función de variables y que satisfaciese los siguientes requerimientos: Requerimiento 1: Los modelos generados deben estar expĺıcitamente espacializados y restringidos a tener como variables predictoras solo aquellas que deriven de actividades en las que el Estado tenga plena capacidad de decisión (i.e., creación de ANP, construcción de carreteras, Zonificación Económica Ecológica, entre otros). Requerimiento 2: Se debe poder experimentar con modelos estad́ısticos tradicionales y con 10 modelos de aprendizaje de máquina novedosos encontrados en el estado del arte. Requerimiento 3: La metodoloǵıa debe ser completamente replicable y escalable a todo el terri- torio nacional. Estos tres requerimientos fueron tomados como lineamientos durante el desarrollo de la investi- gación. En cada etapa del estudio, los métodos, datos y plataformas de trabajo fueron elegidos o moldeados a fin de satisfacer esta necesidad. Teniendo en cuenta lo antes mencionado, se propusieron 5 objetivos espećıficos: • Profundizar el entendimiento de las dinámicas económicas, sociales y de carbono en la Amazońıa mediante una exhaustiva revisión de la literatura • Diseñar un sistema de análisis de datos que satisfaga los requerimientos del objetivo general • Estudiar la relación que existe entre las diferentes variables de la base de datos construida y su influencia en las tasas de deforestación en la Amazońıa • Proponer y validar modelos de predicción de riesgo de deforestación • Estimar las emisiones de gases de efecto invernadero de los principales proyectos viales El cumplimiento de estos objetivos espećıficos es imperante para satisfacer el objetivo general. Sin embargo, es necesario comenzar proponiendo tres hipótesis fundamentales. Se espera que estas hipótesis sean validadas or rechazadas a partir de los resultados de la investigación. La primera hipótesis H1 está relacionada con la importancia que tendrá el Plan Nacional Vial en el cambio climático y los compromisos nacionales. La segunda hipótesis H2 busca responder la interrogante recurrente que surge a partir de la popularidad de los modelos aprendizaje profundo (i.e., Deep Learning) y su potencial superioridad frente a los modelos estad́ısticos tradicionales. La última hipótesis H3 está vinculada a la necesidad de implementar los modelos propuestos en la toma de decisiones, sobre todo por la complejidad de su elaboración y el alto costo computacional de estos. Adicionalmente, a lo largo del desarrollo de este manuscrito, se propondrán distintas sub-hipótesis que se originan a partir de interrogantes espećıficas y enfocadas en los métodos y supuestos con los que se inicia la investigación. Las principales interrogantes de este proyecto son las siguientes: Hipótesis 1 (H1): Los compromisos ambientales del páıs subestiman las emisiones generadas por los cambios de uso de suelo. Hipótesis 2 (H2): Los modelos de ensamblado y de aprendizaje profundo superiores que los modelos estad́ısticos tradicionales Hipótesis 3 (H3): Es posible replicar y escalar los modelos de predicción para su utilización en la toma de decisiones 11 Caṕıtulo 2 Estado del arte 2.1. Cambio de uso de suelos: alcances y statu quo El cambio de uso de suelo está definido como el cambio claro y permanente en el uso de suelo que se asocia con modificaciones en la cobertura de la superficie y en las reservas de carbono (Watson et al., 2001). Estos cambios son una fuente considerable de emisiones de gases de efecto invernadero; de hecho, representan alrededor del 9 % del total de emisiones globales (Le Quéré et al., 2013). En este sentido, esta relevancia global ha ocasionado que este sector sea sido considerado como prioritario por muchas instituciones (Watson et al., 2001; Van Stappen et al., 2011). Estos cambios se dividen en cambios directos del uso de suelos (LUC) y cambios indirectos del uso de suelos (iLUC). Por un lado, el primero corresponde a un cálculo simple de la superficie transformada en el mismo lugar e instante donde se realiza la actividad o proceso que se desea estudiar. En lo que refiere al estudio de carreteras, (Larrea- Gallegos et al., 2017) incluyeron los cambios directos ocasionados por la transformación de terreno forestal a superficie de rodadura y derecho de v́ıa en un estudio de Análisis de Ciclo de Vida (ACV) realizado a la construcción de un proyecto vial en el departamento de Madre de Dios. En este caso, en el cálculo de las emisiones se requirió cuantificar las hectáreas, por metro de carretera, que dejaron de ser bosque para luego ser convertidas a unidades de CO2eq. Este cálculo es computacionalmente trivial pero, debido a que el proyecto se ubicó en la Amazońıa, se requirió del uso de otros métodos y modelos de descomposición de biomasa para determinar el valor de emisión final (Larrea-Gallegos et al., 2017). Por otro lado, los iLUC son todos aquellos cambios que se generan en otras áreas y en diferentes periodos temporales, distintos a los de la actividad estudiada pero que no existiŕıan de no realizarse dicha actividad. Si se toma a la carretera como ejemplo, los iLUCs correspondeŕıan a toda la deforestación ocurrida fuera de la superficie de rodadura y de derecho de v́ıa que ocurriese después de terminada la construcción. Como se puede suponer, realizar un cálculo de este efecto en cadena es sumamente complicado, sobre todo porque no es posible distinguir si la deforestación en ciertas partes se debe completa o parcialmente a la construcción de una carretera. En este sentido, distintos métodos han sido desarrollados para estimar los iLUCS y las emisiones de GHG asociadas. De manera general, es posible distinguir tres tipos de modelos de iLUCs en la literatura: biof́ısicos, económicos, y basados en reglas (Schmidt et al., 2015). Los modelos biof́ısicos buscan relacionar la demanda de terreno y de cultivos con información f́ısica de rendimiento y datos estad́ısticos de deforestación (Schmidt et al., 2015). Los modelos económicos suelen basar su estructura en modelos de equilibrio general (GEM) o equilibro parcial (PEM) que incluyen información de la producción agŕıcola global y tablas de insumo-producto. Por último, los modelos basados en reglas son lineamientos que incluyen criterios de otras gúıas (i.e., PAS2050, GHG- protocol y PEF-guide) que toman en cuenta la ocupación del suelo en un periodo previo de 20 años y amortizan el valor de las emisiones de manera anual. Una amplia descripción de los modelos mencio- nados puede encontrarse en Schmidt et al. (2015). Estos métodos, utilizados fundamentalmente en el campo del ACV, tienen un enfoque en el que se busca entender el efecto del desplazamiento de cultivos a zonas forestales. Sin embargo, esta visión puede ser miope cuando se desea estudiar otros procesos o actividades que también están ligados a la deforestación y al cambio de uso de suelos. Adicionalmente, 12 su alto nivel de generalización puede conllevar a obtener resultados con alta incertidumbre si es que se desea estudiar procesos de poca escala o con caracteŕısticas regionales establecidas (De Rosa, 2018). 2.2. Avances en teledección, aprendizaje automatizado y análisis ba- sado en la nube A finales de los años 80, diversos autores incursionaron en el uso de tecnoloǵıas de teledetección mediante el análisis de imágenes satelitales de alta resolución con la finalidad de estudiar la deforesta- ción (Fearnside, 2003; Nelson and Hellerstein, 1997; Pfaff, 1999; Angelsen and Kaimowitz, 1999). Este fenómeno fue estudiado utilizando diferentes enfoques. Por ejemplo, desde un punto de vista económi- co, Nelson and Hellerstein (1997) propońıa que las carreteras incentivaban deforestación debido a que disminúıan el costo de acceso a las zonas forestales. Los modelos económicos que utilizó eran probados y refinados con datos emṕıricos obtenidos de distintas tomas de satélites y algoritmos de clasificación no supervisada. Sin embargo, el nivel de precisión de estos algoritmos estaba limitado a las capaci- dades de procesamiento de los ordenadores de aquella época (Congalton, 1991). Aunque considerar a la economı́a como principal factor de la deforestación era intuitivo y razonable, se demostró que este único factor no es suficiente para entender las dinámicas de deforestación a escalas menores a la nacional (Leblois et al., 2017). En Leblois et al. (2017), se utilizó información mundial de deforestación en alta resolución, para actualizar y validar los modelos y resultados que se obtuvieron a lo largo de investigaciones realizadas durante los años 1990 y 2000. Leblois et al. (2017) procesó la deforestación anual por páıs durante los años de estudio para generar modelos de regresión utilizando variables independientes como exporta- ción agŕıcola, terreno cultivado, densidad poblacional, entre otros. Los resultados de estas regresiones sirvieron para validar los modelos propuestos décadas atrás. Los autores concluyen que los determi- nantes de deforestación pronosticados en los años 90 siguen siendo válidos en la actualidad. Esto quiere decir que los modelos de predicción estimados tienen razonable certeza pese a que estos análisis son de escala global. La agricultura, como era de esperar, es una variable vinculada al crecimiento de carreteras y desarrollo urbano, aspectos de carácter nacional que no son evaluados en ninguno de los estudios analizados por Leblois et al. (2017). Finalmente, estos autores recomiendan realizar investi- gaciones relacionadas a la calidad de los bosques ya que tienen influencia sobre las poĺıticas REDD+ y los incentivos económicos vinculados a este último. En las últimas décadas, tanto la academia como entidades gubernamentales han volcado esfuerzos para estudiar este fenómeno e implementar poĺıticas de control. Las investigaciones más recientes incluyen variables caracteŕısticas de la infraestructura, la geomorfoloǵıa y el clima. Estas variables se determinan dependiendo del tipo factor que se desea profundizar (Perz et al., 2013; Baraloto et al., 2015; Barber et al., 2014; Miranda et al., 2014). Perz et al. (2013), por ejemplo, publicó una investigación en la cual analiza el cambio de la cobertura te- rrestre, asfaltado de carreteras, y la deforestación a nivel de comunidades a lo largo del trazo de la Carretera Interoceánica Sur (IIRSA por sus siglas en inglés), en los páıses de Perú, Bolivia, y Brasil. En este proyecto se realizó un análisis multivariado del cambio de la cobertura terrestre a través de las regiones que la IIRSA recorre a lo largo de los años 2005 y 2010. Esta investigación utiliza varia- bles biof́ısicas, socioeconómicas, y de cobertura terrestre para realizar el análisis; aśı también, datos de las carreteras asfaltadas y no asfaltadas dentro de los páıses estudiados. Se tomaron alrededor de 200 muestras que consist́ıan en visitas de campo, y recolección de testimonios y encuestas. El clima, elevación, distancia a mercados cercanos, estado de la carretera, entre otros, fueron utilizados como variables. Tres modelos de regresión lineal fueron generados para cada año y uno para la variación. Aunque se obtuvieron coeficientes de determinación (R2) bastante altos, estos solo se enfocan en la deforestación de comunidades cercanas a la carretera; además, variables intŕınsecas a la geometŕıa de la v́ıa son ignoradas. Baraloto et al. (2015) proponen el estudio de la relación entre la degradación de bosques, la de- forestación y las carreteras. Esta publicación es de relevancia ya que estudia la variable relacionada a la calidad de bosques, aquella que se menciona como relevante en las poĺıticas REDD+. En esta 13 investigación se toma también como caso de estudio la región tri-fronteriza de Perú, Brasil y Bolivia. Se tomaron muestras a lo largo de la carretera utilizando “cuadrantes de vegetación” (vegetation plots en inglés). Estos últimos corresponden a un método en el que se delimitan cuadrantes dentro de los cuales se midió la biomasa superficial y subterránea a lo largo de los años 2008 y 2010. Se utilizaron imágenes satelitales para contabilizar el cambio de terreno deforestado y se digitalizaron los mapas de carreteras principales, secundarias y terciarias. En este caso, se utilizaron variables como la distancia a la carretera, distancia al centro urbano, distancia a los andes, tiempo que la IIRSA lleva pavimentada, entre otros. Finalmente, Baraloto et al. (2015) generaron un modelo de regresión lineal en el que se concluyó que, pese a que existe una alta correlación entre la distancia de la v́ıa y la deforestación, este fenómeno no se replica cuando se analiza la distancia de la v́ıa y la degradación del bosque. Los autores manejan posibles explicaciones entre las que se incluyen deficiencias de muestreo y alta heterogeneidad de la zona. De forma casi paralela, Barber et al. (2014) publicaron los resultados de su investigación en la que se vincula por primera vez el efecto mitigador de las Áreas Naturales Protegidas (ANP), la deforestación y las carreteras. Este estudio recurre al uso de un modelo de regresión lineal y es la primera investigación que analiza futuros escenarios plausibles. En este caso se realizó un análisis emṕırico espacial en el que se calculó toda el área de deforestación adyacente a todas las carreteras legales e ilegales de la Amazońıa brasilera. La importancia de considerar las carreteras ilegales en el análisis se debido a que estas eran construidas sin autorización y están, comunmente, ligadas a actividades altamente generadoras de deforestación. Las carreteras estatales fueron recopiladas a partir de información gubernamental; y aquellas ilegales, a partir de clasificación utilizando imágenes satelitales. Este último método es de suma relevancia ya que muestra un inicio importante en el uso de clasificadores para el mapeo de carreteras a escala nacional. Los resultados señalan que el 95 % de la deforestación adyacente a todas las v́ıas brasileras, en promedio, ocurre dentro de los 5.5 km más cercanos. De forma similar, Miranda et al. (2014) estudiaron la relación que existe entre las ANP, las comunidades nativas y la deforestación. Este estudio construyó un modelo de regresión y determinó una correlación entre la creación de ANP y la disminución de deforestación. Aunque se reconoce la importancia de las ANP como elementos mitigadores, tal y como señala Weisse and Naughton-Treves (2016), poco se ha debatido respecto a las zonas de amortiguamiento (ZA). Estos autores señalan que es importante incrementar la integración de entes fiscalizadores en estas zonas, debido a que estos espacios tienen efectos mitigadores sobre la deforestación y las actividades mineras. Una explicación a este efecto es que las ZA estan destinadas como zonas de transición entre actividades restringidas y cotidianas, por lo que suelen ser consideradas como herramientas “teóricas” de conservación. Para entender las limitaciones y aportes de los estudios encontrados en la literatura es necesario explorar la taxonomı́a del análisis de datos, disciplina en la cual la mayor parte de estos estudios recae. Estos trabajos pueden clasificarse como estudios dirigidos a la predicción y estudios con enfoque de análisis. Esta división corresponde al paradigma fundamental del análisis de datos en el que se busca representar algún fénomeno natural de manera simplificada. En el primer tipo de estudio se espera pronosticar fenómenos en escenarios futuros, mientras que el segundo tipo busca identificar patrones, caracateŕısticas y extraer información del fenómeno que pueda resultar de utilidad. Más allá de esta distinción primaria, un estudio puede seguir dos filosof́ıas metodológicas fundamentales: la filosof́ıa de modelado de datos y la filosof́ıa de modelado algoŕıtmico. Por un lado, el primero utiliza modelos estocásticos establecidos con supuestos fuertes. La validación de estos modelos suele requiere pruebas de hipótesis, pruebas de bondad de ajustes, análisis de residuales, entre otros. Por otro lado, el segundo, asume que la estructura del modelo es desconocida y lo que se busca es una función f(x) que permita predecir y a partir de x (Breiman, 2001). Una interpretación tangible de esta distinción seŕıa la que separa a los modelos estad́ısticos tradicionales (e.g., modelos lineales, regresiones loǵısticas, entre otros) de los modelos de aprendizaje de máquina (e.g., Árboles de decisión, Redes Neuronales, entre otros) (ver figura 2.1 y figura 2.2). Finalmente, la selección de los modelos y de la metodoloǵıa responde 14 a las necesidades y preguntas particulares de cada proyecto. Igualmente, los recursos (i.e., poder computacional y presupuesto) y la disponibilidad de datos son condicionantes de relevancia. Figura 2.1: Representación gráfica del paradigma del análisis de datos. Adaptado de Breiman (2001) Figura 2.2: Representación gráfica de las dos filosof́ıas de construcción de modelos en el análisis de datos. Adaptado de Breinman (2001) Los estudios antes mencionados se caracterizan por el uso de modelos estad́ısticos convencionales. De hecho, este enfoque estad́ıstico en el análisis y predicción del riesgo de deforestación ha predomi- nado en la literatura. Sin embargo, en 2004, Mas et al. (2004) publicaron un estudio de predicción de deforestación que propuso por primera vez el uso de modelos de redes neuronales (NN), denominados perceptrones multicapa por su simpleza. Las NN son modelos no lineales que pueden adaptarse, en teoŕıa, a cualquier distribución de datos y son capaces de aproximar cualquier fenómeno (Yadav and Sood, 2013). Mas et al. (2004) propusieron una arquitectura de red con 3 a 8 capas conectadas (i.e., una capa de entrada, varias capas ocultas y una capa de salida). El modelo entrenó sus parámetros a partir de los datos ingestados y mediante multiples etapas demominadas épocas de entrenamiento. Se utilizaron 6 variables predictoras y 2 variables dependientes (i.e., deforestación y regeneración de bosque). Los resultados mostraron que estos modelos tienden a sobre entrenarse y no ser exitosamente 15 generalizables. Sin embargo, Mas et al. (2004) no realizó comparación alguna frente a otro tipo de modelo con la misma base de datos. En contraste con lo antes mencionado, Mayfield et al. (2017) realizaron una profunda comparación del desempeño de los distintos métodos estad́ısticos y de apren- dizaje de máquina. Este estudio consideró a la deforestación como un fenómeno de rango binario (i.e., 1 si ocurre, 0 si no ocurre) y utilizando 18 variables predictoras. Se evaluaron modelos lineales gene- ralizados (GLM) y generalizados mixtos (GLMM), NN, redes bayesianas (BN) y procesos gaussianos (GP). El flujo metodológico consistió en extraer los datos de fuentes de libre acceso y procesarlos en softwares dedicados al manejo de información georreferenciada, entrenar los modelos en distintas plataformas, y finalmente, analizar los datos de manera independiente utilizando distintos softwares. Aunque este sistema parece un protocolo de investigación razonable, algunos modelos fueron imple- mentados de manera limitada debido a la falta de poder computacional (i.e., NN). En el caso de las redes neuronales implementadas, Mayfield et al. (2017) consideraron de 1 a 2 capas ocultas con 30 a 60 neuronas, arquitectura relativamente limitada si se compara con los modelos del estado del arte. Esta limitación se debe a que la información geoespacial, aśı como los modelos seleccionados, son complejos de implementar y, sobretodo, hacen que la iteración por la búsqueda de los mejores parámetros sea tediosa. El sistema utilizado por Mayfield et al. (2017) muestra que la complejidad de un estudio puede escalar debido a la necesidad de utilizar distintas plataformas de trabajo y a los largos tiempos de computo, un problema que viene siendo solucionado por la computación en la nube. De acuerdo al Instituto Nacional de Estándares y Tecnoloǵıa (NIST), la computación en la nube (cloud computing en inglés) se define como un modelo diseñado para permitir el acceso on-demand a una gama de recursos computacionales configurables (e.g., redes, servidores, almacenamiento, aplicaciones y servicios) que pueden ser rápidamente provisionados y distribuidos con el mı́nimo esfuerzo de gestión o interacción con el distribuidor del servicio (Ahmad Bhat et al., 2011). De esta forma, en la última década se han venido implementado diversas plataformas de procesamiento en la nube (i.e., Google Cloud Plataform, Azure, Amazon Web Service) que han permitido a la comunidad cient́ıfica facilitar la expansión de las barreras computacionales de la investigación. En lo referido al GIS, la novedosa plataforma Google Earth Engine (Gorelick et al., 2017) utiliza los servicios de computación en la nube para realizar computación paralelizada dedicada a operaciones con información georeferenciada. Esta plataforma cuenta con su propio interfaz de programación de aplicaciones (API por sus siglas en inglés) y tiene almacenado petabytes de imágenes satelitales de diversas fuentes públicas. Desde su aparición en 2015, diversas contribuciones de relevancia fueron realizadas. Por ejemplo, mapas de deforestación de alta resolución a escala mundial (Hansen et al., 2013), detección de áreas incendiadas en toda América Latina (Bastarrika et al., 2018), mapeos de la superficie urbana mundial (Liu et al., 2018), entre otros. 2.3. Métodos de cálculo de emisiones de gases de efecto invernadero Existen diferentes métodos propuestos por el IPCC para la estimación del contenido de carbono superficial en los diferentes tipos de superficie (IPCC, 2006). Estos métodos clasifican los distintos tipos de suelos y otorgan un contenido de carbono de acuerdo a determinadas caracteŕısticas del suelo. Aunque estos métodos son utilizados mundialmente para la construcción de los Inventarios Nacionales de Gases de Efecto Invernadero, carecen de resolución espacial y utilizan información promedio. En contraste, Asner et al. (2014) presentaron mapas de densidad de carbono superficial de 1 hectárea de resolución del territorio peruano. Estos mapas fueron construidos utilizando información de sensores LiDAR y sobrevolando toda la Amazońıa. Para ello, los autores tomaron muestras del contenido de carbono en 1 hectárea y del espectro de la muestra para ingestarlos en un modelo de aprendizaje automatizado (i.e., random forest) (Mascaro et al., 2014). Este mapa representa la aproximación más precisa del contenido de carbono superficial del territorio nacional. En lo que respecta a la estimación de gases de efecto invernadero, el criterio aceptado y utilizado por la comunidad cient́ıfica es el propuesto por el IPCC (IPCC, 2006). Estos lineamientos sugieren el uso de factores de caracterización para expresar las emisiones en una unidad única de medición 16 denominada CO2eq. Esta unidad expresa el potencial de cambio climático tomando como referencia 1 kg de CO2 gaseoso. El desaf́ıo en el cálculo de las emisiones de gases de efecto invernadero está en determinar las cantidades y los tipos de gases que son emitidos en los procesos estudiados. Larrea- Gallegos et al. (2017) midió los impactos del CO2 y el CH4 de cada hectárea deforestada. Sin embargo, el fin de vida de cada árbol deforestado es incierto ya que este puede ser utilizado como madera de mueble, quemado como combustible, o simplemente dejado de lado para su descomposición natural. En el estudio de Larrea-Gallegos et al. (2017) se determinó que los residuos de desbroce eran dejados de lado para su descomposición. En ese caso, se consideró que el 97.03 % del carbono se transformaba en CO2 y el resto en CH4. En lo que refiere al cálculo del contenido de carbono en el suelo, este fue estimado a partir del contenido de carbono superficial, siguiendo las recomendaciones y el modelo propuesto por Saatchi et al. (2011). Finalmente, debido a que se consideró todo el ciclo de vida, los autores asumieron que, eventualmente, el carbono contenido en la biomasa terminaŕıa siendo emitido al medio ambiente. Este último criterio obedece al periodo de análisis seleccionado como parte de la metodoloǵıa de propuesta por el IPCC (i.e., 100 años). 17 Caṕıtulo 3 Materiales y métodos 3.1. Construcción de modelos de predicción de deforestación 3.1.1. Selección de las zonas y sub-zonas de análisis La región de interés (denominada ROI de ahora en adelante) está delimitada por toda el área del Bioma Amazónico comprendida dentro del territorio peruano. La definición de este Bioma obedece a la delimitación determinada en la clasificación de ecorregiones realizada por Olson y Dinerstein (2002). La ROI tiene una extensión aproximada de 700 mil km2 e incluye porciones de los territorios de los departamentos de Amazonas, Loreto, San Mart́ın, Huánuco, Ucayali, Pasco, Juńın, Cusco, Madre de Dios y Puno (ver Figura 3.1). De igual forma, la ROI elegida es de particular importancia debido a que esta incluye a los más importantes Parques Nacionales, como el Parque Nacional del Manu o el Parque Nacional Sierra del Divisor. Alrededor del 63 % del territorio nacional es considerado como superficie arbórea (OECD, 2015); no obstante, se espera que importantes proyectos de infraestructura e inversión se ejecuten en la zona de estudio en los próximos 10 años (e.g., el tren Bioceánico y la carretera nacional PE-4S) (Gestión, 2015;2018). Adicionalmente, en los últimos años se ha detectado un incremento considerable de producción agŕıcola. Mucho de esto está directamente vinculado con la expansión de plantaciones de palma aceitera (Vijay et al., 2018), aśı como el aumento de la agricultura de pequeña escala (Ravikumar et al., 2017). Esta ROI incluye también las zonas de afectación minera localizadas en el departamento de Madre de Dios. Estas areas son de particular interés debido a que la deforestación de la zona está también asociada a emisiones de contaminantes altamente tóxicos como el mercurio (Asner et al., 2013; Kahhat et al., 2019). Aunque la extensión del ROI es vasta, las zonas en donde la tasa de deforestación se ha incrementado se encuentran focalizadas e idenficadas (Finer et al., 2018) De igual modo, existe una clara diferencia entre los factores de deforestación dependiendo de la ubicación geográfica que se observe, por lo que existe una motivación intŕınseca haćıa sub-dividir el ROI. Este enfoque que busca analizar la problemática tomando en cuenta la regionalización ha sido aplicado por otros autores, aunque de diferente manera (Delgado, 2008). En este sentido, en esta investigación se partirá del supuesto a priori de que existe una clara heterogeneidad entre las distintas regiones en las que ocurre deforestación, por lo que se propuso la siguiente hipótesis SH4. Hipótesis 4 (SH4): No existe un modelo generalizable para toda la Amazońıa peruana que considere todas las variables asociadas a la deforestación y tenga un alto nivel de predicción. La premisa de la inexistencia de un modelo completamente generalizable para toda la Amazońıa motiva la fragmentación del ROI en zonas (denominadas clusters de ahora en adelante) cuya cantidad y ubicación son inicialmente desconocidas. Debido a que el fénomeno de interés es la deforestación, se comenzó proponiendo una cantidad arbitraria k de clusters de deforestación utilizando la información proveniente del Mapa de Cambio de Covertura Arbórea de Hansen Hansen et al. (2013). Este plantea- miento motiva a agrupar el territorio de estudio en una cantidad de clusters lo suficientemente grande para que las caracteŕısticas sean similares y se maximice la predictibilidad. Sin embargo, el número de 18 Figura 3.1: Región de Interés seleccionada del Bioma Amazónico cluster debe ser el menor posible, de modo que los modelos tengan un mı́nimo nivel de generalización y sean prácticos en su implementación. Para esto, se utilizó el algoritmo de K-medios para clasificar los ṕıxeles de deforestación en 8 grupos o clases. K-medios es un algoritmo de clasificación no supervisada que agrupa los datos en K clases. En este caso, la distancia estad́ıstica (i.e., distancia euclidiana) del ṕıxel clasificado a la media del resto de ṕıxeles de su clase es menor que la distancia al resto de medias de otras clases (Witten et al., 2017). El cálculo de las medias toma en cuenta las variables latitud, longtitud y altura de los casos de cambio de cobertura arbórea en el periodo 2010-2017 Hansen et al. (2013). La Figura 3.2 muestra un ejemplo gráfico de la secuencia iterativa del algoritmo de kmeans. Se puede observar que la posición de los puntos iniciales vaŕıa durante cada iteración hasta converger a un punto que representa la media del grupo correspondiente. Figura 3.2: Representación gráfica del algoritmo de K-medios. Adaptado de Witten et al. (2017) 19 La Figura 3.3 permite apreciar que las zonas resultantes son similares en ubicación y altitud. Esta selección permitió definir zonas de estudio que compartieron un criterio homogéneo de selección. Este agrupamiento responde no solo a la necesidad de analizar previamente la distribución de los datos, sino a que es computacionalmente conveniente trabajar con modelos de tamaño reducido en las primeras etapas de entrenamiento. El valor de k fue aumentando desde 4 hasta 8, siendo este último el número final de clusters elegido. Esta selección fue arbitraria pero estuvo condicionada por una revisión de las carácteŕısticas de las zonas deforestadas. Se descartaron 3 de las 8 regiones agrupadas debido a que estas conteńıan a muy poca cantidad de ṕıxeles y se asumió que no eran relevantes para el análisis. En la tabla 3.1 se indican los clusters elegidos y se incluye una breve descripción de estos. Finalmente, es importante señalar que, debido a la naturaleza del algoritmo de K-medios, la pertenencia de cada ṕıxel a un determinado cluster puede ser diferente en cada iteración. Esto quiere decir que la repetición del algoritmo no genera, necesariamente, los mismos resultados. Sin embargo, se observó que en distintas iteraciones, los clusters tienden a converger a determinadas zonas y son solo pocos ṕıxeles los que alternan de zonas en cada iteración. En este sentido, se consideró que la replicabilidad del estudio no se ve afectada por el uso de este algoritmo de agrupamiento. Figura 3.3: Ubicación de los clusters obtenidos con el algoritmo de K-medios. Los distintos colores indican diferentes clusters . 3.1.2. Recolección y procesamiento de datos Para construir la base de datos del modelo se utilizó un Sistema de Información Geográfica (GIS, por sus siglas en inglés) con información georreferenciada de libre acceso. Este tipo de información se caracteriza por poseer una estructura en la que los datos pueden ser atribuidos a una o múltiples ubicaciones geográficas espećıficas. Dicho de otro modo, las dos dimensiones correspondientes a cada coordenada (i.e., latitud y longitud) pueden ser expandidas si se adicionan más dimensiones (e.g., altu- 20 Tabla 3.1: Descripción de clústers analizados en la investigación Clúster Código Descripción 1 C1 Comprende principalmente la región de Madre de Dios. Incluye deforestación por zonas mineras. 3 C3 Agrupa la deforestación ocurrida en los alrededores de las ciudades de Iquitos y Nauta. Incluye deforestación por inundaciones. 4 C4 Agrupa la deforestación ocurrida en los alrededores de Pucallpa. Se considera la deforestación por aumento de plantaciones de palma aceitera. 6 C6 Este cluster contiene a la deforestación ocurrida en la zona sur de Ucayali, al noreste de la región Cusco. 8 C8 Resulta de la combinación de la deforestación ocurrida en Yurimaguas y la deforestación en la fronte de Amazonas y Loreto. Perú CT Este clúster representa el agrupamiento de la deforestación de los 5 clústers antes descritos. ra, temperatura, entre otros) (Gold, 2016). Para manejar y visualizar estos datos multidimensionales se utilizaron las herramientas QGIS v2.18 (QGIS, Development Team, 2009) y Google Earth Engine (Norelick et al., 2017). El primero es un software GIS de escritorio de código abierto; y el segundo, una plataforma basada en la nube destinada al análisis de información georreferenciada. Dependiendo del tipo de análisis que se desee realizar, la información espacial se representa, principalmente, mediante dos tipos de modelos: los modelos de grillas ráster y los modelos vectoriales. El primero puede des- cribirse como un conjunto de valores ordenados en filas y columnas en un plano bidimensional donde cada celda, también denominado pixel, posee un par de coordenadas y puede almacenar más valores (Mclnerney y Kempeneers, 2014). Una fotograf́ıa digital convencional, por ejemplo, está representada a través de un modelo de grillas ráster debido a que cada ṕıxel almacena 3 valores, cada uno corres- pondiente a la reflectancia de las bandas rojo, verde y azul. En el caso del segundo tipo de modelo, los datos espaciales se representan como vectores que cuentan con una coordenada de inicio y otra de final. Estos objetos pueden ser puntos, ĺıneas o poĺıgonos y sus caracteŕısticas son almacenadas en una tabla de atributos (Mclnerney y Kempeneers, 2014). La Figura 3.4 muestra la diferencia entre estos dos modelos. En lo que se refiere a los datos utilizados, estos provienen de distintas fuentes de libre acceso y se encuentran en formatos ráster y vectorial. La finalidad del uso de estos datos espaciales es poder extraer distintas variables predictoras para realizar una estimación atribuida a una sola coordenada; sin embargo, como se puede intuir, los datos pueden tener formatos incompatibles entre ellos debido a que utilizan diferentes modelos de representación. En este sentido, se decidió transformar los datos vectoriales a datos ráster a través de un proceso denominado rasterización. Por más que la nueva base de datos posea un formato homogéneo, la determinación de variables puede requerir un procesamiento adicional. Por ejemplo, en ciertos casos, la variable predictora podŕıa corresponder directamente al tipo de dato obtenido de la fuente; en otros, puede ser necesario implementar algún algoritmo adicional que permita obtener la variable de interés a partir de los datos ráster originales, como sucede con los mapas viales. En este caso, los datos de ubicación de carreteras son inútiles si no se interpreta que la cercańıa a estas v́ıas puede ser un factor determinante en la deforestación; ergo, se debe generar la variable çercańıa a carretera”. Esta heuŕıstica que busca transformar los datos para obtener más información se denomina ingenieŕıa de caracteŕısticas, y es en algunos casos, el factor determinante en el éxito de la construcción de modelos. La Tabla 3.2 indica los nombres de las bases de datos consultadas y sus metadatos (i.e., resolución, temporalidad y tipo de modelo). Aunque muchos de los fenómenos asociados a la deforestación han sido identificados, la tarea de seleccionar las mejores variables en la elaboración de un modelo no resulta trivial ya que en muchos casos el nivel de predictibilidad puede depender de una buena selección de estas (Reid Turner et al., 21 Figura 3.4: Representaciones de puntos, ĺıneas, y poĺıgonos utilizando un modelo ráster (derecha) y un modelo de vectores (izquierda) (extráıdo de Mclnerney y Kempeneers (2014)) Tabla 3.2: Metadatos de la información georreferenciada utilizada Nombre Tipo Fuente Resolución(m/px) Temporalidad Cambio de cobertura arbórea Ráster Hansen et al. (2012) 30 2010-2017 Mapa vial del Perú Shape MTC(2016) NaN 2017 Áreas Naturales Protegidas Shape MINAM (Ministerio del Ambiente) NaN 2010-2017 Pueblos y ciudades del Perú Shape MTC(2016) NaN 2017 Digital Elevation Model Ráster USGS 30 NaN 1999; Guyon et al., 2003). De hecho, a lo largo de la última década, los estudios de deforestación han ido adicionando nuevas variables, algunas de estas resultantes de la transformación de variables plenamente conocidas a partir de la transformación de datos ya existentes. La Tabla 3.3 muestra un resumen de las variables más utilizadas en modelos de predicción y análisis, tanto estad́ısticos como de aprendizaje automatizado, encontrados en la literatura. En la mayoŕıa de los casos, el descarte, selección o transformación de variables no responde a criterios únicamente arbitrarios, sino que depende de las restricciones del tipo de modelo seleccionado y de la precisión que se alcance en las etapas de entrenamiento y validación. La selección del tipo de modelo depende de la cantidad de datos y variables disponibles, y en la mayoŕıa de casos, mientras más se conozca el fenómeno que se desea predecir, más sencilla será la selección de un modelo adecuado. Esta lógica corresponde al adagio: there ain’t no such thing as a free lunch, que dice, en resumen, que no existe un solo modelo que funcione o sea generalizable para todos los casos; lo que implica que cada fenómeno requiera un modelo particular (Wolpert, 1996; Domingos and Pedro, 2012). 22 Tabla 3.3: Variables utilizadas en la construcción de modelos Variables Rango Resolución Fuente Utilización previa Densidad de car- bono (MgC) [0,135] 100m/px Asner et al. (2014) NaN Cambio de cobertu- ra arbórea [0,1] 30m/px Hansen et al. (2015) NaN Altura (m) [0,6000] 30m/px USGS Mayfield et al. (2015), Bax et al. (2016) Distancia a centro urbano (km) [0,15] 30m/px MTC Mayfield et al. (2015), Bax et al. (2016), Mas et al. (2004) Distancia a ANP [0,15] 30m/px MINAM (Ministerio del Ambien- te) Mayfield et al. (2015), Barber et al. (2014) Distancia a ZA [0,15] 30m/px MINAM (Ministerio del Ambien- te) Barber et al. (2014) Distancia a carrete- ra nacional [0,15] 30m/px MTC Mayfield et al. (2015), Barber et al. (2014), Mas et al. (2004) Distancia a carrete- ra departamental [0,15] 30m/px MTC Mayfield et al. (2015), Barber et al. (2014), Mas et al. (2004) Distancia a carrete- ra vecinal [0,15] 30m/px MTC Mayfield et al. (2015), Barber et al. (2014), Mas et al. (2004) Distancia a cual- quier v́ıa [0,15] 30m/px MTC Barber et al. (2014) Latitud [-70,-71] 100m/px Earth Engi- ne Mayfield et al. (2015), Mas et al. (2004) Longitud [-8,-12] 100m/px Earth Engi- ne Mayfield et al. (2015), Mas et al. (2004) Las variables propuestas buscan contener la mayor información de cada observación y que a su vez contribuyan a la capacidad predictiva del modelo. A continuación se describirá brevemente las caracteŕısticas de las variables utilizadas: Densidad de carbono: Esta variable corresponde a los datos obtenidos directamente del Mapa de Densidad de Carbono elaborado por Asner et al. (2014). Este mapa ráster contiene en cada ṕıxel el valor del contenido de carbono superficial correspondiente. Este valor es, hasta el momento, la mejor aproximación a la densidad de carbono real del territorio peruano encontrado en la literatura. El mapa fue elaborado utilizando información LiDAR (i.e., detección de distancias mediante laser) obtenida a partir de sobrevuelos realizados al territorio peruano. El modelo utilizado (i.e., random forest) utilizó datos reales tomados de distintas zonas de estudio a lo largo de toda la Amazońıa para ser entrenados (Mascaro et al., 2014). Finalmente, el mapa resultante contiene información a una resolución de 100 metros y viene siendo utilizada por el Gobierno y la academia. Cambio de cobertura arbórea: Esta variable es obtenida a partir del Mapa Global de Cambio de Bosques, producido por Hansen et al.(2014), que se encuentra disponible en la plataforma de GEE. Este mapa ráster fue construido utilizando modelos de aprendizaje automatizado a partir de muestras de zonas deforestadas tomadas en campo. Interesantemente, este mapa fue la primera implementación de GEE en un proyecto de investigación y contiene información global de cambio de cobertura arbórea. Para esta investigación se utilizó la versión 1.5 del mapa que incluye estimaciones de desforestación 23 producidas en el periodo 2000-2017. La imagen multibanda contiene datos espectrales de cada ṕıxel para los años 2000 y 2017. De igual forma, la información indica el año en el que el ṕıxel fue deforestado. Se seleccionaron todos los ṕıxeles deforestados en el periodo 2000-2017 y sus caracteŕısticas expresadas de forma binaria (i.e., 0: no deforestado y 1: deforestado). Altura: Esta variable corresponde a un mapa global de elevación digital (DEM, por sus siglas en inglés). Este DEM fue elaborado por Farr et al.(2007) utilizando los datos obtenidos por el Shuttle Radar Topography Mission (SRTM, por sus siglas en inglés). El mapa ráster muestra la topograf́ıa del planeta a un resolución de 30 metros tomada el mes de febrero del año 2000. Los valores contenidos en cada ṕıxel se encuentran en el rango de 0 a 8700 metros y, para esta investigación, solo se enmascaró la zona de estudio delimitada por el territorio peruano. Distancia a centro poblado: Esta variable indica la distancia euclidiana, en metros, hacia el centro poblado más cercano. Esta distancia se encuentra en el rango de 0 (si el ṕıxel se ubica exactamente en el pueblo) y 300000 metros. Los centros poblados considerados son todos aquellos registrados por el MTC (2018), incluyendo centros poblados urbanos y rurales. Distancia a ANP: Esta variable indica la distancia euclidiana, en metros, hacia el Área Natu- ral Protegida más cercana. Estas áreas se definen como espacios destinados a conservar la diversidad biológica y demás valores asociados de interés cultural, paisaj́ıstico y cient́ıfico (Resolución Presidencial 57-2014-SERNANP). En este sentido, se consideraron todas las ANP incluidas en MINAM (Ministerio del Ambiente). Se decidió considerar el efecto de las ANP en el modelo debido a la existencia de evi- dencia cient́ıfica que señala que estas zonas generan un efecto de mitigador de deforestación (Cropper et al., 2001; Miranda et al., 2014; Barber et al., 2014). Esta variable se encuentra en un rango de 0 (si el ṕıxel se encuentra en el ANP) y 100000 metros. Distancia a ZA: La distancia a una Zona de Amortiguamiento indica la distancia euclidiana, en metros, a la zona que se encuentra adyacente a una ANP y está destinada a garantizar su protección (Resolución Presidencial 57-2014-SERNANP). Esta zona es un espacio de transición entre las ANP y las zonas no protegidas en el que las actividades son controladas (e.g., agricultura, urbanización, entre otros). Esta variable es considerada de relevancia debido a que en los últimos años se ha puesto en debate la utilidad de estas áreas como elementos garantizadores de protección de las ANP (Weisse and Naughton-Treves, 2016). Distancia a carretera nacional: Esta variable indica la distancia euclidiana hacia la carretera nacional más cercana. Esta denominación es otorgada por el MTC y corresponde a la clasificación establecida en el Mapa Vial Nacional (DECRETO SUPREMO 011-2016-MTC). Las carreteras na- cionales se dividen en longitudinales y transversales. Las primeras conectan las fronteras norte y sur del páıs; mientras que las segundas, la costa y la selva. Estas infraestructuras son diseñadas teniendo en cuenta altos valores de Índice Medio Diario Anual (unidad de medición de tráfico) y son siempre asfaltadas. Estas v́ıas son relevantes desde la perspectiva tomada por esta investigación debido a que se tiene registro de los efectos que la carretera transversal PE - 30C ha generado en la tasa de defores- tación de las zonas adyacente a su trayectoria (i.e., carretera interoceánica Perú y Brasil) (Delgado, 2008). Adicionalmente, se cuenta con información de los trazos de futuras carreteras nacionales que serán construidas en los próximos años. Distancia a carretera departamental: Esta variable tiene las mismas caracteŕısticas que Distan- cia a cerretera nacional pero considerando que la distancia es calculada a una carretera clasificada como departamental. Estas carreteras se encuentran bajo jurisdicción de cada Gobierno Regional y complementan la función de las carreteras nacionales. El objetivo de estas carreteras es garantizar la continuidad en la comunicación de los departamentos colindantes (DECRETO SUPREMO 011-2016- MTC). 24 Distancia a carretera vecinal: Al igual que los casos anteriores, esta variable resulta del cálculo de la distancia a una carretera clasificada como vecinal. Estas carreteras tienen como función unir los principales centros poblados y centros de producción entre ellos, y con el resto del páıs. Estas v́ıas son responsabilidad de los Gobiernos Locales e pueden indicar el último punto de una ruta. En este caso, la relevancia de esta variable se debe a la naturaleza expansiva de este tipo de v́ıas. Dicho de otro modo, las carreteras vecinales suelen construirse constantemente, en muchos de los casos, al margen de la ley y, dependiendo de la zona, pueden estar destinadas exclusivamente a actividades iĺıcitas (Gallice et al., 2017). Estas infraestruturas no están diseñadas para tolerar un alto IMDA y, dependiendo de su ubicación, pueden ser pavimentadas o no. Existe evidencia cient́ıfica que la construcción de estas carreteras puede estar ligada a grandes emisiones de gases de efecto invernadero, sobre todo si estas se localizan en la Amazońıa (Larrea-Gallegos et al., 2017). A diferencia de las carreteras nacionales y departamentales, el Plan Vial Nacional no considera los futuros proyectos de construcción. En este sentido, la expansión v́ıal, vista desde este nivel, responde a motivaciones de los agentes interesados que se expresa a través de los presupuestos participativos y la intervención de la sociedad. Distancia a cualquier v́ıa: Esta variable resulta del calculo de la distancia a cualquiera de los tres tipos de carreteras antes mencionadas. La presente investigación incluyó esta variable para determinar si su participación tendŕıa alguna influencia en los resultados. Latitud y Longitud: Estas variables indican la ubicación geográfica de cada observación y fueron propuestas con la finalidad de considerar las caracteŕısticas locales en cada uno de los modelos a implementar. Finalmente, con este conjunto de rásters de una sola banda fue agrupado para construir un ráster final multibanda. Este último se puede interpretar como una base de datos estructurada en la que cada ṕıxel es una observación y cada banda una variable. En este sentido, el entrenamiento y valida- ción de los distintos modelos fue realizado utilizando una muestra de esta gran base de datos. Para ello, se utilizó una técnica denominada muestreo estratificado. La caracteŕıstica estratificada de esta operación se debe a que se dividió la capa en 2 estratos correspondientes a las clases que se desean predecir (i.e., deforestado y no deforestado) y se seleccionó una muestra aleatoria de cada estrato con la misma cantidad de puntos. Este enfoque estad́ıstico ha sido ampliamente utilizado en la estimación del cambio de uso de suelos, sobretodo debido a la existencia de datos desbalanceados (Stehman, 2012; Olofsson et al., 2014). Esta estrategia permite equilibrar la distribución de los datos de entre- namiento, maximizando la cantidad de observaciones de la clase de interés y equiparando esta con las observaciones de la clase complementaria. El fenómeno de deforestación es un ejemplo en el que una de las clases binarias (i.e., deforestado) tiene una muy escasa ocurrencia en comparación con la clase complementaria (i.e., no deforestado). Esta desproporción de los datos ocasiona que el modelo se encuentre sesgado a predecir con mayor precisión la clase de mayor ocurrencia (i.e., no deforestado) y no la clase de interés (i.e., deforestado) (Chawla, 2009; Haibo He and Garcia, 2009; Mayfield et al., 2017). Finalmente, se seleccionó el 80 % de los datos para ser utilizados en el entrenamiento y la validación, y el 20 % restante fue designado como grupo de prueba. Este grupo de entrenamiento y validación fue a su vez dividido en 2 partes iguales, esto con el fin de ser utilizado en el proceso de validación propio del entrenamiento. El flujo metodológico de los procedimientos seguidos en el procesamiento y selección de datos está representado graficamente en la Figura 3.5. 25 Figura 3.5: Flujo metodológico del procesamiento y la preparación de los datos espaciales Con el uso de las variables antes descritas, se construyeron los modelos y se consideró a la defores- tación como una variable binaria a predecir de clases 0 y 1, en donde la clase 1 indica la ocurrencia de deforestación. La principal ventaja de contar con los datos en forma de imagen de 11 bandas es que es posible realizar remuestreos o modificar el mecanismo de muestreo de puntos. En otras palabras, la máxima cantidad de datos de entrenamiento está determinada por los ṕıxeles contenidos en la imagen, en este caso, todo el territorio peruano. De igual forma, la simulación de nuevos escenarios requiere únicamente de la incorporación de la información espacializada que se desee simular (i.e., nuevas ca- rreteras) para generar un nuevo conjunto de datos de predicción. Esta representación geográfica de los datos permite visualizar la distribución de las predicciones y explicar el comportamiento de la poten- cial deforestación incluso para un público no especializado en el tema. Finalmente, la representación gráfica del muestreo estratificado y de la designación de datos para el entrenamiento y validación se aprecia en la Figura 3.6. Figura 3.6: Esquematización del proceso de muestreo estratificado y designación de los grupos de entrenamiento y prueba. Se extrae la misma cantidad de muestras deforestadas y no deforestadas de una imagen multibanda. 26 Para cada cluster se construyó una zona de influencia de aproximadamente 50 km alrededor de todas las carreteras. Esto con la finalidad de reducir la computación innecesaria en zonas dónde no existe actividad ni influencia de las variables de interés. Finalmente, se muestrearon veinte mil puntos de la zona de influencia de cada cluster. 3.2. Construcción y validación de modelos de predicción El desempeño de un modelo se mide a través de su error de clasificación. Este error tiene dos componentes principales que se pueden controlar durante la construcción del modelo: el sesgo y la varianza. El sesgo determina la precisión, o cuan cerca se encuentran las predicciones del valor real; y la varianza, la precisión del modelo cuando es probado con diferentes conjuntos de datos. Estos dos componentes suelen ser inversamente proporcionales, por lo que se espera que el modelo elegido tenga un adecuado equilibrio sesgo-varianza (Zhang and Ma, 2012). Alcanzar este equilibrio permite tener un modelo con una precisión adecuada y que al mismo tiempo sea lo suficientemente generalizable. En este caṕıtulo se describirán las caracteŕısticas y el proceso seguido en el entrenamiento y validación de los modelos, en los que se tomará la búsqueda del equilibrio sesgo-varianza como principal criterio de aceptación de un modelo. La heuŕıstica detrás de la búsqueda de los mejores parámetros será la misma en cada uno de los clústers seleccionados. A continuación se describirá brevemente las caracteŕısticas fundamentales de los 4 modelos utilizados en esta investigación. 3.2.1. Regresión loǵıstica El modelo de regresión loǵıstica es un modelo de clasificación que pertenece a la familia de los modelos lineales generalizados (GLM). Este tipo de modelo permite realizar clasificación de variables binarias o dicotómicas y es una extensión del modelo lineal convencional. La mencionada generalización se produce cuando el predictor lineal ∑p j=1 xjβj , con p covariables x y parámetros β, es introducido en una función de enlace g(·). Esta función de enlace relaciona el predictor lineal con el valor esperado µ de la variable aleatoria a predecir Y (McCullagh and Nelder, 1989). En este sentido, el modelo generalizado tiene la forma mostrada en la ecuación 3.1 µ = g( p∑ j=1 xjβj) (3.1) En un modelo lineal convencional, la función de enlace corresponde a la función identidad, por lo que µ es igual al predictor lineal. Sin embargo, de acuerdo a la naturaleza de la variable de respuesta, esta función de enlace puede ser diferente (e.g., exponencial, sigmoide, entre otros) (Hosmer et al.). En el caso particular de los problemas de clasificación binaria se espera que µ sea entero y se encuentre en el rango de [0, 1]. En este caso, la función de enlace utilizada es la sigmoide, que permite tener un rango de [0, 1] en un dominio entre [−∞,∞]. La ecuación 3.2 muestra la expresión análitica de la regresión loǵıstica. µ = 1 1 + e− ∑p j=1 xjβj (3.2) Como se puede observar en el plano cartesiano (ver figura 3.7), la función sigmoide es continua, monótona, y asintótica. Esto quiere decir que el rango de esta función tiende a 0 y 1 cuando el predictor lineal tiende a −∞ y ∞, respectivamente. Debido a esta condición, el valor estimado nunca alcanzará los valores extremos del rango ni será entero. En este sentido, en un problema de clasificación, el resultado de esta función puede interpretarse como la probabilidad que tiene una observación de pertenecer a determinada clase, donde un valor cercano a 1 es un indicador de alta probabilidad. Cuando se desea evaluar el desempeño de la clasificación, se considera que una observación es de una clase solo si supera un determinado umbral. En este caso, es usual tomar 0.5 como umbral de clasificación, aunque este valor podŕıa ajustarse dependiendo del desempeño del modelo. 27 Figura 3.7: Representación gráfica de una función loǵıstica en el plano cartesiano. La estimación de los parámetros más adecuados del modelo se suele realizar mediante el método de máxima verosimilitud. Con este método se buscan los parámetros que maximicen una función de verosimilitud construida con los datos observados y se suele requerir del uso de herramientas computacionales durante su resolución. Un descripción clara y didáctica de las propiedades de la regresión loǵıstica y los algoritmos de estimación de parámetros pueden encontrarse en Hosmer et al. y McCullagh and Nelder (1989). 3.2.2. Random forest Random forest es un método de clasificación y regresión que resulta del ensamblaje de múltiples árboles de decisión. En este sentido, es importante primero comprender las propiedades de estos árboles. Los árboles de decisión son herramientas muy utilizadas en el aprendizaje automatizado y poseen una estructura jerárquica, similar a la de un árbol. El objetivo de este árbol es permitir la predicción de un resultado solo mediante el recorrido de los distintos niveles de jerarqúıa del árbol. Dicho de otra forma, la predicción se logra siguiendo el camino de las ramas, o divisiones, desde la raiz hasta los nodos u hojas finales. En la figura 3.8 se puede apreciar una representación gráfica de un árbol de decisión. En esta se puede observar que cada nodo se bifurca de acuerdo a determinado criterio de división. El primer nodo superior suele ser denominado raiz ; mientras que los últimos nodos inferiores suelen llamarse hojas. Si se recorre el árbol desde la raiz a hasta las hojas se podrá determinar la clase que se desee predecir. Nótese que cada nivel del árbol construye un clasificador lineal. La combinación de estos múltiples clasificadores lineales permite obtener predicciones incluso en problemas de clasificación no separables linealmente. Adicionalmente, estos árboles son populares debido a que, por la naturaleza jerárquica de las divisiones, son robustos frente a los valores at́ıpicos e insensibles a transformaciones monotónicas de las variables (Cutler et al., 2012) 28 Figura 3.8: Ejemplo gráfico de un árbol de decisión. El árbol construido genera multiples separaciones binarias para determinar la clase a la cual pertenece el dato a predecir. Extráıdo de Loh (2011) Como se puede notar, la clave en la construcción de un árbol de decisión se encuentra en selecciónar un adecuado criterio de divisón. Respecto a este último, existen dos métodos muy populares utiliza- dos en la literatura: CART (Breiman, 1984) y C4.5(Salzberg, 1994). En el primer caso, se utiliza la impureza de Gini como criterio de división. Como se ve en la ecuación 3.3, para una variable E con N clases, la impureza se acercará a 1 mientras exista heterogeneidad en los datos; mientras que en el caso contrario, se acercará a 0 mientras los datos sean más homogéneos. El árbol comenzará la división con la variable que tenga la mayor impureza. En el segundo caso, la entroṕıa es un indicador de la ganancia de información que se tiene al utilizar la variable E. Al igual que en el caso de la impureza de Gini, el árbol será construido siguiendo el orden de las variables con mayor ganancia de información. La ecuación 3.4 sirve para calcular la ganancia de información de una variable E con N clases. Gini(E) = 1− N∑ n=1 p2n (3.3) Entropia(E) = − N∑ n pn log pn (3.4) Random forest es, en esencia, una extensión del método baggings propuesto por Breiman (1996). baggings es la abreviación de bootstrap aggregation y consiste en la construcción de multiples árboles de decisión entrenados con sub-muestras del conjunto de entrenamiento obtenidos mediante bootstraping (i.e., muestreo aleatorio con repeticiones). La predicción resulta de la combinación (e.g., votación o promedio) de las predicciones realizadas por los distintos árboles. Random forest, propuesto por Breiman (2001), explota el concepto de baggings al construir los árboles con muestras bootstrap y seleccionando un sub-espacio aleatorio de variables para cada árbol. Los árboles entrenados tienen poco sesgo pero alta varianza. Sin embargo, el poder de este método radica en que la combinación de estos árboles genera una clasificación con bajo sesgo y poca varianza. El ensamble de árboles de decisión no tiene, necesariamente, un mejor desempeño que el mejor árbol dentro del bosque de clasificadores; sin embargo, al promediar los resultados de muchos árboles se reduce la probabilidad de tener un solo árbol con poco desempeño (Zhang and Ma, 2012). 29 Figura 3.9: Representación gráfica de un modelo de random forest. Adaptado de Verikas et al. (2016) 3.2.3. Redes Neuronales Artificales Las redes neuronales artificiales (ANN, por sus siglas en inglés) son configuraciones de operaciones secuenciales que permiten computar información utilizando una arquitectura inspirada en el funcio- namiento cerebral del ser humano. El objetivo del uso de estas arquitecturas es modelar fenómenos mediante el entrenamiento o calibración de la misma a partir de observaciones de la realidad. Este tipo de modelo goza en la actualidad de mucha popularidad debido a su capacidad de modelar fenómenos con comportamientos no lineales. Sin embargo, pese a este rampante aumento de interés, las ANN ya eran estudiadas desde inicios de los años 50. Es en McCulloch and Pitts (1943) donde se propone por primera vez una estructura de resolución lógica similar al comportamiento sináptico del cere- bro humano. Aunque existió un entendible revuelo al respecto en aquellos años, estos prometedores modelos fueron siendo dejados de lado debido a su restringida capacidad para entrenarse o resolver determinados problemas. No fue sino hasta la primera década del 2000 en el que el uso de las ANN se popularizó debido a los sorprendentes resultados obtenidos en los campos de la visión computacional, el reconocimiento de voz, la generación de textos, entre otros (Alom et al., 2018). Desde entonces, las ANN han ido evolucionando en su estructura y en su capacidad de abstraer fenómenos de la realidad. De acuerdo a Bebis and Georgiopoulos (1994), las ANN se pueden definir, formalmente, como un sistema que mapea una función no lineal ŷ = G(x). Esta función se construye durante la etapa de en- trenamiento y vincula los datos de entrada x con los datos de salida y mediante distintos parámetros. La hipótesis fundamental de este tipo de modelos es que existen, en teoŕıa, infinitas configuraciones de red que podŕıan mapear los valores de x a y. Encontrar la configuración adecuada que determine este mapeo es la tarea que otorga sentido al arte de la construcción de modelos ANN (Bebis and Georgiopoulos, 1994). Una ANN tiene tres elementos fundamentales en su estructura: una capa de entrada, una o más capas ocultas, y una capa de salida. Cada una de estas capas, a su vez, cuenta con elementos fun- damentales denominados neuronas. Utilizando el śımil propuesto por McCulloch and Pitts (1943), se puede decir que cada neurona recibe información de la combinación de la información de otras neuronas multipicadas por un determinado peso, referido también como la fuerza sinapsis. Para que esta neurona receptora env́ıe información a la siguiente neurona se requiere superar cierta valla. A esta valla requerida para continuar con la sinapsis se le denomina activación y determina si la neu- rona permitirá que el flujo de información continue (McCulloch and Pitts, 1943; Krogh, 2008). En la Figura 3.10 se representa la arquitectura más básica de una ANN, denominada perceptrón simple. En la primera capa del perceptrón las neuronas reciben los datos de entrada xi y son multiplicados por los pesos wi uno a uno, donde i es el número de variables. Como se ve en la figura, el grosor 30 de las ĺıneas representa el valor de w y refleja la importancia que la neurona receptora otorga a esa conexión. En la neurona receptora se realiza la sumatoria ∑ xiwi para finalmente ser introducida dentro de una función g(f(x))denominada función de activación (función sigmoidal para el ejemplo) que define cual será la salida final de la neurona. En el caso del perceptrón, la salida de la neurona final representa el valor estimado ŷ. A partir del entendimiento de esta arquitectura sencilla es posible construir arquitecturas mucho más complejas debido que, en escencia, toda neurona tendrá entradas y salidas de la forma expuesta anteriormente. Aunque esta comparación es didáctica, lo cierto es que esta representación no está ni cerca de la complejidad del funcionamiento del cerebro humano; por lo que su uso es una atribución tomada por el autor de esta tesis. Figura 3.10: Representación gráfica del perceptron simple La arquitectura de ANN profunda suele tener mucho más de una capa profunda y miles de paráme- tros. Una arquitectura de ANN profunda de un solo sentido (feedforward) puede verse en la Figura 3.11. La configuración que se designe a la red depende del tipo de problema planteado, de las carac- teŕısticas de los datos y de la respuesta que se esté buscando. En Van Veen (2016) puede encontrarse una clara descripción del desarrollo de las diversas arquitecturas de redes encontradas en la literatura. Figura 3.11: Arquitectura de una red ANN profunda en un solo sentido Cual fuese la configuración elegida en la construcción de una red, la estimación de los mejores parámetros se realiza mediante la optimización de una función de costo. Esta función depende de los 31 parámetros y se utiliza para penalizar los errores de predicción del conjunto de datos. La mayoŕıa de problemas de clasificación, hoy en d́ıa, entrenan los modelos con el método de máxima verosimilitud, por lo que la función de costo es el negativo de la log-verosimilitud (Goodfellow and Bengio, 2016) Esto es equivalente a utilizar la entroṕıa cruzada de los datos de entrenamiento y los datos estimados. En la Ecuación 3.5, N indica el conjunto de datos, n es una de las observaciones; y k, la clase correspondiente a esa observación. Eentropy = − N∑ n [tnk ln ynk + (1− tnk) ln(1− ynk )] (3.5) Finalmente, esta función de costo es optimizada, en practicamente la mayoŕıa de casos, utilizando un método llamado descenso de gradiente. Con este método se calculan las gradientes de la función de costo con respecto a cada parámetro del modelo. Posteriormente, cada parámetro es corregido sumandole su gradiente correspondiente escalada por un valor denominado tasa de aprendizaje. Este proceso iterativo busca, eventualmente, modificar los parámetros en dirección opuesta a la gradiente a fin de minimizar la función de costo. El cálculo de las gradientes se realiza utilizando un algoritmo denominado retropropagación y puede ser consultado en Hecht-Nielsen (1989). 3.3. Estimación de emisiones de GEI La estimación de las emisiones de gases de efecto invernadero se realizó utilizando los resultados obtenidos en los distintos modelos de regresión. Se estimó un nivel de corte óptimo para el mejor modelo. A partir de este valor se consideró si un pixel seŕıa deforestado o no. Finalmente, se sumaron todos los valores de densidad de carbono correspondientes a cada ṕıxel deforestado. La transformación del carbono total a CO2eq se realizó multiplicando el valor total por 3.66, factor de transformación obtenido a partir del peso molecular. La ecuación 3.6 muestra la operación de cálculo de emisiones de GEI, donde N es el número de ṕıxeles, c el contenido de carbono del ṕıxel n, y p la probabilidad de deforestación del ṕıxel n. CO2 = 3.66 N∑ n [cnpn] (3.6) 3.4. Implementación del sistema de trabajo en la nube La tangibilización del sistema de trabajo propuesto se realizó utilizando un proceso de adquisión y análisis de datos basado completamente en la nube. Este sistema utilizó la plataforma GEE para realizar los cálculos y los preprocesamientos requeridos, aśı como la importación y exportación de los mapas ráster en cada etapa del proyecto. Esta plataforma permite programar en el lenguaje javascript las distintas operaciones de forma declarativa, estas son posteriormente enviadas a los servidores de GEE para su cálculo y este último devuelve los resultados para ser visualizados (ver figura 3.12). El muestreo fue también realizado en esta plataforma y exportado a un bucket alojado en los servidores de Google Cloud Plataform. Desde este lugar, la información es llamada desde cualquier entorno de python siquiendo su dirección en la nube (i.e., ’gs//: ....’). En este sentido, los datos pudieron ser utilizados al mismo tiempo desde diferentes plataformas. Se utilizó Google Colab, un entorno ijupyter en la nube, como cuaderno de python3 para experimentar con los datos muestreados y se utilizaron tarjetas gráficas (GPUs) para acelerar los cálculos. La búsqueda de los hiperparámetros se realizó utilizando herramientas bastante exploradas en la literatura (Schratz et al., 2018). En este caso, se utilizó un método denominado búsqueda de grilla e iteraciones implementadas en el script de cómputo. Se utilizó la libreŕıa Scikit-learn (Pedregosa et al., 2011) para la experimentación con los modelos RF, NB y LR. Los modelos de redes neuronales fueron implementados utilizando las libreŕıas Tensorflow y Keras. Las tres libreŕıas están implementadas en python y fue en este lenguaje en el cual se realizó el análisis. 32 Figura 3.12: Captura de pantalla de el interfaz gráfico de Earth Engine. El recuadro 1 muestra el repositorio y la documentación. 2 muestra el cuaderno de trabajo. 3 muestra la consola donde se exhiben resultados numéricos y se realiza la depuración. 4 muestra la pantalla de visualización Una vez estimados los hiperparámetros adecuados, se regreso a Earth Engine para realizar la cla- sificación de los modelos pero escalados a todo el territorio nacional. Las imágenes clasificadas se almacenaron en la nube en formato TIFF y pueden ser visualizadas con cualquier explorador web. Para facilitar la difusión de los resultados, se implementó una aplicación de javascript que utilizá el API de Earth Engine. Esta aplicación permite visualizar los resultados desde cualquier explorador o aparato móvil sin necesidad detener una cuenta de Earth Engine o pagar por un servicio de Cloud Plataform. Finalmente, todo el flujo descrito en esta sección (ver Figura 3.13) fue utilizado en cada iteración de los distintos modelos a fin de que estos sean afinados. 33 Figura 3.13: Flujo operacional en la nube seguido durante la investigación Finalmente, en la Tabla 3.4 se muestran los modelos entrenados y la descripción de sus caracteŕısti- cas. Tabla 3.4: Descripción de los modelos analizados en este estudio Modelo Código Descripción Random forest RF Utiliza impureza de gini y 120 árboles. Naive Bayes NB – Regresión Loǵısti- ca LR Utiliza regularización l2, con parámetro B = 0.01 Red Neuro- nal NN256 Red con 6 capas ocultas de 256, 128, 64, 32, 16 y 8 nodos. Utiliza datos normalizados y una capa dropout. Red Neuro- nal NN60 Red con 4 capas ocultas de 60, 60, 30, y 8 nodos. Utiliza datos normalizados. 34 Caṕıtulo 4 Resultados y discusión 4.0.1. Análisis de datos Siguiendo el paradigma del análisis de datos mencionado en el Caṕıtulo 1, se realizó un análisis explorativo de los datos utilizados en el modelo. Todas variables son númericas y continuas, a excepción de la variable a predecir, que es binaria. Para entender la relación que existe entre las variables se construyó una matriz de correlaciones (ver figura 4.1) con todas las variables predictoras. Esta matriz utiliza el coeficiente de correlación de Pearson para determinar el grado de correlación que existe entre cada par de variables. La correlación (i.e., relación lineal) es positiva cuando el valor del coeficiente se aproxima a 1; y negativa, cuando el valor se aproxima -1. Un coeficiente de 0 se interpreta como correlación nula. En la Figura 4.1 se aprecia que no existe una correlación importante entre ninguna de las variables, a excepción de las variables Distance a ZA y Distancia a ANP. Esta correlación puede deberse a que la existencia de una ZA está condicionada a la existencia de una ANP. Dicho de otro modo, una ZA es creada con la finalidad de proteger la integridad de una ANP, por lo que todo ṕıxel muestreado que se encuentre cerca a una ANP se encuentra, estrictamente, también cerca a una ZA. Otro caso particular es el que se observa con las variables latitud y longitud. En este caso, la correlación es negativa (i.e., −0.53) y se debe a que los pares de coordenadas se encuentran entre un rango limitado de valores debido a que corresponden a muestras de zonas espećıficas. Esta bajas correlaciones, sin embargo, no representan problemas para la construcción de los modelos. Por el contrario, suelen ser de utilidad al momento de implementar modelos estad́ısticos paramétricos (i.e., regresión loǵıstica). 35 Figura 4.1: Matriz de correlaciones entre variables. Se utiliza el ı́ndice de correlación de Pearson para determinar el grado de correlación existente entre las variables. Para entender el comportamiento individual de cada variable con respecto al fenómeno de interés, se construyeron histogramas (ver Figura 4.2) de ocurrencia de deforestación a partir de las variables predictoras más relevantes para el clúster C1. Debido a que los datos eran numéricos y continuos, los histogramas fueron elaborados a partir de intervalos de distancias. Es decir, se cuantificó la cantidad de ṕıxeles deforestados en cada intervalo de distancia, desde 0 hasta 25000 metros, obteniendose un valor que representa la tasa de deforestación para cada intervalo. Respecto a las tendencias de los histogramas, se puede apreciar que la deforestación disminuye considerablemente a medida que la distancia al punto de referencia aumenta. Esta disminución puede ser lineal, en el caso de Distancia a carretera nacional y Distancia a ZA, o exponencial, en el caso de Distancia a carretera vecinal. En el caso de las variables restantes, se puede apreciar que la disminución tiene una tendencia erráti- ca. Por ejemplo, en Distancia a ANP la tasa de deforestación en los primeros 25000 metros parece ser constante; mientras que en Distancia a centro poblado, esta tasa aumenta en los primeros 5000 metros para luego disminuir considerablemente. Una posible interpretación del comportamiento no monotónico de Distancia a centro poblado es que las zonas muy cercanas a los centros poblados ya atravesaron por un proceso de urbanización y consecuente cambio de uso de suelos. Sin embargo, los alrededores de estos centros urbanos (e.g., 5000 metros) suelen ser zonas destinadas a la expansión urbana o la práctica de agricultura y ganadeŕıa. En lo que respecta a las magnitudes, se puede apreciar que la mayor ocurrencia de deforestación se da en Distancia a carretera vecinal, seguida de Distancia a carretera nacional y Distancia a centro poblado. En el caso de Distancia a ANP y Distancia a ZA, los valores de deforestación son, relativamente, mucho menores que en el resto de casos. Este hecho permite inferir que las zonas destinadas a la protección de biodiversidad śı cumplen la función para la cual fueron diseñadas. Esta inferencia es consecuente con el discurso expuesto en Miranda et al. (2014). 36 Figura 4.2: Histograma de ocurrencia de deforestación - Distancia (m) para distancias a carretera nacional (a), departamental (b), vecinal (c), zona de amortiguamiento (d), Área Natural Protegida (e) y centro poblado (f) Adicionalmente, se analizó el comportamiento de la deforestación en los diferestes clústers propues- tos. Al explorar la variable Distancia a carretera nacional (ver Figura 4.3) se observó que, dependiendo del cluster analizado, la tendencia de la deforestación puede ser completamente diferente. Por ejemplo, en los clústers C1, C6 y CT es posible observar una tendencia decreciente lineal. Sin embargo, en los clusters C3, C4 y C8 el comportamiento es errático y la deforestación no sigue el patrón esperado. Un análisis visual de los clusters (ver Figura 4.4) permitió determinar que, en el caso del clúster C8, el patrón de deforestación es bástante difuso y disperso. Esto se debe, principalmente, a que está zona experimentó un importante crecimiento agŕıcola en los últimos años, tanto de palma aceitera como de agricultura a pequeña escala (Vijay et al., 2018). 37 Figura 4.3: Histograma de ocurrencia de deforestación - Distancia a carretera nacional (m) para cada cluster analizado Figura 4.4: Imágen satelital de la deforestación ocurrida en el cluster 8, en los alrededores de Yurima- guas. Comparación entre los ṕıxeles deforestados utilizados de datos (a) y las imágenes satelitáles 4.0.2. Búsqueda de hiperparámetros En cada iteración mencionada en el caṕıtulo anterior se ejecutó una búsqueda de grilla para determinar la mejor combinación de hiperparámetros. En el caso de RF, se determinó la cantidad de árboles óptima, la profundidad de los árboles y el criterio de división de cada nodo. La figura 4.5 muestra la variación en la precisión de acuerdo al número de árboles utilizado en cada iteración de la búsqueda de grilla, y, a su vez, en cada cluster analizado. Como se puede observar, en todos los casos, la precisión crece rápidamente a medida que se aumenta el número de árboles. Este crecimiento se 38 detiene cuando el modelo utiliza 50 árboles y se observa que, a partir de este número, la precisión se estabiliza. Respecto a los valores finales de precisión una vez alcanzada la estabilidad, se puede decir que en 5 de los 6 casos mostrados, la precisión se encuentra en el rango de 0.775 a 0.825. De hecho, cuando se toman 120 árboles, los clústers C4,C6 y C1 tienen precisiones muy parecidas. Otro aspecto que se puede notar es que todos los clusters, excepto el clúster C8 mantienen su ranking de precisión independientemente del número de árboles utilizados. En contraste, el cluster C8 presenta precisiones inferiores en todo el experimento y en ningún caso llega a superar el valor de 0.700. Figura 4.5: Variación en la precisión de acuerdo al número de árboles para cada cluster Para las ANN, se experimentó con las distintas arquitecturas detalladas en el caṕıtulo 3 y se analizó la evolución de la pérdida en los datos de entrenamiento y validación a lo largo de las distintas épocas de entrenamiento. En cada caso, se fue incrementando la complejidad de la arquitectura y se fueron añadiendo los criterios de regularización, normalización en bloque y droput. La figura 4.6 muestra un t́ıpico caso de sobre entrenamiento observado en ANN256-5, en esta iteración se estudió la capacidad predictiva del modelo cuando se utilizó una arquitectura relativamente sencilla pero sin considerar regularizadores y dropout. Como se observa, en todos los casos, a exepción del cluster T, pérdida del conjunto de validación cambia de sentido y comienza a aumentar. Este aumento se refleja en un precisión de validación que se estanca en un rango, mientras que la precisión de entrenamiento sigue en aumento. Esta caracteŕıstica es propia de un modelo con sobre entrenamiento. Sin embargo, si se observa el caso del cluster T, se puede ver que la pérdida sigue descendiendo aún después de la época 500. Aunque este descenso se puede considerar casi como una estabilización, el modelo es estable aún hasta después de las 500 épocas. Una explicación a este fenómeno puede darse al recordar que este conjunto de datos cuenta con 100000 observaciones, resultado de la combinación de los datos del resto de clusters. Este último hecho demuestra que el aumento de la cantidad de datos es una efectiva estrategia para reducir el sobre entrenamiento. 39 Figura 4.6: Variación de la pérdida y la precisión del modelo de red neuronal a lo largo de las distintas épocas de entrenamiento 40 4.0.3. Importancia de las variables Se determinó la importancia que pueden tener las variables en los modelos utilizados. Para esto, se utilizó el atributo feature importance del objeto random forest en Scikit-learn. Este atributo permite observar la importancia cada variable de acuerdo a su relevancia en la división de los nodos en cada nivel del árbol de decisión. La figura 4.7 muestra un ranking de las variables más importantes extráıda de una de las iteraciones del modelo. En este caso se puede observar que, practicamente, todas variables son determinantes a la hora de dividir los nodos. Dicho de otra manera, es necesario contar con todas las variables estudiadas debido a que cada una de estas contribuye a la construcción de los árboles de decisión. Figura 4.7: Importancia de las variables utilizadas en el modelo de random forest expresadas en porcentaje 4.0.4. Comparación entre modelos Los diferentes modelos fueron comparados de acuerdo a la precisión obtenida por cada uno de estos utilizando los distintos datos de entrenamiento. Como muestra la figura 4.8, la precisión estuvo en el rango de 0.55 y 0.85. La figura muestra que no es posible determinar que modelo es complemente superior debido a dos razones fundamentales. La primera razón es que la dispersión de las precisiones es muy alta entre los diferentes clusters. La segunda razón es que en cada uno de los modelos, el ranking de precisiones no se mantiene constante. Por ejemplo, si se observa la ANN60-5, se puede ver que el modelo entrenado con el cluster 3 tiene menor que precisión que aquellos entrenados con los cluster 4,6 y 1; sin embargo, en RF, se observa que este comportamiento es practicamente inverso. La figura muestra también que en todos los casos, a excepción de NB, el cluster 8 es el que presenta las menores precisiones. Este comportamiento caracteŕıstico de los modelos entrenados en este cluster se debe a caracteŕısticas propias de los datos de esta zona. En efecto, si se observa la figura 4.9 se puede notar que gran parte de los ṕıxeles amarillos, correspondientes a deforestación, se encuentran agrupados en dos zonas en particular. Al realizar revisiones a las fotograf́ıas satelitales se pudo constatar que estas zonas corresponden a plantaciones de palma aceitera. Este hecho permite deducir que el modelo entrenado con los datos del cluster 8 recibe muchos datos con variables que no están relacionadas, en lo absoluto, con las caracteŕısticas propias de las carreteras de la zona. En efecto, las plantaciones de palma aceitera son costosas, extensas y de muy largo plazo, por lo que su aparición responde a motivaciones económicas ajenas a la expansión vial. 41 Figura 4.8: Distribución de la precisión de los distintos modelos entrenados con datos de los distintos clusters Figura 4.9: Imágen satelital que muestra que la zona deforestada (a) corresponde a una plantación de aceite de palma aceitera(b) 4.0.5. Visualización de resultados Se seleccionó el mejor modelo RF como modelo principal para la construcción del mapa de riesgo de deforestación. Para ello, se realizó la predicción de cada uno de los ṕıxeles del ROI de una nueva base de datos que inclúıa las carreteras proyectadas en el Plan Vial Nacional. La Figura 4.10 muestra el mapa de probabilidad de deforestación construido tomando los valores de probabilidad de cada predicción del modelo RF. Cada ṕıxel tiene un valor en el rango de [0, 1], donde 0 indica 0 % probabilidad; y 1, 100 % de probabilidad. Es importante mencionar que el modelo se entrena utilizando un valor de corte óptimo calculado a partir de una curva ROC (Region Under the Curve, por sus siglas en inglés); sin embargo, se utilizó la representación probabilistica de los resultados porque se desea hacer el análisis utilizando una lógica difusa. 42 Figura 4.10: Mapa de probabilidad de deforestación construido con un modelo de random forest aplicado a carreteras proyectadas Si se realiza un acercamiento al clúster C1, en particular a la carretera Boca Manu - Iberia (ver Figura 4.11), se puede observar que el riesgo de deforestación aumenta en la v́ıa de la carretera. Se observa además que el color no es azul, por lo que el valor no está cerca a 1. Esto se puede interpretar como una baja probabilidad de deforestación si solo se evalua este proyecto vial. De igual forma, se debe notar que al insertar únicamente los datos de esta carretera nacional se asume que esta será la única carretera en los próximos 17 años. Esta suposición no es correcta debido a que se espera que esta v́ıa principal permita el crecimiento de otras v́ıas secundarias. 43 Figura 4.11: Mapa de probabilidad de deforestación (b) construido con los datos del proyecto de carretera Boca Manu - Iberia (a) 4.0.6. Cálculo de emisiones de carbono Para obtener las emisiones de carbono se tomo como caso de estudio el proyecto MD-103, que conecta las comunidades de Salvación y Boca Manu. Para ello, primero se ingestó la información de la carretera en forma de imagen y se realizó la predicción. Luego, se seleccióno un criterio de corte a partir del cual un ṕıxel se consideraŕıa deforestado (i.e., 0.5). Finalmente, se multiplicó sumaron los valores de contenido de carbono correspondientes a cada ṕıxel en los 30 kilómetros adyacentes a la carretera. La Figura 4.12 indica el procedimiento seguido para obtener la cantidad de carbono liberado. Figura 4.12: Proceso de cálculo de emisiones de CO2 para el caso de estudio: Carretera MD-103 Adicionalmente, se construyeron dos gráficos (ver Figura 4.13) con información del carbono emitido a cierta distancia de la carretera. La Figura 4.13.a muestra el comportamiento de las emisiones en cada kilómetro de carretera. Como se puede observar, este valor disminuye considerablemente a medida que el ṕıxel se encuentra más alejado de la carretera. Es importante mencionar que los cambios bruscos de pendiente se deben a que el contenido de carbono no es continuo a lo largo de la zona de estudio, por lo que la tasa de emisión dependerá de la zona en la que se realice el análisis. La Figura 4.13.b muestra las emisiones acumuladas en cada kilómetro de distancia a la carretera. Este valor se incrementa de 44 forma casi exponencial hasta estabilizarse en 2e7MgC. Este valor puede ir aumentando si se toma una zona de afectación mayor a 30 kilómetros; sin embargo, se considera que esta distancia es prudente y que la emisión final no aumentará de manera significativa si aumenta los ĺımites de análisis. Figura 4.13: (a) Tasa de emisión de carbono por cada kilómetro de distancia a la carretera. (b) Emisión acumulada de carbono Si se utiliza la Ecuación 3.6 para calcular las emisiones de CO2eq se obtiene un valor de 73.2 Mt de CO2eq. Este valor supera en demaśıa a las 60 Mt de CO2eq estimadas por el Gobierno Peruano como meta de reducción. Esta estimación fue realizada a un solo proyecto vial, por lo que se puede suponer que al extender el análisis a todos los proyectos viales se obtendrás emisiones considerablemente mayores. Sin embargo, este valor estimado no representa un escenario de implementación de medidas. Los valores calculados en este estudio asumen que el comportamiento de los distintos actores será el mismo en los próximos 17 años. Bajo ese supuesto fuerte, se puede interpretar el resultado como la cantidad de emisiones que se generarán a partir de la construcción de la carretera MD-103 si no se toman medidas Los códigos utilizados pueden ser visualizados accediendo a la plataforma de Earth Engine, siguiente el siguiente enlace: https://code.earthengine.google.com/?accept_repo=users/glarrea/tesis_ roads La aplicación de visualización puede accederse desde cualquier explorador web utilizando el siguiente enlace: https://glarrea.users.earthengine.app/view/roadstuff 45 https://code.earthengine.google.com/?accept_repo=users/glarrea/tesis_roads https://code.earthengine.google.com/?accept_repo=users/glarrea/tesis_roads Caṕıtulo 5 Conclusiones La presente investigación ha permitido explorar las potencialidades de diferentes herramientas computacionales del estado del arte para la resolución de distintas interrogantes. La interrogante H1 ha sido respondida mediante el cálculo de las emisiones de CO2eq de un proyecto vial elegido como caso de estudio. Las emisiones de solo este proyecto superan a las estimaciones de reducción de todo el páıs propuestas por el Gobierno. En este sentido, es seguro afirmar que los compromisos ambientales planteandos por el Perú subestiman las emisiones que se podŕıa generar en los próximos años. Sin embargo, es importante recalcar que las limitaciones del modelo utilizado no permiten que se distinga cual será el uso de suelo que tendrá la zona deforestada. Pese a esto, en cualquiera de los casos, el secuestro de carbono que ocurra no será mayor a la cantidad de carbono que se liberará a la atmósfera. Lo cierto es que el Estado Peruano ha propuesto una serie de medidas de acción para lograr la reducción deseada (MINAM (Ministerio del Ambiente), 2016). De hecho, estas medidas bus- can mejorar la gestión del territorio en la Amazońıa y destinar recursos para ejecutar las poĺıticas de control, especialmente en el caso de actividades ilegales. Sin embargo, las medidas propuestas por El Gobierno no están vinculadas entre ellas. Un ejemplo de ello se da entre los sectores de transportes y USCUSS, en dónde no analizan las potenciales emisiones de actividades completamente legales, como el diseño vial o la construcción de carreteras (Vázquez-Rowe et al., 2019). La hipótesis H2 fue validada mediante el análisis realizado a las precisiones de los diferentes modelos. En esta etapa se determinó que los modelos de aprendizaje de máquina tienen una mayor precisión que los modelos estad́ısticos tradicionales. No obstante, esta superioridad no es significativa si se comparán los tiempos de cómputo y la complejidad de la estructuración de los modelos de aprendizaje de máquina. Esta complejidad implica explorar múltiples combinaciones de parámetros y recurrir a herramientas computacionales que agilicen el entrenamiento. La hipótesis H3 fue respondida al implementar un sistema entrenamiento y predicción de deforesta- ción de toda la Amazońıa peruana. Este sistema śı es facilmente replicable debido a que fue constrúıdo con lenguajes de código abierto y utilizando plataformas gratuitas. El escalamiento del modelo es po- sible mediante el uso de herramientas basadas en la nube, por lo que es plausible realizar predicciones de distintos escenarios y en poco tiempo. Por último, la utilización de esta herramienta en la toma de decisiones es factible con el uso de la aplicación creada para la visualización de los resultados. Se espera que en una futura mejora de la herramienta, personas con poca o nula experiencia en programación puedan acceder al modelo predictivo para evaluar diferentes escenarios. Finalmente, este proyecto de investigación presentó un marco metodológico novedoso para construir e implementar modelos de predicción de deforestación para el cálculo de emisiones de GEI. Como ha sido presentado en este manuscrito, la simplicidad del proceso de construcción e implementación de los modelos permite generar cálculos rápidos. De igual manera, este estudio es pionero en realizar análisis de predicción de deforestación a escala nacional. De acuerdo a la flexibilidad de la metodoloǵıa utilizada, espera que este enfoque de análisis pueda servir de complemento de otras metodoloǵıas que buscan integrar herramientas GIS en su estructura (Loiseau et al., 2018). 46 5.1. Agradecimientos Agradezco a los profesores Ian Vázquez y Ramzy Kahhat por su participación durante la discusión y elaboración del presente manuscrito. Igualmente, deseo agradecer a CONCYTEC por el financiamiento y apoyo durante el desarrollo de esta investigación. 47 Bibliograf́ıa Muzafar Ahmad Bhat, Razeef Mohd Shah, Bashir Ahmad, MARoad Srinagar, and Kashmir India. Cloud Computing: A solution to Geographical Information Systems (GIS) Cloud Computing and GIS. International Journal on Computer Science and Engineering, 2011. URL https://pdfs. semanticscholar.org/a93e/ed5c1980c56fdf9db61808e6aad2b8087dda.pdf. Md Zahangir Alom, Tarek M. Taha, Christopher Yakopcic, Stefan Westberg, Paheding Sidike, Mst Sha- mima Nasrin, Brian C Van Esesn, Abdul A S. Awwal, and Vijayan K. Asari. The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches. 3 2018. URL http://arxiv.org/abs/1803.01164. A Angelsen and D Kaimowitz. Rethinking the causes of deforestation: lessons from economic models. The World Bank research observer, 14(1):73–98, 2 1999. ISSN 0257-3032. URL http://www.ncbi. nlm.nih.gov/pubmed/12322119. David Alan Aschauer. Is public expenditure productive? Journal of Monetary Economics, 23 (2):177–200, 3 1989. ISSN 0304-3932. doi: 10.1016/0304-3932(89)90047-0. URL https://www. sciencedirect.com/science/article/pii/0304393289900470. Gregory P Asner, William Llactayo, Raul Tupayachi, and Ernesto Ráez Luna. Elevated rates of gold mining in the Amazon revealed through high-resolution monitoring. Proceedings of the National Academy of Sciences of the United States of America, 110(46):18454–9, 11 2013. ISSN 1091-6490. doi: 10.1073/pnas.1318271110. URL http://www.ncbi.nlm.nih.gov/pubmed/24167281http:// www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3832012. Gregory P. Asner, David E. Knapp, Roberta E. Martin, Raul Tupayachi, Christopher Anderson, Joseph Mascaro, F Sinca, K. Dana Chadwick, S Sousan, Mark Higgins, W Farfan, Miles Silman, William Llactayo, and A Neyra. The High-resolution Carbon Geography of Perú (Spanish) — Carnegie Airborne Observatory. Technical report, 2014. Christopher Baraloto, Paula Alverga, Sufer Baéz Quispe, Grenville Barnes, Nino Bejar Chura, Izaias Brasil da Silva, Wendeson Castro, Harrison da Souza, Iracema Elisabeth de Souza Moll, Jim Del Alcazar Chilo, Hugo Dueñas Linares, Jorge Gárate Quispe, Dean Kenji, Matthew Mar- sik, Herison Medeiros, Skya Murphy, Cara Rockwell, Galia Selaya, Alexander Shenkin, Marcos Silveira, Jane Southworth, Guido H. Vasquez Colomo, and Stephen Perz. Effects of road in- frastructure on forest value across a tri-national Amazonian frontier. Biological Conservation, 191:674–681, 11 2015. ISSN 0006-3207. doi: 10.1016/J.BIOCON.2015.08.024. URL https: //www.sciencedirect.com/science/article/abs/pii/S0006320715300744. Christopher P. Barber, Mark A. Cochrane, Carlos M. Souza, and William F. Laurance. Roads, deforestation, and the mitigating effect of protected areas in the Amazon. Biological Con- servation, 177:203–209, 9 2014. ISSN 0006-3207. doi: 10.1016/J.BIOCON.2014.07.004. URL https://www.sciencedirect.com/science/article/abs/pii/S000632071400264X. G. Bebis and M. Georgiopoulos. Feed-forward neural networks. IEEE Potentials, 13(4):27–31, 10 1994. ISSN 0278-6648. doi: 10.1109/45.329294. URL http://ieeexplore.ieee.org/document/329294/. 48 https://pdfs.semanticscholar.org/a93e/ed5c1980c56fdf9db61808e6aad2b8087dda.pdf https://pdfs.semanticscholar.org/a93e/ed5c1980c56fdf9db61808e6aad2b8087dda.pdf http://arxiv.org/abs/1803.01164 http://www.ncbi.nlm.nih.gov/pubmed/12322119 http://www.ncbi.nlm.nih.gov/pubmed/12322119 https://www.sciencedirect.com/science/article/pii/0304393289900470 https://www.sciencedirect.com/science/article/pii/0304393289900470 http://www.ncbi.nlm.nih.gov/pubmed/24167281 http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3832012 http://www.ncbi.nlm.nih.gov/pubmed/24167281 http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3832012 https://www.sciencedirect.com/science/article/abs/pii/S0006320715300744 https://www.sciencedirect.com/science/article/abs/pii/S0006320715300744 https://www.sciencedirect.com/science/article/abs/pii/S000632071400264X http://ieeexplore.ieee.org/document/329294/ Elizabeth H. Boakes, Georgina M. Mace, Philip J. K. McGowan, and Richard A. Fuller. Extreme contagion in global habitat clearance. Proceedings of the Royal Society B: Biological Sciences, 277(1684):1081–1085, 4 2010. ISSN 0962-8452. doi: 10.1098/rspb.2009.1771. URL http://www. royalsocietypublishing.org/doi/10.1098/rspb.2009.1771. Leo. Breiman. Classification and regression trees. Chapman & Hall/CRC, 1984. ISBN 9781351460491. Leo Breiman. Bagging Predictors. Machine Learning, 24(2):123–140, 1996. ISSN 08856125. doi: 10.1023/A:1018054314350. URL http://link.springer.com/10.1023/A:1018054314350. Leo Breiman. Random Forests. Machine Learning, 45(1):5–32, 2001. ISSN 08856125. doi: 10.1023/A: 1010933404324. URL http://link.springer.com/10.1023/A:1010933404324. David Canning and Marianne Fay. The Effect of Transportation Networks on Economic Growth 12 -n. Technical report, 1993. URL http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1. 1030.1134&rep=rep1&type=pdf. Nitesh V. Chawla. Data Mining for Imbalanced Datasets: An Overview. In Data Mining and Knowledge Discovery Handbook, pages 875–886. Springer US, Boston, MA, 2009. doi: 10.1007/ 978-0-387-09823-4{\ }45. URL http://link.springer.com/10.1007/978-0-387-09823-4_45. Russell G Congalton. A Review of Assessing the Accuracy of Classifications of Remotely Sensed Data. Technical report, 1991. URL https://pdfs.semanticscholar.org/d7be/ d062683df1fd6723fb9c0c1d26feddc8c133.pdf. J Coronado. La brecha en infraestructura: Servicios públicos, productividad y crecimiento en el Perú (No. E10 C67). Instituto Peruano de Economı́a, 203. Maureen Cropper, Jyotsna Puri, and Charles Griffiths. Predicting the Location of Deforestation: The Role of Roads and Protected Areas in North Thailand. Land Economics, 77(2):172, 5 2001. ISSN 00237639. doi: 10.2307/3147088. URL http://le.uwpress.org/cgi/doi/10.2307/3147088. Adele Cutler, D. Richard Cutler, and John R. Stevens. Random Forests. In Ensemble Machine Learning, pages 157–175. Springer US, Boston, MA, 2012. doi: 10.1007/978-1-4419-9326-7{\ }5. URL http://link.springer.com/10.1007/978-1-4419-9326-7_5. Michele De Rosa. Land Use and Land-use Changes in Life Cycle Assessment: Green Mode- lling or Black Boxing? Ecological Economics, 144:73–81, 2 2018. ISSN 0921-8009. doi: 10.1016/J.ECOLECON.2017.07.017. URL https://www.sciencedirect.com/science/article/ pii/S0921800916313647. I César Delgado. Is the Interoceanic Highway exporting deforestation? Masther Thesis, (April):37, 2008. Pedro Domingos and Pedro. A few useful things to know about machine learning. Communications of the ACM, 55(10):78, 10 2012. ISSN 00010782. doi: 10.1145/2347736.2347755. URL http: //dl.acm.org/citation.cfm?doid=2347736.2347755. P. M. Fearnside. Comment on "Determination of Deforestation Rates of the World’s Humid Tropical Forests". Science, 299(5609):1015a–1015, 2 2003. ISSN 00368075. doi: 10.1126/ science.1078714. URL http://www.sciencemag.org/cgi/doi/10.1126/science.1078714. Matt Finer, Sidney Novoa, Mikaela J Weisse, Rachael Petersen, Joseph Mascaro, Tamia Souto, Forest Stearns, and Raúl Garćıa Martinez. Combating deforestation: From satellite to intervention. Science (New York, N.Y.), 360(6395):1303–1305, 6 2018. ISSN 1095-9203. doi: 10.1126/science.aat1203. URL http://www.ncbi.nlm.nih.gov/pubmed/29930127. 49 http://www.royalsocietypublishing.org/doi/10.1098/rspb.2009.1771 http://www.royalsocietypublishing.org/doi/10.1098/rspb.2009.1771 http://link.springer.com/10.1023/A:1018054314350 http://link.springer.com/10.1023/A:1010933404324 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1030.1134&rep=rep1&type=pdf http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1030.1134&rep=rep1&type=pdf http://link.springer.com/10.1007/978-0-387-09823-4_45 https://pdfs.semanticscholar.org/d7be/d062683df1fd6723fb9c0c1d26feddc8c133.pdf https://pdfs.semanticscholar.org/d7be/d062683df1fd6723fb9c0c1d26feddc8c133.pdf http://le.uwpress.org/cgi/doi/10.2307/3147088 http://link.springer.com/10.1007/978-1-4419-9326-7_5 https://www.sciencedirect.com/science/article/pii/S0921800916313647 https://www.sciencedirect.com/science/article/pii/S0921800916313647 http://dl.acm.org/citation.cfm?doid=2347736.2347755 http://dl.acm.org/citation.cfm?doid=2347736.2347755 http://www.sciencemag.org/cgi/doi/10.1126/science.1078714 http://www.ncbi.nlm.nih.gov/pubmed/29930127 Geoffrey R. Gallice, Gustavo Larrea-Gallegos, and Ian Vázquez-Rowe. The threat of road expansion in the Peruvian Amazon. Oryx, pages 1–9, 6 2017. ISSN 0030-6053. doi: 10.1017/S0030605317000412. URL https://www.cambridge.org/core/product/identifier/ S0030605317000412/type/journal_article. Ian Goodfellow and Yoshua Bengio. Deep Learning. MIT Press, 2016. URL http://www. deeplearningbook.org. Noel Gorelick, Matt Hancher, Mike Dixon, Simon Ilyushchenko, David Thau, and Rebecca Moo- re. Google Earth Engine: Planetary-scale geospatial analysis for everyone. Remote Sensing of Environment, 202:18–27, 12 2017. ISSN 0034-4257. doi: 10.1016/J.RSE.2017.06.031. URL https://www.sciencedirect.com/science/article/pii/S0034425717302900. Isabelle Guyon, André Elisseeff, and Andre@tuebingen Mpg De. An Introduction to Variable and Feature Selection. Journal of Machine Learning Research, 3:1157–1182, 2003. URL http://www. jmlr.org/papers/volume3/guyon03a/guyon03a.pdf. Haibo Haibo He and E.A. Garcia. Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284, 9 2009. ISSN 1041-4347. doi: 10.1109/TKDE.2008.239. URL http://ieeexplore.ieee.org/document/5128907/. A. Hall and D. Goodman. The Future of Amazonia Destruction or Sustainable Development?. Palgrave Macmillan Limited, 1991. ISBN 9781349210688. URL https://books.google.com. pe/books?hl=es&lr=&id=9K6vCwAAQBAJ&oi=fnd&pg=PR10&dq=Environmental+destruction+ in+the+Amazon.+The+future+of+Amazonia:+destruction+or+sustainable+development%3F+ &ots=sFCSHZkwhN&sig=LfF28zn9R5U_LllDfr3g0CGAve8#v=onepage&q=Environmen. M C Hansen, P V Potapov, R Moore, M Hancher, S A Turubanova, A Tyukavina, D Thau, S V Stehman, S J Goetz, T R Loveland, A Kommareddy, A Egorov, L Chini, C O Justice, and J R G Townshend. High-resolution global maps of 21st-century forest cover change. Science (New York, N.Y.), 342(6160):850–3, 11 2013. ISSN 1095-9203. doi: 10.1126/science.1244693. URL http: //www.ncbi.nlm.nih.gov/pubmed/24233722. Hecht-Nielsen. Theory of the backpropagation neural network. In International Joint Conference on Neural Networks, pages 593–605. IEEE, 1989. doi: 10.1109/IJCNN.1989.118638. URL http: //ieeexplore.ieee.org/document/118638/. David W. Hosmer, Stanley. Lemeshow, and Rodney X. Sturdivant. Applied logistic regression. ISBN 9780470582473. URL https://www.wiley.com/en-pe/Applied+Logistic+Regression, +3rd+Edition-p-9780470582473. R. A. Houghton, D. L. Skole, Carlos A. Nobre, J. L. Hackler, K. T. Lawrence, and W H. Chomentowski. Annual fluxes of carbon from deforestation and regrowth in the Brazilian Amazon. Nature, 403 (6767):301–304, 1 2000. ISSN 0028-0836. doi: 10.1038/35002062. URL http://www.nature.com/ doifinder/10.1038/35002062. INEI. Publicaciones Digitales, 2019. URL https://www.inei.gob.pe/media/MenuRecursivo/ publicaciones_digitales/Est/Lib1483/index.html. IPCC. 2006 IPCC Guidelines for National Greenhouse Gas, Volume 4, Agriculture, Forestry and Other Land Use. Technical report, 2006. Ramzy Kahhat, Eduardo Parodi, Gustavo Larrea-Gallegos, Carlos Mesta, and Ian Vázquez-Rowe. Environmental impacts of the life cycle of alluvial gold mining in the Peruvian Amazon rain- forest. Science of The Total Environment, 662:940–951, 4 2019. ISSN 0048-9697. doi: 10.1016/J.SCITOTENV.2019.01.246. URL https://www.sciencedirect.com/science/article/ pii/S0048969719302736. 50 https://www.cambridge.org/core/product/identifier/S0030605317000412/type/journal_article https://www.cambridge.org/core/product/identifier/S0030605317000412/type/journal_article http://www.deeplearningbook.org http://www.deeplearningbook.org https://www.sciencedirect.com/science/article/pii/S0034425717302900 http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf http://ieeexplore.ieee.org/document/5128907/ https://books.google.com.pe/books?hl=es&lr=&id=9K6vCwAAQBAJ&oi=fnd&pg=PR10&dq=Environmental+destruction+in+the+Amazon.+The+future+of+Amazonia:+destruction+or+sustainable+development%3F+&ots=sFCSHZkwhN&sig=LfF28zn9R5U_LllDfr3g0CGAve8#v=onepage&q=Environmen https://books.google.com.pe/books?hl=es&lr=&id=9K6vCwAAQBAJ&oi=fnd&pg=PR10&dq=Environmental+destruction+in+the+Amazon.+The+future+of+Amazonia:+destruction+or+sustainable+development%3F+&ots=sFCSHZkwhN&sig=LfF28zn9R5U_LllDfr3g0CGAve8#v=onepage&q=Environmen https://books.google.com.pe/books?hl=es&lr=&id=9K6vCwAAQBAJ&oi=fnd&pg=PR10&dq=Environmental+destruction+in+the+Amazon.+The+future+of+Amazonia:+destruction+or+sustainable+development%3F+&ots=sFCSHZkwhN&sig=LfF28zn9R5U_LllDfr3g0CGAve8#v=onepage&q=Environmen https://books.google.com.pe/books?hl=es&lr=&id=9K6vCwAAQBAJ&oi=fnd&pg=PR10&dq=Environmental+destruction+in+the+Amazon.+The+future+of+Amazonia:+destruction+or+sustainable+development%3F+&ots=sFCSHZkwhN&sig=LfF28zn9R5U_LllDfr3g0CGAve8#v=onepage&q=Environmen http://www.ncbi.nlm.nih.gov/pubmed/24233722 http://www.ncbi.nlm.nih.gov/pubmed/24233722 http://ieeexplore.ieee.org/document/118638/ http://ieeexplore.ieee.org/document/118638/ https://www.wiley.com/en-pe/Applied+Logistic+Regression,+3rd+Edition-p-9780470582473 https://www.wiley.com/en-pe/Applied+Logistic+Regression,+3rd+Edition-p-9780470582473 http://www.nature.com/doifinder/10.1038/35002062 http://www.nature.com/doifinder/10.1038/35002062 https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1483/index.html https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1483/index.html https://www.sciencedirect.com/science/article/pii/S0048969719302736 https://www.sciencedirect.com/science/article/pii/S0048969719302736 Anders Krogh. What are artificial neural networks? Nature Biotechnology, 26(2):195–197, 2 2008. ISSN 1087-0156. doi: 10.1038/nbt1386. URL http://www.nature.com/articles/nbt1386. Gustavo Larrea-Gallegos, Ian Vázquez-Rowe, and Geoffrey Gallice. Life cycle assessment of the cons- truction of an unpaved road in an undisturbed tropical rainforest area in the vicinity of Manu National Park, Peru. The International Journal of Life Cycle Assessment, 22(7):1109–1124, 7 2017. ISSN 0948-3349. doi: 10.1007/s11367-016-1221-7. URL http://link.springer.com/10.1007/ s11367-016-1221-7. William F. Laurance, Ana K. M. Albernaz, Gotz Schroth, Philip M. Fearnside, Scott Bergen, Eduar- do M. Venticinque, and Carlos Da Costa. Predictors of deforestation in the Brazilian Amazon. Journal of Biogeography, 29(5-6):737–748, 5 2002. ISSN 0305-0270. doi: 10.1046/j.1365-2699.2002. 00721.x. URL http://doi.wiley.com/10.1046/j.1365-2699.2002.00721.x. William F. Laurance, Miriam Goosem, and Susan G.W. Laurance. Impacts of roads and linear clearings on tropical forests. Trends in Ecology & Evolution, 24(12):659–669, 12 2009. ISSN 0169-5347. doi: 10.1016/J.TREE.2009.06.009. URL https://www.sciencedirect.com/science/ article/pii/S0169534709002067. William F. Laurance, Anna Peletier-Jellema, Bart Geenen, Harko Koster, Pita Verweij, Pitou Van Dijck, Thomas E. Lovejoy, Judith Schleicher, and Marijke Van Kuijk. Reducing the global environmental impacts of rapid infrastructure expansion. Current Biology, 25(7):R259–R262, 3 2015. ISSN 0960-9822. doi: 10.1016/J.CUB.2015.02.050. URL https://www.sciencedirect.com/ science/article/pii/S0960982215002195. C. Le Quéré, R. J. Andres, T. Boden, T. Conway, R. A. Houghton, J. I. House, G. Marland, G. P. Peters, G. R. van der Werf, A. Ahlström, R. M. Andrew, L. Bopp, J. G. Canadell, P. Ciais, S. C. Doney, C. Enright, P. Friedlingstein, C. Huntingford, A. K. Jain, C. Jourdain, E. Kato, R. F. Keeling, K. Klein Goldewijk, S. Levis, P. Levy, M. Lomas, B. Poulter, M. R. Raupach, J. Schwinger, S. Sitch, B. D. Stocker, N. Viovy, S. Zaehle, and N. Zeng. The global carbon budget 1959–2011. Earth System Science Data, 5(1):165–185, 5 2013. ISSN 1866-3516. doi: 10.5194/essd-5-165-2013. URL https://www.earth-syst-sci-data.net/5/165/2013/. Antoine Leblois, Olivier Damette, and Julien Wolfersberger. What has Driven Deforestation in Developing Countries Since the 2000s? Evidence from New Remote-Sensing Data. World Deve- lopment, 92:82–102, 4 2017. ISSN 0305-750X. doi: 10.1016/J.WORLDDEV.2016.11.012. URL https://www.sciencedirect.com/science/article/pii/S0305750X16305411. Xiaoping Liu, Guohua Hu, Yimin Chen, Xia Li, Xiaocong Xu, Shaoying Li, Fengsong Pei, and Shaojian Wang. High-resolution multi-temporal mapping of global urban land using Landsat images based on the Google Earth Engine Platform. Remote Sensing of Environment, 209:227–239, 5 2018. ISSN 0034-4257. doi: 10.1016/J.RSE.2018.02.055. URL https://www.sciencedirect.com/science/ article/abs/pii/S003442571830066X. Wei-Yin Loh. Classification and regression trees. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1(1):14–23, 1 2011. ISSN 19424787. doi: 10.1002/widm.8. URL http://doi. wiley.com/10.1002/widm.8. Eléonore Loiseau, Lynda Aissani, Samuel Le Féon, Faustine Laurent, Juliette Cerceau, Serenella Sala, and Philippe Roux. Territorial Life Cycle Assessment (LCA): What exactly is it about? A proposal towards using a common terminology and a research agenda. Journal of Cleaner Production, 176: 474–485, 3 2018. ISSN 0959-6526. doi: 10.1016/J.JCLEPRO.2017.12.169. URL https://www. sciencedirect.com/science/article/pii/S0959652617331402. J.F. Mas, H. Puig, J.L. Palacio, and A. Sosa-López. Modelling deforestation using GIS and artificial neural networks. Environmental Modelling & Software, 19(5):461–471, 5 2004. ISSN 1364-8152. doi: 10.1016/S1364-8152(03)00161-0. URL https://www.sciencedirect.com/science/article/pii/ S1364815203001610. 51 http://www.nature.com/articles/nbt1386 http://link.springer.com/10.1007/s11367-016-1221-7 http://link.springer.com/10.1007/s11367-016-1221-7 http://doi.wiley.com/10.1046/j.1365-2699.2002.00721.x https://www.sciencedirect.com/science/article/pii/S0169534709002067 https://www.sciencedirect.com/science/article/pii/S0169534709002067 https://www.sciencedirect.com/science/article/pii/S0960982215002195 https://www.sciencedirect.com/science/article/pii/S0960982215002195 https://www.earth-syst-sci-data.net/5/165/2013/ https://www.sciencedirect.com/science/article/pii/S0305750X16305411 https://www.sciencedirect.com/science/article/abs/pii/S003442571830066X https://www.sciencedirect.com/science/article/abs/pii/S003442571830066X http://doi.wiley.com/10.1002/widm.8 http://doi.wiley.com/10.1002/widm.8 https://www.sciencedirect.com/science/article/pii/S0959652617331402 https://www.sciencedirect.com/science/article/pii/S0959652617331402 https://www.sciencedirect.com/science/article/pii/S1364815203001610 https://www.sciencedirect.com/science/article/pii/S1364815203001610 Joseph Mascaro, Gregory P. Asner, David E. Knapp, Ty Kennedy-Bowdoin, Roberta E. Martin, Chris- topher Anderson, Mark Higgins, and K. Dana Chadwick. A Tale of Two “Forests”: Random Forest Machine Learning Aids Tropical Forest Carbon Mapping. PLoS ONE, 9(1):e85993, 1 2014. ISSN 1932-6203. doi: 10.1371/journal.pone.0085993. URL https://dx.plos.org/10.1371/journal. pone.0085993. Helen Mayfield, Carl Smith, Marcus Gallagher, and Marc Hockings. Use of freely available datasets and machine learning methods in predicting deforestation. Environmental Modelling & Software, 87:17–28, 1 2017. ISSN 1364-8152. doi: 10.1016/J.ENVSOFT.2016.10.006. URL https://www. sciencedirect.com/science/article/pii/S1364815216308428. P. (Peter) McCullagh and John A. Nelder. Generalized linear models. Chapman and Hall, 1989. ISBN 9781351445849. URL https://books.google.com.pe/books?hl=es&lr=&id= UzmDDwAAQBAJ&oi=fnd&pg=PT14&dq=generalized+linear+models&ots=3W7WQfNY-g&sig= lXcRCwWdMgLtIPbYLZLfz7k_Urg&redir_esc=y#v=onepage&q=generalizedlinearmodels&f= false. Warren S. McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics, 5(4):115–133, 12 1943. ISSN 0007-4985. doi: 10.1007/ BF02478259. URL http://link.springer.com/10.1007/BF02478259. MINAM (Ministerio del Ambiente). Sistema Nacional de Información Ambiental. MINAM (Ministerio del Ambiente). Agenda para un desarrollo climáticamente responsable. Tech- nical report, 2016. URL http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/ sites/11/2015/12/LA-CONTRIBUCI\unhbox\voidb@x\bgroup\let\unhbox\voidb@x\setbox\ @tempboxa\hbox{O\global\mathchardef\accent@spacefactor\spacefactor}\accent19O\ egroup\spacefactor\accent@spacefactor\futurelet\@let@token\penalty\@M\hskip\z@ skipN-NACIONAL-DEL-PER\unhbox\voidb@x\bgroup\let\unhbox\voidb@x\setbox\@tempboxa\ hbox{U\global\mathchardef\accent@spacefactor\spacefactor}\accent19U\egroup\ spacefactor\accent@spacefactor\futurelet\@let@token\penalty\@M\hskip\z@skip1.pdf. Juan Jose Miranda, Leonardo Corral, Allen Blackman, Gregory Asner, and Eirivelthon Lima. Effects of Protected Areas on Forest Cover Change and Local Communities: Evidence from the Peruvian Amazon. SSRN Electronic Journal, 12 2014. ISSN 1556-5068. doi: 10.2139/ssrn.2537829. URL http://www.ssrn.com/abstract=2537829. G. C. Nelson and D. Hellerstein. Do Roads Cause Deforestation? Using Satellite Images in Econometric Analysis of Land Use. American Journal of Agricultural Economics, 79(1):80–88, 2 1997. ISSN 0002-9092. doi: 10.2307/1243944. URL https://academic.oup.com/ajae/article-lookup/doi/ 10.2307/1243944. OECD. Land cover in countries and regions, 2015. URL https://stats.oecd.org/Index.aspx? DataSetCode=LAND_COVER. Pontus Olofsson, Giles M. Foody, Martin Herold, Stephen V. Stehman, Curtis E. Woodcock, and Michael A. Wulder. Good practices for estimating area and assessing accuracy of land change. Remote Sensing of Environment, 148:42–57, 5 2014. ISSN 0034-4257. doi: 10.1016/J.RSE.2014.02. 015. URL https://www.sciencedirect.com/science/article/pii/S0034425714000704. Stephen G. Perz, Youliang Qiu, Yibin Xia, Jane Southworth, Jing Sun, Matthew Marsik, Karla Rocha, Veronica Passos, Daniel Rojas, Gabriel Alarcón, Grenville Barnes, and Christopher Baraloto. Trans- boundary infrastructure and land cover change: Highway paving and community-level deforestation in a tri-national frontier in the Amazon. Land Use Policy, 34:27–41, 9 2013. ISSN 0264-8377. doi: 10. 1016/J.LANDUSEPOL.2013.01.009. URL https://www.sciencedirect.com/science/article/ pii/S026483771300029X. 52 https://dx.plos.org/10.1371/journal.pone.0085993 https://dx.plos.org/10.1371/journal.pone.0085993 https://www.sciencedirect.com/science/article/pii/S1364815216308428 https://www.sciencedirect.com/science/article/pii/S1364815216308428 https://books.google.com.pe/books?hl=es&lr=&id=UzmDDwAAQBAJ&oi=fnd&pg=PT14&dq=generalized+linear+models&ots=3W7WQfNY-g&sig=lXcRCwWdMgLtIPbYLZLfz7k_Urg&redir_esc=y#v=onepage&q=generalized linear models&f=false https://books.google.com.pe/books?hl=es&lr=&id=UzmDDwAAQBAJ&oi=fnd&pg=PT14&dq=generalized+linear+models&ots=3W7WQfNY-g&sig=lXcRCwWdMgLtIPbYLZLfz7k_Urg&redir_esc=y#v=onepage&q=generalized linear models&f=false https://books.google.com.pe/books?hl=es&lr=&id=UzmDDwAAQBAJ&oi=fnd&pg=PT14&dq=generalized+linear+models&ots=3W7WQfNY-g&sig=lXcRCwWdMgLtIPbYLZLfz7k_Urg&redir_esc=y#v=onepage&q=generalized linear models&f=false https://books.google.com.pe/books?hl=es&lr=&id=UzmDDwAAQBAJ&oi=fnd&pg=PT14&dq=generalized+linear+models&ots=3W7WQfNY-g&sig=lXcRCwWdMgLtIPbYLZLfz7k_Urg&redir_esc=y#v=onepage&q=generalized linear models&f=false http://link.springer.com/10.1007/BF02478259 http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.minam.gob.pe/cambioclimatico/wp-content/uploads/sites/11/2015/12/LA-CONTRIBUCI\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {O\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 O\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip N-NACIONAL-DEL-PER\unhbox \voidb@x \bgroup \let \unhbox \voidb@x \setbox \@tempboxa \hbox {U\global \mathchardef \accent@spacefactor \spacefactor }\accent 19 U\egroup \spacefactor \accent@spacefactor \futurelet \@let@token \penalty \@M \hskip \z@skip 1.pdf http://www.ssrn.com/abstract=2537829 https://academic.oup.com/ajae/article-lookup/doi/10.2307/1243944 https://academic.oup.com/ajae/article-lookup/doi/10.2307/1243944 https://stats.oecd.org/Index.aspx?DataSetCode=LAND_COVER https://stats.oecd.org/Index.aspx?DataSetCode=LAND_COVER https://www.sciencedirect.com/science/article/pii/S0034425714000704 https://www.sciencedirect.com/science/article/pii/S026483771300029X https://www.sciencedirect.com/science/article/pii/S026483771300029X Alexander S.P. Pfaff. What Drives Deforestation in the Brazilian Amazon?: Evidence from Satellite and Socioeconomic Data. Journal of Environmental Economics and Management, 37(1):26–43, 1 1999. ISSN 0095-0696. doi: 10.1006/JEEM.1998.1056. URL https://www.sciencedirect.com/ science/article/abs/pii/S0095069698910567. C Reid Turner, Alfonso Fuggetta, Luigi Lavazza, and Alexander L Wolf. A conceptual basis for feature engineering. Journal of Systems and Software, 49(1):3–15, 12 1999. ISSN 0164-1212. doi: 10.1016/S0164-1212(99)00062-X. URL https://www.sciencedirect.com/science/article/ pii/S016412129900062X. Sassan S Saatchi, Nancy L Harris, Sandra Brown, Michael Lefsky, Edward T A Mitchard, Wi- lliam Salas, Brian R Zutta, Wolfgang Buermann, Simon L Lewis, Stephen Hagen, Silvia Pe- trova, Lee White, Miles Silman, and Alexandra Morel. Benchmark map of forest carbon stocks in tropical regions across three continents. Proceedings of the National Academy of Sciences of the United States of America, 108(24):9899–904, 6 2011. ISSN 1091-6490. doi: 10.1073/pnas.1019576108. URL http://www.ncbi.nlm.nih.gov/pubmed/21628575http://www. pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3116381. Steven L. Salzberg. C4.5: Programs for Machine Learning by J. Ross Quinlan. Morgan Kaufmann Publishers, Inc., 1993. Machine Learning, 16(3):235–240, 9 1994. ISSN 0885-6125. doi: 10.1007/ BF00993309. URL http://link.springer.com/10.1007/BF00993309. Jannick H. Schmidt, Bo P. Weidema, and Miguel Brandão. A framework for modelling indirect land use changes in Life Cycle Assessment. Journal of Cleaner Production, 99:230–238, 7 2015. ISSN 0959- 6526. doi: 10.1016/J.JCLEPRO.2015.03.013. URL https://www.sciencedirect.com/science/ article/pii/S0959652615002309. Ellen K. Silbergeld, Denis Nash, Circey Trevant, G. Thomas Strickland, Jose Maria de Souza, and Rui S.U. da Silva. Mercury exposure and malaria prevalence among gold miners in Pará, Brazil. Revista da Sociedade Brasileira de Medicina Tropical, 35(5):421–429, 10 2002. ISSN 0037-8682. doi: 10.1590/S0037-86822002000500001. URL http://www.scielo.br/scielo.php?script=sci_ arttext&pid=S0037-86822002000500001&lng=en&tlng=en. Stephen V. Stehman. Impact of sample size allocation when using stratified random sampling to estimate accuracy and area of land-cover change. Remote Sensing Letters, 3(2):111–120, 3 2012. ISSN 2150-704X. doi: 10.1080/01431161.2010.541950. URL http://www.tandfonline.com/doi/ abs/10.1080/01431161.2010.541950. Florence Van Stappen, Isabelle Brose, and Yves Schenkel. Direct and indirect land use changes issues in European sustainability initiatives: State-of-the-art, open issues and future developments. Biomass and Bioenergy, 35(12):4824–4834, 12 2011. ISSN 0961-9534. doi: 10.1016/J.BIOMBIOE.2011.07.015. URL https://www.sciencedirect.com/science/article/pii/S0961953411004119. I. Vázquez-Rowe, R. Kahhat, G. Larrea-Gallegos, and K. Ziegler-Rodriguez. Peru’s road to climate action: Are we on the right path? The role of life cycle methods to improve Peruvian national contributions. Science of the Total Environment, 659, 2019. ISSN 18791026. doi: 10.1016/j.scitotenv. 2018.12.322. Varsha Vijay, Chantal D Reid, Matt Finer, Clinton N Jenkins, and Stuart L Pimm. Deforestation risks posed by oil palm expansion in the Peruvian Amazon. Environmental Research Letters, 13 (11):114010, 11 2018. ISSN 1748-9326. doi: 10.1088/1748-9326/aae540. URL http://stacks.iop. org/1748-9326/13/i=11/a=114010?key=crossref.b79a451ac8c38ccebc29a57709336b95. R. T. Watson, Daniel L. (Daniel Lee) Albritton, Intergovernmental Panel on Climate Change. Working Group I., Intergovernmental Panel on Climate Change. Working Group II., and Intergovernmental Panel on Climate Change. Working Group III. Climate change 2001 : synthesis report. Cambridge University Press, 2001. ISBN 0521807700. 53 https://www.sciencedirect.com/science/article/abs/pii/S0095069698910567 https://www.sciencedirect.com/science/article/abs/pii/S0095069698910567 https://www.sciencedirect.com/science/article/pii/S016412129900062X https://www.sciencedirect.com/science/article/pii/S016412129900062X http://www.ncbi.nlm.nih.gov/pubmed/21628575 http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3116381 http://www.ncbi.nlm.nih.gov/pubmed/21628575 http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC3116381 http://link.springer.com/10.1007/BF00993309 https://www.sciencedirect.com/science/article/pii/S0959652615002309 https://www.sciencedirect.com/science/article/pii/S0959652615002309 http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0037-86822002000500001&lng=en&tlng=en http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0037-86822002000500001&lng=en&tlng=en http://www.tandfonline.com/doi/abs/10.1080/01431161.2010.541950 http://www.tandfonline.com/doi/abs/10.1080/01431161.2010.541950 https://www.sciencedirect.com/science/article/pii/S0961953411004119 http://stacks.iop.org/1748-9326/13/i=11/a=114010?key=crossref.b79a451ac8c38ccebc29a57709336b95 http://stacks.iop.org/1748-9326/13/i=11/a=114010?key=crossref.b79a451ac8c38ccebc29a57709336b95 Mikaela J. Weisse and Lisa C. Naughton-Treves. Conservation Beyond Park Boundaries: The Impact of Buffer Zones on Deforestation and Mining Concessions in the Peruvian Amazon. Environmental Management, 58(2):297–311, 8 2016. ISSN 0364-152X. doi: 10.1007/s00267-016-0709-z. URL http: //link.springer.com/10.1007/s00267-016-0709-z. I. H. (Ian H.) Witten, Eibe Frank, Mark A. (Mark Andrew) Hall, and Christop- her J. Pal. Data mining : practical machine learning tools and techniques. 2017. ISBN 9780128043578. URL https://books.google.com.pe/books?hl=es&lr=&id= 1SylCgAAQBAJ&oi=fnd&pg=PP1&dq=Data+Mining+Practical+Machine+Learning+Tools+and+ Techniques+Witten&ots=8IEKveoEua&sig=mFej3m1MFvJymZAIUY-H6dx_lkk#v=onepage&q= DataMiningPracticalMachineLearningToolsandTec. David H. Wolpert. The Lack of A Priori Distinctions Between Learning Algorithms. Neural Computation, 8(7):1341–1390, 10 1996. ISSN 0899-7667. doi: 10.1162/neco.1996.8.7.1341. URL http://www.mitpressjournals.org/doi/10.1162/neco.1996.8.7.1341. Shobhna Yadav and Apoorvi Sood. Adaptation in Neural Networks : A Review. 2(11):3278–3281, 2013. Cha Zhang and Yunqian Ma, editors. Ensemble Machine Learning. Springer US, Boston, MA, 2012. ISBN 978-1-4419-9325-0. doi: 10.1007/978-1-4419-9326-7. URL http://link.springer.com/10. 1007/978-1-4419-9326-7. 54 http://link.springer.com/10.1007/s00267-016-0709-z http://link.springer.com/10.1007/s00267-016-0709-z https://books.google.com.pe/books?hl=es&lr=&id=1SylCgAAQBAJ&oi=fnd&pg=PP1&dq=Data+Mining+Practical+Machine+Learning+Tools+and+Techniques+Witten&ots=8IEKveoEua&sig=mFej3m1MFvJymZAIUY-H6dx_lkk#v=onepage&q=Data Mining Practical Machine Learning Tools and Tec https://books.google.com.pe/books?hl=es&lr=&id=1SylCgAAQBAJ&oi=fnd&pg=PP1&dq=Data+Mining+Practical+Machine+Learning+Tools+and+Techniques+Witten&ots=8IEKveoEua&sig=mFej3m1MFvJymZAIUY-H6dx_lkk#v=onepage&q=Data Mining Practical Machine Learning Tools and Tec https://books.google.com.pe/books?hl=es&lr=&id=1SylCgAAQBAJ&oi=fnd&pg=PP1&dq=Data+Mining+Practical+Machine+Learning+Tools+and+Techniques+Witten&ots=8IEKveoEua&sig=mFej3m1MFvJymZAIUY-H6dx_lkk#v=onepage&q=Data Mining Practical Machine Learning Tools and Tec https://books.google.com.pe/books?hl=es&lr=&id=1SylCgAAQBAJ&oi=fnd&pg=PP1&dq=Data+Mining+Practical+Machine+Learning+Tools+and+Techniques+Witten&ots=8IEKveoEua&sig=mFej3m1MFvJymZAIUY-H6dx_lkk#v=onepage&q=Data Mining Practical Machine Learning Tools and Tec http://www.mitpressjournals.org/doi/10.1162/neco.1996.8.7.1341 http://link.springer.com/10.1007/978-1-4419-9326-7 http://link.springer.com/10.1007/978-1-4419-9326-7 Índice general Índice de figuras Índice de tablas Introducción La deforestación como fenómeno antrópico La expansión vial en el Perú Objetivos y justificación Estado del arte Cambio de uso de suelos: alcances y statu quo Avances en teledección, aprendizaje automatizado y análisis basado en la nube Métodos de cálculo de emisiones de gases de efecto invernadero Materiales y métodos Construcción de modelos de predicción de deforestación Selección de las zonas y sub-zonas de análisis Recolección y procesamiento de datos Construcción y validación de modelos de predicción Regresión logística Random forest Redes Neuronales Artificales Estimación de emisiones de GEI Implementación del sistema de trabajo en la nube Resultados y discusión Análisis de datos Búsqueda de hiperparámetros Importancia de las variables Comparación entre modelos Visualización de resultados Cálculo de emisiones de carbono Conclusiones Agradecimientos Bibliografía