Universidad de Ibagué Determinación de zonas de manejo en ...

94
Universidad de Ibagué Maestría en Ingeniería de Control Tesis de maestría Determinación de zonas de manejo en un sistema de producción rotacional arroz, maíz – algodón usando técnicas de aprendizaje de máquina Por: María Fernanda Monroy 30 de junio 2021 Tutores: Oscar Barrero Ph.D Sofiane Ouazaa Ph.D Jose A. Fernández G. Ph.D AGROSAVIA

Transcript of Universidad de Ibagué Determinación de zonas de manejo en ...

Universidad de Ibagué

Maestría en Ingeniería de Control

Tesis de maestría

Determinación de zonas de manejo en un sistema

de producción rotacional arroz, maíz – algodón

usando técnicas de aprendizaje de máquina

Por:

María Fernanda Monroy

30 de junio 2021

Tutores:

Oscar Barrero Ph.D

Sofiane Ouazaa Ph.D

Jose A. Fernández G. Ph.D

AGROSAVIA

FACULTAD DE INGENIERÍA

MAESTRÍA EN INGENIERÍA DE CONTROL

TRABAJO DE GRADO DE MAESTRÍA

TITULO: Determinación de zonas de manejo en un sistema de producción rotacional arroz, maíz – algodón

usando técnicas de aprendizaje de máquinas

DIRECTORES: Oscar Barrero Mendoza Dr., Jose A. Fernández G. Dr. y Sofiane Ouazaa Dr.

AUTOR NOMBRE : María Fernanda Monroy CÉDULA : 1110583462 E-MAIL : [email protected] TELÉFONO : 3168927606

FIRMA DEL AUTOR

30 de junio del 2021

FECHA DE PRESENTACIÓN

AGRADECIMIENTOS

Primero quiero agradecer a mis tutores Oscar Barrero, Sofiane Ouazaa y Jose A. Fernández por su guía y apoyo.

Su gran conocimiento permitió orientar esta investigación. También quiero agradecer a mi compañero en

Agrosavia Camilo Jaramillo por su gran asesoría y contribución en desarrollo de la tesis.

Quiero agradecer nuevamente al ingeniero Oscar Barrero, a la universidad de Ibagué y a la empresa Agrosavia

por darme la oportunidad para estudiar la maestría. A mis compañeros de la maestría por apoyarme en todo el

proceso.

Finalmente agradezco a mi familia que me apoyado toda mi vida en cada paso que doy, les debo quien soy.

RESUMEN

La definición de zonas de manejo (ZM) dentro de un campo de cultivo es una estrategia importante para la

aplicación de la agricultura de precisión. Sin embargo, la determinación de las ZM es complicada debido a la

existencia de múltiples factores que son responsables de la variabilidad espacial y temporal en el campo. En este

estudio se desarrolló una metodología para determinar las ZM y la predicción de rendimiento a mitad del ciclo de

un cultivo, utilizando un conjunto de datos del suelo, planta y de teledetección procedentes de cámaras RGB y

multiespectral montadas en un vehículo aéreo no tripulado (UAV). El estudio se llevó a cabo en un sistema de

cultivo comercial de arroz, maíz-algodón (sistema de producción rotacional) de 5 hectáreas en una región tropical

(Tolima, Colombia). La información fue obtenida de dos campañas de los cultivos de arroz y maíz, y una campaña

del cultivo de algodón. Las variables medidas incluyeron las propiedades del suelo, las condiciones del cultivo y

los índices de vegetación (MI) obtenidos desde un UAV en diferentes etapas hasta la mitad de la campaña.

Distintas bases de datos fueron utilizadas para conocer el aporte de las variables sobre los modelos. SOIL:

Parámetros del suelo y el cultivo; MI: Imágenes multiespectrales (bandas espectrales, índices de vegetación e

índices de color); ALL: Todas las variables (SOIL+MI) y CPE: Componentes principales espaciales.

Para conocer las ZM de manejo en el sistema de producción rotacional se realizó la identificación de zonas

homogéneas donde se utilizaron los algoritmos de agrupación Fuzzy C-means, K-means y McQuitty, y el área fue

dividida en dos, tres y cuatro zonas, además se aplicó un filtro de la mediana para realizar un suavizado a las

zonas conformadas. A su vez, se realizaron modelos de predicción de rendimiento mediante algoritmos de

regresión como random forest (RF), k-nearest neighbor (KNN), LASSO, multilayer perceptron (MLP) y support

vector machine (SVM), los cuales fueron evaluados mediante el coeficiente de determinación R2 y la raíz del error

medio cuadrático RMSE. También se utilizaron los algoritmos de clasificación RF, KNN, naïve Bayes gaussiano

(NB), gradient boosting (GB) y SVM como otro método en la predicción de rendimiento, los cuales fueron

evaluados mediante la evaluación de la exactitud y la matriz de confusión. La base de datos tomó las dos

campañas del cultivo (según corresponda) y se dividieron aleatoriamente de manera estratificada según el

rendimiento en 70% para entrenamiento y 30% para validación.

Los resultados en la identificación de zonas homogéneas, demuestran que existe un comportamiento dinámico y

por esa razón cada cultivo presenta una distribución de ZM diferentes. Los resultados mostraron que al realizar

el suavizamiento se mostraba una mejor división de las zonas. Los resultados provistos por el algoritmo K-means

demuestra una división del área en zonas significativamente distintas según los resultados de ANOVA y

comparación de medias de Tukey, además el índice de reducción de varianza (VR), para la delimitación de zonas

generada por este algoritmo se encontró entre los más altos, demostrando una mejor separación de los grupos.

En el cultivo de arroz se seleccionó la división en tres zonas donde la media de rendimiento de la zona uno fue

de 9674.5 Kg ha-1, la zona dos fue de 9120.0 Kg ha-1 y la zona tres de 8554.9 Kg ha-1, la base de datos utilizada

fue CPE y el VR fue de 51, en el cultivo de algodón se dividió el área en cuatro zonas, donde la zona uno tuvo

una media de 2359.3 Kg ha-1, la zona dos 2191 Kg ha-1, la zona tres 2042.2 Kg ha-1, y la zona cuatro fue de

2441.5 Kg ha-1, la base de datos utilizada fue CPE y el VR fue de 35.7. Finalmente, en el cultivo de maíz, el área

fue dividida en tres zonas donde la zona uno tuvo una media de rendimiento de 5942.3 Kg ha -1, la zona dos,

5863.7 Kg ha-1, la zona tres, 8009 Kg ha-1, la base de datos utilizada fue MI y el VR fue de 38.6.

Los resultados de los modelos de predicción de rendimiento utilizando los algoritmos de regresión mostraron que

RF, KNN, MLP, y SVM con la base de datos de SOIL cuenta con alta precisión en la predicción de rendimiento,

con resultados de R2 0.96 a 0.99 para el cultivo de arroz, el cultivo de algodón con un R2 entre 0.70 a 0.92 y el

cultivo de maíz con R2 entre 0.96 a 0.99. Los algoritmos de clasificación RF, KNN, GB, y SVM utilizando la base

de datos SOIL, obtuvieron resultados de R2 entre 0.89 a 0.97 en el cultivo de arroz, en algodón entre 0.88 a 0.92

y para el cultivo de maíz entre 0.88 a 0.97. Estos resultados demostraron que diferentes algoritmos son capaces

de generar modelos igualmente eficientes en la predicción de rendimiento donde destacan RF, KNN y SVM.

CONTENIDO

1. PLANTEAMIENTO DEL PROBLEMA. ............................................................................................................ 7

2. JUSTIFICACIÓN ............................................................................................................................................. 8

3. OBJETIVOS .................................................................................................................................................... 9

3.1. Objetivo general ...................................................................................................................................... 9

3.2. Objetivos específicos .............................................................................................................................. 9

4. MARCO TEÓRICO ........................................................................................................................................ 10

4.1. Agricultura de precisión ........................................................................................................................ 10

4.2. Zonas de manejo .................................................................................................................................. 10

4.3. Índices de vegetación ........................................................................................................................... 10

4.4. Parámetros del suelo y el cultivo .......................................................................................................... 11

4.5. Estados fenológicos de crecimiento ..................................................................................................... 12

4.6. Interpolación (Kriging) ........................................................................................................................... 12

4.7. Multispati-pca ........................................................................................................................................ 12

4.8. Aprendizaje de máquinas ..................................................................................................................... 13

4.8.1. Aprendizaje supervisado ............................................................................................................... 13

4.8.2. Aprendizaje no supervisado .......................................................................................................... 15

5. ESTADO DEL ARTE ..................................................................................................................................... 15

6. MACROPROYECTO ..................................................................................................................................... 18

7. DESCRIPCIÓN DE LA INVESTIGACIÓN ..................................................................................................... 18

8. METODOLOGÍA ............................................................................................................................................ 19

8.1. Área de estudio ..................................................................................................................................... 20

8.2. Datos de suelo y el cultivo .................................................................................................................... 22

8.3. Imágenes tomadas remotamente ......................................................................................................... 23

8.4. Selección de variables .......................................................................................................................... 25

8.5. Análisis de componentes principales espaciales .................................................................................. 26

8.6. Interpolación de parámetros del suelo y el cultivo ................................................................................ 26

8.7. Predicción de rendimiento .................................................................................................................... 26

8.8. Identificación de zonas homogéneas .................................................................................................... 27

9. RESULTADOS Y DISCUSIÓN ...................................................................................................................... 28

9.1. Cultivo de arroz ..................................................................................................................................... 28

9.1.1. Procesamiento de imágenes ........................................................................................................ 28

9.1.2. Análisis de datos ........................................................................................................................... 29

9.1.3. Selección de variables .................................................................................................................. 31

9.1.4. Interpolación ................................................................................................................................. 36

9.1.5. Modelo de predicción de rendimiento ........................................................................................... 38

9.1.6. Modelo de identificación de zonas homogéneas .......................................................................... 42

9.2. Cultivo de algodón .................................................................................................................................. 1

9.2.1. Procesamiento de imágenes .......................................................................................................... 1

9.2.2. Análisis de datos ............................................................................................................................. 2

9.2.3. Selección de variables .................................................................................................................... 3

9.2.4. Interpolación ................................................................................................................................... 5

9.2.5. Modelo de predicción de rendimiento ............................................................................................. 6

9.2.6. Modelo de identificación de zonas homogéneas ............................................................................ 9

9.3. Cultivo de maíz ....................................................................................................................................... 1

9.3.1. Procesamiento de imágenes .......................................................................................................... 1

9.3.2. Análisis de datos ............................................................................................................................. 2

9.3.3. Selección de variables .................................................................................................................... 3

9.3.4. Interpolación ................................................................................................................................... 7

9.3.5. Modelo de predicción de rendimiento ........................................................................................... 10

9.3.6. Modelo de identificación de zonas homogéneas .......................................................................... 12

9.4. Zonas de manejo .................................................................................................................................... 1

10. DISCUSIÓN ................................................................................................................................................ 2

11. CONCLUSIONES ....................................................................................................................................... 1

12. BIBLIOGRAFÍA Y FUENTES DE INFORMACIÓN ..................................................................................... 3

13. ANEXOS ..................................................................................................................................................... 6

1. PLANTEAMIENTO DEL PROBLEMA.

En la actualidad la población mundial es de 7.600 millones de personas y la Organización de las Naciones Unidas

para la Alimentación y la Agricultura FAO pronostica un incremento a 11000 millones para el año 2100. En

consecuencia, la producción actual de alimentos debe aumentar y al mismo tiempo ser sostenible para disminuir

los costos y el impacto ambiental [1]. Debido a la producción acelerada y la creciente demanda de alimentos es

necesario utilizar gran parte del territorio para la agricultura. Más del 35% del terreno sin hielo del planeta es

empleado para esta actividad, donde se requiere de la extracción de la cubierta vegetal, lo que deja los suelos al

descubierto con problemas de erosión y pérdida de nutrientes [2].

En la agricultura, algunas prácticas como la administración desmedida de fertilizantes y pesticidas traen consigo

graves repercusiones, tales como el uso ineficiente de los recursos agrícolas y el impacto directo sobre el medio

ambiente debido a la inadecuada aplicación de estos. Por ello, las plantas son incapaces de procesarlos

completamente y quedan libres en el ambiente [3]. A su vez, el tratamiento intensivo de los suelos utilizado en

muchos países, causa la reducción de materia orgánica, y limita la posibilidad de degradar adecuadamente los

contaminantes orgánicos, lo que ocasiona la pérdida de las propiedades de esa área para ser cultivable en el

futuro, además los suelos contaminados aminoran el rendimiento y el bienestar de los cultivos lo que causa bajo

contenido de nutrientes en los alimentos, además, afecta directamente la seguridad alimentaria [4].

Una de las prácticas comunes del agricultor es realizar un manejo del cultivo de manera homogénea sin

considerar la existencia de la variabilidad espacial, en la cual los nutrientes del suelo están distribuidos en

cantidades diferentes sobre el campo; esto limita la correcta absorción de nutrientes por parte de las plantas, en

consecuencia, la alta variabilidad espacial de los parámetros del cultivo afecta los rendimientos [5]. La búsqueda

de mejores prácticas en el sector agrícola llevó a introducir tecnologías de gestión como la detección remota,

mapeos de rendimiento, análisis del suelo y monitoreo georreferenciado con el fin de crear sistemas para apoyar

la toma de decisiones en operaciones de labranza, manejo del riego y aplicación de insumos para generar

ganancias de manera sostenible; esta nueva forma de agricultura se denominó agricultura de precisión (AP) [6],

[7].

En países desarrollados como Estados Unidos, Alemania Francia, Reino Unido, entre otros; han desarrollado la

AP en función de mejorar la seguridad y calidad en los productos agrícolas. Entre las tecnologías implementadas

se encuentra el internet de las cosas IoT y el big data. En Estados Unidos existe una red de información nacional

actualizada y el historial de datos sensados, además cuenta con normas y leyes políticas que respaldan y ofrecen

soporte en la toma de decisiones del agricultor. Algunas regiones logran entre el 60% y 80% de adopción

tecnológica respecto a herramientas de control automático. Alemania, Francia, Italia y Holanda trabajan con

detección remota y la robótica principalmente. Israel concentra su programa en la gestión de riego de precisión,

también emplea el método de riego por sitio específico. En Australia, se ha logrado la adopción de la agricultura

de precisión en un 80% y en Canadá, el 98% de su tecnología es guiada por GPS, además el 20% realiza

aplicación variada de fertilizantes [6], [7].

Países de Latinoamérica como Argentina, Brasil, Cuba, Chile, Uruguay, Paraguay, Bolivia, México, Perú y

Ecuador comenzaron la implementación de la agricultura de precisión hace décadas en conjunto al Instituto

Nacional de Tecnología Agropecuaria (INTA) que brindó el apoyo necesario para la adopción de las nuevas

técnicas en la agricultura [8]. Argentina actualmente emplea monitores de rendimiento y se considera que el 4%

del total de semillas y granos fueron cosechados mediante la utilización del mapeo de rendimiento, también usan

herramientas de detección remota como imágenes satelitales y equipos autónomos. Brasil desarrolla la AP en un

20% del sector agrícola con instrumentos de control manual, aplicación variable de fertilizantes y encalado,

muestreo de suelos e imágenes remotas [6].

En Colombia, es común el uso intensivo de insumos agrícolas, de esta forma, provoca degradación ambiental e

incremento en los costos, y así, se ve limitado el potencial del cultivo. Debido a esto, es necesario la adopción de

la AP para realizar una aplicación diferencial de insumos para seguir las especificaciones propias del sitio. En la

actualidad la agricultura tradicional es dominante en el país, con algunas excepciones por parte de los productores

comerciales, en general los procesos desconsideran un manejo localizado, por el contrario, la distribución de

insumos se realiza en cantidades iguales sobre el campo. Aunque algunos productores han utilizado las

herramientas y tecnologías de AP sobre cultivos como el banano, caña de azúcar y café [9]. Dentro de las

herramientas utilizadas en algunos sectores del país, se encuentran los satélites, usados para reconocer el estado

fenológico e identificación del tipo de cultivo, también se utilizan los drones que proporcionan mejor resolución

para monitorear el cultivo y poder detectar malezas y enfermedades dentro del mismo [10].

En el departamento del Tolima se emplea la rotación de cultivos lo que implica sembrar un cultivo de ciclo corto

diferentes sobre el sistema de producción con el fin de limitar el uso de agua para riego y a su vez mejorar la

fertilidad [11], esta forma de tratamiento del sistema productivo es recomendada por la FAO. En el Tolima el

distrito de riego USOCOELLO, como ente responsable de distribuir el agua para riego en la zona del sur del

Tolima, impone esta medida para restringir la siembra continua de arroz dado que es un cultivo que demanda

altos volúmenes de agua. En la región es una práctica común mantener este cultivo bajo riego constante, es por

ello que se debe rotar la siembra con cultivos que requieran menor cantidad, como el maíz y el algodón.

El Tolima como mayor productor del cultivo arroz en el país se aplica un volumen de agua de riego entre 16.000

y 30.000 m3/ha, de los cuales son necesarios sólo 4.800 m3/ha, según recomendación de la FAO (modelo

AquaCrop). El uso desmedido del recurso trae como consecuencia daños en la estructura del suelo lo que limita

la retención de agua y nutrientes, por consiguiente, demanda mayor uso de insumos y provoca aumento en los

costos [12]. Este problema presente en la región requiere la implementación de herramientas tecnológicas, como

las zonas de manejo (ZM), que permitan administrar el agua del riego de manera eficiente y hacer un manejo

diferencial de insumos, con el fin de disminuir los costos y la contaminación ambiental para mejorar la

productividad.

Las ZM pueden identificar la variabilidad en el sistema de producción, dividiendo el lote en áreas con propiedades

similares, pero diferentes a las áreas alrededor. Las ZM se pueden obtener a partir de mapas de propiedades del

suelo y rendimiento, con las cuales es posible identificar la variabilidad en el sistema de producción. La medición

del rendimiento, al ser obtenida en la cosecha, impide realizar intervenciones durante la campaña, por esta razón,

algunas investigaciones realizan predicciones de rendimiento para conocer su distribución espacial y tomar

medidas preventivas [13]. El riego por sitio específico basado en ZM considera la cantidad de agua, costos y

energía para delimitar las áreas de gestión. Los beneficios de utilizar esta herramienta se reflejan en el aumento

en la productividad, disminución del uso de fertilizantes y la contaminación del suelo [14].

A partir de lo anterior, nace la siguiente pregunta de investigación, ¿cómo obtener mapas de zonas de manejo

para el sistema de producción arroz, maíz-algodón mediante mediciones de variables agronómicas y estimación

de rendimiento con el fin de mejorar su productividad?

2. JUSTIFICACIÓN

Colombia tiene la capacidad de convertirse en proveedor de alimentos de carácter internacional. De esta forma

podría afrontar la demanda alimentaria como parte de los retos mundiales futuros, con tal de invertir recursos en

nuevas tecnologías que apoyen el sector agrícola y lograr aumentos en la producción para el año 2030 [15]. De

manera más específica, según los registros, el departamento del Tolima es el mayor productor de arroz, en año

2019 presentó rendimientos hasta de 7,1 ton/ha, lo que representa un rendimiento menor al año anterior [16].

También el cultivo de maíz es representativo de la región, pero se ha evidenciado un 31% de disminución del

área sembrada, así mismo, el departamento pasó de liderar la producción a ocupar el tercer lugar [17]–[19]. De

forma análoga, el cultivo de algodón ha demostrado una diminución en áreas de siembra, ya que en el 2015 tenía

31.464 ha en y en el 2019 pasó a 18.237 ha. Históricamente el algodón, ha sido un producto importante en el

país, es por ello que se han implementado políticas que apoyen su producción y, a pesar del descenso en el área

cultivada, se logró mejorar al obtener un rendimiento de 0.95 Ton Fibra/ha en el año 2019, en comparación al

rendimiento de 0.844 Ton Fibra/ha del año 2015 [20], [21].

Es evidente la existencia de una variación en la productividad, y esto puede ser consecuencia a diversos factores

como el tratamiento de los cultivos que, en la agricultura tradicional, considera los campos homogéneos, por lo

cual se realiza un manejo insuficiente o por el contrario provoca exceso de fertilizantes, pesticidas y agua sin

considerar el comportamiento del sistema de producción, esto conlleva a generar altos costos y contaminación

ambiental que no logran aportar a una agricultura sostenible. Es necesario un cambio en el tratamiento de los

cultivos, para ello un aspecto importante, en el cual centrarse es el agricultor ya que se encarga de tomar las

decisiones sobre el campo, lo cual puede traer resultados positivos o negativos en la productividad y, aún más

importante, se requiere de tecnologías que lo apoyen en el proceso del manejo del cultivo como mapas de ZM

capaces de determinar la variabilidad dentro del sistema [3].

En el marco de la AP se han desarrollado diferentes herramientas con el fin de conocer la variabilidad, basadas

en minería de datos y aprendizaje de máquinas para extraer la información, las cuales son capaces de manejar

datos provenientes de múltiples sensores que permiten realizar un manejo adecuado de la información en

procesos como predicción de rendimiento y delimitación de zonas homogéneas [22]. El aprendizaje de máquina

se usa principalmente cuando no se puede determinar una relación entre la entrada y salida con los métodos

tradicionales. Muchas investigaciones han relacionado los índices de vegetación con vehículo aéreo no tripulado

UAV y las propiedades del suelo con el rendimiento en cultivos de arroz, maíz y algodón en la predicción de

rendimiento mediante métodos de clasificación o regresión [13], [23]–[25]. Otros estudios, se han enfocado en

identificar zonas homogéneas con técnicas como Clustering o agrupamiento las cuales se toman mediciones

realizadas en el campo para dividir la información en clases o grupos que posteriormente se adaptan como zonas

homogéneas [26].

Esta investigación busca solucionar la problemática mediante el desarrollo de un sistema basado en zonas de

manejo para apoyar la toma de decisiones del agricultor en el tratamiento posterior sobre el campo. Estas ZM

serán conformadas con mapas de delimitación de zonas homogéneas y mapas de predicción de rendimiento

obtenidos a mitad de temporada para los cultivos de arroz, maíz y algodón. A partir de las mediciones de los

parámetros del cultivo, propiedades fisicoquímicas del suelo y evaluaciones de imágenes multiespectrales

tomadas con un UAV, se construirán modelos para generar mapas de zonas homogéneas y rendimiento predicho.

Las técnicas de aprendizaje de máquinas se utilizarán en la identificación de zonas con la aplicación de los

métodos de Clustering y para la predicción de rendimiento se implementarán algoritmos de regresión de

aprendizaje supervisado. La metodología y los resultados propuestos pretenden generar un aporte al sector

agrícola a fin de generar una herramienta para apoyar la toma de decisiones sobre los sistemas de producción.

3. OBJETIVOS

3.1. Objetivo general

Desarrollar mapas de zonas de manejo del sistema de producción rotacional arroz, maíz-algodón con base en

mapas de zonas homogéneas y la predicción del rendimiento.

3.2. Objetivos específicos

● Establecer un modelo de predicción de rendimiento para cada cultivo (arroz, maíz y algodón) estudiado en el

sistema de producción empleando técnicas de aprendizaje de máquinas.

● Desarrollar un modelo basado en inteligencia artificial de identificación de zonas homogéneas sobre el

sistema producción de pequeña escala.

● Evaluar el desempeño de los modelos propuestos en función de los datos obtenidos a partir de las medidas

realizadas en los cultivos.

4. MARCO TEÓRICO

En esta investigación se tratarán conceptos propios de la materia, para poder realizar una correcta lectura y

comprensión es necesario entender conceptos como agricultura de precisión, zonas de manejo, aprendizaje de

máquinas, entre otros. De esta forma se podrán analizar adecuadamente en el contexto de la investigación.

4.1. Agricultura de precisión

Está compuesta por diversos procesos que realizan un manejo sobre la variabilidad espacial y temporal presente

en los sistemas de producción, de esa forma se hace uso de distintas tecnologías para emplear un manejo

localizado. De esta manera se disminuyen costos y se evita la contaminación ambiental [27].

Las técnicas que hacen parte de la agricultura de precisión pueden ser agrupadas en tres. En la Figura 1, se

muestran las etapas de la agricultura de precisión con algunas prácticas y los resultados obtenidos a partir de su

desarrollo, donde se observa primero la recolección de datos (etapa 1), que atraviesa un proceso de análisis para

establecer patrones dentro del sistema. A partir de esta información se generan modelos capaces de interpretar

(etapa 2) los datos mediante mapas de aplicación de insumos (etapa 3) georreferenciados para el manejo por

sitio específico con el apoyo de diferentes tecnologías.

Figura 1. Etapas de la agricultura de precisión. Fuente: IICA [27].

4.2. Zonas de manejo

Las ZM se definen como las áreas donde el sistema de producción presenta una combinación similar de

parámetros que limitan el rendimiento. Por lo tanto, requieren de una aplicación específica de insumos. De esta

manera las zonas pueden ser delimitadas por medio de factores que influyen directamente en la productividad

esperada. El número de zonas se plantea en función de la variabilidad natural, la extensión del terreno y la

capacidad de aplicar fácilmente un manejo diferencial dentro del sistema sin aumentar los costos [28].

4.3. Índices de vegetación

El espectro visible e infrarrojo es usado para conocer el estado de la vegetación, debido a que la reflectancia

cambia al igual que sus hojas en el transcurso del tiempo. Las combinaciones de diferentes firmas espectrales

conforman los índices de vegetación, que pueden resaltar diferentes características físicas y químicas de la

vegetación [24].

4.4. Parámetros del suelo y el cultivo

Dentro de los parámetros del cultivo encontramos la cantidad de clorofila, utilizado para evaluar el estado del

nitrógeno de la planta y la actividad fotosintética [29], el índice de reflectancia fotoquímica (PRI, por sus siglas en

inglés), es un índice fisiológico sensible al cambio de pigmentación en el ciclo de xantofilas [30], este último es

un sistema de protección en la fotosíntesis, que permite la expulsión de energía sobrante [31]. Finalmente, se

encuentra el índice de área foliar (LAI por sus siglas en inglés), medido con el fin de analizar la estructura del

dosel y está relacionado con la productividad [32].

En la física y química de suelos, además de la penetrometría son mediciones de los parámetros del suelo. La

medición de la física de suelos presenta conjuntos de variables, que son complementarias entre sí, como

capacidad de campo, punto de marchitez permanente y agua aprovechable. El suelo se toma como depósito de

agua, una vez se realiza el riego, o surge una lluvia abundante, el agua ocupa todos los poros del suelo, de esta

forma queda el suelo saturado, una vez comienza a fluir el agua, llega a un lugar en el subsuelo donde se estanca,

este punto se llama capacidad de campo (ver Figura 2), a partir de este punto, la planta es capaz de adquirir el

agua con facilidad, una vez la planta consume el agua, se agota hasta un nivel del suelo donde las raíces no

alcanzan a absorberla, ni a los nutrientes que hay en ella, este nivel en el suelo se llama punto de marchitez. La

diferencia entre la capacidad de campo y el punto de marchitez es el agua aprovechable [33].

Figura 2. Ilustración de los conceptos de capacidad de campo, punto de marchitez permanente y agua aprovechable.

Fuente: Autor.

También se encuentra la porosidad como medición de la física de los suelos, la cual se define como el espacio

disponible para el agua y el aire, esta se subdivide en macroporos, mesoporos y microporos. Los macroporos

permiten el paso del agua, debido a que esta sección del suelo está compuesta por poros grandes, los mesoporos

muestran un diámetro menor a los macroporos, por ello, el agua pasa con mayor restricción, y los microporos son

capaces de retener el agua debido a que presentan poros más finos [34].

La textura es la fracción de componentes inorgánicos del suelo como arena, limo y arcilla. Es una de las

propiedades más importantes, ya que influye en la fertilidad, retención de agua, entre otras. Se define como el

porcentaje encontrado de los elementos arena, limo y arcilla en las muestras de suelo. La textura se clasifica

según el tamaño de las partículas, arena presenta un tamaño de 2.0 mm a 0.05 mm, limo de 0.05mm a 0.002 mm

y arcilla son partículas menores a 0.002mm [34], [35]. Finalmente, la densidad aparente se refiere al peso por

volumen del suelo. Se define como la compactación del suelo y se utiliza para conocer la resistencia del suelo

ante el crecimiento de las raíces de las plantas [35], [36].

Dentro de las propiedades químicas contamos con la capacidad de intercambio catiónico, la cual describe la

capacidad del suelo de retener e intercambiar ciertos nutrientes [37], las saturaciones se define como el valor de

cada base (calcio, magnesio, sodio o potasio) según la capacidad de intercambio catiónico, esto con el fin de

conocer la disponibilidad de estos nutrientes, y relaciones de propiedades químicas, (Ca/Mg, Mg/K, Ca/B,

(Ca+Mg)/K) son medidas para interpretar la deficiencia o exceso de nutrientes en el suelo [38].

La penetrometría mide la resistencia del suelo a la penetración, que representa la compactación del suelo, de

esta manera se puede conocer la dificultad que puede tener el crecimiento de las raíces, además de las

disponibilidad de agua [39].

4.5. Estados fenológicos de crecimiento

Es una codificación de los estados de crecimiento para todas las plantas, se creó con el fin de hacer más

específicas las escalas y realizar mejores prácticas agrícolas en el registro. Existe una escala general BBCH para

cereales, arroz, maíz, avena, algodón, entre otros [40].

4.6. Interpolación (Kriging)

La interpolación es la estimación del comportamiento de una variable sobre puntos no muestreados. Kriging es

un método de interpolación que basa su análisis en la dependencia espacial, la principal herramienta es el

semivariograma, el cual permite medir la autocorrelación mediante el conocimiento de la varianza, al tomar todas

las muestras por pares con base a la distancia, en este caso la semivarianza es menor cuando la distancia entre

muestras es más cercana, y mayor cuando la distancia aumenta, por ende cuando la distancia entre muestras es

muy lejana, sus valores no están relacionados, de esta forma se construye un semivariograma [41], [42] como se

observa en la Figura 3.

Figura 3. Estructura del semivariograma. Fuente: Jaramillo [41].

El semivariograma se constituye por el sill (C1+Co), ver Figura 3, que es la parte más alta del semivariograma, el

rango que es la distancia donde se alcanza el sill y el nugget (Co) donde el valor del semivariograma es muy

cercano al eje Y. Una vez generado el semivariograma se procede a buscar un modelo que se ajuste a él, entre

los más comunes están el modelo esférico, exponencial y gaussiano. Una vez seleccionado el modelo, se realiza

la interpolación por método de kriging, pero antes, se deben verificar que los datos presenten una tendencia

normal, de no ser así se debe realizar una transformación [41], [42].

4.7. Multispati-pca

Es un análisis multivariado para conocer la variabilidad en un conjunto de datos espaciales, basado en el análisis

de componentes principales PCA y el análisis de dependencia espacial dado a través del índice de Moran. De

esta manera se puede analizar la relación entre variables y la estructura espacial [43].

4.8. Aprendizaje de máquinas

El aprendizaje de máquina, o Machine Learning en inglés, es una rama de la inteligencia artificial que busca

establecer modelos capaces de obtener patrones a partir de un conjunto de datos con el mínimo gasto

computacional en el proceso. Las técnicas de aprendizaje de máquina se pueden clasificar en no supervisado y

supervisado. El aprendizaje no supervisado se utiliza cuando los datos no presentan una estructura a simple vista

de ahí que se utilicen métodos de exploración y análisis. El aprendizaje supervisado se usa sobre bases de datos

donde la salida es conocida, de esta forma, crea patrones a partir de lo observado [44].

4.8.1. Aprendizaje supervisado

El objetivo del aprendizaje supervisado es establecer un modelo a partir de un conjunto de datos etiquetados. De

esta manera puede suministrar predicciones ante datos futuros o datos que no hicieron parte del entrenamiento.

Según la salida, se puede realizar una clasificación si la variable es discreta, o regresión si la variable es continua

[44].

Random Forest

El algoritmo Random Forest, o bosque aleatorio (RF), algoritmo robusto con funcionamiento simple, toma

muestras de la base de datos aleatoriamente, de manera que se genera un árbol con cada muestra de manera

independiente. El resultado de cada árbol será sujeto a un proceso de votación. En el caso de clasificar, cada

árbol vota y la clase más popular es la elegida y, en caso de hacer regresión, se toma el promedio de todos los

resultados de los árboles como respuesta final [44].

Redes Neuronales Artificiales

Este algoritmo es inspirado en el concepto de neurona del ser humano donde simula la conexión y transmisión

de información. Los valores de entrada son multiplicados por unos pesos, el resultado de esta combinación pasa

a través de una función de activación que tiene una salida binaria, de esta forma discrimina entre clases para

realizar la predicción. A partir de la predicción se genera un error con el valor real, con base en el cual se actualizan

los pesos. Es un proceso de optimización en busca de minimizar el error hasta que se cumplan los parámetros

predefinidos en el algoritmo [44].

K-Nearest Neighbors

El algoritmo k-Nearest Neighbors (KNN) o vecinos más próximos se diferencia de los demás, debido a que

aprende sobre la base de datos sin crear una función discriminativa. El k-nearest neighbors toma un punto a

clasificar y lo compara con k muestras en una distancia definida previamente. Las muestras votan según su

cercanía y se selecciona una clase a la cual pertenece el punto según el puntaje más alto [44].

Support Vector Machine

El algoritmo de Support Vector Machine (SVM) divide el hiperplano según las características de entrada como se muestra en

la Figura 4, se considera como margen la distancia entre el hiperplano y las muestras cercanas a estas llamadas vectores de

soporte. El algoritmo busca maximizar el margen ya que al ser más grande es menos propenso al sobreajuste [44].

Figura 4. División del hiperplano. Fuente: Rachka [44]

Operador de Selección y Contracción Menos Absoluta LASSO

LASSO es un método de regresión con contracción. Este algoritmo penaliza la magnitud de los coeficientes

encontrados en el modelo de regresión de modo que añade un parámetro λ (lambda), para reducir la complejidad

y solucionar el problema de sobreajuste [44].

Naïve Bayes

El clasificador Naïve Bayes tiene por objetivo encontrar la hipótesis más probable que describa un conjunto de

observaciones basándose en el teorema de Bayes, el cual está expresado por la ecuación de la Figura 5. Existen

dos tipos de clasificadores naïve Bayes, los cuales son el gaussiano que asume que la distribución estadística de

las características es normal y el multinomial que asume una distribución multinomial. A partir de los datos se

puede seleccionar el tipo de clasificador, ya que es más conveniente usar el clasificador naïve Bayes gaussiano

para datos continuos y el clasificador naïve Bayes multinomial cuando los datos son discretos.

Figura 5. Ecuación del teorema de Bayes. Fuente: Albon [45].

De la anterior ecuación se definen el termino 𝑃(𝑦|𝑥𝑝, … , 𝑥𝑗), como el posteriori, el cual es la probabilidad de que

la observación sea de la clase 𝑦, según las características 𝑥𝑝, … , 𝑥𝑗; 𝑃(𝑥𝑝, … , 𝑥𝑗|𝑦) es el likelihood el cual es la

probabilidad de obtener las características 𝑥𝑝, … , 𝑥𝑗 al definir una clase 𝑦; 𝑃(𝑦) es el prior, definido como el

conocimiento previo acerca de la probabilidad de la clase 𝑦 antes de mirar los datos; 𝑃(𝑥𝑝, … , 𝑥𝑗) que es la

probabilidad marginal [45]. El procedimiento del clasificador es el siguiente, se calcula la probabilidad priori de

una observación sin clasificar para cada clase posible, también se hace el cálculo del likelihood, como la

probabilidad marginal es constante, se compara los numeradores del posteriori y el mayor valor es la clase

predicha.

Gradient Boosting

El modelo de gradient boosting está conformado por árboles de decisiones que se entrenan de manera

secuencial, donde los árboles van aprendiendo de los errores de generados anteriormente. Gradient boosting en

el método de clasificación, genera el primer árbol, denominado aprendiz débil con el que se predice la salida y se

calculan los residuos, estos residuos serán la salida de los datos de entrenamiento del siguiente árbol, de esta

manera, se desarrolla de manera iterativa, de tal forma que se van minimizando los residuos. También adiciona

un valor conocido como tasa de aprendizaje, el cual evita que se genere un sobreajuste [46].

4.8.2. Aprendizaje no supervisado

Dentro de los algoritmos de aprendizaje no supervisado se encuentra el Clustering o agrupamiento, el cual

pretende encontrar una distribución de los datos en grupos que compartan características similares.

K-means

El algoritmo k-means conforma los grupos en función de la similitud entre las características de un conjunto de

datos según un número k de grupos predefinido. De manera aleatoria se asignan k centroides sobre el conjunto

de datos a analizar, luego se asigna cada muestra al centroide más cercano y se realiza la suma de la diferencia

entre la distancia del centroide y cada muestra perteneciente a ese grupo. El proceso se desarrolla de manera

iterativa como un problema de optimización para minimizar la distancia entre las muestras y los centroides [44].

Fuzzy C-Means

Al algoritmo Fuzzy C-Means se le denomina k-means suave debido a su similitud, se diferencia en el proceso de

optimización, ya que la función de membresía representa la plausibilidad de pertenecer a un grupo en un rango

de [0,1], en lugar de ser un valor binario, además presenta un coeficiente difuso que controla el grado de difusidad,

lo que provoca mayor o menor pertenencia de la muestra a un grupo. Debido al aumento de complejidad el Fuzzy

C-Means puede tener mayor costo computacional [44]

McQuitty

El algoritmo McQuitty emplea el agrupamiento jerárquico, el cual se puede dar de dos formas, aglomerativa y

divisiva. La forma aglomerativa parte de muestras individuales y agrupa pares de muestras hasta que quede un

grupo que encierre todo el conjunto de datos, la divisiva se desarrolla en un proceso opuesto [44]. Las muestras

similares se agrupan según la función de distancia propuesta por McQuitty (Ecuación 1) la cual se define como

el promedio entre las distancias calculadas en cada grupo que se pretende unir [26].

Ecuación 1. Función de distancia McQuitty [26]

𝐷 (𝐺𝑥 , (𝐺𝑖, 𝐺𝑗)) =1

2(𝐷(𝐺𝑥 , 𝐺𝑖) + 𝐷(𝐺𝑥 , 𝐺𝑗))

La ventaja de este algoritmo es que no necesita ser estipulada la cantidad de grupos con antelación y la

evaluación en la forma de agruparse en cada iteración se da a través de dendrogramas, definido como la

representación gráfica de los pares de agrupamientos según una función de distancias entre muestras [44].

5. ESTADO DEL ARTE

Las variaciones en el tratamiento de los cultivos, el clima, las plagas, las propiedades intrínsecas del suelo, entre

otros múltiples elementos que cambian de campaña a campaña, por esto se genera una variabilidad espacial que

impacta sobre el rendimiento, debido a esto las investigaciones se han enfocado en identificar zonas dentro del

cultivo donde las diferencias sean menores [47], [48]. En la identificación de estas zonas se requiere información

espacial y temporal del cultivo, por consiguiente, en agricultura de precisión se hace uso de diferentes tecnologías

que permiten la adquisición de información sobre el campo, de manera indirecta mediante la teledetección con el

uso de satélites [49]–[52], y los vehículos aéreos no tripulados (UAV).

Los UAV se han utilizado en diferentes investigaciones sobre la predicción de rendimiento, debido a la capacidad

de monitorear los cultivos a un bajo costo, comparado con el uso de sensores en tierra, las imágenes tomadas

remotamente son capaces de medir indirectamente la información del crecimiento y la salud de la planta, lo cual

permite que los UAV se utilicen para el monitoreo de la agricultura, zonas verdes urbanas, reforestación, entre

otros campos de una forma más rápida y económica. Dentro de las herramientas de teledetección se implementan

cámaras de alta resolución, las cuales cuentan con múltiples rangos de frecuencia que miden diferentes

características de la superficie de las plantas y hojas mediante la reflectancia de las mismas [53], [24].

Las investigaciones han utilizado en métodos de aprendizaje de máquina y minería de datos para su manejo y

procesamiento. Así mismo se han empleado técnicas de aprendizaje supervisado mediante los métodos de

regresión y clasificación para predecir o clasificar el rendimiento en diferentes cultivos, mientras tanto las técnicas

de aprendizaje no supervisado, como el método de agrupamiento, se ha utilizado para identificar zonas

homogéneas [22].

Mediante el cálculo de las bandas espectrales se obtienen los índices de vegetación, dentro de los más usados

se encuentra el NDVI, el cual se relaciona directamente con el crecimiento y salud de la vegetación, y ha sido

relacionado con el índice de área foliar (LAI). Se ha comprobado que el NDVI es muy sensible al brillo del suelo,

así mismo, se han generado modificaciones, como SAVI y OSAVI, ambos adicionan un valor de compensación

al NDVI para mejorar su sensibilidad contra el fondo del suelo [53]. También se ha encontrado que el NDVI

presenta saturación con el aumento de la biomasa, por lo que, se introdujo un nuevo índice, conocido como

NDRE, el cual utiliza la banda rededge en lugar de la banda red, para mejorar su resistencia ante la saturación

[54]. El índice SR fue uno de los primeros índices creados para estimar el LAI, al igual que el NDVI está

correlacionado con la biomasa húmeda y seca [55]. Por otra parte, existen los índices de vegetación basados en

imágenes RGB, como VARI que responde de una directa a los cambios en la vegetación [55], TCARI/OSAVI que

cuenta con mayor sensibilidad al contenido de clorofila [53].

Los índices de vegetación son usados como parámetros de entrada en algoritmos de predicción de rendimiento

como en el estudio de Ballester et al. [23]. También se evidencia el desarrollo de otros métodos de aprendizaje

de máquinas como los algoritmos de regresión lineal, regresión lineal múltiple, redes neuronales artificiales y

random forest implementados en la predicción del rendimiento de maíz como en el estudio de Fu et al. [56]. En la

investigación de Kayad et al. [47] se buscó analizar la relación de los índices de vegetación con la predicción del

rendimiento de maíz. Propusieron tres objetivos, primero evaluar la correlación de algunos índices de vegetación

con el rendimiento, segundo definir la edad adecuada para predecir la variabilidad del rendimiento a escala de

campo y tercero realizar modelos basado en aprendizaje de máquinas para predecir el rendimiento utilizando

imágenes satelitales provenientes del Sentinel 2A.

Las imágenes se obtuvieron sobre un cultivo de arroz de 22 Ha en tres años a partir de los 60 Días Después de

Emergido (DAE), debido a problemas de nubosidad en días anteriores. Las imágenes se correlacionaron con el

rendimiento para cada año usando el coeficiente de determinación R2. Los modelos empleados fueron multiple

regression, random forest y support vector machine fueron entrenados y validados 60 veces dividiendo la base

de datos de manera aleatoria. El rendimiento estimado se comparó con el real proporcionado por un monitor de

rendimiento. A partir de esta investigación se obtuvieron los siguientes resultados, primero, el GNDVI (índice de

vegetación de diferencia normalizado – verde) presentó mayor correlación con el rendimiento de maíz; segundo

las imágenes tomadas entre los 90 y 135 DAE evidencian mayor correlación con el rendimiento, que las imágenes

tomadas en los primeros 80 DAE; y, tercero, el modelo que mejor se desempeñó fue el random forest [47].

Otros estudios han utilizado imágenes satelitales en la predicción de rendimiento, empleando modelos de

aprendizaje de máquinas como las redes neuronales convolucionales CNN, debido a que se cuenta con una base

de datos amplia, como en la investigación de Rusello [24] donde se construyó un modelo CNN 2D y se evaluó el

desempeño con datos históricos y se concluyó a partir de sus resultados que el modelo es más eficiente con la

información más reciente, ya que el modelo pierde precisión al incluir datos de años anteriores. También se

desarrolló un modelo de CNN 3D que considerara los datos temporales y espaciales, y se comparó con el modelo

CNN 2D y otros algoritmos como Ridge regression y Decision Tree. Los resultados del modelo tridimensional

evidencian que superan los otros métodos de aprendizaje automático.

En la investigación de Pantazi et al [57], se utilizaron imágenes tomadas de manera remota y algunas propiedades

físicas y químicas del suelo en un cultivo de 22 Ha. A partir de imágenes satelitales se calculó el NDVI y las

propiedades fueron el resultado de relacionar las mediciones espectrales realizadas con un sensor óptico y el

análisis de laboratorio de calcio, magnesio, fósforo, nitrógeno, capacidad de intercambio catiónico, contenido de

humedad, carbono orgánico.

El estudio tenía por objetivo predecir el rendimiento de trigo en clases de bajo, medio y alto, además buscaba

identificar zonas relacionadas con la productividad empleando mapas autoorganizados los cuales están basados

en redes neuronales. Los resultados reflejan que los mapas autoorganizados de las variables sensadas permitían

detectar a simple vista la relación entre la distribución espacial del NDVI y la variabilidad del rendimiento.

Finalmente, en la predicción del rendimiento bajo, medio y alto se logró una precisión del 90%, 70% y 80% [57].

Otro estudio buscó relacionar parámetros del suelo e índices de vegetación y suelo con el rendimiento de maíz.

En el estudio de Khanal et al. se tomaron imágenes sobre siete áreas con una cámara digital y un sensor LiDAR

a bordo de una aeronave y las muestras de suelo fueron tomadas en 200 puntos. Los modelos empleados para

realizar la predicción de rendimiento y variables del suelo fueron linear regression, random forest, support vector

machine, stochastic gradient boosting model, neural network y cubist. Para la predicción de cada variable de suelo

y rendimiento se tomaron los datos multiespectrales como las variables predictoras y una vez aplicados los

modelos, los resultados obtenidos demostraron que las mediciones más significativas fueron NDVI, índice de

saturación y dirección de flujo en la predicción de maíz y el modelo de random forest mostró mejor desempeño

que los otros modelos [13].

Delimitación de zonas

La delimitación de zonas ha sido ampliamente estudiada por los investigadores y se han desarrollado múltiples

técnicas donde se han considerado diferentes conjuntos de variables, tanto de propiedades del suelo, como los

índices de vegetación. En Jaramillo et al. se planteó determinar la distribución espacial de algunas propiedades

químicas del suelo para delimitar zonas con características homogéneas. Las variables medidas fueron pH,

materia orgánica, P, Ca, Mg, K, Na, S, Fe, Mn, Cu, Zn, B, conductividad eléctrica y capacidad de intercambio

catiónico efectivo. Los resultados determinaron que el azufre influye sobre la delimitación de zonas homogéneas,

entre otras propiedades químicas como el pH, aluminio, materia orgánica y capacidad de intercambio catiónico.

Según las propiedades del suelo se logró dividir el área en cuatro zonas diferenciables [58]. También se ha usado

la conductividad eléctrica aparente como única medición para determinar zonas homogéneas. La adquisición de

esta medición es más eficiente y económica, que la toma muestras del suelo, además muestra gran relación con

varias propiedades fisicoquímicas [5].

• Datos sensados remotamente

Las imágenes tomadas a partir de satélites son una buena alternativa para generar mapas de zonas. A partir de

ellas se obtienen índices de vegetación relacionados con la productividad. La ventaja de las imágenes satelitales

es su fácil adquisición y la capacidad de observar grandes extensiones de tierra rápidamente a un bajo costo. En

la investigación de Damian et al. el objetivo fue comparar los mapas de rendimiento con los mapas del índice de

vegetación de diferencia normalizado NDVI sobre tres áreas en tres campañas para los cultivos de avena, trigo,

soja y maíz. El rendimiento fue obtenido a partir de un monitor de rendimiento y el NDVI fue calculado de las

imágenes de los satélites Landsat 7 y 8. Utilizando el algoritmo de agrupamiento Fuzzy C-means se delimitaron

dos zonas homogéneas con bajo y alto potencial de rendimiento, además los resultados mostraron estrecha

correlación espacio – temporal con el NDVI [52].

El estudio de Ohana et al utilizó índices de vegetación adquiridos con ayuda de un vehículo aéreo no tripulado

UAV, entre ellos el NDVI y el índice de estrés hídrico CWSI. Empleó los parámetros de suelo como pH,

profundidad de penetración, resistencia eléctrica entre otros, para la determinación de zonas de manejo y, a su

vez conocer la relación de las mediciones con la variabilidad espacial del rendimiento en un viñedo [14].

• Otros

Algoritmos como Fuzzy C-means y K-means son ampliamente utilizados en investigaciones para delimitar zonas

homogéneas, sin embargo, se ha demostrado que no son las mejores técnicas a implementar para esta tarea,

por esta razón, en Gavioli et al. comparan 20 algoritmos de agrupamiento sobre tres campos. El procedimiento

implementado fue realizar un pre-procesamiento de la información estandarizando los valores de rendimiento y

obteniendo un análisis de componentes espaciales principales de las variables medidas, la información resultante

genera dos componentes que funcionan como entrada para los algoritmos de agrupamiento. La división de las

zonas se evalúa a través análisis de variancia (ANOVA), índice de reducción de variancia, coeficiente de silueta

promedio y coeficiente Kappa. Los resultados obtenidos sugieren que los algoritmos de agrupamiento jerárquico

McQuitty y Fanny son mejores para delimitar zonas homogéneas, y los segundos mejores fueron Fuzzy C means

y K-means [26].

6. MACROPROYECTO

El macroproyecto “Manejo por sitio específico del agua del riego, el nitrógeno y las malezas en el sistema de

producción Arroz, Maíz-Algodón en el Departamento del Tolima” de la Corporación Colombiana de Investigación

Agropecuaria, AGROSAVIA centro de investigación Nataima, se propuso a partir de la problemática sobre el alto

consumo de agua en los cultivos de arroz en el Tolima, asociado a malas prácticas de riego. La aplicación de

agua se realiza de manera homogénea sin tener en cuenta la variabilidad espacial de los parámetros hidrofísicos

del suelo durante la campaña. Es por ello que se plantea como solución generar estrategias para el manejo del

recurso suelo-agua mediante herramientas de agricultura de precisión que permitan identificar, monitorear y

delimitar las áreas para realizar el tratamiento de la variabilidad espacio-temporal mediante la aplicación de

insumos por sitio específico.

El objetivo general del proyecto es “Contribuir a la recuperación de la capacidad productiva de los sistemas de

producción arroz, maíz-algodón mediante estrategias de manejo eficiente del agua, nitrógeno y malezas”. Para

alcanzar este objetivo se plantean los siguientes objetivos específicos:

1. Establecer metodologías para identificar zonas de manejo (heterogeneidad) dentro de un lote productivo

para aplicación de riego por sitio especifico (aplicación diferencial) basado en la variabilidad espacial de las

características hidrofísicas del suelo y el rendimiento del cultivo;

2. Diseñar, integrar y evaluar tecnologías y estrategias de AC y AP para el aprovechamiento y recuperación

de las zonas de suelos degradadas (identificadas dentro del lote productivo), para un manejo eficiente del agua,

nitrógeno y malezas del sistema de producción arroz, maíz-algodón;

3. Evaluar la viabilidad del manejo por sitio específico (aplicación diferencial de los recursos dentro de un

lote productivo) a través de un análisis económico y un seguimiento al experimento;

4. Validar el modelo AquaCrop como una herramienta en la toma de decisiones de uso eficiente del agua

para el sistema de producción arroz, maíz-algodón

El desarrollo del presente proyecto busca aportar al primer objetivo específico mediante la delimitación de zonas

de manejo uniendo dos metodologías ampliamente utilizadas en la literatura.

7. DESCRIPCIÓN DE LA INVESTIGACIÓN

El proyecto de agricultura de precisión propuesto en el macroproyecto se puede ver a través de un lazo cerrado

de control como en la Figura 6. Donde los bloques se encuentran distribuidos de la siguiente manera, la planta

es el sistema de producción de los cultivos arroz, maíz o algodón evaluados en el presente estudio. El sensor es

la adquisición de los datos que atraviesan un proceso de análisis mediante modelos relacionados con el

rendimiento, los resultados pueden ser interpretados a través de mapas de zonas de manejo. El comparador

toma la información del rendimiento de la campaña anterior o el rendimiento estimado en algunos casos, y

determina el error con la referencia, que sería el rendimiento esperado. El controlador es el momento en el cual

el agricultor observa el error y toma las decisiones basado en el mapa de zonas de manejo. El actuador es

cuando se procede a efectuar el manejo sobre el cultivo.

Figura 6.Esquema de control de un sistema de producción. Fuente: Autor.

El enfoque de la presente investigación toma como referencia el anterior lazo de control para centrarse en los

bloques de controlador y sensor como se muestra en la Figura 7. El sensor toma las mediciones de las

propiedades del suelo, las características del cultivo y la información de imágenes espectrales hasta mitad del

ciclo (60 Días Después de Emergido DAE) para la realización de dos tareas: La predicción de rendimiento y la

identificación de zonas homogéneas. Los resultados obtenidos presentarán la distribución espacial de los

parámetros relacionados con el rendimiento predicho para conformar el mapa de zonas de manejo.

Figura 7. Bloque de controlador y sensor del lazo de control. Fuente: Autor.

8. METODOLOGÍA

Las actividades realizadas en este trabajo para la construcción de los modelos de predicción de rendimiento e

identificación de zonas homogéneas se encuentra en la Figura 8: 1) El procesamiento de imágenes

multiespectrales; 2) La construcción de la base de datos a 72 puntos según los puntos de muestreo; 3) Selección

de las variables mediante la correlación de los datos de entrada con la salida, la autocorrelación espacial y la

matriz de correlación; 4) Análisis de componentes principales espaciales; 5) Interpolación a 5000 puntos de las

imágenes multiespectrales, los parámetros del suelo y el cultivo y los componentes principales espaciales; 6)

Construcción de la base de datos a 5000 puntos según el modelo a desarrollar. Para el modelo de predicción de

rendimiento se construyen tres bases de datos: Todas las variables (Imágenes multiespectrales + parámetros del

suelo), imágenes multiespectrales y parámetros del suelo por separado. Para el modelo de identificación de zonas

homogéneas se construyeron tres bases de datos: Todas las variables (Imágenes multiespectrales + parámetros

del suelo), imágenes multiespectrales y componentes principales espaciales. Finalmente, 7) Modelo de predicción

de rendimiento; 8) Modelo de identificación de zonas homogéneas.

Figura 8. Diagrama de flujo del desarrollo metodológico implementado. Fuente: Autor.

8.1. Área de estudio

El lote experimental se ubicó en la región central de Colombia, en el Municipio de el Espinal del departamento del

Tolima. Con coordenadas geográficas 4° 11´04´´ N 74°57´50´´O, a 368 metros sobre el nivel del mar Figura 9. El

campo tenía un área de 50000 m2. En el marco de desarrollo del macro proyecto “Manejo por sitio específico del

agua del riego, el nitrógeno y las malezas en el sistema de producción Arroz, Maíz-Algodón en el Departamento

del Tolima” de la Corporación Colombiana de Investigación Agropecuaria AGROSAVIA, centro de investigación

Nataima, se realizó la toma de imágenes en el rango visible y multiespectral sobre los cultivos, adicionalmente se

realizaron mediciones en campo del rendimiento, parámetros del suelo y características de las plantas en cultivos

arroz y maíz de dos temporadas, además de una temporada de algodón para los años 2019, 2020 y 2021,

solamente se tomaron las mediciones hasta la mitad del ciclo para cada cultivo (60 días después de emergido).

Rev

isió

n b

ibli

ográ

fica

En la Tabla 1 se presentan las fechas de adquisición, los días después de emergido y los estados fenológicos

correspondientes según la escala BBCH [40].

Figura 9. Mapa de localización del lote experimental y cuadrícula de muestreo.

El cultivo de algodón se sembró con la variedad de algodón FM1035, con una tasa de siembra de 12 kg ha-1.

Para el cultivo de arroz se estableció la variedad Fedearroz 67, con una tasa de siembra de 120 kg ha-1. El cultivo

de maíz se sembró con el 3966VYHR LEPTRA usando una tasa de siembra de 15 kg ha-1. Los tres cultivos

tuvieron un manejo agronómico basado en las prácticas locales de producción. El control de plagas y

enfermedades se realizó de acuerdo con la incidencia y severidad de estos. El manejo del cultivo se aplicó de

forma homogénea en el campo, de tal forma que la variabilidad observada no tuviera efecto de las prácticas de

cultivo.

Tabla 1. Fechas de adquisición de las mediciones para los cultivos de arroz, maíz y algodón, con sus respectivos días de

emergido y los estados fenológicos de crecimiento BBCH.

Cultivo Fechas Días Después de

Emergido Estado fenológico de crecimiento

Código Descripción

Arroz (primera

campaña)

17112018 - Siembra

16012019 56 41 Estadio hinchado temprano: (embuchamiento)

23012019 63 65 Plena floración (Floración)

12-14032019 - Cosecha

Arroz (segunda campaña)

18102019 - Siembra

13122019 52 41 Estadio hinchado temprano: (embuchamiento)

23122019 62 65 Plena floración (Floración)

14022020 - Cosecha

Maíz (primera

campaña)

12042019 - Siembra

14-16052019 33 19 9 o más hojas, desplegadas.

30052019 49 53 Visible el extremo del penacho

13062019 63 63 (M) Comienza a desprenderse el polen. (F) Puntas de los estigmas, visibles.

28082019 - Cosecha

Maíz (segunda campaña)

26102020 - Siembra

01-02122020 32-33 19 9 o más hojas, desplegadas.

17122020 48 53 Visible el extremo del penacho

29122020 60 61

(M) Estambres de la parte central del penacho, visibles. (F) Punta de la mazorca, saliendo de la vaina foliar.

09032021 - Cosecha

Algodón (Única

campaña)

20032020 - Siembra

06052020 43 60 Primeras flores abiertas

18052020 54 61 Comienzo de la floración (Floración)

27052020 63 65 Floración principal (Floración)

27082020 - Cosecha

8.2. Datos de suelo y el cultivo

En el mismo lote productivo de 5 Ha se implementó una grilla fija de muestreo de 25x25m de distancia donde se

identificó la coordenada central de cada cuadricula, definida de esta manera por un estudio de variabilidad de las

propiedades del suelo realizado con antelación. La adquisición de muestras de suelo y mediciones de los

parámetros del cultivo se realizó sobre cada punto. En la Tabla 2, se encuentra compilada cada variable con la

nomenclatura usada dentro de este informe, unidades y equipo o método de medición. Las variables fueron

agrupadas según los tres tipos de medición de los parámetros del suelo: la física de los suelos, propiedades

químicas y penetrometría; las mediciones del cultivo y el rendimiento.

Tabla 2. Variables de parámetros del suelo, mediciones del cultivo el rendimiento.

Tipo de mediciones

Mediciones Nom Unidades/ parámetro

Equipo/método de medida

Mediciones del cultivo

Cantidad de clorofila relativo RCC N.A SPAD

Índice de reflectancia fotoquímica PRI N.A Sensor PRI

Índice de área foliar LAI N.A Ceptómetro

Física de suelos

Capacidad de campo FC N.A Ollas de presión de Richards

Punto de marchitez permanente PWP N.A Ollas de presión de Richards

Agua aprovechable UW N.A Calculada

Densidad aparente AD % Calculada

Macroporos MacroP % Calculada

Mesoporos MesoP % Calculada

Microporos MicroP N.A Ollas de presión de Richards

Arena (Textura) Sand % Método de Bouyoucos

Arcilla (Textura) Clay % Método de Bouyoucos

Limo (Textura) Silt % Método de Bouyoucos

Propiedades químicas

Grado de acidez o alcalinidad pH pH Medidor de pH

Materia orgánica OM % Walkley- Black

Fósforo P mg.kg-1 Bray II modificado

Azufre S mg.kg-1 Análisis químico

Calcio Ca cmol(+).Kg-1 Análisis químico

Magnesio Mg cmol(+).Kg-1 Análisis químico

Potasio K cmol(+).Kg-1 Análisis químico

Sodio Na cmol(+).Kg-1 Análisis químico

Capacidad de intercambio catiónico CEC cmol(+).Kg-1 NH4OAc pH:7

Hierro Fe mg.kg-1 Análisis químico

Manganeso Mn Análisis químico

Zinc Zn mg.kg-1 Análisis químico

Cobre Cu mg.kg-1 Análisis químico

Boro B mg.kg-1 Análisis químico

Saturación de calcio SatC N.A Calculada

Saturación de magnesio SatM N.A Calculada

Saturación de potasio SatK N.A Calculada

Saturación de sodio SatN N.A Calculada

Relación de calcio y magnesio Ca/Mg N.A Calculada

Relación de calcio más magnesio con potasio

(Ca+Mg)/K N.A Calculada

Relación de magnesio y potasio Mg/K N.A Calculada

Relación de calcio y boro Ca/B N.A Calculada

Penetrometría Resistencia a la penetración RP MPa Penetrómetro

Profundidad de penetración PD cm Penetrómetro

Rendimiento

Rendimiento de granos de arroz Yield Kg ∙ ha−1 Manual

Rendimiento de granos de maíz Yield Kg ∙ ha−1 Manual

Rendimiento de fibra de algodón Yield Kg ∙ ha−1 Manual

Fuente: Autor. N.A: No Aplica; Nom: Nomenclatura

8.3. Imágenes tomadas remotamente

La adquisición de imágenes se realizó con la ayuda de un drone multirotor Matrix 200 V1 DJI, China, una cámara

RGB Zenmuse X4S de 20 megapixeles y Multiespectral Micasense Rededge-M camera con sensor de 12 bits de

resolución de 1280x960 pixeles con las bandas espectrales BLUE (475nm), GREEN (560nm), RED (668nm),

REDEDGE (REDGE) (717nm), and NIR (842nm) para algodón, la primera campaña de arroz y la primera y

segunda campaña de maíz; para la segunda campaña de arroz se usó la cámara Multiespectral Micasense Altum

con sensor de 12 bits con resolución de 2064x1544 pixeles. La trayectoria de los vuelos se planeó

automáticamente para una cuadrícula generada sobre el área a estudiar donde se adquirió una serie de ortofotos.

Los vuelos se realizaron durante los estados fenológicos presentes en la Tabla 1 en alturas de 80m y 90m con

80% de superposición.

Figura 10. Diagrama de flujo del procesamiento de imágenes.

El proceso paso a paso del procesamiento de las imágenes, se encuentra en la Figura 10. Las ortofotos obtenidas

por las cámaras RGB y multiespectrales, son procesadas en el software Pix4Dmapper como se menciona en el

ANEXO A, una vez se cuenta con las imágenes se procede a realizar el cálculo de los índices de color e índices

de vegetación de la Tabla 3, este procedimiento se realiza con el software MATLAB (ANEXO B), donde se importa

como entrada las imágenes necesarias para calcular el índice, se toman los metadatos de una imagen de

referencia, a continuación, se calcula la expresión del índice con las imágenes importadas, luego, a la imagen

resultante se adjuntan los metadatos y se exporta. El cálculo de los índices de color se realiza de manera

diferente, ya que se deben dividir los canales en la imagen RGB (ANEXO C), una vez se tengan los canales por

separados se procede a normalizar cada banda según las expresiones de la Tabla 3, luego, los índices de color

se calcularon con el software QGIS, usando la calculadora ráster.

Las imágenes son recortadas en 72 puntos georreferenciados, donde se tomaron las mediciones del suelo y el

cultivo. El recorte de las imágenes se realiza utilizando PyQGIS, donde se implementa un código en lenguaje

Python para usar la función clip_raster_by_vector, que llama la imagen y un vector, de esta manera se recorre

sobre cada imagen y luego cada vector, para hacer múltiples recortes sobre cada imagen, posteriormente los

recortes resultantes son guardados en el directorio seleccionado (ANEXO D). El recorte de las imágenes se

realiza con el fin de poder tomar un valor representativo de los índices y bandas espectrales sobre cada punto de

muestro, de esta forma se tendría un conjunto de datos de igual resolución (parámetros del suelo e imágenes).

Los recortes de las imágenes (índices de color, índices de vegetación y bandas espectrales) a 72 puntos, se

promedian usando MATLAB. Los recortes son importados según las fechas y bandas seleccionadas, luego, se

hace un recorrido sobre el grupo de recortes. Se toma como referencia la imagen NDRE donde los pixeles sean

iguales o mayores a 0.1, esto se debe a que puede haber valores atípicos dentro de la imagen, o información del

suelo que no es apropiada para dar un valor representativo del índice en las plantas dentro de la imagen. El

recorte es vectorizado y se toman los valores que superen el umbral, al mismo tiempo, se toma un recorte de otro

índice de vegetación o banda espectral para el mismo punto de muestro, se vectoriza y se filtran sus valores para

tomar los que superen donde NDRE sea mayor o igual a 0.1. Luego se crea una matriz con los promedios de las

imágenes y se exporta a un documento en Excel (ANEXO E).

En cada fecha las imágenes multiespectrales presentan la misma resolución, pero al cambiar la fecha, su

resolución difiere, por eso es posible encontrar la posición donde el NDRE sea mayor o igual a 0.1 y que

concuerde con las demás imágenes. En el caso de las imágenes tomadas con la cámara RGB hay una

incompatibilidad, ya que fueron tomadas con otra cámara y por ende muestra una resolución diferente. Como

solución a este problema se debe procede a cambiar la resolución a las imágenes de los índices de color, y de

esta forma, la cantidad de pixeles para cada fecha de las imágenes RGB, concuerda con el la cantidad en las

imágenes multiespectrales. El procedimiento se realizó en QGIS usando la herramienta calculadora ráster, el

procedimiento paso a paso se encuentra en el ANEXO F.

Tabla 3. Expresiones para el cálculo de los índices de color y vegetación con las imágenes multiespectrales.

Tipo de medición

Nomenclatura Ecuación Ref.

Bandas visibles

R Rojo visible 𝑅

𝐺 + 𝑅 + 𝐵 [59]

G Verde visible 𝐺

𝐺 + 𝑅 + 𝐵 [59]

B Azul visible 𝐵

𝐺 + 𝑅 + 𝐵 [59]

Índices de color

Índices de color

EXG Exceso de verde 2 ∗ 𝐺 − 𝑅 − 𝐵 [59]

EXR Exceso de rojo 1.4 ∗ 𝑅 − 𝐺 [59]

EXRG Exceso de rojo y verde 3 ∗ 𝐺 − 2.4 ∗ 𝑅 − 𝐺 [59]

GLI 2 ∗ 𝐺 − 𝐵 − 𝑅

2 ∗ 𝐺 + 𝐵 + 𝑅

[59]

NDI 𝐺 − 𝑅

𝐺 + 𝑅

[59]

VARI 𝐺 − 𝑅

𝐺 + 𝑅 − 𝐵

[59]

Índices de vegetación

Índices de vegetación

NDVI Índice normalizado diferencial de vegetación

𝑁𝐼𝑅 − 𝑅𝐸𝐷

𝑁𝐼𝑅 + 𝑅𝐸𝐷 [60]

GNDVI Índice normalizado diferencial de vegetación – verde

𝑁𝐼𝑅 − 𝐺𝑅𝐸𝐸𝑁

𝑁𝐼𝑅 + 𝐺𝑅𝐸𝐸𝑁 [60]

NDRE Índice normalizado diferencial de borde rojo

𝑁𝐼𝑅 − 𝑅𝐸𝐷𝐺𝐸

𝑁𝐼𝑅 + 𝑅𝐸𝐺𝐷𝐸 [60]

SAVI Índice de vegetación ajustado al suelo

1.5(𝑁𝐼𝑅 − 𝑅𝐸𝐷)

𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.5 [60]

OSAVI Índice de vegetación ajustado al suelo optimizado

1.16(𝑁𝐼𝑅 − 𝑅𝐸𝐷)

𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.16 [60]

SR Proporción de vegetación 𝑁𝐼𝑅

𝑅𝐸𝐷 [60]

GVI Índice de vegetación verde 𝑁𝐼𝑅

𝐺𝑅𝐸𝐸𝑁 [60]

SCCCI Índice de contenido de clorofila del dosel simplificado

𝑁𝐷𝑅𝐸

𝑁𝐷𝑉𝐼 [23]

TACARI/OSAVI

La absorción de clorofila transformada en índice de reflectancia / índice de vegetación optimizado ajustado al suelo

[3 [(𝑅𝐸 − 𝑅𝐸𝐷) − 0.2(𝑅𝐸 − 𝐺𝑅𝐸𝐸𝑁) (𝑅𝐸𝑅𝐸𝐷

)]]

[(1 + 0.16) ∗𝑁𝐼𝑅 − 𝑅𝐸𝐷

𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.16]

[61]

Fuente: Autor. Ref: Referencia

8.4. Selección de variables

Las imágenes multiespectrales y los parámetros del suelo se encuentran a 72 puntos y a partir de ellos, se puede

conformar la base de datos. A continuación, se procede a realizar la selección de variables mediante la correlación

entre las mediciones con el rendimiento y la autocorrelación espacial. En primera medida, se midió la normalidad

de las variables, y a partir de esta se determinó que muchas mediciones eran no paramétricas, razón por la cual,

se procedió a utilizar el coeficiente de Spearman para medir su correlación con el rendimiento. En segunda

medida, se calcula la autocorrelación espacial debido a que el rendimiento se ve afectado por la variabilidad

espacial de los factores y es necesario medir su grado de dependencia espacial, y se utiliza el índice de Moran

para determinarlo.

Una vez se conozca la correlación con el rendimiento y la autocorrelación espacial, se emplea el criterio de

selección donde, primero, si el cultivo cuenta con dos campañas, se deben elegir las variables que, en por lo

menos, una campaña da un resultado significativo (p-value > 0.05), tanto en la evaluación de la correlación de

Spearman como el índice de Moran. Segundo, si tanto en la correlación, como la autocorrelación son

significativas, en ese caso se selecciona esa variable para el análisis posterior. A continuación, se realiza un

análisis de correlación sobre todas las variables restante, mediante una matriz de correlación, la cual evalúa en

un rango de -1 a 1 la relación entre las mediciones, luego se procede a descartar las variables con alta correlación

esto quiere decir que tenga un valor superior a 0.9 o menor a -0.9, y este conjunto de mediciones representa un

conjunto correlacionadas con el rendimiento, con dependencia espacial y baja correlación entre variables.

8.5. Análisis de componentes principales espaciales

A partir del procedimiento anterior se conforma la base de datos de imágenes multiespectrales, parámetros del

cultivo y propiedades físico-químicas del suelo a 72 puntos. La base de datos se importa en R Studio donde se

encuentra el algoritmo para el análisis de componentes principales espaciales (MULTISPATI-PCA) (ANEXO H).

El MULTISPATI-PCA, incorpora la información espacial, dada por el índice de Moran, antes de ser generadas las

variables sintéticas en el análisis de componentes principales (PCA).

La función multispati de la librería ade4 en lenguaje R, utiliza los diagramas de dualidad y los pesos espaciales

para realizar el análisis, donde los diagramas de dualidad tienen en cuenta las contribuciones y dimensiones

obtenidas de cada variable, además de la interdependencia entre variables y las dimensiones del conjunto de las

mismas. Mientras tanto, los pesos espaciales representan la contigüidad de vecinos por distancia entre los puntos

de una región, en este caso se utilizan solamente las coordenadas.

8.6. Interpolación de parámetros del suelo y el cultivo

Del conjunto de datos se toman los parámetros medidos en campo y se realiza la prueba de Shapiro-Wilks para

determinar si el conjunto de 72 puntos presenta una tendencia normal, de ser así el resultado de la prueba arroja

un valor de significancia mayor a 0.05, en caso contrario, se procede a hacer una transformación de normalidad

por el método de boxcox. A continuación, se genera el semivariograma con unos parámetros establecidos a

prueba y error y se ensayan diferentes modelos que se ajusten al semivariograma. Se probaron los modelos

esférico, gaussiano y exponencial, en conjunto con dos métodos de estimación de parámetros del

semivariograma: por mínimos cuadrados ajustados con opciones para mínimos cuadrados ordinarios (OLS) y

ponderados (WLS), y por métodos basados en verosimilitud con opciones para máxima verosimilitud (ML) y

máxima verosimilitud restringida (REML). La interpolación se realiza utilizando el método de Kriging a 5.000

puntos, donde se prueban los semivariogramas generados en el paso anterior, y se evalúa la interpolación

mediante la medición del R2 y la raíz del error cuadrático medio (RMSE).

Las imágenes del conjunto de datos, son recordadas a 5.000 puntos georreferenciados, luego se utiliza el mismo

método que en la sección de imágenes tomadas remotamente, para encontrar un valor de la imagen para cada

punto. De esta forma se conforma la base de datos con las imágenes y los parámetros del suelo y el cultivo a

5000 muestras para realizar la predicción de rendimiento e identificación de zonas homogéneas.

8.7. Predicción de rendimiento

La base de datos se conforma de tres maneras diferentes: i) ALL: Todas las variables, que cuenta con las

imágenes multiespectrales y parámetros del suelo y el cultivo en conjunto, ii) MI: Imágenes multiespectrales

solamente y iii) SOIL: Parámetros del suelo y el cultivo. Las tres bases de datos se utilizan de manera

independiente en la predicción de rendimiento para comparar la efectividad de cada una de ellas en la predicción

de rendimiento. Los datos de entrada se mezclan aleatoriamente de manera estratificada según el rendimiento,

luego, se realiza la estandarización a los datos, a pesar de que entre los algoritmos que se utilizan, el random

forest (RF) y el support vector machine (SVM) no requieren de este procedimiento en comparación a los demás,

a pesar de ello, su resultado no varía, posteriormente se dividen los datos en 70% para entrenamiento y 30%

para validación.

La predicción de rendimiento se realiza mediante dos enfoques de aprendizaje de máquinas, mediante regresión

y clasificación donde se usa la libraría sklearn en lenguaje Python, se utilizan estos dos métodos, ya que es

necesario evaluar cuál es el mejor en la predicción de rendimiento con los datos y campañas disponibles para

cada cultivo. En la regresión los datos de rendimiento son continuos, mientras que, en la clasificación, los datos

de rendimiento son discretos, por esta razón, se divide en tres clases: bajo, medio y alto. Se utilizan los algoritmos

random forest (RF), k-nearest neighbor (KNN) y support vector machine (SVM) para los dos métodos

mencionados, además se evalúan LASSO y multilayer perceptron (MLP) en regresión, mientras tanto, en

clasificación se prueban los algoritmos gaussian naïve bayes (NB) y gradient boosting (GRB). La validación de

los algoritmos de regresión se analiza mediante el R2 y el RMSE, en cuanto, a la clasificación se utiliza la exactitud

y la matriz de confusión.

8.8. Identificación de zonas homogéneas

Al igual que en la predicción de rendimiento, se conforman tres bases de datos de la siguiente manera: i) ALL:

Todas las variables, ii) MI: Imágenes multiespectrales y iii) CPE: Componentes principales espaciales, sin

embargo, como las zonas tienden a ser invariantes en el tiempo, se utiliza solamente la última campaña de cada

cultivo. Para la identificación de zonas homogéneas se utilizan dos algoritmos de agrupamiento por partición

Fuzzy C-Means (FCM) y Kmeans (KMS) y un algoritmo de agrupamiento jerárquico, McQuitty (MQY). También

se selecciona la cantidad de zonas a las que se podría dividir el lote, debido a que el lote es mediano (50ha), se

procede a definir como dos, tres y cuatro zonas para comparar.

Una vez se realice la identificación de zonas, se procede a realizar un suavizado a las zonas establecidas para

definir las áreas propuestas por los modelos a un nivel más práctico, para ello, se utiliza el filtro de la mediana,

luego se realiza un submuestreo estratificado de los datos, para la validación en la segmentación dada por los

algoritmos de agrupamiento, ya que 5000 muestras por cada variable representan alto coste computacional y

tiempo de ejecución. En el submuestreo se identifica el porcentaje de muestras que hay por clase, y se selecciona

un número menor de muestras como límite, luego se calcula qué porcentaje de muestras ocupa cada clase para

ese nuevo máximo. Este procedimiento se realiza de para todas las clases generadas en las diferentes pruebas.

El propósito es evaluar la variación del rendimiento en las zonas y determinar qué variables influyen en su

segmentación, para ello, se utiliza el método ANOVA para determinar si las zonas encontradas son diferentes,

esto se realiza mediante la comparación de la varianza de las medias de cada grupo en relación a la varianza

total de la variable evaluada, al tener un resultado significativo (p<0.05) se cumple la hipótesis nula que plantea

que la varianza en cada grupo debe ser menor a la varianza total. Además, se realiza la comparación de medias

de Tukey para identificar exactamente los grupos que presentaron esas diferencias en la división de las zonas,

comparando las medias de cada grupo por pares, si presentan diferencia a cada zona se asignará una letra

diferente, en caso contrario a cada zona se le asignará la misma letra.

Finalmente, el índice de reducción de varianza se calcula conociendo que la suma de las variaciones de los datos

de las zonas es menor a la varianza total, de esta forma entre mayor sea el índice demuestra una mejor

separación de los grupos por parte del algoritmo. El mejor modelo se selecciona si demuestra mayor reducción

de varianza y las zonas están adecuadamente separadas. También se determinan las variables que influyeron

sobre la delimitación de zonas.

9. RESULTADOS Y DISCUSIÓN

9.1. Cultivo de arroz

9.1.1. Procesamiento de imágenes

Las ortofotos tomadas por el UAV fueron procesadas con el software Pix4D Mapper y se obtuvieron los

ortomosaicos de las bandas espectrales (BLUE, GREEN, RED, NIR y REDEDGE) para las fechas establecidas

entre 52 a 63 días después de emergido (DDE) como se muestra en la Tabla 1, luego de ello, se calcularon los

índices de vegetación GNDVI, GVI, NDRE, NDVI, SAVI, OSAVI y SR. Los índices de color no se calcularon dado

que, en la primera campaña del cultivo de arroz, se realizaron vuelos únicamente con la cámara multiespectral,

en caso contrario, de la segunda campaña se cuenta con imágenes RGB, pero se desconsideran, de esta forma,

se puede contar con la misma información en las dos campañas.

Las imágenes presentan diferencias en el patrón de distribución de NDVI y NDRE entre la primera y segunda

campaña (Figura 11 y Figura 12), esto sugiere que existen diferentes características que representan un cambio

en el cultivo, como podría ser el tratamiento del agricultor o condiciones climáticas. Se analizaron las imágenes

de NDVI y NDRE, a causa de conocer previamente el estado del cultivo, ya que está relacionado con el nitrógeno

en las plantas y este con el estado de las mismas, ahora bien, se evidencia que el NDVI en etapas muy tempranas

del cultivo en la primera campaña (Figura 11), se encuentra saturado ya que presenta valores alrededor de 0.9,

esto se debe al brillo del suelo, según diferentes estudios [53]. En comparación al NDVI, el índice NDRE se

encuentra en rangos aceptables para las fechas estudiadas.

Figura 11. Imágenes de NDVI y NDRE (de izquierda a derecha) en la primera campaña del cultivo de arroz para

los dos estados fenológicos estudiados (de arriba hacia abajo).

En la segunda campaña de arroz (Figura 12), el NDVI indicó valores negativos, esto puede deberse a que el lote

se encontraba más inundado que la primera campaña, y además por la deformación del suelo, se muestra un

estancamiento en el centro, en comparación a los bordes, donde el índice muestra valores más altos, alrededor

de 0.9. Al igual que en la primera campaña, este índice se encuentra saturado, mientras que el NDRE se

encuentra en rangos aceptables.

Figura 12. Imágenes de NDVI y NDRE (de izquierda a derecha) en la segunda campaña del cultivo de arroz para los dos

estados fenológicos estudiados (de arriba hacia abajo).

9.1.2. Análisis de datos

A partir de las imágenes se realizaron recortes de 72 puntos, para construir una base de datos en conjunto con

los parámetros del suelo y el cultivo. El análisis descriptivo donde se calculó la media, desviación estándar, y el

coeficiente de variación. En la Tabla 4 se evidencia que el coeficiente de variación (CV) es más alto en la segunda

campaña que en la primera, donde los índices NDVI, OSAVI, SAVI y SR muestran resultados superiores al 40%,

de igual forma sucede con la banda espectral RED. Mientras tanto, en la primera campaña los valores de CV no

superan el 10%. En la Tabla 5 la variabilidad entre la primera y segunda campaña son similares tanto en el primer

muestreo como el segundo, donde resaltan las mediciones de agua aprovechable (UW), macroporos (MacroP),

mesoporos (MesoP), Limo (silt), P, y S.

Tabla 4. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de arroz.

Primera campaña Segunda Campaña Primera campaña Segunda Campaña

Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV

GNDVI41 0.853 0.010 1.148 GNDVI41 0.764 0.035 4.560 SR41 40.128 3.366 8.388 SR41 2.572 1.380 53.630

GNDVI65 0.859 0.008 0.895 GNDVI65 0.804 0.023 2.894 SR65 44.608 2.843 6.372 SR65 2.864 1.412 49.322

GVI41 13.034 0.888 6.813 GVI41 8.139 1.286 15.800 BLUE41 0.010 0.000 3.914 BLUE41 0.016 0.002 9.895

GVI65 13.542 0.760 5.614 GVI65 9.855 1.209 12.266 BLUE65 0.009 0.001 5.817 BLUE65 0.014 0.002 13.076

NDRE41 0.627 0.017 2.656 NDRE41 0.543 0.045 8.277 GREEN41 0.031 0.001 4.604 GREEN41 0.052 0.003 5.228

NDRE65 0.637 0.015 2.415 NDRE65 0.597 0.035 5.805 GREEN65 0.033 0.002 7.279 GREEN65 0.044 0.005 10.955

NDVI41 0.948 0.005 0.543 NDVI41 0.317 0.188 59.202 NIR41 0.399 0.016 3.884 NIR41 0.415 0.057 13.619

NDVI65 0.954 0.003 0.360 NDVI65 0.383 0.176 45.902 NIR65 0.441 0.018 4.020 NIR65 0.425 0.045 10.502

OSAVI41 0.788 0.013 1.589 OSAVI41 0.288 0.164 56.824 RED41 0.010 0.001 6.115 RED41 0.223 0.092 40.990

OSAVI65 0.813 0.009 1.113 OSAVI65 0.350 0.156 44.624 RED65 0.010 0.001 8.527 RED65 0.192 0.076 39.277

SAVI41 0.638 0.016 2.554 SAVI41 0.257 0.140 54.341 REDGE41 0.091 0.003 3.672 REDGE41 0.118 0.005 4.172

SAVI65 0.675 0.014 2.135 SAVI65 0.313 0.135 43.306 REDGE65 0.098 0.007 7.000 REDGE65 0.104 0.010 9.915

CV = coeficiente de variación (%), std = desviación estándar.

Tabla 5. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.

Primera campaña Segunda campaña Primera campaña Segunda campaña

Variabl

e

Media std CV Variabl

e

mean std CV

Variable

Media std CV

Variable

mean std CV

RCC65 34.22 3.185 9.31 RCC65 34.57 2.786 8.06 Na 0.14 0.006 4.29 Na 0.17 0.028 16.40

FC 29.86 4.819 16.14 FC 30.77 7.757 25.21 CEC 7.09 1.717 24.22 CEC 7.33 1.924 26.25

PWP 24.85 4.670 18.79 PWP 26.70 7.840 29.36 Fe 75.65 17.020 22.50 Fe 69.66 17.283 24.81

UW 7.31 1.679 22.98 UW 5.56 2.608 46.91 Mn 5.39 1.741 32.29 Mn 5.73 2.113 36.87

AD 1.61 0.139 8.63 AD 1.64 0.144 8.81 Zn 2.66 0.603 22.71 Zn 2.79 0.836 29.97

MacroP 3.67 1.783 48.57 MacroP 3.43 1.809 52.73 Cu 3.85 1.458 37.90 Cu 3.78 1.525 40.30

MesoP 6.51 1.516 23.30 MesoP 4.62 2.303 49.85 B 0.45 0.076 16.70 B 0.55 0.109 19.83

MicroP 31.63 5.002 15.82 MicroP 28.53 4.987 17.48 SC 73.65 1.737 2.36 SC 73.78 1.663 2.25

Sand 49.00 15.531 31.70 Sand 49.00 15.531 31.70 SM 22.00 1.035 4.70 SM 21.64 1.039 4.80

Clay 13.63 4.308 31.61 Clay 13.63 4.308 31.61 SK 2.17 0.650 30.00 SK 2.33 0.822 35.24

Silt 37.37 14.793 39.59 Silt 37.37 14.793 39.59 SN 2.14 0.564 26.38 SN 2.39 0.640 26.80

pH 6.07 0.187 3.08 pH 6.67 0.204 3.06 RP 4.19 0.433 10.33 RP 3.74 0.804 21.53

OM 1.28 0.255 19.82 OM 1.51 0.351 23.28 PD 14.41 2.644 18.35 PD 12.93 3.913 30.26

P 24.72 9.459 38.26 P 25.90 9.126 35.23 Ca/Mg 3.35 0.225 6.71 Ca/Mg 3.42 0.215 6.29

S 11.65

3.349 28.75

S 14.10

5.524 39.17

(Ca+Mg)/

K 47.63 15.521 32.59

(Ca+Mg)/

K 46.05 15.834 34.38

Ca 5.25 1.378 26.28 Ca 5.42 1.525 28.13 Mg/K 10.87 3.147 28.94 Mg/K 10.35 3.151 30.45

Mg 1.55 0.343 22.05 Mg 1.58 0.394 24.97 Ca/B 11.57 2.397 20.71 Ca/B 9.82 1.716 17.47

K 0.15

0.028 18.96

K 0.16

0.033 21.07

Yield 8478.9

0

1365.08

5 16.10

Yield 9143.7

3

1237.00

8 13.53

CV = coeficiente de variación (%), std = desviación estándar.

9.1.3. Selección de variables

Dos metodologías fueron utilizadas para dar un valor representativo a los recortes de las imágenes

multiespectrales, el primero usando el promedio, y el segundo usando la mediana. Los resultados fueron muy

similares, se optó continuar con el promedio, sin embargo, los resultados en la selección de variables usando la

mediana se muestran en los ANEXO K y ANEXO M. La sección de selección de variables reporta los resultados

de un primer filtro con el coeficiente de correlación de Spearman y el índice de Moran, para conocer la relación

de las variables con el rendimiento y su dependencia espacial, en un segundo filtro se implementó la matriz de

correlación para determinar las variables relacionadas entre sí.

9.1.3.1. Correlación de Spearman

Imágenes multiespectrales

Figura 13. Coeficiente de correlación de Spearman de las imágenes multiespectrales para el cultivo de arroz.

Los resultados de correlación de las imágenes multiespectrales con el rendimiento de cada campaña de arroz

(Figura 13), demuestran en términos generales, que existe una mejor correlación por parte de las imágenes de la

segunda campaña que de la primera campaña. Los índices de vegetación GNDVI, GVI y NDRE muestran mayor

correlación con el rendimiento en la segunda campaña de arroz con un valor mayor a 0.5 en ambos estados

fenológicos, además muestran resultados significativos, estos índices fueron calculados a partir de las bandas

GREEN, NIR y REDEGDE, por esta razón sus resultados son similares entre ellos. También se observa que los

índices compuestos de las bandas NIR y REDEDGE muestran mejor correlación con el rendimiento, como los

resultados obtenidos en la investigación de Zhou et al. [59].

Los índices de vegetación NDVI, OSAVI, SAVI y SR, presentan un resultado muy bajo en la correlación con el

rendimiento, estos índices comparten las bandas NIR y RED, y este último muestra baja correlación en ambas

fechas, por esta razón los resultados de los índices no lograron superar el valor de 0.2, lo que implica dejar de

ser significativos en relación a los demás. Las bandas espectrales BLUE, GREEN y REDGE muestran correlación

negativa, esto implica una relación inversa con el rendimiento para los estados de embuchamiento (41) y floración

(65). Las bandas GREEN y REDEDGE presentan mejores resultados en floración, mientras que la banda NIR

tiene correlación en 0.5 en embuchamiento en la segunda campaña de arroz.

Las bandas espectrales muestran buenos resultados de correlación con el rendimiento para la segunda campaña,

excepto por la banda GREEN y REDGE en el estado 41, NIR en el estado 65 y RED para ambos estados ya que

no presentan resultados significativos. Por otra parte, los resultados para las imágenes multiespectrales en la

primera campaña de arroz cuentan con dos variables significativas, las bandas espectrales GREEN y REDEDGE

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

GN

DV

I41

GN

DV

I65

GV

I41

GV

I65

ND

RE

41

ND

RE

65

ND

VI4

1

ND

VI6

5

OS

AV

I41

OS

AV

I65

SA

VI4

1

SA

VI6

5

SR

41

SR

65

BL

UE

41

BL

UE

65

GR

EE

N41

GR

EE

N65

NIR

41

NIR

65

RE

D41

RE

D65

RE

DG

E41

RE

DG

E65

Spearman correlation of multispectral images

Siginificant correlation first campaign No significant correlation first campaign

Significant correlation second campaign No significant correlation second campaign

apenas superan el valor de 0.25 de correlación con el rendimiento. Los índices de vegetación GNDVI, NDRE y

GVI muestran valores de correlación alrededor de 0.2 para los estados 41 y 65.

*Los resultados del coeficiente de Spearman entre el rendimiento de arroz y las imágenes multiespectrales con

los valores de las imágenes usando la mediana para obtener su valore representativo se presentan en el ANEXO

K.

Parámetros del suelo y el cultivo

Figura 14. Coeficiente de correlación de Spearman de los parámetros del suelo y el cultivo para arroz.

El parámetro del cultivo de contenido relativo de clorofila (RCC) fue medido en ambas campañas de arroz en el

estado de floración (65). Los resultados de la Figura 14, evidencian un valor significativo de correlación de 0.39

con el rendimiento de la segunda campaña de arroz para el RCC. Las mediciones de la física de los suelos como

capacidad de campo (FC), punto de marchitez permanente (PWP), arena (Sand) y limo (Silt) presentan resultados

significativos entre 0.23 y 0.35 para la primera campaña, mientras que, en la segunda campaña se observa

valores no significativos. La correlación de las mediciones de agua aprovechable (UW), densidad aparente (AD),

Macroporos (MacroP), mesoporos (MesoP), microporos (MicroP) para la primera y segunda campaña son muy

cercanos a cero, demostrando muy baja correlación.

Respecto a las propiedades químicas como el pH, Ca, Mg, Capacidad de intercambio catiónico (CEC), Cu y Zn

revelan relación significativa superior a 0.2 con el rendimiento de la primera campaña, además de las saturaciones

de potasio (SK), y de sodio (SN) presentan correlación inversa menor a -0.3, demostrando relación inversa con

el rendimiento. En el caso de la segunda campaña, la única medición de las propiedades químicas que supera

este umbral es Fe. Las mediciones de penetrometría, la resistencia de penetración para la segunda campaña

expone una relación inversa con el rendimiento menor a -0.3, en los resultados de la primera campaña.

Finalmente, en las relaciones entre propiedades químicas, cabe resaltar a (Ca+Mg)/K, Mg/K, y Ca/B con

resultados entre 0.2 y 0.3 para la primera campaña, pero en la segunda campaña la correlación de las relaciones

no son significativas.

-0.4

-0.2

0

0.2

0.4

0.6

RC

C6

5

FC

PW

P

UW AD

Ma

cro

P

Me

so

P

Mic

roP

Sand

Cla

y

Silt

pH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

Sa

tCa

Sa

tMg

Sa

tK

Sa

tNa

RP

PD

Ca

/Mg

(Ca

+M

g)/

K

Mg

/K

Ca

/B

Spearman correlation of crop and soil parameters

Siginificant correlation first campaign No siginificant correlation first campaign

Significant correlation second campaign No significant correlation second campaign

9.1.3.2. Índice de Moran

Figura 15. Índice de Moran de las imágenes multiespectrales para el cultivo de arroz en la primera y segunda campaña.

El primer filtro de la selección de variables se considera principalmente la significancia en los resultados de la

correlación de Spearman de las variables con el rendimiento y el índice de Moran. Los resultados de la correlación

de Spearman para las imágenes multiespectrales se presentan en la Figura 13 y el índice de Moran se muestra

en la Figura 15, en las cuales se evidencian que, en la primera campaña, solamente se obtuvo un resultado

significativo en las bandas espectrales GREEN y REDEDGE ambas en el estado fenológico de embuchamiento

(41). En la segunda campaña los índices de vegetación GNDVI, GVI y NDRE obtuvieron un resultado significativo,

en ambos estados fenológicos y las bandas espectrales BLUE (41 y 65), GREEN (65), NIR (41) y REDEDGE (65)

tanto en los resultados del coeficiente de Spearman como el índice de Moran.

Figura 16. Índice de Moran de los parámetros del suelo y el cultivo para arroz en la primera y segunda campaña.

Como se observa, las mediciones de las variables se encuentran en dos estados fenológicos, pero en algunos

casos, en sólo un estado el resultado es significativo. En la práctica es mejor tener una consistencia en las

mediciones, es por esta razón, que se escogen las variables en los dos estados así no se encuentre un resultado

significativo en uno de ellos. De la misma forma se aplica el criterio para la primera y segunda campaña, donde

se seleccionan las variables que presenten resultados significativos, aunque sea en una sola campaña. Con la

aplicación de estos criterios se seleccionan las variables en el primer filtro.

Las imágenes multiespectrales muestran alta dependencia espacial, es por esta razón que la selección de

variables se realiza prácticamente con los resultados de correlación de Spearman. Los índices de vegetación

GNDVI, GVI, NDRE que muestran valores altos de correlación con el rendimiento en la segunda campaña,

00.20.40.60.8

1

GN

DV

I41

GN

DV

I65

GV

I41

GV

I65

ND

RE

41

ND

RE

65

ND

VI4

1

ND

VI6

5

OS

AV

I41

OS

AV

I65

SA

VI4

1

SA

VI6

5

SR

41

SR

65

BL

UE

41

BL

UE

65

GR

EE

N…

GR

EE

N…

NIR

41

NIR

65

RE

D4

1

RE

D6

5

RE

DG

E…

RE

DG

E…

Moran index of multispectral images

Significant autocorrelation first campaign No significant autocorrelation first campaign

Significant autocorrelation second campaign No significant autocorrelation first campaign

-0.20

0.20.40.60.8

1

RC

C65

FC

PW

P

UW AD

Ma

cro

P

Me

soP

Mic

roP

Sand

Cla

y

Silt

ApH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

SatC

a

SatM

g

SatK

SatN

a

RP

PD

Ca/M

g

(Ca

+M

g)/

K

Mg

/K

Ca/B

Yie

ld

Moran index of crop and soil parameters

Significant autocorrelation first campaign No significant autocorrelation first campaign

Significant autocorrelation second campaign No significant autocorrelation second campaign

también se seleccionan para la primera campaña. De igual forma sucede con las bandas espectrales BLUE,

GREEN, NIR y REDGE. Las variables se seleccionan para los dos estados fenológicos (41 y 65).

En los resultados de la correlación de correlación de Spearman (Figura 14) e índice de Moran (Figura 16) de los

parámetros del suelo y el cultivo, el contendido relativo de clorofila (RCC65) fue significativo en la segunda

campaña y no en la primera, de todas maneras, esta variable es seleccionada. Dentro de los parámetros físicos

del suelo en la primera campaña se muestran resultados favorables en las variables de capacidad de campo

(FC), punto de marchitez permanente (PWP), arena (Sand) y limo (Silt), es por esta razón que son seleccionadas.

Respecto a las propiedades químicas, se escogen pH, Ca, Mg, Capacidad de intercambio catiónico (CEC), Zn,

Cu, saturación de potasio (SatK), saturación de sodio (SatNa), y las relaciones de (Ca+Mg)/K, Mg/K, Ca/B debido

a la correlación significativa que muestran con el rendimiento, al igual que tener resultados sobresalientes en la

medición de dependencia espacial. Al observar la segunda campaña de arroz se determinan pocas variables de

los parámetros del suelo y el cultivo que muestran resultados de correlación con el rendimiento y autocorrelación

espacial significativos, entre ellas se encuentran el hierro (Fe) y la resistencia a la penetración (RP).

Tabla 6. Parámetros del suelo y el cultivo seleccionadas después del coeficiente de Spearman y el índice de Moran.

Tipo de medición Primera

campaña Segunda campaña

Tipo de medición Primera campaña

Segunda campaña

Mediciones del cultivo

RCC65 RCC65

Propiedades químicas

Fe Fe

Física de suelos

FC FC Zn Zn

PWP PWP Cu Cu

Sand Sand SK SK

Silt Silt SN SN

Propiedades químicas

pH pH

Penetrometría

RP RP

Ca Ca (Ca+Mg)/K (Ca+Mg)/K

Mg Mg Mg/K Mg/K

CEC CEC Ca/B Ca/B

9.1.3.3. Matriz de correlación

La banda espectral NIR presenta alta correlación con los índices de vegetación GNDVI, GVI y NDRE, y a su vez

estos están correlacionados entre ellos tanto en la primera como la segunda campaña Figura 17 y Figura 18

respectivamente, en gran parte, se debe a que fueron calculados a partir de la banda NIR, es por ello que se opta

por eliminar esta banda. Además, GNDVI y GVI están altamente correlacionadas debido a que comparten un

común denominador, la banda GREEN, para poder descartar un índice se revisa la relación de cada uno con el

rendimiento, en la primera campaña en el estado fenológico 41 GNDVI muestra correlación con el rendimiento de

0.23, en el estado fenológico 65, muestra correlación de 0.20, mientras tanto, GVI presenta valores de 0.22 y

0.19, respectivamente, al mismo tiempo, en la segunda campaña GNDVI y GVI muestra los mismos resultados

0.52 y 0.50 en cada estado fenológico, según los resultados, se opta por seleccionar GNDVI. Finalmente,

REDEDGE está correlacionada con GREEN, pero esta última muestra mejor correlación con el rendimiento, por

esto se opta por descartar REDEDGE.

Figura 17. Matriz de correlación de la primera campaña de arroz.

Figura 18. Matriz de correlación de la segunda campaña de arroz.

En las propiedades del suelo se conoce que capacidad de campo (FC) y punto de marchitez permanente (PMP)

son complementarias, al igual que arena (Sand) y Limo (Silt), es por esta razón, que hay una alta correlación

entre cada pareja de propiedades, para hacer una selección, se observa la correlación con el rendimiento 0.30 y

0.35, -0.29 y 0.27 para la primera campaña respectivamente, en la segunda campaña los resultados son 0.12 y

0.14, -0.18 y 0.16, de esta forma se selecciona PMP y Sand. Al revisar las propiedades químicas se procede a

eliminar Ca y Mg, ya que están correlacionadas con CEC, esto significa que CEC aporta información equivalente

a las dos variables mencionadas. Mientras tanto, las relaciones entre propiedades (Ca+Mg)/K y Mg/K están

relacionadas, y se procede a eliminar Mg/K. Finalmente como Cu está correlacionada con Sand en la primera

campaña y con CEC en la segunda, es descartada. Las variables seleccionadas tanto de imágenes

multiespectrales como parámetros del cultivo según los criterios mencionados anteriormente en la matriz de

correlación, se presentan en la Tabla 7.

Tabla 7. Variables seleccionadas del después de aplicar la matriz de correlación.

Imágenes multiespectrales

Tipo de medición Primera

campaña Segunda campaña

Tipo de medición Primera campaña

Segunda campaña

Índices de vegetación

GNDVI41 GNDVI41

Bandas espectrales

BLUE41 BLUE41

GNDVI65 GNDVI65 BLUE65 BLUE65

NDRE41 NDRE41 GREEN41 GREEN41

NDRE65 NDRE65 GREEN65 GREEN65

Parámetros del suelo y el cultivo

Mediciones del cultivo

RCC65 RCC65

Propiedades químicas

Zn Zn

Física de suelos PWP PWP SK SK

Sand Sand SN SN

Propiedades químicas

pH pH

Penetrometría

RP RP

CEC CEC (Ca+Mg)/K (Ca+Mg)/K

Fe Fe Ca/B Ca/B

9.1.4. Interpolación

Los mapas interpolados de las mediciones de los parámetros del suelo y el cultivo seleccionados en la etapa

anterior se encuentran en la Figura 19 para la primera campaña y en la Figura 20 para la segunda campaña,

además del rendimiento. Las variables fueron medidas a 72 puntos y se interpolaron a 5000, se utilizó el método

kriging donde los modelos seleccionados, además de la validación de la interpolación con el RMSE y R2 se

encuentran en la Tabla 8 para la primera campaña y la Tabla 9 para la segunda. Los resultados de interpolación

muestran que al haber un valor más alto de índice de Moran, los resultados de validación de la interpolación son

mayores, esto se debe a que el método de Kriging es un método espacial.

Tabla 8. Interpolación de variables del suelo y el cultivo para la primera campaña de arroz.

Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

RCC65 Exponencial OLS 0.85 15.02 7.55 0.15928

p-value = 0.0242 0.19 0.11

W = 0.96954, p-value = 0.07796

PWP Exponencial OLS 0.0002 40.02 0.0012 0.52429

p-value = 2e-04 0.05 0.53 W = 0.96274, p-value = 0.0316

Sand Gaussiano OLS 11721.38 69.19 104542.06 0.82081

p-value = 2e-04 3.20 0.91

W = 0.92462, p-value = 0.0003462

pH Esférico WLS-npairs

0.01 104.05 0.024 0.42406

p-value = 2e-04 0.11 0.44 W = 0.98983, p-value = 0.8343

CEC Exponencial WLS-npairs

0.001 61.78 0.017 0.7315

p-value = 2e-04 0.13 0.79

W = 0.96202, p-value = 0.02874

Fe Esférico REML 0.000001 75 0.0000072 0.46812

p-value = 2e-04 0.009 0.53

W = 0.9145, p-value = 0.0001228

Zn Exponencial ML 0.02 39.04 0.165 0.70054

p-value = 2e-04 0.06 0.71

W = 0.97056, p-value = 0.08932

SatK Esférico ML 0.02 77.40 0.13 0.34332

p-value = 2e-04 0.05 0.33

W = 0.75136, p-value = 1.036e-09

SatNa Exponencial WLS-npairs

0.03 38.61 0.25 0.43281

p-value = 2e-04

0.08 0.40 W = 0.7342, p-value = 4.193e-10

RP Gaussiano REML 28.06 18.71 227.52 0.48688

p-value = 2e-04 2.37 0.40

W = 0.95255, p-value = 0.008549

𝐂𝐚 +𝐌𝐠

𝐊𝐠 Exponencial ML 0.0005 65.86 0.0055

0.51503 p-value = 2e-04

0.03 0.51 W = 0.87783, p-value = 4.409e-06

Ca/B Exponencial REML 0.53 21.28 4.29 0.4423

p-value = 2e-04 0.14 0.40 W = 0.97728, p-value = 0.2176

Yield Gausiano WLS-npairs

207893.87 23.78 1663150.97 0.10324 p-value = 0.09018

47.23 0.018 W = 0.98408, p-value = 0.498

Co: nugget, Co+C: Sill

Figura 19. Mapas interpolados de la primera campaña de arroz.

Tabla 9. Interpolación de variables del suelo y el cultivo para la segunda campaña de arroz.

Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

RCC65 Exponencial OLS 0.86 32.70 6.90 0.28484 p-value = 0.0003999

0.33 0.24 W = 0.97901, p-value = 0.2716

PWP Esférico ML 0.0001 60 0.001 0.26466 p-value = 0.00079

0.09 0.32 W = 0.92728, p-value = 0.0004595

pH Exponencial OLS 72.31 18.43 625.41 0.18973 p-value = 0.009998

0.17 0.12 W = 0.95553, p-value = 0.01245

CEC Exponencial OLS 0.00 15.59 0.02 0.23457 p-value = 0.002999

0.03 0.15 W = 0.93542, p-value = 0.001123

Fe Gaussiano ML 0.02 21.02 0.19 0.23233 p-value = 0.0018

0.06 0.11 W = 0.93858, p-value = 0.001607

Zn Exponencial WLS - cressie

0.04 37.84 0.80 0.47944 p-value = 2e-04

0.26 0.55 W = 0.97056, p-value = 0.08932

SatK Gaussiano REML 0.02 29.43 0.14 0.31696 p-value = 2e-04

0.01 0.29 W = 0.78246, p-value = 5.957e-09

SatNa Exponencial OLS 0.04 35.90 0.36 0.17632 p-value = 0.0134

0.19 0.10 W = 0.79607, p-value = 1.347e-08

RP Gaussiano WLS - cressie

2.34 51.85 20.25 0.58262 p-value = 2e-04

0.05 0.61 W = 0.91308, p-value = 0.0001066

𝐂𝐚 +𝐌𝐠

𝐊𝐠 Exponencial

WLS - cressie

0.14 24.95 0.02 0.36105 p-value = 2e-04

0.16 0.33 W = 0.91013, p-value = 7.982e-05

Ca/B Exponencial REML 0.32 21.62 2.89 0.27839 p-value = 2e-04

0.02 0.19 W = 0.9708, p-value = 0.09222

Yield Exponencial WLS -

cressie 176174.72 46.78 1618902.82

0.40516

p-value = 2e-04 15.55 0.33 W = 0.97816, p-value = 0.2439

Co: nugget, Co+C: Sill.

Los semivariogramas ajustados se presentan en el ANEXO L, estos se encuentran descritos por el nugget, el

rango y el sill de la Tabla 8. Los semivariogramas obtenidos para la primera campaña fueron ajustados con un

rango entre 15.02m hasta 104.05m, siendo el más alto el pH. El método de mínimos cuadrados ordinarios (OLS)

fue usado para ajustar RCC65, PWP y Sand, WLS-npairs para pH, CEC, SatNa, y Yield, la máxima verosimilitud

restringida (REML) para Fe, RP y Ca/B y la máxima verosimilitud (ML) para Zn, SatK, y (Ca+Mg)/K. En términos

generales según el R2 la interpolación fue intermedia, ya que varía entre 0.33 a 0.91, exceptuando por los valores

menores a este rango obtenidos en RCC65 y Yield de 0.11 y 0.018 respectivamente.

En la segunda campaña (Tabla 9) los semivariogramas fueron ajustados con un rango entre 18.43m hasta 60m,

siendo el más alto el PWP. El método OLS fue usado para ajustar RCC65, pH CEC y SatNa, WLS- cressie para

Zn, RP, (Ca+Mg)/K, y Yield, el REML para SatK y Ca/B y ML para PWP y Fe. En términos generales según el R2

la interpolación varía entre 0.10a 0.61. También se puede decir que los resultados muestran que la primera

campaña, presentan mayor dependencia espacial que en la segunda y por ende los resultados de interpolación

son mejores.

Figura 20. Mapas interpolados de la segunda campaña de arroz.

9.1.5. Modelo de predicción de rendimiento

Los algoritmos de aprendizaje automático fueron desarrollados en lenguaje Python con la implementación de la

librería sklearn, los hiperparámetros de los algoritmos fueron ajustados con sus valores predeterminados. Los

resultados de validación para los modelos de predicción de rendimiento con regresión, muestran gran desempeño

por parte de los algoritmos Random Forest (RF), K-nearest neighbor (KNN), multilayer perceptron (MLP) y support

vector machine (SVR), mientras que, el algoritmo LASSO no presenta resultados satisfactorios. El mayor

resultado fue obtenido por KNN con R2 de 0.991 con la base de datos SOIL, seguido de MLP y luego RF con

0.988 y 0.983, en la base de datos ALL los resultados fueron muy similares con R2 de 0.968, 0.981 y 0.977

nuevamente para los tres mejores algoritmos.

Por otra parte, el resultado de los algoritmos de regresión con la base de datos MI muestra el mejor algoritmo RF

con R2 de 0.368 y RMSE de 827.2 Kg/ha y el peor fue LASSO con R2 de 0.265 y RMSE 892.6 Kg/ha. Esto

también se puede ver en la gráfica de rendimiento real contra el predicho de la Figura 22. El resultado logrado

por LASSO en los modelos de regresión, puede deberse al hecho, de que es un algoritmo paramétrico, sin

embargo, el rendimiento es una medición no paramétrica, es por esto, que el modelo se imposibilita ajustarse

correctamente para hacer la predicción. Los resultados alcanzados con la base de datos MI, demuestran que las

imágenes multiespectrales no son tan buen descriptor en los algoritmos de regresión para predecir el rendimiento

de arroz, utilizando algoritmos de regresión, a menos que esté acompañado de algunas mediciones del suelo o

el cultivo.

Figura 21. Validación de los modelos de predicción de rendimiento usando el método de regresión en las tres bases de

datos ALL: Todas las variables (imágenes multiespectrales, parámetros del suelo y el cultivo), MI: Imágenes

multiespectrales y SOIL: Parámetros del suelo y el cultivo. a). Resultados del coeficiente de determinación R2. b) Resultados

de la raíz del error medio cuadrático.

Figura 22. Rendimiento real contra el rendimiento predicho para todos los algoritmos en las tres bases de datos.

También se desarrollaron modelos de clasificación para la predicción de rendimiento. En la clasificación del

rendimiento, se tomó el histograma de la primera y segunda campaña y se dividió a sentimiento en las clases

bajo menor a 8000 Kg/ha, medio entre 8000 y 10000 Kg/ha y alto mayor a 10000 Kg/ha. La precisión de los

modelos de clasificación se observa en la Figura 24a donde se observa que RF, KNN, y SVM tienen el mejor

desempeño, no obstante, SVM con la base de datos SOIL tuvo una precisión de 0.975 y la matriz de confusión

se presenta en la Figura 24b, donde se evidencia una excelente clasificación en las clases bajo, medio y alto, en

contraste a lo anterior el algoritmo NB tuvo el peor valor de exactitud, 0.531 con la base de datos MI, y su matriz

de confusión se muestra en la Figura 24c, donde se puede ver que el modelo tiene dificultad para clasificar

correctamente las muestras en las clases.

Figura 23. Histograma del rendimiento en la primera y segunda campaña de arroz.

Figura 24. Validación de los modelos de clasificación para la predicción de rendimiento en bajo (1), medio (2) y alto (3). a)

Exactitud de los modelos de clasificación. b) Matriz de confusión del modelo suppor vector machine con la base de datos

SOIL. c) Matriz de confusión del modelo naiva Bayes con la base de datos MI.

En los resultados de exactitud se observa que la base de datos SOIL y ALL sirven para la clasificación de

rendimiento, aunque la clase MI muestre resultados más bajos igualmente es comparable para funcionar bien

como descriptor, ya que el resultado más alto de exactitud fue 0.72 con el algoritmo SVM y los resultados de los

algoritmos RF, KNN, GBR varían de 0.676 a 0.70. En la Figura 25 se presenta la matriz de correlación para el

Bajo Medio

Alto

algoritmo SVM con la base de datos MI y se observa una excelente clasificación en la clase media (2) ya que

como se veía en el histograma la clase media presenta la mayor cantidad de muestras, en comparación a la clase

bajo (1) o algo (3), por eso estas últimas son erróneamente clasificadas.

Figura 25. Matriz de confusión de los resultados de clasificación del algoritmo SVM con la base de datos MI.

Figura 26. Variables de importancia de los algoritmos de regresión (columna izquierda) y de clasificación (columna derecha).

a) y b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.

Las variables de importancia se obtuvieron con el algoritmo RF, ya que este algoritmo, tuvo buenos resultados

de predicción tanto en regresión como en clasificación. Con las variables de importancia se puede conocer qué

mediciones tuvieron influyeron más en la elaboración del modelo. Los resultados muestran que tanto en los

modelos de regresión como de clasificación con la base de datos ALL se confirma el gran aporte de los parámetros

del suelo y el cultivo, entre ellos, los más relevantes son RP, Fe, pH, Sand y RCC65. Mientras que las imágenes

multiespectrales no presentan peso para el modelo de predicción de rendimiento (Figura 26). Dentro de los

modelos generados con la base de datos MI, las bandas GREEN y BLUE en los dos estados fenológicos

establecidos, muestran mayor importancia, en comparación a, los índices de vegetación NDRE y GNDVI.

*Los resultados de los modelos de predicción de rendimiento usando las imágenes multiespectrales medidas con

la mediana se muestran en el ANEXO M.

9.1.6. Modelo de identificación de zonas homogéneas

9.1.6.1. Análisis de componentes principales espaciales

El modelo de zonas homogéneas se implementan cuatro bases de datos ALL: Todas las variables, MI: Imágenes

multiespectrales, CPE: Componentes principales espaciales y SOIL: Parámetros del suelo y el cultivo solamente

para la segunda campaña de arroz. Hasta este punto se cuenta con ALL, MI y SOIL, y se procede a calcular los

CPE usando las imágenes multiespectrales, parámetros del suelo y el cultivo a 72 puntos. En la Figura 27 se

encuentra la varianza explicada de los componentes obtenidos donde los tres primeros componentes suman

81.44 (CS1: 43.75, CS2: 23.35, CS3:14.33). Los tres componentes principales espaciales seleccionados fueron

interpolados y se obtuvo un R2 entre 0.57 a 0.87 (Tabla 10).

Figura 27. Varianza explicada de los componentes principales espaciales.

Tabla 10. Interpolación de componentes principales espaciales de la segunda campaña de arroz.

Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

CS1 Esférico OLS 0.69 105.41 5.42 0.76146 p-value = 2e-04

0.57 0.87 W = 0.97421, p-value = 0.1454

CS2 Esférico WLS-npairs 0.49 75.68 4.34 0.5391 p-value = 2e-04

0.09 0.57 W = 0.98188, p-value = 0.3866

CS3 Esférico WLS-npairs 0.27 87.57 2.02 0.6488 p-value = 2e-04

0.08 0.68 W = 0.95066, p-value = 0.006769

CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill

0

10

20

30

40

50

CS1 CS2 CS3 CS4 CS5 CS6 CS7 CS8 CS9

Eigenvalues

Eigenvalues

9.1.6.2. Modelos de Clustering

Figura 28. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las

imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales

espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty.

Los algoritmos de agrupamiento FCM, KMS y MQY generaron los mapas de zonas homogéneas de la Figura 28,

con las bases de datos ALL, CPE, MI y SOIL y adicionalmente se obtuvieron las zonas para el rendimiento de la

segunda campaña de arroz. Los mapas de zonas homogéneas presentan diferentes divisiones según la base de

datos con la cual se desarrolle el procedimiento, por ejemplo, en MI se observa gran dispersión, además, las

zonas no se encuentran bien definidas, pero al aplicar el suavizado se logran una mejor segmentación en las

zonas de dos y tres clases principalmente, en el mapa dividido en cuatro zonas, los grupos se encuentran aún

muy dispersos.

Por otra parte, los mapas obtenidos para ALL y SOIL muestran gran similitud principalmente con los algoritmos

FCM y KMS, esto puede sugerir que las variables que más influyeron sobre la delimitación de zonas fueron los

parámetros del suelo y el cultivo, por otra parte, se observa que la división de zonas con CPE muestra una

distribución diferente a los anteriormente mencionados. Las zonas generadas por ALL, CPE y SOIL, muestran

una reducida fragmentación, en comparación a las zonas obtenidas con MI, esto puede sugerir que al implementar

métodos espaciales como la interpolación de kriging, mejora la conformación de zonas homogéneas, como los

resultados obtenidos por Gavioli et al. [26].

El algoritmo de agrupamiento jerárquico de MQY dividió las zonas de tal forma que, aunque sea un grupo ocupara

una región muy pequeña, como se observa en MQY para la base de datos ALL, MI y SOIL para la división en

dos, tres y cuatro zonas donde la región de color negro, que representa la zona 2, la zona 3 y la zona 4

respectivamente, son mucho más pequeñas que las demás. Mientras tanto, los algoritmos FCM y KMS hicieron

una división muy similar de los grupos, este resultado concuerda con lo encontrado por Gavioli et al. [26]. Además,

se observa que la división de la información en cuatro zonas demuestra ser muy dispersa y en ocasiones muy

pequeñas en comparación a las demás zonas, como el caso de ALL, CPE y SOIL con FCM y KMS.

9.1.6.3. Validación

En la validación de las zonas se utilizó el ANOVA y la comparación de las medias de Tukey, para ellos se realizó

un submuestreo estratificado a las zonas generadas por los algoritmos ya que la cantidad de muestras es muy

grande. Para realizar el submuestreo se tomó un nivel de confianza de 95% con margen de error del 5%, dando

así una muestra de 357. Al realizar el submuestreo las zonas de MQY con la base de datos MI en la división tres

y cuatro zonas en los grupos 3 y 4 respectivamente (los últimos grupos) solamente se seleccionó como un punto.

El submuestreo no se puede calcular para una zona con un solo punto, por ello, se decidió cambiar manualmente

la zona para que este punto perteneciera a la zona que lo rodeaba.

En las tablas 11-15 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se

utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes

principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:

Índice de reducción de varianza (%).

En la Tabla 11 y Tabla 12 se presentan los resultados de ANOVA, donde se observa que en las bases de datos

CPE y MI, la división entre grupos para dos, tres y cuatro zonas fueron significativas, contrario a los resultados

obtenidos para ALL y SOIL. También se puede analizar a partir de los resultados que los algoritmos FCM y KMS

muestran resultados muy similares en las bases de datos ALL y SOIL, pero con el algoritmo MQY los resultados

difieren, por ejemplo, FCM muestra un valor de significancia en la división de dos zonas, de 0.797 para ALL y

SOIL, mientras que MQY tiene 0.059 y 0.979 respectivamente.

Los resultados de la comparación de medias de Tukey muestran que, en la división de dos zonas, CPE y MI

muestran diferencias en sus grupos (Z1, Z2), exceptuando por KMS en la base de datos MI, en la división de

zonas sin suavizado (Tabla 13), sus zonas presentan una media similar, pero esto no sucede en la división de

zonas con suavizado (Tabla 14). En la división en tres zonas para CPE y MI, por lo menos dos de sus tres zonas

muestran diferencia, a excepción de los resultados de KMS con la base de datos CPE y la aplicación de

suavizado, en la que se muestra que todas las tres zonas son diferentes.

Tabla 11. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 0.042 0.839 1.351 0.260 1.357 0.256

KMS 0.009 0.925 0.384 0.682 1.007 0.390

MQY 0.761 0.384 0.226 0.798 1.153 0.328

CPE

FCM 20.50 0.0 13.6 0.0 11.4 0.0

KMS 18.93 0.0 14.9 0.0 9.9 0.0

MQY 18.46 0.0 9.5 0.0 9.5 0.0

MI

FCM 4.609 0.033 5.136 0.006 2.649 0.049

KMS 2.353 0.126 0.607 0.546 3.082 0.028

MQY 9.607 0.002 9.607 0.002 2.411 0.091

SOIL

FCM 0.042 0.839 1.351 0.260 1.356 0.255

KMS 0.009 0.925 0.384 0.682 1.006 0.389

MQY 0.067 0.795 0.149 0.862 0.184 0.907

Tabla 12. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 0.066 0.797 0.985 0.374 0.757 0.519

KMS 0.109 0.742 0.272 0.762 1.311 0.271

MQY 3.584 0.059 1.500 0.225 1.740 0.159

CPE

FCM 19.000 0.0000 8.989 0.0002 7.364 0.0001

KMS 24.118 0.0000 17.871 0.000 5.988 0.0005

MQY 15.715 0.0001 10.442 0.000 8.186 0.000

MI

FCM 14.855 0.0001 10.968 0.000 7.215 0.0001

KMS 11.696 0.0007 11.565 0.000 8.672 0.000

MQY 14.029 0.0002 14.871 0.0001 15.352 0.0001

SOIL

FCM 0.066 0.797 0.985 0.374 0.757 0.519

KMS 0.109 0.742 0.272 0.762 1.311 0.271

MQY 0.001 0.979 0.010 0.991 0.394 0.758

El VR se obtuvo conociendo la varianza del rendimiento en cada zona, multiplicada por el porcentaje del área de

cada zona dividido en el total del rendimiento. El índice de reducción de varianza (VR) muestra que utilizar la base

de datos CPE conlleva a mejores resultados que las demás, esto puede deberse a que la distribución de zonas

fue más parecida a las zonas del rendimiento. En la Figura 28, se obtuvieron las zonas solamente utilizando el

rendimiento de la segunda campaña, y demuestra que tiene gran similitud a las zonas conformadas sólo por CPE,

como es el caso de FCM y KMS en la división de dos zonas y tres zonas principalmente. Ahora veamos, aunque

CPE se obtuvo con las imágenes multiespectrales, los parámetros del suelo y el cultivo, al igual que ALL, puede

decirse que al tener en cuenta la espacialidad y al condensar la información logró la división de las zonas con

mayor relación a la distribución del rendimiento.

Los resultados de VR para la identificación de zonas homogéneas con la base de datos CPE de la Tabla 13,

fueron obtenidos de la siguiente manera: para dos zonas, con el algoritmo MQY se obtuvo un VR de 34.6%,

seguido de KMS con 34.1%, para tres zonas con FCM se logró un VR de 49.4%, y el segundo mejor fue KMS

con VR de 45.6% y en la división de cuatro zonas el algoritmo MQY logró un VR de 44.7%, seguido de KMS con

41.4%. El VR más alto fue alcanzado por FCM con la base de dato CPE sin la aplicación del suavizado

(VR=49.4%), pero al aplicar el suavizamiento a las zonas, este algoritmo logra un VR de 52.7%, y KMS alcanzó

un VR de 51.0%, decir que los dos mejor resultados se obtuvieron con FCM y KMS, sin embargo, sólo KMS

muestra una diferencia significativa en todas las zonas (Z1=c, Z2=b, Z3=a).

Una vez conocido el mejor algoritmo que mantuviera la varianza del rendimiento total y una diferencia significativa

en las zonas generas, es necesario conocer qué variables influyeron en la delimitación de zonas homogéneas.

En la Tabla 15 se encuentra que pH, CEC, Zn, SatK, SatNa, (Ca+Mg)/K y Ca/B fueron las mediciones más

significativas en la conformación de zonas para la base de datos CPE con el algoritmo KMS, en este caso se

puede denotar que las imágenes multiespectrales no presentaron gran participación.

Tabla 13. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 9291.3 a 9238.4 a -0.2 9325.5 a 8976.5 a 9197.0 a 6.5 9072.3 a 9331.3 a 8984.9 a 9470.6 a 10.0

KMS 9255.4 a 9231.0 a -0.3 9106.9 a 9328.8 a 9253.1 a 5.7 8895.5 a 9073.2 a 9300.1 a 9370.8 a 6.0

MQY 9288.1 a 9596.7 a 1.7 9357.3 a 9301.7 a 9105.3 a 0.0 9352.4 a 9236.5 a 9089.8 a 8630.1 a 1.2

CPE

FCM 9597.4 b 8775.9 a 26.7 9599.8 b 9130.2 b 8437.5 a 49.4 9562.4 b 8977.2 a 8486.9 a 9918.9 b 40.4

KMS 9588.5 b 8757.8 a 34.1 9641.1 b 9034.6 a 8536.7 a 45.6 9371.0 bc 9012.1 ab 8506.0 a 9748.0 c 41.4

MQY 9646.5 b 8854.0 a 34.6 9693.3 b 8858.6 a 9170.5 ab 39.4 9682.2 b 8870.9 a 8188.1 a 9191.9 ab 44.7

MI

FCM 9404.6 b 8989.8 a 22.9 9400.2 b 9201.9 ab 8623.2 a 20.8 9563.8 b 9329.9 ab 9152.4 ab 8833.7 a 25.0

KMS 9298.8 a 8983.8 a 21.2 9330.3 a 9179.3 a 9053.6 a 21.1 9571.2 b 9301.4 ab 9150.9 ab 8753.0 a 27.3

MQY 9274.6 b 8613.4 a 9.5 9274.6 b 8613.4 a - - 9.5 9395.4 a 9176.1 a 8841.7 a - - 17.7

SOIL

FCM 9291.3 a 9238.4 a -0.2 9325.5 a 8976.5 a 9197.0 a 6.5 9072.3 a 9331.3 a 8984.9 a 9470.6 a 10.0

KMS 9255.4 a 9231.0 a -0.3 9106.9 a 9328.8 a 9253.1 a 5.7 8895.5 a 9073.2 a 9300.1 a 9370.8 a 6.0

MQY 9297.0 a 9378.9 a 0.6 9268.5 a 9282.1 a 9102.4 a -0.4 9202.6 a 9347.4 a 9377.2 a 9292.2 a 3.7

Tabla 14. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 9271.0 a 9207.7 a -0.3 9415.9 a 9101.2 a 9217.6 a 9.7 8928.0 a 9136.2 a 9348.7 a 9362.4 a 9.5

KMS 9273.9 a 9196.7 a -0.2 9158.0 a 9341.0 a 9202.0 a 7.2 8906.4 a 9088.3 a 9344.8 a 9460.7 a 10.8

MQY 9280.2 a 10142.5 a 3.5 9431.7 a 9257.2 a 10033.5 a 3.1 9428.7 a 9242.0 a 10101.1 a 8629.1 a 4.7

CPE

FCM 9624.9 b 8796.9 a 25.6 9707.9 b 8724.5 a 9073.9 a 52.7 9439.8 b 9083.4 ab 8471.2 a 9625.8 b 32.0

KMS 9685.8 b 8745.1 a 26.2 9674.5 c 9120.0 b 8554.9 a 51.0 9230.2 b 9247.6 b 8492.2 a 9516.6 b 37.7

MQY 9648.9 b 8887.7 a 35.1 9653.2 b 8837.0 a 9094.7 ab 39.9 9624.8 b 8905.5 a 8100.0 a 9191.2 ab 41.8

MI

FCM 8718.4 a 9454.4 b 25.8 8748.8 a 9025.8 a 9753.1 b 41.0 9502.5 c 8791.4 ab 8599.0 a 9382.8 bc 38.1

KMS 8747.0 a 9443.4 b 27.2 8692.6 a 9039.5 a 9743.6 b 35.7 9443.8 ac 8669.2 b 8608.6 ab 10386.1 c 33.4

MQY 9281.1 b 7988.8 a 5.5 9291.7 b 8305.1 a - - 8.17 8853.5 a 9632.1 b - - - - 31.9

SOIL

FCM 9271.0 a 9207.7 a -0.3 9415.9 a 9101.2 a 9217.6 a 9.7 8928.0 a 9136.2 a 9348.7 a 9362.4 a 9.5

KMS 9273.9 a 9196.7 a -0.2 9158.0 a 9341.0 a 9202.0 a 7.2 8906.4 a 9088.3 a 9344.8 a 9460.7 a 10.8

MQY 9238.1 a 9230.1 a 0.1 9274.7 a 9252.2 a 9300.0 a 0.4 9230.9 a 9500.3 a 9339.0 a 9313.4 a 3.4

Tabla 15. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para tres zonas con suavizado en la base de datos de componentes

principales espaciales (CPE).

Var GNDVI41 GNDVI65 NDRE41 NDRE65 BLUE41 BLUE65 GREEN41 GREEN65 RCC65 PWP

p-value *

Var Sand pH CEC Fe Zn SatK SatNa RP (Ca+Mg)/K Ca/B

p-value * * * * * * *

Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.

9.2. Cultivo de algodón

9.2.1. Procesamiento de imágenes

En el cultivo de algodón se tomó solamente una campaña, y se realizó tres vuelos con el UAV en las fechas

especificadas a los 43, 54 y 63 días después de emergido (DDE), que corresponde a los estados fenológicos 60,

61 y 65 respectivamente (Tabla 1). Se utilizaron las cámaras multiespectral y RGB. Las ortofotos obtenidas se

procesaron para generar los ortomosaicos en las cinco bandas espectrales BLUE, GREEN, RED, NIR, y REDGE.

Los índices de vegetación GNDVI, GVI, NDRE, NDVI, SAVI, OSAVI, SR, SCCCI y TCARI/OSAVI fueron

calculados, además de los índices de color EXG, EXR, EXRG, GLI, NDI y VARI.

Figura 29. Imágenes de NDRE y NDVI (de izquierda a derecha) en la campaña del cultivo de algodón para los tres estados

fenológicos estudiados (de arriba hacia abajo).

En la Figura 29 se presentan las imágenes obtenidas de NDRE en la columna izquierda y NDVI en la columna

derecha, para comparar los valores de los índices en cada estado fenológico 43, 54 y 63 posicionados en este

orden por filas. Al igual que en el cultivo de arroz, las imágenes de NDVI están saturadas con valores hasta 0.99,

mientras tanto, el índice NDRE tiene su máximo en 0.75. Esta comparación nos permite conocer cómo se

encuentra el cultivo a simple vista, por ejemplo, se puede observar que en la zona central los valores de los

índices son menores que en los bordes externos.

9.2.2. Análisis de datos

Tabla 16. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de algodón.

Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV

EXG60 0.174 0.065 37.224 VARI60 0.333 0.057 17.079 OSAVI60 0.613 0.043 7.038 BLUE60 0.032 0.004 11.069

EXG61 0.366 0.042 11.390 VARI61 0.312 0.091 29.008 OSAVI61 0.716 0.018 2.455 BLUE61 0.026 0.001 3.659

EXG65 0.468 0.059 12.631 VARI65 0.401 0.067 16.599 OSAVI65 0.700 0.040 5.774 BLUE65 0.032 0.002 6.316

EXR60 -0.004 0.031 -708.293 GNDVI60 0.702 0.039 5.610 SAVI60 0.605 0.053 8.725 GREEN60 0.073 0.002 3.089

EXR61 -0.040 0.039 -98.291 GNDVI61 0.800 0.011 1.384 SAVI61 0.747 0.029 3.860 GREEN61 0.069 0.004 5.966

EXR65 -0.108 0.045 -41.102 GNDVI65 0.778 0.022 2.870 SAVI65 0.744 0.060 8.087 GREEN65 0.078 0.005 6.046

EXRG60 0.178 0.095 53.445 GVI60 6.255 0.785 12.551 SCCCI60 0.451 0.022 4.787 NIR60 0.455 0.047 10.379

EXRG61 0.405 0.070 17.143 GVI61 9.574 0.554 5.790 SCCCI61 0.586 0.016 2.727 NIR61 0.608 0.037 6.121

EXRG65 0.576 0.103 17.804 GVI65 8.366 0.883 10.552 SCCCI65 0.565 0.021 3.703 NIR65 0.633 0.075 11.836

GLI60 0.110 0.040 36.744 NDRE60 0.382 0.032 8.347 SR60 15.059 3.073 20.406 RED60 0.034 0.006 16.639

GLI61 0.247 0.025 10.267 NDRE61 0.539 0.016 2.916 SR61 26.603 2.173 8.169 RED61 0.026 0.001 4.271

GLI65 0.307 0.034 11.183 NDRE65 0.491 0.024 4.913 SR65 17.296 3.500 20.234 RED65 0.041 0.006 14.746

NDI60 0.167 0.036 21.249 NDVI60 0.831 0.047 5.715 TCARIOSAVI60 0.438 0.025 5.609 REDGE60 0.192 0.009 4.866

NDI61 0.208 0.045 21.739 NDVI61 0.918 0.009 0.931 TCARIOSAVI61 0.356 0.012 3.401 REDGE61 0.185 0.012 6.445

NDI65 0.280 0.047 16.805 NDVI65 0.871 0.033 3.824 TCARIOSAVI65 0.437 0.025 5.727 REDGE65 0.216 0.020 9.499

CV = coeficiente de variación (%), std = desviación estándar.

Tabla 17. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.

Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV

RCC60 42.617 1.867 4.382 MacroP 3.671 1.783 48.568 Ca 5.245 1.378 26.275 SM 22.000 1.035 4.703

RCC61 44.508 2.834 6.368 MesoP 6.507 1.516 23.304 Mg 1.554 0.343 22.046 SK 2.167 0.650 30.001

RCC65 48.161 5.288 10.980 MicroP 31.631 5.002 15.815 K 0.148 0.028 18.964 SN 2.139 0.564 26.384

LAI60 3.658 1.245 34.047 TP 41.809 5.628 13.460 Na 0.142 0.006 4.291 RP 4.187 0.433 10.332

LAI61 5.078 1.234 24.298 Sand 49.000 15.531 31.697 CEC 7.090 1.717 24.220 PD 14.411 2.644 18.348

PRI60 0.360 0.020 5.585 Clay 13.630 4.308 31.610 Fe 75.652 17.020 22.498 Ca_Mg 3.353 0.225 6.708

PRI61 0.373 0.031 8.200 Silt 37.371 14.793 39.585 Mn 5.393 1.741 32.287 Ca_Mg_K 47.629 15.521 32.587

FC 29.860 4.819 16.140 pH 6.068 0.187 3.078 Zn 2.656 0.603 22.708 Mg_K 10.872 3.147 28.944

PWP 24.851 4.670 18.793 OM 1.285 0.255 19.825 Cu 3.847 1.458 37.896 Ca_B 11.573 2.397 20.709

UW 7.306 1.679 22.981 P 24.724 9.459 38.256 B 0.454 0.076 16.695 Yield 2246.400 431.808 19.222

AD 1.609 0.139 8.627 S 11.649 3.349 28.748 SC 73.653 1.737 2.359

CV = coeficiente de variación (%), std = desviación estándar.

El análisis descriptivo de las imágenes en algodón muestra que el EXR presenta valores negativos y superiores

al 40%. En lo que respecta a los demás índices y bandas, los coeficientes estuvieron entre el 0,9% y el 53,44%.

El NDVI registró variaciones bajas respecto a los otros índices (Tabla 16). Respecto a los parámetros de suelo y

cultivo, se evidencia qué, de los parámetros de cultivo, LAI a los 60 días fue el que presentó mayor variabilidad.

De los parámetros de suelo, se destacan los Macroporos, el Limo, Fósforo, Cobre, Manganeso, Saturación de

potasio y relación Ca+Mg/K. La variable saturación de Calcio fue la que obtuvo el menor coeficiente de variación

(Tabla 17).

9.2.3. Selección de variables

9.2.3.1. Correlación de Spearman

La correlación de las imágenes multiespectrales (índices de color, índices de vegetación y bandas espectrales)

con el rendimiento de fibra del algodón, muestran que en el estado fenológico 61 sólo los resultados de índices

de color EXG y GLI son significativos, con valores cercanos a 0.3, en cambio, en el estado fenológico 65 los

índices NDVI, OSAVI, SAVI, SCCCI, y TCARI/OSAVI están correlacionados con el rendimiento, y en la misma

fecha se encuentran las bandas NIR y REDGE (Figura 30). Los niveles de correlación superaron el valor de 0.2

llegando a 0.3, y solamente SCCCI presentó correlación negativa. Por lo visto, en estado fenológico 60 ninguna

variable fue significativa, por esta razón, no se tomará en cuenta más adelante.

Figura 30. Correlación de Spearman de las imágenes multiespectrales para el rendimiento de fibra del algodón.

Los parámetros del suelo y el cultivo fueron evaluados según su correlación con el rendimiento, de estos

resultados se logró una variable de los parámetros del cultivo PRI en el estado fenológico 61, una variable de la

física de suelos, MacroP, una propiedad química Fe y una medición de penetrometría RP, estuvieran

correlacionadas con el rendimiento variando entre 0.3 y 0.4 en sus niveles de correlación, aunque algunas

variables tuvieron correlación negativa (Figura 31).

Figura 31. Correlación de Spearman de los parámetros del suelo y el cultivo para el rendimiento de fibra del algodón.

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

EX

G6

0

EX

G6

1

EX

G6

5

EX

R60

EX

R61

EX

R65

EX

RG

60

EX

RG

61

EX

RG

65

GL

I60

GL

I61

GL

I65

ND

I60

ND

I61

ND

I65

VA

RI6

0

VA

RI6

1

VA

RI6

5

GN

DV

I60

GN

DV

I61

GN

DV

I65

GV

I60

GV

I61

GV

I65

ND

RE

60

ND

RE

61

ND

RE

65

ND

VI6

0

ND

VI6

1

ND

VI6

5

OS

AV

I60

OS

AV

I61

OS

AV

I65

SA

VI6

0

SA

VI6

1

SA

VI6

5

SC

CC

I60

SC

CC

I61

SC

CC

I65

SR

60

SR

61

SR

65

TC

AR

IOS

AV

I60

TC

AR

IOS

AV

I61

TC

AR

IOS

AV

I65

BL

UE

60

BL

UE

61

BL

UE

65

GR

EE

N60

GR

EE

N61

GR

EE

N65

NIR

60

NIR

61

NIR

65

RE

D6

0

RE

D6

1

RE

D6

5

RE

DG

E60

RE

DG

E61

RE

DG

E65

Spearman correlation of multispectral images with lint yield

Significant correlation No significant correlation

-0.6

-0.4

-0.2

0

0.2

0.4

RC

C60

RC

C61

RC

C65

LA

I60

LA

I61

PR

I60

PR

I61

FC

PW

P

UW AD

Ma

cro

P

Me

soP

Mic

roP

TP

Sand

Cla

y

Silt

pH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

SatC

a

SatM

g

SatK

SatN

a

RP

PD

Ca/M

g

(Ca+

Mg)/

K

Mg

/K

Ca/B

Spearman Correlation of crop and soil parameters with lint yield

Significant correaltion No significant correlation

9.2.3.2. Índice de Moran

Figura 32. Índice de Moran de las imágenes multiespectrales para el cultivo de algodón.

Figura 33. Índice de Moran de los parámetros del suelo y el cultivo en algodón.

La autocorrelación espacial de las imágenes multiespectrales se bastante alta, presenta valores entre 0.43 hasta,

0.8. En cuanto a la autocorrelación espacial en parámetros de suelo y cultivo, se muestra que la mayoría fueron

estadísticamente significativas, excepto RCC60 y el porcentaje de arcilla (Clay). Sin embargo, en comparación a

las imágenes, en este caso se presentaron valores más bajos en el índice de Moran, entre 0.19 hasta 0.8, teniendo

el valor máximo el porcentaje de arena (Sand). Los parámetros del cultivo RCC61, RCC65, LAI61, PRI60 y PRI61,

presentan baja correlación espacial, mientras que LAI60 presentan un valor de 0.6. De las propiedades del suelo,

las mediciones de textura Sand y Silt muestran alta dependencia espacial y de las propiedades químicas se

observa que la medición de Cu es la más alta.

Las variables que presentan correlación con el rendimiento y autocorrelación espacial son EXG, GLI, NDVI,

OSAVIA, SCCCI, TCARI/OSAVI, NIR, REDGE, PRI, MacroP, Fe, y RP. Los índices de color e índices de

vegetación se tomaron para los estados fenológicos 61 y 63, ya que ninguna variable fue significativa en el estado

60. Este conjunto de variables es seleccionado para aplicar el segundo filtro en el proceso de selección de

variables.

9.2.3.3. Matriz de correlación

La matriz de correlación me permite conocer qué variables se encuentran relacionadas entre sí del conjunto de

mediciones obtenido en el paso anterior. En la Figura 34 se presenta la matriz de correlación, en la cual se puede

observar las imágenes multiespectrales se encuentran altamente correlacionadas, en caso contrario, los

00.10.20.30.40.50.60.70.80.9

EX

G6

0

EX

G6

1

EX

G6

5

EX

R60

EX

R61

EX

R65

EX

RG

60

EX

RG

61

EX

RG

65

GL

I60

GL

I61

GL

I65

ND

I60

ND

I61

ND

I65

VA

RI6

0

VA

RI6

1

VA

RI6

5

GN

DV

I60

GN

DV

I61

GN

DV

I65

GV

I60

GV

I61

GV

I65

ND

RE

60

ND

RE

61

ND

RE

65

ND

VI6

0

ND

VI6

1

ND

VI6

5

OS

AV

I60

OS

AV

I61

OS

AV

I65

SA

VI6

0

SA

VI6

1

SA

VI6

5

SC

CC

I60

SC

CC

I61

SC

CC

I65

SR

60

SR

61

SR

65

TC

AR

IOS

AV

I60

TC

AR

IOS

AV

I61

TC

AR

IOS

AV

I65

BL

UE

60

BL

UE

61

BL

UE

65

GR

EE

N60

GR

EE

N61

GR

EE

N65

NIR

60

NIR

61

NIR

65

RE

D6

0

RE

D6

1

RE

D6

5

RE

DG

E60

RE

DG

E61

RE

DG

E65

Moran index of multispectral images

Significant autocorrelation No significant correlation

0

0.2

0.4

0.6

0.8

1

RC

C60

RC

C61

RC

C65

LA

I60

LA

I61

PR

I60

PR

I61

FC

PW

P

UW AD

Ma

cro

P

Me

soP

Mic

roP

TP

Sand

Cla

y

Silt

pH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

SatC

a

SatM

g

SatK

SatN

a

RP

PD

Ca/M

g

(Ca+

Mg)/

K

Mg

/K

Ca/B

Yie

ld

Moran index of crop and soil parameters

Significant autocorrelation No significant autocorrelation

parámetros del suelo y el cultivo no muestra relación entre ellas. Los índices de color EXG y GLI, presentan un

valor de correlación de 1, esto debido a que el cálculo de ambos se basa en la banda del verde visible. Además,

estos dos índices tienen valor de correlación de 0.92 con NDVI en el estado fenológico 65, por este motivo, los

índices de color son descartados, de igual forma que OSAVI y NIR, ya que está correlacionado también con

NDVI65.

Figura 34. Matriz de correlación de las variables seleccionadas en el primer filtro para el cultivo de algodón.

Tipo de medición Variable Tipo de medición Variable

Imágenes multiespectrales

NDVI61, NDVI65 Mediciones del cultivo PRI61

SCCCI61, SCCCI65 Propiedades físicas MacroP

TCARI/OSAVI61, TCARI/OSAVI665 Propiedades químicas Fe

Bandas espectrales REDGE61, REDGE65 Penetrometría RP

9.2.4. Interpolación

Los parámetros del suelo y el cultivo seleccionados, se interpolaron usando el método de kriging, para lograr esto,

primero se obtuvo el modelo para el semivariograma (exponencial, gaussiano y esférico) con los parámetros

nugget (Co), Rango y Sil (Co+C). En la Tabla 18 se encuentran los modelos generados para el semivariograma

por cada variable, además en el ANEXO N se presentan los semivariogramas ajustados. El método de mínimos

cuadrados ordinarios (OLS) fue usado para ajustar el modelo de las variables PRI65, MacroP y Yield, y la máxima

verosimilitud restringida (REML) se utilizó para ajustar Fe y RP. El rango varió entre 14.97m y 68.38m para las

variables MacroP y Yield respectivamente.

La validación de la interpolación dio resultados entre 0.17 y 0.57, donde el mayor resultado de R2 se dio por la

medición de PRI en el estado fenológico 65. Algunas variables necesitaron de transformación de normalidad ya

que su valor de p-valor fue menor a 0.05 en la prueba de Shapiro-Wilks, entre ellas PRI65, MacroP, Fe y RP. Los

mapas interpolados se presentan en Figura 35.

Tabla 18. Interpolación de variables del suelo y el cultivo para la primera campaña de algodón.

Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

PRI65 Esférico OLS 0.5e-11 43 2.5e-11 0.58429 p-value

= 2e-04 0.14 0.57

W = 0.79985, p-value = 1.7e-08

MacroP Exponencial OLS 0.005 14.97 0.028 0.43289 p-value

= 2e-04 0.14 0.33

W = 0.6997, p-value = 7.607e-11

Fe Esférico REML 0.000001 75 0.0000072 0.46812 p-value

= 2e-04 0.009 0.53

W = 0.9145, p-value = 0.0001228

RP Gaussiano REML 28.06 18.71 227.52 0.48688 p-value

= 2e-04 2.37 0.40

W = 0.95255, p-value = 0.008549

Lint Yield

Esférico OLS 20949.32 68.38 181183.31 0.25015 p-value

= 0.0016 3.76 0.17

W = 0.97979, p-value = 0.2997

Co: nugget, Co+C: Sill

Figura 35. Mapas interpolados de las mediciones de algodón.

9.2.5. Modelo de predicción de rendimiento

Los resultados de validación para los modelos de predicción de rendimiento con regresión, muestran gran

desempeño por parte de los algoritmos Random Forest (RF) y K-nearest neighbor (KNN), con valores de R2 de

0.907, 0.905 y RMSE de 104.4 Kg/ha, 105.3 Kg/ha respectivamente con la base de datos de SOIL, estos

resultados obtenidos para los algoritmos RF concuerdan con lo visto por Ashapure et al. [62]. Mientras tanto, en

los resultados de los modelos con base de datos de ALL se observan R2 de 0.890 y 0.808, simultáneamente, RF

y KNN con la base de datos de MI mostró un desempeño intermedio con valor de R2 de 0.482 y 0.478. Sin

embargo, los algoritmos MLP y SVM con las MI lograron el 0.52, estos algoritmos tuvieron mejor rendimiento al

utilizar ALL como descriptores que con SOIL y MI. Por otra parte, nuevamente el algoritmo LASSO presenta

desempeño muy bajo, con resultados de R2 de 0.24 para MI y SOIL.

Figura 36. Validación de los algoritmos de regresión para la predicción de rendimiento. a) Resultados del coeficiente de

determinación R2. b) Resultados de la raíz del error medio cuadrático.

El rendimiento se clasificó según el histograma en rendimiento bajo (1) para las muestras menores a 1950 Kg/ha,

medio (2) para las muestras entre 1950 Kg/ha y 2650 Kg/ha, y alto (3) cuando las muestras superen los 2650

Kg/ha. Los resultados de los modelos de clasificación demuestran que los algoritmos RF, KNN, GBR y SVM

tienen buen desempeño, ya que, los resultados de exactitud (Figura 37a) se encuentran alrededor de 0.90 para

la base de datos ALL y SOIL. Por otra parte, con la base de datos MI, los resultados de R2 estuvieron entre 0.7 y

0.8. En la Figura 37b se presenta la matriz de confusión para RF con ALL y se observa que logra clasificar muy

bien las muestras entre las clases, mientras que el algoritmo Naïve Bayes gaussiano con los datos de SOIL

(Figura 37c) cuanta con bastantes falso positivos, especialmente en la clase alto (3).

Figura 37. Resultados de validación de los algoritmos de clasificación para la predicción de rendimiento. a) Resultados de

exactitud. b) Matriz de confusión de los resultados de clasificación del algoritmo Random forest con la base de datos de

todas las variables (ALL). c) Matriz de confusión de los resultados de clasificación del algoritmo Naïve Bayes gaussiano con

la base de datos del suelo y el cultivo (SOIL).

Figura 38. Variables de importancia de los algoritmos de regresión (columna izquierda) y de los algoritmos de clasificación

(columna derecha). a) y b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.

Las variables de importancia fueron obtenidas a partir, del algoritmo RF. Como era de esperarse, las mediciones

de los parámetros del suelo y el cultivo tuvieron mayor peso en el modelo de regresión y clasificación de las

variables de la base de dato ALL (Figura 38a y Figura 38b respectivamente), sin embargo, la imagen de la banda

espectral REDGE65 se muestra entre las primeras variables con mayor importancia, mientras las demás

imágenes no influyen en gran medida sobre el modelo. Esto puede deberse a que las imágenes multiespectrales

fueron tomadas en etapas muy tempranas y de esta manera la relación con el rendimiento de fibra de algodón es

baja como se vio en el estudio de Ballester et al. [23], aunque en este estudió se tomó la información de 43 a 63

días de emergido (DDE), mientras tanto en el estudio de Ballester et al. tomaron las imágenes desde 62 DDE

hasta 169 DDE. En las figuras Figura 38c y Figura 38d se observa que en el estado fenológico de crecimiento 65

muestra mejores resultados que el estado 61. Mientras tanto, en el modelo generado con la base de datos SOIL,

muestra que los macroporos (MacroP), es la variable más relevante (Figura 38e y Figura 38f).

9.2.6. Modelo de identificación de zonas homogéneas

9.2.6.1. Análisis de componentes espaciales principales

Para generar el modelo de zonas homogéneas se obtienen los componentes principales espaciales (CPE), a

partir de imágenes multiespectrales, parámetros del suelo y el cultivo a 72 puntos. El análisis de componentes

principales arrojó que los tres primeros componentes representaban el 90% de la varianza total del conjunto de

datos de la siguiente manera: CS1=49.10823973, CS2= 27.02976794, CS3= 14.04438711. Estos componentes

fueron interpolados a 5000 puntos, donde la validación de su interpolación se encuentra en la Tabla 19, en

conjunto con los modelos utilizados en los semivariogramas. En el caso de los CPE que obtuvieron un p-valor

menor a 0.05, no se realizó una transformación de normalidad ya que presentan valores negativos y la

transformación de boxcox da un valor infinito.

Tabla 19. Interpolación de los componentes principales espaciales seleccionados.

Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

CS1 Gaussiano WLS-npais 0.59 48.65 5.31 0.71789 p-value = 0.0004998

0.07 0.88 W = 0.98297, p-value = 0.4394

CS2 Exponencial OLS 0.17 41.70 1.62 0.73652 p-value = 0.0004998

0.22 0.71 W = 0.96548, p-value = 0.04536

CS3 Exponencial WLS- cressie

0.12 26.06 1.07 0.55726 p-value = 0.0004998

0.13 0.57 W = 0.98975, p-value = 0.8299

CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill

9.2.6.2. Modelos de Clustering

A partir de las bases de datos ALL, CPE, MI y SOIL se aplicaron los algoritmos FCM, KMS y MQY para la

identificación de zonas homogéneas, para ello se dividió en dos, tres y cuatro zonas, además, se obtuvieron las

zonas para el rendimiento de la fibra de algodón (Figura 39), con el fin de comparar con las zonas generadas por

las bases de datos. En los mapas generados con la base de datos ALL y SOIL los resultados son muy similares,

esto puede sugerir que las variables más importantes en la delimitación de zonas con ALL fueron los parámetros

del suelo y el cultivo. Los mapas generados con ALL y SOL en los algoritmos FCM, KMS y MQY dividieron las

zonas de una manera muy similar, mientras tanto, la división de las zonas en tres y cuatro, se muestran un poco

dispersas.

Al igual que en el cultivo de arroz, la segmentación de zonas con la base de datos MI, es muy dispersa, pero en

el caso del algodón, se encuentra mejor delimitada, es por esto que al realizar el suavizamiento se definen muy

bien las zonas, exceptuando por la división en cuatro zonas. Se puede observar que existe cierta similitud entre

las zonas generadas con MI y CPE, esto se puede denotar cuando se aplica el suavizado a las zonas. Cabe

resaltar que MQY con MI, no dividió las zonas de manera satisfactoria, generó una zona menos en cada división,

por ejemplo, en la división de dos zonas, generó solamente una.

Figura 39. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las

imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales

espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento; FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty.

9.2.6.3. Validación

En las tablas 20 a 24 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se

utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes

principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:

Índice de reducción de varianza (%).

Tabla 20. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 3.992 0.047 4.487 0.012 2.881 0.036

KMS 5.796 0.017 5.542 0.004 2.881 0.036

MQY 2.467 0.117 1.010 0.365 1.009 0.389

CPE

FCM 1.337 0.248 6.403 0.002 3.279 0.021

KMS 0.207 0.649 5.038 0.007 2.878 0.036

MQY 0.211 0.646 4.278 0.015 3.843 0.010

MI

FCM 0.005 0.947 0.600 0.550 0.049 0.986

KMS 0.883 0.348 0.310 0.734 1.882 0.132

MQY - - 0.010 0.919 0.221 0.802

SOIL

FCM 3.992 0.047 4.487 0.012 2.881 0.036

KMS 5.796 0.017 5.542 0.004 2.881 0.036

MQY 5.157 0.024 2.845 0.060 1.751 0.156

Tabla 21. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 6.156 0.014 3.229 0.041 1.192 0.313

KMS 5.102 0.025 2.840 0.060 3.447 0.017

MQY 5.233 0.023 3.078 0.047 4.874 0.003

CPE

FCM 0.390 0.533 5.719 0.004 6.2705 0.0004

KMS 0.203 0.652 5.650 0.004 5.7925 0.0007

MQY 0.027 0.870 4.526 0.012 3.0187 0.0299

MI

FCM 0.125 0.724 0.615 0.541 0.716 0.543

KMS 0.150 0.699 1.474 0.231 1.110 0.345

MQY - - 0.067 0.795 0.317 0.728

SOIL

FCM 3.992 0.047 4.487 0.012 2.881 0.036

KMS 5.796 0.017 5.542 0.004 2.881 0.036

MQY 5.157 0.024 2.845 0.060 1.751 0.156

El ANOVA dio como resultado que FCM y KMS para ALL y SOIL en la división de dos zonas, tres zonas y cuatro

zonas sin suavizamiento (Tabla 20) la división de los grupos fue significativa, al aplicar el suavizado los resultados

son similares excepto KMS en tres zonas y FCM en cuatro zonas (Tabla 21Tabla 20). Los algoritmos con las

bases de datos CPE y MI dividieron el área en dos y tres zonas de manera significativa.

Por otra parte, los resultados de VR muestran que, para la división en dos zonas, KMS en la base de datos ALL

se obtuvo un VR de 14.8% (Tabla 22) y 13.4% al aplicar el suavizado (Tabla 23), mientras tanto FCM obtuvo un

VR de 12.2% sin suavizado, y luego de aplicar el filtro, resultó con un VR de 15.8%. Igualmente, en la división de

tres y cuatro zonas los mejores resultados fueron obtenidos por la base de datos CPE con los algoritmos FCM y

KMS, con VR de 28.6% y 29.1% para tres zonas, y 31.6% y 33.0% para cuatro zonas. Al aplicar el suavizamiento

los mejores algoritmos en CPE incrementaron su VR, es por esto que FCM en CPE tiene un VR de 41.9% en la

división de cuatro zonas, el mayor registrado para algodón. Sin embargo, el segundo mejor es KMS, pero este a

diferencia del anterior, cuenta las cuatro zonas con media diferente, según la comparación de medias de Tukey

(Z1=bc, Z2= ab, Z3=a, Z4=c).

Finalmente, en la Tabla 24 se encuentran las variables que influyeron en la delimitación de zonas homogéneas,

para conocer este valor, se realizó el ANOVA con todas las medicines de algodón, donde su valor es significativo,

representa la participación de esta variable al momento de desarrollar los mapas de zonas homogéneas.

Tabla 22. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1

KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0

MQY 2242.2 a 2366.1 a 8.0 2242.7 a 2354.9 a 2346.2 a 9.1 2245.7 a 2358.1 a 2190.7 a 2162.7 a 16.4

CPE

FCM 2296.8 a 2217.5 a 2.10 2292.9 b 2073.4 a 2400.2 b 28.6 2327.3 ab 2180.0 ab 2077.3 a 2405.6 b 31.6

KMS 2264.8 a 2230.6 a 1.42 2288.7 b 2088.6 a 2399.9 b 29.1 2331.8 a 2161.1 a 2111.5 a 2392.0 a 33.0

MQY 2282.9 a 2248.8 a -0.23 2279.3 ab 2067.8 a 2384.3 b 24.0 2282.7 ab 2063.3 a 2413.4 b 2393.1 ab 23.9

MI

FCM 2242.6 a 2247.5 a 0.8 2271.0 a 2282.2 a 2197.7 a 16.9 2276.8 a 2254.1 a 2252.6 a 2283.3 a 8.5

KMS 2301.0 a 2236.7 a 2.8 2241.6 a 2273.0 a 2208.4 a 15.5 2250.2 a 2270.7 a 2465.1 a 2167.5 a 15.0

MQY - - - - - 2273.8 a 2265.5 a - - 0.36 2277.2 a 2231.3 a 2222.3 a - - -0.26

SOIL

FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1

KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0

MQY 2383.3 b 2218.6 a 13.4 2378.7 a 2223.9 a 2469.1 a 15.4 2378.6 a 2224.0 a 2440.9 a 2216.7 a 13.4

Tabla 23. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 2380.1 b 2202.7 a 15.8 2320.7 ab 2189.0 a 2405.0 b 14.2 2322.5 a 2256.5 a 2164.8 a 2334.4 a 23.1

KMS 2387.4 b 2218.1 a 13.4 2334.6 a 2197.8 a 2402.5 a 14.0 2342.8 ab 2219.5 ab 2173.6 a 2687.8 b 22.9

MQY 2422.3 b 2242.9 a 11.0 2415.6 b 2228.9 a 2415.0 ab 13.4 2396.5 b 2257.2 ab 2065.2 a 2395.4 ab 24.2

CPE

FCM 2280.5 a 2236.0 a 0.8 2277.6 ab 2098.8 a 2405.3 b 30.0 2342.5 b 1991.7 a 2192.8 ab 2441.2 b 41.9

KMS 2278.2 a 2243.5 a 1.4 2294.1 b 2099.3 a 2417.2 b 29.1 2359.3 bc 2191.0 ab 2042.2 a 2441.5 c 35.7

MQY 2274.0 a 2260.7 a 2.6 2238.1 ab 2073.5 a 2407.4 b 34.1 2274.0 ab 2079.1 a 2408.1 b 2373.9 ab 29.2

MI

FCM 2253.7 a 2226.9 a 1.6 2312.9 a 2208.9 a 2276.4 a 14.4 2264.5 a 2384.3 a 2179.5 a 2257.7 a 17.1

KMS 2264.5 a 2235.1 a 1.2 2375.6 a 2206.0 a 2240.4 a 10.0 2243.3 a 2296.7 a 2142.8 a 2299.8 a 20.7

MQY - - - - - 2262.0 a 2241.8 a - - - 2292.6 a 2242.8 a 2183.2 a - - 3.5

SOIL

FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1

KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0

MQY 2383.3 b 2218.6 a 13.4 2378.7 a 2223.9 a 2469.1 a 15.4 2378.6 a 2224.0 a 2440.9 a 2216.7 a 13.4

Tabla 24. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para cuatro zonas con suavizado en la base de datos de componentes

principales espaciales (CPE).

Var NDVI61 NDVI65 SCCCI61 SCCCI65 TCARIOSAVI61 TCARIOSAVI65

p-value * * * * * *

Var REDGE61 REDGE65 PRI61 MacroP Fe RP

p-value * * * * * *

Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.

9.3. Cultivo de maíz

9.3.1. Procesamiento de imágenes

Al igual que con los cultivos de arroz y algodón, el NDVI se encuentra saturado, esto puede deberse a que, en

etapas tempranas del cultivo, el suelo se encuentra descubierto y provoca la saturación de este índice, tanto, en

la primera (Figura 40), como segunda campaña (Figura 41) de maíz se observa este efecto, sin embargo, existe

una distribución de los patrones de los índices que difiere de una campaña a otra.

Figura 40. Imágenes NDRE y NDVI (de arriba hacia abajo) en los tres estados fenológicos estudiados (de izquierda a

derecha) de la primera campaña de maíz.

Figura 41. Imágenes NDRE y NDVI (de arriba hacia abajo) en los tres estados fenológicos estudiados (de izquierda a

derecha) de la segunda campaña de maíz.

9.3.2. Análisis de datos

En la Tabla 25, se observa el análisis descriptivo para las imágenes espectrales en el cultivo de maíz. De modo

general, los coeficientes de variación estuvieron en un máximo del 21%. La primera campaña registró mayores

variaciones en comparación a la segunda campaña.

Tabla 25. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de maíz.

Primera campaña Segunda Campaña Primera campaña Segunda Campaña

Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV

gndvi19 0.653 0.031 4.703 gndvi19 0.791 0.019 2.424 savi63 0.246 0.009 3.808 savi61 0.613 0.014 2.329

gndvi53 0.852 0.013 1.555 gndvi53 0.872 0.006 0.717 sr19 9.331 1.975 21.165 sr19 25.207 3.702 14.686

gndvi63 0.829 0.018 2.128 gndvi61 0.816 0.014 1.770 sr53 34.069 2.744 8.055 sr53 85.222 5.336 6.261

gvi19 4.933 0.557 11.288 gvi19 9.011 0.808 8.963 sr63 22.909 1.581 6.903 sr61 16.508 1.356 8.215

gvi53 12.954 1.252 9.668 gvi53 15.228 0.818 5.370 green19 0.054 0.003 5.970 green19 0.010 0.000 3.611

gvi63 11.204 1.212 10.819 gvi61 10.263 0.803 7.821 green53 0.021 0.002 7.235 green53 0.040 0.002 4.201

ndre19 0.429 0.035 8.110 ndre19 0.634 0.023 3.568 green63 0.011 0.002 14.260 green61 0.044 0.005 10.800

ndre53 0.678 0.023 3.459 ndre53 0.705 0.010 1.464 nir19 0.267 0.036 13.523 nir19 0.084 0.007 8.382

ndre63 0.618 0.035 5.655 ndre61 0.648 0.020 3.144 nir53 0.266 0.014 5.109 nir53 0.574 0.029 5.131

ndvi19 0.771 0.037 4.864 ndvi19 0.912 0.020 2.206 nir63 0.114 0.008 7.080 nir61 0.418 0.019 4.606

ndvi53 0.939 0.005 0.578 ndvi53 0.975 0.002 0.176 red19 0.104 0.007 6.505 red19 0.019 0.001 4.658

ndvi63 0.914 0.006 0.652 ndvi61 0.880 0.011 1.255 red53 0.051 0.003 6.265 red53 0.101 0.005 4.652

osavi19 0.575 0.050 8.781 osavi19 0.370 0.026 7.006 red63 0.027 0.004 14.439 red61 0.091 0.009 9.386

osavi53 0.682 0.016 2.355 osavi53 0.882 0.013 1.452 redge19 0.246 0.009 3.808 redge19 0.613 0.014 2.329

osavi63 0.449 0.018 3.981 osavi61 0.743 0.010 1.389 redge53 9.331 1.975 21.165 redge53 25.207 3.702 14.686

savi19 0.429 0.051 11.773 savi19 0.204 0.017 8.248 redge63 34.069 2.744 8.055 redge61 85.222 5.336 6.261

savi53 0.495 0.018 3.660 savi53 0.780 0.021 2.741

CV = coeficiente de variación (%), std = desviación estándar.

De los parámetros de suelo y cultivo (Tabla 26) obtenidos, se observan variaciones que van del 3 al 40%. En la

campaña uno se observan menores coeficientes de variación comparado a la campaña dos.

Tabla 26. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.

Primera campaña Segunda campaña Primera campaña Segunda campaña

Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV

RCC63 43.356 6.004 13.849 RCC61 63.79 8.42 13.19 Mn 5.393 1.741 32.287 Mn 5.73 2.11 36.87

FC 29.860 4.819 16.140 FC 30.77 7.76 25.21 Cu 3.847 1.458 37.896 Cu 3.78 1.52 40.30

PWP 24.851 4.670 18.793 PWP 26.70 7.84 29.36 SatNa 2.139 0.564 26.384 SatNa 2.39 0.64 26.80

AD 1.609 0.139 8.627 AD 1.64 0.14 8.81 RP 4.187 0.433 10.332 RP 3.74 0.80 21.53

MicroP 31.631 5.002 15.815 MicroP 28.53 4.99 17.48 PD 14.411 2.644 18.348 PD 12.93 3.91 30.26

Sand 49.000 15.531 31.697 Sand 49.00 15.53 31.70 Ca_Mg_K 47.629 15.521 32.587 Ca_Mg_K 46.05 15.83 34.38

Silt 37.371 14.793 39.585 Silt 37.37 14.79 39.59 Mg_K 10.872 3.147 28.944 Mg_K 10.35 3.15 30.45

pH 6.068 0.187 3.078 pH 6.67 0.20 3.06 Ca_B 11.573 2.397 20.709 Ca_B 9.82 1.72 17.47

Mg 1.554 0.343 22.046 Mg 1.58 0.39 24.97 Yield 7965.569 2108.070 26.46 Yield 6742.22 2506.84 37.18

CV = coeficiente de variación (%), std = desviación estándar.

9.3.3. Selección de variables

9.3.3.1. Correlación de Spearman

De los resultados en la Figura 42, en la primera campaña se observa que los índices de vegetación presentan

correlación significativa con el rendimiento, en los estados 53 y 63, excepto por el índice SAVI en el estado 63.

En lo que se refiere con las bandas espectrales solamente se observa un resultado significativo en NIR 53 y

REDGE 19 para la primera campaña de maíz. Por otra parte, en la segunda campaña los índices de vegetación

muestran un comportamiento un poco diferente, debido a que, los resultados de Spearman muestran GNDVI, GVI

y NDVI revelan un valor significativo para las fechas 19 y 63 solamente, mientras tanto, OSAVI y SAVI presentan

resultados significativos para los estados 19 y 53. GREEN, NIR, REDGE y NDRE tienen correlación con el

rendimiento en los tres estados fenológicos de crecimiento. Lo dicho hasta aquí supone que, existen resultados

significativos para las tres fechas, a razón de esto, se evaluarán las variables en las tres fechas seleccionadas.

La banda REDGE de la segunda campaña muestra el resultado más alto entre las variables de imágenes

multiespectrales, y el segundo más alto fue el NDRE, que está basado en el REDGE y NIR. A su vez, los

resultados no significativos tienen su valor de más cercano a cero, representando que dicha variable no presenta

correlación, como es el caso de SAVI 63, la banda BLUE y RED en los estados fenológicos 19 y 53, de ahí que,

estas dos últimas se deciden por ser descartadas del análisis posterior, ya que en dos de las tres fechas, tanto

en la primera como la segunda campaña, sus resultados muestran baja correlación con el rendimiento y por esta

razón, se desestiman para desarrollar los modelos más adelante.

Figura 42. Correlación de Spearman para las imágenes multiespectrales tomadas en la primera y segunda campaña del

cultivo de maíz.

Figura 43. Correlación de Spearman de los parámetros del suelo y el cultivo tomados en la primera y segunda campaña del

cultivo de maíz.

En la Figura 43 se muestra la correlación de los parámetros del suelo y el cultivo para la primera y segunda

campaña de maíz, donde los resultados evidencia que pocas variables se encuentran relacionadas con el

rendimiento. En la primera campaña las mediciones de RCC en el estado fenológico 63 y LAI en el estado 19; de

las mediciones de los parámetros físicos se encuentran correlacionadas con el rendimiento el FC y PWP, Sand,

Silt; de las propiedades químicas el pH, Mg, Mn, Cu, SatNa, (Ca+Mg)/K, Mg/K y Ca/B; y de penetrometría PD,

mientras tanto en la segunda campaña solamente se encuentran RCC 63, AD, MicroP, Sand y RP. Nótese que

la única variable que se encuentra correlacionada con el rendimiento, tanto en la primera como la segunda

campaña, es Sand. En la selección de variables se toman las mediciones que presenten resultados significativos

tanto en la primera como la segunda campaña, en consecuencia, se eligen las variables anteriormente

mencionadas.

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60G

ND

VI1

9

GN

DV

I53

GN

DV

I63

GV

I19

GV

I53

GV

I63

ND

RE

19

ND

RE

53

ND

RE

63

ND

VI1

9

ND

VI5

3

ND

VI6

3

OS

AV

I19

OS

AV

I53

OS

AV

I63

SA

VI1

9

SA

VI5

3

SA

VI6

3

SR

19

SR

53

SR

63

BL

UE

19

BL

UE

53

BL

UE

63

GR

EE

N1

9

GR

EE

N5

3

GR

EE

N6

3

NIR

19

NIR

53

NIR

63

RE

D1

9

RE

D5

3

RE

D6

3

RE

DG

E1

9

RE

DG

E5

3

RE

DG

E6

3

Spearman correlation of multispectral images

Significant correlation first campaign No significant correlation first campaign

Significant correlation second campaign No significant correlation second campaign

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

RC

C19

RC

C63

LA

I19

LA

I53

FC

PW

P

UW AD

Ma

cro

P

Me

soP

Mic

roP

TP

Sand

Cla

y

Silt

pH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

SatC

a

SatM

g

SatK

SatN

a

RP

PD

Ca/M

g

(Ca

+M

g)/

K

Mg

/K

Ca/B

Spearman correlation of crop and soil parameters

Significant correlation first campaign No significant correlation first campaign

Significant correlation second campaign No significant correlation second campaign

9.3.3.2. Índice de Moran

Figura 44. Índice de Moran de las imágenes multiespectrales de la primera y segunda campaña del cultivo de maíz.

Figura 45. Índice de Moran de los parámetros del suelo y el cultivo de la primera y segunda campaña del cultivo de maíz.

En la Figura 44 y Figura 45 se presentan los resultados de autocorrelación espacial de las imágenes

multiespectrales, los parámetros del suelo y el cultivo. De las imágenes multiespectrales se evidencia que la

dependencia espacial es alta, alrededor de 0.7, esto sugiere que al realizar el recorte y promedio de las imágenes

en 72 puntos fue un método adecuado para observar la variabilidad espacial de cada índice de vegetación y

banda espectral. En cambio, los resultados para los parámetros del suelo y el cultivo evidencian gran variación,

ya que el valor más alto de dependencia espacial está dado por Sand con 0.86, seguido de la variable Silt con

0.82, mientras tanto, el valor más bajo es de -0.002 dado por K en la segunda campaña.

Finalmente se evalúan los resultados de la correlación de Spearman y el índice de Moran de las variables para

seleccionar las mediciones que serán utilizadas en el procedimiento más adelante. Como se mencionó antes, las

bandas BLUE y RED presentan correlación espacial en la primera y segunda campaña, pero muestra inexistencia

de correlación con el rendimiento, sin embargo, las bandas GREEN, NIR y REDGE son seleccionadas, de igual

modo, los índices de vegetación.

Las mediciones del cultivo RCC 63 y LAI19 presentan resultados de correlación y dependencia espacial

significativos, así mismo, los parámetros del suelo FC, PWP, AD, MicroP, Sand, Silt, pH, Mg, Mn, Cu, SatNa, RP,

PD, (Ca+Mg)/K, Mg/K y Ca/B.

00.20.40.60.8

1

GN

DV

I19

GN

DV

I53

GN

DV

I63

GV

I19

GV

I53

GV

I63

ND

RE

19

ND

RE

53

ND

RE

63

ND

VI1

9

ND

VI5

3

ND

VI6

3

OS

AV

I19

OS

AV

I53

OS

AV

I63

SA

VI1

9

SA

VI5

3

SA

VI6

3

SR

19

SR

53

SR

63

BL

UE

19

BL

UE

53

BL

UE

63

GR

EE

N…

GR

EE

N…

GR

EE

N…

NIR

19

NIR

53

NIR

63

RE

D1

9

RE

D5

3

RE

D6

3

RE

DG

E…

RE

DG

E…

RE

DG

E…

Moran index of multispectral images

Significant autocorrelation first campaign No significant autocorrelation first campaign

Significant autocorrelation second campaign No significant autocorrelation second campaign

-0.20

0.20.40.60.8

1

RC

C19

RC

C63

LA

I19

LA

I53

FC

PW

P

UW AD

Ma

cro

P

Me

soP

Mic

roP

TP

Sand

Cla

y

Silt

pH

OM P S

Ca

Mg K

Na

CE

C Fe

Mn

Zn

Cu B

SatC

a

SatM

g

SatK

SatN

a

RP

PD

Ca/M

g

(Ca

+M

g)/

K

Mg

/K

Ca/B

Yie

ld

Moran index of crop and soil parameters

Significant autocorrelation first campaign No significant autocorrelation first campaign

Significant autocorrelation second campaign No significant autocorrelation second campaign

9.3.3.3. Matriz de correlación

Figura 46. Matriz de correlación de las mediciones de la primera campaña de maíz.

Figura 47. Matriz de correlación de las mediciones de la segunda campaña de maíz.

NDRE y NDVI muestran correlación con GNDVI y GVI en la primera y segunda campaña, por ello se procede a

eliminar GNDVI y GVI. Así mismo, OSAVI, SAVI y SR presentan correlación con NDVI, NDRE, NIR, y RED el

estado fenológico 19, también su relación con el rendimiento es menor, como resultado se decide eliminar OSAVI,

SAVI y SR. Como la banda GREEN muestra alta correlación con la banda REDGE en el estado 19 de la segunda

campaña, se procede a eliminar GREEN. La banda NIR se encuentra correlacionada con NDRE en el estado

fenológico 19 en la primera campaña, y con NDVI en la segunda campaña.

En los parámetros del suelo y el cultivo se encuentra FC y PWP como variables correlacionadas entre sí, además

ambas tienen una relación muy similar con el rendimiento, sin embargo, FC muestra una relación con el

rendimiento de 0.27 y para PWP de 0.28 en la primera campaña, mientras tanto, en la segunda campaña estos

valores son de 0.15 y 0.14 respectivamente, como el resultado, no es concluyente se opta por seleccionar PWP

ya que es más usada para medir el estrés hídrico... Por otra parte, a pesar de que, las variables de textura Sand

y Silt se encuentran correlacionadas, la relación de Sand con el rendimiento es de -0.31, mientras que Silt es de

0.27 en la primera campaña, en la segunda los valores presentan resultados proporcionales a los anteriores, por

esta razón, se selecciona la variable Sand. Se observa la propiedad química Cu correlacionada con Sand en la

primera campaña, así que se descarta. De las relaciones entre propiedades químicas, (Ca+Mg)/K y Mg/K se

encuentran altamente correlacionadas, pero el resultado de la última variable relacionada con el rendimiento es

mayor, por esto, se elige Mg/K para el análisis posterior.

Tabla 27. Variables seleccionadas para la primera y segunda campaña del cultivo de maíz.

Imágenes multiespectrales

Tipo de medición Primera

campaña Segunda campaña

Tipo de medición Primera

campaña Segunda campaña

Índices de vegetación

NDRE19 NDRE19

Bandas espectrales

NIR19 NIR19

NDRE53 NDRE53 NIR53 NIR53

NDRE63 NDRE61 NIR63 NIR63

NDVI19 NDVI19 REDGE19 REDGE19

NDVI53 NDVI53 REDGE53 REDGE53

NDVI63 NDVI63 REDGE63 REDGE61

Parámetros del suelo y el cultivo

Mediciones del cultivo

RCC63 RCC61

Propiedades químicas

Mg Mg

LAI19 LAI19 Mn Mn

Física de suelos

PWP PWP SatNa SatNa

AD AD Mg/K Mg/K

MicroP MicroP Ca/B Ca/B

Sand Sand

Penetrometría

RP RP

Propiedades químicas

pH pH PD PD

9.3.4. Interpolación

La Tabla 28 se muestran los modelos y métodos de ajuste para los semivariogramas para la interpolación por el

método de kriging. El R2 se encuentra entre 0.16 a 0.91 en la primera campaña, esto es congruente con el índice

de Moran, ya que la dependencia espacial influye en la interpolación por kriging, como es el caso del rendimiento

donde el índice de Moran es 0.28 y por ende la validación de la interpolación se encuentra en 0.16. Las variables

LAI19, PWP, MicroP, Sand, SatNa, Mg/K, RP y PD de la primera campaña presentaron un p-valor menor a 0.05,

por esta razón, se realizó la transformación de normalidad por el método de boxcox, en la segunda campaña,

este procedimiento se realizó a RCC61, LAI19, PWP, pH, Mg, Mn, SatNa, Mg/K y Yield. Los mapas interpolados

se encuentran en Figura 48 y Figura 49.

Tabla 28. Interpolación de variables del suelo y el cultivo para la primera campaña de maíz.

Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-

wilks

RCC63 Esférico WLS-npairs

3.48 56.76 29.15 0.36424 p-value

= 2e-04 0.08 0.31

W = 0.97264, p-value = 0.118

LAI19 Exponencial WLS-

Cressie 0.05 38.46 0.41

0.4556 p-value = 2e-04

0.10 0.42 W = 0.89851, p-

value = 2.669e-05

PWP Exponencial OLS 0.0002 40.02 0.0012 0.52429 p-value

= 2e-04 0.05 0.53

W = 0.96274, p-value = 0.0316

AD Exponencial OLS 0.0 44.59 0.02 0.49573 p-value

= 2e-04 0.99 0.51

W = 0.9703, p-value = 0.08635

MicroP Exponencial ML 0.2e-05 40 1.5e-05 0.4393 p-value =

2e-04 0.05 0.41

W = 0.95103, p-value = 0.007087

Sand Gaussiano OLS 11721.38 69.19 104542.06 0.82081 p-value

= 2e-04 3.20 0.91

W = 0.92462, p-value = 0.0003462

pH Esférico WLS-npairs

0.01 104.05 0.024 0.42406 p-value

= 2e-04 0.11 0.44

W = 0.98983, p-value = 0.8343

Mg Exponencial WLS-npairs

0.01 67.27 0.08 0.72027 p-value

= 2e-04 0.07 0.76

W = 0.98249, p-value = 0.4157

Mn Esférico OLS 0.54 97.60 1.96 0.37154 p-value

= 2e-04 0.05 0.35

W = 0.97421, p-value = 0.1454

SatNa Exponencial WLS-npairs

0.03 38.61 0.25 0.43281 p-value

= 2e-04 0.08 0.40

W = 0.7342, p-value = 4.193e-

10

Mg/K Exponencial WLS-npairs

0.00 31.27 0.03 0.4919 p-value =

2e-04 0.08 0.49

W = 0.91109, p-value = 8.766e-05

Ca/B Exponencial REML 0.53 21.28 4.29 0.4423 p-value =

2e-04 0.14 0.40

W = 0.97728, p-value = 0.2176

RP Gaussiano REML 28.06 18.71 227.52 0.48688 p-value

= 2e-04 2.37 0.40

W = 0.95255, p-value = 0.008549

PD Gaussiano WLS-npairs

1e-6 45 11e-6 0.56235 p-value

= 2e-04 0.01 0.56

W = 0.92243, p-value = 0.0002753

Yield Exponencial OLS 504767.85 26.28 3956288.55 0.28668 p-value

= 0.0005999 18.83 0.16

W = 0.98772, p-value = 0.7124

Co: nugget, Co+C: Sill

Figura 48. Mapas interpolados de la primera campaña de maíz.

Tabla 29. Interpolación de variables del suelo y el cultivo para la segunda campaña de maíz.

Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks

RCC61 Exponencial OLS 1e-05 50 6e-05 0.59911 p-value = 2e-04

0.16 0.57 W = 0.96494, p-value = 0.04226

LAI19 Exponencial OLS 0.03 42.16 0.25 0.56488 p-value = 2e-04

0.41 0.64 W = 0.96743, p-value = 0.05878

PWP Esférico ML 0.0001 60 0.001 0.26466 p-value = 0.0007998

0.09 0.32 W = 0.92728, p-value = 0.0004595

AD Exponencial WLS - npairs

0.0 30.27 0.022 0.33173 p-value = 2e-04

0.018 0.22 W = 0.98936, p-value = 0.8084

MicroP Gaussiano REML 9.28 51.11 14.99 0.29927 p-value = 0.0005

0.064 0.31 W = 0.97123, p-value = 0.09773

pH Exponencial OLS 72.31 18.43 625.41 0.18973 p-value = 0.0099

0.17 0.12 W = 0.95553, p-value = 0.01245

Mg Esférico WLS - npairs

0.02 64.86 0.15 0.17727 p-value = 0.0144

0.05 0.13 W = 0.96533, p-value = 0.04449

Mn Exponencial REML 0.01 18.92 0.14 0.1019 p-value = 0.0977

0.03 0.01 W = 0.93695, p-value = 0.001335

SatNa Exponencial OLS 0.04 35.90 0.36 0.17632 p-value = 0.0134

0.19 0.10 W = 0.79607, p-value = 1.347e-08

Mg/K Exponencial WLS - cressie

0.05 21.02 0.44 0.31684 p-value = 2e-04

0.10 0.25 W = 0.93561, p-value = 0.001147

Ca/B Exponencial REML 0.32 21.62 2.89 0.27839 p-value = 2e-04

0.02 0.19 W = 0.9708, p-value = 0.09222

RP Gaussiano WLS - cressie

2.34 51.85 20.25 0.58262 p-value = 2e-04

0.05 0.61 W = 0.91308, p-value = 0.0001066

PD Esférico OLS 1.00 64.86 7.56 0.51558 p-value = 2e-04

0.46 0.53 W = 0.96033, p-value = 0.02306

Yield Gaussiano ML 0.01 36.49 0.11 0.51866 p-value = 2e-04

0.10 0.70 W = 0.94312, p-value = 0.002725

Co: nugget, Co+C: Sill

Figura 49. Mapas interpolados de las variables de la segunda campaña.

9.3.5. Modelo de predicción de rendimiento

El modelo de predicción de rendimiento con los algoritmos de regresión presenta resultados altos de R2 con la

base de datos ALL, entre 0.93 a 0.99 y para la base de datos SOIL el rango se encuentra de 0.96 a 0.99 en el

siguiente orden: SVR, RF, KNN y MLP. Mientras tanto, el máximo valore de R2 para la base de datos MI, es de

0.57 con el algoritmo RF. Al igual que en los cultivos de arroz y algodón, el algoritmo LASSO no se desempeñó

bien en esta aplicación, ya que sus resultados varían de 0.308 a 0.541.

Figura 50. Validación de los algoritmos de regresión para la predicción del rendimiento de maíz. a) Resultados del

coeficiente de determinación R2. b) Resultados de la raíz del error medio cuadrático.

Figura 51. Rendimiento de maíz real, contra predicho por los algoritmos de regresión en las diferentes bases de datos.

Los resultados del modelo de clasificación muestran que, el conjunto de algoritmos RF, KNN, GBR, y SVM

lograron buenos resultados, de un rango de exactitud entre 0.893 a 0.973 con las bases de datos ALL y SOIL.

Entre ellos sobre salta el algoritmo SVM con la base de datos SOIL, el cual como se observa en la Figura 52b,

en las clases bajo (0) se clasificaron correctamente 1116 muestras de 1142, en la clase medio (1) se clasificó

1234 de 1268 muestras, y en la clase alto (2) se clasificaron correctamente 568 de 590. Mientras tanto, el mismo

conjunto de algoritmos alcanza un rango de exactitud entre 0.696 a 0.730. En la Figura 52c, se muestra los

resultados de clasificación donde se logra clasificación 904 de un total de 1142 para la clase bajo, 973 de 1268

para la clase medio y en la clase alto 312 de 590.

Figura 52. Validación de los modelos clasificación para la predicción del rendimiento de maíz. a) Resultados de exactitud. b)

Matriz de confusión del algoritmo support vector machine (SVM) con la base de datos del suelo y el cultivo (SOIL). c) Matriz

de confusión del algoritmo Random forest (RF) con la base de datos de imágenes multiespectrales (MI).

Figura 53. Variables de importancia de los modelos de regresión (columna izquierda) y clasificación (columna derecha). a) y

b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.

Las variables de importancia de los modelos de regresión y clasificación (Figura 53) arrojaron resultados similares

a los cultivos de arroz y algodón. En este caso entre las propiedades del suelo y el cultivo relevantes fueron

RCC63, RP, Mn, PD, pH tanto en rendimiento como clasificación, pero los MicroP, fueron una variable adicional

de importancia para los modelos de clasificación. En los modelos generados con las imágenes multiespectrales

se destaca la imagen REDGE en el estado fenológico 63, seguido de NDRE y NDVI. También se observa que las

imágenes tomadas en los estados fenológicos de crecimiento 53 y 63 tuvieron mayor peso que las mediciones

realizadas en el estado 19.

9.3.6. Modelo de identificación de zonas homogéneas

9.3.6.1. Análisis de componentes principales espaciales

En el análisis de componentes principales espaciales (CPE) se obtuvieron tres componentes que en total suman

el 79.4%de la varianza total, donde cada componente aporta de la siguiente manera: CS1 = 35.9%, CS2=26.4 y

CS3=17.1%. Luego se realizó la interpolación a 5000, donde se obtuvieron modelos gaussianos y esférico con el

método OLS de ajuste. El R2 de la interpolación varió entre 0.78 y 0.88, gracias a que el CPE presenta alta

dependencia espacial, se pueden lograr resultados altos en la interpolación con kriging.

Tabla 15. Interpolación de los componentes principales espaciales seleccionados.

Variable Modelo Método Co Rango Co+C Índice de

Moran RMSE R2

Prueba Shapiro-wilks

CS1 Gaussiano OLS 0.29 46.33 2.63 0.79965 p-value = 2e-04

0.36 0.88 W = 0.97228, p-value = 0.1125

CS2 Gaussiano OLS 0.51 64.32 4.71 0.77633 p-value = 2e-04

0.01 0.84 W = 0.97006, p-value = 0.08355

CS3 Esférico OLS 0.37 165.54 3.22 0.73728 p-value = 2e-04

0.43 0.78 W = 0.95116, p-value = 0.007197

CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill

9.3.6.2. Modelos de Clustering

La Figura 54 muestra las zonas homogéneas generadas por los algoritmos FCM, KMS y MQY para las bases de

datos ALL, CPE, MI y SOIL. También se obtuvieron las zonas para el rendimiento de maíz. A partir de los

resultados se observa gran similitud para las zonas generadas por FCM y KMS con las bases de datos SOIL y

ALL, sin embargo, con el algoritmo MQY las zonas tienen un patrón diferente. Las zonas generadas con el

rendimiento se muestran un poco dispersas, especialmente al dividir en cuatro zonas. Algo semejante ocurre con

las zonas generadas con la base de datos MI, los algoritmos FCM y KMS formaron zonas mejor definidas que

con los anteriores cultivos.

El algoritmo MQY con la base de datos MI, agrupó la mayoría de muestras a una sola zona, la zona 1, y algunas

muestras a las zonas restantes, esto puede deberse a que, al hacer el agrupamiento jerárquico, no se llega a

encontrar una función distancia amplia entre grupos para poder dividirlos, y agrupa la mayoría de muestras a un

solo grupo. Es por esto que, al desarrollar el posterior submuestreo estratificado, no se cuenta con las muestras

suficientes para realizarlo, por ende, los resultados de ANOVA y comparación de medias de Tukey es inexistente.

Pero, con esto no ocurre con las demás bases de datos.

Figura 54. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las

imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales

espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento; FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty.

9.3.6.3. Validación

En las tablas 30-34 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se

utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes

principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-

Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:

Índice de reducción de varianza (%).

Tabla 30. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 0.0071 0.9328 1.5817 0.2071 1.2462 0.2928

KMS 0.0006 0.9809 2.3451 0.0973 1.1175 0.3419

MQY 1.4652 0.2269 1.2054 0.3008 1.0173 0.3850

CPE

FCM 6.8128 0.0094 3.8718 0.0217 2.4059 0.0671

KMS 5.0882 0.0247 5.4885 0.0045 2.3422 0.0730

MQY 9.0160 0.0029 4.8454 0.0084 3.6084 0.0136

MI

FCM 1.3856 0.2399 0.1126 0.8935 0.8432 0.4710

KMS 1.3856 0.2399 1.0357 0.3560 1.0878 0.3543

MQY - - 1.6957 0.1937 0.5459 0.4605

SOIL

FCM 0.007 0.933 1.582 0.207 1.246 0.293

KMS 0.001 0.981 2.345 0.097 1.118 0.342

MQY 0.470 0.494 0.284 0.753 0.548 0.650

Tabla 31. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

F-valor p-valor F-valor p-valor F-valor p-valor

ALL

FCM 0.0011 0.9732 1.4626 0.233 1.0429 0.3736

KMS 0.9947 0.3193 1.6 0.2033 1.1577 0.3259

MQY 0.8645 0.3531 1.3334 0.2649 0.9121 0.4352

CPE

FCM 5.4045 0.0206 5.3517 0.0051 4.4694 0.0043

KMS 4.444 0.0357 3.8524 0.0221 4.5869 0.0036

MQY 7.0023 0.0085 4.3 0.0143 4.9826 0.0021

MI

FCM 2.744 0.0985 1.2199 0.2965 2.8488 0.0375

KMS 2.744 0.0985 7.4309 7e-04 2.6287 0.0501

MQY - - 0.3049 0.5812 - -

SOIL

FCM 0.001 0.973 1.463 0.233 1.043 0.374

KMS 0.995 0.319 1.600 0.203 1.158 0.326

MQY 0.842 0.359 0.489 0.614 0.671 0.571

Tabla 32. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 6960.8 a 6906.0 a -0.2 7418.5 a 6561.9 a 6126.5 a 3.2 7239.2 a 6369.5 a 7152.8 a 5892.9 a 6.7

KMS 6967.0 a 6952.0 a -0.2 7461.7 a 6623.6 a 5858.0 a 7.0 7336.8 a 6365.0 a 7004.1 a 5988.6 a 9.3

MQY 7055.7 a 6291.4 a 0.0 7364.7 a 6408.8 a 6469.7 a 7.6 7375.0 a 6414.3 a 6583.5 a 5980.6 a 9.0

CPE

FCM 7456.7 b 5933.2 a 23.2 5730.4 a 6439.9 ab 7921.1 b 27.6 5692.5 a 6765.0 a 5938.6 a 7725.0 a 35.2

KMS 5771.5 a 7199.5 b 1.0 5754.4 a 6097.6 a 8072.6 b 37.4 5826.5 a 7015.1 a 5789.6 a 7600.7 a 32.2

MQY 5934.2 a 7643.8 b 23.3 5842.8 a 5767.9 a 7567.3 b 27.7 5851.3 a 5910.4 a 6626.0 ab 7999.6 b 28.9

MI

FCM 6375.4 a 7047.4 a 0.1 6719.5 a 6790.6 a 6972.3 a -0.1 6533.7 a 6064.0 a 6687.2 a 7362.6 a 16.2

KMS 6375.4 a 7047.4 a 0.1 7184.8 a 6770.3 a 6319.6 a 20.7 6305.3 a 5944.8 a 6718.0 a 7266.8 a 13.6

MQY - - - - - 7017.5 a 5899.3 a - - 7004.3 a 6392.1 a - - - - -

SOIL

FCM 6960.8 a 6906.0 a -0.2 7418.5 a 6561.9 a 6126.5 a 3.2 7239.2 a 6369.5 a 7152.8 a 5892.9 a 6.7

KMS 6967.0 a 6952.0 a -0.2 7461.7 a 6623.6 a 5858.0 a 7.0 7336.8 a 6365.0 a 7004.1 a 5988.6 a 9.3

MQY 7049.4 a 6564.3 a 0.1 6550.8 a 7010.7 a 6678.9 a -0.3 6586.7 a 7375.1 a 6910.1 a 6422.1 a 6.4

Tabla 33. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.

DB Method 2 zones 3 zones 4 zones

Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR

ALL

FCM 7080.9 a 7101.1 a 0.93 7390.1 a 6495.9 a 6310.8 a 4.5 7273.3 a 6207.0 a 7021.9 a 6156.1 a 6.4

KMS 6986.2 a 6395.3 a 0.54 7445.8 a 6446.6 a 6460.4 a 3.0 7306.0 a 6347.7 a 6413.9 a 5982.2 a 8.2

MQY 7104.1 a 6536.4 a -0.04 7338.9 a 6416.4 a 6366.5 a 6.9 7332.3 a 6418.7 a 6554.1 a 6087.1 a 7.6

CPE

FCM 7449.0 b 6075.7 a 29.4 5960.4 a 6275.8 a 8104.4 b 29.6 5874.8 a 5916.9 a 6890.6 ab 8329.8 b 24.7

KMS 5786.0 a 7102.1 b 1.1 5852.4 a 6416.1 ab 7899.1 b 27.7 5898.8 a 5944.3 a 6666.3 ab 8309.3 b 33.2

MQY 5999.3 a 7651.5 b 21.4 5835.8 ab 5832.1 a 7514.6 b 23.7 5755.1 a 5924.5 a 6726.7 ab 8316.9 b 26.3

MI

FCM 5942.8 a 7053.7 a -0.05 6570.4 a 6362.0 a 7272.6 a 3.6 6435.5 a 5762.6 a 6385.2 a 8005.1 a 23.9

KMS 5942.8 a 7053.7 a -0.05 5942.6 a 5863.7 a 8009.0 b 38.6 6527.2 a 6497.0 a - a 8077.5 a -

MQY - - - - - 6970.6 a 7538.5 a - - - - - - - - - - - -

SOIL

FCM 7080.9 a 7101.1 a 0.9 7390.1 a 6495.9 a 6310.8 a 4.5 7273.3 a 6207.0 a 7021.9 a 6156.1 a 6.4

KMS 6986.2 a 6395.3 a 0.5 7445.8 a 6446.6 a 6460.4 a 3.0 7306.0 a 6347.7 a 6413.9 a 5982.2 a 8.2

MQY 7108.5 a 6461.7 a -0.1 7023.5 a 7238.7 a 6401.8 a 0.6 7300.5 a 6757.0 a 6251.0 a 6471.3 a 3.2

Tabla 34. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para tres zonas con suavizado en la base de datos de imágenes

multiespectrales (MI).

Var NDRE19 NDRE53 NDRE61 NDVI19 NDVI53 NDVI61

p-value

Var NIR19 NIR53 NIR61 REDGE19 REDGE53 REDGE61

p-value * * *

Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.

El ANOVA (Tabla 30) muestra que, solamente la base de datos CPE presenta diferencias significativas en la

división de las zonas dos, tres y cuatro sin suavizamiento, conformados por los algoritmos FCM, KMS y MQY,

excepto por el algoritmo KMS en la división de cuatro zonas. Las divisiones de las zonas utilizando las demás

bases de datos, muestran su valor de significancia superior a 0.05. En los resultados de ANOVA de las zonas

con suavizado, los resultados son muy similares, en este caso, la división de las zonas en cuatro, presenta

diferencia significativa, igualmente ocurre para la base de datos MI, con el algoritmo KMS.

La base de datos CPE también muestra buenos resultados en cuanto al VR, en dos zonas con FCM obtuvo 23.2%

y con MQY 23.3%, en tres zonas con KMS obtuvo 37.4% y MQY 27.7%, y con cuatro zonas el algoritmo FCM y

KMS tuvieron 35.2% y 32.2% (Tabla 32). Al aplicar el suavizado Tabla 33, los mejores resultados fueron obtenidos

con la base de datos CPE de la siguiente manera: dos zonas FCM con VR de 29.4%, mejoró en comparación a

los resultados de VR de las zonas sin suavizado, mientras tanto, MQY con disminuyó su porcentaje de VR a 21.4,

esto sugiere que, al aplicar el filtro de suavizado, la varianza obtenida en las zonas disminuyó.

En el caso de tres zonas, lo valores más altos de VR fue logrado por la base de datos MI con el algoritmo KMS,

donde se obtuvo un valor de 38.6, seguido de 29.6 logrado por FCM en la base de datos CPE. Para cuatro zonas,

los algoritmos KMS y MQY mostraron buen desempeño con la base de datos CPE, ya que la separación de las

zonas generada, logró mantener la varianza un 33.2% y 26.3% de la varianza total. El mayor VR obtenido fue con

la base de datos MI y el algoritmo KMS, además presenta diferencia significativa y después de la aplicación del

filtro de suavizado, las zonas están muy buen conformadas. Según la comparación de medias cada zona contaría

con Z1= 5942.6 Kg/ha, Z2= 5863.7 Kg/ha y Z3= 8009 Kg/ha.

9.4. Zonas de manejo

Mediante el uso de las zonas de manejo se busca hacer un tratamiento diferencia de los cultivos, al ser un sistema

rotacional, se esperaba obtener solamente un mapa de zonas para los tres cultivos (arroz, algodón y maíz). Sin

embargo, los resultados muestran que de esta forma no es posible, ya que existen factores como el clima,

malezas, enfermedades y tratamiento del cultivo que impide lograrlo. Es por esto que cada cultivo cuenta con un

mapa de zonas, para poder realizar un manejo diferencial por zonas.

El cultivo de arroz y de maíz, cuenta con tres zonas como se observa en la Figura 55,mientras que el cultivo de

algodón presenta cuatro zonas. La diferencia del patrón de distribución de las zonas puede deberse a que, las

zonas van cambiando en el tiempo, por ello al definir un mapa para cada cultivo se logra obtener más dinamismo

en el proceso, así mismo se puede conocer las variables que influyen mediante el uso del modelo de predicción

de rendimiento, que en esta aplicación se obtuvo mejores resultados con los algoritmos de clasificación RF, KNN,

GBR, y SVM.

Figura 55. Mapa de zonas de manejo para el cultivo de arroz, algodón y maíz (de izquierda a derecha).

10. DISCUSIÓN

Este estudio contó con la información medida entre 43 a 63 días después de emergido, que corresponde al estado

de floración (60, 61, y 62 según código BBCH) de una campaña del cultivo de algodón, dos campañas del cultivo

de arroz entre 52 y 63 días después de emergido, que corresponde a los estados de embuchamiento (41) y

floración (65), y dos campañas del cultivo de maíz en los días después de emergido entre 32 y 63, que acapara

los estados de desarrollo de hojas (19), aparición del órgano floral (53), y floración (61,63) para predecir el

rendimiento en etapas tempranas, sin embargo, existen perturbaciones generados por diferentes factores entre

el momento de la medición y la cosecha que pudiera influir en el modelo. Esto sugiere que es necesario contar

con más campañas, para generar un modelo más robusto y que esas perturbaciones no influyan, ya que puede

existir alta variabilidad de una campaña a otra, de igual forma tanto los modelos de predicción de rendimiento

como los modelos de zonas homogéneas se convierten en una herramienta que ayuda a mejorar la producción.

Como se menciona anteriormente, la información fue obtenida de los cultivos arroz, maíz y algodón entre los 30

a 63 días después de emergido (DDE), sin embargo, muchos estudios han tomado información a partir de los 60

a 180 DDE, como en la investigación de Ballester et al. [23] donde se tomó la información en el cultivo de algodón,

a partir de los 62 DDE, no obstante, las variables medidas a los 83 DDE resultaron ser mejores predictores. En

el estudio en el cultivo de maíz de Kayad et al. [47] la información se tomó a partir de los 80 DDE donde la

correlación era baja, pero alcanzó un valor más alto de R2 a los 137 DDE.

Entre las mediciones obtenidas, se muestra que en el cultivo de arroz destacan los índices de vegetación GNDVI,

GVI y NDRE en las dos fechas establecidas, en el cultivo de algodón muestran correlación con el rendimiento

NDVI, OSAVI y SAVI en el estado 65, además de los índices de color EXG y GLI en el estado 61, y en el cultivo

de maíz mostraron correlación todos los índices de vegetación estudiados en las diferentes fechas estudiadas.

En la investigación de Zhou et al. [59] para el cultivo de arroz, los mejores índices fueron los basados en la banda

RED-EDGE como el índice de vegetación NDRE. En Kayad et al. [47] donde se estudió el cultivo de maíz, el

GNDVI fue el que obtuvo mejor correlación con el rendimiento. Y en el estudio de Ballester et al. [23] sobre un

cultivo de algodón, los mejores índices fueron NDRE, SCCCI y NDVI, cabe aclarar que las condiciones sobre

cada cultivo son diferentes y los resultados pueden variar de una investigación a otra.

Los resultados de los modelos de aprendizaje de máquina en la predicción de rendimiento, muestran gran

desempeño cuando se utiliza como descriptores la base de datos con los parámetros del suelo y el cultivo,

independientemente si se trata del cultivo de arroz, algodón o maíz. En cuanto al uso de imágenes

multiespectrales como descriptores en la predicción de rendimiento, los resultados muestran que se requiere más

información de otras campañas para tener un mejor rendimiento de los modelos, la mayoría de estudios usa

información de tres años en el caso de Kayad et al. [47], dos años en el estudio de Schwalbert et al. [63] y dos

años en el estudio de Ballester et al. [23], al igual que Fu et al. [56].

Los algoritmos de regresión random forest, k-nearest neighbor, multilayer perceptron y support vector machine

generaron valores altos de R2, esto implica que no solamente un solo algoritmo es el mejor para realizar la

predicción de rendimiento, resultados similares fueron encontrados en la investigación de Khanal et al. [13]. Por

otra parte, el algoritmo LASSO no superó el R2 de 0.4 en arroz y algodón, y el 0.6 en el cultivo de maíz. Esto

puede deberse a que el rendimiento es una medición no paramétrica, pero el algoritmo LASSO es un modelo

paramétrico, por ende, es posible que no se ajuste los datos al modelo. Estos resultados concuerdan con lo

reportado por Khanal et al. [13], donde los modelos basados en aprendizaje de máquina son superiores a los

modelos basados en regresión lineal.

En la predicción de rendimiento también se utilizó el método de clasificación, ya que en el campo realizar la

predicción de un rango de rendimiento es más práctico. Los resultados demostraron que al igual que el método

de regresión, no sólo un algoritmo fue el mejor para realizar la clasificación, ya que los algoritmos random forest,

k-nearest neighbor, gradient boosting y support vector machine mostraron resultados favorables. Los modelos

obtenidos por gaussian naïve bayes, los bajos resultados pueden deberse a una falta de calibración de los

hiperparámetros para ajustar los valores de las probabilidades de este algoritmo, con esto, bien podría mejorar el

desempeño de este algoritmo en la predicción de rendimiento.

En este caso en los modelos de predicción de rendimiento se utilizaron las dos campañas para tomar

aleatoriamente un porcentaje de entrenamiento y otro de validación para los cultivos de arroz y maíz. Al intentar

predecir usando solamente una campaña, los modelos no se ajustaron, esto puede deberse a que se tomaron

variables tanto en la primera como la segunda campaña, aunque en la misma campaña las variables no tuvieran

buenos resultados de correlación con el rendimiento. Algunas variables no fueron significativas, pero igual fueron

seleccionadas para mantener una uniformidad tanto en la primera como la segunda campaña. En el caso del

arroz, en la primera campaña ocurrió un vendaval días antes de la cosecha, lo que implicó tener menor

rendimiento de lo esperado y pudo ocasionar errores en la predicción de rendimiento.

Los estudios para generar modelos en la delimitación de zonas homogéneas han usado tanto las variables

originales, como los componentes principales espaciales (Damian et al. [52], Gili et atl. [64]). En el presente

estudio se tomaron ambas opciones para realizar una comparación entre los resultados obtenidos al realizar la

identificación de zonas con cada uno de ellos. Al tomar las variables originales de las propiedades físicoquímicas,

la medición de la cantidad de clorofila relativa del cultivo y las imágenes multiespectrales en una sola base de

datos, se observó que las propiedades físicoquímicas obtuvieron mayor importancia en la delimitación de zonas.

Aunque, los componentes principales espaciales lograron mejores resultados del índice de reducción de varianza

de todas las bases de datos, esto puede deberse a la interpolación por el método de kriging y el método de

Multispati-pca (Gavioli et al. [26]) y la consideración que presentan los métodos sobre la dependencia espacial.

Los modelos de zonas homogéneas fueron evaluados según el índice de reducción de varianza, ya que era

necesario obtener una división del área en grupos estadísticamente diferentes. El mejor algoritmo en la

delimitación de zonas fue K-means. En el estudio presentado por Gavioli et al [26] el algoritmo McQuitty presentó

mejor rendimiento con los valores más altos del índice de reducción de varianza con zonas correctamente

delimitadas, contrario a este estudio, donde también se obtuvo valores altos en el índice de reducción de varianza

en los resultados de McQuitty, sin embargo, los mapas de zonas mostraron grupos más dispersos. También se

encontró que al usar las imágenes multiespectrales el algoritmo McQuitty agrupaba solamente una muestra como

una zona.

Las imágenes multiespectrales demostraron gran dispersión al generar los mapas de zonas homogéneas, sin

embargo, estudios han recomendado su uso para realizar el manejo de insumos y monitoreo del estado del cultivo

mediante imágenes satelitales como en el estudio de Damian et al. [52], o mediante imágenes tomadas a partir

de UAVs como en el estudio de Ohana et al. [14]. En el presente estudio, al aplicar el filtro de suavizado a los

mapas de zonas homogéneas generados por imágenes multiespectrales solamente, la delimitación de zonas

mejoró, como en el caso del cultivo de maíz, al realizar este procedimiento, se pudo dividir el área en tres zonas

estadísticamente diferentes, siendo la mejor opción para ser asignado como el mapa de zonas de manejo en el

cultivo de maíz.

Con base a los resultados de los modelos de zonas homogéneas se determinó que no es posible obtener un

modelo único para el sistema de rotación arroz, maíz-algodón, en este caso, fue necesario generar un modelo

para cada cultivo, ya que existieron mediciones correlacionadas con el rendimiento que variaron de un cultivo a

otro, incluso entre campañas de un mismo cultivo. En el cultivo de arroz, el modelo obtenido se logró utilizando

la información de los componentes principales espaciales y el modelo de agrupamiento k-means, al igual que en

el cultivo de algodón, en el cultivo de maíz se utilizó la información de las imágenes multiespectrales con el

algoritmo k-means para generar el modelo de zonas homogéneas. Se debe agregar que, los mejores resultados

se obtuvieron al aplicar un filtro de suavizado para delimitar mejor las zonas como lo sugiere el estudio de Córdoba

et al. [65].

Los mapas de zonas homogéneas permiten obtener zonas con diferentes rendimientos para hacer un manejo

diferencial. En el cultivo del arroz, la zona 1 cuenta con una media de rendimiento de 9674.5 ±125 Kg/ha, la zona

2 cuenta con 9120 ± 139 Kg/ha y la zona 3 tiene, 8554.9 ± 139.8 Kg/ha. En el cultivo de algodón la zona 1 la

media se encontró en 2359.3 ± 54.4 Kg/ha, la zona 2, 2191 ± 52 Kg/ha, la zona 3, 2042.2 ± 85.7 Kg/ha y la zona

4 2441.5 ± 74.3 Kg/Ha. El cultivo de maíz presentó tres zonas, con la media de rendimiento para la zona 1, 2 y 3

como sigue, 5942.5 ± 613.2 Kg/ha, 5863.682 ± 426.9 Kg/ha y 8009.0 ± 424 Kg/ha.

Es importante resaltar que la metodología propuesta por el lazo de control, permite obtener un monitoreo y manejo

más dinámico para mejorar la producción de los cultivos de arroz, maíz y algodón. Esta metodología se encuentra

bien orientada, y esto se puede afirmar gracias a los resultados obtenidos, si bien hace falta incorporar más

información, el desempeño logrado hasta el momento sugiere que es un camino para obtener buenos resultados

y que no se ha estudiado con anterioridad. El lazo de control cuenta con un mapa de zonas homogéneas que

determina las regiones alto, medio y bajo, además de un modelo de predicción de rendimiento con información

hasta la mitad del ciclo del cultivo, y en esta fecha poder tomar medidas correctivas de ser necesario.

11. CONCLUSIONES

En este estudio diferentes modelos de aprendizaje de máquinas fueron desarrollados para para determinar zonas

de manejo y predecir el rendimiento en el sistema de producción arroz, maiz-algodón. La información fue adquirida

en un lote comercial de 5 ha ubicado en el centro de investigaciones Nataima de Agrosavia. De este lote, fueron

obtenidas variables fisicoquímicas del suelo y plantas e índices de vegetación tomadas hasta el estado de

florecimiento, alrededor de los 60 días después de emergencia de las plantas. Las variables fueron analizadas

para conocer su correlación con el rendimiento, dependencia espacial y la correlación entre las variables.

En la predicción de rendimiento se emplearon los algoritmos de clasificación random forest, k-nearest neighbor,

gradient boosting, y support vector machine, utilizando la información de las propiedades fisicoquímicas del suelo

y las mediciones del cultivo, los modelos obtuvieron resultados de R2 entre 0.89 a 0.97 en el cultivo de arroz, en

algodón entre 0.88 a 0.92 y para el cultivo de maíz entre 0.88 a 0.97. También se emplearon algoritmos de

regresión en la predicción de rendimiento, los mejores fueron random forest, k-nearest neighbor, multilayer

perceptron, y support vector machine con la base de datos de los parámetros del suelo y el cultivo con R2 0.96 a

0.99 para el cultivo de arroz, en el cultivo de algodón con un R2 entre 0.70 a 0.92 y en el cultivo de maíz obtuvo

un R2 entre 0.96 a 0.99. Para esta aplicación se resalta que los algoritmos no paramétricos permiten generar

modelos de predicción altamente efectivos.

Es importante anotar, que en esta investigación se tomaron imágenes multiespectrales del estado fenológico de

crecimiento 19 a 63, hasta el momento es uno de los pocos estudios conocidos que toma la información en etapas

tempranas del cultivo, logrando resultados favorables. Las mediciones en la etapa de florecimiento mostraron ser

las variables con mayor peso en los modelos generados con las imágenes multiespectrales, y la banda

multiespectral de borde infrarrojo (red-edge) fue un buen descriptor en las imágenes multiespectrales para los

modelos de predicción de rendimiento.

Los modelos de zonas homogéneas demuestran que el algoritmo de K-means, presentan alta homogeneidad

interna y permite lograr zonas bien delineadas. La base de datos de componentes principales espaciales, logró

delimitar las zonas de tal manera que representara mejor la distribución del rendimiento. Además, las bases de

datos de todas las variables, parámetros del suelo y el cultivo y componentes principales espaciales generaron

zonas bien delimitadas, en comparación a las zonas obtenidas por las imágenes multiespectrales, indiferente del

algoritmo de agrupamiento, esto sugiere que con la aplicación de la interpolación por el método de kriging y el

análisis de componentes principales se logró obtener mapas de zonas homogéneas mejor delimitadas, debido a

la dependencia espacial implícita en los métodos.

Los resultados de identificación de zonas homogéneas generados por el algoritmo K-means demuestra una

división del área en zonas significativamente distintas según los resultados de ANOVA y comparación de medias

de Tukey, además el índice de reducción de varianza (VR), para la delimitación de zonas generada por este

algoritmo se encontró entre los más altos luego de realizar un suavizamiento a las zonas. En el cultivo de arroz

se seleccionó la división en tres zonas, la base de datos utilizada fue CPE y el VR fue de 51, en el cultivo de

algodón se dividió el área en cuatro zonas, la base de datos utilizada fue CPE y el VR fue de 35.7. Finalmente,

en el cultivo de maíz, el área fue dividida en tres zonas, la base de datos utilizada fue MI y el VR fue de 38.6.

Las zonas de manejo fueron seleccionadas acorde a los mejores mapas de zonas homogéneas, en donde no se

pueden establecer zonas de manejo estáticas en los cultivos del ciclo de producción arroz, maíz-algodón, debido

a que estos se ven afectados por factores externos como clima, enfermedades, etc. En consecuencia, estas

zonas se deben establecer inicialmente con los parámetros del suelo, y luego mediante el uso de drones,

mediciones en el cultivo y predicciones de rendimiento, ajustar estas zonas de acuerdo al desarrollo real de las

plantas.

Finalmente, con los resultados obtenidos en este trabajo se puede mencionar que el enfoque sistémico de control

establecido inicialmente en la propuesta, es una estrategia prometedora para ser integrada a la metodología de

la agricultura de precisión, ya que las zonas de manejo dinámicas, definidas por condiciones del suelo y plantas

hasta la etapa de florecimiento, permiten hacer un tratamiento diferencial, por zonas y por cultivo, permitiendo así

tener unos mejores rendimientos en el sistema de producción arroz, maíz-algodón, con un bajo impacto ambiental

y reducción de costos de producción.

12. BIBLIOGRAFÍA Y FUENTES DE INFORMACIÓN

[1] J. C. Pozo, “Producing more food in a sustainable way is possible biotechnological and sustainable fertilisation as a way to face population growth,” vol. 11, 2020, doi: 10.7203/metode.11.15576.

[2] FAO, “Los suelos están en peligro, pero la degradación puede revertirse,” 04-05-2015, pp. 1–5, 2015. [3] J. Lindblom, C. Lundstro, and A. Jonsson, “Promoting sustainable intensification in precision agriculture :

review of decision support systems development and strategies,” pp. 309–331, 2017, doi: 10.1007/s11119-016-9491-4.

[4] FAO, “La contaminación de los suelos está contaminando nuestro futuro | FAO Stories | Organización de las Naciones Unidas para la Alimentación y la Agricultura,” La contaminacion de los suelos, 2018. .

[5] N. R. Peralta and J. L. Costa, “Delineation of management zones with soil apparent electrical conductivity to improve nutrient management,” Comput. Electron. Agric., vol. 99, pp. 218–226, 2013, doi: 10.1016/j.compag.2013.09.014.

[6] S. M. Say, M. Keskin, M. Sehri, and Y. E. Sekerli, “Adoption of precision agriculture technologies in developed and developing countries,” Online J. Sci. Technol., vol. 8, no. 1, pp. 7–15, 2018, doi: 10.1139/CJPS-2017-0342.

[7] Y. Huang and M. E. Brown, Advancing to the next generation of precision agriculture: Global trends, challenges and opportunities, no. April. 2018.

[8] A. Ochoa Duarte, L. Cangrejo, and A. Pachón, “Actualidad y tendencias de la agricultura de precisión,” no. December 2012, pp. 0–14, 2012.

[9] M. Xiolesmy and A. Rodríguez, “El uso de drones y su impacto en la responsabilidad social empresarial de la agricultura de precisión en colombia,” Universidad Militar Nueva Granada, 2017.

[10] A. Marcela Parody Zuleta and E. De Jesús Zapata Sanjuán, “Agricultura de precisión en colombia utilizando teledetección de alta resolución,” Suelos Ecuatoriales, vol. 48, pp. 41–49, 2018.

[11] FAO and ABC, “Dinámica regional del algodón, certificación y rotación de cultivos,” no. 4, 2018. [12] M. González B and A. M. Alonso, “Technologies for water saving in rice,” Nova, vol. 14, no. 26, pp. 63–78,

2016. [13] S. Khanal, J. Fulton, A. Klopfenstein, N. Douridas, and S. Shearer, “Integration of high resolution remotely

sensed data and machine learning techniques for spatial prediction of soil properties and corn yield,” Comput. Electron. Agric., vol. 153, no. April, pp. 213–225, 2018, doi: 10.1016/j.compag.2018.07.016.

[14] N. Ohana-Levi et al., “A weighted multivariate spatial clustering model to determine irrigation management zones,” Comput. Electron. Agric., vol. 162, no. May, pp. 719–731, 2019, doi: 10.1016/j.compag.2019.05.012.

[15] B. N. Serrato Panqueba and C. A. Castillo Medina, “Colombia land of opportunities to apply precision agriculture: an overview,” Int. J. Agric. Sci., vol. 3, pp. 11–19, 2018, [Online]. Available: http://iaras.org/iaras/journals/ijas.

[16] DANE;Fedearroz;, “Boletín técnico I semestre - Encuesta Nacional de Arroz Mecanizado,” Bogotá, 2019. [17] Gobernación del Tolima, “Plan departamental de extensión agropecuario P.D.E.A - Tolima competitiva,

prodcutiva e innovadora,” 2019. [18] FENALCE, “Departamento Económico Indicadores Cerealistas 2015 A,” Fed. Nac. Cultiv. Cereal. y Legum.

Dep. Econ., p. 77, 2015. [19] F. FEDEARROZ, “Informe de Gestión Fondo Nacional del Arroz,” Rev. Arroz, pp. 1–141, 2019. [20] O. Burbano-Figueroa and J. A. Sierra-Monroy, “Estrategias de control del picudo del algodón (Anthonomus

grandis Boheman) en el Caribe Colombiano: un modelo conceptual.,” no. September, 2019, doi: https://doi.org/10.31220/osf.io/db8nu.

[21] Minagricultura, “Dirección de cadenas agrícolas comerciales y forestales. Cadena algodón textil y confecciones.,” 2019.

[22] G. Ruß, “Spatial data mining in precision agriculture,” p. 251, 2012. [23] C. Ballester, J. Hornbuckle, J. Brinkhoff, J. Smith, and W. Quayle, “Assessment of in-season cotton nitrogen

status and lint yield prediction from unmanned aerial system imagery,” Remote Sens., vol. 9, no. 11, pp. 1–18, 2017, doi: 10.3390/rs9111149.

[24] H. Russello, “Convolutional Neural Networks for Crop Yield Prediction using Satellite Images,” 2018. [25] K. Zhang et al., “Predicting rice grain yield based on dynamic changes in vegetation indexes during early

to mid-growth stages,” Remote Sens., vol. 11, no. 4, 2019, doi: 10.3390/rs11040387. [26] A. Gavioli, E. G. de Souza, C. L. Bazzi, K. Schenatto, and N. M. Betzek, “Identification of management

zones in precision agriculture: An evaluation of alternative cluster analysis methods,” Biosyst. Eng., vol. 181, pp. 86–102, 2019, doi: 10.1016/j.biosystemseng.2019.02.019.

[27] Instituto Interamericano de Cooperación para la Agricultura (IICA), Agricultura de precisión: Integrando conocimientos para una agricultura moderna y sustentable. Montevideo, Uruguay, 2006.

[28] N. Zhang, M. Wang, and N. Wang, “Precision agriculture - A worldwide overview,” Comput. Electron. Agric., vol. 36, no. 2–3, pp. 113–132, 2002, doi: 10.1016/S0168-1699(02)00096-0.

[29] R. Bongiovanni, E. Chartuni, S. Best, and Á. Roel, Agricultura de Presición: Integrando conocimientos para una agricultura moderna y sustentable. Uruguay, 2006.

[30] R. Hernández-Clemente, R. M. Navarro-Cerrillo, F. Suárez, L., Morales, and P. J. Zarco-Tejada, “Assessing structural effects on PRI for stress detection in conifer forests,” Remote Sens. Environ., 2011.

[31] J. Cortés and P. Díaz-Vivancos, “Función del ascorbato en la protección de la fotosíntesis: (II) Los carotenoides y el ciclo de las Xantofilas,” Antioxidantsgroup, 2015. https://antioxidantsgroup.wordpress.com/2015/10/13/funcion-del-ascorbato-en-la-proteccion-de-la-fotosintesis-ii-los-carotenoides-y-el-ciclo-de-las-xantofilas/ (accessed Apr. 02, 2021).

[32] D. Arias, J. Calvo-Alvarado, and A. Dohrenbusch, “Calibration of LAI-2000 to estimate leaf area index (LAI) and assessment of its relationship with stand productivity in six native and introduced tree species in Costa Rica,” For. Ecol. Manage., vol. 247, no. 1–3, pp. 185–193, Aug. 2007, doi: 10.1016/j.foreco.2007.04.039.

[33] S. Laserna, “Capacidad de campo Suelo saturado Punto de marchitez Agua útil,” AgroEs.es, 2002. https://www.agroes.es/agricultura/el-suelo/147-capacidad-de-campo-del-suelo-agricultura (accessed Apr. 02, 2021).

[34] C. D. Fernández Camayo, “Caracterización física del suelo de la granja experimental de la universidad del valle,” Santiago de Cali, 2015. Accessed: Apr. 02, 2021. [Online]. Available: https://bibliotecadigital.univalle.edu.co/bitstream/handle/10893/15889/0527939.pdf?sequence=1&isAllowed=y.

[35] T. y A. Departamentos y oficinas de la FAO Clima, Biodiversidad, “Definiciones | Portal de Suelos de la FAO | Organización de las Naciones Unidas para la Alimentación y la Agricultura,” 2019, 2019. http://www.fao.org/soils-portal/soil-survey/propiedades-del-suelo/propiedades-fisicas/es/ (accessed Apr. 02, 2021).

[36] J. M. Rojas, “Densidad aparente: Comparación de métodos de determinación en Ensayo de rotaciones en siembra directa,” Argentina. Accessed: Apr. 02, 2021. [Online]. Available: www.inta.gov.ar/saenzpe.

[37] R. Bueno Buelvas and J. C. Fernández Lizarazo, “La capacidad de intercambio catiónico del suelo: una bóveda de nutrición clave en la producción de alimentos,” 2019. Accessed: Apr. 02, 2021. [Online]. Available: https://ciencia.lasalle.edu.co/ai.

[38] A. Moro González, “Relaciones catiónicas y su interpretación en los análisis de suelos oratorios,” AQM Laboratorios, 2015. http://aqmlaboratorios.com/relaciones-cationicas-analisis-de-suelos/ (accessed Apr. 02, 2021).

[39] Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT), “Resistencia a la penetración: Guía util para comparar las prácticas de manejo de cultivo,” México, 2013. Accessed: Apr. 02, 2021. [Online]. Available: https://repository.cimmyt.org/bitstream/handle/10883/4031/98830.pdf?sequence=1&isAllowed=y.

[40] P. D. Lancashire et al., “A uniform decimal code for growth stages of crops and weeds,” Ann. Appl. Biol., vol. 119, no. 3, pp. 561–601, 1991, doi: 10.1111/j.1744-7348.1991.tb04895.x.

[41] C. I. Jaramillo Barrios and A. F. Ortiz Rico, “Determinación de zonas homogéneas en un suelo de origen aluvial,” Universidad Santo Tomás, 2018.

[42] GIS Geography, “Semi-Variogram : Nugget , Range and Sill,” 2020. https://gisgeography.com/semi-variogram-nugget-range-sill/ (accessed Apr. 04, 2021).

[43] M. Córdoba, M. Balzarini, C. Bruno, and J. L. Costa, “Identificación de zonas de manejo sitio-específico a partir de la combinación de variables de suelo,” Corpoica Cienc. y Tecnol. Agropecu., vol. 13, no. 1, p. 47, 2012, doi: 10.21930/rcta.vol13_num1_art:239.

[44] S. Rachka, Python Machine Learning. Birmingham: Packt Publishing Ltd., 2015. [45] Chris Albon, Machine Learning with Python Cookbook Practical Solutions from Preprocessing to Deep

Learning. 2018. [46] J. A. Rodrigo, “Gradient Boosting con python,” 2020.

https://www.cienciadedatos.net/documentos/py09_gradient_boosting_python.html (accessed Apr. 28, 2021).

[47] A. Kayad, M. Sozzi, S. Gatto, F. Marinello, and F. Pirotti, “Monitoring within-field variability of corn yield

using sentinel-2 and machine learning techniques,” Remote Sens., vol. 11, no. 23, 2019, doi: 10.3390/rs11232873.

[48] D. De Benedetto et al., “An approach for delineating homogeneous zones by using multi-sensor data,” Geoderma, vol. 199, no. September 2017, pp. 117–127, 2013, doi: 10.1016/j.geoderma.2012.08.028.

[49] C. Georgi, D. Spengler, S. Itzerott, and B. Kleinschmit, “Automatic delineation algorithm for site-specific management zones based on satellite remote sensing data,” Precis. Agric., vol. 19, no. 4, pp. 684–707, 2018, doi: 10.1007/s11119-017-9549-y.

[50] N. T. Son et al., “Machine learning approaches for rice crop yield predictions using time-series satellite data in Taiwan,” Int. J. Remote Sens., vol. 41, no. 20, pp. 7868–7888, 2020, doi: 10.1080/01431161.2020.1766148.

[51] A. de la Casa, G. Ovando, L. Bressanini, J. Martínez, G. Díaz, and C. Miranda, “Soybean crop coverage estimation from NDVI images with different spatial resolution to evaluate yield variability in a plot,” ISPRS J. Photogramm. Remote Sens., vol. 146, no. October, pp. 531–547, 2018, doi: 10.1016/j.isprsjprs.2018.10.018.

[52] J. M. Damian, O. H. de C. Pias, M. R. Cherubin, A. Z. da Fonseca, E. Z. Fornari, and A. L. Santi, “Applying the NDVI from satellite images in delimiting management zones for annual crops,” Sci. Agric., vol. 77, no. 1, pp. 1–11, 2020, doi: 10.1590/1678-992x-2018-0055.

[53] J. Xue and B. Su, “Significant remote sensing vegetation indices: A review of developments and applications,” Journal of Sensors, vol. 2017. Hindawi Limited, pp. 1–17, 2017, doi: 10.1155/2017/1353691.

[54] F. Morlin et al., “Comparison between vegetation indices for detecting spatial and temporal variabilities in soybean crop using canopy sensors,” Precis. Agric., no. 123456789, 2019, doi: 10.1007/s11119-019-09704-3.

[55] D. A. Roberts, S. Barbara, K. Roth, and R. L. Perroy, Spectral and spatial methods of hyperspectral image analysis for estimation of biophysical and biochemical properties of agricultural crops, no. 2014299. 2011.

[56] Z. Fu et al., “Wheat growth monitoring and yield estimation based on multi-rotor unmanned aerial vehicle,” 2020.

[57] X. E. Pantazi, D. Moshou, T. Alexandridis, R. L. Whetton, and A. M. Mouazen, “Wheat yield prediction using machine learning and advanced sensing techniques,” Comput. Electron. Agric., vol. 121, pp. 57–65, 2016, doi: 10.1016/j.compag.2015.11.018.

[58] C. I. Jaramillo-Barrios, A. F. Ortiz-Rico, G. A. A. Carrillo, and V. M. Varón-Ramírez, “Establishment of homogeneous zones in a soil of alluvial origin,” Ciência e Agrotecnologia, vol. 43, no. June, 2019, doi: 10.1590/1413-7054201943026318.

[59] X. Zhou et al., “Predicting grain yield in rice using multi-temporal vegetation indices from UAV-based multispectral and digital imagery,” ISPRS J. Photogramm. Remote Sens., vol. 130, pp. 246–255, 2017, doi: 10.1016/j.isprsjprs.2017.05.003.

[60] O. Barrero et al., “Rice Yield Prediction Using On-Farm Data Sets and Machine Learning,” pp. 1–9. [61] D. Haboudane, J. R. Miller, N. Tremblay, P. J. Zarco-Tejada, and L. Dextraze, “Integrated narrow-band

vegetation indices for prediction of crop chlorophyll content for application to precision agriculture,” Remote Sens. Environ., vol. 81, no. 2–3, pp. 416–426, 2002, doi: 10.1016/S0034-4257(02)00018-4.

[62] A. Ashapure et al., “Developing a machine learning based cotton yield estimation framework using multi-temporal UAS data,” ISPRS J. Photogramm. Remote Sens., vol. 169, no. September, pp. 180–194, 2020, doi: 10.1016/j.isprsjprs.2020.09.015.

[63] R. A. Schwalbert et al., “Forecasting maize yield at field scale based on high-resolution satellite imagery,” Biosyst. Eng., vol. 171, pp. 179–192, Jul. 2018, doi: 10.1016/j.biosystemseng.2018.04.020.

[64] A. Gili, C. Álvarez, R. Bagnato, and E. Noellemeyer, “Comparison of three methods for delineating management zones for site-specific crop management,” Comput. Electron. Agric., vol. 139, pp. 213–223, 2017, doi: 10.1016/j.compag.2017.05.022.

[65] M. A. Córdoba, C. I. Bruno, J. L. Costa, N. R. Peralta, and M. G. Balzarini, “Protocol for multivariate homogeneous zone delineation in precision agriculture,” Biosyst. Eng., vol. 143, pp. 95–107, 2016, doi: 10.1016/j.biosystemseng.2015.12.008.

13. ANEXOS

ANEXO A. Procesamiento de imágenes usando el software Pix4Dmapper.

Crear un proyecto

1. Asignar un nombre al proyecto, preferiblemente el nombre del proyecto debe tener esta estructura:

Lote_Agrosavia_Cultivo_Cámara_Altura(m)_Fecha, por ejemplo: “LoteIV-

4_Agrosavia_Arroz_RGB_25m_14022019”.

2. Importar imágenes, depende de cómo se encuentren las imágenes en el ordenador se pueden seleccionar

las imágenes individualmente o el directorio donde se encuentran todas las imágenes directamente.

3. Importar/ comprobar información de la cámara, el software detecta la información de la cámara

automáticamente como latitud, longitud, altitud, entre otra información. En caso de que el proceso no se

genere automáticamente se puede importar.

4. Elegir el sistema de coordenadas correcto.

5. Seleccionar platilla para procesar (3D Maps, si son imágenes RGB y Ag Multiespectral, si son imágenes

multiespectrales).

Procesamiento de imágenes RGB

1. Editar las opciones de procesamiento,

a. En la opción 2. nube de puntos y malla, en la pestaña de nube de puntos, se debe seleccionar fusionar el

mosaico en un archivo (Merge tile into one file)

b. En la opción 3. DSM, ortomosaico, e índices:

i. En la pestaña DSM y ortomosaico, se ubica la sección DSM raster y se selecciona GeoTIFF y fusionar

mosaico (Merge tiles)

ii. En la misma pestaña, pero en la sección ortomosaico se seleccionan las opciones GeoTiff, Merge Tiles y

Google maps.

2. Correr el paso 1. Procesamiento inicial, solamente.

3. Seleccionar los marcadores, sobre la nube de puntos se identifican los marcadores dentro de las ortofotos,

se debe seleccionar de tres a cinco imágenes y marcar en el centro del marcador, luego se aplica

automáticamente y se aplica. De esta forma el algoritmo se orienta para hacer la corrección geográfica.

4. Una vez se hayan seleccionado los marcadores se reoptimiza.

5. Correr el paso 2. Nube de puntos y malla, y el paso 3. DSM, ortomosaico e índices.

Descargar las imágenes RGB

1. Ubicar el directorio ~Pix4D/carpeta del proyecto/3_dsm_ortho/2_mosaic. Una vez ubicada la carpeta se copia

la imagen .TIFF.

Procesamiento de imágenes multiespectrales

1. Editar las opciones de procesamiento:

a. En la opción 2. nube de puntos y malla, en la pestaña de nube de puntos, se debe seleccionar fusionar el

mosaico en un archivo (Merge tile into one file)

b. En la opción 3. DSM, ortomosaico, e índices,

i. En la pestaña DSM y ortomosaico, se debe ir a la sección de ortomosaico y seleccionar las opciones para

generar GeoTiff, Merge Tiles y Google maps.

ii. En la pestaña calculadora de índices, se debe ir a la sección de calibración y procesamiento radiométrico,

llegados a este punto, se selecciona el tipo de calibración con cámara, irradiancia solar y ángulo solar usando

DLS IMU, luego se calibra seleccionando la imagen del panel de acuerdo con la banda a calibrar (blue,

green, red, nir, rededge), en caso de que la cámara cuente con una banda térmica esta no se debe calibrar.

A continuación, se encuentra la sección de mapa de reflectancia donde se debe seleccionar fusionar

mosaicos (Merge tiles). Finalmente, se ubica la sección de índices y se eligen las bandas e índices que se

desean generar en ortomosaicos (blue, green, red, nir, redge, ndvi, ndre, etc).

2. Correr el paso 1. Procesamiento inicial, solamente.

3. Seleccionar los marcadores, sobre la nube de puntos se identifican los marcadores dentro de las ortofotos,

se debe seleccionar de tres a cinco imágenes y marcar en el centro del marcador, luego se aplica

automáticamente y se aplica. De esta forma el algoritmo se orienta para hacer la corrección geográfica.

4. Una vez se hayan seleccionado los marcadores se reoptimiza.

5. Correr el paso 2. Nube de puntos y malla, y el paso 3. DSM, ortomosaico e índices.

Descargar las imágenes multiespectrales

1. Ubicar el directorio ~Pix4D/carpeta del proyecto/3_dsm_ortho/4_index/índices/carpeta del índice (blue,

green, red, nir, redge, ndvi, ndre, etc). Una vez ubicada la carpeta se copia la imagen .TIFF de todos los

índices.

Informe de calidad

El informe de calidad comparte la información obtenida en el procesamiento de las imágenes así poder verificar

si el contenido de las imágenes es lo más fiel posible a la realidad, y de no ser así, poder solucionar los

inconvenientes para poder lograrlo. Es por esto que, en esta parte, se explica brevemente algunas partes del

informe de calidad. El control de calidad, es la primera información dada por el informe, donde el primer criterio a

evaluar, es la cantidad de puntos clave por imagen, al ser 10000 o superior, significa que este criterio se cumple.

Los puntos clave, son los puntos en común que el algoritmo detecta entre ortofotos para hacer el emparejamiento

y conformar el ortomosaico, de esta manera, en el ejemplo de la Figura 56, se marca como correcta ya que tienen

10000 puntos clave por imagen.

El siguiente criterio a evaluar es el conjunto de datos, donde cerca del 100% deben ser calibradas en un solo

bloque, el en ejemplo se observa que el 98% fueron calibradas, dado que es cerca al total de las imágenes, es

un valor adecuado y se marca como validado en el control de calidad. Además, la optimización de la cámara debe

ser menor al 5%, y finalmente, el ultimo parámetro es la georreferenciación, el cual no debe ser mayor a 2GSD,

aunque en el ejemplo no se utilizó georreferenciación, por tanto, aparece una advertencia amarilla en el control

de calidad.

Figura 56. Control de calidad del informe de calidad del procesamiento de imágenes multiespectrales para la segunda

campaña de maíz en la fecha 01122020.

En la Figura 57 y Figura 58 se evidencia la segunda información entregada por el informe de calidad, el anticipo

o preview, en donde se muestra los ortomosaicos, en el caso de la Figura 57, de las bandas multiespectrales y el

modelo digital del suelo (DSL).; en caso Figura 58 el ortomosaico RGB y el DSL. En esta parte del informe, es

necesario verificar que los ortomosaicos no cuenten con huecos y/o distorsiones.

Figura 57. Anticipo de los ortomosaicos de las bandas blue, green, red, nir y redge, además del modelo digital de superficie

del procesamiento de imágenes multiespectrales para la segunda campaña de maíz en la fecha 01122020.

Figura 58. Anticipo de los ortomosaicos de las bandas blue, green, red, nir y redge, además del modelo digital de superficie

del procesamiento de imágenes RGB para la segunda campaña de maíz en la fecha 01122020

En la Figura 59 los puntos azules, son los puntos originales de las cámaras y los puntos verdes son los generados

en la optimización de las cámaras, esto puntos deben encajar bien para simbolizar una buena reconstrucción.

Otra manera gráfica de reconocer la calidad del procesamiento es mediante la sobreposición de las imágenes

sobre cada pixel como en la Figura 60, donde las regiones en rojo y amarillo indican bajo solapamiento, mientras

que, en las regiones de color verde, significa que por cada pixel hay 5 o más imágenes superpuestas, esto último

indica buen desempeño en los resultados. Mientras tanto, en la Figura 61, se puede observar las posiciones de

imágenes calculadas con vínculos entre imágenes coincidentes, donde los enlaces en un tono más oscuro

representan el número de puntos clave entre imágenes, en cambio los enlaces claros pocos números clave entre

imágenes, y debido a esto se puede requerir de enlaces manuales o más imágenes, en el caso del ejemplo,

existen zonas de tonos claros y oscuros, a pesar de esto, se denota una buena representación.

Figura 59. Desplazamiento entre las posiciones de la

imagen inicial y calculadas.

Figura 60. Número de imágenes superpuestas calculadas

para cada píxel del ortomosaico.

Figura 61. Posiciones de imágenes calculadas con vínculos entre imágenes coincidentes

ANEXO B. Cálculo de los índices de vegetación en MATLAB.

Los algoritmos para calculas los índices de vegetación para arroz, maíz y algodón en MATLAB son

respectivamente:

~\Master_thesis\Rice\Algorithms\Image_procesing\Calculo_IVs\calculo_indices.m

~\Master_thesis\Corn\Algorithms\Image_procesing\ Calculo_IVs\calculo_indices.m

~\Master_thesis\Cotton\Algorithms\Image_procesing\ Calculo_IVs\calculo_indices.m

En la carpeta se encuentra el archivo principal donde se llaman los índices a calcular, también se encuentra los

archivos donde se calcula las expresiones del índice, por ejemplo, ndre, ndvi, gndvi, gvi, etc.

ANEXO C. División de los canales en una imagen RGB en QGIS.

1. En el software QGIS se abre la caja de herramienta

2. En la pestaña SAGA, ubicar la sección Herramientas Raster o Raster Tools

3. Seleccionar División de bandas RGB o Split RGB bands.

4. Elegir la capa de entrada, la cual es la imagen RGB

5. Añadir la ubicación donde se va a guardar cada banda R, G y B.

6. Ejecutar

ANEXO D. Código en pyQGIS para recortar múltiples imágenes con múltiples polígonos

Los algoritmos para realizar el recorte de las imágenes para arroz, maíz y algodón en QGIS son respectivamente:

~\Master_thesis\Rice\Algorithms\Image_procesing\ clip_multiple_raster_with_multiple_polygon_rice.py

~\Master_thesis\Corn\Algorithms\Image_procesing\clip_multiple_raster_with_multiple_polygon_corn.py

~\Master_thesis\Cotton\Algorithms\Image_procesing\ clip_multiple_raster_with_multiple_polygon_cotton.py

ANEXO E. Código en MATLAB para obtener el promedio de las imágenes recortadas

Arroz primera y segunda campaña:

~\Master_thesis\Rice\Algorithms\Image_procesing\mean_clips_bands_R1_ndre_umbral;

~\Master_thesis\Rice\Algorithms\Image_procesing\mean_clips_bands_R2_ndre_umbral;

Maíz primera y segunda campaña:

~\Master_thesis\Corn\Algorithms\Image_procesing\Corn1_mean_clips_bands_ndre_umbral.m;

~\Master_thesis\Corn\Algorithms\Image_procesing\Corn2_mean_clips_bands_ndre_umbral.m

Algodón:

~\Master_thesis\Cotton\Algorithms\Image_procesing\ Cotton_mean_clips_bands_ndre_umbral.m

ANEXO F. Cambio de resolución en QGIS.

1. En el programa QGIS cargar los índices de color y la imagen NDRE para una fecha específica.

2. Abrir la pestaña Ráster e ir a la opción calculadora ráster.

3. En la capa de salida, escribir el nombre y directorio donde se va a guardar la imagen.

4. Marque la imagen de referencia (NDRE) y seleccione el botón seleccionar la extensión de la capa, de esta

forma se obtiene la dimensión de la imagen de referencia.

5. En el bloque de la expresión de la calculadora de campos, coloque la imagen a la cual desea cambiar la

resolución, dando doble click en las bandas raster.

6. Seleccione el botón OK para comenzar el proceso.

ANEXO G. Coeficiente de Spearman e índice de Moran.

Los algoritmos para realizar el coeficiente de Spearman y el índice de Moran se encuentran en las siguientes

carpetas para cada cultivo:

~\Master_thesis\Rice\Algorithms\Variables_selection_A; ~\Master_thesis\Corn\Algorithms\Variables_selection;

~\Master_thesis\Cotton\Algorithms\Variables_selection

ANEXO H. Algoritmos en R para el análisis de componentes principales espaciales.

En la siguiente ubicación de directorios, se encuentran el algoritmo para obtener los componentes principales

espaciales para cada cultivo.

~\Master_thesis\Rice\Algorithms\Zones_identification\CPE.R

~\Master_thesis\Cotton\Algorithms\Zones_identification\CPE.R

~\Master_thesis\Corn\Algorithms\Zones_identification\CPE.R

ANEXO I. Algoritmos de Interpolación de los parámetros del suelo y el cultivo.

En la siguiente ubicación de directorios, se encuentran los algoritmos de las variables interpoladas para cada

cultivo. Cabe resaltar, que se realizaron dos muestreos y se denota como S1 y S2 en el nombre del archivo.

~\Master_thesis\Rice\Algorithms\Interpolation

~\Master_thesis\Cotton\Algorithms\Interpolation

~\Master_thesis\Corn\Algorithms\Interpolation

ANEXO J. Algoritmos de predicción de rendimiento.

~\Master_thesis\Rice\Algorithms\Yield_Prediction\Rice_results

~\Master_thesis\Cotton\Algorithms\Yield_Prediction\Cotton_results

~\Master_thesis\Corn\Algorithms\Yield_Prediction\Corn_results

ANEXO K. Selección de variables para el cultivo de arroz usando la mediana en las imágenes multiespectrales.

ANEXO L. Semivariogramas de la interpolación de las variables de arroz en la primera y segunda campaña.

A continuación, se presentan los semivariogramas obtenidos en la interpolación de las variables para la primera

y segunda campaña de arroz.

Figura 62. Semivariogramas resultantes de la interpolación por método de Kriging en la primera campaña de arroz.

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

GN

DV

I41

GN

DV

I65

GV

I41

GV

I65

ND

RE

41

ND

RE

65

ND

VI4

1

ND

VI6

5

OS

AV

I41

OS

AV

I65

SA

VI4

1

SA

VI6

5

SR

41

SR

65

BLU

E41

BL

UE

65

GR

EE

N4

1

GR

EE

N6

5

NIR

41

NIR

65

RE

D4

1

RE

D6

5

RE

DG

E4

1

RE

DG

E6

5

Spearman coefficient of rice multispectral images

Significant correlation first campaign No significant correlation first campaign

Significant correlation second campaign No significant correlation second campaign

Figura 63. Semivariogramas resultantes de la interpolación por método de kriging en la segunda campaña de arroz

ANEXO M. Modelos de predicción de rendimiento usando la mediana en las imágenes multiespectrales para el cultivo de

arroz.

Modelos de regresión

Figura 64. Resultados de R2 de los modelos de regresión.

Figura 65. Resultados de RMSE de los modelos de

regresión.

Modelos de clasificación

Figura 66. Resultados de exactitud de los modelos de clasificación.

ANEXO N. Semivariogramas resultantes de la interpolación de los parámetros del suelo y el cultivo en algodón.

Figura 67. Semivariogramas resultantes de la interpolación por método de kriging en el cultivo de algodón.

ANEXO O. Rendimiento real contra el rendimiento predicho por los algoritmos de regresión en la predicción de rendimiento,

con todos los modelos y bases de datos para el cultivo de algodón.

ANEXO P. Semivariogramas resultantes de la interpolación para las variables del cultivo de maíz.

ANEXO Q. Semivariogramas resultantes de la interpolación por método de kriging en la segunda campaña de maíz.

Atajos de QGIS

ANEXO R. Quitar el fondo de las imágenes en QGIS.

En las imágenes puede haber un fondo adquirido o añadido, sin embargo, se hace muy difícil visualizar la imagen

con él, entonces se procede a ser removido.

1. Importar la imagen en QGIS

2. Dar click derecho para ver sus propiedades

3. Ir a la pestaña de trasparencia

4. En el campo de valores adicionales sin dato se escribe el valor del dato puede ser 0 o -10000

ANEXO S. Obtener polígonos a partir de un ráster.

A partir de un ráster se puede obtener una cuadricula de polígonos georreferenciada, a partir de los píxeles de la

imagen.

1. En QGIS ir a caja de herramientas

2. Seleccionar la opción creación de vectores

3. Seleccionar de píxeles ráster a polígonos

ANEXO T. Dividir los polígonos de una cuadricula

1. Cargar en QGIS la cuadricula para ser dividida

2. Ir a tabla de atributos y conmutar el modo de edición

3. Seleccionar en campo nuevo

4. En nombre poner “ID”, los demás campos se dejan como están y se da aceptar.

5. Seleccionar el diálogo de expresiones

6. Dar doble clic sobre row_number de esta forma, los polígonos serán enumerados automáticamente en orden.

7. Ir a la pestaña de vectorial

8. Ir a la sección de herramienta de gestión de datos

9. Seleccionar la opción dividir capa vectorial

10. Al abrirse la ventana llenar los campos: la capa de entrada es la cuadricula se desea dividir, el campo único

es el ID y el directorio de salida es donde se desea guardar los polígonos divididos.

ANEXO U. Añadir puntos georreferenciados a partir de un archivo CSV.

Al tener las coordenadas en un archivo CSV se pueden añadir a un proyecto en QGIS para conocer su ubicación

visualmente.

1. En QGIS se debe ir a la pestaña Capa

2. Ir a la sección añadir capa

3. Ir a la opción de añadir capa de texto delimitado

4. En la ventana emergente llenar los campos:

5. En Nombre del archivo, se debe buscar la ubicación y nombre del archivo a importar

6. En formato del archivo, se debe especificar por qué está separados los valores en el archivo

7. En definición de geometría, se debe seleccionar cuál variable es X, Y y Z.

8. Añadir

ANEXO V. Añadir coordenadas a una tabla de atributos.

En el momento en que se quiera obtener una coordenada o un tipo de coordenada diferente en una capa vectorial,

se puede añadir las coordenadas de la siguiente manera:

1. Cargar la capa vectorial en QGIS

2. Abrir la tabla de atributos

3. Abrir la calculadora de campos

4. Seleccionamos crear un campo nuevo

5. En nombre del campo de salida, asignar un nombre al campo

6. En el espacio de la Expresión, se escribe lo siguiente: x( centroid( $geometry )) se cambia por y cuando

deseemos calcular y la coordenada de y.

7. Aceptar