Universidad de Ibagué Determinación de zonas de manejo en ...
-
Upload
khangminh22 -
Category
Documents
-
view
1 -
download
0
Transcript of Universidad de Ibagué Determinación de zonas de manejo en ...
Universidad de Ibagué
Maestría en Ingeniería de Control
Tesis de maestría
Determinación de zonas de manejo en un sistema
de producción rotacional arroz, maíz – algodón
usando técnicas de aprendizaje de máquina
Por:
María Fernanda Monroy
30 de junio 2021
Tutores:
Oscar Barrero Ph.D
Sofiane Ouazaa Ph.D
Jose A. Fernández G. Ph.D
AGROSAVIA
FACULTAD DE INGENIERÍA
MAESTRÍA EN INGENIERÍA DE CONTROL
TRABAJO DE GRADO DE MAESTRÍA
TITULO: Determinación de zonas de manejo en un sistema de producción rotacional arroz, maíz – algodón
usando técnicas de aprendizaje de máquinas
DIRECTORES: Oscar Barrero Mendoza Dr., Jose A. Fernández G. Dr. y Sofiane Ouazaa Dr.
AUTOR NOMBRE : María Fernanda Monroy CÉDULA : 1110583462 E-MAIL : [email protected] TELÉFONO : 3168927606
FIRMA DEL AUTOR
30 de junio del 2021
FECHA DE PRESENTACIÓN
AGRADECIMIENTOS
Primero quiero agradecer a mis tutores Oscar Barrero, Sofiane Ouazaa y Jose A. Fernández por su guía y apoyo.
Su gran conocimiento permitió orientar esta investigación. También quiero agradecer a mi compañero en
Agrosavia Camilo Jaramillo por su gran asesoría y contribución en desarrollo de la tesis.
Quiero agradecer nuevamente al ingeniero Oscar Barrero, a la universidad de Ibagué y a la empresa Agrosavia
por darme la oportunidad para estudiar la maestría. A mis compañeros de la maestría por apoyarme en todo el
proceso.
Finalmente agradezco a mi familia que me apoyado toda mi vida en cada paso que doy, les debo quien soy.
RESUMEN
La definición de zonas de manejo (ZM) dentro de un campo de cultivo es una estrategia importante para la
aplicación de la agricultura de precisión. Sin embargo, la determinación de las ZM es complicada debido a la
existencia de múltiples factores que son responsables de la variabilidad espacial y temporal en el campo. En este
estudio se desarrolló una metodología para determinar las ZM y la predicción de rendimiento a mitad del ciclo de
un cultivo, utilizando un conjunto de datos del suelo, planta y de teledetección procedentes de cámaras RGB y
multiespectral montadas en un vehículo aéreo no tripulado (UAV). El estudio se llevó a cabo en un sistema de
cultivo comercial de arroz, maíz-algodón (sistema de producción rotacional) de 5 hectáreas en una región tropical
(Tolima, Colombia). La información fue obtenida de dos campañas de los cultivos de arroz y maíz, y una campaña
del cultivo de algodón. Las variables medidas incluyeron las propiedades del suelo, las condiciones del cultivo y
los índices de vegetación (MI) obtenidos desde un UAV en diferentes etapas hasta la mitad de la campaña.
Distintas bases de datos fueron utilizadas para conocer el aporte de las variables sobre los modelos. SOIL:
Parámetros del suelo y el cultivo; MI: Imágenes multiespectrales (bandas espectrales, índices de vegetación e
índices de color); ALL: Todas las variables (SOIL+MI) y CPE: Componentes principales espaciales.
Para conocer las ZM de manejo en el sistema de producción rotacional se realizó la identificación de zonas
homogéneas donde se utilizaron los algoritmos de agrupación Fuzzy C-means, K-means y McQuitty, y el área fue
dividida en dos, tres y cuatro zonas, además se aplicó un filtro de la mediana para realizar un suavizado a las
zonas conformadas. A su vez, se realizaron modelos de predicción de rendimiento mediante algoritmos de
regresión como random forest (RF), k-nearest neighbor (KNN), LASSO, multilayer perceptron (MLP) y support
vector machine (SVM), los cuales fueron evaluados mediante el coeficiente de determinación R2 y la raíz del error
medio cuadrático RMSE. También se utilizaron los algoritmos de clasificación RF, KNN, naïve Bayes gaussiano
(NB), gradient boosting (GB) y SVM como otro método en la predicción de rendimiento, los cuales fueron
evaluados mediante la evaluación de la exactitud y la matriz de confusión. La base de datos tomó las dos
campañas del cultivo (según corresponda) y se dividieron aleatoriamente de manera estratificada según el
rendimiento en 70% para entrenamiento y 30% para validación.
Los resultados en la identificación de zonas homogéneas, demuestran que existe un comportamiento dinámico y
por esa razón cada cultivo presenta una distribución de ZM diferentes. Los resultados mostraron que al realizar
el suavizamiento se mostraba una mejor división de las zonas. Los resultados provistos por el algoritmo K-means
demuestra una división del área en zonas significativamente distintas según los resultados de ANOVA y
comparación de medias de Tukey, además el índice de reducción de varianza (VR), para la delimitación de zonas
generada por este algoritmo se encontró entre los más altos, demostrando una mejor separación de los grupos.
En el cultivo de arroz se seleccionó la división en tres zonas donde la media de rendimiento de la zona uno fue
de 9674.5 Kg ha-1, la zona dos fue de 9120.0 Kg ha-1 y la zona tres de 8554.9 Kg ha-1, la base de datos utilizada
fue CPE y el VR fue de 51, en el cultivo de algodón se dividió el área en cuatro zonas, donde la zona uno tuvo
una media de 2359.3 Kg ha-1, la zona dos 2191 Kg ha-1, la zona tres 2042.2 Kg ha-1, y la zona cuatro fue de
2441.5 Kg ha-1, la base de datos utilizada fue CPE y el VR fue de 35.7. Finalmente, en el cultivo de maíz, el área
fue dividida en tres zonas donde la zona uno tuvo una media de rendimiento de 5942.3 Kg ha -1, la zona dos,
5863.7 Kg ha-1, la zona tres, 8009 Kg ha-1, la base de datos utilizada fue MI y el VR fue de 38.6.
Los resultados de los modelos de predicción de rendimiento utilizando los algoritmos de regresión mostraron que
RF, KNN, MLP, y SVM con la base de datos de SOIL cuenta con alta precisión en la predicción de rendimiento,
con resultados de R2 0.96 a 0.99 para el cultivo de arroz, el cultivo de algodón con un R2 entre 0.70 a 0.92 y el
cultivo de maíz con R2 entre 0.96 a 0.99. Los algoritmos de clasificación RF, KNN, GB, y SVM utilizando la base
de datos SOIL, obtuvieron resultados de R2 entre 0.89 a 0.97 en el cultivo de arroz, en algodón entre 0.88 a 0.92
y para el cultivo de maíz entre 0.88 a 0.97. Estos resultados demostraron que diferentes algoritmos son capaces
de generar modelos igualmente eficientes en la predicción de rendimiento donde destacan RF, KNN y SVM.
CONTENIDO
1. PLANTEAMIENTO DEL PROBLEMA. ............................................................................................................ 7
2. JUSTIFICACIÓN ............................................................................................................................................. 8
3. OBJETIVOS .................................................................................................................................................... 9
3.1. Objetivo general ...................................................................................................................................... 9
3.2. Objetivos específicos .............................................................................................................................. 9
4. MARCO TEÓRICO ........................................................................................................................................ 10
4.1. Agricultura de precisión ........................................................................................................................ 10
4.2. Zonas de manejo .................................................................................................................................. 10
4.3. Índices de vegetación ........................................................................................................................... 10
4.4. Parámetros del suelo y el cultivo .......................................................................................................... 11
4.5. Estados fenológicos de crecimiento ..................................................................................................... 12
4.6. Interpolación (Kriging) ........................................................................................................................... 12
4.7. Multispati-pca ........................................................................................................................................ 12
4.8. Aprendizaje de máquinas ..................................................................................................................... 13
4.8.1. Aprendizaje supervisado ............................................................................................................... 13
4.8.2. Aprendizaje no supervisado .......................................................................................................... 15
5. ESTADO DEL ARTE ..................................................................................................................................... 15
6. MACROPROYECTO ..................................................................................................................................... 18
7. DESCRIPCIÓN DE LA INVESTIGACIÓN ..................................................................................................... 18
8. METODOLOGÍA ............................................................................................................................................ 19
8.1. Área de estudio ..................................................................................................................................... 20
8.2. Datos de suelo y el cultivo .................................................................................................................... 22
8.3. Imágenes tomadas remotamente ......................................................................................................... 23
8.4. Selección de variables .......................................................................................................................... 25
8.5. Análisis de componentes principales espaciales .................................................................................. 26
8.6. Interpolación de parámetros del suelo y el cultivo ................................................................................ 26
8.7. Predicción de rendimiento .................................................................................................................... 26
8.8. Identificación de zonas homogéneas .................................................................................................... 27
9. RESULTADOS Y DISCUSIÓN ...................................................................................................................... 28
9.1. Cultivo de arroz ..................................................................................................................................... 28
9.1.1. Procesamiento de imágenes ........................................................................................................ 28
9.1.2. Análisis de datos ........................................................................................................................... 29
9.1.3. Selección de variables .................................................................................................................. 31
9.1.4. Interpolación ................................................................................................................................. 36
9.1.5. Modelo de predicción de rendimiento ........................................................................................... 38
9.1.6. Modelo de identificación de zonas homogéneas .......................................................................... 42
9.2. Cultivo de algodón .................................................................................................................................. 1
9.2.1. Procesamiento de imágenes .......................................................................................................... 1
9.2.2. Análisis de datos ............................................................................................................................. 2
9.2.3. Selección de variables .................................................................................................................... 3
9.2.4. Interpolación ................................................................................................................................... 5
9.2.5. Modelo de predicción de rendimiento ............................................................................................. 6
9.2.6. Modelo de identificación de zonas homogéneas ............................................................................ 9
9.3. Cultivo de maíz ....................................................................................................................................... 1
9.3.1. Procesamiento de imágenes .......................................................................................................... 1
9.3.2. Análisis de datos ............................................................................................................................. 2
9.3.3. Selección de variables .................................................................................................................... 3
9.3.4. Interpolación ................................................................................................................................... 7
9.3.5. Modelo de predicción de rendimiento ........................................................................................... 10
9.3.6. Modelo de identificación de zonas homogéneas .......................................................................... 12
9.4. Zonas de manejo .................................................................................................................................... 1
10. DISCUSIÓN ................................................................................................................................................ 2
11. CONCLUSIONES ....................................................................................................................................... 1
12. BIBLIOGRAFÍA Y FUENTES DE INFORMACIÓN ..................................................................................... 3
13. ANEXOS ..................................................................................................................................................... 6
1. PLANTEAMIENTO DEL PROBLEMA.
En la actualidad la población mundial es de 7.600 millones de personas y la Organización de las Naciones Unidas
para la Alimentación y la Agricultura FAO pronostica un incremento a 11000 millones para el año 2100. En
consecuencia, la producción actual de alimentos debe aumentar y al mismo tiempo ser sostenible para disminuir
los costos y el impacto ambiental [1]. Debido a la producción acelerada y la creciente demanda de alimentos es
necesario utilizar gran parte del territorio para la agricultura. Más del 35% del terreno sin hielo del planeta es
empleado para esta actividad, donde se requiere de la extracción de la cubierta vegetal, lo que deja los suelos al
descubierto con problemas de erosión y pérdida de nutrientes [2].
En la agricultura, algunas prácticas como la administración desmedida de fertilizantes y pesticidas traen consigo
graves repercusiones, tales como el uso ineficiente de los recursos agrícolas y el impacto directo sobre el medio
ambiente debido a la inadecuada aplicación de estos. Por ello, las plantas son incapaces de procesarlos
completamente y quedan libres en el ambiente [3]. A su vez, el tratamiento intensivo de los suelos utilizado en
muchos países, causa la reducción de materia orgánica, y limita la posibilidad de degradar adecuadamente los
contaminantes orgánicos, lo que ocasiona la pérdida de las propiedades de esa área para ser cultivable en el
futuro, además los suelos contaminados aminoran el rendimiento y el bienestar de los cultivos lo que causa bajo
contenido de nutrientes en los alimentos, además, afecta directamente la seguridad alimentaria [4].
Una de las prácticas comunes del agricultor es realizar un manejo del cultivo de manera homogénea sin
considerar la existencia de la variabilidad espacial, en la cual los nutrientes del suelo están distribuidos en
cantidades diferentes sobre el campo; esto limita la correcta absorción de nutrientes por parte de las plantas, en
consecuencia, la alta variabilidad espacial de los parámetros del cultivo afecta los rendimientos [5]. La búsqueda
de mejores prácticas en el sector agrícola llevó a introducir tecnologías de gestión como la detección remota,
mapeos de rendimiento, análisis del suelo y monitoreo georreferenciado con el fin de crear sistemas para apoyar
la toma de decisiones en operaciones de labranza, manejo del riego y aplicación de insumos para generar
ganancias de manera sostenible; esta nueva forma de agricultura se denominó agricultura de precisión (AP) [6],
[7].
En países desarrollados como Estados Unidos, Alemania Francia, Reino Unido, entre otros; han desarrollado la
AP en función de mejorar la seguridad y calidad en los productos agrícolas. Entre las tecnologías implementadas
se encuentra el internet de las cosas IoT y el big data. En Estados Unidos existe una red de información nacional
actualizada y el historial de datos sensados, además cuenta con normas y leyes políticas que respaldan y ofrecen
soporte en la toma de decisiones del agricultor. Algunas regiones logran entre el 60% y 80% de adopción
tecnológica respecto a herramientas de control automático. Alemania, Francia, Italia y Holanda trabajan con
detección remota y la robótica principalmente. Israel concentra su programa en la gestión de riego de precisión,
también emplea el método de riego por sitio específico. En Australia, se ha logrado la adopción de la agricultura
de precisión en un 80% y en Canadá, el 98% de su tecnología es guiada por GPS, además el 20% realiza
aplicación variada de fertilizantes [6], [7].
Países de Latinoamérica como Argentina, Brasil, Cuba, Chile, Uruguay, Paraguay, Bolivia, México, Perú y
Ecuador comenzaron la implementación de la agricultura de precisión hace décadas en conjunto al Instituto
Nacional de Tecnología Agropecuaria (INTA) que brindó el apoyo necesario para la adopción de las nuevas
técnicas en la agricultura [8]. Argentina actualmente emplea monitores de rendimiento y se considera que el 4%
del total de semillas y granos fueron cosechados mediante la utilización del mapeo de rendimiento, también usan
herramientas de detección remota como imágenes satelitales y equipos autónomos. Brasil desarrolla la AP en un
20% del sector agrícola con instrumentos de control manual, aplicación variable de fertilizantes y encalado,
muestreo de suelos e imágenes remotas [6].
En Colombia, es común el uso intensivo de insumos agrícolas, de esta forma, provoca degradación ambiental e
incremento en los costos, y así, se ve limitado el potencial del cultivo. Debido a esto, es necesario la adopción de
la AP para realizar una aplicación diferencial de insumos para seguir las especificaciones propias del sitio. En la
actualidad la agricultura tradicional es dominante en el país, con algunas excepciones por parte de los productores
comerciales, en general los procesos desconsideran un manejo localizado, por el contrario, la distribución de
insumos se realiza en cantidades iguales sobre el campo. Aunque algunos productores han utilizado las
herramientas y tecnologías de AP sobre cultivos como el banano, caña de azúcar y café [9]. Dentro de las
herramientas utilizadas en algunos sectores del país, se encuentran los satélites, usados para reconocer el estado
fenológico e identificación del tipo de cultivo, también se utilizan los drones que proporcionan mejor resolución
para monitorear el cultivo y poder detectar malezas y enfermedades dentro del mismo [10].
En el departamento del Tolima se emplea la rotación de cultivos lo que implica sembrar un cultivo de ciclo corto
diferentes sobre el sistema de producción con el fin de limitar el uso de agua para riego y a su vez mejorar la
fertilidad [11], esta forma de tratamiento del sistema productivo es recomendada por la FAO. En el Tolima el
distrito de riego USOCOELLO, como ente responsable de distribuir el agua para riego en la zona del sur del
Tolima, impone esta medida para restringir la siembra continua de arroz dado que es un cultivo que demanda
altos volúmenes de agua. En la región es una práctica común mantener este cultivo bajo riego constante, es por
ello que se debe rotar la siembra con cultivos que requieran menor cantidad, como el maíz y el algodón.
El Tolima como mayor productor del cultivo arroz en el país se aplica un volumen de agua de riego entre 16.000
y 30.000 m3/ha, de los cuales son necesarios sólo 4.800 m3/ha, según recomendación de la FAO (modelo
AquaCrop). El uso desmedido del recurso trae como consecuencia daños en la estructura del suelo lo que limita
la retención de agua y nutrientes, por consiguiente, demanda mayor uso de insumos y provoca aumento en los
costos [12]. Este problema presente en la región requiere la implementación de herramientas tecnológicas, como
las zonas de manejo (ZM), que permitan administrar el agua del riego de manera eficiente y hacer un manejo
diferencial de insumos, con el fin de disminuir los costos y la contaminación ambiental para mejorar la
productividad.
Las ZM pueden identificar la variabilidad en el sistema de producción, dividiendo el lote en áreas con propiedades
similares, pero diferentes a las áreas alrededor. Las ZM se pueden obtener a partir de mapas de propiedades del
suelo y rendimiento, con las cuales es posible identificar la variabilidad en el sistema de producción. La medición
del rendimiento, al ser obtenida en la cosecha, impide realizar intervenciones durante la campaña, por esta razón,
algunas investigaciones realizan predicciones de rendimiento para conocer su distribución espacial y tomar
medidas preventivas [13]. El riego por sitio específico basado en ZM considera la cantidad de agua, costos y
energía para delimitar las áreas de gestión. Los beneficios de utilizar esta herramienta se reflejan en el aumento
en la productividad, disminución del uso de fertilizantes y la contaminación del suelo [14].
A partir de lo anterior, nace la siguiente pregunta de investigación, ¿cómo obtener mapas de zonas de manejo
para el sistema de producción arroz, maíz-algodón mediante mediciones de variables agronómicas y estimación
de rendimiento con el fin de mejorar su productividad?
2. JUSTIFICACIÓN
Colombia tiene la capacidad de convertirse en proveedor de alimentos de carácter internacional. De esta forma
podría afrontar la demanda alimentaria como parte de los retos mundiales futuros, con tal de invertir recursos en
nuevas tecnologías que apoyen el sector agrícola y lograr aumentos en la producción para el año 2030 [15]. De
manera más específica, según los registros, el departamento del Tolima es el mayor productor de arroz, en año
2019 presentó rendimientos hasta de 7,1 ton/ha, lo que representa un rendimiento menor al año anterior [16].
También el cultivo de maíz es representativo de la región, pero se ha evidenciado un 31% de disminución del
área sembrada, así mismo, el departamento pasó de liderar la producción a ocupar el tercer lugar [17]–[19]. De
forma análoga, el cultivo de algodón ha demostrado una diminución en áreas de siembra, ya que en el 2015 tenía
31.464 ha en y en el 2019 pasó a 18.237 ha. Históricamente el algodón, ha sido un producto importante en el
país, es por ello que se han implementado políticas que apoyen su producción y, a pesar del descenso en el área
cultivada, se logró mejorar al obtener un rendimiento de 0.95 Ton Fibra/ha en el año 2019, en comparación al
rendimiento de 0.844 Ton Fibra/ha del año 2015 [20], [21].
Es evidente la existencia de una variación en la productividad, y esto puede ser consecuencia a diversos factores
como el tratamiento de los cultivos que, en la agricultura tradicional, considera los campos homogéneos, por lo
cual se realiza un manejo insuficiente o por el contrario provoca exceso de fertilizantes, pesticidas y agua sin
considerar el comportamiento del sistema de producción, esto conlleva a generar altos costos y contaminación
ambiental que no logran aportar a una agricultura sostenible. Es necesario un cambio en el tratamiento de los
cultivos, para ello un aspecto importante, en el cual centrarse es el agricultor ya que se encarga de tomar las
decisiones sobre el campo, lo cual puede traer resultados positivos o negativos en la productividad y, aún más
importante, se requiere de tecnologías que lo apoyen en el proceso del manejo del cultivo como mapas de ZM
capaces de determinar la variabilidad dentro del sistema [3].
En el marco de la AP se han desarrollado diferentes herramientas con el fin de conocer la variabilidad, basadas
en minería de datos y aprendizaje de máquinas para extraer la información, las cuales son capaces de manejar
datos provenientes de múltiples sensores que permiten realizar un manejo adecuado de la información en
procesos como predicción de rendimiento y delimitación de zonas homogéneas [22]. El aprendizaje de máquina
se usa principalmente cuando no se puede determinar una relación entre la entrada y salida con los métodos
tradicionales. Muchas investigaciones han relacionado los índices de vegetación con vehículo aéreo no tripulado
UAV y las propiedades del suelo con el rendimiento en cultivos de arroz, maíz y algodón en la predicción de
rendimiento mediante métodos de clasificación o regresión [13], [23]–[25]. Otros estudios, se han enfocado en
identificar zonas homogéneas con técnicas como Clustering o agrupamiento las cuales se toman mediciones
realizadas en el campo para dividir la información en clases o grupos que posteriormente se adaptan como zonas
homogéneas [26].
Esta investigación busca solucionar la problemática mediante el desarrollo de un sistema basado en zonas de
manejo para apoyar la toma de decisiones del agricultor en el tratamiento posterior sobre el campo. Estas ZM
serán conformadas con mapas de delimitación de zonas homogéneas y mapas de predicción de rendimiento
obtenidos a mitad de temporada para los cultivos de arroz, maíz y algodón. A partir de las mediciones de los
parámetros del cultivo, propiedades fisicoquímicas del suelo y evaluaciones de imágenes multiespectrales
tomadas con un UAV, se construirán modelos para generar mapas de zonas homogéneas y rendimiento predicho.
Las técnicas de aprendizaje de máquinas se utilizarán en la identificación de zonas con la aplicación de los
métodos de Clustering y para la predicción de rendimiento se implementarán algoritmos de regresión de
aprendizaje supervisado. La metodología y los resultados propuestos pretenden generar un aporte al sector
agrícola a fin de generar una herramienta para apoyar la toma de decisiones sobre los sistemas de producción.
3. OBJETIVOS
3.1. Objetivo general
Desarrollar mapas de zonas de manejo del sistema de producción rotacional arroz, maíz-algodón con base en
mapas de zonas homogéneas y la predicción del rendimiento.
3.2. Objetivos específicos
● Establecer un modelo de predicción de rendimiento para cada cultivo (arroz, maíz y algodón) estudiado en el
sistema de producción empleando técnicas de aprendizaje de máquinas.
● Desarrollar un modelo basado en inteligencia artificial de identificación de zonas homogéneas sobre el
sistema producción de pequeña escala.
● Evaluar el desempeño de los modelos propuestos en función de los datos obtenidos a partir de las medidas
realizadas en los cultivos.
4. MARCO TEÓRICO
En esta investigación se tratarán conceptos propios de la materia, para poder realizar una correcta lectura y
comprensión es necesario entender conceptos como agricultura de precisión, zonas de manejo, aprendizaje de
máquinas, entre otros. De esta forma se podrán analizar adecuadamente en el contexto de la investigación.
4.1. Agricultura de precisión
Está compuesta por diversos procesos que realizan un manejo sobre la variabilidad espacial y temporal presente
en los sistemas de producción, de esa forma se hace uso de distintas tecnologías para emplear un manejo
localizado. De esta manera se disminuyen costos y se evita la contaminación ambiental [27].
Las técnicas que hacen parte de la agricultura de precisión pueden ser agrupadas en tres. En la Figura 1, se
muestran las etapas de la agricultura de precisión con algunas prácticas y los resultados obtenidos a partir de su
desarrollo, donde se observa primero la recolección de datos (etapa 1), que atraviesa un proceso de análisis para
establecer patrones dentro del sistema. A partir de esta información se generan modelos capaces de interpretar
(etapa 2) los datos mediante mapas de aplicación de insumos (etapa 3) georreferenciados para el manejo por
sitio específico con el apoyo de diferentes tecnologías.
Figura 1. Etapas de la agricultura de precisión. Fuente: IICA [27].
4.2. Zonas de manejo
Las ZM se definen como las áreas donde el sistema de producción presenta una combinación similar de
parámetros que limitan el rendimiento. Por lo tanto, requieren de una aplicación específica de insumos. De esta
manera las zonas pueden ser delimitadas por medio de factores que influyen directamente en la productividad
esperada. El número de zonas se plantea en función de la variabilidad natural, la extensión del terreno y la
capacidad de aplicar fácilmente un manejo diferencial dentro del sistema sin aumentar los costos [28].
4.3. Índices de vegetación
El espectro visible e infrarrojo es usado para conocer el estado de la vegetación, debido a que la reflectancia
cambia al igual que sus hojas en el transcurso del tiempo. Las combinaciones de diferentes firmas espectrales
conforman los índices de vegetación, que pueden resaltar diferentes características físicas y químicas de la
vegetación [24].
4.4. Parámetros del suelo y el cultivo
Dentro de los parámetros del cultivo encontramos la cantidad de clorofila, utilizado para evaluar el estado del
nitrógeno de la planta y la actividad fotosintética [29], el índice de reflectancia fotoquímica (PRI, por sus siglas en
inglés), es un índice fisiológico sensible al cambio de pigmentación en el ciclo de xantofilas [30], este último es
un sistema de protección en la fotosíntesis, que permite la expulsión de energía sobrante [31]. Finalmente, se
encuentra el índice de área foliar (LAI por sus siglas en inglés), medido con el fin de analizar la estructura del
dosel y está relacionado con la productividad [32].
En la física y química de suelos, además de la penetrometría son mediciones de los parámetros del suelo. La
medición de la física de suelos presenta conjuntos de variables, que son complementarias entre sí, como
capacidad de campo, punto de marchitez permanente y agua aprovechable. El suelo se toma como depósito de
agua, una vez se realiza el riego, o surge una lluvia abundante, el agua ocupa todos los poros del suelo, de esta
forma queda el suelo saturado, una vez comienza a fluir el agua, llega a un lugar en el subsuelo donde se estanca,
este punto se llama capacidad de campo (ver Figura 2), a partir de este punto, la planta es capaz de adquirir el
agua con facilidad, una vez la planta consume el agua, se agota hasta un nivel del suelo donde las raíces no
alcanzan a absorberla, ni a los nutrientes que hay en ella, este nivel en el suelo se llama punto de marchitez. La
diferencia entre la capacidad de campo y el punto de marchitez es el agua aprovechable [33].
Figura 2. Ilustración de los conceptos de capacidad de campo, punto de marchitez permanente y agua aprovechable.
Fuente: Autor.
También se encuentra la porosidad como medición de la física de los suelos, la cual se define como el espacio
disponible para el agua y el aire, esta se subdivide en macroporos, mesoporos y microporos. Los macroporos
permiten el paso del agua, debido a que esta sección del suelo está compuesta por poros grandes, los mesoporos
muestran un diámetro menor a los macroporos, por ello, el agua pasa con mayor restricción, y los microporos son
capaces de retener el agua debido a que presentan poros más finos [34].
La textura es la fracción de componentes inorgánicos del suelo como arena, limo y arcilla. Es una de las
propiedades más importantes, ya que influye en la fertilidad, retención de agua, entre otras. Se define como el
porcentaje encontrado de los elementos arena, limo y arcilla en las muestras de suelo. La textura se clasifica
según el tamaño de las partículas, arena presenta un tamaño de 2.0 mm a 0.05 mm, limo de 0.05mm a 0.002 mm
y arcilla son partículas menores a 0.002mm [34], [35]. Finalmente, la densidad aparente se refiere al peso por
volumen del suelo. Se define como la compactación del suelo y se utiliza para conocer la resistencia del suelo
ante el crecimiento de las raíces de las plantas [35], [36].
Dentro de las propiedades químicas contamos con la capacidad de intercambio catiónico, la cual describe la
capacidad del suelo de retener e intercambiar ciertos nutrientes [37], las saturaciones se define como el valor de
cada base (calcio, magnesio, sodio o potasio) según la capacidad de intercambio catiónico, esto con el fin de
conocer la disponibilidad de estos nutrientes, y relaciones de propiedades químicas, (Ca/Mg, Mg/K, Ca/B,
(Ca+Mg)/K) son medidas para interpretar la deficiencia o exceso de nutrientes en el suelo [38].
La penetrometría mide la resistencia del suelo a la penetración, que representa la compactación del suelo, de
esta manera se puede conocer la dificultad que puede tener el crecimiento de las raíces, además de las
disponibilidad de agua [39].
4.5. Estados fenológicos de crecimiento
Es una codificación de los estados de crecimiento para todas las plantas, se creó con el fin de hacer más
específicas las escalas y realizar mejores prácticas agrícolas en el registro. Existe una escala general BBCH para
cereales, arroz, maíz, avena, algodón, entre otros [40].
4.6. Interpolación (Kriging)
La interpolación es la estimación del comportamiento de una variable sobre puntos no muestreados. Kriging es
un método de interpolación que basa su análisis en la dependencia espacial, la principal herramienta es el
semivariograma, el cual permite medir la autocorrelación mediante el conocimiento de la varianza, al tomar todas
las muestras por pares con base a la distancia, en este caso la semivarianza es menor cuando la distancia entre
muestras es más cercana, y mayor cuando la distancia aumenta, por ende cuando la distancia entre muestras es
muy lejana, sus valores no están relacionados, de esta forma se construye un semivariograma [41], [42] como se
observa en la Figura 3.
Figura 3. Estructura del semivariograma. Fuente: Jaramillo [41].
El semivariograma se constituye por el sill (C1+Co), ver Figura 3, que es la parte más alta del semivariograma, el
rango que es la distancia donde se alcanza el sill y el nugget (Co) donde el valor del semivariograma es muy
cercano al eje Y. Una vez generado el semivariograma se procede a buscar un modelo que se ajuste a él, entre
los más comunes están el modelo esférico, exponencial y gaussiano. Una vez seleccionado el modelo, se realiza
la interpolación por método de kriging, pero antes, se deben verificar que los datos presenten una tendencia
normal, de no ser así se debe realizar una transformación [41], [42].
4.7. Multispati-pca
Es un análisis multivariado para conocer la variabilidad en un conjunto de datos espaciales, basado en el análisis
de componentes principales PCA y el análisis de dependencia espacial dado a través del índice de Moran. De
esta manera se puede analizar la relación entre variables y la estructura espacial [43].
4.8. Aprendizaje de máquinas
El aprendizaje de máquina, o Machine Learning en inglés, es una rama de la inteligencia artificial que busca
establecer modelos capaces de obtener patrones a partir de un conjunto de datos con el mínimo gasto
computacional en el proceso. Las técnicas de aprendizaje de máquina se pueden clasificar en no supervisado y
supervisado. El aprendizaje no supervisado se utiliza cuando los datos no presentan una estructura a simple vista
de ahí que se utilicen métodos de exploración y análisis. El aprendizaje supervisado se usa sobre bases de datos
donde la salida es conocida, de esta forma, crea patrones a partir de lo observado [44].
4.8.1. Aprendizaje supervisado
El objetivo del aprendizaje supervisado es establecer un modelo a partir de un conjunto de datos etiquetados. De
esta manera puede suministrar predicciones ante datos futuros o datos que no hicieron parte del entrenamiento.
Según la salida, se puede realizar una clasificación si la variable es discreta, o regresión si la variable es continua
[44].
Random Forest
El algoritmo Random Forest, o bosque aleatorio (RF), algoritmo robusto con funcionamiento simple, toma
muestras de la base de datos aleatoriamente, de manera que se genera un árbol con cada muestra de manera
independiente. El resultado de cada árbol será sujeto a un proceso de votación. En el caso de clasificar, cada
árbol vota y la clase más popular es la elegida y, en caso de hacer regresión, se toma el promedio de todos los
resultados de los árboles como respuesta final [44].
Redes Neuronales Artificiales
Este algoritmo es inspirado en el concepto de neurona del ser humano donde simula la conexión y transmisión
de información. Los valores de entrada son multiplicados por unos pesos, el resultado de esta combinación pasa
a través de una función de activación que tiene una salida binaria, de esta forma discrimina entre clases para
realizar la predicción. A partir de la predicción se genera un error con el valor real, con base en el cual se actualizan
los pesos. Es un proceso de optimización en busca de minimizar el error hasta que se cumplan los parámetros
predefinidos en el algoritmo [44].
K-Nearest Neighbors
El algoritmo k-Nearest Neighbors (KNN) o vecinos más próximos se diferencia de los demás, debido a que
aprende sobre la base de datos sin crear una función discriminativa. El k-nearest neighbors toma un punto a
clasificar y lo compara con k muestras en una distancia definida previamente. Las muestras votan según su
cercanía y se selecciona una clase a la cual pertenece el punto según el puntaje más alto [44].
Support Vector Machine
El algoritmo de Support Vector Machine (SVM) divide el hiperplano según las características de entrada como se muestra en
la Figura 4, se considera como margen la distancia entre el hiperplano y las muestras cercanas a estas llamadas vectores de
soporte. El algoritmo busca maximizar el margen ya que al ser más grande es menos propenso al sobreajuste [44].
Figura 4. División del hiperplano. Fuente: Rachka [44]
Operador de Selección y Contracción Menos Absoluta LASSO
LASSO es un método de regresión con contracción. Este algoritmo penaliza la magnitud de los coeficientes
encontrados en el modelo de regresión de modo que añade un parámetro λ (lambda), para reducir la complejidad
y solucionar el problema de sobreajuste [44].
Naïve Bayes
El clasificador Naïve Bayes tiene por objetivo encontrar la hipótesis más probable que describa un conjunto de
observaciones basándose en el teorema de Bayes, el cual está expresado por la ecuación de la Figura 5. Existen
dos tipos de clasificadores naïve Bayes, los cuales son el gaussiano que asume que la distribución estadística de
las características es normal y el multinomial que asume una distribución multinomial. A partir de los datos se
puede seleccionar el tipo de clasificador, ya que es más conveniente usar el clasificador naïve Bayes gaussiano
para datos continuos y el clasificador naïve Bayes multinomial cuando los datos son discretos.
Figura 5. Ecuación del teorema de Bayes. Fuente: Albon [45].
De la anterior ecuación se definen el termino 𝑃(𝑦|𝑥𝑝, … , 𝑥𝑗), como el posteriori, el cual es la probabilidad de que
la observación sea de la clase 𝑦, según las características 𝑥𝑝, … , 𝑥𝑗; 𝑃(𝑥𝑝, … , 𝑥𝑗|𝑦) es el likelihood el cual es la
probabilidad de obtener las características 𝑥𝑝, … , 𝑥𝑗 al definir una clase 𝑦; 𝑃(𝑦) es el prior, definido como el
conocimiento previo acerca de la probabilidad de la clase 𝑦 antes de mirar los datos; 𝑃(𝑥𝑝, … , 𝑥𝑗) que es la
probabilidad marginal [45]. El procedimiento del clasificador es el siguiente, se calcula la probabilidad priori de
una observación sin clasificar para cada clase posible, también se hace el cálculo del likelihood, como la
probabilidad marginal es constante, se compara los numeradores del posteriori y el mayor valor es la clase
predicha.
Gradient Boosting
El modelo de gradient boosting está conformado por árboles de decisiones que se entrenan de manera
secuencial, donde los árboles van aprendiendo de los errores de generados anteriormente. Gradient boosting en
el método de clasificación, genera el primer árbol, denominado aprendiz débil con el que se predice la salida y se
calculan los residuos, estos residuos serán la salida de los datos de entrenamiento del siguiente árbol, de esta
manera, se desarrolla de manera iterativa, de tal forma que se van minimizando los residuos. También adiciona
un valor conocido como tasa de aprendizaje, el cual evita que se genere un sobreajuste [46].
4.8.2. Aprendizaje no supervisado
Dentro de los algoritmos de aprendizaje no supervisado se encuentra el Clustering o agrupamiento, el cual
pretende encontrar una distribución de los datos en grupos que compartan características similares.
K-means
El algoritmo k-means conforma los grupos en función de la similitud entre las características de un conjunto de
datos según un número k de grupos predefinido. De manera aleatoria se asignan k centroides sobre el conjunto
de datos a analizar, luego se asigna cada muestra al centroide más cercano y se realiza la suma de la diferencia
entre la distancia del centroide y cada muestra perteneciente a ese grupo. El proceso se desarrolla de manera
iterativa como un problema de optimización para minimizar la distancia entre las muestras y los centroides [44].
Fuzzy C-Means
Al algoritmo Fuzzy C-Means se le denomina k-means suave debido a su similitud, se diferencia en el proceso de
optimización, ya que la función de membresía representa la plausibilidad de pertenecer a un grupo en un rango
de [0,1], en lugar de ser un valor binario, además presenta un coeficiente difuso que controla el grado de difusidad,
lo que provoca mayor o menor pertenencia de la muestra a un grupo. Debido al aumento de complejidad el Fuzzy
C-Means puede tener mayor costo computacional [44]
McQuitty
El algoritmo McQuitty emplea el agrupamiento jerárquico, el cual se puede dar de dos formas, aglomerativa y
divisiva. La forma aglomerativa parte de muestras individuales y agrupa pares de muestras hasta que quede un
grupo que encierre todo el conjunto de datos, la divisiva se desarrolla en un proceso opuesto [44]. Las muestras
similares se agrupan según la función de distancia propuesta por McQuitty (Ecuación 1) la cual se define como
el promedio entre las distancias calculadas en cada grupo que se pretende unir [26].
Ecuación 1. Función de distancia McQuitty [26]
𝐷 (𝐺𝑥 , (𝐺𝑖, 𝐺𝑗)) =1
2(𝐷(𝐺𝑥 , 𝐺𝑖) + 𝐷(𝐺𝑥 , 𝐺𝑗))
La ventaja de este algoritmo es que no necesita ser estipulada la cantidad de grupos con antelación y la
evaluación en la forma de agruparse en cada iteración se da a través de dendrogramas, definido como la
representación gráfica de los pares de agrupamientos según una función de distancias entre muestras [44].
5. ESTADO DEL ARTE
Las variaciones en el tratamiento de los cultivos, el clima, las plagas, las propiedades intrínsecas del suelo, entre
otros múltiples elementos que cambian de campaña a campaña, por esto se genera una variabilidad espacial que
impacta sobre el rendimiento, debido a esto las investigaciones se han enfocado en identificar zonas dentro del
cultivo donde las diferencias sean menores [47], [48]. En la identificación de estas zonas se requiere información
espacial y temporal del cultivo, por consiguiente, en agricultura de precisión se hace uso de diferentes tecnologías
que permiten la adquisición de información sobre el campo, de manera indirecta mediante la teledetección con el
uso de satélites [49]–[52], y los vehículos aéreos no tripulados (UAV).
Los UAV se han utilizado en diferentes investigaciones sobre la predicción de rendimiento, debido a la capacidad
de monitorear los cultivos a un bajo costo, comparado con el uso de sensores en tierra, las imágenes tomadas
remotamente son capaces de medir indirectamente la información del crecimiento y la salud de la planta, lo cual
permite que los UAV se utilicen para el monitoreo de la agricultura, zonas verdes urbanas, reforestación, entre
otros campos de una forma más rápida y económica. Dentro de las herramientas de teledetección se implementan
cámaras de alta resolución, las cuales cuentan con múltiples rangos de frecuencia que miden diferentes
características de la superficie de las plantas y hojas mediante la reflectancia de las mismas [53], [24].
Las investigaciones han utilizado en métodos de aprendizaje de máquina y minería de datos para su manejo y
procesamiento. Así mismo se han empleado técnicas de aprendizaje supervisado mediante los métodos de
regresión y clasificación para predecir o clasificar el rendimiento en diferentes cultivos, mientras tanto las técnicas
de aprendizaje no supervisado, como el método de agrupamiento, se ha utilizado para identificar zonas
homogéneas [22].
Mediante el cálculo de las bandas espectrales se obtienen los índices de vegetación, dentro de los más usados
se encuentra el NDVI, el cual se relaciona directamente con el crecimiento y salud de la vegetación, y ha sido
relacionado con el índice de área foliar (LAI). Se ha comprobado que el NDVI es muy sensible al brillo del suelo,
así mismo, se han generado modificaciones, como SAVI y OSAVI, ambos adicionan un valor de compensación
al NDVI para mejorar su sensibilidad contra el fondo del suelo [53]. También se ha encontrado que el NDVI
presenta saturación con el aumento de la biomasa, por lo que, se introdujo un nuevo índice, conocido como
NDRE, el cual utiliza la banda rededge en lugar de la banda red, para mejorar su resistencia ante la saturación
[54]. El índice SR fue uno de los primeros índices creados para estimar el LAI, al igual que el NDVI está
correlacionado con la biomasa húmeda y seca [55]. Por otra parte, existen los índices de vegetación basados en
imágenes RGB, como VARI que responde de una directa a los cambios en la vegetación [55], TCARI/OSAVI que
cuenta con mayor sensibilidad al contenido de clorofila [53].
Los índices de vegetación son usados como parámetros de entrada en algoritmos de predicción de rendimiento
como en el estudio de Ballester et al. [23]. También se evidencia el desarrollo de otros métodos de aprendizaje
de máquinas como los algoritmos de regresión lineal, regresión lineal múltiple, redes neuronales artificiales y
random forest implementados en la predicción del rendimiento de maíz como en el estudio de Fu et al. [56]. En la
investigación de Kayad et al. [47] se buscó analizar la relación de los índices de vegetación con la predicción del
rendimiento de maíz. Propusieron tres objetivos, primero evaluar la correlación de algunos índices de vegetación
con el rendimiento, segundo definir la edad adecuada para predecir la variabilidad del rendimiento a escala de
campo y tercero realizar modelos basado en aprendizaje de máquinas para predecir el rendimiento utilizando
imágenes satelitales provenientes del Sentinel 2A.
Las imágenes se obtuvieron sobre un cultivo de arroz de 22 Ha en tres años a partir de los 60 Días Después de
Emergido (DAE), debido a problemas de nubosidad en días anteriores. Las imágenes se correlacionaron con el
rendimiento para cada año usando el coeficiente de determinación R2. Los modelos empleados fueron multiple
regression, random forest y support vector machine fueron entrenados y validados 60 veces dividiendo la base
de datos de manera aleatoria. El rendimiento estimado se comparó con el real proporcionado por un monitor de
rendimiento. A partir de esta investigación se obtuvieron los siguientes resultados, primero, el GNDVI (índice de
vegetación de diferencia normalizado – verde) presentó mayor correlación con el rendimiento de maíz; segundo
las imágenes tomadas entre los 90 y 135 DAE evidencian mayor correlación con el rendimiento, que las imágenes
tomadas en los primeros 80 DAE; y, tercero, el modelo que mejor se desempeñó fue el random forest [47].
Otros estudios han utilizado imágenes satelitales en la predicción de rendimiento, empleando modelos de
aprendizaje de máquinas como las redes neuronales convolucionales CNN, debido a que se cuenta con una base
de datos amplia, como en la investigación de Rusello [24] donde se construyó un modelo CNN 2D y se evaluó el
desempeño con datos históricos y se concluyó a partir de sus resultados que el modelo es más eficiente con la
información más reciente, ya que el modelo pierde precisión al incluir datos de años anteriores. También se
desarrolló un modelo de CNN 3D que considerara los datos temporales y espaciales, y se comparó con el modelo
CNN 2D y otros algoritmos como Ridge regression y Decision Tree. Los resultados del modelo tridimensional
evidencian que superan los otros métodos de aprendizaje automático.
En la investigación de Pantazi et al [57], se utilizaron imágenes tomadas de manera remota y algunas propiedades
físicas y químicas del suelo en un cultivo de 22 Ha. A partir de imágenes satelitales se calculó el NDVI y las
propiedades fueron el resultado de relacionar las mediciones espectrales realizadas con un sensor óptico y el
análisis de laboratorio de calcio, magnesio, fósforo, nitrógeno, capacidad de intercambio catiónico, contenido de
humedad, carbono orgánico.
El estudio tenía por objetivo predecir el rendimiento de trigo en clases de bajo, medio y alto, además buscaba
identificar zonas relacionadas con la productividad empleando mapas autoorganizados los cuales están basados
en redes neuronales. Los resultados reflejan que los mapas autoorganizados de las variables sensadas permitían
detectar a simple vista la relación entre la distribución espacial del NDVI y la variabilidad del rendimiento.
Finalmente, en la predicción del rendimiento bajo, medio y alto se logró una precisión del 90%, 70% y 80% [57].
Otro estudio buscó relacionar parámetros del suelo e índices de vegetación y suelo con el rendimiento de maíz.
En el estudio de Khanal et al. se tomaron imágenes sobre siete áreas con una cámara digital y un sensor LiDAR
a bordo de una aeronave y las muestras de suelo fueron tomadas en 200 puntos. Los modelos empleados para
realizar la predicción de rendimiento y variables del suelo fueron linear regression, random forest, support vector
machine, stochastic gradient boosting model, neural network y cubist. Para la predicción de cada variable de suelo
y rendimiento se tomaron los datos multiespectrales como las variables predictoras y una vez aplicados los
modelos, los resultados obtenidos demostraron que las mediciones más significativas fueron NDVI, índice de
saturación y dirección de flujo en la predicción de maíz y el modelo de random forest mostró mejor desempeño
que los otros modelos [13].
Delimitación de zonas
La delimitación de zonas ha sido ampliamente estudiada por los investigadores y se han desarrollado múltiples
técnicas donde se han considerado diferentes conjuntos de variables, tanto de propiedades del suelo, como los
índices de vegetación. En Jaramillo et al. se planteó determinar la distribución espacial de algunas propiedades
químicas del suelo para delimitar zonas con características homogéneas. Las variables medidas fueron pH,
materia orgánica, P, Ca, Mg, K, Na, S, Fe, Mn, Cu, Zn, B, conductividad eléctrica y capacidad de intercambio
catiónico efectivo. Los resultados determinaron que el azufre influye sobre la delimitación de zonas homogéneas,
entre otras propiedades químicas como el pH, aluminio, materia orgánica y capacidad de intercambio catiónico.
Según las propiedades del suelo se logró dividir el área en cuatro zonas diferenciables [58]. También se ha usado
la conductividad eléctrica aparente como única medición para determinar zonas homogéneas. La adquisición de
esta medición es más eficiente y económica, que la toma muestras del suelo, además muestra gran relación con
varias propiedades fisicoquímicas [5].
• Datos sensados remotamente
Las imágenes tomadas a partir de satélites son una buena alternativa para generar mapas de zonas. A partir de
ellas se obtienen índices de vegetación relacionados con la productividad. La ventaja de las imágenes satelitales
es su fácil adquisición y la capacidad de observar grandes extensiones de tierra rápidamente a un bajo costo. En
la investigación de Damian et al. el objetivo fue comparar los mapas de rendimiento con los mapas del índice de
vegetación de diferencia normalizado NDVI sobre tres áreas en tres campañas para los cultivos de avena, trigo,
soja y maíz. El rendimiento fue obtenido a partir de un monitor de rendimiento y el NDVI fue calculado de las
imágenes de los satélites Landsat 7 y 8. Utilizando el algoritmo de agrupamiento Fuzzy C-means se delimitaron
dos zonas homogéneas con bajo y alto potencial de rendimiento, además los resultados mostraron estrecha
correlación espacio – temporal con el NDVI [52].
El estudio de Ohana et al utilizó índices de vegetación adquiridos con ayuda de un vehículo aéreo no tripulado
UAV, entre ellos el NDVI y el índice de estrés hídrico CWSI. Empleó los parámetros de suelo como pH,
profundidad de penetración, resistencia eléctrica entre otros, para la determinación de zonas de manejo y, a su
vez conocer la relación de las mediciones con la variabilidad espacial del rendimiento en un viñedo [14].
• Otros
Algoritmos como Fuzzy C-means y K-means son ampliamente utilizados en investigaciones para delimitar zonas
homogéneas, sin embargo, se ha demostrado que no son las mejores técnicas a implementar para esta tarea,
por esta razón, en Gavioli et al. comparan 20 algoritmos de agrupamiento sobre tres campos. El procedimiento
implementado fue realizar un pre-procesamiento de la información estandarizando los valores de rendimiento y
obteniendo un análisis de componentes espaciales principales de las variables medidas, la información resultante
genera dos componentes que funcionan como entrada para los algoritmos de agrupamiento. La división de las
zonas se evalúa a través análisis de variancia (ANOVA), índice de reducción de variancia, coeficiente de silueta
promedio y coeficiente Kappa. Los resultados obtenidos sugieren que los algoritmos de agrupamiento jerárquico
McQuitty y Fanny son mejores para delimitar zonas homogéneas, y los segundos mejores fueron Fuzzy C means
y K-means [26].
6. MACROPROYECTO
El macroproyecto “Manejo por sitio específico del agua del riego, el nitrógeno y las malezas en el sistema de
producción Arroz, Maíz-Algodón en el Departamento del Tolima” de la Corporación Colombiana de Investigación
Agropecuaria, AGROSAVIA centro de investigación Nataima, se propuso a partir de la problemática sobre el alto
consumo de agua en los cultivos de arroz en el Tolima, asociado a malas prácticas de riego. La aplicación de
agua se realiza de manera homogénea sin tener en cuenta la variabilidad espacial de los parámetros hidrofísicos
del suelo durante la campaña. Es por ello que se plantea como solución generar estrategias para el manejo del
recurso suelo-agua mediante herramientas de agricultura de precisión que permitan identificar, monitorear y
delimitar las áreas para realizar el tratamiento de la variabilidad espacio-temporal mediante la aplicación de
insumos por sitio específico.
El objetivo general del proyecto es “Contribuir a la recuperación de la capacidad productiva de los sistemas de
producción arroz, maíz-algodón mediante estrategias de manejo eficiente del agua, nitrógeno y malezas”. Para
alcanzar este objetivo se plantean los siguientes objetivos específicos:
1. Establecer metodologías para identificar zonas de manejo (heterogeneidad) dentro de un lote productivo
para aplicación de riego por sitio especifico (aplicación diferencial) basado en la variabilidad espacial de las
características hidrofísicas del suelo y el rendimiento del cultivo;
2. Diseñar, integrar y evaluar tecnologías y estrategias de AC y AP para el aprovechamiento y recuperación
de las zonas de suelos degradadas (identificadas dentro del lote productivo), para un manejo eficiente del agua,
nitrógeno y malezas del sistema de producción arroz, maíz-algodón;
3. Evaluar la viabilidad del manejo por sitio específico (aplicación diferencial de los recursos dentro de un
lote productivo) a través de un análisis económico y un seguimiento al experimento;
4. Validar el modelo AquaCrop como una herramienta en la toma de decisiones de uso eficiente del agua
para el sistema de producción arroz, maíz-algodón
El desarrollo del presente proyecto busca aportar al primer objetivo específico mediante la delimitación de zonas
de manejo uniendo dos metodologías ampliamente utilizadas en la literatura.
7. DESCRIPCIÓN DE LA INVESTIGACIÓN
El proyecto de agricultura de precisión propuesto en el macroproyecto se puede ver a través de un lazo cerrado
de control como en la Figura 6. Donde los bloques se encuentran distribuidos de la siguiente manera, la planta
es el sistema de producción de los cultivos arroz, maíz o algodón evaluados en el presente estudio. El sensor es
la adquisición de los datos que atraviesan un proceso de análisis mediante modelos relacionados con el
rendimiento, los resultados pueden ser interpretados a través de mapas de zonas de manejo. El comparador
toma la información del rendimiento de la campaña anterior o el rendimiento estimado en algunos casos, y
determina el error con la referencia, que sería el rendimiento esperado. El controlador es el momento en el cual
el agricultor observa el error y toma las decisiones basado en el mapa de zonas de manejo. El actuador es
cuando se procede a efectuar el manejo sobre el cultivo.
Figura 6.Esquema de control de un sistema de producción. Fuente: Autor.
El enfoque de la presente investigación toma como referencia el anterior lazo de control para centrarse en los
bloques de controlador y sensor como se muestra en la Figura 7. El sensor toma las mediciones de las
propiedades del suelo, las características del cultivo y la información de imágenes espectrales hasta mitad del
ciclo (60 Días Después de Emergido DAE) para la realización de dos tareas: La predicción de rendimiento y la
identificación de zonas homogéneas. Los resultados obtenidos presentarán la distribución espacial de los
parámetros relacionados con el rendimiento predicho para conformar el mapa de zonas de manejo.
Figura 7. Bloque de controlador y sensor del lazo de control. Fuente: Autor.
8. METODOLOGÍA
Las actividades realizadas en este trabajo para la construcción de los modelos de predicción de rendimiento e
identificación de zonas homogéneas se encuentra en la Figura 8: 1) El procesamiento de imágenes
multiespectrales; 2) La construcción de la base de datos a 72 puntos según los puntos de muestreo; 3) Selección
de las variables mediante la correlación de los datos de entrada con la salida, la autocorrelación espacial y la
matriz de correlación; 4) Análisis de componentes principales espaciales; 5) Interpolación a 5000 puntos de las
imágenes multiespectrales, los parámetros del suelo y el cultivo y los componentes principales espaciales; 6)
Construcción de la base de datos a 5000 puntos según el modelo a desarrollar. Para el modelo de predicción de
rendimiento se construyen tres bases de datos: Todas las variables (Imágenes multiespectrales + parámetros del
suelo), imágenes multiespectrales y parámetros del suelo por separado. Para el modelo de identificación de zonas
homogéneas se construyeron tres bases de datos: Todas las variables (Imágenes multiespectrales + parámetros
del suelo), imágenes multiespectrales y componentes principales espaciales. Finalmente, 7) Modelo de predicción
de rendimiento; 8) Modelo de identificación de zonas homogéneas.
Figura 8. Diagrama de flujo del desarrollo metodológico implementado. Fuente: Autor.
8.1. Área de estudio
El lote experimental se ubicó en la región central de Colombia, en el Municipio de el Espinal del departamento del
Tolima. Con coordenadas geográficas 4° 11´04´´ N 74°57´50´´O, a 368 metros sobre el nivel del mar Figura 9. El
campo tenía un área de 50000 m2. En el marco de desarrollo del macro proyecto “Manejo por sitio específico del
agua del riego, el nitrógeno y las malezas en el sistema de producción Arroz, Maíz-Algodón en el Departamento
del Tolima” de la Corporación Colombiana de Investigación Agropecuaria AGROSAVIA, centro de investigación
Nataima, se realizó la toma de imágenes en el rango visible y multiespectral sobre los cultivos, adicionalmente se
realizaron mediciones en campo del rendimiento, parámetros del suelo y características de las plantas en cultivos
arroz y maíz de dos temporadas, además de una temporada de algodón para los años 2019, 2020 y 2021,
solamente se tomaron las mediciones hasta la mitad del ciclo para cada cultivo (60 días después de emergido).
Rev
isió
n b
ibli
ográ
fica
En la Tabla 1 se presentan las fechas de adquisición, los días después de emergido y los estados fenológicos
correspondientes según la escala BBCH [40].
Figura 9. Mapa de localización del lote experimental y cuadrícula de muestreo.
El cultivo de algodón se sembró con la variedad de algodón FM1035, con una tasa de siembra de 12 kg ha-1.
Para el cultivo de arroz se estableció la variedad Fedearroz 67, con una tasa de siembra de 120 kg ha-1. El cultivo
de maíz se sembró con el 3966VYHR LEPTRA usando una tasa de siembra de 15 kg ha-1. Los tres cultivos
tuvieron un manejo agronómico basado en las prácticas locales de producción. El control de plagas y
enfermedades se realizó de acuerdo con la incidencia y severidad de estos. El manejo del cultivo se aplicó de
forma homogénea en el campo, de tal forma que la variabilidad observada no tuviera efecto de las prácticas de
cultivo.
Tabla 1. Fechas de adquisición de las mediciones para los cultivos de arroz, maíz y algodón, con sus respectivos días de
emergido y los estados fenológicos de crecimiento BBCH.
Cultivo Fechas Días Después de
Emergido Estado fenológico de crecimiento
Código Descripción
Arroz (primera
campaña)
17112018 - Siembra
16012019 56 41 Estadio hinchado temprano: (embuchamiento)
23012019 63 65 Plena floración (Floración)
12-14032019 - Cosecha
Arroz (segunda campaña)
18102019 - Siembra
13122019 52 41 Estadio hinchado temprano: (embuchamiento)
23122019 62 65 Plena floración (Floración)
14022020 - Cosecha
Maíz (primera
campaña)
12042019 - Siembra
14-16052019 33 19 9 o más hojas, desplegadas.
30052019 49 53 Visible el extremo del penacho
13062019 63 63 (M) Comienza a desprenderse el polen. (F) Puntas de los estigmas, visibles.
28082019 - Cosecha
Maíz (segunda campaña)
26102020 - Siembra
01-02122020 32-33 19 9 o más hojas, desplegadas.
17122020 48 53 Visible el extremo del penacho
29122020 60 61
(M) Estambres de la parte central del penacho, visibles. (F) Punta de la mazorca, saliendo de la vaina foliar.
09032021 - Cosecha
Algodón (Única
campaña)
20032020 - Siembra
06052020 43 60 Primeras flores abiertas
18052020 54 61 Comienzo de la floración (Floración)
27052020 63 65 Floración principal (Floración)
27082020 - Cosecha
8.2. Datos de suelo y el cultivo
En el mismo lote productivo de 5 Ha se implementó una grilla fija de muestreo de 25x25m de distancia donde se
identificó la coordenada central de cada cuadricula, definida de esta manera por un estudio de variabilidad de las
propiedades del suelo realizado con antelación. La adquisición de muestras de suelo y mediciones de los
parámetros del cultivo se realizó sobre cada punto. En la Tabla 2, se encuentra compilada cada variable con la
nomenclatura usada dentro de este informe, unidades y equipo o método de medición. Las variables fueron
agrupadas según los tres tipos de medición de los parámetros del suelo: la física de los suelos, propiedades
químicas y penetrometría; las mediciones del cultivo y el rendimiento.
Tabla 2. Variables de parámetros del suelo, mediciones del cultivo el rendimiento.
Tipo de mediciones
Mediciones Nom Unidades/ parámetro
Equipo/método de medida
Mediciones del cultivo
Cantidad de clorofila relativo RCC N.A SPAD
Índice de reflectancia fotoquímica PRI N.A Sensor PRI
Índice de área foliar LAI N.A Ceptómetro
Física de suelos
Capacidad de campo FC N.A Ollas de presión de Richards
Punto de marchitez permanente PWP N.A Ollas de presión de Richards
Agua aprovechable UW N.A Calculada
Densidad aparente AD % Calculada
Macroporos MacroP % Calculada
Mesoporos MesoP % Calculada
Microporos MicroP N.A Ollas de presión de Richards
Arena (Textura) Sand % Método de Bouyoucos
Arcilla (Textura) Clay % Método de Bouyoucos
Limo (Textura) Silt % Método de Bouyoucos
Propiedades químicas
Grado de acidez o alcalinidad pH pH Medidor de pH
Materia orgánica OM % Walkley- Black
Fósforo P mg.kg-1 Bray II modificado
Azufre S mg.kg-1 Análisis químico
Calcio Ca cmol(+).Kg-1 Análisis químico
Magnesio Mg cmol(+).Kg-1 Análisis químico
Potasio K cmol(+).Kg-1 Análisis químico
Sodio Na cmol(+).Kg-1 Análisis químico
Capacidad de intercambio catiónico CEC cmol(+).Kg-1 NH4OAc pH:7
Hierro Fe mg.kg-1 Análisis químico
Manganeso Mn Análisis químico
Zinc Zn mg.kg-1 Análisis químico
Cobre Cu mg.kg-1 Análisis químico
Boro B mg.kg-1 Análisis químico
Saturación de calcio SatC N.A Calculada
Saturación de magnesio SatM N.A Calculada
Saturación de potasio SatK N.A Calculada
Saturación de sodio SatN N.A Calculada
Relación de calcio y magnesio Ca/Mg N.A Calculada
Relación de calcio más magnesio con potasio
(Ca+Mg)/K N.A Calculada
Relación de magnesio y potasio Mg/K N.A Calculada
Relación de calcio y boro Ca/B N.A Calculada
Penetrometría Resistencia a la penetración RP MPa Penetrómetro
Profundidad de penetración PD cm Penetrómetro
Rendimiento
Rendimiento de granos de arroz Yield Kg ∙ ha−1 Manual
Rendimiento de granos de maíz Yield Kg ∙ ha−1 Manual
Rendimiento de fibra de algodón Yield Kg ∙ ha−1 Manual
Fuente: Autor. N.A: No Aplica; Nom: Nomenclatura
8.3. Imágenes tomadas remotamente
La adquisición de imágenes se realizó con la ayuda de un drone multirotor Matrix 200 V1 DJI, China, una cámara
RGB Zenmuse X4S de 20 megapixeles y Multiespectral Micasense Rededge-M camera con sensor de 12 bits de
resolución de 1280x960 pixeles con las bandas espectrales BLUE (475nm), GREEN (560nm), RED (668nm),
REDEDGE (REDGE) (717nm), and NIR (842nm) para algodón, la primera campaña de arroz y la primera y
segunda campaña de maíz; para la segunda campaña de arroz se usó la cámara Multiespectral Micasense Altum
con sensor de 12 bits con resolución de 2064x1544 pixeles. La trayectoria de los vuelos se planeó
automáticamente para una cuadrícula generada sobre el área a estudiar donde se adquirió una serie de ortofotos.
Los vuelos se realizaron durante los estados fenológicos presentes en la Tabla 1 en alturas de 80m y 90m con
80% de superposición.
Figura 10. Diagrama de flujo del procesamiento de imágenes.
El proceso paso a paso del procesamiento de las imágenes, se encuentra en la Figura 10. Las ortofotos obtenidas
por las cámaras RGB y multiespectrales, son procesadas en el software Pix4Dmapper como se menciona en el
ANEXO A, una vez se cuenta con las imágenes se procede a realizar el cálculo de los índices de color e índices
de vegetación de la Tabla 3, este procedimiento se realiza con el software MATLAB (ANEXO B), donde se importa
como entrada las imágenes necesarias para calcular el índice, se toman los metadatos de una imagen de
referencia, a continuación, se calcula la expresión del índice con las imágenes importadas, luego, a la imagen
resultante se adjuntan los metadatos y se exporta. El cálculo de los índices de color se realiza de manera
diferente, ya que se deben dividir los canales en la imagen RGB (ANEXO C), una vez se tengan los canales por
separados se procede a normalizar cada banda según las expresiones de la Tabla 3, luego, los índices de color
se calcularon con el software QGIS, usando la calculadora ráster.
Las imágenes son recortadas en 72 puntos georreferenciados, donde se tomaron las mediciones del suelo y el
cultivo. El recorte de las imágenes se realiza utilizando PyQGIS, donde se implementa un código en lenguaje
Python para usar la función clip_raster_by_vector, que llama la imagen y un vector, de esta manera se recorre
sobre cada imagen y luego cada vector, para hacer múltiples recortes sobre cada imagen, posteriormente los
recortes resultantes son guardados en el directorio seleccionado (ANEXO D). El recorte de las imágenes se
realiza con el fin de poder tomar un valor representativo de los índices y bandas espectrales sobre cada punto de
muestro, de esta forma se tendría un conjunto de datos de igual resolución (parámetros del suelo e imágenes).
Los recortes de las imágenes (índices de color, índices de vegetación y bandas espectrales) a 72 puntos, se
promedian usando MATLAB. Los recortes son importados según las fechas y bandas seleccionadas, luego, se
hace un recorrido sobre el grupo de recortes. Se toma como referencia la imagen NDRE donde los pixeles sean
iguales o mayores a 0.1, esto se debe a que puede haber valores atípicos dentro de la imagen, o información del
suelo que no es apropiada para dar un valor representativo del índice en las plantas dentro de la imagen. El
recorte es vectorizado y se toman los valores que superen el umbral, al mismo tiempo, se toma un recorte de otro
índice de vegetación o banda espectral para el mismo punto de muestro, se vectoriza y se filtran sus valores para
tomar los que superen donde NDRE sea mayor o igual a 0.1. Luego se crea una matriz con los promedios de las
imágenes y se exporta a un documento en Excel (ANEXO E).
En cada fecha las imágenes multiespectrales presentan la misma resolución, pero al cambiar la fecha, su
resolución difiere, por eso es posible encontrar la posición donde el NDRE sea mayor o igual a 0.1 y que
concuerde con las demás imágenes. En el caso de las imágenes tomadas con la cámara RGB hay una
incompatibilidad, ya que fueron tomadas con otra cámara y por ende muestra una resolución diferente. Como
solución a este problema se debe procede a cambiar la resolución a las imágenes de los índices de color, y de
esta forma, la cantidad de pixeles para cada fecha de las imágenes RGB, concuerda con el la cantidad en las
imágenes multiespectrales. El procedimiento se realizó en QGIS usando la herramienta calculadora ráster, el
procedimiento paso a paso se encuentra en el ANEXO F.
Tabla 3. Expresiones para el cálculo de los índices de color y vegetación con las imágenes multiespectrales.
Tipo de medición
Nomenclatura Ecuación Ref.
Bandas visibles
R Rojo visible 𝑅
𝐺 + 𝑅 + 𝐵 [59]
G Verde visible 𝐺
𝐺 + 𝑅 + 𝐵 [59]
B Azul visible 𝐵
𝐺 + 𝑅 + 𝐵 [59]
Índices de color
Índices de color
EXG Exceso de verde 2 ∗ 𝐺 − 𝑅 − 𝐵 [59]
EXR Exceso de rojo 1.4 ∗ 𝑅 − 𝐺 [59]
EXRG Exceso de rojo y verde 3 ∗ 𝐺 − 2.4 ∗ 𝑅 − 𝐺 [59]
GLI 2 ∗ 𝐺 − 𝐵 − 𝑅
2 ∗ 𝐺 + 𝐵 + 𝑅
[59]
NDI 𝐺 − 𝑅
𝐺 + 𝑅
[59]
VARI 𝐺 − 𝑅
𝐺 + 𝑅 − 𝐵
[59]
Índices de vegetación
Índices de vegetación
NDVI Índice normalizado diferencial de vegetación
𝑁𝐼𝑅 − 𝑅𝐸𝐷
𝑁𝐼𝑅 + 𝑅𝐸𝐷 [60]
GNDVI Índice normalizado diferencial de vegetación – verde
𝑁𝐼𝑅 − 𝐺𝑅𝐸𝐸𝑁
𝑁𝐼𝑅 + 𝐺𝑅𝐸𝐸𝑁 [60]
NDRE Índice normalizado diferencial de borde rojo
𝑁𝐼𝑅 − 𝑅𝐸𝐷𝐺𝐸
𝑁𝐼𝑅 + 𝑅𝐸𝐺𝐷𝐸 [60]
SAVI Índice de vegetación ajustado al suelo
1.5(𝑁𝐼𝑅 − 𝑅𝐸𝐷)
𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.5 [60]
OSAVI Índice de vegetación ajustado al suelo optimizado
1.16(𝑁𝐼𝑅 − 𝑅𝐸𝐷)
𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.16 [60]
SR Proporción de vegetación 𝑁𝐼𝑅
𝑅𝐸𝐷 [60]
GVI Índice de vegetación verde 𝑁𝐼𝑅
𝐺𝑅𝐸𝐸𝑁 [60]
SCCCI Índice de contenido de clorofila del dosel simplificado
𝑁𝐷𝑅𝐸
𝑁𝐷𝑉𝐼 [23]
TACARI/OSAVI
La absorción de clorofila transformada en índice de reflectancia / índice de vegetación optimizado ajustado al suelo
[3 [(𝑅𝐸 − 𝑅𝐸𝐷) − 0.2(𝑅𝐸 − 𝐺𝑅𝐸𝐸𝑁) (𝑅𝐸𝑅𝐸𝐷
)]]
[(1 + 0.16) ∗𝑁𝐼𝑅 − 𝑅𝐸𝐷
𝑁𝐼𝑅 + 𝑅𝐸𝐷 + 0.16]
[61]
Fuente: Autor. Ref: Referencia
8.4. Selección de variables
Las imágenes multiespectrales y los parámetros del suelo se encuentran a 72 puntos y a partir de ellos, se puede
conformar la base de datos. A continuación, se procede a realizar la selección de variables mediante la correlación
entre las mediciones con el rendimiento y la autocorrelación espacial. En primera medida, se midió la normalidad
de las variables, y a partir de esta se determinó que muchas mediciones eran no paramétricas, razón por la cual,
se procedió a utilizar el coeficiente de Spearman para medir su correlación con el rendimiento. En segunda
medida, se calcula la autocorrelación espacial debido a que el rendimiento se ve afectado por la variabilidad
espacial de los factores y es necesario medir su grado de dependencia espacial, y se utiliza el índice de Moran
para determinarlo.
Una vez se conozca la correlación con el rendimiento y la autocorrelación espacial, se emplea el criterio de
selección donde, primero, si el cultivo cuenta con dos campañas, se deben elegir las variables que, en por lo
menos, una campaña da un resultado significativo (p-value > 0.05), tanto en la evaluación de la correlación de
Spearman como el índice de Moran. Segundo, si tanto en la correlación, como la autocorrelación son
significativas, en ese caso se selecciona esa variable para el análisis posterior. A continuación, se realiza un
análisis de correlación sobre todas las variables restante, mediante una matriz de correlación, la cual evalúa en
un rango de -1 a 1 la relación entre las mediciones, luego se procede a descartar las variables con alta correlación
esto quiere decir que tenga un valor superior a 0.9 o menor a -0.9, y este conjunto de mediciones representa un
conjunto correlacionadas con el rendimiento, con dependencia espacial y baja correlación entre variables.
8.5. Análisis de componentes principales espaciales
A partir del procedimiento anterior se conforma la base de datos de imágenes multiespectrales, parámetros del
cultivo y propiedades físico-químicas del suelo a 72 puntos. La base de datos se importa en R Studio donde se
encuentra el algoritmo para el análisis de componentes principales espaciales (MULTISPATI-PCA) (ANEXO H).
El MULTISPATI-PCA, incorpora la información espacial, dada por el índice de Moran, antes de ser generadas las
variables sintéticas en el análisis de componentes principales (PCA).
La función multispati de la librería ade4 en lenguaje R, utiliza los diagramas de dualidad y los pesos espaciales
para realizar el análisis, donde los diagramas de dualidad tienen en cuenta las contribuciones y dimensiones
obtenidas de cada variable, además de la interdependencia entre variables y las dimensiones del conjunto de las
mismas. Mientras tanto, los pesos espaciales representan la contigüidad de vecinos por distancia entre los puntos
de una región, en este caso se utilizan solamente las coordenadas.
8.6. Interpolación de parámetros del suelo y el cultivo
Del conjunto de datos se toman los parámetros medidos en campo y se realiza la prueba de Shapiro-Wilks para
determinar si el conjunto de 72 puntos presenta una tendencia normal, de ser así el resultado de la prueba arroja
un valor de significancia mayor a 0.05, en caso contrario, se procede a hacer una transformación de normalidad
por el método de boxcox. A continuación, se genera el semivariograma con unos parámetros establecidos a
prueba y error y se ensayan diferentes modelos que se ajusten al semivariograma. Se probaron los modelos
esférico, gaussiano y exponencial, en conjunto con dos métodos de estimación de parámetros del
semivariograma: por mínimos cuadrados ajustados con opciones para mínimos cuadrados ordinarios (OLS) y
ponderados (WLS), y por métodos basados en verosimilitud con opciones para máxima verosimilitud (ML) y
máxima verosimilitud restringida (REML). La interpolación se realiza utilizando el método de Kriging a 5.000
puntos, donde se prueban los semivariogramas generados en el paso anterior, y se evalúa la interpolación
mediante la medición del R2 y la raíz del error cuadrático medio (RMSE).
Las imágenes del conjunto de datos, son recordadas a 5.000 puntos georreferenciados, luego se utiliza el mismo
método que en la sección de imágenes tomadas remotamente, para encontrar un valor de la imagen para cada
punto. De esta forma se conforma la base de datos con las imágenes y los parámetros del suelo y el cultivo a
5000 muestras para realizar la predicción de rendimiento e identificación de zonas homogéneas.
8.7. Predicción de rendimiento
La base de datos se conforma de tres maneras diferentes: i) ALL: Todas las variables, que cuenta con las
imágenes multiespectrales y parámetros del suelo y el cultivo en conjunto, ii) MI: Imágenes multiespectrales
solamente y iii) SOIL: Parámetros del suelo y el cultivo. Las tres bases de datos se utilizan de manera
independiente en la predicción de rendimiento para comparar la efectividad de cada una de ellas en la predicción
de rendimiento. Los datos de entrada se mezclan aleatoriamente de manera estratificada según el rendimiento,
luego, se realiza la estandarización a los datos, a pesar de que entre los algoritmos que se utilizan, el random
forest (RF) y el support vector machine (SVM) no requieren de este procedimiento en comparación a los demás,
a pesar de ello, su resultado no varía, posteriormente se dividen los datos en 70% para entrenamiento y 30%
para validación.
La predicción de rendimiento se realiza mediante dos enfoques de aprendizaje de máquinas, mediante regresión
y clasificación donde se usa la libraría sklearn en lenguaje Python, se utilizan estos dos métodos, ya que es
necesario evaluar cuál es el mejor en la predicción de rendimiento con los datos y campañas disponibles para
cada cultivo. En la regresión los datos de rendimiento son continuos, mientras que, en la clasificación, los datos
de rendimiento son discretos, por esta razón, se divide en tres clases: bajo, medio y alto. Se utilizan los algoritmos
random forest (RF), k-nearest neighbor (KNN) y support vector machine (SVM) para los dos métodos
mencionados, además se evalúan LASSO y multilayer perceptron (MLP) en regresión, mientras tanto, en
clasificación se prueban los algoritmos gaussian naïve bayes (NB) y gradient boosting (GRB). La validación de
los algoritmos de regresión se analiza mediante el R2 y el RMSE, en cuanto, a la clasificación se utiliza la exactitud
y la matriz de confusión.
8.8. Identificación de zonas homogéneas
Al igual que en la predicción de rendimiento, se conforman tres bases de datos de la siguiente manera: i) ALL:
Todas las variables, ii) MI: Imágenes multiespectrales y iii) CPE: Componentes principales espaciales, sin
embargo, como las zonas tienden a ser invariantes en el tiempo, se utiliza solamente la última campaña de cada
cultivo. Para la identificación de zonas homogéneas se utilizan dos algoritmos de agrupamiento por partición
Fuzzy C-Means (FCM) y Kmeans (KMS) y un algoritmo de agrupamiento jerárquico, McQuitty (MQY). También
se selecciona la cantidad de zonas a las que se podría dividir el lote, debido a que el lote es mediano (50ha), se
procede a definir como dos, tres y cuatro zonas para comparar.
Una vez se realice la identificación de zonas, se procede a realizar un suavizado a las zonas establecidas para
definir las áreas propuestas por los modelos a un nivel más práctico, para ello, se utiliza el filtro de la mediana,
luego se realiza un submuestreo estratificado de los datos, para la validación en la segmentación dada por los
algoritmos de agrupamiento, ya que 5000 muestras por cada variable representan alto coste computacional y
tiempo de ejecución. En el submuestreo se identifica el porcentaje de muestras que hay por clase, y se selecciona
un número menor de muestras como límite, luego se calcula qué porcentaje de muestras ocupa cada clase para
ese nuevo máximo. Este procedimiento se realiza de para todas las clases generadas en las diferentes pruebas.
El propósito es evaluar la variación del rendimiento en las zonas y determinar qué variables influyen en su
segmentación, para ello, se utiliza el método ANOVA para determinar si las zonas encontradas son diferentes,
esto se realiza mediante la comparación de la varianza de las medias de cada grupo en relación a la varianza
total de la variable evaluada, al tener un resultado significativo (p<0.05) se cumple la hipótesis nula que plantea
que la varianza en cada grupo debe ser menor a la varianza total. Además, se realiza la comparación de medias
de Tukey para identificar exactamente los grupos que presentaron esas diferencias en la división de las zonas,
comparando las medias de cada grupo por pares, si presentan diferencia a cada zona se asignará una letra
diferente, en caso contrario a cada zona se le asignará la misma letra.
Finalmente, el índice de reducción de varianza se calcula conociendo que la suma de las variaciones de los datos
de las zonas es menor a la varianza total, de esta forma entre mayor sea el índice demuestra una mejor
separación de los grupos por parte del algoritmo. El mejor modelo se selecciona si demuestra mayor reducción
de varianza y las zonas están adecuadamente separadas. También se determinan las variables que influyeron
sobre la delimitación de zonas.
9. RESULTADOS Y DISCUSIÓN
9.1. Cultivo de arroz
9.1.1. Procesamiento de imágenes
Las ortofotos tomadas por el UAV fueron procesadas con el software Pix4D Mapper y se obtuvieron los
ortomosaicos de las bandas espectrales (BLUE, GREEN, RED, NIR y REDEDGE) para las fechas establecidas
entre 52 a 63 días después de emergido (DDE) como se muestra en la Tabla 1, luego de ello, se calcularon los
índices de vegetación GNDVI, GVI, NDRE, NDVI, SAVI, OSAVI y SR. Los índices de color no se calcularon dado
que, en la primera campaña del cultivo de arroz, se realizaron vuelos únicamente con la cámara multiespectral,
en caso contrario, de la segunda campaña se cuenta con imágenes RGB, pero se desconsideran, de esta forma,
se puede contar con la misma información en las dos campañas.
Las imágenes presentan diferencias en el patrón de distribución de NDVI y NDRE entre la primera y segunda
campaña (Figura 11 y Figura 12), esto sugiere que existen diferentes características que representan un cambio
en el cultivo, como podría ser el tratamiento del agricultor o condiciones climáticas. Se analizaron las imágenes
de NDVI y NDRE, a causa de conocer previamente el estado del cultivo, ya que está relacionado con el nitrógeno
en las plantas y este con el estado de las mismas, ahora bien, se evidencia que el NDVI en etapas muy tempranas
del cultivo en la primera campaña (Figura 11), se encuentra saturado ya que presenta valores alrededor de 0.9,
esto se debe al brillo del suelo, según diferentes estudios [53]. En comparación al NDVI, el índice NDRE se
encuentra en rangos aceptables para las fechas estudiadas.
Figura 11. Imágenes de NDVI y NDRE (de izquierda a derecha) en la primera campaña del cultivo de arroz para
los dos estados fenológicos estudiados (de arriba hacia abajo).
En la segunda campaña de arroz (Figura 12), el NDVI indicó valores negativos, esto puede deberse a que el lote
se encontraba más inundado que la primera campaña, y además por la deformación del suelo, se muestra un
estancamiento en el centro, en comparación a los bordes, donde el índice muestra valores más altos, alrededor
de 0.9. Al igual que en la primera campaña, este índice se encuentra saturado, mientras que el NDRE se
encuentra en rangos aceptables.
Figura 12. Imágenes de NDVI y NDRE (de izquierda a derecha) en la segunda campaña del cultivo de arroz para los dos
estados fenológicos estudiados (de arriba hacia abajo).
9.1.2. Análisis de datos
A partir de las imágenes se realizaron recortes de 72 puntos, para construir una base de datos en conjunto con
los parámetros del suelo y el cultivo. El análisis descriptivo donde se calculó la media, desviación estándar, y el
coeficiente de variación. En la Tabla 4 se evidencia que el coeficiente de variación (CV) es más alto en la segunda
campaña que en la primera, donde los índices NDVI, OSAVI, SAVI y SR muestran resultados superiores al 40%,
de igual forma sucede con la banda espectral RED. Mientras tanto, en la primera campaña los valores de CV no
superan el 10%. En la Tabla 5 la variabilidad entre la primera y segunda campaña son similares tanto en el primer
muestreo como el segundo, donde resaltan las mediciones de agua aprovechable (UW), macroporos (MacroP),
mesoporos (MesoP), Limo (silt), P, y S.
Tabla 4. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de arroz.
Primera campaña Segunda Campaña Primera campaña Segunda Campaña
Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV
GNDVI41 0.853 0.010 1.148 GNDVI41 0.764 0.035 4.560 SR41 40.128 3.366 8.388 SR41 2.572 1.380 53.630
GNDVI65 0.859 0.008 0.895 GNDVI65 0.804 0.023 2.894 SR65 44.608 2.843 6.372 SR65 2.864 1.412 49.322
GVI41 13.034 0.888 6.813 GVI41 8.139 1.286 15.800 BLUE41 0.010 0.000 3.914 BLUE41 0.016 0.002 9.895
GVI65 13.542 0.760 5.614 GVI65 9.855 1.209 12.266 BLUE65 0.009 0.001 5.817 BLUE65 0.014 0.002 13.076
NDRE41 0.627 0.017 2.656 NDRE41 0.543 0.045 8.277 GREEN41 0.031 0.001 4.604 GREEN41 0.052 0.003 5.228
NDRE65 0.637 0.015 2.415 NDRE65 0.597 0.035 5.805 GREEN65 0.033 0.002 7.279 GREEN65 0.044 0.005 10.955
NDVI41 0.948 0.005 0.543 NDVI41 0.317 0.188 59.202 NIR41 0.399 0.016 3.884 NIR41 0.415 0.057 13.619
NDVI65 0.954 0.003 0.360 NDVI65 0.383 0.176 45.902 NIR65 0.441 0.018 4.020 NIR65 0.425 0.045 10.502
OSAVI41 0.788 0.013 1.589 OSAVI41 0.288 0.164 56.824 RED41 0.010 0.001 6.115 RED41 0.223 0.092 40.990
OSAVI65 0.813 0.009 1.113 OSAVI65 0.350 0.156 44.624 RED65 0.010 0.001 8.527 RED65 0.192 0.076 39.277
SAVI41 0.638 0.016 2.554 SAVI41 0.257 0.140 54.341 REDGE41 0.091 0.003 3.672 REDGE41 0.118 0.005 4.172
SAVI65 0.675 0.014 2.135 SAVI65 0.313 0.135 43.306 REDGE65 0.098 0.007 7.000 REDGE65 0.104 0.010 9.915
CV = coeficiente de variación (%), std = desviación estándar.
Tabla 5. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.
Primera campaña Segunda campaña Primera campaña Segunda campaña
Variabl
e
Media std CV Variabl
e
mean std CV
Variable
Media std CV
Variable
mean std CV
RCC65 34.22 3.185 9.31 RCC65 34.57 2.786 8.06 Na 0.14 0.006 4.29 Na 0.17 0.028 16.40
FC 29.86 4.819 16.14 FC 30.77 7.757 25.21 CEC 7.09 1.717 24.22 CEC 7.33 1.924 26.25
PWP 24.85 4.670 18.79 PWP 26.70 7.840 29.36 Fe 75.65 17.020 22.50 Fe 69.66 17.283 24.81
UW 7.31 1.679 22.98 UW 5.56 2.608 46.91 Mn 5.39 1.741 32.29 Mn 5.73 2.113 36.87
AD 1.61 0.139 8.63 AD 1.64 0.144 8.81 Zn 2.66 0.603 22.71 Zn 2.79 0.836 29.97
MacroP 3.67 1.783 48.57 MacroP 3.43 1.809 52.73 Cu 3.85 1.458 37.90 Cu 3.78 1.525 40.30
MesoP 6.51 1.516 23.30 MesoP 4.62 2.303 49.85 B 0.45 0.076 16.70 B 0.55 0.109 19.83
MicroP 31.63 5.002 15.82 MicroP 28.53 4.987 17.48 SC 73.65 1.737 2.36 SC 73.78 1.663 2.25
Sand 49.00 15.531 31.70 Sand 49.00 15.531 31.70 SM 22.00 1.035 4.70 SM 21.64 1.039 4.80
Clay 13.63 4.308 31.61 Clay 13.63 4.308 31.61 SK 2.17 0.650 30.00 SK 2.33 0.822 35.24
Silt 37.37 14.793 39.59 Silt 37.37 14.793 39.59 SN 2.14 0.564 26.38 SN 2.39 0.640 26.80
pH 6.07 0.187 3.08 pH 6.67 0.204 3.06 RP 4.19 0.433 10.33 RP 3.74 0.804 21.53
OM 1.28 0.255 19.82 OM 1.51 0.351 23.28 PD 14.41 2.644 18.35 PD 12.93 3.913 30.26
P 24.72 9.459 38.26 P 25.90 9.126 35.23 Ca/Mg 3.35 0.225 6.71 Ca/Mg 3.42 0.215 6.29
S 11.65
3.349 28.75
S 14.10
5.524 39.17
(Ca+Mg)/
K 47.63 15.521 32.59
(Ca+Mg)/
K 46.05 15.834 34.38
Ca 5.25 1.378 26.28 Ca 5.42 1.525 28.13 Mg/K 10.87 3.147 28.94 Mg/K 10.35 3.151 30.45
Mg 1.55 0.343 22.05 Mg 1.58 0.394 24.97 Ca/B 11.57 2.397 20.71 Ca/B 9.82 1.716 17.47
K 0.15
0.028 18.96
K 0.16
0.033 21.07
Yield 8478.9
0
1365.08
5 16.10
Yield 9143.7
3
1237.00
8 13.53
CV = coeficiente de variación (%), std = desviación estándar.
9.1.3. Selección de variables
Dos metodologías fueron utilizadas para dar un valor representativo a los recortes de las imágenes
multiespectrales, el primero usando el promedio, y el segundo usando la mediana. Los resultados fueron muy
similares, se optó continuar con el promedio, sin embargo, los resultados en la selección de variables usando la
mediana se muestran en los ANEXO K y ANEXO M. La sección de selección de variables reporta los resultados
de un primer filtro con el coeficiente de correlación de Spearman y el índice de Moran, para conocer la relación
de las variables con el rendimiento y su dependencia espacial, en un segundo filtro se implementó la matriz de
correlación para determinar las variables relacionadas entre sí.
9.1.3.1. Correlación de Spearman
Imágenes multiespectrales
Figura 13. Coeficiente de correlación de Spearman de las imágenes multiespectrales para el cultivo de arroz.
Los resultados de correlación de las imágenes multiespectrales con el rendimiento de cada campaña de arroz
(Figura 13), demuestran en términos generales, que existe una mejor correlación por parte de las imágenes de la
segunda campaña que de la primera campaña. Los índices de vegetación GNDVI, GVI y NDRE muestran mayor
correlación con el rendimiento en la segunda campaña de arroz con un valor mayor a 0.5 en ambos estados
fenológicos, además muestran resultados significativos, estos índices fueron calculados a partir de las bandas
GREEN, NIR y REDEGDE, por esta razón sus resultados son similares entre ellos. También se observa que los
índices compuestos de las bandas NIR y REDEDGE muestran mejor correlación con el rendimiento, como los
resultados obtenidos en la investigación de Zhou et al. [59].
Los índices de vegetación NDVI, OSAVI, SAVI y SR, presentan un resultado muy bajo en la correlación con el
rendimiento, estos índices comparten las bandas NIR y RED, y este último muestra baja correlación en ambas
fechas, por esta razón los resultados de los índices no lograron superar el valor de 0.2, lo que implica dejar de
ser significativos en relación a los demás. Las bandas espectrales BLUE, GREEN y REDGE muestran correlación
negativa, esto implica una relación inversa con el rendimiento para los estados de embuchamiento (41) y floración
(65). Las bandas GREEN y REDEDGE presentan mejores resultados en floración, mientras que la banda NIR
tiene correlación en 0.5 en embuchamiento en la segunda campaña de arroz.
Las bandas espectrales muestran buenos resultados de correlación con el rendimiento para la segunda campaña,
excepto por la banda GREEN y REDGE en el estado 41, NIR en el estado 65 y RED para ambos estados ya que
no presentan resultados significativos. Por otra parte, los resultados para las imágenes multiespectrales en la
primera campaña de arroz cuentan con dos variables significativas, las bandas espectrales GREEN y REDEDGE
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
GN
DV
I41
GN
DV
I65
GV
I41
GV
I65
ND
RE
41
ND
RE
65
ND
VI4
1
ND
VI6
5
OS
AV
I41
OS
AV
I65
SA
VI4
1
SA
VI6
5
SR
41
SR
65
BL
UE
41
BL
UE
65
GR
EE
N41
GR
EE
N65
NIR
41
NIR
65
RE
D41
RE
D65
RE
DG
E41
RE
DG
E65
Spearman correlation of multispectral images
Siginificant correlation first campaign No significant correlation first campaign
Significant correlation second campaign No significant correlation second campaign
apenas superan el valor de 0.25 de correlación con el rendimiento. Los índices de vegetación GNDVI, NDRE y
GVI muestran valores de correlación alrededor de 0.2 para los estados 41 y 65.
*Los resultados del coeficiente de Spearman entre el rendimiento de arroz y las imágenes multiespectrales con
los valores de las imágenes usando la mediana para obtener su valore representativo se presentan en el ANEXO
K.
Parámetros del suelo y el cultivo
Figura 14. Coeficiente de correlación de Spearman de los parámetros del suelo y el cultivo para arroz.
El parámetro del cultivo de contenido relativo de clorofila (RCC) fue medido en ambas campañas de arroz en el
estado de floración (65). Los resultados de la Figura 14, evidencian un valor significativo de correlación de 0.39
con el rendimiento de la segunda campaña de arroz para el RCC. Las mediciones de la física de los suelos como
capacidad de campo (FC), punto de marchitez permanente (PWP), arena (Sand) y limo (Silt) presentan resultados
significativos entre 0.23 y 0.35 para la primera campaña, mientras que, en la segunda campaña se observa
valores no significativos. La correlación de las mediciones de agua aprovechable (UW), densidad aparente (AD),
Macroporos (MacroP), mesoporos (MesoP), microporos (MicroP) para la primera y segunda campaña son muy
cercanos a cero, demostrando muy baja correlación.
Respecto a las propiedades químicas como el pH, Ca, Mg, Capacidad de intercambio catiónico (CEC), Cu y Zn
revelan relación significativa superior a 0.2 con el rendimiento de la primera campaña, además de las saturaciones
de potasio (SK), y de sodio (SN) presentan correlación inversa menor a -0.3, demostrando relación inversa con
el rendimiento. En el caso de la segunda campaña, la única medición de las propiedades químicas que supera
este umbral es Fe. Las mediciones de penetrometría, la resistencia de penetración para la segunda campaña
expone una relación inversa con el rendimiento menor a -0.3, en los resultados de la primera campaña.
Finalmente, en las relaciones entre propiedades químicas, cabe resaltar a (Ca+Mg)/K, Mg/K, y Ca/B con
resultados entre 0.2 y 0.3 para la primera campaña, pero en la segunda campaña la correlación de las relaciones
no son significativas.
-0.4
-0.2
0
0.2
0.4
0.6
RC
C6
5
FC
PW
P
UW AD
Ma
cro
P
Me
so
P
Mic
roP
Sand
Cla
y
Silt
pH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
Sa
tCa
Sa
tMg
Sa
tK
Sa
tNa
RP
PD
Ca
/Mg
(Ca
+M
g)/
K
Mg
/K
Ca
/B
Spearman correlation of crop and soil parameters
Siginificant correlation first campaign No siginificant correlation first campaign
Significant correlation second campaign No significant correlation second campaign
9.1.3.2. Índice de Moran
Figura 15. Índice de Moran de las imágenes multiespectrales para el cultivo de arroz en la primera y segunda campaña.
El primer filtro de la selección de variables se considera principalmente la significancia en los resultados de la
correlación de Spearman de las variables con el rendimiento y el índice de Moran. Los resultados de la correlación
de Spearman para las imágenes multiespectrales se presentan en la Figura 13 y el índice de Moran se muestra
en la Figura 15, en las cuales se evidencian que, en la primera campaña, solamente se obtuvo un resultado
significativo en las bandas espectrales GREEN y REDEDGE ambas en el estado fenológico de embuchamiento
(41). En la segunda campaña los índices de vegetación GNDVI, GVI y NDRE obtuvieron un resultado significativo,
en ambos estados fenológicos y las bandas espectrales BLUE (41 y 65), GREEN (65), NIR (41) y REDEDGE (65)
tanto en los resultados del coeficiente de Spearman como el índice de Moran.
Figura 16. Índice de Moran de los parámetros del suelo y el cultivo para arroz en la primera y segunda campaña.
Como se observa, las mediciones de las variables se encuentran en dos estados fenológicos, pero en algunos
casos, en sólo un estado el resultado es significativo. En la práctica es mejor tener una consistencia en las
mediciones, es por esta razón, que se escogen las variables en los dos estados así no se encuentre un resultado
significativo en uno de ellos. De la misma forma se aplica el criterio para la primera y segunda campaña, donde
se seleccionan las variables que presenten resultados significativos, aunque sea en una sola campaña. Con la
aplicación de estos criterios se seleccionan las variables en el primer filtro.
Las imágenes multiespectrales muestran alta dependencia espacial, es por esta razón que la selección de
variables se realiza prácticamente con los resultados de correlación de Spearman. Los índices de vegetación
GNDVI, GVI, NDRE que muestran valores altos de correlación con el rendimiento en la segunda campaña,
00.20.40.60.8
1
GN
DV
I41
GN
DV
I65
GV
I41
GV
I65
ND
RE
41
ND
RE
65
ND
VI4
1
ND
VI6
5
OS
AV
I41
OS
AV
I65
SA
VI4
1
SA
VI6
5
SR
41
SR
65
BL
UE
41
BL
UE
65
GR
EE
N…
GR
EE
N…
NIR
41
NIR
65
RE
D4
1
RE
D6
5
RE
DG
E…
RE
DG
E…
Moran index of multispectral images
Significant autocorrelation first campaign No significant autocorrelation first campaign
Significant autocorrelation second campaign No significant autocorrelation first campaign
-0.20
0.20.40.60.8
1
RC
C65
FC
PW
P
UW AD
Ma
cro
P
Me
soP
Mic
roP
Sand
Cla
y
Silt
ApH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
SatC
a
SatM
g
SatK
SatN
a
RP
PD
Ca/M
g
(Ca
+M
g)/
K
Mg
/K
Ca/B
Yie
ld
Moran index of crop and soil parameters
Significant autocorrelation first campaign No significant autocorrelation first campaign
Significant autocorrelation second campaign No significant autocorrelation second campaign
también se seleccionan para la primera campaña. De igual forma sucede con las bandas espectrales BLUE,
GREEN, NIR y REDGE. Las variables se seleccionan para los dos estados fenológicos (41 y 65).
En los resultados de la correlación de correlación de Spearman (Figura 14) e índice de Moran (Figura 16) de los
parámetros del suelo y el cultivo, el contendido relativo de clorofila (RCC65) fue significativo en la segunda
campaña y no en la primera, de todas maneras, esta variable es seleccionada. Dentro de los parámetros físicos
del suelo en la primera campaña se muestran resultados favorables en las variables de capacidad de campo
(FC), punto de marchitez permanente (PWP), arena (Sand) y limo (Silt), es por esta razón que son seleccionadas.
Respecto a las propiedades químicas, se escogen pH, Ca, Mg, Capacidad de intercambio catiónico (CEC), Zn,
Cu, saturación de potasio (SatK), saturación de sodio (SatNa), y las relaciones de (Ca+Mg)/K, Mg/K, Ca/B debido
a la correlación significativa que muestran con el rendimiento, al igual que tener resultados sobresalientes en la
medición de dependencia espacial. Al observar la segunda campaña de arroz se determinan pocas variables de
los parámetros del suelo y el cultivo que muestran resultados de correlación con el rendimiento y autocorrelación
espacial significativos, entre ellas se encuentran el hierro (Fe) y la resistencia a la penetración (RP).
Tabla 6. Parámetros del suelo y el cultivo seleccionadas después del coeficiente de Spearman y el índice de Moran.
Tipo de medición Primera
campaña Segunda campaña
Tipo de medición Primera campaña
Segunda campaña
Mediciones del cultivo
RCC65 RCC65
Propiedades químicas
Fe Fe
Física de suelos
FC FC Zn Zn
PWP PWP Cu Cu
Sand Sand SK SK
Silt Silt SN SN
Propiedades químicas
pH pH
Penetrometría
RP RP
Ca Ca (Ca+Mg)/K (Ca+Mg)/K
Mg Mg Mg/K Mg/K
CEC CEC Ca/B Ca/B
9.1.3.3. Matriz de correlación
La banda espectral NIR presenta alta correlación con los índices de vegetación GNDVI, GVI y NDRE, y a su vez
estos están correlacionados entre ellos tanto en la primera como la segunda campaña Figura 17 y Figura 18
respectivamente, en gran parte, se debe a que fueron calculados a partir de la banda NIR, es por ello que se opta
por eliminar esta banda. Además, GNDVI y GVI están altamente correlacionadas debido a que comparten un
común denominador, la banda GREEN, para poder descartar un índice se revisa la relación de cada uno con el
rendimiento, en la primera campaña en el estado fenológico 41 GNDVI muestra correlación con el rendimiento de
0.23, en el estado fenológico 65, muestra correlación de 0.20, mientras tanto, GVI presenta valores de 0.22 y
0.19, respectivamente, al mismo tiempo, en la segunda campaña GNDVI y GVI muestra los mismos resultados
0.52 y 0.50 en cada estado fenológico, según los resultados, se opta por seleccionar GNDVI. Finalmente,
REDEDGE está correlacionada con GREEN, pero esta última muestra mejor correlación con el rendimiento, por
esto se opta por descartar REDEDGE.
Figura 17. Matriz de correlación de la primera campaña de arroz.
Figura 18. Matriz de correlación de la segunda campaña de arroz.
En las propiedades del suelo se conoce que capacidad de campo (FC) y punto de marchitez permanente (PMP)
son complementarias, al igual que arena (Sand) y Limo (Silt), es por esta razón, que hay una alta correlación
entre cada pareja de propiedades, para hacer una selección, se observa la correlación con el rendimiento 0.30 y
0.35, -0.29 y 0.27 para la primera campaña respectivamente, en la segunda campaña los resultados son 0.12 y
0.14, -0.18 y 0.16, de esta forma se selecciona PMP y Sand. Al revisar las propiedades químicas se procede a
eliminar Ca y Mg, ya que están correlacionadas con CEC, esto significa que CEC aporta información equivalente
a las dos variables mencionadas. Mientras tanto, las relaciones entre propiedades (Ca+Mg)/K y Mg/K están
relacionadas, y se procede a eliminar Mg/K. Finalmente como Cu está correlacionada con Sand en la primera
campaña y con CEC en la segunda, es descartada. Las variables seleccionadas tanto de imágenes
multiespectrales como parámetros del cultivo según los criterios mencionados anteriormente en la matriz de
correlación, se presentan en la Tabla 7.
Tabla 7. Variables seleccionadas del después de aplicar la matriz de correlación.
Imágenes multiespectrales
Tipo de medición Primera
campaña Segunda campaña
Tipo de medición Primera campaña
Segunda campaña
Índices de vegetación
GNDVI41 GNDVI41
Bandas espectrales
BLUE41 BLUE41
GNDVI65 GNDVI65 BLUE65 BLUE65
NDRE41 NDRE41 GREEN41 GREEN41
NDRE65 NDRE65 GREEN65 GREEN65
Parámetros del suelo y el cultivo
Mediciones del cultivo
RCC65 RCC65
Propiedades químicas
Zn Zn
Física de suelos PWP PWP SK SK
Sand Sand SN SN
Propiedades químicas
pH pH
Penetrometría
RP RP
CEC CEC (Ca+Mg)/K (Ca+Mg)/K
Fe Fe Ca/B Ca/B
9.1.4. Interpolación
Los mapas interpolados de las mediciones de los parámetros del suelo y el cultivo seleccionados en la etapa
anterior se encuentran en la Figura 19 para la primera campaña y en la Figura 20 para la segunda campaña,
además del rendimiento. Las variables fueron medidas a 72 puntos y se interpolaron a 5000, se utilizó el método
kriging donde los modelos seleccionados, además de la validación de la interpolación con el RMSE y R2 se
encuentran en la Tabla 8 para la primera campaña y la Tabla 9 para la segunda. Los resultados de interpolación
muestran que al haber un valor más alto de índice de Moran, los resultados de validación de la interpolación son
mayores, esto se debe a que el método de Kriging es un método espacial.
Tabla 8. Interpolación de variables del suelo y el cultivo para la primera campaña de arroz.
Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
RCC65 Exponencial OLS 0.85 15.02 7.55 0.15928
p-value = 0.0242 0.19 0.11
W = 0.96954, p-value = 0.07796
PWP Exponencial OLS 0.0002 40.02 0.0012 0.52429
p-value = 2e-04 0.05 0.53 W = 0.96274, p-value = 0.0316
Sand Gaussiano OLS 11721.38 69.19 104542.06 0.82081
p-value = 2e-04 3.20 0.91
W = 0.92462, p-value = 0.0003462
pH Esférico WLS-npairs
0.01 104.05 0.024 0.42406
p-value = 2e-04 0.11 0.44 W = 0.98983, p-value = 0.8343
CEC Exponencial WLS-npairs
0.001 61.78 0.017 0.7315
p-value = 2e-04 0.13 0.79
W = 0.96202, p-value = 0.02874
Fe Esférico REML 0.000001 75 0.0000072 0.46812
p-value = 2e-04 0.009 0.53
W = 0.9145, p-value = 0.0001228
Zn Exponencial ML 0.02 39.04 0.165 0.70054
p-value = 2e-04 0.06 0.71
W = 0.97056, p-value = 0.08932
SatK Esférico ML 0.02 77.40 0.13 0.34332
p-value = 2e-04 0.05 0.33
W = 0.75136, p-value = 1.036e-09
SatNa Exponencial WLS-npairs
0.03 38.61 0.25 0.43281
p-value = 2e-04
0.08 0.40 W = 0.7342, p-value = 4.193e-10
RP Gaussiano REML 28.06 18.71 227.52 0.48688
p-value = 2e-04 2.37 0.40
W = 0.95255, p-value = 0.008549
𝐂𝐚 +𝐌𝐠
𝐊𝐠 Exponencial ML 0.0005 65.86 0.0055
0.51503 p-value = 2e-04
0.03 0.51 W = 0.87783, p-value = 4.409e-06
Ca/B Exponencial REML 0.53 21.28 4.29 0.4423
p-value = 2e-04 0.14 0.40 W = 0.97728, p-value = 0.2176
Yield Gausiano WLS-npairs
207893.87 23.78 1663150.97 0.10324 p-value = 0.09018
47.23 0.018 W = 0.98408, p-value = 0.498
Co: nugget, Co+C: Sill
Figura 19. Mapas interpolados de la primera campaña de arroz.
Tabla 9. Interpolación de variables del suelo y el cultivo para la segunda campaña de arroz.
Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
RCC65 Exponencial OLS 0.86 32.70 6.90 0.28484 p-value = 0.0003999
0.33 0.24 W = 0.97901, p-value = 0.2716
PWP Esférico ML 0.0001 60 0.001 0.26466 p-value = 0.00079
0.09 0.32 W = 0.92728, p-value = 0.0004595
pH Exponencial OLS 72.31 18.43 625.41 0.18973 p-value = 0.009998
0.17 0.12 W = 0.95553, p-value = 0.01245
CEC Exponencial OLS 0.00 15.59 0.02 0.23457 p-value = 0.002999
0.03 0.15 W = 0.93542, p-value = 0.001123
Fe Gaussiano ML 0.02 21.02 0.19 0.23233 p-value = 0.0018
0.06 0.11 W = 0.93858, p-value = 0.001607
Zn Exponencial WLS - cressie
0.04 37.84 0.80 0.47944 p-value = 2e-04
0.26 0.55 W = 0.97056, p-value = 0.08932
SatK Gaussiano REML 0.02 29.43 0.14 0.31696 p-value = 2e-04
0.01 0.29 W = 0.78246, p-value = 5.957e-09
SatNa Exponencial OLS 0.04 35.90 0.36 0.17632 p-value = 0.0134
0.19 0.10 W = 0.79607, p-value = 1.347e-08
RP Gaussiano WLS - cressie
2.34 51.85 20.25 0.58262 p-value = 2e-04
0.05 0.61 W = 0.91308, p-value = 0.0001066
𝐂𝐚 +𝐌𝐠
𝐊𝐠 Exponencial
WLS - cressie
0.14 24.95 0.02 0.36105 p-value = 2e-04
0.16 0.33 W = 0.91013, p-value = 7.982e-05
Ca/B Exponencial REML 0.32 21.62 2.89 0.27839 p-value = 2e-04
0.02 0.19 W = 0.9708, p-value = 0.09222
Yield Exponencial WLS -
cressie 176174.72 46.78 1618902.82
0.40516
p-value = 2e-04 15.55 0.33 W = 0.97816, p-value = 0.2439
Co: nugget, Co+C: Sill.
Los semivariogramas ajustados se presentan en el ANEXO L, estos se encuentran descritos por el nugget, el
rango y el sill de la Tabla 8. Los semivariogramas obtenidos para la primera campaña fueron ajustados con un
rango entre 15.02m hasta 104.05m, siendo el más alto el pH. El método de mínimos cuadrados ordinarios (OLS)
fue usado para ajustar RCC65, PWP y Sand, WLS-npairs para pH, CEC, SatNa, y Yield, la máxima verosimilitud
restringida (REML) para Fe, RP y Ca/B y la máxima verosimilitud (ML) para Zn, SatK, y (Ca+Mg)/K. En términos
generales según el R2 la interpolación fue intermedia, ya que varía entre 0.33 a 0.91, exceptuando por los valores
menores a este rango obtenidos en RCC65 y Yield de 0.11 y 0.018 respectivamente.
En la segunda campaña (Tabla 9) los semivariogramas fueron ajustados con un rango entre 18.43m hasta 60m,
siendo el más alto el PWP. El método OLS fue usado para ajustar RCC65, pH CEC y SatNa, WLS- cressie para
Zn, RP, (Ca+Mg)/K, y Yield, el REML para SatK y Ca/B y ML para PWP y Fe. En términos generales según el R2
la interpolación varía entre 0.10a 0.61. También se puede decir que los resultados muestran que la primera
campaña, presentan mayor dependencia espacial que en la segunda y por ende los resultados de interpolación
son mejores.
Figura 20. Mapas interpolados de la segunda campaña de arroz.
9.1.5. Modelo de predicción de rendimiento
Los algoritmos de aprendizaje automático fueron desarrollados en lenguaje Python con la implementación de la
librería sklearn, los hiperparámetros de los algoritmos fueron ajustados con sus valores predeterminados. Los
resultados de validación para los modelos de predicción de rendimiento con regresión, muestran gran desempeño
por parte de los algoritmos Random Forest (RF), K-nearest neighbor (KNN), multilayer perceptron (MLP) y support
vector machine (SVR), mientras que, el algoritmo LASSO no presenta resultados satisfactorios. El mayor
resultado fue obtenido por KNN con R2 de 0.991 con la base de datos SOIL, seguido de MLP y luego RF con
0.988 y 0.983, en la base de datos ALL los resultados fueron muy similares con R2 de 0.968, 0.981 y 0.977
nuevamente para los tres mejores algoritmos.
Por otra parte, el resultado de los algoritmos de regresión con la base de datos MI muestra el mejor algoritmo RF
con R2 de 0.368 y RMSE de 827.2 Kg/ha y el peor fue LASSO con R2 de 0.265 y RMSE 892.6 Kg/ha. Esto
también se puede ver en la gráfica de rendimiento real contra el predicho de la Figura 22. El resultado logrado
por LASSO en los modelos de regresión, puede deberse al hecho, de que es un algoritmo paramétrico, sin
embargo, el rendimiento es una medición no paramétrica, es por esto, que el modelo se imposibilita ajustarse
correctamente para hacer la predicción. Los resultados alcanzados con la base de datos MI, demuestran que las
imágenes multiespectrales no son tan buen descriptor en los algoritmos de regresión para predecir el rendimiento
de arroz, utilizando algoritmos de regresión, a menos que esté acompañado de algunas mediciones del suelo o
el cultivo.
Figura 21. Validación de los modelos de predicción de rendimiento usando el método de regresión en las tres bases de
datos ALL: Todas las variables (imágenes multiespectrales, parámetros del suelo y el cultivo), MI: Imágenes
multiespectrales y SOIL: Parámetros del suelo y el cultivo. a). Resultados del coeficiente de determinación R2. b) Resultados
de la raíz del error medio cuadrático.
Figura 22. Rendimiento real contra el rendimiento predicho para todos los algoritmos en las tres bases de datos.
También se desarrollaron modelos de clasificación para la predicción de rendimiento. En la clasificación del
rendimiento, se tomó el histograma de la primera y segunda campaña y se dividió a sentimiento en las clases
bajo menor a 8000 Kg/ha, medio entre 8000 y 10000 Kg/ha y alto mayor a 10000 Kg/ha. La precisión de los
modelos de clasificación se observa en la Figura 24a donde se observa que RF, KNN, y SVM tienen el mejor
desempeño, no obstante, SVM con la base de datos SOIL tuvo una precisión de 0.975 y la matriz de confusión
se presenta en la Figura 24b, donde se evidencia una excelente clasificación en las clases bajo, medio y alto, en
contraste a lo anterior el algoritmo NB tuvo el peor valor de exactitud, 0.531 con la base de datos MI, y su matriz
de confusión se muestra en la Figura 24c, donde se puede ver que el modelo tiene dificultad para clasificar
correctamente las muestras en las clases.
Figura 23. Histograma del rendimiento en la primera y segunda campaña de arroz.
Figura 24. Validación de los modelos de clasificación para la predicción de rendimiento en bajo (1), medio (2) y alto (3). a)
Exactitud de los modelos de clasificación. b) Matriz de confusión del modelo suppor vector machine con la base de datos
SOIL. c) Matriz de confusión del modelo naiva Bayes con la base de datos MI.
En los resultados de exactitud se observa que la base de datos SOIL y ALL sirven para la clasificación de
rendimiento, aunque la clase MI muestre resultados más bajos igualmente es comparable para funcionar bien
como descriptor, ya que el resultado más alto de exactitud fue 0.72 con el algoritmo SVM y los resultados de los
algoritmos RF, KNN, GBR varían de 0.676 a 0.70. En la Figura 25 se presenta la matriz de correlación para el
Bajo Medio
Alto
algoritmo SVM con la base de datos MI y se observa una excelente clasificación en la clase media (2) ya que
como se veía en el histograma la clase media presenta la mayor cantidad de muestras, en comparación a la clase
bajo (1) o algo (3), por eso estas últimas son erróneamente clasificadas.
Figura 25. Matriz de confusión de los resultados de clasificación del algoritmo SVM con la base de datos MI.
Figura 26. Variables de importancia de los algoritmos de regresión (columna izquierda) y de clasificación (columna derecha).
a) y b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.
Las variables de importancia se obtuvieron con el algoritmo RF, ya que este algoritmo, tuvo buenos resultados
de predicción tanto en regresión como en clasificación. Con las variables de importancia se puede conocer qué
mediciones tuvieron influyeron más en la elaboración del modelo. Los resultados muestran que tanto en los
modelos de regresión como de clasificación con la base de datos ALL se confirma el gran aporte de los parámetros
del suelo y el cultivo, entre ellos, los más relevantes son RP, Fe, pH, Sand y RCC65. Mientras que las imágenes
multiespectrales no presentan peso para el modelo de predicción de rendimiento (Figura 26). Dentro de los
modelos generados con la base de datos MI, las bandas GREEN y BLUE en los dos estados fenológicos
establecidos, muestran mayor importancia, en comparación a, los índices de vegetación NDRE y GNDVI.
*Los resultados de los modelos de predicción de rendimiento usando las imágenes multiespectrales medidas con
la mediana se muestran en el ANEXO M.
9.1.6. Modelo de identificación de zonas homogéneas
9.1.6.1. Análisis de componentes principales espaciales
El modelo de zonas homogéneas se implementan cuatro bases de datos ALL: Todas las variables, MI: Imágenes
multiespectrales, CPE: Componentes principales espaciales y SOIL: Parámetros del suelo y el cultivo solamente
para la segunda campaña de arroz. Hasta este punto se cuenta con ALL, MI y SOIL, y se procede a calcular los
CPE usando las imágenes multiespectrales, parámetros del suelo y el cultivo a 72 puntos. En la Figura 27 se
encuentra la varianza explicada de los componentes obtenidos donde los tres primeros componentes suman
81.44 (CS1: 43.75, CS2: 23.35, CS3:14.33). Los tres componentes principales espaciales seleccionados fueron
interpolados y se obtuvo un R2 entre 0.57 a 0.87 (Tabla 10).
Figura 27. Varianza explicada de los componentes principales espaciales.
Tabla 10. Interpolación de componentes principales espaciales de la segunda campaña de arroz.
Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
CS1 Esférico OLS 0.69 105.41 5.42 0.76146 p-value = 2e-04
0.57 0.87 W = 0.97421, p-value = 0.1454
CS2 Esférico WLS-npairs 0.49 75.68 4.34 0.5391 p-value = 2e-04
0.09 0.57 W = 0.98188, p-value = 0.3866
CS3 Esférico WLS-npairs 0.27 87.57 2.02 0.6488 p-value = 2e-04
0.08 0.68 W = 0.95066, p-value = 0.006769
CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill
0
10
20
30
40
50
CS1 CS2 CS3 CS4 CS5 CS6 CS7 CS8 CS9
Eigenvalues
Eigenvalues
9.1.6.2. Modelos de Clustering
Figura 28. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las
imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales
espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty.
Los algoritmos de agrupamiento FCM, KMS y MQY generaron los mapas de zonas homogéneas de la Figura 28,
con las bases de datos ALL, CPE, MI y SOIL y adicionalmente se obtuvieron las zonas para el rendimiento de la
segunda campaña de arroz. Los mapas de zonas homogéneas presentan diferentes divisiones según la base de
datos con la cual se desarrolle el procedimiento, por ejemplo, en MI se observa gran dispersión, además, las
zonas no se encuentran bien definidas, pero al aplicar el suavizado se logran una mejor segmentación en las
zonas de dos y tres clases principalmente, en el mapa dividido en cuatro zonas, los grupos se encuentran aún
muy dispersos.
Por otra parte, los mapas obtenidos para ALL y SOIL muestran gran similitud principalmente con los algoritmos
FCM y KMS, esto puede sugerir que las variables que más influyeron sobre la delimitación de zonas fueron los
parámetros del suelo y el cultivo, por otra parte, se observa que la división de zonas con CPE muestra una
distribución diferente a los anteriormente mencionados. Las zonas generadas por ALL, CPE y SOIL, muestran
una reducida fragmentación, en comparación a las zonas obtenidas con MI, esto puede sugerir que al implementar
métodos espaciales como la interpolación de kriging, mejora la conformación de zonas homogéneas, como los
resultados obtenidos por Gavioli et al. [26].
El algoritmo de agrupamiento jerárquico de MQY dividió las zonas de tal forma que, aunque sea un grupo ocupara
una región muy pequeña, como se observa en MQY para la base de datos ALL, MI y SOIL para la división en
dos, tres y cuatro zonas donde la región de color negro, que representa la zona 2, la zona 3 y la zona 4
respectivamente, son mucho más pequeñas que las demás. Mientras tanto, los algoritmos FCM y KMS hicieron
una división muy similar de los grupos, este resultado concuerda con lo encontrado por Gavioli et al. [26]. Además,
se observa que la división de la información en cuatro zonas demuestra ser muy dispersa y en ocasiones muy
pequeñas en comparación a las demás zonas, como el caso de ALL, CPE y SOIL con FCM y KMS.
9.1.6.3. Validación
En la validación de las zonas se utilizó el ANOVA y la comparación de las medias de Tukey, para ellos se realizó
un submuestreo estratificado a las zonas generadas por los algoritmos ya que la cantidad de muestras es muy
grande. Para realizar el submuestreo se tomó un nivel de confianza de 95% con margen de error del 5%, dando
así una muestra de 357. Al realizar el submuestreo las zonas de MQY con la base de datos MI en la división tres
y cuatro zonas en los grupos 3 y 4 respectivamente (los últimos grupos) solamente se seleccionó como un punto.
El submuestreo no se puede calcular para una zona con un solo punto, por ello, se decidió cambiar manualmente
la zona para que este punto perteneciera a la zona que lo rodeaba.
En las tablas 11-15 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se
utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes
principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:
Índice de reducción de varianza (%).
En la Tabla 11 y Tabla 12 se presentan los resultados de ANOVA, donde se observa que en las bases de datos
CPE y MI, la división entre grupos para dos, tres y cuatro zonas fueron significativas, contrario a los resultados
obtenidos para ALL y SOIL. También se puede analizar a partir de los resultados que los algoritmos FCM y KMS
muestran resultados muy similares en las bases de datos ALL y SOIL, pero con el algoritmo MQY los resultados
difieren, por ejemplo, FCM muestra un valor de significancia en la división de dos zonas, de 0.797 para ALL y
SOIL, mientras que MQY tiene 0.059 y 0.979 respectivamente.
Los resultados de la comparación de medias de Tukey muestran que, en la división de dos zonas, CPE y MI
muestran diferencias en sus grupos (Z1, Z2), exceptuando por KMS en la base de datos MI, en la división de
zonas sin suavizado (Tabla 13), sus zonas presentan una media similar, pero esto no sucede en la división de
zonas con suavizado (Tabla 14). En la división en tres zonas para CPE y MI, por lo menos dos de sus tres zonas
muestran diferencia, a excepción de los resultados de KMS con la base de datos CPE y la aplicación de
suavizado, en la que se muestra que todas las tres zonas son diferentes.
Tabla 11. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 0.042 0.839 1.351 0.260 1.357 0.256
KMS 0.009 0.925 0.384 0.682 1.007 0.390
MQY 0.761 0.384 0.226 0.798 1.153 0.328
CPE
FCM 20.50 0.0 13.6 0.0 11.4 0.0
KMS 18.93 0.0 14.9 0.0 9.9 0.0
MQY 18.46 0.0 9.5 0.0 9.5 0.0
MI
FCM 4.609 0.033 5.136 0.006 2.649 0.049
KMS 2.353 0.126 0.607 0.546 3.082 0.028
MQY 9.607 0.002 9.607 0.002 2.411 0.091
SOIL
FCM 0.042 0.839 1.351 0.260 1.356 0.255
KMS 0.009 0.925 0.384 0.682 1.006 0.389
MQY 0.067 0.795 0.149 0.862 0.184 0.907
Tabla 12. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 0.066 0.797 0.985 0.374 0.757 0.519
KMS 0.109 0.742 0.272 0.762 1.311 0.271
MQY 3.584 0.059 1.500 0.225 1.740 0.159
CPE
FCM 19.000 0.0000 8.989 0.0002 7.364 0.0001
KMS 24.118 0.0000 17.871 0.000 5.988 0.0005
MQY 15.715 0.0001 10.442 0.000 8.186 0.000
MI
FCM 14.855 0.0001 10.968 0.000 7.215 0.0001
KMS 11.696 0.0007 11.565 0.000 8.672 0.000
MQY 14.029 0.0002 14.871 0.0001 15.352 0.0001
SOIL
FCM 0.066 0.797 0.985 0.374 0.757 0.519
KMS 0.109 0.742 0.272 0.762 1.311 0.271
MQY 0.001 0.979 0.010 0.991 0.394 0.758
El VR se obtuvo conociendo la varianza del rendimiento en cada zona, multiplicada por el porcentaje del área de
cada zona dividido en el total del rendimiento. El índice de reducción de varianza (VR) muestra que utilizar la base
de datos CPE conlleva a mejores resultados que las demás, esto puede deberse a que la distribución de zonas
fue más parecida a las zonas del rendimiento. En la Figura 28, se obtuvieron las zonas solamente utilizando el
rendimiento de la segunda campaña, y demuestra que tiene gran similitud a las zonas conformadas sólo por CPE,
como es el caso de FCM y KMS en la división de dos zonas y tres zonas principalmente. Ahora veamos, aunque
CPE se obtuvo con las imágenes multiespectrales, los parámetros del suelo y el cultivo, al igual que ALL, puede
decirse que al tener en cuenta la espacialidad y al condensar la información logró la división de las zonas con
mayor relación a la distribución del rendimiento.
Los resultados de VR para la identificación de zonas homogéneas con la base de datos CPE de la Tabla 13,
fueron obtenidos de la siguiente manera: para dos zonas, con el algoritmo MQY se obtuvo un VR de 34.6%,
seguido de KMS con 34.1%, para tres zonas con FCM se logró un VR de 49.4%, y el segundo mejor fue KMS
con VR de 45.6% y en la división de cuatro zonas el algoritmo MQY logró un VR de 44.7%, seguido de KMS con
41.4%. El VR más alto fue alcanzado por FCM con la base de dato CPE sin la aplicación del suavizado
(VR=49.4%), pero al aplicar el suavizamiento a las zonas, este algoritmo logra un VR de 52.7%, y KMS alcanzó
un VR de 51.0%, decir que los dos mejor resultados se obtuvieron con FCM y KMS, sin embargo, sólo KMS
muestra una diferencia significativa en todas las zonas (Z1=c, Z2=b, Z3=a).
Una vez conocido el mejor algoritmo que mantuviera la varianza del rendimiento total y una diferencia significativa
en las zonas generas, es necesario conocer qué variables influyeron en la delimitación de zonas homogéneas.
En la Tabla 15 se encuentra que pH, CEC, Zn, SatK, SatNa, (Ca+Mg)/K y Ca/B fueron las mediciones más
significativas en la conformación de zonas para la base de datos CPE con el algoritmo KMS, en este caso se
puede denotar que las imágenes multiespectrales no presentaron gran participación.
Tabla 13. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 9291.3 a 9238.4 a -0.2 9325.5 a 8976.5 a 9197.0 a 6.5 9072.3 a 9331.3 a 8984.9 a 9470.6 a 10.0
KMS 9255.4 a 9231.0 a -0.3 9106.9 a 9328.8 a 9253.1 a 5.7 8895.5 a 9073.2 a 9300.1 a 9370.8 a 6.0
MQY 9288.1 a 9596.7 a 1.7 9357.3 a 9301.7 a 9105.3 a 0.0 9352.4 a 9236.5 a 9089.8 a 8630.1 a 1.2
CPE
FCM 9597.4 b 8775.9 a 26.7 9599.8 b 9130.2 b 8437.5 a 49.4 9562.4 b 8977.2 a 8486.9 a 9918.9 b 40.4
KMS 9588.5 b 8757.8 a 34.1 9641.1 b 9034.6 a 8536.7 a 45.6 9371.0 bc 9012.1 ab 8506.0 a 9748.0 c 41.4
MQY 9646.5 b 8854.0 a 34.6 9693.3 b 8858.6 a 9170.5 ab 39.4 9682.2 b 8870.9 a 8188.1 a 9191.9 ab 44.7
MI
FCM 9404.6 b 8989.8 a 22.9 9400.2 b 9201.9 ab 8623.2 a 20.8 9563.8 b 9329.9 ab 9152.4 ab 8833.7 a 25.0
KMS 9298.8 a 8983.8 a 21.2 9330.3 a 9179.3 a 9053.6 a 21.1 9571.2 b 9301.4 ab 9150.9 ab 8753.0 a 27.3
MQY 9274.6 b 8613.4 a 9.5 9274.6 b 8613.4 a - - 9.5 9395.4 a 9176.1 a 8841.7 a - - 17.7
SOIL
FCM 9291.3 a 9238.4 a -0.2 9325.5 a 8976.5 a 9197.0 a 6.5 9072.3 a 9331.3 a 8984.9 a 9470.6 a 10.0
KMS 9255.4 a 9231.0 a -0.3 9106.9 a 9328.8 a 9253.1 a 5.7 8895.5 a 9073.2 a 9300.1 a 9370.8 a 6.0
MQY 9297.0 a 9378.9 a 0.6 9268.5 a 9282.1 a 9102.4 a -0.4 9202.6 a 9347.4 a 9377.2 a 9292.2 a 3.7
Tabla 14. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 9271.0 a 9207.7 a -0.3 9415.9 a 9101.2 a 9217.6 a 9.7 8928.0 a 9136.2 a 9348.7 a 9362.4 a 9.5
KMS 9273.9 a 9196.7 a -0.2 9158.0 a 9341.0 a 9202.0 a 7.2 8906.4 a 9088.3 a 9344.8 a 9460.7 a 10.8
MQY 9280.2 a 10142.5 a 3.5 9431.7 a 9257.2 a 10033.5 a 3.1 9428.7 a 9242.0 a 10101.1 a 8629.1 a 4.7
CPE
FCM 9624.9 b 8796.9 a 25.6 9707.9 b 8724.5 a 9073.9 a 52.7 9439.8 b 9083.4 ab 8471.2 a 9625.8 b 32.0
KMS 9685.8 b 8745.1 a 26.2 9674.5 c 9120.0 b 8554.9 a 51.0 9230.2 b 9247.6 b 8492.2 a 9516.6 b 37.7
MQY 9648.9 b 8887.7 a 35.1 9653.2 b 8837.0 a 9094.7 ab 39.9 9624.8 b 8905.5 a 8100.0 a 9191.2 ab 41.8
MI
FCM 8718.4 a 9454.4 b 25.8 8748.8 a 9025.8 a 9753.1 b 41.0 9502.5 c 8791.4 ab 8599.0 a 9382.8 bc 38.1
KMS 8747.0 a 9443.4 b 27.2 8692.6 a 9039.5 a 9743.6 b 35.7 9443.8 ac 8669.2 b 8608.6 ab 10386.1 c 33.4
MQY 9281.1 b 7988.8 a 5.5 9291.7 b 8305.1 a - - 8.17 8853.5 a 9632.1 b - - - - 31.9
SOIL
FCM 9271.0 a 9207.7 a -0.3 9415.9 a 9101.2 a 9217.6 a 9.7 8928.0 a 9136.2 a 9348.7 a 9362.4 a 9.5
KMS 9273.9 a 9196.7 a -0.2 9158.0 a 9341.0 a 9202.0 a 7.2 8906.4 a 9088.3 a 9344.8 a 9460.7 a 10.8
MQY 9238.1 a 9230.1 a 0.1 9274.7 a 9252.2 a 9300.0 a 0.4 9230.9 a 9500.3 a 9339.0 a 9313.4 a 3.4
Tabla 15. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para tres zonas con suavizado en la base de datos de componentes
principales espaciales (CPE).
Var GNDVI41 GNDVI65 NDRE41 NDRE65 BLUE41 BLUE65 GREEN41 GREEN65 RCC65 PWP
p-value *
Var Sand pH CEC Fe Zn SatK SatNa RP (Ca+Mg)/K Ca/B
p-value * * * * * * *
Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.
9.2. Cultivo de algodón
9.2.1. Procesamiento de imágenes
En el cultivo de algodón se tomó solamente una campaña, y se realizó tres vuelos con el UAV en las fechas
especificadas a los 43, 54 y 63 días después de emergido (DDE), que corresponde a los estados fenológicos 60,
61 y 65 respectivamente (Tabla 1). Se utilizaron las cámaras multiespectral y RGB. Las ortofotos obtenidas se
procesaron para generar los ortomosaicos en las cinco bandas espectrales BLUE, GREEN, RED, NIR, y REDGE.
Los índices de vegetación GNDVI, GVI, NDRE, NDVI, SAVI, OSAVI, SR, SCCCI y TCARI/OSAVI fueron
calculados, además de los índices de color EXG, EXR, EXRG, GLI, NDI y VARI.
Figura 29. Imágenes de NDRE y NDVI (de izquierda a derecha) en la campaña del cultivo de algodón para los tres estados
fenológicos estudiados (de arriba hacia abajo).
En la Figura 29 se presentan las imágenes obtenidas de NDRE en la columna izquierda y NDVI en la columna
derecha, para comparar los valores de los índices en cada estado fenológico 43, 54 y 63 posicionados en este
orden por filas. Al igual que en el cultivo de arroz, las imágenes de NDVI están saturadas con valores hasta 0.99,
mientras tanto, el índice NDRE tiene su máximo en 0.75. Esta comparación nos permite conocer cómo se
encuentra el cultivo a simple vista, por ejemplo, se puede observar que en la zona central los valores de los
índices son menores que en los bordes externos.
9.2.2. Análisis de datos
Tabla 16. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de algodón.
Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV
EXG60 0.174 0.065 37.224 VARI60 0.333 0.057 17.079 OSAVI60 0.613 0.043 7.038 BLUE60 0.032 0.004 11.069
EXG61 0.366 0.042 11.390 VARI61 0.312 0.091 29.008 OSAVI61 0.716 0.018 2.455 BLUE61 0.026 0.001 3.659
EXG65 0.468 0.059 12.631 VARI65 0.401 0.067 16.599 OSAVI65 0.700 0.040 5.774 BLUE65 0.032 0.002 6.316
EXR60 -0.004 0.031 -708.293 GNDVI60 0.702 0.039 5.610 SAVI60 0.605 0.053 8.725 GREEN60 0.073 0.002 3.089
EXR61 -0.040 0.039 -98.291 GNDVI61 0.800 0.011 1.384 SAVI61 0.747 0.029 3.860 GREEN61 0.069 0.004 5.966
EXR65 -0.108 0.045 -41.102 GNDVI65 0.778 0.022 2.870 SAVI65 0.744 0.060 8.087 GREEN65 0.078 0.005 6.046
EXRG60 0.178 0.095 53.445 GVI60 6.255 0.785 12.551 SCCCI60 0.451 0.022 4.787 NIR60 0.455 0.047 10.379
EXRG61 0.405 0.070 17.143 GVI61 9.574 0.554 5.790 SCCCI61 0.586 0.016 2.727 NIR61 0.608 0.037 6.121
EXRG65 0.576 0.103 17.804 GVI65 8.366 0.883 10.552 SCCCI65 0.565 0.021 3.703 NIR65 0.633 0.075 11.836
GLI60 0.110 0.040 36.744 NDRE60 0.382 0.032 8.347 SR60 15.059 3.073 20.406 RED60 0.034 0.006 16.639
GLI61 0.247 0.025 10.267 NDRE61 0.539 0.016 2.916 SR61 26.603 2.173 8.169 RED61 0.026 0.001 4.271
GLI65 0.307 0.034 11.183 NDRE65 0.491 0.024 4.913 SR65 17.296 3.500 20.234 RED65 0.041 0.006 14.746
NDI60 0.167 0.036 21.249 NDVI60 0.831 0.047 5.715 TCARIOSAVI60 0.438 0.025 5.609 REDGE60 0.192 0.009 4.866
NDI61 0.208 0.045 21.739 NDVI61 0.918 0.009 0.931 TCARIOSAVI61 0.356 0.012 3.401 REDGE61 0.185 0.012 6.445
NDI65 0.280 0.047 16.805 NDVI65 0.871 0.033 3.824 TCARIOSAVI65 0.437 0.025 5.727 REDGE65 0.216 0.020 9.499
CV = coeficiente de variación (%), std = desviación estándar.
Tabla 17. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.
Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV
RCC60 42.617 1.867 4.382 MacroP 3.671 1.783 48.568 Ca 5.245 1.378 26.275 SM 22.000 1.035 4.703
RCC61 44.508 2.834 6.368 MesoP 6.507 1.516 23.304 Mg 1.554 0.343 22.046 SK 2.167 0.650 30.001
RCC65 48.161 5.288 10.980 MicroP 31.631 5.002 15.815 K 0.148 0.028 18.964 SN 2.139 0.564 26.384
LAI60 3.658 1.245 34.047 TP 41.809 5.628 13.460 Na 0.142 0.006 4.291 RP 4.187 0.433 10.332
LAI61 5.078 1.234 24.298 Sand 49.000 15.531 31.697 CEC 7.090 1.717 24.220 PD 14.411 2.644 18.348
PRI60 0.360 0.020 5.585 Clay 13.630 4.308 31.610 Fe 75.652 17.020 22.498 Ca_Mg 3.353 0.225 6.708
PRI61 0.373 0.031 8.200 Silt 37.371 14.793 39.585 Mn 5.393 1.741 32.287 Ca_Mg_K 47.629 15.521 32.587
FC 29.860 4.819 16.140 pH 6.068 0.187 3.078 Zn 2.656 0.603 22.708 Mg_K 10.872 3.147 28.944
PWP 24.851 4.670 18.793 OM 1.285 0.255 19.825 Cu 3.847 1.458 37.896 Ca_B 11.573 2.397 20.709
UW 7.306 1.679 22.981 P 24.724 9.459 38.256 B 0.454 0.076 16.695 Yield 2246.400 431.808 19.222
AD 1.609 0.139 8.627 S 11.649 3.349 28.748 SC 73.653 1.737 2.359
CV = coeficiente de variación (%), std = desviación estándar.
El análisis descriptivo de las imágenes en algodón muestra que el EXR presenta valores negativos y superiores
al 40%. En lo que respecta a los demás índices y bandas, los coeficientes estuvieron entre el 0,9% y el 53,44%.
El NDVI registró variaciones bajas respecto a los otros índices (Tabla 16). Respecto a los parámetros de suelo y
cultivo, se evidencia qué, de los parámetros de cultivo, LAI a los 60 días fue el que presentó mayor variabilidad.
De los parámetros de suelo, se destacan los Macroporos, el Limo, Fósforo, Cobre, Manganeso, Saturación de
potasio y relación Ca+Mg/K. La variable saturación de Calcio fue la que obtuvo el menor coeficiente de variación
(Tabla 17).
9.2.3. Selección de variables
9.2.3.1. Correlación de Spearman
La correlación de las imágenes multiespectrales (índices de color, índices de vegetación y bandas espectrales)
con el rendimiento de fibra del algodón, muestran que en el estado fenológico 61 sólo los resultados de índices
de color EXG y GLI son significativos, con valores cercanos a 0.3, en cambio, en el estado fenológico 65 los
índices NDVI, OSAVI, SAVI, SCCCI, y TCARI/OSAVI están correlacionados con el rendimiento, y en la misma
fecha se encuentran las bandas NIR y REDGE (Figura 30). Los niveles de correlación superaron el valor de 0.2
llegando a 0.3, y solamente SCCCI presentó correlación negativa. Por lo visto, en estado fenológico 60 ninguna
variable fue significativa, por esta razón, no se tomará en cuenta más adelante.
Figura 30. Correlación de Spearman de las imágenes multiespectrales para el rendimiento de fibra del algodón.
Los parámetros del suelo y el cultivo fueron evaluados según su correlación con el rendimiento, de estos
resultados se logró una variable de los parámetros del cultivo PRI en el estado fenológico 61, una variable de la
física de suelos, MacroP, una propiedad química Fe y una medición de penetrometría RP, estuvieran
correlacionadas con el rendimiento variando entre 0.3 y 0.4 en sus niveles de correlación, aunque algunas
variables tuvieron correlación negativa (Figura 31).
Figura 31. Correlación de Spearman de los parámetros del suelo y el cultivo para el rendimiento de fibra del algodón.
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
EX
G6
0
EX
G6
1
EX
G6
5
EX
R60
EX
R61
EX
R65
EX
RG
60
EX
RG
61
EX
RG
65
GL
I60
GL
I61
GL
I65
ND
I60
ND
I61
ND
I65
VA
RI6
0
VA
RI6
1
VA
RI6
5
GN
DV
I60
GN
DV
I61
GN
DV
I65
GV
I60
GV
I61
GV
I65
ND
RE
60
ND
RE
61
ND
RE
65
ND
VI6
0
ND
VI6
1
ND
VI6
5
OS
AV
I60
OS
AV
I61
OS
AV
I65
SA
VI6
0
SA
VI6
1
SA
VI6
5
SC
CC
I60
SC
CC
I61
SC
CC
I65
SR
60
SR
61
SR
65
TC
AR
IOS
AV
I60
TC
AR
IOS
AV
I61
TC
AR
IOS
AV
I65
BL
UE
60
BL
UE
61
BL
UE
65
GR
EE
N60
GR
EE
N61
GR
EE
N65
NIR
60
NIR
61
NIR
65
RE
D6
0
RE
D6
1
RE
D6
5
RE
DG
E60
RE
DG
E61
RE
DG
E65
Spearman correlation of multispectral images with lint yield
Significant correlation No significant correlation
-0.6
-0.4
-0.2
0
0.2
0.4
RC
C60
RC
C61
RC
C65
LA
I60
LA
I61
PR
I60
PR
I61
FC
PW
P
UW AD
Ma
cro
P
Me
soP
Mic
roP
TP
Sand
Cla
y
Silt
pH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
SatC
a
SatM
g
SatK
SatN
a
RP
PD
Ca/M
g
(Ca+
Mg)/
K
Mg
/K
Ca/B
Spearman Correlation of crop and soil parameters with lint yield
Significant correaltion No significant correlation
9.2.3.2. Índice de Moran
Figura 32. Índice de Moran de las imágenes multiespectrales para el cultivo de algodón.
Figura 33. Índice de Moran de los parámetros del suelo y el cultivo en algodón.
La autocorrelación espacial de las imágenes multiespectrales se bastante alta, presenta valores entre 0.43 hasta,
0.8. En cuanto a la autocorrelación espacial en parámetros de suelo y cultivo, se muestra que la mayoría fueron
estadísticamente significativas, excepto RCC60 y el porcentaje de arcilla (Clay). Sin embargo, en comparación a
las imágenes, en este caso se presentaron valores más bajos en el índice de Moran, entre 0.19 hasta 0.8, teniendo
el valor máximo el porcentaje de arena (Sand). Los parámetros del cultivo RCC61, RCC65, LAI61, PRI60 y PRI61,
presentan baja correlación espacial, mientras que LAI60 presentan un valor de 0.6. De las propiedades del suelo,
las mediciones de textura Sand y Silt muestran alta dependencia espacial y de las propiedades químicas se
observa que la medición de Cu es la más alta.
Las variables que presentan correlación con el rendimiento y autocorrelación espacial son EXG, GLI, NDVI,
OSAVIA, SCCCI, TCARI/OSAVI, NIR, REDGE, PRI, MacroP, Fe, y RP. Los índices de color e índices de
vegetación se tomaron para los estados fenológicos 61 y 63, ya que ninguna variable fue significativa en el estado
60. Este conjunto de variables es seleccionado para aplicar el segundo filtro en el proceso de selección de
variables.
9.2.3.3. Matriz de correlación
La matriz de correlación me permite conocer qué variables se encuentran relacionadas entre sí del conjunto de
mediciones obtenido en el paso anterior. En la Figura 34 se presenta la matriz de correlación, en la cual se puede
observar las imágenes multiespectrales se encuentran altamente correlacionadas, en caso contrario, los
00.10.20.30.40.50.60.70.80.9
EX
G6
0
EX
G6
1
EX
G6
5
EX
R60
EX
R61
EX
R65
EX
RG
60
EX
RG
61
EX
RG
65
GL
I60
GL
I61
GL
I65
ND
I60
ND
I61
ND
I65
VA
RI6
0
VA
RI6
1
VA
RI6
5
GN
DV
I60
GN
DV
I61
GN
DV
I65
GV
I60
GV
I61
GV
I65
ND
RE
60
ND
RE
61
ND
RE
65
ND
VI6
0
ND
VI6
1
ND
VI6
5
OS
AV
I60
OS
AV
I61
OS
AV
I65
SA
VI6
0
SA
VI6
1
SA
VI6
5
SC
CC
I60
SC
CC
I61
SC
CC
I65
SR
60
SR
61
SR
65
TC
AR
IOS
AV
I60
TC
AR
IOS
AV
I61
TC
AR
IOS
AV
I65
BL
UE
60
BL
UE
61
BL
UE
65
GR
EE
N60
GR
EE
N61
GR
EE
N65
NIR
60
NIR
61
NIR
65
RE
D6
0
RE
D6
1
RE
D6
5
RE
DG
E60
RE
DG
E61
RE
DG
E65
Moran index of multispectral images
Significant autocorrelation No significant correlation
0
0.2
0.4
0.6
0.8
1
RC
C60
RC
C61
RC
C65
LA
I60
LA
I61
PR
I60
PR
I61
FC
PW
P
UW AD
Ma
cro
P
Me
soP
Mic
roP
TP
Sand
Cla
y
Silt
pH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
SatC
a
SatM
g
SatK
SatN
a
RP
PD
Ca/M
g
(Ca+
Mg)/
K
Mg
/K
Ca/B
Yie
ld
Moran index of crop and soil parameters
Significant autocorrelation No significant autocorrelation
parámetros del suelo y el cultivo no muestra relación entre ellas. Los índices de color EXG y GLI, presentan un
valor de correlación de 1, esto debido a que el cálculo de ambos se basa en la banda del verde visible. Además,
estos dos índices tienen valor de correlación de 0.92 con NDVI en el estado fenológico 65, por este motivo, los
índices de color son descartados, de igual forma que OSAVI y NIR, ya que está correlacionado también con
NDVI65.
Figura 34. Matriz de correlación de las variables seleccionadas en el primer filtro para el cultivo de algodón.
Tipo de medición Variable Tipo de medición Variable
Imágenes multiespectrales
NDVI61, NDVI65 Mediciones del cultivo PRI61
SCCCI61, SCCCI65 Propiedades físicas MacroP
TCARI/OSAVI61, TCARI/OSAVI665 Propiedades químicas Fe
Bandas espectrales REDGE61, REDGE65 Penetrometría RP
9.2.4. Interpolación
Los parámetros del suelo y el cultivo seleccionados, se interpolaron usando el método de kriging, para lograr esto,
primero se obtuvo el modelo para el semivariograma (exponencial, gaussiano y esférico) con los parámetros
nugget (Co), Rango y Sil (Co+C). En la Tabla 18 se encuentran los modelos generados para el semivariograma
por cada variable, además en el ANEXO N se presentan los semivariogramas ajustados. El método de mínimos
cuadrados ordinarios (OLS) fue usado para ajustar el modelo de las variables PRI65, MacroP y Yield, y la máxima
verosimilitud restringida (REML) se utilizó para ajustar Fe y RP. El rango varió entre 14.97m y 68.38m para las
variables MacroP y Yield respectivamente.
La validación de la interpolación dio resultados entre 0.17 y 0.57, donde el mayor resultado de R2 se dio por la
medición de PRI en el estado fenológico 65. Algunas variables necesitaron de transformación de normalidad ya
que su valor de p-valor fue menor a 0.05 en la prueba de Shapiro-Wilks, entre ellas PRI65, MacroP, Fe y RP. Los
mapas interpolados se presentan en Figura 35.
Tabla 18. Interpolación de variables del suelo y el cultivo para la primera campaña de algodón.
Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
PRI65 Esférico OLS 0.5e-11 43 2.5e-11 0.58429 p-value
= 2e-04 0.14 0.57
W = 0.79985, p-value = 1.7e-08
MacroP Exponencial OLS 0.005 14.97 0.028 0.43289 p-value
= 2e-04 0.14 0.33
W = 0.6997, p-value = 7.607e-11
Fe Esférico REML 0.000001 75 0.0000072 0.46812 p-value
= 2e-04 0.009 0.53
W = 0.9145, p-value = 0.0001228
RP Gaussiano REML 28.06 18.71 227.52 0.48688 p-value
= 2e-04 2.37 0.40
W = 0.95255, p-value = 0.008549
Lint Yield
Esférico OLS 20949.32 68.38 181183.31 0.25015 p-value
= 0.0016 3.76 0.17
W = 0.97979, p-value = 0.2997
Co: nugget, Co+C: Sill
Figura 35. Mapas interpolados de las mediciones de algodón.
9.2.5. Modelo de predicción de rendimiento
Los resultados de validación para los modelos de predicción de rendimiento con regresión, muestran gran
desempeño por parte de los algoritmos Random Forest (RF) y K-nearest neighbor (KNN), con valores de R2 de
0.907, 0.905 y RMSE de 104.4 Kg/ha, 105.3 Kg/ha respectivamente con la base de datos de SOIL, estos
resultados obtenidos para los algoritmos RF concuerdan con lo visto por Ashapure et al. [62]. Mientras tanto, en
los resultados de los modelos con base de datos de ALL se observan R2 de 0.890 y 0.808, simultáneamente, RF
y KNN con la base de datos de MI mostró un desempeño intermedio con valor de R2 de 0.482 y 0.478. Sin
embargo, los algoritmos MLP y SVM con las MI lograron el 0.52, estos algoritmos tuvieron mejor rendimiento al
utilizar ALL como descriptores que con SOIL y MI. Por otra parte, nuevamente el algoritmo LASSO presenta
desempeño muy bajo, con resultados de R2 de 0.24 para MI y SOIL.
Figura 36. Validación de los algoritmos de regresión para la predicción de rendimiento. a) Resultados del coeficiente de
determinación R2. b) Resultados de la raíz del error medio cuadrático.
El rendimiento se clasificó según el histograma en rendimiento bajo (1) para las muestras menores a 1950 Kg/ha,
medio (2) para las muestras entre 1950 Kg/ha y 2650 Kg/ha, y alto (3) cuando las muestras superen los 2650
Kg/ha. Los resultados de los modelos de clasificación demuestran que los algoritmos RF, KNN, GBR y SVM
tienen buen desempeño, ya que, los resultados de exactitud (Figura 37a) se encuentran alrededor de 0.90 para
la base de datos ALL y SOIL. Por otra parte, con la base de datos MI, los resultados de R2 estuvieron entre 0.7 y
0.8. En la Figura 37b se presenta la matriz de confusión para RF con ALL y se observa que logra clasificar muy
bien las muestras entre las clases, mientras que el algoritmo Naïve Bayes gaussiano con los datos de SOIL
(Figura 37c) cuanta con bastantes falso positivos, especialmente en la clase alto (3).
Figura 37. Resultados de validación de los algoritmos de clasificación para la predicción de rendimiento. a) Resultados de
exactitud. b) Matriz de confusión de los resultados de clasificación del algoritmo Random forest con la base de datos de
todas las variables (ALL). c) Matriz de confusión de los resultados de clasificación del algoritmo Naïve Bayes gaussiano con
la base de datos del suelo y el cultivo (SOIL).
Figura 38. Variables de importancia de los algoritmos de regresión (columna izquierda) y de los algoritmos de clasificación
(columna derecha). a) y b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.
Las variables de importancia fueron obtenidas a partir, del algoritmo RF. Como era de esperarse, las mediciones
de los parámetros del suelo y el cultivo tuvieron mayor peso en el modelo de regresión y clasificación de las
variables de la base de dato ALL (Figura 38a y Figura 38b respectivamente), sin embargo, la imagen de la banda
espectral REDGE65 se muestra entre las primeras variables con mayor importancia, mientras las demás
imágenes no influyen en gran medida sobre el modelo. Esto puede deberse a que las imágenes multiespectrales
fueron tomadas en etapas muy tempranas y de esta manera la relación con el rendimiento de fibra de algodón es
baja como se vio en el estudio de Ballester et al. [23], aunque en este estudió se tomó la información de 43 a 63
días de emergido (DDE), mientras tanto en el estudio de Ballester et al. tomaron las imágenes desde 62 DDE
hasta 169 DDE. En las figuras Figura 38c y Figura 38d se observa que en el estado fenológico de crecimiento 65
muestra mejores resultados que el estado 61. Mientras tanto, en el modelo generado con la base de datos SOIL,
muestra que los macroporos (MacroP), es la variable más relevante (Figura 38e y Figura 38f).
9.2.6. Modelo de identificación de zonas homogéneas
9.2.6.1. Análisis de componentes espaciales principales
Para generar el modelo de zonas homogéneas se obtienen los componentes principales espaciales (CPE), a
partir de imágenes multiespectrales, parámetros del suelo y el cultivo a 72 puntos. El análisis de componentes
principales arrojó que los tres primeros componentes representaban el 90% de la varianza total del conjunto de
datos de la siguiente manera: CS1=49.10823973, CS2= 27.02976794, CS3= 14.04438711. Estos componentes
fueron interpolados a 5000 puntos, donde la validación de su interpolación se encuentra en la Tabla 19, en
conjunto con los modelos utilizados en los semivariogramas. En el caso de los CPE que obtuvieron un p-valor
menor a 0.05, no se realizó una transformación de normalidad ya que presentan valores negativos y la
transformación de boxcox da un valor infinito.
Tabla 19. Interpolación de los componentes principales espaciales seleccionados.
Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
CS1 Gaussiano WLS-npais 0.59 48.65 5.31 0.71789 p-value = 0.0004998
0.07 0.88 W = 0.98297, p-value = 0.4394
CS2 Exponencial OLS 0.17 41.70 1.62 0.73652 p-value = 0.0004998
0.22 0.71 W = 0.96548, p-value = 0.04536
CS3 Exponencial WLS- cressie
0.12 26.06 1.07 0.55726 p-value = 0.0004998
0.13 0.57 W = 0.98975, p-value = 0.8299
CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill
9.2.6.2. Modelos de Clustering
A partir de las bases de datos ALL, CPE, MI y SOIL se aplicaron los algoritmos FCM, KMS y MQY para la
identificación de zonas homogéneas, para ello se dividió en dos, tres y cuatro zonas, además, se obtuvieron las
zonas para el rendimiento de la fibra de algodón (Figura 39), con el fin de comparar con las zonas generadas por
las bases de datos. En los mapas generados con la base de datos ALL y SOIL los resultados son muy similares,
esto puede sugerir que las variables más importantes en la delimitación de zonas con ALL fueron los parámetros
del suelo y el cultivo. Los mapas generados con ALL y SOL en los algoritmos FCM, KMS y MQY dividieron las
zonas de una manera muy similar, mientras tanto, la división de las zonas en tres y cuatro, se muestran un poco
dispersas.
Al igual que en el cultivo de arroz, la segmentación de zonas con la base de datos MI, es muy dispersa, pero en
el caso del algodón, se encuentra mejor delimitada, es por esto que al realizar el suavizamiento se definen muy
bien las zonas, exceptuando por la división en cuatro zonas. Se puede observar que existe cierta similitud entre
las zonas generadas con MI y CPE, esto se puede denotar cuando se aplica el suavizado a las zonas. Cabe
resaltar que MQY con MI, no dividió las zonas de manera satisfactoria, generó una zona menos en cada división,
por ejemplo, en la división de dos zonas, generó solamente una.
Figura 39. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las
imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales
espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento; FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty.
9.2.6.3. Validación
En las tablas 20 a 24 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se
utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes
principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:
Índice de reducción de varianza (%).
Tabla 20. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 3.992 0.047 4.487 0.012 2.881 0.036
KMS 5.796 0.017 5.542 0.004 2.881 0.036
MQY 2.467 0.117 1.010 0.365 1.009 0.389
CPE
FCM 1.337 0.248 6.403 0.002 3.279 0.021
KMS 0.207 0.649 5.038 0.007 2.878 0.036
MQY 0.211 0.646 4.278 0.015 3.843 0.010
MI
FCM 0.005 0.947 0.600 0.550 0.049 0.986
KMS 0.883 0.348 0.310 0.734 1.882 0.132
MQY - - 0.010 0.919 0.221 0.802
SOIL
FCM 3.992 0.047 4.487 0.012 2.881 0.036
KMS 5.796 0.017 5.542 0.004 2.881 0.036
MQY 5.157 0.024 2.845 0.060 1.751 0.156
Tabla 21. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 6.156 0.014 3.229 0.041 1.192 0.313
KMS 5.102 0.025 2.840 0.060 3.447 0.017
MQY 5.233 0.023 3.078 0.047 4.874 0.003
CPE
FCM 0.390 0.533 5.719 0.004 6.2705 0.0004
KMS 0.203 0.652 5.650 0.004 5.7925 0.0007
MQY 0.027 0.870 4.526 0.012 3.0187 0.0299
MI
FCM 0.125 0.724 0.615 0.541 0.716 0.543
KMS 0.150 0.699 1.474 0.231 1.110 0.345
MQY - - 0.067 0.795 0.317 0.728
SOIL
FCM 3.992 0.047 4.487 0.012 2.881 0.036
KMS 5.796 0.017 5.542 0.004 2.881 0.036
MQY 5.157 0.024 2.845 0.060 1.751 0.156
El ANOVA dio como resultado que FCM y KMS para ALL y SOIL en la división de dos zonas, tres zonas y cuatro
zonas sin suavizamiento (Tabla 20) la división de los grupos fue significativa, al aplicar el suavizado los resultados
son similares excepto KMS en tres zonas y FCM en cuatro zonas (Tabla 21Tabla 20). Los algoritmos con las
bases de datos CPE y MI dividieron el área en dos y tres zonas de manera significativa.
Por otra parte, los resultados de VR muestran que, para la división en dos zonas, KMS en la base de datos ALL
se obtuvo un VR de 14.8% (Tabla 22) y 13.4% al aplicar el suavizado (Tabla 23), mientras tanto FCM obtuvo un
VR de 12.2% sin suavizado, y luego de aplicar el filtro, resultó con un VR de 15.8%. Igualmente, en la división de
tres y cuatro zonas los mejores resultados fueron obtenidos por la base de datos CPE con los algoritmos FCM y
KMS, con VR de 28.6% y 29.1% para tres zonas, y 31.6% y 33.0% para cuatro zonas. Al aplicar el suavizamiento
los mejores algoritmos en CPE incrementaron su VR, es por esto que FCM en CPE tiene un VR de 41.9% en la
división de cuatro zonas, el mayor registrado para algodón. Sin embargo, el segundo mejor es KMS, pero este a
diferencia del anterior, cuenta las cuatro zonas con media diferente, según la comparación de medias de Tukey
(Z1=bc, Z2= ab, Z3=a, Z4=c).
Finalmente, en la Tabla 24 se encuentran las variables que influyeron en la delimitación de zonas homogéneas,
para conocer este valor, se realizó el ANOVA con todas las medicines de algodón, donde su valor es significativo,
representa la participación de esta variable al momento de desarrollar los mapas de zonas homogéneas.
Tabla 22. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1
KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0
MQY 2242.2 a 2366.1 a 8.0 2242.7 a 2354.9 a 2346.2 a 9.1 2245.7 a 2358.1 a 2190.7 a 2162.7 a 16.4
CPE
FCM 2296.8 a 2217.5 a 2.10 2292.9 b 2073.4 a 2400.2 b 28.6 2327.3 ab 2180.0 ab 2077.3 a 2405.6 b 31.6
KMS 2264.8 a 2230.6 a 1.42 2288.7 b 2088.6 a 2399.9 b 29.1 2331.8 a 2161.1 a 2111.5 a 2392.0 a 33.0
MQY 2282.9 a 2248.8 a -0.23 2279.3 ab 2067.8 a 2384.3 b 24.0 2282.7 ab 2063.3 a 2413.4 b 2393.1 ab 23.9
MI
FCM 2242.6 a 2247.5 a 0.8 2271.0 a 2282.2 a 2197.7 a 16.9 2276.8 a 2254.1 a 2252.6 a 2283.3 a 8.5
KMS 2301.0 a 2236.7 a 2.8 2241.6 a 2273.0 a 2208.4 a 15.5 2250.2 a 2270.7 a 2465.1 a 2167.5 a 15.0
MQY - - - - - 2273.8 a 2265.5 a - - 0.36 2277.2 a 2231.3 a 2222.3 a - - -0.26
SOIL
FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1
KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0
MQY 2383.3 b 2218.6 a 13.4 2378.7 a 2223.9 a 2469.1 a 15.4 2378.6 a 2224.0 a 2440.9 a 2216.7 a 13.4
Tabla 23. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 2380.1 b 2202.7 a 15.8 2320.7 ab 2189.0 a 2405.0 b 14.2 2322.5 a 2256.5 a 2164.8 a 2334.4 a 23.1
KMS 2387.4 b 2218.1 a 13.4 2334.6 a 2197.8 a 2402.5 a 14.0 2342.8 ab 2219.5 ab 2173.6 a 2687.8 b 22.9
MQY 2422.3 b 2242.9 a 11.0 2415.6 b 2228.9 a 2415.0 ab 13.4 2396.5 b 2257.2 ab 2065.2 a 2395.4 ab 24.2
CPE
FCM 2280.5 a 2236.0 a 0.8 2277.6 ab 2098.8 a 2405.3 b 30.0 2342.5 b 1991.7 a 2192.8 ab 2441.2 b 41.9
KMS 2278.2 a 2243.5 a 1.4 2294.1 b 2099.3 a 2417.2 b 29.1 2359.3 bc 2191.0 ab 2042.2 a 2441.5 c 35.7
MQY 2274.0 a 2260.7 a 2.6 2238.1 ab 2073.5 a 2407.4 b 34.1 2274.0 ab 2079.1 a 2408.1 b 2373.9 ab 29.2
MI
FCM 2253.7 a 2226.9 a 1.6 2312.9 a 2208.9 a 2276.4 a 14.4 2264.5 a 2384.3 a 2179.5 a 2257.7 a 17.1
KMS 2264.5 a 2235.1 a 1.2 2375.6 a 2206.0 a 2240.4 a 10.0 2243.3 a 2296.7 a 2142.8 a 2299.8 a 20.7
MQY - - - - - 2262.0 a 2241.8 a - - - 2292.6 a 2242.8 a 2183.2 a - - 3.5
SOIL
FCM 2378.2 b 2233.2 a 12.2 2323.7 ab 2513.7 b 2200.8 a 13.0 2268.6 ab 2384.4 ab 2207.9 a 2585.0 b 12.1
KMS 2379.8 b 2214.2 a 14.8 2306.3 a 2569.0 b 2201.3 a 14.7 2249.8 ab 2368.7 ab 2189.3 a 2559.7 b 15.0
MQY 2383.3 b 2218.6 a 13.4 2378.7 a 2223.9 a 2469.1 a 15.4 2378.6 a 2224.0 a 2440.9 a 2216.7 a 13.4
Tabla 24. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para cuatro zonas con suavizado en la base de datos de componentes
principales espaciales (CPE).
Var NDVI61 NDVI65 SCCCI61 SCCCI65 TCARIOSAVI61 TCARIOSAVI65
p-value * * * * * *
Var REDGE61 REDGE65 PRI61 MacroP Fe RP
p-value * * * * * *
Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.
9.3. Cultivo de maíz
9.3.1. Procesamiento de imágenes
Al igual que con los cultivos de arroz y algodón, el NDVI se encuentra saturado, esto puede deberse a que, en
etapas tempranas del cultivo, el suelo se encuentra descubierto y provoca la saturación de este índice, tanto, en
la primera (Figura 40), como segunda campaña (Figura 41) de maíz se observa este efecto, sin embargo, existe
una distribución de los patrones de los índices que difiere de una campaña a otra.
Figura 40. Imágenes NDRE y NDVI (de arriba hacia abajo) en los tres estados fenológicos estudiados (de izquierda a
derecha) de la primera campaña de maíz.
Figura 41. Imágenes NDRE y NDVI (de arriba hacia abajo) en los tres estados fenológicos estudiados (de izquierda a
derecha) de la segunda campaña de maíz.
9.3.2. Análisis de datos
En la Tabla 25, se observa el análisis descriptivo para las imágenes espectrales en el cultivo de maíz. De modo
general, los coeficientes de variación estuvieron en un máximo del 21%. La primera campaña registró mayores
variaciones en comparación a la segunda campaña.
Tabla 25. Análisis descriptivo de las imágenes espectrales (índices de vegetación y bandas espectrales) de maíz.
Primera campaña Segunda Campaña Primera campaña Segunda Campaña
Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV
gndvi19 0.653 0.031 4.703 gndvi19 0.791 0.019 2.424 savi63 0.246 0.009 3.808 savi61 0.613 0.014 2.329
gndvi53 0.852 0.013 1.555 gndvi53 0.872 0.006 0.717 sr19 9.331 1.975 21.165 sr19 25.207 3.702 14.686
gndvi63 0.829 0.018 2.128 gndvi61 0.816 0.014 1.770 sr53 34.069 2.744 8.055 sr53 85.222 5.336 6.261
gvi19 4.933 0.557 11.288 gvi19 9.011 0.808 8.963 sr63 22.909 1.581 6.903 sr61 16.508 1.356 8.215
gvi53 12.954 1.252 9.668 gvi53 15.228 0.818 5.370 green19 0.054 0.003 5.970 green19 0.010 0.000 3.611
gvi63 11.204 1.212 10.819 gvi61 10.263 0.803 7.821 green53 0.021 0.002 7.235 green53 0.040 0.002 4.201
ndre19 0.429 0.035 8.110 ndre19 0.634 0.023 3.568 green63 0.011 0.002 14.260 green61 0.044 0.005 10.800
ndre53 0.678 0.023 3.459 ndre53 0.705 0.010 1.464 nir19 0.267 0.036 13.523 nir19 0.084 0.007 8.382
ndre63 0.618 0.035 5.655 ndre61 0.648 0.020 3.144 nir53 0.266 0.014 5.109 nir53 0.574 0.029 5.131
ndvi19 0.771 0.037 4.864 ndvi19 0.912 0.020 2.206 nir63 0.114 0.008 7.080 nir61 0.418 0.019 4.606
ndvi53 0.939 0.005 0.578 ndvi53 0.975 0.002 0.176 red19 0.104 0.007 6.505 red19 0.019 0.001 4.658
ndvi63 0.914 0.006 0.652 ndvi61 0.880 0.011 1.255 red53 0.051 0.003 6.265 red53 0.101 0.005 4.652
osavi19 0.575 0.050 8.781 osavi19 0.370 0.026 7.006 red63 0.027 0.004 14.439 red61 0.091 0.009 9.386
osavi53 0.682 0.016 2.355 osavi53 0.882 0.013 1.452 redge19 0.246 0.009 3.808 redge19 0.613 0.014 2.329
osavi63 0.449 0.018 3.981 osavi61 0.743 0.010 1.389 redge53 9.331 1.975 21.165 redge53 25.207 3.702 14.686
savi19 0.429 0.051 11.773 savi19 0.204 0.017 8.248 redge63 34.069 2.744 8.055 redge61 85.222 5.336 6.261
savi53 0.495 0.018 3.660 savi53 0.780 0.021 2.741
CV = coeficiente de variación (%), std = desviación estándar.
De los parámetros de suelo y cultivo (Tabla 26) obtenidos, se observan variaciones que van del 3 al 40%. En la
campaña uno se observan menores coeficientes de variación comparado a la campaña dos.
Tabla 26. Análisis descriptivo de los parámetros del cultivo y el suelo en arroz.
Primera campaña Segunda campaña Primera campaña Segunda campaña
Variable Media std CV Variable mean std CV Variable Media std CV Variable mean std CV
RCC63 43.356 6.004 13.849 RCC61 63.79 8.42 13.19 Mn 5.393 1.741 32.287 Mn 5.73 2.11 36.87
FC 29.860 4.819 16.140 FC 30.77 7.76 25.21 Cu 3.847 1.458 37.896 Cu 3.78 1.52 40.30
PWP 24.851 4.670 18.793 PWP 26.70 7.84 29.36 SatNa 2.139 0.564 26.384 SatNa 2.39 0.64 26.80
AD 1.609 0.139 8.627 AD 1.64 0.14 8.81 RP 4.187 0.433 10.332 RP 3.74 0.80 21.53
MicroP 31.631 5.002 15.815 MicroP 28.53 4.99 17.48 PD 14.411 2.644 18.348 PD 12.93 3.91 30.26
Sand 49.000 15.531 31.697 Sand 49.00 15.53 31.70 Ca_Mg_K 47.629 15.521 32.587 Ca_Mg_K 46.05 15.83 34.38
Silt 37.371 14.793 39.585 Silt 37.37 14.79 39.59 Mg_K 10.872 3.147 28.944 Mg_K 10.35 3.15 30.45
pH 6.068 0.187 3.078 pH 6.67 0.20 3.06 Ca_B 11.573 2.397 20.709 Ca_B 9.82 1.72 17.47
Mg 1.554 0.343 22.046 Mg 1.58 0.39 24.97 Yield 7965.569 2108.070 26.46 Yield 6742.22 2506.84 37.18
CV = coeficiente de variación (%), std = desviación estándar.
9.3.3. Selección de variables
9.3.3.1. Correlación de Spearman
De los resultados en la Figura 42, en la primera campaña se observa que los índices de vegetación presentan
correlación significativa con el rendimiento, en los estados 53 y 63, excepto por el índice SAVI en el estado 63.
En lo que se refiere con las bandas espectrales solamente se observa un resultado significativo en NIR 53 y
REDGE 19 para la primera campaña de maíz. Por otra parte, en la segunda campaña los índices de vegetación
muestran un comportamiento un poco diferente, debido a que, los resultados de Spearman muestran GNDVI, GVI
y NDVI revelan un valor significativo para las fechas 19 y 63 solamente, mientras tanto, OSAVI y SAVI presentan
resultados significativos para los estados 19 y 53. GREEN, NIR, REDGE y NDRE tienen correlación con el
rendimiento en los tres estados fenológicos de crecimiento. Lo dicho hasta aquí supone que, existen resultados
significativos para las tres fechas, a razón de esto, se evaluarán las variables en las tres fechas seleccionadas.
La banda REDGE de la segunda campaña muestra el resultado más alto entre las variables de imágenes
multiespectrales, y el segundo más alto fue el NDRE, que está basado en el REDGE y NIR. A su vez, los
resultados no significativos tienen su valor de más cercano a cero, representando que dicha variable no presenta
correlación, como es el caso de SAVI 63, la banda BLUE y RED en los estados fenológicos 19 y 53, de ahí que,
estas dos últimas se deciden por ser descartadas del análisis posterior, ya que en dos de las tres fechas, tanto
en la primera como la segunda campaña, sus resultados muestran baja correlación con el rendimiento y por esta
razón, se desestiman para desarrollar los modelos más adelante.
Figura 42. Correlación de Spearman para las imágenes multiespectrales tomadas en la primera y segunda campaña del
cultivo de maíz.
Figura 43. Correlación de Spearman de los parámetros del suelo y el cultivo tomados en la primera y segunda campaña del
cultivo de maíz.
En la Figura 43 se muestra la correlación de los parámetros del suelo y el cultivo para la primera y segunda
campaña de maíz, donde los resultados evidencia que pocas variables se encuentran relacionadas con el
rendimiento. En la primera campaña las mediciones de RCC en el estado fenológico 63 y LAI en el estado 19; de
las mediciones de los parámetros físicos se encuentran correlacionadas con el rendimiento el FC y PWP, Sand,
Silt; de las propiedades químicas el pH, Mg, Mn, Cu, SatNa, (Ca+Mg)/K, Mg/K y Ca/B; y de penetrometría PD,
mientras tanto en la segunda campaña solamente se encuentran RCC 63, AD, MicroP, Sand y RP. Nótese que
la única variable que se encuentra correlacionada con el rendimiento, tanto en la primera como la segunda
campaña, es Sand. En la selección de variables se toman las mediciones que presenten resultados significativos
tanto en la primera como la segunda campaña, en consecuencia, se eligen las variables anteriormente
mencionadas.
-0.80
-0.60
-0.40
-0.20
0.00
0.20
0.40
0.60G
ND
VI1
9
GN
DV
I53
GN
DV
I63
GV
I19
GV
I53
GV
I63
ND
RE
19
ND
RE
53
ND
RE
63
ND
VI1
9
ND
VI5
3
ND
VI6
3
OS
AV
I19
OS
AV
I53
OS
AV
I63
SA
VI1
9
SA
VI5
3
SA
VI6
3
SR
19
SR
53
SR
63
BL
UE
19
BL
UE
53
BL
UE
63
GR
EE
N1
9
GR
EE
N5
3
GR
EE
N6
3
NIR
19
NIR
53
NIR
63
RE
D1
9
RE
D5
3
RE
D6
3
RE
DG
E1
9
RE
DG
E5
3
RE
DG
E6
3
Spearman correlation of multispectral images
Significant correlation first campaign No significant correlation first campaign
Significant correlation second campaign No significant correlation second campaign
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
RC
C19
RC
C63
LA
I19
LA
I53
FC
PW
P
UW AD
Ma
cro
P
Me
soP
Mic
roP
TP
Sand
Cla
y
Silt
pH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
SatC
a
SatM
g
SatK
SatN
a
RP
PD
Ca/M
g
(Ca
+M
g)/
K
Mg
/K
Ca/B
Spearman correlation of crop and soil parameters
Significant correlation first campaign No significant correlation first campaign
Significant correlation second campaign No significant correlation second campaign
9.3.3.2. Índice de Moran
Figura 44. Índice de Moran de las imágenes multiespectrales de la primera y segunda campaña del cultivo de maíz.
Figura 45. Índice de Moran de los parámetros del suelo y el cultivo de la primera y segunda campaña del cultivo de maíz.
En la Figura 44 y Figura 45 se presentan los resultados de autocorrelación espacial de las imágenes
multiespectrales, los parámetros del suelo y el cultivo. De las imágenes multiespectrales se evidencia que la
dependencia espacial es alta, alrededor de 0.7, esto sugiere que al realizar el recorte y promedio de las imágenes
en 72 puntos fue un método adecuado para observar la variabilidad espacial de cada índice de vegetación y
banda espectral. En cambio, los resultados para los parámetros del suelo y el cultivo evidencian gran variación,
ya que el valor más alto de dependencia espacial está dado por Sand con 0.86, seguido de la variable Silt con
0.82, mientras tanto, el valor más bajo es de -0.002 dado por K en la segunda campaña.
Finalmente se evalúan los resultados de la correlación de Spearman y el índice de Moran de las variables para
seleccionar las mediciones que serán utilizadas en el procedimiento más adelante. Como se mencionó antes, las
bandas BLUE y RED presentan correlación espacial en la primera y segunda campaña, pero muestra inexistencia
de correlación con el rendimiento, sin embargo, las bandas GREEN, NIR y REDGE son seleccionadas, de igual
modo, los índices de vegetación.
Las mediciones del cultivo RCC 63 y LAI19 presentan resultados de correlación y dependencia espacial
significativos, así mismo, los parámetros del suelo FC, PWP, AD, MicroP, Sand, Silt, pH, Mg, Mn, Cu, SatNa, RP,
PD, (Ca+Mg)/K, Mg/K y Ca/B.
00.20.40.60.8
1
GN
DV
I19
GN
DV
I53
GN
DV
I63
GV
I19
GV
I53
GV
I63
ND
RE
19
ND
RE
53
ND
RE
63
ND
VI1
9
ND
VI5
3
ND
VI6
3
OS
AV
I19
OS
AV
I53
OS
AV
I63
SA
VI1
9
SA
VI5
3
SA
VI6
3
SR
19
SR
53
SR
63
BL
UE
19
BL
UE
53
BL
UE
63
GR
EE
N…
GR
EE
N…
GR
EE
N…
NIR
19
NIR
53
NIR
63
RE
D1
9
RE
D5
3
RE
D6
3
RE
DG
E…
RE
DG
E…
RE
DG
E…
Moran index of multispectral images
Significant autocorrelation first campaign No significant autocorrelation first campaign
Significant autocorrelation second campaign No significant autocorrelation second campaign
-0.20
0.20.40.60.8
1
RC
C19
RC
C63
LA
I19
LA
I53
FC
PW
P
UW AD
Ma
cro
P
Me
soP
Mic
roP
TP
Sand
Cla
y
Silt
pH
OM P S
Ca
Mg K
Na
CE
C Fe
Mn
Zn
Cu B
SatC
a
SatM
g
SatK
SatN
a
RP
PD
Ca/M
g
(Ca
+M
g)/
K
Mg
/K
Ca/B
Yie
ld
Moran index of crop and soil parameters
Significant autocorrelation first campaign No significant autocorrelation first campaign
Significant autocorrelation second campaign No significant autocorrelation second campaign
9.3.3.3. Matriz de correlación
Figura 46. Matriz de correlación de las mediciones de la primera campaña de maíz.
Figura 47. Matriz de correlación de las mediciones de la segunda campaña de maíz.
NDRE y NDVI muestran correlación con GNDVI y GVI en la primera y segunda campaña, por ello se procede a
eliminar GNDVI y GVI. Así mismo, OSAVI, SAVI y SR presentan correlación con NDVI, NDRE, NIR, y RED el
estado fenológico 19, también su relación con el rendimiento es menor, como resultado se decide eliminar OSAVI,
SAVI y SR. Como la banda GREEN muestra alta correlación con la banda REDGE en el estado 19 de la segunda
campaña, se procede a eliminar GREEN. La banda NIR se encuentra correlacionada con NDRE en el estado
fenológico 19 en la primera campaña, y con NDVI en la segunda campaña.
En los parámetros del suelo y el cultivo se encuentra FC y PWP como variables correlacionadas entre sí, además
ambas tienen una relación muy similar con el rendimiento, sin embargo, FC muestra una relación con el
rendimiento de 0.27 y para PWP de 0.28 en la primera campaña, mientras tanto, en la segunda campaña estos
valores son de 0.15 y 0.14 respectivamente, como el resultado, no es concluyente se opta por seleccionar PWP
ya que es más usada para medir el estrés hídrico... Por otra parte, a pesar de que, las variables de textura Sand
y Silt se encuentran correlacionadas, la relación de Sand con el rendimiento es de -0.31, mientras que Silt es de
0.27 en la primera campaña, en la segunda los valores presentan resultados proporcionales a los anteriores, por
esta razón, se selecciona la variable Sand. Se observa la propiedad química Cu correlacionada con Sand en la
primera campaña, así que se descarta. De las relaciones entre propiedades químicas, (Ca+Mg)/K y Mg/K se
encuentran altamente correlacionadas, pero el resultado de la última variable relacionada con el rendimiento es
mayor, por esto, se elige Mg/K para el análisis posterior.
Tabla 27. Variables seleccionadas para la primera y segunda campaña del cultivo de maíz.
Imágenes multiespectrales
Tipo de medición Primera
campaña Segunda campaña
Tipo de medición Primera
campaña Segunda campaña
Índices de vegetación
NDRE19 NDRE19
Bandas espectrales
NIR19 NIR19
NDRE53 NDRE53 NIR53 NIR53
NDRE63 NDRE61 NIR63 NIR63
NDVI19 NDVI19 REDGE19 REDGE19
NDVI53 NDVI53 REDGE53 REDGE53
NDVI63 NDVI63 REDGE63 REDGE61
Parámetros del suelo y el cultivo
Mediciones del cultivo
RCC63 RCC61
Propiedades químicas
Mg Mg
LAI19 LAI19 Mn Mn
Física de suelos
PWP PWP SatNa SatNa
AD AD Mg/K Mg/K
MicroP MicroP Ca/B Ca/B
Sand Sand
Penetrometría
RP RP
Propiedades químicas
pH pH PD PD
9.3.4. Interpolación
La Tabla 28 se muestran los modelos y métodos de ajuste para los semivariogramas para la interpolación por el
método de kriging. El R2 se encuentra entre 0.16 a 0.91 en la primera campaña, esto es congruente con el índice
de Moran, ya que la dependencia espacial influye en la interpolación por kriging, como es el caso del rendimiento
donde el índice de Moran es 0.28 y por ende la validación de la interpolación se encuentra en 0.16. Las variables
LAI19, PWP, MicroP, Sand, SatNa, Mg/K, RP y PD de la primera campaña presentaron un p-valor menor a 0.05,
por esta razón, se realizó la transformación de normalidad por el método de boxcox, en la segunda campaña,
este procedimiento se realizó a RCC61, LAI19, PWP, pH, Mg, Mn, SatNa, Mg/K y Yield. Los mapas interpolados
se encuentran en Figura 48 y Figura 49.
Tabla 28. Interpolación de variables del suelo y el cultivo para la primera campaña de maíz.
Variable Modelo Método Co Rango(m) Co+C Índice de Moran RMSE R2 Prueba Shapiro-
wilks
RCC63 Esférico WLS-npairs
3.48 56.76 29.15 0.36424 p-value
= 2e-04 0.08 0.31
W = 0.97264, p-value = 0.118
LAI19 Exponencial WLS-
Cressie 0.05 38.46 0.41
0.4556 p-value = 2e-04
0.10 0.42 W = 0.89851, p-
value = 2.669e-05
PWP Exponencial OLS 0.0002 40.02 0.0012 0.52429 p-value
= 2e-04 0.05 0.53
W = 0.96274, p-value = 0.0316
AD Exponencial OLS 0.0 44.59 0.02 0.49573 p-value
= 2e-04 0.99 0.51
W = 0.9703, p-value = 0.08635
MicroP Exponencial ML 0.2e-05 40 1.5e-05 0.4393 p-value =
2e-04 0.05 0.41
W = 0.95103, p-value = 0.007087
Sand Gaussiano OLS 11721.38 69.19 104542.06 0.82081 p-value
= 2e-04 3.20 0.91
W = 0.92462, p-value = 0.0003462
pH Esférico WLS-npairs
0.01 104.05 0.024 0.42406 p-value
= 2e-04 0.11 0.44
W = 0.98983, p-value = 0.8343
Mg Exponencial WLS-npairs
0.01 67.27 0.08 0.72027 p-value
= 2e-04 0.07 0.76
W = 0.98249, p-value = 0.4157
Mn Esférico OLS 0.54 97.60 1.96 0.37154 p-value
= 2e-04 0.05 0.35
W = 0.97421, p-value = 0.1454
SatNa Exponencial WLS-npairs
0.03 38.61 0.25 0.43281 p-value
= 2e-04 0.08 0.40
W = 0.7342, p-value = 4.193e-
10
Mg/K Exponencial WLS-npairs
0.00 31.27 0.03 0.4919 p-value =
2e-04 0.08 0.49
W = 0.91109, p-value = 8.766e-05
Ca/B Exponencial REML 0.53 21.28 4.29 0.4423 p-value =
2e-04 0.14 0.40
W = 0.97728, p-value = 0.2176
RP Gaussiano REML 28.06 18.71 227.52 0.48688 p-value
= 2e-04 2.37 0.40
W = 0.95255, p-value = 0.008549
PD Gaussiano WLS-npairs
1e-6 45 11e-6 0.56235 p-value
= 2e-04 0.01 0.56
W = 0.92243, p-value = 0.0002753
Yield Exponencial OLS 504767.85 26.28 3956288.55 0.28668 p-value
= 0.0005999 18.83 0.16
W = 0.98772, p-value = 0.7124
Co: nugget, Co+C: Sill
Figura 48. Mapas interpolados de la primera campaña de maíz.
Tabla 29. Interpolación de variables del suelo y el cultivo para la segunda campaña de maíz.
Variable Modelo Método Co Rango Co+C Índice de Moran RMSE R2 Prueba Shapiro-wilks
RCC61 Exponencial OLS 1e-05 50 6e-05 0.59911 p-value = 2e-04
0.16 0.57 W = 0.96494, p-value = 0.04226
LAI19 Exponencial OLS 0.03 42.16 0.25 0.56488 p-value = 2e-04
0.41 0.64 W = 0.96743, p-value = 0.05878
PWP Esférico ML 0.0001 60 0.001 0.26466 p-value = 0.0007998
0.09 0.32 W = 0.92728, p-value = 0.0004595
AD Exponencial WLS - npairs
0.0 30.27 0.022 0.33173 p-value = 2e-04
0.018 0.22 W = 0.98936, p-value = 0.8084
MicroP Gaussiano REML 9.28 51.11 14.99 0.29927 p-value = 0.0005
0.064 0.31 W = 0.97123, p-value = 0.09773
pH Exponencial OLS 72.31 18.43 625.41 0.18973 p-value = 0.0099
0.17 0.12 W = 0.95553, p-value = 0.01245
Mg Esférico WLS - npairs
0.02 64.86 0.15 0.17727 p-value = 0.0144
0.05 0.13 W = 0.96533, p-value = 0.04449
Mn Exponencial REML 0.01 18.92 0.14 0.1019 p-value = 0.0977
0.03 0.01 W = 0.93695, p-value = 0.001335
SatNa Exponencial OLS 0.04 35.90 0.36 0.17632 p-value = 0.0134
0.19 0.10 W = 0.79607, p-value = 1.347e-08
Mg/K Exponencial WLS - cressie
0.05 21.02 0.44 0.31684 p-value = 2e-04
0.10 0.25 W = 0.93561, p-value = 0.001147
Ca/B Exponencial REML 0.32 21.62 2.89 0.27839 p-value = 2e-04
0.02 0.19 W = 0.9708, p-value = 0.09222
RP Gaussiano WLS - cressie
2.34 51.85 20.25 0.58262 p-value = 2e-04
0.05 0.61 W = 0.91308, p-value = 0.0001066
PD Esférico OLS 1.00 64.86 7.56 0.51558 p-value = 2e-04
0.46 0.53 W = 0.96033, p-value = 0.02306
Yield Gaussiano ML 0.01 36.49 0.11 0.51866 p-value = 2e-04
0.10 0.70 W = 0.94312, p-value = 0.002725
Co: nugget, Co+C: Sill
Figura 49. Mapas interpolados de las variables de la segunda campaña.
9.3.5. Modelo de predicción de rendimiento
El modelo de predicción de rendimiento con los algoritmos de regresión presenta resultados altos de R2 con la
base de datos ALL, entre 0.93 a 0.99 y para la base de datos SOIL el rango se encuentra de 0.96 a 0.99 en el
siguiente orden: SVR, RF, KNN y MLP. Mientras tanto, el máximo valore de R2 para la base de datos MI, es de
0.57 con el algoritmo RF. Al igual que en los cultivos de arroz y algodón, el algoritmo LASSO no se desempeñó
bien en esta aplicación, ya que sus resultados varían de 0.308 a 0.541.
Figura 50. Validación de los algoritmos de regresión para la predicción del rendimiento de maíz. a) Resultados del
coeficiente de determinación R2. b) Resultados de la raíz del error medio cuadrático.
Figura 51. Rendimiento de maíz real, contra predicho por los algoritmos de regresión en las diferentes bases de datos.
Los resultados del modelo de clasificación muestran que, el conjunto de algoritmos RF, KNN, GBR, y SVM
lograron buenos resultados, de un rango de exactitud entre 0.893 a 0.973 con las bases de datos ALL y SOIL.
Entre ellos sobre salta el algoritmo SVM con la base de datos SOIL, el cual como se observa en la Figura 52b,
en las clases bajo (0) se clasificaron correctamente 1116 muestras de 1142, en la clase medio (1) se clasificó
1234 de 1268 muestras, y en la clase alto (2) se clasificaron correctamente 568 de 590. Mientras tanto, el mismo
conjunto de algoritmos alcanza un rango de exactitud entre 0.696 a 0.730. En la Figura 52c, se muestra los
resultados de clasificación donde se logra clasificación 904 de un total de 1142 para la clase bajo, 973 de 1268
para la clase medio y en la clase alto 312 de 590.
Figura 52. Validación de los modelos clasificación para la predicción del rendimiento de maíz. a) Resultados de exactitud. b)
Matriz de confusión del algoritmo support vector machine (SVM) con la base de datos del suelo y el cultivo (SOIL). c) Matriz
de confusión del algoritmo Random forest (RF) con la base de datos de imágenes multiespectrales (MI).
Figura 53. Variables de importancia de los modelos de regresión (columna izquierda) y clasificación (columna derecha). a) y
b) Todas las variables. c) y d) Imágenes multiespectrales. e) y f) Parámetros del suelo y el cultivo.
Las variables de importancia de los modelos de regresión y clasificación (Figura 53) arrojaron resultados similares
a los cultivos de arroz y algodón. En este caso entre las propiedades del suelo y el cultivo relevantes fueron
RCC63, RP, Mn, PD, pH tanto en rendimiento como clasificación, pero los MicroP, fueron una variable adicional
de importancia para los modelos de clasificación. En los modelos generados con las imágenes multiespectrales
se destaca la imagen REDGE en el estado fenológico 63, seguido de NDRE y NDVI. También se observa que las
imágenes tomadas en los estados fenológicos de crecimiento 53 y 63 tuvieron mayor peso que las mediciones
realizadas en el estado 19.
9.3.6. Modelo de identificación de zonas homogéneas
9.3.6.1. Análisis de componentes principales espaciales
En el análisis de componentes principales espaciales (CPE) se obtuvieron tres componentes que en total suman
el 79.4%de la varianza total, donde cada componente aporta de la siguiente manera: CS1 = 35.9%, CS2=26.4 y
CS3=17.1%. Luego se realizó la interpolación a 5000, donde se obtuvieron modelos gaussianos y esférico con el
método OLS de ajuste. El R2 de la interpolación varió entre 0.78 y 0.88, gracias a que el CPE presenta alta
dependencia espacial, se pueden lograr resultados altos en la interpolación con kriging.
Tabla 15. Interpolación de los componentes principales espaciales seleccionados.
Variable Modelo Método Co Rango Co+C Índice de
Moran RMSE R2
Prueba Shapiro-wilks
CS1 Gaussiano OLS 0.29 46.33 2.63 0.79965 p-value = 2e-04
0.36 0.88 W = 0.97228, p-value = 0.1125
CS2 Gaussiano OLS 0.51 64.32 4.71 0.77633 p-value = 2e-04
0.01 0.84 W = 0.97006, p-value = 0.08355
CS3 Esférico OLS 0.37 165.54 3.22 0.73728 p-value = 2e-04
0.43 0.78 W = 0.95116, p-value = 0.007197
CS1: Primer componente; CS2: Segundo componente; CS3: Tercer componente; Co: nugget; Co+C: Sill
9.3.6.2. Modelos de Clustering
La Figura 54 muestra las zonas homogéneas generadas por los algoritmos FCM, KMS y MQY para las bases de
datos ALL, CPE, MI y SOIL. También se obtuvieron las zonas para el rendimiento de maíz. A partir de los
resultados se observa gran similitud para las zonas generadas por FCM y KMS con las bases de datos SOIL y
ALL, sin embargo, con el algoritmo MQY las zonas tienen un patrón diferente. Las zonas generadas con el
rendimiento se muestran un poco dispersas, especialmente al dividir en cuatro zonas. Algo semejante ocurre con
las zonas generadas con la base de datos MI, los algoritmos FCM y KMS formaron zonas mejor definidas que
con los anteriores cultivos.
El algoritmo MQY con la base de datos MI, agrupó la mayoría de muestras a una sola zona, la zona 1, y algunas
muestras a las zonas restantes, esto puede deberse a que, al hacer el agrupamiento jerárquico, no se llega a
encontrar una función distancia amplia entre grupos para poder dividirlos, y agrupa la mayoría de muestras a un
solo grupo. Es por esto que, al desarrollar el posterior submuestreo estratificado, no se cuenta con las muestras
suficientes para realizarlo, por ende, los resultados de ANOVA y comparación de medias de Tukey es inexistente.
Pero, con esto no ocurre con las demás bases de datos.
Figura 54. Representación de zonas homogéneas por los diferentes métodos evaluados. Panel Izquierdo representa las
imágenes sin suavizamiento, panel derecho posterior al suavizado. ALL: Todas las variables; CPE: Componentes principales
espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; YIELD: Rendimiento; FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty.
9.3.6.3. Validación
En las tablas 30-34 se encuentran los resultados de ANOVA y comparación de medias de Tukey, en ellas se
utilizan las siguientes nomenclaturas DB: Base de datos; ALL: Todas las variables; CPE: Componentes
principales espaciales; MI: Imágenes multiespectrales; SOIL: Parámetros del suelo y el cultivo; FCM: Fuzzy C-
Means; KMS: K-Means; MQY: McQuitty; Zi: Media y comparación de medias de Tukey de zonas i:1,2,3,4; VR:
Índice de reducción de varianza (%).
Tabla 30. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, sin la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 0.0071 0.9328 1.5817 0.2071 1.2462 0.2928
KMS 0.0006 0.9809 2.3451 0.0973 1.1175 0.3419
MQY 1.4652 0.2269 1.2054 0.3008 1.0173 0.3850
CPE
FCM 6.8128 0.0094 3.8718 0.0217 2.4059 0.0671
KMS 5.0882 0.0247 5.4885 0.0045 2.3422 0.0730
MQY 9.0160 0.0029 4.8454 0.0084 3.6084 0.0136
MI
FCM 1.3856 0.2399 0.1126 0.8935 0.8432 0.4710
KMS 1.3856 0.2399 1.0357 0.3560 1.0878 0.3543
MQY - - 1.6957 0.1937 0.5459 0.4605
SOIL
FCM 0.007 0.933 1.582 0.207 1.246 0.293
KMS 0.001 0.981 2.345 0.097 1.118 0.342
MQY 0.470 0.494 0.284 0.753 0.548 0.650
Tabla 31. Análisis de varianza dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
F-valor p-valor F-valor p-valor F-valor p-valor
ALL
FCM 0.0011 0.9732 1.4626 0.233 1.0429 0.3736
KMS 0.9947 0.3193 1.6 0.2033 1.1577 0.3259
MQY 0.8645 0.3531 1.3334 0.2649 0.9121 0.4352
CPE
FCM 5.4045 0.0206 5.3517 0.0051 4.4694 0.0043
KMS 4.444 0.0357 3.8524 0.0221 4.5869 0.0036
MQY 7.0023 0.0085 4.3 0.0143 4.9826 0.0021
MI
FCM 2.744 0.0985 1.2199 0.2965 2.8488 0.0375
KMS 2.744 0.0985 7.4309 7e-04 2.6287 0.0501
MQY - - 0.3049 0.5812 - -
SOIL
FCM 0.001 0.973 1.463 0.233 1.043 0.374
KMS 0.995 0.319 1.600 0.203 1.158 0.326
MQY 0.842 0.359 0.489 0.614 0.671 0.571
Tabla 32. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, sin aplicar el suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 6960.8 a 6906.0 a -0.2 7418.5 a 6561.9 a 6126.5 a 3.2 7239.2 a 6369.5 a 7152.8 a 5892.9 a 6.7
KMS 6967.0 a 6952.0 a -0.2 7461.7 a 6623.6 a 5858.0 a 7.0 7336.8 a 6365.0 a 7004.1 a 5988.6 a 9.3
MQY 7055.7 a 6291.4 a 0.0 7364.7 a 6408.8 a 6469.7 a 7.6 7375.0 a 6414.3 a 6583.5 a 5980.6 a 9.0
CPE
FCM 7456.7 b 5933.2 a 23.2 5730.4 a 6439.9 ab 7921.1 b 27.6 5692.5 a 6765.0 a 5938.6 a 7725.0 a 35.2
KMS 5771.5 a 7199.5 b 1.0 5754.4 a 6097.6 a 8072.6 b 37.4 5826.5 a 7015.1 a 5789.6 a 7600.7 a 32.2
MQY 5934.2 a 7643.8 b 23.3 5842.8 a 5767.9 a 7567.3 b 27.7 5851.3 a 5910.4 a 6626.0 ab 7999.6 b 28.9
MI
FCM 6375.4 a 7047.4 a 0.1 6719.5 a 6790.6 a 6972.3 a -0.1 6533.7 a 6064.0 a 6687.2 a 7362.6 a 16.2
KMS 6375.4 a 7047.4 a 0.1 7184.8 a 6770.3 a 6319.6 a 20.7 6305.3 a 5944.8 a 6718.0 a 7266.8 a 13.6
MQY - - - - - 7017.5 a 5899.3 a - - 7004.3 a 6392.1 a - - - - -
SOIL
FCM 6960.8 a 6906.0 a -0.2 7418.5 a 6561.9 a 6126.5 a 3.2 7239.2 a 6369.5 a 7152.8 a 5892.9 a 6.7
KMS 6967.0 a 6952.0 a -0.2 7461.7 a 6623.6 a 5858.0 a 7.0 7336.8 a 6365.0 a 7004.1 a 5988.6 a 9.3
MQY 7049.4 a 6564.3 a 0.1 6550.8 a 7010.7 a 6678.9 a -0.3 6586.7 a 7375.1 a 6910.1 a 6422.1 a 6.4
Tabla 33. Resultados de la comparación de las medias de Tukey para dos, tres y cuatro zonas, en los modelos obtenidos, con la aplicación del suavizado.
DB Method 2 zones 3 zones 4 zones
Z1 Z2 VR Z1 Z2 Z3 VR Z1 Z2 Z3 Z4 VR
ALL
FCM 7080.9 a 7101.1 a 0.93 7390.1 a 6495.9 a 6310.8 a 4.5 7273.3 a 6207.0 a 7021.9 a 6156.1 a 6.4
KMS 6986.2 a 6395.3 a 0.54 7445.8 a 6446.6 a 6460.4 a 3.0 7306.0 a 6347.7 a 6413.9 a 5982.2 a 8.2
MQY 7104.1 a 6536.4 a -0.04 7338.9 a 6416.4 a 6366.5 a 6.9 7332.3 a 6418.7 a 6554.1 a 6087.1 a 7.6
CPE
FCM 7449.0 b 6075.7 a 29.4 5960.4 a 6275.8 a 8104.4 b 29.6 5874.8 a 5916.9 a 6890.6 ab 8329.8 b 24.7
KMS 5786.0 a 7102.1 b 1.1 5852.4 a 6416.1 ab 7899.1 b 27.7 5898.8 a 5944.3 a 6666.3 ab 8309.3 b 33.2
MQY 5999.3 a 7651.5 b 21.4 5835.8 ab 5832.1 a 7514.6 b 23.7 5755.1 a 5924.5 a 6726.7 ab 8316.9 b 26.3
MI
FCM 5942.8 a 7053.7 a -0.05 6570.4 a 6362.0 a 7272.6 a 3.6 6435.5 a 5762.6 a 6385.2 a 8005.1 a 23.9
KMS 5942.8 a 7053.7 a -0.05 5942.6 a 5863.7 a 8009.0 b 38.6 6527.2 a 6497.0 a - a 8077.5 a -
MQY - - - - - 6970.6 a 7538.5 a - - - - - - - - - - - -
SOIL
FCM 7080.9 a 7101.1 a 0.9 7390.1 a 6495.9 a 6310.8 a 4.5 7273.3 a 6207.0 a 7021.9 a 6156.1 a 6.4
KMS 6986.2 a 6395.3 a 0.5 7445.8 a 6446.6 a 6460.4 a 3.0 7306.0 a 6347.7 a 6413.9 a 5982.2 a 8.2
MQY 7108.5 a 6461.7 a -0.1 7023.5 a 7238.7 a 6401.8 a 0.6 7300.5 a 6757.0 a 6251.0 a 6471.3 a 3.2
Tabla 34. Variables significativas para el mapa de zonas generado por el algoritmo Kmeans (KMS) para tres zonas con suavizado en la base de datos de imágenes
multiespectrales (MI).
Var NDRE19 NDRE53 NDRE61 NDVI19 NDVI53 NDVI61
p-value
Var NIR19 NIR53 NIR61 REDGE19 REDGE53 REDGE61
p-value * * *
Var: Variables; p-value: Significancia de las variables según el ANOVA a un nivel de 0.05.
El ANOVA (Tabla 30) muestra que, solamente la base de datos CPE presenta diferencias significativas en la
división de las zonas dos, tres y cuatro sin suavizamiento, conformados por los algoritmos FCM, KMS y MQY,
excepto por el algoritmo KMS en la división de cuatro zonas. Las divisiones de las zonas utilizando las demás
bases de datos, muestran su valor de significancia superior a 0.05. En los resultados de ANOVA de las zonas
con suavizado, los resultados son muy similares, en este caso, la división de las zonas en cuatro, presenta
diferencia significativa, igualmente ocurre para la base de datos MI, con el algoritmo KMS.
La base de datos CPE también muestra buenos resultados en cuanto al VR, en dos zonas con FCM obtuvo 23.2%
y con MQY 23.3%, en tres zonas con KMS obtuvo 37.4% y MQY 27.7%, y con cuatro zonas el algoritmo FCM y
KMS tuvieron 35.2% y 32.2% (Tabla 32). Al aplicar el suavizado Tabla 33, los mejores resultados fueron obtenidos
con la base de datos CPE de la siguiente manera: dos zonas FCM con VR de 29.4%, mejoró en comparación a
los resultados de VR de las zonas sin suavizado, mientras tanto, MQY con disminuyó su porcentaje de VR a 21.4,
esto sugiere que, al aplicar el filtro de suavizado, la varianza obtenida en las zonas disminuyó.
En el caso de tres zonas, lo valores más altos de VR fue logrado por la base de datos MI con el algoritmo KMS,
donde se obtuvo un valor de 38.6, seguido de 29.6 logrado por FCM en la base de datos CPE. Para cuatro zonas,
los algoritmos KMS y MQY mostraron buen desempeño con la base de datos CPE, ya que la separación de las
zonas generada, logró mantener la varianza un 33.2% y 26.3% de la varianza total. El mayor VR obtenido fue con
la base de datos MI y el algoritmo KMS, además presenta diferencia significativa y después de la aplicación del
filtro de suavizado, las zonas están muy buen conformadas. Según la comparación de medias cada zona contaría
con Z1= 5942.6 Kg/ha, Z2= 5863.7 Kg/ha y Z3= 8009 Kg/ha.
9.4. Zonas de manejo
Mediante el uso de las zonas de manejo se busca hacer un tratamiento diferencia de los cultivos, al ser un sistema
rotacional, se esperaba obtener solamente un mapa de zonas para los tres cultivos (arroz, algodón y maíz). Sin
embargo, los resultados muestran que de esta forma no es posible, ya que existen factores como el clima,
malezas, enfermedades y tratamiento del cultivo que impide lograrlo. Es por esto que cada cultivo cuenta con un
mapa de zonas, para poder realizar un manejo diferencial por zonas.
El cultivo de arroz y de maíz, cuenta con tres zonas como se observa en la Figura 55,mientras que el cultivo de
algodón presenta cuatro zonas. La diferencia del patrón de distribución de las zonas puede deberse a que, las
zonas van cambiando en el tiempo, por ello al definir un mapa para cada cultivo se logra obtener más dinamismo
en el proceso, así mismo se puede conocer las variables que influyen mediante el uso del modelo de predicción
de rendimiento, que en esta aplicación se obtuvo mejores resultados con los algoritmos de clasificación RF, KNN,
GBR, y SVM.
Figura 55. Mapa de zonas de manejo para el cultivo de arroz, algodón y maíz (de izquierda a derecha).
10. DISCUSIÓN
Este estudio contó con la información medida entre 43 a 63 días después de emergido, que corresponde al estado
de floración (60, 61, y 62 según código BBCH) de una campaña del cultivo de algodón, dos campañas del cultivo
de arroz entre 52 y 63 días después de emergido, que corresponde a los estados de embuchamiento (41) y
floración (65), y dos campañas del cultivo de maíz en los días después de emergido entre 32 y 63, que acapara
los estados de desarrollo de hojas (19), aparición del órgano floral (53), y floración (61,63) para predecir el
rendimiento en etapas tempranas, sin embargo, existen perturbaciones generados por diferentes factores entre
el momento de la medición y la cosecha que pudiera influir en el modelo. Esto sugiere que es necesario contar
con más campañas, para generar un modelo más robusto y que esas perturbaciones no influyan, ya que puede
existir alta variabilidad de una campaña a otra, de igual forma tanto los modelos de predicción de rendimiento
como los modelos de zonas homogéneas se convierten en una herramienta que ayuda a mejorar la producción.
Como se menciona anteriormente, la información fue obtenida de los cultivos arroz, maíz y algodón entre los 30
a 63 días después de emergido (DDE), sin embargo, muchos estudios han tomado información a partir de los 60
a 180 DDE, como en la investigación de Ballester et al. [23] donde se tomó la información en el cultivo de algodón,
a partir de los 62 DDE, no obstante, las variables medidas a los 83 DDE resultaron ser mejores predictores. En
el estudio en el cultivo de maíz de Kayad et al. [47] la información se tomó a partir de los 80 DDE donde la
correlación era baja, pero alcanzó un valor más alto de R2 a los 137 DDE.
Entre las mediciones obtenidas, se muestra que en el cultivo de arroz destacan los índices de vegetación GNDVI,
GVI y NDRE en las dos fechas establecidas, en el cultivo de algodón muestran correlación con el rendimiento
NDVI, OSAVI y SAVI en el estado 65, además de los índices de color EXG y GLI en el estado 61, y en el cultivo
de maíz mostraron correlación todos los índices de vegetación estudiados en las diferentes fechas estudiadas.
En la investigación de Zhou et al. [59] para el cultivo de arroz, los mejores índices fueron los basados en la banda
RED-EDGE como el índice de vegetación NDRE. En Kayad et al. [47] donde se estudió el cultivo de maíz, el
GNDVI fue el que obtuvo mejor correlación con el rendimiento. Y en el estudio de Ballester et al. [23] sobre un
cultivo de algodón, los mejores índices fueron NDRE, SCCCI y NDVI, cabe aclarar que las condiciones sobre
cada cultivo son diferentes y los resultados pueden variar de una investigación a otra.
Los resultados de los modelos de aprendizaje de máquina en la predicción de rendimiento, muestran gran
desempeño cuando se utiliza como descriptores la base de datos con los parámetros del suelo y el cultivo,
independientemente si se trata del cultivo de arroz, algodón o maíz. En cuanto al uso de imágenes
multiespectrales como descriptores en la predicción de rendimiento, los resultados muestran que se requiere más
información de otras campañas para tener un mejor rendimiento de los modelos, la mayoría de estudios usa
información de tres años en el caso de Kayad et al. [47], dos años en el estudio de Schwalbert et al. [63] y dos
años en el estudio de Ballester et al. [23], al igual que Fu et al. [56].
Los algoritmos de regresión random forest, k-nearest neighbor, multilayer perceptron y support vector machine
generaron valores altos de R2, esto implica que no solamente un solo algoritmo es el mejor para realizar la
predicción de rendimiento, resultados similares fueron encontrados en la investigación de Khanal et al. [13]. Por
otra parte, el algoritmo LASSO no superó el R2 de 0.4 en arroz y algodón, y el 0.6 en el cultivo de maíz. Esto
puede deberse a que el rendimiento es una medición no paramétrica, pero el algoritmo LASSO es un modelo
paramétrico, por ende, es posible que no se ajuste los datos al modelo. Estos resultados concuerdan con lo
reportado por Khanal et al. [13], donde los modelos basados en aprendizaje de máquina son superiores a los
modelos basados en regresión lineal.
En la predicción de rendimiento también se utilizó el método de clasificación, ya que en el campo realizar la
predicción de un rango de rendimiento es más práctico. Los resultados demostraron que al igual que el método
de regresión, no sólo un algoritmo fue el mejor para realizar la clasificación, ya que los algoritmos random forest,
k-nearest neighbor, gradient boosting y support vector machine mostraron resultados favorables. Los modelos
obtenidos por gaussian naïve bayes, los bajos resultados pueden deberse a una falta de calibración de los
hiperparámetros para ajustar los valores de las probabilidades de este algoritmo, con esto, bien podría mejorar el
desempeño de este algoritmo en la predicción de rendimiento.
En este caso en los modelos de predicción de rendimiento se utilizaron las dos campañas para tomar
aleatoriamente un porcentaje de entrenamiento y otro de validación para los cultivos de arroz y maíz. Al intentar
predecir usando solamente una campaña, los modelos no se ajustaron, esto puede deberse a que se tomaron
variables tanto en la primera como la segunda campaña, aunque en la misma campaña las variables no tuvieran
buenos resultados de correlación con el rendimiento. Algunas variables no fueron significativas, pero igual fueron
seleccionadas para mantener una uniformidad tanto en la primera como la segunda campaña. En el caso del
arroz, en la primera campaña ocurrió un vendaval días antes de la cosecha, lo que implicó tener menor
rendimiento de lo esperado y pudo ocasionar errores en la predicción de rendimiento.
Los estudios para generar modelos en la delimitación de zonas homogéneas han usado tanto las variables
originales, como los componentes principales espaciales (Damian et al. [52], Gili et atl. [64]). En el presente
estudio se tomaron ambas opciones para realizar una comparación entre los resultados obtenidos al realizar la
identificación de zonas con cada uno de ellos. Al tomar las variables originales de las propiedades físicoquímicas,
la medición de la cantidad de clorofila relativa del cultivo y las imágenes multiespectrales en una sola base de
datos, se observó que las propiedades físicoquímicas obtuvieron mayor importancia en la delimitación de zonas.
Aunque, los componentes principales espaciales lograron mejores resultados del índice de reducción de varianza
de todas las bases de datos, esto puede deberse a la interpolación por el método de kriging y el método de
Multispati-pca (Gavioli et al. [26]) y la consideración que presentan los métodos sobre la dependencia espacial.
Los modelos de zonas homogéneas fueron evaluados según el índice de reducción de varianza, ya que era
necesario obtener una división del área en grupos estadísticamente diferentes. El mejor algoritmo en la
delimitación de zonas fue K-means. En el estudio presentado por Gavioli et al [26] el algoritmo McQuitty presentó
mejor rendimiento con los valores más altos del índice de reducción de varianza con zonas correctamente
delimitadas, contrario a este estudio, donde también se obtuvo valores altos en el índice de reducción de varianza
en los resultados de McQuitty, sin embargo, los mapas de zonas mostraron grupos más dispersos. También se
encontró que al usar las imágenes multiespectrales el algoritmo McQuitty agrupaba solamente una muestra como
una zona.
Las imágenes multiespectrales demostraron gran dispersión al generar los mapas de zonas homogéneas, sin
embargo, estudios han recomendado su uso para realizar el manejo de insumos y monitoreo del estado del cultivo
mediante imágenes satelitales como en el estudio de Damian et al. [52], o mediante imágenes tomadas a partir
de UAVs como en el estudio de Ohana et al. [14]. En el presente estudio, al aplicar el filtro de suavizado a los
mapas de zonas homogéneas generados por imágenes multiespectrales solamente, la delimitación de zonas
mejoró, como en el caso del cultivo de maíz, al realizar este procedimiento, se pudo dividir el área en tres zonas
estadísticamente diferentes, siendo la mejor opción para ser asignado como el mapa de zonas de manejo en el
cultivo de maíz.
Con base a los resultados de los modelos de zonas homogéneas se determinó que no es posible obtener un
modelo único para el sistema de rotación arroz, maíz-algodón, en este caso, fue necesario generar un modelo
para cada cultivo, ya que existieron mediciones correlacionadas con el rendimiento que variaron de un cultivo a
otro, incluso entre campañas de un mismo cultivo. En el cultivo de arroz, el modelo obtenido se logró utilizando
la información de los componentes principales espaciales y el modelo de agrupamiento k-means, al igual que en
el cultivo de algodón, en el cultivo de maíz se utilizó la información de las imágenes multiespectrales con el
algoritmo k-means para generar el modelo de zonas homogéneas. Se debe agregar que, los mejores resultados
se obtuvieron al aplicar un filtro de suavizado para delimitar mejor las zonas como lo sugiere el estudio de Córdoba
et al. [65].
Los mapas de zonas homogéneas permiten obtener zonas con diferentes rendimientos para hacer un manejo
diferencial. En el cultivo del arroz, la zona 1 cuenta con una media de rendimiento de 9674.5 ±125 Kg/ha, la zona
2 cuenta con 9120 ± 139 Kg/ha y la zona 3 tiene, 8554.9 ± 139.8 Kg/ha. En el cultivo de algodón la zona 1 la
media se encontró en 2359.3 ± 54.4 Kg/ha, la zona 2, 2191 ± 52 Kg/ha, la zona 3, 2042.2 ± 85.7 Kg/ha y la zona
4 2441.5 ± 74.3 Kg/Ha. El cultivo de maíz presentó tres zonas, con la media de rendimiento para la zona 1, 2 y 3
como sigue, 5942.5 ± 613.2 Kg/ha, 5863.682 ± 426.9 Kg/ha y 8009.0 ± 424 Kg/ha.
Es importante resaltar que la metodología propuesta por el lazo de control, permite obtener un monitoreo y manejo
más dinámico para mejorar la producción de los cultivos de arroz, maíz y algodón. Esta metodología se encuentra
bien orientada, y esto se puede afirmar gracias a los resultados obtenidos, si bien hace falta incorporar más
información, el desempeño logrado hasta el momento sugiere que es un camino para obtener buenos resultados
y que no se ha estudiado con anterioridad. El lazo de control cuenta con un mapa de zonas homogéneas que
determina las regiones alto, medio y bajo, además de un modelo de predicción de rendimiento con información
hasta la mitad del ciclo del cultivo, y en esta fecha poder tomar medidas correctivas de ser necesario.
11. CONCLUSIONES
En este estudio diferentes modelos de aprendizaje de máquinas fueron desarrollados para para determinar zonas
de manejo y predecir el rendimiento en el sistema de producción arroz, maiz-algodón. La información fue adquirida
en un lote comercial de 5 ha ubicado en el centro de investigaciones Nataima de Agrosavia. De este lote, fueron
obtenidas variables fisicoquímicas del suelo y plantas e índices de vegetación tomadas hasta el estado de
florecimiento, alrededor de los 60 días después de emergencia de las plantas. Las variables fueron analizadas
para conocer su correlación con el rendimiento, dependencia espacial y la correlación entre las variables.
En la predicción de rendimiento se emplearon los algoritmos de clasificación random forest, k-nearest neighbor,
gradient boosting, y support vector machine, utilizando la información de las propiedades fisicoquímicas del suelo
y las mediciones del cultivo, los modelos obtuvieron resultados de R2 entre 0.89 a 0.97 en el cultivo de arroz, en
algodón entre 0.88 a 0.92 y para el cultivo de maíz entre 0.88 a 0.97. También se emplearon algoritmos de
regresión en la predicción de rendimiento, los mejores fueron random forest, k-nearest neighbor, multilayer
perceptron, y support vector machine con la base de datos de los parámetros del suelo y el cultivo con R2 0.96 a
0.99 para el cultivo de arroz, en el cultivo de algodón con un R2 entre 0.70 a 0.92 y en el cultivo de maíz obtuvo
un R2 entre 0.96 a 0.99. Para esta aplicación se resalta que los algoritmos no paramétricos permiten generar
modelos de predicción altamente efectivos.
Es importante anotar, que en esta investigación se tomaron imágenes multiespectrales del estado fenológico de
crecimiento 19 a 63, hasta el momento es uno de los pocos estudios conocidos que toma la información en etapas
tempranas del cultivo, logrando resultados favorables. Las mediciones en la etapa de florecimiento mostraron ser
las variables con mayor peso en los modelos generados con las imágenes multiespectrales, y la banda
multiespectral de borde infrarrojo (red-edge) fue un buen descriptor en las imágenes multiespectrales para los
modelos de predicción de rendimiento.
Los modelos de zonas homogéneas demuestran que el algoritmo de K-means, presentan alta homogeneidad
interna y permite lograr zonas bien delineadas. La base de datos de componentes principales espaciales, logró
delimitar las zonas de tal manera que representara mejor la distribución del rendimiento. Además, las bases de
datos de todas las variables, parámetros del suelo y el cultivo y componentes principales espaciales generaron
zonas bien delimitadas, en comparación a las zonas obtenidas por las imágenes multiespectrales, indiferente del
algoritmo de agrupamiento, esto sugiere que con la aplicación de la interpolación por el método de kriging y el
análisis de componentes principales se logró obtener mapas de zonas homogéneas mejor delimitadas, debido a
la dependencia espacial implícita en los métodos.
Los resultados de identificación de zonas homogéneas generados por el algoritmo K-means demuestra una
división del área en zonas significativamente distintas según los resultados de ANOVA y comparación de medias
de Tukey, además el índice de reducción de varianza (VR), para la delimitación de zonas generada por este
algoritmo se encontró entre los más altos luego de realizar un suavizamiento a las zonas. En el cultivo de arroz
se seleccionó la división en tres zonas, la base de datos utilizada fue CPE y el VR fue de 51, en el cultivo de
algodón se dividió el área en cuatro zonas, la base de datos utilizada fue CPE y el VR fue de 35.7. Finalmente,
en el cultivo de maíz, el área fue dividida en tres zonas, la base de datos utilizada fue MI y el VR fue de 38.6.
Las zonas de manejo fueron seleccionadas acorde a los mejores mapas de zonas homogéneas, en donde no se
pueden establecer zonas de manejo estáticas en los cultivos del ciclo de producción arroz, maíz-algodón, debido
a que estos se ven afectados por factores externos como clima, enfermedades, etc. En consecuencia, estas
zonas se deben establecer inicialmente con los parámetros del suelo, y luego mediante el uso de drones,
mediciones en el cultivo y predicciones de rendimiento, ajustar estas zonas de acuerdo al desarrollo real de las
plantas.
Finalmente, con los resultados obtenidos en este trabajo se puede mencionar que el enfoque sistémico de control
establecido inicialmente en la propuesta, es una estrategia prometedora para ser integrada a la metodología de
la agricultura de precisión, ya que las zonas de manejo dinámicas, definidas por condiciones del suelo y plantas
hasta la etapa de florecimiento, permiten hacer un tratamiento diferencial, por zonas y por cultivo, permitiendo así
tener unos mejores rendimientos en el sistema de producción arroz, maíz-algodón, con un bajo impacto ambiental
y reducción de costos de producción.
12. BIBLIOGRAFÍA Y FUENTES DE INFORMACIÓN
[1] J. C. Pozo, “Producing more food in a sustainable way is possible biotechnological and sustainable fertilisation as a way to face population growth,” vol. 11, 2020, doi: 10.7203/metode.11.15576.
[2] FAO, “Los suelos están en peligro, pero la degradación puede revertirse,” 04-05-2015, pp. 1–5, 2015. [3] J. Lindblom, C. Lundstro, and A. Jonsson, “Promoting sustainable intensification in precision agriculture :
review of decision support systems development and strategies,” pp. 309–331, 2017, doi: 10.1007/s11119-016-9491-4.
[4] FAO, “La contaminación de los suelos está contaminando nuestro futuro | FAO Stories | Organización de las Naciones Unidas para la Alimentación y la Agricultura,” La contaminacion de los suelos, 2018. .
[5] N. R. Peralta and J. L. Costa, “Delineation of management zones with soil apparent electrical conductivity to improve nutrient management,” Comput. Electron. Agric., vol. 99, pp. 218–226, 2013, doi: 10.1016/j.compag.2013.09.014.
[6] S. M. Say, M. Keskin, M. Sehri, and Y. E. Sekerli, “Adoption of precision agriculture technologies in developed and developing countries,” Online J. Sci. Technol., vol. 8, no. 1, pp. 7–15, 2018, doi: 10.1139/CJPS-2017-0342.
[7] Y. Huang and M. E. Brown, Advancing to the next generation of precision agriculture: Global trends, challenges and opportunities, no. April. 2018.
[8] A. Ochoa Duarte, L. Cangrejo, and A. Pachón, “Actualidad y tendencias de la agricultura de precisión,” no. December 2012, pp. 0–14, 2012.
[9] M. Xiolesmy and A. Rodríguez, “El uso de drones y su impacto en la responsabilidad social empresarial de la agricultura de precisión en colombia,” Universidad Militar Nueva Granada, 2017.
[10] A. Marcela Parody Zuleta and E. De Jesús Zapata Sanjuán, “Agricultura de precisión en colombia utilizando teledetección de alta resolución,” Suelos Ecuatoriales, vol. 48, pp. 41–49, 2018.
[11] FAO and ABC, “Dinámica regional del algodón, certificación y rotación de cultivos,” no. 4, 2018. [12] M. González B and A. M. Alonso, “Technologies for water saving in rice,” Nova, vol. 14, no. 26, pp. 63–78,
2016. [13] S. Khanal, J. Fulton, A. Klopfenstein, N. Douridas, and S. Shearer, “Integration of high resolution remotely
sensed data and machine learning techniques for spatial prediction of soil properties and corn yield,” Comput. Electron. Agric., vol. 153, no. April, pp. 213–225, 2018, doi: 10.1016/j.compag.2018.07.016.
[14] N. Ohana-Levi et al., “A weighted multivariate spatial clustering model to determine irrigation management zones,” Comput. Electron. Agric., vol. 162, no. May, pp. 719–731, 2019, doi: 10.1016/j.compag.2019.05.012.
[15] B. N. Serrato Panqueba and C. A. Castillo Medina, “Colombia land of opportunities to apply precision agriculture: an overview,” Int. J. Agric. Sci., vol. 3, pp. 11–19, 2018, [Online]. Available: http://iaras.org/iaras/journals/ijas.
[16] DANE;Fedearroz;, “Boletín técnico I semestre - Encuesta Nacional de Arroz Mecanizado,” Bogotá, 2019. [17] Gobernación del Tolima, “Plan departamental de extensión agropecuario P.D.E.A - Tolima competitiva,
prodcutiva e innovadora,” 2019. [18] FENALCE, “Departamento Económico Indicadores Cerealistas 2015 A,” Fed. Nac. Cultiv. Cereal. y Legum.
Dep. Econ., p. 77, 2015. [19] F. FEDEARROZ, “Informe de Gestión Fondo Nacional del Arroz,” Rev. Arroz, pp. 1–141, 2019. [20] O. Burbano-Figueroa and J. A. Sierra-Monroy, “Estrategias de control del picudo del algodón (Anthonomus
grandis Boheman) en el Caribe Colombiano: un modelo conceptual.,” no. September, 2019, doi: https://doi.org/10.31220/osf.io/db8nu.
[21] Minagricultura, “Dirección de cadenas agrícolas comerciales y forestales. Cadena algodón textil y confecciones.,” 2019.
[22] G. Ruß, “Spatial data mining in precision agriculture,” p. 251, 2012. [23] C. Ballester, J. Hornbuckle, J. Brinkhoff, J. Smith, and W. Quayle, “Assessment of in-season cotton nitrogen
status and lint yield prediction from unmanned aerial system imagery,” Remote Sens., vol. 9, no. 11, pp. 1–18, 2017, doi: 10.3390/rs9111149.
[24] H. Russello, “Convolutional Neural Networks for Crop Yield Prediction using Satellite Images,” 2018. [25] K. Zhang et al., “Predicting rice grain yield based on dynamic changes in vegetation indexes during early
to mid-growth stages,” Remote Sens., vol. 11, no. 4, 2019, doi: 10.3390/rs11040387. [26] A. Gavioli, E. G. de Souza, C. L. Bazzi, K. Schenatto, and N. M. Betzek, “Identification of management
zones in precision agriculture: An evaluation of alternative cluster analysis methods,” Biosyst. Eng., vol. 181, pp. 86–102, 2019, doi: 10.1016/j.biosystemseng.2019.02.019.
[27] Instituto Interamericano de Cooperación para la Agricultura (IICA), Agricultura de precisión: Integrando conocimientos para una agricultura moderna y sustentable. Montevideo, Uruguay, 2006.
[28] N. Zhang, M. Wang, and N. Wang, “Precision agriculture - A worldwide overview,” Comput. Electron. Agric., vol. 36, no. 2–3, pp. 113–132, 2002, doi: 10.1016/S0168-1699(02)00096-0.
[29] R. Bongiovanni, E. Chartuni, S. Best, and Á. Roel, Agricultura de Presición: Integrando conocimientos para una agricultura moderna y sustentable. Uruguay, 2006.
[30] R. Hernández-Clemente, R. M. Navarro-Cerrillo, F. Suárez, L., Morales, and P. J. Zarco-Tejada, “Assessing structural effects on PRI for stress detection in conifer forests,” Remote Sens. Environ., 2011.
[31] J. Cortés and P. Díaz-Vivancos, “Función del ascorbato en la protección de la fotosíntesis: (II) Los carotenoides y el ciclo de las Xantofilas,” Antioxidantsgroup, 2015. https://antioxidantsgroup.wordpress.com/2015/10/13/funcion-del-ascorbato-en-la-proteccion-de-la-fotosintesis-ii-los-carotenoides-y-el-ciclo-de-las-xantofilas/ (accessed Apr. 02, 2021).
[32] D. Arias, J. Calvo-Alvarado, and A. Dohrenbusch, “Calibration of LAI-2000 to estimate leaf area index (LAI) and assessment of its relationship with stand productivity in six native and introduced tree species in Costa Rica,” For. Ecol. Manage., vol. 247, no. 1–3, pp. 185–193, Aug. 2007, doi: 10.1016/j.foreco.2007.04.039.
[33] S. Laserna, “Capacidad de campo Suelo saturado Punto de marchitez Agua útil,” AgroEs.es, 2002. https://www.agroes.es/agricultura/el-suelo/147-capacidad-de-campo-del-suelo-agricultura (accessed Apr. 02, 2021).
[34] C. D. Fernández Camayo, “Caracterización física del suelo de la granja experimental de la universidad del valle,” Santiago de Cali, 2015. Accessed: Apr. 02, 2021. [Online]. Available: https://bibliotecadigital.univalle.edu.co/bitstream/handle/10893/15889/0527939.pdf?sequence=1&isAllowed=y.
[35] T. y A. Departamentos y oficinas de la FAO Clima, Biodiversidad, “Definiciones | Portal de Suelos de la FAO | Organización de las Naciones Unidas para la Alimentación y la Agricultura,” 2019, 2019. http://www.fao.org/soils-portal/soil-survey/propiedades-del-suelo/propiedades-fisicas/es/ (accessed Apr. 02, 2021).
[36] J. M. Rojas, “Densidad aparente: Comparación de métodos de determinación en Ensayo de rotaciones en siembra directa,” Argentina. Accessed: Apr. 02, 2021. [Online]. Available: www.inta.gov.ar/saenzpe.
[37] R. Bueno Buelvas and J. C. Fernández Lizarazo, “La capacidad de intercambio catiónico del suelo: una bóveda de nutrición clave en la producción de alimentos,” 2019. Accessed: Apr. 02, 2021. [Online]. Available: https://ciencia.lasalle.edu.co/ai.
[38] A. Moro González, “Relaciones catiónicas y su interpretación en los análisis de suelos oratorios,” AQM Laboratorios, 2015. http://aqmlaboratorios.com/relaciones-cationicas-analisis-de-suelos/ (accessed Apr. 02, 2021).
[39] Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT), “Resistencia a la penetración: Guía util para comparar las prácticas de manejo de cultivo,” México, 2013. Accessed: Apr. 02, 2021. [Online]. Available: https://repository.cimmyt.org/bitstream/handle/10883/4031/98830.pdf?sequence=1&isAllowed=y.
[40] P. D. Lancashire et al., “A uniform decimal code for growth stages of crops and weeds,” Ann. Appl. Biol., vol. 119, no. 3, pp. 561–601, 1991, doi: 10.1111/j.1744-7348.1991.tb04895.x.
[41] C. I. Jaramillo Barrios and A. F. Ortiz Rico, “Determinación de zonas homogéneas en un suelo de origen aluvial,” Universidad Santo Tomás, 2018.
[42] GIS Geography, “Semi-Variogram : Nugget , Range and Sill,” 2020. https://gisgeography.com/semi-variogram-nugget-range-sill/ (accessed Apr. 04, 2021).
[43] M. Córdoba, M. Balzarini, C. Bruno, and J. L. Costa, “Identificación de zonas de manejo sitio-específico a partir de la combinación de variables de suelo,” Corpoica Cienc. y Tecnol. Agropecu., vol. 13, no. 1, p. 47, 2012, doi: 10.21930/rcta.vol13_num1_art:239.
[44] S. Rachka, Python Machine Learning. Birmingham: Packt Publishing Ltd., 2015. [45] Chris Albon, Machine Learning with Python Cookbook Practical Solutions from Preprocessing to Deep
Learning. 2018. [46] J. A. Rodrigo, “Gradient Boosting con python,” 2020.
https://www.cienciadedatos.net/documentos/py09_gradient_boosting_python.html (accessed Apr. 28, 2021).
[47] A. Kayad, M. Sozzi, S. Gatto, F. Marinello, and F. Pirotti, “Monitoring within-field variability of corn yield
using sentinel-2 and machine learning techniques,” Remote Sens., vol. 11, no. 23, 2019, doi: 10.3390/rs11232873.
[48] D. De Benedetto et al., “An approach for delineating homogeneous zones by using multi-sensor data,” Geoderma, vol. 199, no. September 2017, pp. 117–127, 2013, doi: 10.1016/j.geoderma.2012.08.028.
[49] C. Georgi, D. Spengler, S. Itzerott, and B. Kleinschmit, “Automatic delineation algorithm for site-specific management zones based on satellite remote sensing data,” Precis. Agric., vol. 19, no. 4, pp. 684–707, 2018, doi: 10.1007/s11119-017-9549-y.
[50] N. T. Son et al., “Machine learning approaches for rice crop yield predictions using time-series satellite data in Taiwan,” Int. J. Remote Sens., vol. 41, no. 20, pp. 7868–7888, 2020, doi: 10.1080/01431161.2020.1766148.
[51] A. de la Casa, G. Ovando, L. Bressanini, J. Martínez, G. Díaz, and C. Miranda, “Soybean crop coverage estimation from NDVI images with different spatial resolution to evaluate yield variability in a plot,” ISPRS J. Photogramm. Remote Sens., vol. 146, no. October, pp. 531–547, 2018, doi: 10.1016/j.isprsjprs.2018.10.018.
[52] J. M. Damian, O. H. de C. Pias, M. R. Cherubin, A. Z. da Fonseca, E. Z. Fornari, and A. L. Santi, “Applying the NDVI from satellite images in delimiting management zones for annual crops,” Sci. Agric., vol. 77, no. 1, pp. 1–11, 2020, doi: 10.1590/1678-992x-2018-0055.
[53] J. Xue and B. Su, “Significant remote sensing vegetation indices: A review of developments and applications,” Journal of Sensors, vol. 2017. Hindawi Limited, pp. 1–17, 2017, doi: 10.1155/2017/1353691.
[54] F. Morlin et al., “Comparison between vegetation indices for detecting spatial and temporal variabilities in soybean crop using canopy sensors,” Precis. Agric., no. 123456789, 2019, doi: 10.1007/s11119-019-09704-3.
[55] D. A. Roberts, S. Barbara, K. Roth, and R. L. Perroy, Spectral and spatial methods of hyperspectral image analysis for estimation of biophysical and biochemical properties of agricultural crops, no. 2014299. 2011.
[56] Z. Fu et al., “Wheat growth monitoring and yield estimation based on multi-rotor unmanned aerial vehicle,” 2020.
[57] X. E. Pantazi, D. Moshou, T. Alexandridis, R. L. Whetton, and A. M. Mouazen, “Wheat yield prediction using machine learning and advanced sensing techniques,” Comput. Electron. Agric., vol. 121, pp. 57–65, 2016, doi: 10.1016/j.compag.2015.11.018.
[58] C. I. Jaramillo-Barrios, A. F. Ortiz-Rico, G. A. A. Carrillo, and V. M. Varón-Ramírez, “Establishment of homogeneous zones in a soil of alluvial origin,” Ciência e Agrotecnologia, vol. 43, no. June, 2019, doi: 10.1590/1413-7054201943026318.
[59] X. Zhou et al., “Predicting grain yield in rice using multi-temporal vegetation indices from UAV-based multispectral and digital imagery,” ISPRS J. Photogramm. Remote Sens., vol. 130, pp. 246–255, 2017, doi: 10.1016/j.isprsjprs.2017.05.003.
[60] O. Barrero et al., “Rice Yield Prediction Using On-Farm Data Sets and Machine Learning,” pp. 1–9. [61] D. Haboudane, J. R. Miller, N. Tremblay, P. J. Zarco-Tejada, and L. Dextraze, “Integrated narrow-band
vegetation indices for prediction of crop chlorophyll content for application to precision agriculture,” Remote Sens. Environ., vol. 81, no. 2–3, pp. 416–426, 2002, doi: 10.1016/S0034-4257(02)00018-4.
[62] A. Ashapure et al., “Developing a machine learning based cotton yield estimation framework using multi-temporal UAS data,” ISPRS J. Photogramm. Remote Sens., vol. 169, no. September, pp. 180–194, 2020, doi: 10.1016/j.isprsjprs.2020.09.015.
[63] R. A. Schwalbert et al., “Forecasting maize yield at field scale based on high-resolution satellite imagery,” Biosyst. Eng., vol. 171, pp. 179–192, Jul. 2018, doi: 10.1016/j.biosystemseng.2018.04.020.
[64] A. Gili, C. Álvarez, R. Bagnato, and E. Noellemeyer, “Comparison of three methods for delineating management zones for site-specific crop management,” Comput. Electron. Agric., vol. 139, pp. 213–223, 2017, doi: 10.1016/j.compag.2017.05.022.
[65] M. A. Córdoba, C. I. Bruno, J. L. Costa, N. R. Peralta, and M. G. Balzarini, “Protocol for multivariate homogeneous zone delineation in precision agriculture,” Biosyst. Eng., vol. 143, pp. 95–107, 2016, doi: 10.1016/j.biosystemseng.2015.12.008.
13. ANEXOS
ANEXO A. Procesamiento de imágenes usando el software Pix4Dmapper.
Crear un proyecto
1. Asignar un nombre al proyecto, preferiblemente el nombre del proyecto debe tener esta estructura:
Lote_Agrosavia_Cultivo_Cámara_Altura(m)_Fecha, por ejemplo: “LoteIV-
4_Agrosavia_Arroz_RGB_25m_14022019”.
2. Importar imágenes, depende de cómo se encuentren las imágenes en el ordenador se pueden seleccionar
las imágenes individualmente o el directorio donde se encuentran todas las imágenes directamente.
3. Importar/ comprobar información de la cámara, el software detecta la información de la cámara
automáticamente como latitud, longitud, altitud, entre otra información. En caso de que el proceso no se
genere automáticamente se puede importar.
4. Elegir el sistema de coordenadas correcto.
5. Seleccionar platilla para procesar (3D Maps, si son imágenes RGB y Ag Multiespectral, si son imágenes
multiespectrales).
Procesamiento de imágenes RGB
1. Editar las opciones de procesamiento,
a. En la opción 2. nube de puntos y malla, en la pestaña de nube de puntos, se debe seleccionar fusionar el
mosaico en un archivo (Merge tile into one file)
b. En la opción 3. DSM, ortomosaico, e índices:
i. En la pestaña DSM y ortomosaico, se ubica la sección DSM raster y se selecciona GeoTIFF y fusionar
mosaico (Merge tiles)
ii. En la misma pestaña, pero en la sección ortomosaico se seleccionan las opciones GeoTiff, Merge Tiles y
Google maps.
2. Correr el paso 1. Procesamiento inicial, solamente.
3. Seleccionar los marcadores, sobre la nube de puntos se identifican los marcadores dentro de las ortofotos,
se debe seleccionar de tres a cinco imágenes y marcar en el centro del marcador, luego se aplica
automáticamente y se aplica. De esta forma el algoritmo se orienta para hacer la corrección geográfica.
4. Una vez se hayan seleccionado los marcadores se reoptimiza.
5. Correr el paso 2. Nube de puntos y malla, y el paso 3. DSM, ortomosaico e índices.
Descargar las imágenes RGB
1. Ubicar el directorio ~Pix4D/carpeta del proyecto/3_dsm_ortho/2_mosaic. Una vez ubicada la carpeta se copia
la imagen .TIFF.
Procesamiento de imágenes multiespectrales
1. Editar las opciones de procesamiento:
a. En la opción 2. nube de puntos y malla, en la pestaña de nube de puntos, se debe seleccionar fusionar el
mosaico en un archivo (Merge tile into one file)
b. En la opción 3. DSM, ortomosaico, e índices,
i. En la pestaña DSM y ortomosaico, se debe ir a la sección de ortomosaico y seleccionar las opciones para
generar GeoTiff, Merge Tiles y Google maps.
ii. En la pestaña calculadora de índices, se debe ir a la sección de calibración y procesamiento radiométrico,
llegados a este punto, se selecciona el tipo de calibración con cámara, irradiancia solar y ángulo solar usando
DLS IMU, luego se calibra seleccionando la imagen del panel de acuerdo con la banda a calibrar (blue,
green, red, nir, rededge), en caso de que la cámara cuente con una banda térmica esta no se debe calibrar.
A continuación, se encuentra la sección de mapa de reflectancia donde se debe seleccionar fusionar
mosaicos (Merge tiles). Finalmente, se ubica la sección de índices y se eligen las bandas e índices que se
desean generar en ortomosaicos (blue, green, red, nir, redge, ndvi, ndre, etc).
2. Correr el paso 1. Procesamiento inicial, solamente.
3. Seleccionar los marcadores, sobre la nube de puntos se identifican los marcadores dentro de las ortofotos,
se debe seleccionar de tres a cinco imágenes y marcar en el centro del marcador, luego se aplica
automáticamente y se aplica. De esta forma el algoritmo se orienta para hacer la corrección geográfica.
4. Una vez se hayan seleccionado los marcadores se reoptimiza.
5. Correr el paso 2. Nube de puntos y malla, y el paso 3. DSM, ortomosaico e índices.
Descargar las imágenes multiespectrales
1. Ubicar el directorio ~Pix4D/carpeta del proyecto/3_dsm_ortho/4_index/índices/carpeta del índice (blue,
green, red, nir, redge, ndvi, ndre, etc). Una vez ubicada la carpeta se copia la imagen .TIFF de todos los
índices.
Informe de calidad
El informe de calidad comparte la información obtenida en el procesamiento de las imágenes así poder verificar
si el contenido de las imágenes es lo más fiel posible a la realidad, y de no ser así, poder solucionar los
inconvenientes para poder lograrlo. Es por esto que, en esta parte, se explica brevemente algunas partes del
informe de calidad. El control de calidad, es la primera información dada por el informe, donde el primer criterio a
evaluar, es la cantidad de puntos clave por imagen, al ser 10000 o superior, significa que este criterio se cumple.
Los puntos clave, son los puntos en común que el algoritmo detecta entre ortofotos para hacer el emparejamiento
y conformar el ortomosaico, de esta manera, en el ejemplo de la Figura 56, se marca como correcta ya que tienen
10000 puntos clave por imagen.
El siguiente criterio a evaluar es el conjunto de datos, donde cerca del 100% deben ser calibradas en un solo
bloque, el en ejemplo se observa que el 98% fueron calibradas, dado que es cerca al total de las imágenes, es
un valor adecuado y se marca como validado en el control de calidad. Además, la optimización de la cámara debe
ser menor al 5%, y finalmente, el ultimo parámetro es la georreferenciación, el cual no debe ser mayor a 2GSD,
aunque en el ejemplo no se utilizó georreferenciación, por tanto, aparece una advertencia amarilla en el control
de calidad.
Figura 56. Control de calidad del informe de calidad del procesamiento de imágenes multiespectrales para la segunda
campaña de maíz en la fecha 01122020.
En la Figura 57 y Figura 58 se evidencia la segunda información entregada por el informe de calidad, el anticipo
o preview, en donde se muestra los ortomosaicos, en el caso de la Figura 57, de las bandas multiespectrales y el
modelo digital del suelo (DSL).; en caso Figura 58 el ortomosaico RGB y el DSL. En esta parte del informe, es
necesario verificar que los ortomosaicos no cuenten con huecos y/o distorsiones.
Figura 57. Anticipo de los ortomosaicos de las bandas blue, green, red, nir y redge, además del modelo digital de superficie
del procesamiento de imágenes multiespectrales para la segunda campaña de maíz en la fecha 01122020.
Figura 58. Anticipo de los ortomosaicos de las bandas blue, green, red, nir y redge, además del modelo digital de superficie
del procesamiento de imágenes RGB para la segunda campaña de maíz en la fecha 01122020
En la Figura 59 los puntos azules, son los puntos originales de las cámaras y los puntos verdes son los generados
en la optimización de las cámaras, esto puntos deben encajar bien para simbolizar una buena reconstrucción.
Otra manera gráfica de reconocer la calidad del procesamiento es mediante la sobreposición de las imágenes
sobre cada pixel como en la Figura 60, donde las regiones en rojo y amarillo indican bajo solapamiento, mientras
que, en las regiones de color verde, significa que por cada pixel hay 5 o más imágenes superpuestas, esto último
indica buen desempeño en los resultados. Mientras tanto, en la Figura 61, se puede observar las posiciones de
imágenes calculadas con vínculos entre imágenes coincidentes, donde los enlaces en un tono más oscuro
representan el número de puntos clave entre imágenes, en cambio los enlaces claros pocos números clave entre
imágenes, y debido a esto se puede requerir de enlaces manuales o más imágenes, en el caso del ejemplo,
existen zonas de tonos claros y oscuros, a pesar de esto, se denota una buena representación.
Figura 59. Desplazamiento entre las posiciones de la
imagen inicial y calculadas.
Figura 60. Número de imágenes superpuestas calculadas
para cada píxel del ortomosaico.
Figura 61. Posiciones de imágenes calculadas con vínculos entre imágenes coincidentes
ANEXO B. Cálculo de los índices de vegetación en MATLAB.
Los algoritmos para calculas los índices de vegetación para arroz, maíz y algodón en MATLAB son
respectivamente:
~\Master_thesis\Rice\Algorithms\Image_procesing\Calculo_IVs\calculo_indices.m
~\Master_thesis\Corn\Algorithms\Image_procesing\ Calculo_IVs\calculo_indices.m
~\Master_thesis\Cotton\Algorithms\Image_procesing\ Calculo_IVs\calculo_indices.m
En la carpeta se encuentra el archivo principal donde se llaman los índices a calcular, también se encuentra los
archivos donde se calcula las expresiones del índice, por ejemplo, ndre, ndvi, gndvi, gvi, etc.
ANEXO C. División de los canales en una imagen RGB en QGIS.
1. En el software QGIS se abre la caja de herramienta
2. En la pestaña SAGA, ubicar la sección Herramientas Raster o Raster Tools
3. Seleccionar División de bandas RGB o Split RGB bands.
4. Elegir la capa de entrada, la cual es la imagen RGB
5. Añadir la ubicación donde se va a guardar cada banda R, G y B.
6. Ejecutar
ANEXO D. Código en pyQGIS para recortar múltiples imágenes con múltiples polígonos
Los algoritmos para realizar el recorte de las imágenes para arroz, maíz y algodón en QGIS son respectivamente:
~\Master_thesis\Rice\Algorithms\Image_procesing\ clip_multiple_raster_with_multiple_polygon_rice.py
~\Master_thesis\Corn\Algorithms\Image_procesing\clip_multiple_raster_with_multiple_polygon_corn.py
~\Master_thesis\Cotton\Algorithms\Image_procesing\ clip_multiple_raster_with_multiple_polygon_cotton.py
ANEXO E. Código en MATLAB para obtener el promedio de las imágenes recortadas
Arroz primera y segunda campaña:
~\Master_thesis\Rice\Algorithms\Image_procesing\mean_clips_bands_R1_ndre_umbral;
~\Master_thesis\Rice\Algorithms\Image_procesing\mean_clips_bands_R2_ndre_umbral;
Maíz primera y segunda campaña:
~\Master_thesis\Corn\Algorithms\Image_procesing\Corn1_mean_clips_bands_ndre_umbral.m;
~\Master_thesis\Corn\Algorithms\Image_procesing\Corn2_mean_clips_bands_ndre_umbral.m
Algodón:
~\Master_thesis\Cotton\Algorithms\Image_procesing\ Cotton_mean_clips_bands_ndre_umbral.m
ANEXO F. Cambio de resolución en QGIS.
1. En el programa QGIS cargar los índices de color y la imagen NDRE para una fecha específica.
2. Abrir la pestaña Ráster e ir a la opción calculadora ráster.
3. En la capa de salida, escribir el nombre y directorio donde se va a guardar la imagen.
4. Marque la imagen de referencia (NDRE) y seleccione el botón seleccionar la extensión de la capa, de esta
forma se obtiene la dimensión de la imagen de referencia.
5. En el bloque de la expresión de la calculadora de campos, coloque la imagen a la cual desea cambiar la
resolución, dando doble click en las bandas raster.
6. Seleccione el botón OK para comenzar el proceso.
ANEXO G. Coeficiente de Spearman e índice de Moran.
Los algoritmos para realizar el coeficiente de Spearman y el índice de Moran se encuentran en las siguientes
carpetas para cada cultivo:
~\Master_thesis\Rice\Algorithms\Variables_selection_A; ~\Master_thesis\Corn\Algorithms\Variables_selection;
~\Master_thesis\Cotton\Algorithms\Variables_selection
ANEXO H. Algoritmos en R para el análisis de componentes principales espaciales.
En la siguiente ubicación de directorios, se encuentran el algoritmo para obtener los componentes principales
espaciales para cada cultivo.
~\Master_thesis\Rice\Algorithms\Zones_identification\CPE.R
~\Master_thesis\Cotton\Algorithms\Zones_identification\CPE.R
~\Master_thesis\Corn\Algorithms\Zones_identification\CPE.R
ANEXO I. Algoritmos de Interpolación de los parámetros del suelo y el cultivo.
En la siguiente ubicación de directorios, se encuentran los algoritmos de las variables interpoladas para cada
cultivo. Cabe resaltar, que se realizaron dos muestreos y se denota como S1 y S2 en el nombre del archivo.
~\Master_thesis\Rice\Algorithms\Interpolation
~\Master_thesis\Cotton\Algorithms\Interpolation
~\Master_thesis\Corn\Algorithms\Interpolation
ANEXO J. Algoritmos de predicción de rendimiento.
~\Master_thesis\Rice\Algorithms\Yield_Prediction\Rice_results
~\Master_thesis\Cotton\Algorithms\Yield_Prediction\Cotton_results
~\Master_thesis\Corn\Algorithms\Yield_Prediction\Corn_results
ANEXO K. Selección de variables para el cultivo de arroz usando la mediana en las imágenes multiespectrales.
ANEXO L. Semivariogramas de la interpolación de las variables de arroz en la primera y segunda campaña.
A continuación, se presentan los semivariogramas obtenidos en la interpolación de las variables para la primera
y segunda campaña de arroz.
Figura 62. Semivariogramas resultantes de la interpolación por método de Kriging en la primera campaña de arroz.
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
GN
DV
I41
GN
DV
I65
GV
I41
GV
I65
ND
RE
41
ND
RE
65
ND
VI4
1
ND
VI6
5
OS
AV
I41
OS
AV
I65
SA
VI4
1
SA
VI6
5
SR
41
SR
65
BLU
E41
BL
UE
65
GR
EE
N4
1
GR
EE
N6
5
NIR
41
NIR
65
RE
D4
1
RE
D6
5
RE
DG
E4
1
RE
DG
E6
5
Spearman coefficient of rice multispectral images
Significant correlation first campaign No significant correlation first campaign
Significant correlation second campaign No significant correlation second campaign
Figura 63. Semivariogramas resultantes de la interpolación por método de kriging en la segunda campaña de arroz
ANEXO M. Modelos de predicción de rendimiento usando la mediana en las imágenes multiespectrales para el cultivo de
arroz.
Modelos de regresión
Figura 64. Resultados de R2 de los modelos de regresión.
Figura 65. Resultados de RMSE de los modelos de
regresión.
Modelos de clasificación
Figura 66. Resultados de exactitud de los modelos de clasificación.
ANEXO N. Semivariogramas resultantes de la interpolación de los parámetros del suelo y el cultivo en algodón.
Figura 67. Semivariogramas resultantes de la interpolación por método de kriging en el cultivo de algodón.
ANEXO O. Rendimiento real contra el rendimiento predicho por los algoritmos de regresión en la predicción de rendimiento,
con todos los modelos y bases de datos para el cultivo de algodón.
ANEXO P. Semivariogramas resultantes de la interpolación para las variables del cultivo de maíz.
ANEXO Q. Semivariogramas resultantes de la interpolación por método de kriging en la segunda campaña de maíz.
Atajos de QGIS
ANEXO R. Quitar el fondo de las imágenes en QGIS.
En las imágenes puede haber un fondo adquirido o añadido, sin embargo, se hace muy difícil visualizar la imagen
con él, entonces se procede a ser removido.
1. Importar la imagen en QGIS
2. Dar click derecho para ver sus propiedades
3. Ir a la pestaña de trasparencia
4. En el campo de valores adicionales sin dato se escribe el valor del dato puede ser 0 o -10000
ANEXO S. Obtener polígonos a partir de un ráster.
A partir de un ráster se puede obtener una cuadricula de polígonos georreferenciada, a partir de los píxeles de la
imagen.
1. En QGIS ir a caja de herramientas
2. Seleccionar la opción creación de vectores
3. Seleccionar de píxeles ráster a polígonos
ANEXO T. Dividir los polígonos de una cuadricula
1. Cargar en QGIS la cuadricula para ser dividida
2. Ir a tabla de atributos y conmutar el modo de edición
3. Seleccionar en campo nuevo
4. En nombre poner “ID”, los demás campos se dejan como están y se da aceptar.
5. Seleccionar el diálogo de expresiones
6. Dar doble clic sobre row_number de esta forma, los polígonos serán enumerados automáticamente en orden.
7. Ir a la pestaña de vectorial
8. Ir a la sección de herramienta de gestión de datos
9. Seleccionar la opción dividir capa vectorial
10. Al abrirse la ventana llenar los campos: la capa de entrada es la cuadricula se desea dividir, el campo único
es el ID y el directorio de salida es donde se desea guardar los polígonos divididos.
ANEXO U. Añadir puntos georreferenciados a partir de un archivo CSV.
Al tener las coordenadas en un archivo CSV se pueden añadir a un proyecto en QGIS para conocer su ubicación
visualmente.
1. En QGIS se debe ir a la pestaña Capa
2. Ir a la sección añadir capa
3. Ir a la opción de añadir capa de texto delimitado
4. En la ventana emergente llenar los campos:
5. En Nombre del archivo, se debe buscar la ubicación y nombre del archivo a importar
6. En formato del archivo, se debe especificar por qué está separados los valores en el archivo
7. En definición de geometría, se debe seleccionar cuál variable es X, Y y Z.
8. Añadir
ANEXO V. Añadir coordenadas a una tabla de atributos.
En el momento en que se quiera obtener una coordenada o un tipo de coordenada diferente en una capa vectorial,
se puede añadir las coordenadas de la siguiente manera:
1. Cargar la capa vectorial en QGIS
2. Abrir la tabla de atributos
3. Abrir la calculadora de campos
4. Seleccionamos crear un campo nuevo
5. En nombre del campo de salida, asignar un nombre al campo
6. En el espacio de la Expresión, se escribe lo siguiente: x( centroid( $geometry )) se cambia por y cuando
deseemos calcular y la coordenada de y.
7. Aceptar