u807959.pdf - Universidad de los Andes
-
Upload
khangminh22 -
Category
Documents
-
view
0 -
download
0
Transcript of u807959.pdf - Universidad de los Andes
Universidad de los Andes
Facultad de Ciencias
Departamento de Geociencias
MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO-
GEOESTADÍSTICO DE LAS PROPIEDADES HIDROGEOQUÍMICAS DEL
SISTEMA ACUÍFERO DEL VALLE MEDIO DEL MAGDALENA (SAVMM)-
COLOMBIA
Proyecto de Grado presentado por:
Laura Catalina Cáceres Torres
Bogotá DC, Colombia
2018
MAPEO POR ANÁLISIS HÍBIRDO DE APRENDIZAJE AUTOMÁTICO-
GEOESTADÍSTICO DE LAS PROPIEDADES HIDROGEOQUÍMICAS DEL SISTEMA
ACUÍFERO DEL VALLE MEDIO DEL MAGDALENA (SAVMM)-COLOMBIA
POR:
Laura Catalina Cáceres Torres
DIRECTOR:
Fabio Iwashita PhD
CO-DIRECTOR:
Jorge Salgado Bonnet PhD
PROYECTO DE GRADO
Presentado a:
UNIVERSIDAD DE LOS ANDES
Para obtener el Título de:
GEOCIENTIFICO
BOGOTA DC, COLOMBIA
2018
A mis Padres y Hermanas por creer siempre en mí.
Vivir la vida, aceptar el reto,
recuperar la risa, ensayar el canto,
bajar la guardia y extender las manos,
desplegar las alas e intentar de nuevo,
celebrar la vida y retomar los cielos.
Mario Benedetti
Resumen:
El agua subterránea representa una reserva importante de agua dulce. Es necesario caracterizar
su ocurrencia, distribución y principales características hidráulicas e hidrogeoquímicas para una
gestión adecuada y sostenida del recurso. Este trabajo pretende utilizar técnicas geoestadística y
computacionales (en inglés Self-Organizing Maps-SOM) para estimación de datos faltantes en la
creación de modelos hidrogeológicos en el Sistema Acuífero del Valle Medio del Magdalena
(SAVMM). El conjunto de datos fue suministrado por la Autoridad Nacional de Licencias
Ambientales y está compuesto de 289 pozos localizados en el Valle Medio del Magdalena (VMM)
con 13 variables hidroquimicos (Solidos totales disueltos, Conductividad, Potasio, Bicarbonatos,
Profundidad, Nitratos, Magnesio, Temperatura, Calcio, Cloruro, pH, Sodio y Sulfatos). Por
consiguiente, los objetivos del presente trabajo son: a) estimar valores hidrogeoquímicas
faltantes del sistema acuífero del Valle del Magdalena Medio mediante imputación con SOM; b)
evaluar la incertidumbre de valores estimados de los parámetros hidrogeoquímicos; c) análisis
geoestadístico de los parámetros fisicoquímicos para modelar espacialmente la distribución de
las propiedades hidrogeoquímicas del SAVMM. Los resultados incluyen la estimación de los datos
faltantes, el análisis de incertidumbre de las muestras estimadas a través de la estrategia de
‘leave-one-out’, el análisis de variogramas y los mapas de las variables hidroquímicas usando
Kriging ordinario.
Palabras Clave: SOM (Self-Organizing Map), Geoestadistica, Hidrogeoquímica, Agua Subterránea,
imputación
Tabla de contenido
Pagina 1. Introducción --------------------------------------------------------------------------------- 1
2. Descripción Área de Estudio ------------------------------------------------------------ 2
2.1 Ubicación --------------------------------------------------------------------------- 2
2.2 Marco Geológico ----------------------------------------------------------------- 2
2.2.1 Geología Local ----------------------------------------------------------- 4
2.2.2 Estratigráfica Local ------------------------------------------------------6
2.3 Marco Hidrogeológico -----------------------------------------------------------8
3. Marco Teórico ------------------------------------------------------------------------------16
3.1 Método de Imputación de datos ---------------------------------------------16
3.2 Mapa autorganizado (Self-Organizing Maps (SOM)) --------------------18
3.3 Análisis Geoestadístico (Variogramas)-------------------------------------- 21
4. Resultados y Discusión ------------------------------------------------------------------ 23
4.1 Análisis Automático (SOM) --------------------------------------------------- 23
4.2 Análisis Geoestadístico--------------------------------------------------------- 33
5. Conclusiones ------------------------------------------------------------------------------- 43
6. Referencias --------------------------------------------------------------------------------- 44
1
1. INTRODUCCIÓN
El Sistema Acuífero del Valle Medio del Magdalena (SAVMM), Colombia, está ubicado en la
cuenca sedimentaria del Valle Medio del Magdalena, zona con el mayor consumo de agua
subterránea , 78% del agua concesionada a nivel nacional (IDEAM, 2014a). Esta zona del país
presenta un alto grado de producción agrícola, minera y de hidrocarburos lo que puede
considerarse como una fuente potencial de alteración de la calidad del agua subterránea
(IDEAM, 2014a); así mismo es lugar del mayor yacimiento de gas lutita del país (ANH, 2012).
Además, la demanda de agua subterránea ha incrementado debido a que se ha empleado
como suministro de agua potable en diferentes comunidades y para uso agrícola e industrial
(IDEAM, 2014a) y por ser una importante reserva de agua dulce con menor susceptibilidad a
procesos de contaminación y degradación con respecto a fuentes superficiales (IDEAM , 2014).
De acuerdo a lo anterior, es necesario caracterizar su ocurrencia, distribución y principales
características hidráulicas, hidrológicas e Hidrogeoquímicas para una gestión adecuada y
sostenida del recurso (IDEAM , 2014).
La ausencia de datos para la creación de modelos numéricos confiables genera incertidumbre
y en ocasiones inconsistencias, pero existen alternativas para hacer frente a la escasez de
datos como los métodos de Imputación; los cuales componen aproximaciones estadísticas y
matemáticas para estimar valores faltantes en un conjuntos de datos (Iwashita F. , 2017), sin
embargo es un método con enfoque lineal que debe ser complementado con técnicas como
Mapas Auto-Organizados (SOM) de cuantificación vectorial lineal (Konohen T. , 1984) que
permite caracterizar conjuntos de datos de datos de gran dimensión representándolos en dos
o tres dimensiones y proyectándolos en mapas compuestos por vectores de código.
Adicionalmente, para observar el comportamiento espacial de los diferentes parámetros, se
hace uso de técnicas geoestadisticas como Krigging Ordinario para estimación de puntos y
Semivariogramas para obtención de ponderadores que se asignan a cada punto de referencia
usado en la estimación. La base de datos fue suministrada por la autoridad de licencia
ambientales (ANLA) de la cual se escogieron 4 variables explicativas (Conductividad,
2
Profundidad, Temperatura, pH) y 9 variables hidroquímicas (Potasio (K), Bicarbonatos (HCO3),
Solidos Totales Disueltos (STD), Nitratos (NO3-), Magnesio(Mg), Calcio (Ca), Cloruro(Cl-), Sodio
(Na) y Sulfatos (SO4-2 )) de los 289 pozos localizados en el Valle Medio del Magdalena.
Objetivos
General Estimar valores hidrogeoquímicas faltantes del sistema acuífero del Valle del
Magdalena Medio mediante imputación con SOM
Específicos 1. Evaluar la incertidumbre de valores estimados de los parámetros
hidrogeoquímicos
2. Análisis geoestadístico de los parámetros fisicoquímicos para modelar
espacialmente la distribución de las propiedades hidrogeoquímicas del
SAVMM
2. AREA DE ESTUDIO
2.1. Ubicación
El Sistema Acuífero del Valle Medio del Magdalena (SAVMM) está localizado en la cuenca
sedimentaria del Valle Medio del Magdalena, limitada por la Cordillera Oriental y Central
de los Andes Colombianos, abarca una superficie de 14.913km2. (Figura 1)
2.2 Marco Geológico
La Provincia Hidrogeológica del Valle Medio del Magdalena (SAVMM) en Colombia, tiene
un área de 24.496Km2 y corresponde a la zona de mayor consumo de agua subterránea,
con un 78% del agua concesionada a nivel nacional (IDEAM , 2014). Este sistema
hidrogeológico se extiende de norte a sur, donde limita con el cinturón plegado de
Girardot. Al nororiente, con el sistema de fallas de Bucaramanga- Santa Marta, Bitumia
3
y La salina. Al occidente, con el basamento de la serranía de San Lucas y el basamento
igneo-metamorfico de la Cordillera Central (IDEAM , 2014). La compleja evolución de la
cuenca del Valle Medio del Magdalena (VMM) durante el Paleógeno-Neógeno, ha sido
considera como el resultado de la interacción de las Placas Suramericana y Caribe, que
llevo a una intensa deformación de origen compresivo en la margen continental.
Las unidades sedimentarias que componen la cuenca se desarrollan sobre un basamento
ígneo-metamórfico, que rellena la cuenca desde el jurásico hasta los depósitos más joven
del Plioceno-Holoceno. Se han identificado tres eventos de sedimentación; la primera
secuencia, se deposito en ambientes continentales a marginales durante un rift
intracratónico durante el Triásico y comienzos del Jurásico; la segunda secuencia ocurrió
durante el Jurásico – Cretáceo, sedimentada en ambientes fluviales y litorales, durante
una fase de extensión producto de un rift de retro-arco. Finalmente, la última secuencia
sedimentaria corresponde a la del Cretáceo-Paleoceno, sedimentada en condiciones
marinas, durante un proceso tectónico de subsidencia termal. (Etayo-2013)
Durante el proceso de expansión del rift se sedimento la secuencia que conforma las
formaciones Girón, Los santos y Tambor. Después, durante la fase de subsidencia termal,
se depósitaron las formación Rosablanca,Paja, Tablazo, Simiti y los Miembros de la
formación La Luna (Salada, Pujama y Galembo), siendo este el nivel de máxima
inundación marina del cretáceo (ANH, 2012). El ciclo sedimentario finalizo con un
periodo tectónico compresivo(Paleoceno-Eoceno) que origino elevaciones estructurales
que afectaron los procesos erosivos en la parte superior de la secuencia cretácica. Para
depositarse posteriormente de manera discordante las formaciones correspondientes al
Paleógeno tardío (La Paz y Esmeraldas), coincidiendo con el inicio del cabalgamiento y
llegando así a la depositación de las formaciones Mugrosa, Colorado y La Cira (ANH,
2012).
4
Se han identificado diferentes lineamientos y deformaciones asociadas al levantamiento
de la cordillera oriental en su flanco occidental. De acuerdo al Mapa Geológico
Colombiano (SGC,2015) se observan el sinclinal del Ermitaño, sinclinal de Peña de Oro,
Sinclinal del Nuevo Mundo entre otros con orientación preferencial norte-sur y
deformados por unidades cretácicas y paleógenas. Así mismo se reconocen lineamientos
correspondientes a fallas producto de esfuerzos compresivos al occidente del área de
estudio, la mayoría de las fallas son inversas de bajo ángulo, algunas son la falla de
arrugas, fallas de infantas, falla de Cambras en su gran mayoría de orientación Norte-Sur.
Algunas fallas conocidas como las Brisas, San Blas y Cimitarra son de fallas de rumbo con
componente dextral.
Finalmente, la Falla de Casaba de gran importancia para los sistemas petrolíferos, se
encuentra al este del municipio de Barrancabermeja y se extiende en dirección NE desde
el extremo W de la plancha 119 Barrancabermeja. Tiene una extensión aproximada de
39km, tipo normal, con plano de falla buzante al W, y con una dirección de rumbo NE-
SW; está cubierta por sedimentos cuaternarios y la formación Mugrosa.
2.2.1 Geología Local
El SAVMM, está delimitado por diferentes sistemas de fallas, cinturones plegados y
diferentes basamentos. El área de estudio corresponde a una cuenca intracordilllera
basculada hacia el oriente y diferentes unidades sedimentarias y cristalinas asociadas a
diferentes procesos geológicos del Jurásico y Cuaternario. Donde afloran rocas de diverso
origen y edad, como secuencias de conglomerados, arenas y arcillas del Mio-Plioceno
que le comunican a la topografía una morfología variable entre ondulada y escarpada,
contrario a la morfología suave que generan las sedimentitas cuaternarias formadas por
depósitos volcánicos y aluviales del Rio Magdalena.
5
Adicionalmente las rocas del SAVMM presentan evidencia de la incursión marina
desarrollada durante el cretácico, dejando evidencias paleontológicas a su paso. Así
mismo, durante el paleógeno, el inicio del proceso de inversión tectónica de la cuenca
genera un cambio en el ambiente de depositación de las unidades, pasando de un
ambiente marino a un ambiente controlado por procesos fluviales con evidencia en la
Formación Mesa, Grupo Real y Depósitos cuaternario.
El VMM presenta un gran número de estructuras de pliegues y cabalgamientos inducidos,
los cuales pueden ser analizados a partir de su origen, carácter, geometría y relaciones
espaciales a partir de 3 provincias estructurales.
1. Provincia Piedemonte Occidental de la Cordillera Oriental (II)
La primera provincia estructural corresponde al cinturón de pliegues y
corrimientos del Piedemonte Occidental de la Cordillera Oriental en el VMM ,
limita por el sistema de Fallas de la Salina al oriente y los cabalgamientos frontales
de la Cordillera Oriental, como Dos Hermanos (Cambrás) y Corcovada Guineal.
Está constituida un arreglo de estructuras caracterizado por anticlinales
relativamente estrechos y alargados y sinclinales amplios y de moderada
extensión, los cuales obedecen a un mecanismo de propagación de fallas desde
el basamento hacia niveles estratigráficos más altos.}
2. Provincia Central VMM (III)
Esta provincia se extiende desde el Rio Magdalena al occidente hasta los pliegues
y cabalgamientos más externos del Piedemonte. Contiene un amplio monoclinal
inclinado hacia el este, configurando las sedimentitas del Neógeno.
3. Provincia Occidental VMM(IV)
Esta provincia se extiende a lo largo del flanco oriental de la Cordillera Central
entre el cinturón de pliegues y cabalgamientos del Piedemonte Occidental de la
Cordillera Oriental. En general, son estructuras con alta inclinación y
6
comportamiento ligeramente lístrico en profundidad, con superficies de
despegue inferidas en rocas precretáceas posiblemente paleozoicas o
precámbricas.
2.2.2 Estratigrafía Local
El SAVMM, está compuesto en gran parte por Rocas Sedimentarias en un 95%, las
cuales corresponde a 12 formaciones litoestatigráficas y litodemicos 1.
Pre-Cretácico
a. Batolito de Segovia: Cuerpo plutónico alargado en sentido norte-sur, que
coincide con el sentido tectónico regional; tiene una longitud de 270km y
un ancho en su parte central de 50km. Esta compuesta principalmente por
dioritas con variaciones composicionales y texturales hacia dioritas
cuarzosas y gabros hornblendicos. Tonalidad grisácea, heterogénea y una
textura fanerítica de grano fino.
b. Formación Norean: Corresponde a una secuencia vulcanoplástica que
aflora en el Departamento de Santander, típicamente piroclastica con
fragmentos de composición dacitica a andesitica en el Oriente de la
serranía de San Lucas.
Cretácico
Formación La Luna: Corresponde a unidad calcárea fina constituida por
biomicritas, con variaciones graduales a lo largo de la sucesión. Predominan
lodolitas calcáreas-grises-fosilíferas laminadas con nódulos de micritas
hasta 1m de diámetro. Los Sedimentos basales de la unidad se desarrollan
1 Cuerpo definido de roca, predominantemente intrusivo con metamorfismo de alto grado o muy deformado
7
sobre la superficie transgresiva que coincide con la inundación regional a
inicios del Turoniano. Su espeso medio es de 188m. y de 300 a 350m en el
subsuelo. (Sarmiento Perez, Puentes, & Sierra , 2015 )
Paleógeno
a. Grupo Chorro: Corresponde a rocas del Eoceno y Oligoceno Temprano,
compuesto por las formaciones Esmeraldas y la Paz. La formacion Esmeraldas
fue nombrada por (Morales , 1958) compuesta por areniscas grises y verdosas
de grano fino con intercalaciones de limolitas y lutitas rojas, purpura y pardo;
contiene algunas capas de carbón. Su ambiente deposicional fue bajo
condiciones lagunares deltaicas, y su espesor calculado ha sido 1200m.
Suprayace la formación La Paz mientras que el contacto superior es con la
Formación la Mugrosa. Respecto a la formación La Paz esta compuestas por
areniscas de color gris claro con estratificación cruzada y conglomerados
lenticulares e intercalaciones de calizas grises moteadas.
b. Grupo Chuspas: Corresponde a la Unidad Litoestratigráfica de rango
mayor que incluye las formaciones Mugrosa y Colorado [L. Morales, 1958],
a formación Mugrosa en su parte basal consiste en areniscas de grano fino a
medio- color gris- con intercalaciones de lutitas grises y azules (Mora & Rizzi,
2004). Su ambiente de formación compete abanicos aluviales al occidente del
sistema de ríos meandricos en el centro y oriente de la cuenca.
La formación Colorado, está compuesta por lutitas masicas de color violeta
rojizo con varias capas masivas de areniscas localmente conglomeráticas con
granocrecimiento.
8
Neógeno
a. Grupo Real: Descrita por Wheeler (Porta, 1974). Situada al norte del Rio
Opon y dividida inicialmente en cinco formaciones que desde la base a la
parte superior son: Lluvia, Chontorales Shale, Hiel,Enrejado Shale y Bagre.
Cerca al Rio Opon inicia con 30m de conglomerados y horizontes locales
de carbón, sigue 500m de areniscas conglomeráticas las cuales exhiben
estratificación cruzada con intercalaciones de lutitas de color moteado de
gris y azul (Formación Lluvia). Posteriormente se encuentra la formación
Chontorales compuesta por lodolitas abigarradas grises a rojas. De
acuerdo a lo anterior y con base en la literatura la mayoría corresponden
a ambientes fluviales, los intervalos conglomeráticos hacen referencia a
ambientes fluviales de montaña de alta energía; adicionalmente la
secuencia de lodolitas corresponde a ríos meandriformes a
anastomosados.
b. Formación Mesa: Compuesta por conglomerados masivos, areniscas
líticas con estratificación cruzada y menores capas de lodolitas.
Depósitos Cuaternarios
Los depósitos cuaternarios son inconsolidados, sin sufrir procesos diagenéticos
o de litificación hasta llegar a formar rocas.
2.3 Marco Hidrogeológico
El Sistema Acuífero del Valle medio del Magdalena se encuentra dividido en tres principales
sistemas acuíferos: 1. Valle medio del Magdalena constituido por 7 unidades
hidrogeológicas y de tipos de acuíferos libres, semiconfinados a confinados y cársticos. 2.
Sistema Acuífero Mariquita-Dorada-Salgar constituido por 7 Unidades hidrogeológicas con
tipos de acuíferos libre a confinado, finalmente el sistema acuífero del Abanico de
9
Aguachica constituido por 4 unidades hidrogeológicos y tipos de acuíferos libres a
confinado.
El SAVMM está delimitado dentro un sistema de fallas, cinturones plegados y basamentos,
que han permitido el desarrollo de unidades sedimentarias y cristalinas como resultado de
la inclusión marina desarrollada en el cretácico, con evidencia de unidades paleontológicas.
A partir del Paleógeno, inicia el proceso de inversión tectónica de la cuenca, que conlleva a
un cambio en el ambiente de depositación de las unidades litoestratigráficas del área;
donde las unidades pasan de un ambiente marino controlado por procesos fluviales.
El Basamento del SAVMM, está compuesto por unidades calcáreas intercaladas con
unidades de ambientes marinos profundos de edad cretácica, las cuales, por cambio en el
régimen tectónico, contienen fracturas a través de las cuales fluye el agua subterránea,
infrayaciendo una secuencia de unidades de origen fluvial de edad Cenozoica. Por encima
de dicho basamento, hay rocas sedimentarias y depósitos no consolidados que conforman
la mayor parte del SAVMM, esta unidades, en su mayoría, son depósitos recientes asociados
a la dinámica fluvial en las zonas más profundas de la cuenca del Valle Medio del Magdalena,
por consiguiente, las variaciones granulométricas se convierten en lugares adecuados para
la acumulación de agua (Malagón, 2017).
El régimen hidrogeológico está controlado por el Rio Magdalena, siendo la principal zona
de descarga existente para el área de estudio. La dirección del flujo regional subterráneo es
convergente hacia el rio Magdalena, pero con sentido hacia el norte (INGEOMINAS, 2013),
pero en los periodos de mayor pluviosidad, puede generarse la recarga de unidades
hidrogeológicas adyacentes al Rio Magdalena. Mientras que en temporada de estiaje el
agua subterránea almacenada en las unidades adyacentes descarga y aporta al caudal base
del rio.
10
En cuanto a las unidades hidrogeológicas del SAVMM, se pueden clasificar de acuerdo a los
criterios de productividad y capacidad para almacenar (porosidad) y transmitir agua
(permeabilidad). Se han clasificado en tres categorías principales que dependen del tipo de
porosidad de las rocas, ocurrencia o no de agua subterránea y valor de capacidad especifica.
Estas categorías son: (A). Sedimentos y rocas con flujo intergranular, (B). Rocas con flujos a
través de fracturas y (C). Sedimentos y Rocas con limitados recursos de agua subterráneas.
Existe un predominio de sedimentos poco consolidados como arenas y grava con
intercalaciones de materiales de grano fino como arcillas y limo. Se considera Acuífero a los
depósitos aluviales recientes y de terraza que afloran en cercanía del Rio Magdalena y
sedimentos poco consolidados (areniscas, conglomerados), asimismo los acuíferos libres a
semilibres tienen porosidad secundaria debido a la composición calcárea como en la
formación la luna y son unidades recientes. Los acuíferos Semiconfinados a confinados
corresponden a las unidades más antiguas del Neógeno (Grupo Real, formación la Mesa).
Tabla 1.1 Características del Sistema Acuífero en la Provincia Hidrogeológica del Valle
Medio del Magdalena
Provincia
Hidrogeológica Código
Sistema
Acuífero
Unidades
Hidrogeológicas Tipo de Acuífero
Parámetros
Hidráulicos
Área
Superfici
al (km2)
PM1 Valle Medio
del Magdalena
SAM
1.1
Valle
Medio
del
Magdale
na
Acuífero Terrazas
del Rio Magdalena,
Acuífero deposito
aluvial del Rio
Magdalena,
Acuífero Mesa
(NgQp), Acuífero
Real (Ngc),Acuífero
la Luna y Acuífero
Tablazo y
Rosablanca
Libres,
semiconfinados
a confinados y
kársticos
B=80
>800
m, K=
5-
12m/
d
T=150-
280m2/d,
S=4.0*10-4
– 6*104
Cs= 1-2
l/s/m
14.913
11
Figura 1. Localización Geográfica del Sistema Acuífero del Valle Medio del Magdalena
(Escala 1:980.000)
Fuente: Malagón, 2017
12
Figura 2. Delimitación Estructural de la Cuenca del Valle Medio del Magdalena
Fuente: ANH, Colombia 2007
Figura 3. Corte Transversal Generalizado de la Cuenca del Valle Medio del Magdalena
Fuente: ANH, Colombia 2007
Limites Suroriente: Sistema de Fallas de Bitumia y la Salina (B.S.F.S) Norte: Sistema de Fallas Espíritu Santo (E.S.F.S) Occidente: Onlap de Sedimentos del Neógeno sobre la Serranía de San Lucas (SL) y el basamento de la Cordillera Central (CC) Sur: Cinturón Plegado de Girardot (GFB) Nororiente: Sistema de Fallas Bucaramanga-Santa Marta (B.S.M.F)
13
Figura 4. Mapa Geológico del Sistema Acuífero del Valle Medio del Magdalena (Escala 1:980.000)
Fuente: Malagón (2017)
14
Figura 5. Mapa Geológico Estructural del Sistema Acuífero del Valle Medio del Magdalena (Escala 1:980.000)
Fuente: Malagón (2017)
15
Figura 6. Columna Estratigráfica Generalizada de la Cueca del Valle Medio del Magdalena
Fuente: Malagón (2017)
17
3. MARCO TEÓRICO
3.1 Imputación
Muchas veces los investigadores se encuentran ante la ausencia de valores en diferentes
bases de datos; ya que la ausencia de Datos puede llevar que el manejo y análisis de los
mismos se convierta en un problema de gran magnitud, disminuyendo la eficiencia de los
análisis estadísticos e introduciendo un valor significativo de sesgo a las variables por
analizar. De acuerdo a esto la imputación de datos es una metodología que permite
reemplazar los datos faltantes por valores estimados, mediante diferentes métodos como:
imputación mediante la media, imputación mediante regresión e imputación mediante
regresión estocástica. (Medina & Galvan, 2007 ).
a. Imputación mediante la media: Dada una variable Xi que presenta valores
perdidos, se reemplaza cada uno de ellos por Xiobs, la media de los valores
observados de Xi.
b. Imputación mediante regresión
Con este método se estima la regresión de la variable Xi sobre las variable Xj a
partir de los ni correspondientes a casos completos y se imputa cada valor
perdido con la predicción dada por la ecuación de regresión estimada.
c. Imputación mediante regresión estocástica
Al imputar mediante regresión se está reemplazando el valor perdido por una
media condicionada, aunque se tiende a subestimar la variabilidad, por lo que se
añade el valor predicho por la regresión.
18
3.2. Mapa Autorganizado (Self- Organizing Map- SOM)
Mapa autorganizado o Self-Organizing Map (SOM) , corresponde a una red neuronal no
supervisada que tiene propiedades de cuantificación vectorial y algoritmos de proyección
vectorial (Vesanto & Alhonniemi , 2000). El termino autorganización “Self-Organizing”,
hace referencia a la naturaleza no supervisada del algoritmo porque permite organizar
información sin conocimiento previo de un patrón de salida. Es importante mencionar, que
el proceso básico implica entrenamiento, diversidad y estimación ya que SOM permite
representar datos multidimensionales en un espacio de menor dimensión que los
originales, y para poder reducir la dimensionalidad es necesario efectuar el proceso de
cuantización vectorial. El resultado consiste en neuronas organizadas en una cuadricula
rectangular bidimensional (mapa). Cada neurona en el mapa es representada por un vector
de peso multidimensional 𝑴𝒊𝒋 𝒊 = 𝟏, … , 𝒌𝒙, 𝒋 = 𝟏, … , 𝒌𝒚, en un SOM rectangular, 𝒌𝒙 es el
número de filas, y 𝒌𝒚 el número de columnas, la dimensión 𝒏 de cada neurona es la misma
que el número de variables de entrada, 𝑴𝒊𝒋 = {𝒎𝒊𝒋𝟏 , 𝒎𝒊𝒋
𝟐 , … , 𝒎𝒊𝒋𝒏 }. (Iwashita F. , 2017). Cada
neurona es conectada a la neurona adyacente a través de la relación de vecindad funcional
(Vesanto & Alhonniemi , 2000). Las muestras de datos individuales están asociadas a un
vector con propiedades que reflejan sus contribuciones en relación con las otras variables.
Todos los puntos de datos pueden ser representados como vectores en un espacio de
datos definido por las variables, en este caso parámetros hidrogeoquímicos. Los mapas
autorganizados generan un sistema no paramétrico (Regresión) que transforma los
elementos vectoriales de alta dimensionalidad y no lineales para una representación
típicamente bidimensional (2D) , intentando mantener las relaciones entre la unidad de
mejor coincidencia vectorial (Best-matching unit (BMU)) determinada iterativamente
minimizando la medida de distancia euclidiana para cada variable (Vesanto & Alhonniemi
, 2000), (Konohen, 2001) en un espacio nD multidimensional y su representación 2D como
nodos en el mapa.
19
Para cuantificar el éxito de la preservación topológica, se calcula el error de cuantificación
(QER) que es una medida de cuan diferente es una medida (i.e,. un valor atípico) con
respecto al vector de nodo SOM representado en el mapa auto-organizado.
𝑸𝑬𝑹(𝑮, 𝑿) =𝟏
𝑵∑ ∑ 𝒉𝒊,𝒍
𝑴
𝒋=𝟏𝒊∈𝑸
‖𝒙𝒋 − 𝒘𝒊‖𝟐
Donde 𝒘𝒊 son los vectores de peso asignados a un número fijo de N neuronas en la
cuadricula del mapa G, donde 𝒙𝒋 son los vectores de datos de entrada M, 𝒉𝒊,𝒍 es una
función vecindad, ‖𝒙𝒋 − 𝒘𝒊‖ es la norma euclidiana e 𝑰 es el vector unitario de mejor
coincidencia (BMU):
‖𝒙 − 𝒎𝒄‖ = 𝒎𝒊𝒏𝒊 ‖𝒙 − 𝒎𝒊‖
Donde ‖⁰‖ es la distancia euclidiana , x el vector entrada, m el vector peso y c es la neurona
cuyo vector está más cerca del vector de entrada x.
El error topográfico, ET, corresponde a un porcentaje de que tan bien la red mantiene la
topografía de los datos analizados, y la cantidad de vectores de nodo que están adyacentes
en el espacio n-dimensional, pero no son adyacentes en el mapa auto-organizado
resultante. Computacionalmente el error topográfico está dado por:
𝑬𝑻𝑬 =𝟏
𝒎∑ 𝒖(𝑿𝒑)
𝒎
𝒑=𝟏
Si la neurona ganadora del vector 𝑿𝒑 está más cerca de la neurona, es decir, la distancia
𝑿𝒑 a ella es la más pequeña, entonces 𝒖(𝑿𝒑) = 𝟎, de otra manera 𝒖(𝑿𝒑) = 𝟏 y el vector
de peso.
Los mapas resultantes están organizados de tal manera que los datos similares se asignan
a los mismos nodos o a los nodos cercanos, y los datos diferentes se asignan a los nodos
con mayor distancia de separación. Las estimación de las variables se toma directamente
de los vectores BMU (Fessant & Midenet , 2002); (Friedel , 2016).
20
SOM ha sido utilizado como una herramienta para resolver problemas en muchos campos
de la ciencia, a partir de analítica estándar en estadística. Algunos campos de aplicación
han sido procesamiento de señales, teoría de control, análisis financieros, estadística
experimental, química, Geociencias y Medicina, debido a que permite resolver problemas
de alta dimensión y no lineales [Konohen,2001].
Por otra parte, algunas técnicas de agrupamiento como K-medias ha sido utilizado por
primera vez en 1967 en minera de datos y para complementar el funcionamiento de SOM
en la parte de Cluster, ya que agrupa las características de los nodos en patrones auto-
similares, es decir genera la partición de un conjunto de n observaciones en K grupos en el
que cada observación pertenece al grupo de valor medio más cercano. Así mismo es un
tipo de aprendizaje no supervisado que funciona iterativamente para asignar a cada punto
de datos a uno de los grupos de K-medias. La agrupación de datos puede ilustrarse en una
partición del espacio de datos en celdas de voronoi.
El algoritmo funciona iterativamente para asignar a cada punto de datos a uno de los
grupos de K en función de las características que se proporcionan. Esta agrupación puede
ilustrarse en una partición del espacio de datos en celdas de voronoi. Los puntos de datos
se agrupan según la similitud de características. Sus resultados son presentados como
(Trevino, 2016):
Centroides de los clústeres K, se pueden usar para etiquetar nuevos datos
Etiquetas para los datos de entrenamiento (Cada punto es asignado a un solo
cluster)
Cada centroide de un cluster es una colección de valores de características que definen
los grupos resultantes.
21
3.2 Análisis Geoestadístico (Variogramas)
La Geoestadistica corresponde al área de estudio de dependencia espacial, variabilidad
y continuidad de diferentes variables a través del espacio y/o tiempo, con el fin de
entender y predecir patrones en fenómenos naturales. Corresponde a un conjunto de
métodos empleados a una gran variedad de áreas como minería, geología de
hidrocarburos, geoquímica, hidrogeología, estudio de suelos, hidrología, meteorología,
geografía y agricultura entre otros (Iwashita F. , 2015).
Los datos hidrogeológicos (piezómetria, conductividad hidráulica, transmisividad,
concentración de contaminantes etc) rara vez pueden ser considerados como no
correlacionados en el espacio y/tiempo (Riberio , 2015). A fin de detectar esos patrones
de regionalización, se utilizan variogramas y se introduce el concepto de variable
regionalizada (VR) para identificar a las variables que poseen una característica aleatoria
determinada.
Para poder estudiar las diferentes variables, se usa variogramas que son una herramienta
fundamental de la Geoestadistica, porque permite analizar el grado de interdependencia
de los datos en el espacio geométrico y su zona de influencia, es decir la variabilidad
entre dos puntos x y x+h. Experimentalmente, la distancia h corresponde a la abscisa, x
en la ordenada. Refleja el valor promedio del cuadrado de la diferencia de los datos de
parámetros hidrogeoquímicos tomados una distancia h con respecto a otra.
De acuerdo a Emery, 2013 se considera una variable regionalizada z conocida en n sitios
{𝒙𝟏; … 𝒙𝒏}. El estimador tradicional del variograma para un vector de separación h dado,
se define como :
�̂�(𝒉) =𝟏
𝟐|𝑵(𝒉)|∑ [𝒛(𝒙𝜶) − 𝒛(𝒙𝜷]
𝟐
𝑵(𝒉)
22
Donde 𝑵(𝒉) = {(𝜶, 𝜷)} tal que 𝒙𝜶 − 𝒙𝜷 = 𝒉};
|𝑵(𝒉)| es el número de pares contenidos en el conjunto N(h).
La anterior expresión reemplaza la esperanza en el variograma teórico, por la media
aritmética sobre los pares de datos separados por el vector h, se obtiene la siguiente
expresión que corresponde al estimador del variograma experimental.
𝜸(𝒉) =𝟏
𝟐𝑬{[𝒁(𝒙 + 𝒉) − 𝒁(𝒙)]𝟐}
En este trabajo, se hará uso de análisis variográfico a fin de evaluar el comportamiento
espacial de los parámetros hidrogeoquímicos en el Sistema Acuífero del Valle Medio del
Magdalena (SAVMM), evaluando la relación entre los datos de acuerdo a la cercanía (h)
entre los sitios.
Adicionalmente se empleó Kriging porque permite solucionar y desarrollar los siguientes
aspectos (Molano Cajigas & Obregón, 1993).
1. Elegir un estimador insesgado que considera la estructura espacial (o temporal)
real del fenómeno
2. Da la posibilidad de evaluar la varianza del error de estimación en todo punto de
interés
3. Se arregla de tal forma que el estimador sea optimo, luego el mejor posible
El Kriging es un método Geoestadístico de Interpolación, este trabajo empleó kriging
ordinario el cual asume que la variación de los valores es libre en cualquier componente
estructural y estimar el valor de una variable en un sitio o bloque. La clasificación de los
estimadores de Kriging depende en términos generales de la estacionalidad (total o de
segundo orden) e hipótesis intrínseca.
23
4. Resultados y Discusión
4.1. Análisis de Aprendizaje Automático (SOM)
El método de aprendizaje automático involucra la estimación de datos faltantes utilizando
imputación, con base en esta información se presentan los mapas correspondientes a cada
variable comparando los datos imputados Vs los datos observados.
Figura 8. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (a)Solidos
Totales Disueltos (mg/L), (b) Conductividad (µS/cm), (c) Temperatura (°C), (d) Profundidad (m).
24
Figura 9. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (e)
Bicarbonatos (mg/L), (f) Calcio (mg/L), (g) Cloro (mg/L), (h) Magnesio (mg/L).
25
Figura 10. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (i)
Nitrato (mg/L), (j) Potasio (mg/L), (k) pH, (l) Sodio (mg/L), (m) Sulfato (mg/L)
26
La figura 11 corresponde al plano de Componentes de SOM que permite visualizar la
correlación espacial de las variables, tiene una interpretación similar respecto a los resultados
obtenidos por un histograma y refleja aspectos interesantes en el entrenamiento de datos que
incluyen correlación, dispersión y agrupamiento de los datos. De acuerdo a lo anterior, muestra
gráficamente la distribución de una variable cuantitativa o numérica teniendo en cuenta que
SOM organiza los datos en intervalos de igual tamaño con base en el análisis de K-medias. La
similaridad en el patrón de colores (Figura 11) de Conductividad y Solidos Totales Disueltos
(STD) reflejan una correlación positiva respaldada por el cálculo de la matriz de correlación
(Figura 12) calculada después de la evaluación topológica y obteniendo un valor de 0.964, lo
que indica que la facilidad del agua para conducir la corriente es directamente proporcional a
la cantidad de iones disueltos. Adicionalmente, el rango de valores de conductividad indica
que los valores más bajos (25.3µs/d) son típicos de acuíferos con niveles freáticos someros y
los valores más altos (1330 µs/d) están localizados en áreas de influencia de campos petroleros.
Figura 11. Plano de Componentes de SOM para visualizar correlación no lineal. (a) Matriz U
27
Nitratos (NNO3 ) y Sulfatos (SO4) tienen similaridad en el patrón de colores y una correlación
positiva de 0.869 que esta posiblemente relacionada con la actividad agroindustrial del área
de estudio. El rango de valores registrado para Nitratos corresponde a un máximo de 10mg/L
y mínimo 0.089mg/L; en cuanto a los Sulfatos se registra un máximo de 48.8mg/L y un mínimo
de 1.2mg/L. Es importante mencionar que niveles mayores de 5mg/L de Nitratos puede ser
indicador de posible contaminación por residuos de animales o fertilizantes (Reboucas & Fraga,
1988).
Calcio y Sodio están positivamente correlacionados de acuerdo al plano de componentes con
una correlación alta de 0.914 asociada a procesos de disolución de silicatos; el rango de valores
registrado de Calcio para el agua subterránea en el área de estudio tiene un máximo de
247mg/L y un mínimo de 0mg/L. Respecto al sodio se registran valores máximos en el agua
subterránea de 74.1mg/L y mínimo 1.26mg/L.
El plano de componentes de pH muestra un valor promedio de 6 unidades; en el área de
estudio el agua subterránea está dominado por un comportamiento medio acido que facilita
los procesos de disolución, sin embargo, se registra un rango de valores con máximo de 7.56
unidades y mínimo 4.4 unidades. Los valores más altos están asociados a salinidad típica de
aguas terrestres causada por sales no hidrolizadas. De acuerdo a Malagón,2017; el análisis
hidroquimicos del agua subterránea del SAVMM permite clasificar el tipo de agua dominante
en una facie hidrogeoquímica bicarbonatada. Por otra parte, existe una correlación parcial en
el plano de componentes (Figura 11) entre pH y Bicarbonatos (HCO3- ) y una correlación de
0.506 (Figura 12) asociada a que el pH de la zona disminuye como resultado de las actividades
industriales extractivas que allí se realizan. Adicionalmente, el rango de valores registrado para
Bicarbonatos en al agua subterránea tiene un máximo de 213mg/L, medio de 18.2mg/L y
mínimo de 0mg/L.
28
La distribución espacial de temperaturas en un acuífero depende de la conductividad térmica
e hidráulica del medio, de la relación longitud/profundidad de la cuenca, de la configuración
del nivel freático y de la distribución de la temperatura ambiente respecto a la zonas de recarga
y descarga entre otras (Custodio & Llamas , 2001). Existe una relación positiva entre
profundidad y temperatura con un comportamiento inverso en la componente planos
posiblemente relacionado al gradiente geotérmico de la zona, como resultado de la actividad
geológica asociada fallas preexistentes. Asimismo, los rangos de temperatura registrados para
el agua subterránea corresponden a una máxima de 32°C y una mínima de 22.4°C.
Cloruro es considera un ion altamente móvil a través de la mayoría de los sistemas acuíferos, su
fuente puede ser antropogénica o natural. Los rangos de cloruro registrados para el agua
subterránea corresponden a un máximo de 168mg/L y un mínimo de 1.74mg/L con base en el
plano de componentes (Figura 11), pero los valores más altos indican contaminación de origen
antropogénico en el agua subterránea asociada posiblemente a la explotación de hidrocarburos.
Ca y Mg tienen una correlación alta de 0.904 y un patrón similar de color, esto se debe a que son
producto de la disolución de rocas basálticas que forman minerales.
La Matriz U (Matriz de distancia unificada) es una representación bidimensional de las
diferencias de los vectores de código n-dimensionales (Ultsch, 2003) , obece a una
representación de la distancia local del conjunto de datos. Es decir que la mayor distancia
corresponde a un valor de 2.94 y la menor a 0.4. Así mismo las proyecciones de los puntos
correspondientes a los datos de entrada pertenece a los valores mínimos de distancia
visualizando datos de alta dimensionalidad usando una imagen 2D. Adicionalmente, esta matriz
presenta información sobre los diferentes grupos (Cluster) que se pueden agrupar los datos.
La disponibilidad limitada de datos y la alta variabilidad espacial de los mismos, promueve
cantidades crecientes de la incertidumbre en las predicciones del modelo (Hornberger, 1998).
Los conjuntos de datos escasos pueden dar lugar a predicciones sesgadas (Dickson & Giblin ,
2007) que requieren un esquema modificado basado en el bootstrapping (Breiman, 1996).
29
Figura 12. Matriz de Correlación
El algoritmo SOM es objetivo, pero hay subjetividad cuando se elige el conjunto de variables de
datos como predictores potenciales, y las mismas muestras están limitadas espacialmente con
Solidos
Disueltos
Totales
(mg/L)
Profunddidad
(m)
Temperatura
(°C)
pH
Unidades de
pH
Conductivida
d electrica
(uS/cm)
Nitratos
(NNO3)
(mg/L)
Calcio (Ca)
Sodio (Na)
Potasio (K)
Magnesio
(Mg)
Cloruros (CL)
Sulfatos
(SO4)
Bicarbonatos
(HCO3)
Solido
s Disue
ltos To
tales (m
g/L)
1
Profun
didad
(m)
0,143
1
Temper
atura
(°C)
0,344
-0,238
1
pH (U
nidade
s de pH
) 0,4
790,1
440,1
711
Conduc
tividad
electri
ca (uS/
cm)
0,964
0,106
0,274
0,51
1
Nitrato
s (NNO
3) (mg
/L) 0,3
170,0
69-0,3
69-0,0
770,3
281
Calcio
(Ca)
0,835
0,088
0,034
0,368
0,802
0,414
1
Sodio (
Na)
0,865
00,2
040,3
510,8
580,3
690,9
141
Potasio
(K)
0,667
-0,142
0,421
0,306
0,694
0,276
0,526
0,745
1
Magne
sio (M
g) 0,8
0,001
0,172
0,316
0,748
0,288
0,904
0,919
0,704
1
Clorur
os (CL)
0,7
60,0
490,1
220,1
590,7
210,6
180,7
670,7
560,5
510,6
711
Sulfat
os (SO4
) 0,2
610,2
1-0,4
72-0,0
850,3
030,8
590,3
390,2
730,0
10,1
120,5
471
Bicarb
onatos
(HCO3)
0,6
630,5
390,0
530,5
060,6
590,0
640,5
810,4
420,1
740,4
170,4
730,2
081
30
diferentes niveles de incertidumbre en sus mediciones y observaciones (Iwashita F. , 2017). De
acuerdo a lo anterior, la fiabilidad de SOM como modelo para predecir valores de las
propiedades hidrogeoquímicas del SAVMM se evalúa mediante validación cruzada, teniendo en
cuenta que SOM actúa como estimador insesgado de acuerdo a la correspondencia uno a uno y
la varianza constante para STD, Conductividad, Temperatura, Profundidad, Bicarbonatos, Calcio,
Cloruro, Magnesio, Nitrato, Potasio, pH, Sodio y Sulfatos (Figura 13)
Figura 13. Diagramas de evaluación de modelos usando un enfoque Bootstrap, correspondencia
uno a uno con referencia (línea punteada) y valores promedio para 15 iteraciones por cada
muestra de valores observados para (a) Solidos totales disueltos, (b)conductividad, (c)
temperatura, (d) profundidad, (e)bicarbonatos, (f) calcio, (g) cloruro, (h) magnesio, (i) Nitratos,
(j) Potasio, (k) pH, (l) Sodio y (m) Sulfatos.
(a) (b)
(c) (d)
33
4.2. Análisis Geoestadístico (Variogramas y Krigging)
Los parámetros hidrogeológicos (conductividad, concentración de contaminantes, profundidad)
es difícil considerarlos como no correlacionados en el espacio y/o en tiempo. Los parámetros de
correlación espacial son fundamentales para caracterizar adecuadamente los fenómenos físicos
porque permite una interpolación espacial adecuada. Las variables que poseen una determinada
estructura se denominan variables regionalizadas, y poseen características aleatorias
determinadas. (Ribeiro, 2015)
Para la determinación del variograma experimental o muestral de cada variable química se
adoptó la hipótesis de estacionalidad, se analizaron la anisotropía, el comportamiento en el
origen y a grandes distancias. Los variogramas muéstrales no revelaron una clara anisotropía por
lo que se trabajó con variogramas omnidireccionales los cuales no depende de la dirección y
cuya tolerancia predeterminada es 90°, por lo que se puede pensar como el promedio del
variograma experimental en todas las direcciones posibles.
Adicionalmente para realizar los mapas de contorno, se empleó la herramienta Krigging tipo
ordinario que permite estimar puntos intermedios de un parámetro, es un estimador optimo ya
que es insesgado es decir que el valor esperado del error es cero y permite garantizar la mínima
varianza de la estimación porque la reduce al mínimo. Por otra parte, se considera un estimador
de interpolación exacto porque incorpora la variabilidad espacial a partir del análisis variográfico
proporcionando una medida de la precisión de estimación mediante la varianza de estimación y
esta se emplea en el diseño del muestro.
A continuación, se muestran los resultados correspondientes al análisis geoestadístico de los
diferentes parámetros analizados mediante Variogramas y mapas de contorno aplicando
Krigging Lineal Ordinario a fin de describir las correlaciones espaciales de los datos.
34
Figura 14. Variograma y Mapa de Contorno de Solidos Totales Disueltos
El mapa de contorno de STD refleja que el rango de valores registrados tiene un mínimo de 0mg/L y un máximo de 750mg/L. En el SAVMM predominan valores menores a 150mg/L.
Figura 15. Variograma y Mapa de Contorno de Conductividad El mapa de contorno para conductividad, registra un rango de valores con un mínimo de -50µs/d y máximo 1300µs/d, sin embargo en SAVMM predominan valores menores a 650µs/d.
35
Figura 16. Variograma y Mapa de Contorno de Temperatura
El mapa de contorno para temperatura, registra un rango de valores con un mínimo de 0°C y máximo 40°C, sin embargo en el SAVMM predominan valores de temperatura entre 22°C y 34°C.
Figura 17. Variograma y Mapa de Contorno de Profundidad
El mapa de contorno de Profundidad, registra un rango de valores con un mínimo de 0m y máximo 180m, sin embargo en el SAVMM predominan valores de profundidad 0mC y 60m, asi
36
mismo registra áreas con profundidades hasta 180m asociadas posiblemente a zonas de explotación de hidrocarburos.
Figura 18. Variograma y Mapa de Contorno de Bicarbonatos
El mapa de contorno de Bicarbonatos, registra un rango de valores con un mínimo de 0m y máximo 180m, sin embargo en el SAVMM predominan valores de profundidad 0mC y 60m, así mismo registra áreas con profundidades hasta 180m asociadas posiblemente a zonas de explotación de hidrocarburos.
Figura 19. Variograma y Mapa de Contorno de Calcio
37
El mapa de contorno de Calcio, registra un rango de valores con un mínimo de 0mg/L y máximo 44Mg/L , sin embargo en el SAVMM predominan valores de concentración de Calcio entre 0mg/L y 32m/L y en áreas cercanas a la falla de cimitarra( Noroeste) y el municipio de San Pablo (Noroeste) (Figura 5) se registran las mayores concentraciones.
Figura 20. Variograma y Mapa de Contorno de Cloruro
El mapa de contorno de Cloruro, registra un rango de valores con un mínimo de 0mg/L y máximo 2400Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 400mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones.
Figura 21. Variograma y Mapa de Contorno de Magnesio
38
El mapa de contorno de Magnesio (Figura 21), registra un rango de valores con un mínimo de 0mg/L y máximo 2400Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 400mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones.
Figura 22. Variograma y Mapa de Contorno Nitrato
El mapa de contorno de Nitrato, registra un rango de valores con un mínimo de 0mg/L y máximo 90Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 40mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones 90mg/L.
Figura 23. Variograma y Mapa de contorno Potasio
39
El mapa de contorno de Potasio (Figura 23), registra un rango de valores con un mínimo de 0mg/L y máximo 32Mg/L , sin embargo en el SAVMM predominan valores de concentración de Potasio entre 0mg/L y 20mg/L.
Figura 24. Variograma y Mapa de contorno pH
El mapa de contorno de pH, registra un rango de valores con un mínimo de 5mg/L y máximo 7.6Mg/L, sin embargo, en el SAVMM predominan valores de pH entre 6mg/L y 6.7mg/L, por otra parte, en cercanías a Barrancabermeja se registran los valores entre 7-8 unidades de ph neutro.
Figura 25. Variograma y Mapa de contorno Sodio
40
El mapa de contorno de Sodio (Figura 25), registra un rango de valores mínimo de 0mg/L y
máximo 700Mg/L, sin embargo, en el SAVMM predominan valores de Sodio entre 0mg/L y
100mg/L, por otra parte, en cercanías a Cimitarra se registran los valores entre 700mg/L.
Figura 26. Variograma y Mapa de contorno Sulfatos
El mapa de contorno de Sulfatos (Figura 26), registra un rango de valores mínimo de 0mg/L y
máximo 1100Mg/L, sin embargo, en el SAVMM predominan valores de Sulfatos entre 0mg/L y
150mg/L, por otra parte, en cercanías a Cimitarra se registran los valores máximos de 900mg/.
41
La tabla 1.3 a continuación, resume el tipo de Variograma teórico elegido y los parámetros
adoptados para cada una de las variables, luego de la validación cruzada de cada modelo.
Variable Modelo Efecto pepita
Solidos Totales Disueltos Gaussiano 12000
Conductividad Exponencial 38030
Temperatura Exponencial 3.9
Profundidad Gaussiano 310
Bicarbonatos Gaussiano 5800
Calcio Gaussiano 38
Cloruro Gaussiano 100
Magnesio Gaussiano 23
Nitratos Gaussiano 10
Potasio Gaussiano 21
Ph Gaussiano 0.9
Sodio Gaussiano 100
Sulfatos Gaussiano 5100
Con base en los resultados anteriormente obtenidos, se puede observar que entre más regular
el variograma en el origen (distancias cercanas a 0), más regular es la variable regionalizada en
el espacio. Sin embargo, en gran parte de las variables esta condición no se cumple exceptuando
Cloruros, por lo que no son variables regulares con respecto a su regionalización en el espacio.
Los variogramas de Conductividad (Figura 15) y Temperatura (Figura 16) tienen un
comportamiento exponencial donde el modelo alcanza su meseta de una manera asintótica, y
el efecto pepita o nugget es bajo en comparación con otras variables. Así mismo es apropiado
suponer que las correlaciones son arbitrariamente pequeñas a gran distancia, pero nunca
desaparecen.
Las variables con variogramas que describen un modelo Gaussiano son Solidos Totales Disueltos
(Figura 14), profundidad (Figura 15), Bicarbonatos (Figura 18) , calcio (Figura 19), Cloruros (Figura
20), Magnesio (Figura 21), Nitrato (Figura 22), Potasio (Figura 23), pH (Figura 24) , Sodio(Figura
25) y Sulfatos (Figura 26) , tienen un comportamiento parabólico cercano al origen lo que
42
permite concluir que representa una variable regionalizada suficientemente lisa para ser
diferenciable, por ejemplo la pendiente entre dos puntos está muy bien definida a medida que
la distancia entre estos dos puntos desaparece. Así mismo este modelo permite asumir un
comportamiento muy regular para dichas variables, sin embargo, en la mayoría de los casos
pueden ocurrir problemas numéricos en la fase de estimación.
43
5. Conclusiones
La variación espacial de los parámetros hidrogeoquímicas usando SOM para estimación de
valores faltantes y Análisis Geoestadístico para correlación espacial de los mismos, permite
exponer las siguientes observaciones:
1) La matriz de correlación de SOM estimada para los datos, provee información
de relaciones paramétricas entre elementos hidrogeoquímicos y variables
explicatorias.
2) La técnica K-means clasifica las variables de acuerdo a su similaridad topológica
como TDS y conductividad
3) La estimación de datos faltantes mediante análisis automático es una
herramienta adecuada para completar información de base datos, en este caso
que facilitan en un futuro la construcción de modelos hidrogeológicos de agua
subterránea
4) El análisis geoestadístico para evaluar la distribución espacial de los elementos
químicos y mapas de contorno revela patrones de comportamiento
hidrogeoquímicos como relación positiva fuerte entre Solidos Totales Disueltos
y Conductividad.
44
Referencias
ANH. (Diciembre de 2012). Agencia Nacional de Hidrocarburos.
Breiman, L. (1996). Bagging Predictions. Mach Learn, 24(2), 123-140.
Custodio, E., & Llamas , M. (2001). Hidrologia Subterranea. Omega.
Dickson , B., & Giblin , A. (2007). An evaluation of methods for impuration of missing trace
element data in groundwaters. Geochemistry: Exploration, Environment, Analysis (7),
173-178.
Emery, X. (2013). Geoestadistica. Santiago de Chile : Universidad de Chile .
Fessant, F., & Midenet , S. (2002). Self-Organizing map for the data imputacion and correction
in -surveys. Neuer Computational Application (10 ), 300-310 .
Fraser , S., & Hodgkinson, J. (2009). An investigation Using SiroSOM for the Analysisi of QUEST
Stream-Sediment and Lake-Sediment Geochemical Data . Geosciences BC- CSIRO .
Friedel , M. J. (2016). Estimation and scaling of hydrostratigraphic units: application of
unsupervised machine learning and multivariate statistical techniques to
hydrogeophysical data. Hydrogeology J(24), 2103-2122.
Hornberger, G. M. (1998). Elements of Physical Hydrology . Baltimore: JHU Press.
IDEAM . (2014). Estudio Nacional del Agua .
IDEAM. (2014a). Estudio Nacional del Agua 2014. Bogota D.C.
Iwashita, F. (15 de Enero de 2015). Geociencias . Obtenido de
http://geociencias.uniandes.edu.co/investigacion/geoestadistica
Iwashita, F. (2017). A self-organizing map approach to characterize hydrogeology of the
fracture Serra-Geral transbounday aquifer. Hydrology Research.
Kalteh, A. &. (2009). Imputation of Missing values in precipitation-runoff process database.
Nordic Hidrology 40(4), 420 -432.
Kitanidis, P. K. (1997). Introduction to Geostatistics: Applications in Hydrogeology. Cambridge:
Cambridge University Press.
Konohen. (2001). Self-Organizing Maps 3ra Ed. Berlin: Springer-Verlag.
Konohen, T. (1984). Self-Organization and Associative Memory . Berlin: Springer .
Malagón, J. P. (2017). Analisis Hidrogeoquimico Multivariado del Agua Subterranea del Sistema
Acuifero del Valle Medio del Magdalena - Colombia. Bogota: Universidad Nacional de
Colombia.
Medina, F., & Galvan, M. (2007 ). Estudios Estadisticos y proespectivos: Imputacion de datos
(Teoria y Practica). Santiago de Chile: Naciones Unidas CEPAL .
Molano Cajigas, C., & Obregón, N. (1993). Aplicacion Geoestadistica en la Hidrogeologia del
Acuifero de Santa Marta. Bogota: Universidad de los Andes.
45
Mora, a., & Rizzi, J. (2004). Regional Prospectivity Evaluation, Reporte interno Petrobras. Bogta
.
Morales , L. (1958). General Geology and oil ocurrences of the Middle Magdalena Valley.
Colombia : AAPG Oil Symposium.
Porta, J. D. (1974). Lexique Stratigraphique International. Volume V. Paris : Centre National de
la Recherceh Scientifique .
Reboucas , A. C., & Fraga, C. G. (1988). Hidrogeologia das rochas vulcânicas do Brasil. Águas
Subterrân(12), 29-55.
Ribeiro, L. (2015). Introduccion a los métodos geoestadísticos aplicados a la Hidrogeología.
Prometeo.
Riberio , L. (2015). Introducción a los métodos geoestadísticos aplicados a la Hidrogeología.
Guayaquil: Prometeo.
Sarmiento Perez, G., Puentes, J., & Sierra , C. (2015 de 2015 ). Estratigrafía y Petrofacies de la
Formacion la Luna en el sinclinal de Nuevo Mundo, Valle Medio del Magdalena.
Obtenido de
https://www.researchgate.net/publication/288668481_Estratigrafia_y_Petrofacies_de
_la_Formacion_La_Luna_en_el_Sinclinal_de_Nuevo_Mundo_Valle_Medio_del_Magdal
ena
Trevino, A. (12 de Julio de 2016). Introdiction to K-means Clustering. Obtenido de
https://www.datascience.com/blog/k-means-clustering
Ultsch, A. (2003). U*matrix: a Tool to Visualize Clusters in High Dimensional Data. Marburg:
Fachbereich Matematik und Informatik.
Vesanto & Alhonniemi . (2000). Clustering of the self-organizing map. IEEE Trans Neural
Network, 586-600.