2.3 ESTUDIO EXPLORATORIO DE DATOS
Análisis Exploratorio de Datos en Geología
Introducción al Análisis Exploratorio
- Se presenta un módulo sobre análisis exploratorio de datos, que incluye una pausa para preguntas y aclaraciones.
- La exploración y preparación de datos es crucial; se estima que representa aproximadamente la mitad del tiempo total dedicado a proyectos geológicos.
Objetivos del Análisis
- Se utilizarán varias bases de datos, como sonajes o producción, para estudiar la cantidad, calidad y ubicación de los datos.
- Es importante determinar el tipo y cantidad de datos disponibles, así como la malla de muestreo utilizada (regular o irregular).
Muestreo Preferencial
- Se discute el concepto de muestreo preferencial, donde ciertos sectores reciben más atención debido a su alta ley mineral.
- Este sesgo puede llevar a una sobreestimación en las estadísticas calculadas si no se maneja adecuadamente.
Prácticas en Muestreo
- Un caso común es que solo se muestrean áreas con alta ley, lo cual puede ser considerado una mala práctica si no se justifica geológicamente.
- La identificación errónea de unidades por ley en lugar de por características geológicas puede resultar en un análisis sesgado.
Análisis Estadístico y Modelado
- Se realizarán análisis estadísticos para cada variable y correlaciones multivariables. También se evaluará la distribución espacial de los datos.
- Definir zonas de estudio es complejo; implica modelar fronteras entre diferentes tipos minerales basándose en información geológica.
Selección y Limpieza de Datos
- Es fundamental decidir qué datos utilizar: eliminar aberrantes o componerlos según sea necesario.
Problemas Comunes en Bases de Datos
Errores en las Bases de Datos
- Se observa que, a pesar de verificar los datos, siempre hay errores presentes en las bases de datos analizadas. Esto es un problema recurrente en la experiencia del autor.
Tipos de Errores Detectables
- Ejemplos de errores incluyen leyes con valores imposibles, como una ley mayor al 100% o inconsistencias entre diferentes tipos de mineral. Estos son indicadores claros de problemas en los datos.
Datos Atípicos y su Verificación
- Los datos extremos requieren verificación adicional; por ejemplo, una ley de cobre del 40% puede ser válida pero poco común. Es crucial contrastar estos datos con información geológica y realizar remuestreos si es necesario.
Control de Calidad y Decisiones sobre Datos
- La existencia de un control de calidad es fundamental para decidir si conservar o eliminar ciertos datos. Si no hay evidencia clara que indique que un dato es erróneo, se puede optar por mantenerlo.
Problemas con Datos Ausentes y Muestreo Preferencial
- La falta de información en ciertas variables puede llevar a sesgos estadísticos. Un muestreo preferencial puede resultar en una sobreestimación del valor real del depósito debido a la densidad variable del muestreo según la ley mineral.
Relaciones Complejas entre Variables
Dependencia entre Variables
- Las relaciones entre variables como cobre, oro y plata pueden ser complejas y dependientes unas de otras. Esta dependencia debe ser considerada al modelar recursos minerales para evitar interpretaciones erróneas.
Exploración de Dependencias y Modelos Complejos
Relaciones Complejas en Modelos
- Se menciona que las dependencias de proporcionalidad son simples, pero en la práctica suelen ser más complejas. Esto se observa en el ámbito exploratorio, donde reproducir relaciones complejas entre variables no es fácil.
- Un ejemplo de relación compleja es la estequiometría en un yacimiento de fierro, donde diferentes elementos deben sumar 100%. Sin embargo, crear un modelo de bloques que respete esta relación puede ser complicado.
Consistencia entre Fuentes de Información
- La consistencia entre diversas fuentes de información es crucial para evaluar un yacimiento. Se pueden tener archivos con datos variados como sondajes, topografía y modelos geológicos interpretados.
- Al revisar los pozos de tadura y los sondajes, se pueden identificar errores que necesitan corrección. Es importante asegurarse de que todos los datos sean coherentes entre sí.
- A veces hay discrepancias significativas entre los datos logueados (por ejemplo, óxidos vs. sulfuros), lo cual indica una falta de concordancia entre el modelo interpretado y los datos reales.
Desafíos en la Limpieza de Datos
- La identificación de inconsistencias puede resultar desalentadora; a menudo se encuentran más errores al comparar diferentes fuentes. Esto puede llevar a frustraciones durante el proceso.
- Se discute cómo la media y la varianza local pueden mostrar tendencias; por ejemplo, una disminución en la ley media con profundidad puede indicar un efecto proporcional donde mayor variabilidad acompaña a mayores leyes.
Herramientas para Validación de Datos
- Se plantea la necesidad de herramientas o listas para validar bases de datos exploratorias. Un checklist podría incluir buscar inconsistencias, errores extremos o datos ausentes.
- El presentador comparte su experiencia personal sobre las dificultades encontradas al limpiar bases de datos e identifica algunos tipos comunes de errores que ha observado.
Límite de Detección y Manejo de Datos
- Se discuten problemas relacionados con límites bajos de detección cuando se analizan muestras en diferentes laboratorios. Esto puede complicar las estimaciones numéricas si hay variaciones significativas.
- Si el límite es bajo (ejemplo: 0%), se sugiere reemplazar valores por la mitad del límite para mantener información útil sin perderla completamente.
¿Cómo manejar datos de laboratorio y límites de detección?
Reemplazo de valores negativos en datos
- Se discute la necesidad de reemplazar valores negativos en los datos, sugiriendo que no se debe dejar un valor negativo. Se recomienda mantener el dato cercano a cero.
- Carolina menciona que la mejor práctica es que el laboratorio indique los datos con un signo menos si están por debajo del límite de detección, enfatizando la importancia de comunicar correctamente estos resultados.
Información sobre hierro magnético y estimaciones
- Se plantea una duda sobre cómo cuantificar la magnetita cuando se trabaja con hierro magnético, mencionando que se hace un modelo total y uno específico para el hierro magnético.
- La dificultad radica en estimar los datos faltantes al realizar consultorías y proyectos auditables, cuestionándose si es correcto rellenar esos datos ausentes.
Imputación y coestimación de datos
- Se debate sobre la imputación de datos faltantes versus coestimación, donde algunos prefieren cambiar variables para obtener estimaciones más precisas sin introducir sesgos.
- La preferencia por coestimar en lugar de imputar se destaca como una forma más confiable para manejar los datos faltantes, especialmente cuando hay incertidumbre sobre las leyes presentes.
Técnicas avanzadas y análisis multivariado
- Se menciona un curso donde se enseñarán técnicas avanzadas relacionadas con cobre total y cobre soluble, abordando problemas similares a los discutidos anteriormente.
- El uso de herramientas geostáticas matemáticas es sugerido como una alternativa para abordar problemas complejos en el análisis exploratorio.
Importancia del muestreo y soporte de medición
- Se introduce el concepto del efecto soporte en muestreo, indicando que la distribución puede variar significativamente dependiendo del tamaño del compósito utilizado durante las mediciones.
Análisis de Histogramas y Estadísticas en Yacimientos
Introducción a los Histogramas
- El histograma es fundamental para evaluar yacimientos, comenzando con la visualización de datos como la variable de cobre. Se divide el rango en tramos, contabilizando la frecuencia de ocurrencia.
- La última barra del histograma representa la acumulación total después del 3%. La media se sitúa alrededor del 1% y muestra una distribución simétrica con más frecuencia en valores bajos.
Identificación de Datos Atípicos
- Los histogramas permiten identificar datos atípicos, que aunque pueden ser correctos (como las pepitas de oro), deben ser validados o descartados tras su identificación.
Construcción del Histograma
- Para construir un histograma efectivo, se recomienda utilizar entre 20 y 30 clases. Un número excesivo o insuficiente de clases puede resultar en información poco útil.
- En algunos casos, un histograma bimodal puede indicar la presencia de dos poblaciones diferentes dentro de los datos.
Herramientas Complementarias: Histogramas Acumulados
- El histograma acumulado muestra la frecuencia acumulada desde cero hasta el 100%, proporcionando una perspectiva diferente sobre los mismos datos que el histograma tradicional.
Análisis Tonelaje vs Ley
- Se presenta una curva que relaciona tonelaje versus ley de corte. A medida que aumenta la ley de corte, disminuye el tonelaje pero aumenta la ley media.
Estadísticas Clave para Evaluar Datos
- Se destacan cinco estadísticas esenciales: media, mínimo, máximo, varianza (o desviación estándar), y coeficiente de variación. Estas ayudan a entender mejor los datos analizados.
Visualización Alternativa: Box Plot
- El box plot permite visualizar cuartiles y comparaciones entre distribuciones. Es útil para observar asimetrías y concentraciones en diferentes rangos.
Comparación entre Distribuciones
- Los box plots facilitan comparar distribuciones entre diferentes unidades o muestras. Por ejemplo, se observa cómo varía la ley de sílice entre distintas unidades mineras.
Conclusiones sobre Distribuciones Univariable
Análisis de la Distribución de Leyes en Datos Geológicos
Escalas y Distribuciones
- La escala de frecuencia acumulada del 0 al 100% se describe como "escala gusana", que no es lineal. Si la ley de cobre fuera "gusana", el gráfico de probabilidad normal mostraría una línea recta, lo cual no ocurre aquí; sin embargo, el gráfico log-normal sí presenta esta escala gusana con una representación logarítmica.
- Se menciona que la ley de cobre tiene distribución log-normal. En un gráfico, si se observa una línea recta al aplicar el logaritmo, indica que casi se ajusta a esta distribución. La log-normal comienza en cero, aumenta rápidamente y luego disminuye lentamente.
Identificación de Poblaciones en Datos
- Se discute un enfoque para modelar datos que parecen tener dos poblaciones distintas. Aunque hay indicios visuales (curvas con puntos de inflexión), esto puede ser interpretado como una mezcla de dos poblaciones.
- Al observar gráficos de probabilidad bimodal (con modas rojas y azules), se plantea la pregunta sobre cómo decidir si realmente existen dos poblaciones separadas en los datos.
Criterios para Separación de Poblaciones
- El presentador reflexiona sobre la complejidad del análisis exploratorio y sugiere un enfoque basado en tres criterios: diferencias estadísticas, espaciales y geológicas para determinar si hay dos poblaciones distintas.
- Para establecer diferencias estadísticas, se debe observar el gráfico de probabilidad donde las distribuciones deben mostrar variación significativa entre las poblaciones identificadas (baja ley vs alta ley).
Diferencias Espaciales y Geológicas
- Se enfatiza la importancia de las diferencias espaciales; si los datos están mezclados espacialmente, es difícil separarlos. Un ejemplo sería tener un sector arriba (óxido) y otro abajo.
- Además, se considera crucial contar con diferencias geológicas; si no hay distinción geológica clara entre sectores altos y bajos, puede ser complicado justificar la separación poblacional.
Herramientas para Análisis Comparativo
- Se presentan diversas herramientas analíticas disponibles para comparar distribuciones. No es necesario utilizar todas las herramientas; más bien, cada investigador debe seleccionar aquellas que mejor sirvan a sus necesidades específicas.
- Ejemplos incluyen histogramas acumulativos y gráficos cuantil-cuantil para evaluar similitudes o diferencias entre variables como magnesia y sílica. Esto permite visualizar relaciones potenciales entre diferentes conjuntos de datos geológicos.
Interpretación Cuantitativa
- Al comparar histogramas mediante gráficos cuantil-cuantil, se busca identificar patrones o correlaciones entre distribuciones. Una línea diagonal sugiere identidad en las distribuciones comparadas; sin embargo, esto no implica necesariamente correlación directa entre variables como sílica y magnesia.
Análisis de Correlación y Distribución de Datos
Comparación de Variables
- Se menciona que la línea en un gráfico puede ser distinta a la diagonal, indicando que el gráfico solo compara distribuciones sin mostrar correlaciones significativas.
- Se introduce un gráfico de dispersión para analizar la relación entre cobre total y cobre soluble, destacando que no es una línea recta sino una nube de puntos.
Identificación de Anomalías
- Un punto sobre la línea diagonal indica más cobre soluble que cobre total, sugiriendo la necesidad de corregir los datos.
- Se observa bimodalidad en los datos, lo que sugiere dos poblaciones diferentes: mineral oxidado con alta solubilidad y mineral sulfurado con baja solubilidad.
Comportamiento de las Variables
- La correlación entre variables se analiza para detectar comportamientos atípicos; por ejemplo, un dato aislado podría indicar una relación inesperada entre oro y cobre.
- Se discute cómo la variabilidad de magnesia depende del valor de sílica, mostrando un comportamiento heteroscedástico en los datos.
Correlación y Dependencia Lineal
- La correlación positiva o negativa entre conjuntos de datos puede sugerir mezclas poblacionales.
- Se presentan ejemplos donde las relaciones son lineales o complejas; se destaca que la correlación puede ser engañosa si no se considera el contexto completo.
Herramientas para Análisis Categórico
- Se introducen gráficos para comparar variables categóricas, utilizando proporciones acumuladas para visualizar asociaciones.
- También se menciona cómo relacionar variables continuas con categóricas, como las leyes de cobre asociadas a diferentes alteraciones minerales.
Análisis Multivariable y Espacial
- Aunque no se profundiza en análisis multivariables, se mencionan herramientas como análisis de componentes principales.
Análisis de Datos de Muestreo en Geología
Leyes de Cobre y Mapeo
- Se discuten los datos utilizados para el laboratorio, mencionando que la ley de cobre se relaciona con mapas que indican zonas específicas: 400 m al este, 600 m al norte y 1330 m en vertical.
- Se menciona la existencia de un modelo subyacente regular con sondajes de relleno, indicando que el muestreo es irregular y preferencialmente cualitativo.
Preferencias en Sondajes
- La distribución de sondajes muestra una mayor concentración en áreas de alta ley (colores cálidos), sugiriendo un muestreo más denso en estas zonas comparado con las áreas de baja ley (colores fríos).
- Se observa continuidad tanto horizontal como vertical en las leyes altas, destacando que la continuidad vertical parece ser más fuerte.
Formación del Yacimiento
- Se explica cómo se formó el yacimiento tipo pórfido cuprífero a través de fluidos hidrotermales que circulan verticalmente por discontinuidades en la roca.
- La mineralización tiende a tener más continuidad vertical que horizontal, lo cual es lógico para este tipo de depósitos.
Anomalías en los Datos
- Un ejemplo revela anomalías donde un dato rojo aparece dentro de una zona verde; se cuestiona la confiabilidad del dato debido a su antigüedad.
- El geólogo responsable confirma errores en los datos entregados, resaltando la importancia de verificar información incluso si proviene de fuentes confiables.
Errores Topográficos
- Se presenta un caso donde un sondaje está mal posicionado debido a un error topográfico significativo (50 m), lo cual puede afectar drásticamente los resultados dependiendo del contexto del depósito.
- La falta de mediciones precisas puede llevar a interpretaciones erróneas sobre la ubicación real del mineral.
Interpretación Geológica Moderna
- Se discute cómo se realizan actualmente las interpretaciones geológicas mediante técnicas modernas para crear modelos 3D basados en datos obtenidos desde galerías.
- Los mapas e interpretaciones permiten visualizar cuerpos minerales y sus intersecciones, facilitando el análisis espacial.
Distribución Espacial y Variabilidad
- Herramientas como SW plots ayudan a visualizar la distribución espacial del cobre, mostrando variaciones significativas entre sectores altos y bajos.
Análisis de Fronteras entre Óxido y Sulfuro
Naturaleza de las Fronteras
- Se identifican diferentes dominios geográficos, específicamente óxido y sulfuro, para determinar la naturaleza de la frontera entre ellos.
- La frontera puede ser dura (cambio abrupto en el comportamiento de la variable) o blanda (cambio gradual o sin cambio significativo).
Métodos para Investigar Fronteras
- Se utilizan tres tipos de gráficos: gráfico de medias, gráfico de correlación y nubes de correlación diferida.
- El gráfico de medias permite observar cómo varía la ley media del cobre al acercarse o alejarse de la frontera.
Ejemplos Prácticos
- En un caso práctico, se observa que al cruzar la frontera entre los dos dominios, hay un salto significativo en la media del cobre (de 0.5 a 0.9).
- En otro ejemplo, no se observa un cambio abrupto en la media al cruzar la frontera, sugiriendo una transición más suave.
Gráfico de Correlación
- Se analiza cuánto se correlaciona un dato del dominio uno con uno del dominio dos según su distancia.
- Los resultados muestran que hay poca correlación entre los dominios independientes y una zona de transición donde sí existe dependencia.
Nube de Correlación Diferida
- Se compara la ley del cobre en diferentes tipos de roca (brecha turmalina vs granitoide), observando que hay buena correlación y similar media.
- Al comparar pórfido con brecha turmalina, se encuentra que hay una diferencia significativa en las leyes medias, indicando una frontera dura.
Conclusiones sobre Fronteras Duras y Blandas
- Los geólogos reconocen que el pórfido tiene una frontera dura debido a su naturaleza intrusiva post mineralización.
Análisis de Contacto en Geología
Herramientas y Métodos para el Análisis de Contacto
- Se discute la dificultad del análisis de contacto entre diferentes unidades geológicas, mencionando que se requieren herramientas específicas como gráficos de medias y correlación.
- La comparación de diagnósticos entre colegas puede resultar en interpretaciones diferentes, lo que resalta la subjetividad en el análisis geológico.
- La decisión sobre cómo modelar los dominios geológicos (separados o juntos) depende del análisis previo del contacto, ya sea duro o blando.
- Las decisiones tomadas durante el análisis impactan significativamente en el modelo final y, por ende, en el plan minero a seguir.
- Se enfatiza que aunque no es un proceso directo, las decisiones exploratorias son cruciales para definir los dominios y sus fronteras.
Interacción con Participantes
- Paulina intenta hacer una pregunta pero enfrenta problemas técnicos con su micrófono; se sugiere que escriba su consulta en el chat.
- Mariel pregunta si el análisis también se aplica al contacto entre rocas; se confirma que sí, considerando factores como litología y alteraciones minerales.
Definición de Contactos Geológicos
- Es importante diagnosticar si los contactos son duros, blandos o transicionales; esto afecta la interpretación del mineral presente.
- Se menciona un ejemplo específico donde la mineralización continúa a pesar de un cambio en la roca, ilustrando la complejidad del análisis.
Cierre y Próximos Pasos