Modelos eficientes de aprendizaje automático basados en datos para la predicción de la calidad del agua
Autores: Dritsas, Elias; Trigka, Maria
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelos eficientes de aprendizaje automático basados en datos para la predicción de la calidad del agua
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Agua
Recurso
Contaminación
Idoneidad
Clasificación
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El agua es un recurso valioso, necesario y desafortunadamente escaso tanto en países en desarrollo como en países desarrollados de todo el mundo. Es, sin duda, el recurso natural más importante del planeta y constituye un nutriente esencial para la salud humana. La contaminación geoambiental puede ser causada por muchos tipos diferentes de desechos, como residuos sólidos municipales, industriales, agrícolas (por ejemplo, pesticidas y fertilizantes), médicos, etc., lo que hace que el agua no sea apta para ser utilizada por ningún ser vivo. Por lo tanto, encontrar métodos eficientes para automatizar la verificación de la idoneidad del agua es de gran importancia. En el contexto de este trabajo de investigación, utilizamos un enfoque de aprendizaje supervisado para diseñar modelos predictivos lo más precisos posible a partir de un conjunto de datos de entrenamiento etiquetados para la identificación de la idoneidad del agua, ya sea para consumo u otros usos. Suponemos un conjunto de parámetros fisicoquímicos y microbiológicos como características de entrada que ayudan a representar el estado del agua y determinar su clase de idoneidad (es decir, segura o no segura). Desde una perspectiva metodológica, el problema se trata como una tarea de clasificación binaria, y el rendimiento de los modelos de aprendizaje automático (como Naive Bayes-NB, Regresión Logística-LR, k Vecinos Más Cercanos-kNN, clasificadores basados en árboles y técnicas de conjunto) se evalúa con y sin la aplicación de equilibrio de clases (es decir, uso o no uso de la Técnica de Sobremuestreo Minoritario Sintético-SMOTE), comparándolos en términos de Precisión, Recall, Precisión y Área Bajo la Curva (AUC). En nuestra demostración, los resultados muestran que el modelo de clasificación Stacking después de SMOTE con validación cruzada de 10 pliegues supera a los demás con una Precisión y Recall del 98.1%, Precisión del 100% y un AUC igual a 99.9%. En conclusión, en este artículo se presenta un marco que puede apoyar los esfuerzos de los investigadores hacia la predicción de la calidad del agua utilizando el aprendizaje automático (ML).
Descripción
El agua es un recurso valioso, necesario y desafortunadamente escaso tanto en países en desarrollo como en países desarrollados de todo el mundo. Es, sin duda, el recurso natural más importante del planeta y constituye un nutriente esencial para la salud humana. La contaminación geoambiental puede ser causada por muchos tipos diferentes de desechos, como residuos sólidos municipales, industriales, agrícolas (por ejemplo, pesticidas y fertilizantes), médicos, etc., lo que hace que el agua no sea apta para ser utilizada por ningún ser vivo. Por lo tanto, encontrar métodos eficientes para automatizar la verificación de la idoneidad del agua es de gran importancia. En el contexto de este trabajo de investigación, utilizamos un enfoque de aprendizaje supervisado para diseñar modelos predictivos lo más precisos posible a partir de un conjunto de datos de entrenamiento etiquetados para la identificación de la idoneidad del agua, ya sea para consumo u otros usos. Suponemos un conjunto de parámetros fisicoquímicos y microbiológicos como características de entrada que ayudan a representar el estado del agua y determinar su clase de idoneidad (es decir, segura o no segura). Desde una perspectiva metodológica, el problema se trata como una tarea de clasificación binaria, y el rendimiento de los modelos de aprendizaje automático (como Naive Bayes-NB, Regresión Logística-LR, k Vecinos Más Cercanos-kNN, clasificadores basados en árboles y técnicas de conjunto) se evalúa con y sin la aplicación de equilibrio de clases (es decir, uso o no uso de la Técnica de Sobremuestreo Minoritario Sintético-SMOTE), comparándolos en términos de Precisión, Recall, Precisión y Área Bajo la Curva (AUC). En nuestra demostración, los resultados muestran que el modelo de clasificación Stacking después de SMOTE con validación cruzada de 10 pliegues supera a los demás con una Precisión y Recall del 98.1%, Precisión del 100% y un AUC igual a 99.9%. En conclusión, en este artículo se presenta un marco que puede apoyar los esfuerzos de los investigadores hacia la predicción de la calidad del agua utilizando el aprendizaje automático (ML).