Water Quality Identification Using Ensemble Machine Learning and Hybrid Resampling SMOTE-ENN Algorithm

Authors

  • Moch Deny Pratama Universitas Negeri Surabaya
  • Rifqi Abdillah Universitas Negeri Surabaya
  • Dina Zatusiva Haq Universitas Negeri Surabaya

Abstract

Abstract Water is essential for all living organisms, yet only a small fraction is fresh and suitable for consumption. The limited availability of freshwater sources, worsened by pollution, overuse, and climate change, underscores the urgent need for sustainable water management. Traditional water quality identification methods are labour-intensive, slow, and costly. Water quality identification often struggles with data quality, imbalanced datasets, and model interpretability. These challenges lead to inaccuracies, especially in detecting minority classes, which is crucial for identifying pollution. This research explores machine learning (ML) techniques to address the limitations of water quality classification by integrating ensemble learning using LightGBM and hybrid Resampling using SMOTE-ENN. Ensemble learning techniques improve accuracy and robustness by aggregating the strengths of multiple models, effectively handling imbalanced data and reducing overfitting. Hybrid Resampling techniques enhance model sensitivity by generating synthetic minority-class samples and refining datasets through noise reduction. Together, these integrations provide a more reliable framework for water quality identification, enabling timely and accurate. This innovative method offers a robust solution for addressing data imbalance and overfitting, ensuring more effective detection of polluted conditions. This study highlights the importance of advanced ML techniques in improving water quality tasks and underscores LightGBM's effectiveness in handling imbalanced data post-SMOTE-ENN application. This method is known for its superior performance, achieving the highest performance evaluation metrics in water quality classification with accuracy, F1-Score, and increasing the recall value by 3% with values ​​of 94.50%, 94.76% and 93.00%, respectively. Keywords: Water Quality, Machine Learning, Imbalanced Data, LightGBM, SMOTE-ENN, Ensemble Learning, Hybrid Resampling.   Abstrak Air sangat penting bagi semua organisme hidup, namun hanya sebagian kecil yang segar dan layak untuk dikonsumsi. Terbatasnya ketersediaan sumber air bersih, yang diperburuk oleh polusi, penggunaan berlebihan, dan perubahan iklim, menggarisbawahi kebutuhan mendesak akan pengelolaan air berkelanjutan. Metode identifikasi kualitas air tradisional memerlukan banyak tenaga kerja, lambat, dan mahal. Identifikasi kualitas air sering kali bermasalah dengan kualitas data, kumpulan data yang tidak seimbang, dan kemampuan interpretasi model. Tantangan-tantangan ini menyebabkan ketidakakuratan, terutama dalam mendeteksi kelompok minoritas, yang sangat penting dalam mengidentifikasi polusi. Penelitian ini mengeksplorasi teknik pembelajaran mesin (ML) untuk mengatasi keterbatasan klasifikasi kualitas air dengan mengintegrasikan pembelajaran ensembel menggunakan LightGBM dan pengambilan sampel hybrid menggunakan SMOTE-ENN. Teknik pembelajaran ensemble meningkatkan akurasi dan ketahanan dengan menggabungkan kekuatan beberapa model, menangani data yang tidak seimbang secara efektif, dan mengurangi overfitting. Teknik pengambilan sampel hibrid meningkatkan sensitivitas model dengan menghasilkan sampel kelas minoritas sintetik dan menyempurnakan kumpulan data melalui pengurangan noise. Bersama-sama, integrasi ini memberikan kerangka kerja yang lebih andal untuk identifikasi kualitas air, sehingga memungkinkan dilakukannya identifikasi secara tepat waktu dan akurat. Metode inovatif ini menawarkan solusi yang kuat untuk mengatasi ketidakseimbangan dan overfitting data, sehingga memastikan deteksi kondisi tercemar dengan lebih efektif. Studi ini menyoroti pentingnya teknik ML tingkat lanjut dalam meningkatkan tugas kualitas air dan menggarisbawahi efektivitas LightGBM dalam menangani data yang tidak seimbang pasca penerapan SMOTE-ENN. Metode ini dikenal dengan kinerjanya yang unggul, mencapai metrik evaluasi kinerja tertinggi dalam klasifikasi kualitas air dengan akurasi, F1-Score, dan meningkatkan nilai recall sebesar 3% dengan nilai masing-masing 94,50%, 94,76% dan 93,00%. Kata kunci: Kualitas Air, Pembelajaran Mesin, Data Ketidakseimbangan, LightGBM, SMOTE-ENN, Pembelajaran Ensemble, Pengambilan Sampel Hibrid.

Downloads

Submitted

2024-07-31

Accepted

2024-10-11

Published

2024-10-11

Most read articles by the same author(s)