Penerapan Algoritma Binning pada Preprocessing Data untuk Meningkatkan Akurasi Klasifikasi Multi-Kelas: Studi Kasus Data SDG
Sari
Klasifikasi data memainkan peran esensial dalam analisis data, terutama untuk data Sustainable Development Goals (SDGs) yang seringkali memiliki karakteristik kompleks seperti nilai hilang dan distribusi tidak seimbang, sehingga memerlukan tahap preprocessing yang efektif. Penelitian ini bertujuan untuk mengevaluasi secara komprehensif efektivitas tiga teknik binning, yaitu Fixed Binning, Random Binning, dan KNN Binning, dalam meningkatkan akurasi klasifikasi multikelas pada data SDGs. Teknik binning ini diimplementasikan dan diuji menggunakan tiga algoritma klasifikasi utama, yaitu Random Forest, Logistic Regression, dan Multilayer Perceptron (MLP). Penelitian ini menggunakan dua dataset yang merepresentasikan data SDGs, yaitu data pembangunan berkelanjutan dan ketahanan pangan. Dataset tersebut adalah dataset UKT dengan 2.137 entri dan dataset Ketahanan pangan dengan 514 entri. KNN Binning dipilih karena kemampuannya mengelompokkan data berdasarkan kedekatan antar instans, adaptif terhadap distribusi data yang kompleks. Hasil penelitian secara konsisten menunjukkan bahwa KNN Binning memberikan peningkatan akurasi tertinggi. Secara spesifik, kombinasi KNN Binning dengan Random Forest menghasilkan akurasi 92.25% pada dataset UKT dan 73.79% pada dataset Ketahanan pangan. Lebih lanjut, kombinasi ini juga menunjukkan peningkatan pada metrik presisi, recall, dan F1 score. Temuan ini menggarisbawahi superioritas KNN Binning dalam menangani data SDGs yang beragam dan tidak merata, sehingga memberikan kontribusi penting bagi pengembangan teknik preprocessing yang lebih akurat, andal, dan dapat meningkatkan performa model klasifikasi secara keseluruhan untuk analisis data SDGs.
Kata Kunci
Teks Lengkap:
PDFReferensi
Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer.
Sugriyono, S., & Siregar, M. U. (2020). "Prapemrosesan klasifikasi algoritme kNN menggunakan K-means dan matriks jarak untuk dataset hasil studi mahasiswa." Jurnal Teknologi dan Sistem Komputer, 8(4), 311-316.
Ainayya, A., et al. (2023). "Penerapan Data Transformation pada Database Sistem Informasi Manajemen Rumah Sakit." Sintak, 8(1), 45-55.
Basu, S., & Saha, S. (2018). "Comparative Study of Random Forest, Logistic Regression, and MLP for Classification Tasks." Journal of Machine Learning Research, 19(1), 1-15.
Hulvi, A., & Kusrini. (2024). "Optimasi Rekomendasi Sustainable Development Goals (SDGs) di Indonesia menggunakan Content-Based Filtering dan Algoritma Machine Learning." Building of Informatics, Technology and Science (BITS), 6(2), 1045-1058.
Susetyoko, R., et al. (2023). "Impact of Binning Techniques on Multi-Class Classification Accuracy for SDGs Data." International Journal of Data Science and Analytics, 15(2), 123-138.
Junaedi, J., et al. (2011). "Data Transformation pada Data Mining," Proceedings Seminar Nasional Teknologi Informasi dan Multimedia.Widodo. (2009). Nilai-Nilai Luhur Dalam Lelagon Dolanan. Harmonia: Journal of Arts Research and Education, 9(2), 167-172.
Goodfellow, I., et al. (2016). Deep Learning. MIT Press.
Hulvi, A., & Kusrini. (2024). Implementasi Sustainable Development Goals (SDGs) di Indonesia menggunakan Content-Based Filtering dan Algoritma Machine Learning. Building of Informatics, Technology and Science (BITS), 6(2), 1045-1058.
DOI: http://dx.doi.org/10.30811/jim.v10i2.7165
Refbacks
- Saat ini tidak ada refbacks.
##submission.copyrightStatement##











