PENERAPAN METODE RANDOM FOREST UNTUK KLASIFIKASI DAN PREDIKSI PENYAKIT DIABETES
Keywords:
random forest, diabetes, klasifikasi, prediksi, machine learningAbstract
Penyakit diabetes merupakan salah satu masalah kesehatan global yang memerlukan deteksi dini untuk mencegah komplikasi serius. Penelitian ini bertujuan untuk membangun model klasifikasi penyakit diabetes menggunakan metode random forest dengan data Pima Indians Diabetes dari UCI Machine Learning Repository. Dataset terdiri dari 768 pengamatan dengan tujuh variabel prediktor, antara lain glukosa plasma, tekanan darah diastolik, ketebalan kulit, kadar insulin, indeks masa tubuh, riwayat keluarga diabetes, dan usia. Data dibagi menjadi data latih (80%) dan data uji (20%) untuk pelatihan dan pengujian model. Hasil pengujian menunjukkan bahwa model mampu mengklasifikasikan status diabetes dengan akurasi sebesar 79,87%, sensitivitas 84,54%, dan spesifisitas 68,18%, yang mencerminkan performa klasifikasi dan prediksi yang cukup baik secara keseluruhan. Analisis tingkat kepentingan variabel berdasarkan nilai mean decrease gini mengindikasikan bahwa glukosa plasma, indeks massa tubuh, dan usia
merupakan variabel paling berpengaruh dalam proses klasifikasi. Temuan ini menunjukkan bahwa metode random forest efektif digunakan dalam mendeteksi risiko diabetes serta memberikan wawasan penting terkait variabel yang paling relevan dalam diagnosis berbasis data.
References
International Diabetes Federation. (2025). IDF diabetes atlas (11th ed.). International Diabetes Federation. https://diabetesatlas.org.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324.
Tan, P.-N., Steinbach, M., & Kumar, V. (2019). Introduction to data mining (2nd ed.). Pearson. https://doi.org/10.5555/3208440.
Musa, J., & Abdulazeez, A. M. (2024). A review on diabetes classification based on machine learning algorithms. Indonesian Journal of Computer Science, 13(2). https://doi.org/10.33022/ijcs.v13i2.3886.
Wang, S. (2023). Diabetes prediction using random forest in healthcare. Highlights in Science, Engineering and Technology. https://doi.org/10.54097/5ndh9a05.
Liaw, A., & Wiener, M. (2002). Classification and regression by
randomForest. R News, 2(3), 18–22. http://CRAN.R-project.org/doc/Rnews/.
Chen, X., & Ishwaran, H. (2012). Random forests for variable selection in classification problems in bioinformatics. BMC Bioinformatics, 13, 91. https://doi.org/10.1186/1471-2105-13-91.
Suwaryo, N., Rahman, A., Atmaja, D. M. U., & Basri, A. (2023). Prediksi penyakit diabetes untuk pencegahan dini dengan metode regresi linear. Bulletin of Information Technology (BIT), 4(2), 313–319. https://doi.org/10.47065/bit.v3i1.739.
Aditya, M. F., Pramuntadi, A., Wijaya, D. P., & Wicaksono, Y. (2024). Implementation of decision tree method for diabetes mellitus type 2 prediction [Implementasi metode decision tree pada prediksi penyakit diabetes melitus tipe 2]. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 4(3), 1104–1110. https://doi.org/10.57152/malcom.v4i3.1284
Dwyer, K., & Holte, R. (2007). Decision tree instability and active learning. In J. N. Kok, J. Koronacki, R. L. de Mántaras, S. Matwin, D. Mladenič, & A.Skowron (Eds.), Machine Learning: ECML 2007. Lecture Notes in ComputerScience (Vol. 4701, pp. 128–139). Springer. https://doi.org/10.1007/978-3-540-74958-5_15.
Aji, P. W. S., Suprianto, & Dijaya, R. (2023). Prediksi penyakit stroke menggunakan metode Random Forest. KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen), 4(4), 916–924.https://doi.org/10.30645/kesatria.v4i4.242.g240.
Putra, M. R. A., & Handayani, R. N. (2023). Perbandingan algoritma Decision Tree dan Random Forest dalam pengklasifikasian penyakit tiroid. eProceeding Sistem Informasi, 5(2), 166–172. https://eprosiding.ars.ac.id/index.php/psi/article/view/1164.
Sriyanto, & Supriyatna, A. R. (2023). Prediksi penyakit diabetes menggunakan algoritma Random Forest. Teknika, 17(1), 163–172.https://doi.org/10.5281/zenodo.8051410.
Wulansari, M. J. (2018). Analisis faktor-faktor yang mempengaruhi seseorang terkena penyakit diabetes melitus menggunakan regresi Random Forest (Skripsi tidak dipublikasikan). Universitas Islam Indonesia. https://dspace.uii.ac.id/handle/123456789/8015.
Salman, H. A., Kalakech, A., & Steiti, A. (2024). Random forest algorithm overview. Babylonian Journal of Machine Learning, 2024, 69–79. https://doi.org/10.58496/BJML/2024/007.
Chen, Y., Cheung, K. C., Sun, R. Z., & et al. (2024). A user guide of CARTand random forests with applications in FinTech and InsurTech. Japanese Journal of Statistics and Data Science, 7, 999–1038. https://doi.org/10.1007/s42081-024-00258-x.
Sartono, B., & Dharmawan, H. (2023). Pemodelan prediksi berbasis pohon klasifikasi. IPB Press.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statisticallearning: Data mining, inference, and prediction (2nd ed.). Springer. https://doi.org/10.1007/978-0-387-84858-7.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning: With applications in R (2nd ed.). Springer.https://doi.org/10.1007/978-1-0716-1418-1.
Mahmuda, S., Nohe, D. A., & Leonardo, A. M. (2024). Classification of the human development index in Kalimantan using random forest method. In Proceedings of the International Seminar on Science and Technology (pp. 231–239). https://doi.org/10.33830/isst.v3i1.2283.
Sandri, M., & Zuccolotto, P. (2008). A bias correction algorithm for the Gini variable importance measure in classification trees. Journal of Computational and Graphical Statistics, 17(3), 611–628. https://doi.org/10.1198/106186008X344522.
World Health Organization. (2023). Diabetes. https://www.who.int/newsroom/fact-sheets/detail/diabetes.
American Diabetes Association. (2022). Standards of medical care in diabetes—2022. Diabetes Care, 45(Supplement_1), S1–S264. https://doi.org/10.2337/dc22-Sint.
Lyssenko, V., & Laakso, M. (2013). Genetic screening for the risk of type 2 diabetes: Worthless or valuable? Diabetes Care, 36(Suppl 2), S120–S126. https://doi.org/10.2337/dcS13-2011.
Ng, M., Fleming, T., Robinson, M., Thompson, B., Graetz, N., Margono, C., ... Gakidou, E. (2014). Global, regional, and national prevalence of overweight and obesity in children and adults during 1980–2013: A systematic analysis. The Lancet, 384(9945), 766–781. https://doi.org/10.1016/S0140-6736(14)60460-8.
Mahmuda, S. (2024). Implementasi metode Random Forest pada kategori konten kanal YouTube. Jurnal Jendela Matematika, 2(1), 21–31. https://www.ejournal.jendelaedukasi.id/index.php/JJM