Analisis Performa Logistic Regression dan Random Forest dalam Klasifikasi Kelayakan Penerimaan Kredit

Andreas Adrian; Ike Verawati

Publisher

SUBSETSUBSET

Journal The Indonesian Journal of Computer Science Research Abstract

Penentuan kelayakan penerimaan kredit merupakan proses yang sangat penting dalam industri perbankan dan keuangan. Hal ini sangat berpengaruh bagi badan keuangan tersebut, bahkan dapat menyebabkan kondisi finansial badan keuangan tersebut tidak sehat karena kesalahan dalam keputusan kelayakan kredit. Machine learning hadir untuk meminimalisir kesalahan tersebut. Untuk meningkatkan akurasi dan efisiensi dalam klasifikasi kelayakan kredit, penelitian ini berfokus pada penerapan dua model machine learning, yaitu Logistic Regression dan Random Forest Classifier. Logistic Regression dipilih karena kemampuannya dalam mengidentifikasi hubungan linear antara variabel input dan output, sedangkan Random Forest Classifier memiliki keunggulan dalam menangani dataset yang kompleks dan non-linear. Tujuan utama dari penelitian ini adalah untuk membandingkan performa kedua model tersebut dalam tugas klasifikasi kelayakan kredit. Perbandingan dilakukan dengan tahapan Studi Literatur, Akuisisi Data (Pengumpulan data) yang mengambil dataset perbankan public di kaggle, EDA, Pre-Processing, Modelling, Evaluasi, dan Analisis Evaluasi Model. Dataset yang akan digunakan mencakup informasi data finansial dari nasabah. Perbandingan performa pada penelitian ini menggunakan matrix akurasi, precision, recall, F1-Score dan AUC-ROC untuk mengevaluasi kinerja masing-masing model. Penelitian ini menghasilkan bahwa model random forest lebih unggul dengan skor Akurasi 0.95, Presisi 0.93, Recall 0.98 dan F1 Score 0.96. Skor AUC yang digunakan untuk melihat seberapa baik model dalam membedakan class 1 dan 0 mencapai 0.98. Hasil penelitian ini diharapkan mampu memberikan rekomendasi yang bermanfaat bagi industri perbankan dalam memilih model yang paling tepat untuk penilaian kelayakan kredit.

Conclusion

Model Logistic Regression memerlukan waktu 173 ms untuk pelatihan dan mencapai skor Akurasi 0.Model Random Forest Classifier membutuhkan waktu 1.35 detik untuk pelatihan dengan hasil Akurasi 0.Berdasarkan hasil tersebut, Random Forest Classifier merupakan model terbaik dalam klasifikasi kelayakan kredit karena unggul dalam semua metrik evaluasi kecuali waktu pelatihan dibandingkan Logistic Regression.

Future Research

Pertama, penelitian lanjutan dapat menguji kombinasi dari Logistic Regression dan Random Forest dalam ensemble model untuk melihat apakah integrasi kedua pendekatan linier dan non-linier dapat meningkatkan akurasi sekaligus mengurangi waktu pelatihan. Kedua, perlu dilakukan studi tentang dampak penyesuaian hyperparameter pada Random Forest, terutama dalam konteks dataset kredit yang seimbang, untuk mengidentifikasi konfigurasi optimal yang dapat mempertahankan kinerja tinggi namun dengan efisiensi komputasi yang lebih baik. Ketiga, pengembangan model hibrida yang memanfaatkan feature selection berbasis heatmap dan teknik undersampling lain seperti Tomek Links atau SMOTE-ENN perlu dieksplorasi untuk menilai apakah pendekatan tersebut dapat menghasilkan kualitas prediksi yang lebih stabil di berbagai kondisi data kredit yang tidak seimbang. Idealnya, penelitian juga membandingkan performa model pada data aktual dari lembaga keuangan lokal untuk memastikan relevansi praktis. Selain itu, penting untuk mengevaluasi interpretabilitas model terbaik agar hasil prediksi dapat dijelaskan kepada pihak manajemen risiko. Studi lebih lanjut juga bisa mengeksplorasi penambahan fitur non-finansial seperti riwayat sosial media atau pola transaksi digital. Pengujian model pada dataset dengan karakteristik berbeda, seperti lebih dominan linear atau non-linear, akan memberikan wawasan tentang generalisasi model. Penerapan teknik cross-validation yang lebih robust juga sebaiknya diintegrasikan untuk menguji konsistensi hasil. Terakhir, penelitian bisa mengevaluasi trade-off antara akurasi dan kecepatan dalam skenario dunia nyata yang membutuhkan keputusan real-time.

References

Download Read online Download

Metadata

File size	497.34 KB
Pages	11
DMCA	Report

Related /

JURIS The Influence of Work Motivation and Job Satisfaction on Employee Performance with Work Discipline as an Intervening Variable among Civil Servants at Ministry X

2026

STIALANSTIALAN Pendekatan kuantitatif dengan desain penelitian eksplanatori digunakan, data dikumpulkan melalui kuesioner online yang diberikan kepada 91 pegawai ASNPendekatan kuantitatif dengan desain penelitian eksplanatori digunakan, data dikumpulkan melalui kuesioner online yang diberikan kepada 91 pegawai ASN

JURIS Predicting Container Delivery Dates Using Machine Learning Techniques A Regression Approach

2026

AKMICIREBONAKMICIREBON Evaluasi model menunjukkan Mean Absolute Error sebesar 4,59 hari, Root Mean Squared Error sebesar 10,55 hari, dan koefisien determinasi (R²) sebesar 0,68,Evaluasi model menunjukkan Mean Absolute Error sebesar 4,59 hari, Root Mean Squared Error sebesar 10,55 hari, dan koefisien determinasi (R²) sebesar 0,68,

JURIS The Strategic Role of Human Resource Management in Enhancing Occupational Health and Safety for Kindergarten Teachers

2026

SERAMBISERAMBI Data dikumpulkan melalui wawancara, observasi, dan dokumentasi, kemudian dianalisis menggunakan model interaktif Miles, Huberman, dan Saldana dengan bantuanData dikumpulkan melalui wawancara, observasi, dan dokumentasi, kemudian dianalisis menggunakan model interaktif Miles, Huberman, dan Saldana dengan bantuan

JURIS Comparative Analysis of Deep Learning Models for Wind Speed Prediction Using LSTM TCN and RBFNN

2025

AIRAAIRA Model LSTM menduduki peringkat kedua dengan kinerja kompetitif, sementara model RBFNN menghasilkan akurasi yang konsisten tetapi sedikit lebih rendah.Model LSTM menduduki peringkat kedua dengan kinerja kompetitif, sementara model RBFNN menghasilkan akurasi yang konsisten tetapi sedikit lebih rendah.

JURIS Penerapan Teknik Ensemble Learning untuk Klasifikasi Jenis jenis Anemia

2025

IRPIIRPI Teknik ini menggabungkan tiga model dasar: Random Forest, K-Nearest Neighbors (KNN), dan Gradient Boosting, dengan Logistic Regression sebagai estimatorTeknik ini menggabungkan tiga model dasar: Random Forest, K-Nearest Neighbors (KNN), dan Gradient Boosting, dengan Logistic Regression sebagai estimator

2025

INTELEKMADANIINTELEKMADANI Penelitian ini menggunakan desain mixed methods dalam tiga fase: eksplorasi melalui wawancara mendalam, observasi, dan diskusi kelompok terfokus; pengembanganPenelitian ini menggunakan desain mixed methods dalam tiga fase: eksplorasi melalui wawancara mendalam, observasi, dan diskusi kelompok terfokus; pengembangan

2025

UNIKOMUNIKOM Tingkat sangat rawan dan rawan tersebar pada daerah pesisir keseluruhan kecamatan di kota ambon sedangkan daerah yang aman akan terjadinya banjir terdapatTingkat sangat rawan dan rawan tersebar pada daerah pesisir keseluruhan kecamatan di kota ambon sedangkan daerah yang aman akan terjadinya banjir terdapat

2023

PROVISIPROVISI Artinya model sangat baik mempelajari data suhu, berbanding terbalik dengan data kelembaban. Hal ini mengindikasikan model LSTM memiliki tingkat akurasiArtinya model sangat baik mempelajari data suhu, berbanding terbalik dengan data kelembaban. Hal ini mengindikasikan model LSTM memiliki tingkat akurasi

Useful /

2026

PSPPJOURNALSPSPPJOURNALS Temuan menunjukkan bahwa peran regulator, dinamizer, fasilitator, inovator, dan katalisator sebagaimana yang diuraikan dalam teori telah terpenuhi secaraTemuan menunjukkan bahwa peran regulator, dinamizer, fasilitator, inovator, dan katalisator sebagaimana yang diuraikan dalam teori telah terpenuhi secara

2025

PSPPJOURNALSPSPPJOURNALS The methodology employed was a combination of qualitative and quantitative approaches, including observation, structured interviews with the HR ManagerThe methodology employed was a combination of qualitative and quantitative approaches, including observation, structured interviews with the HR Manager

2025

PSPPJOURNALSPSPPJOURNALS Data were gathered through the distribution of questionnaires, and the analysis was conducted using Partial Least Squares (PLS) approach within the StructuralData were gathered through the distribution of questionnaires, and the analysis was conducted using Partial Least Squares (PLS) approach within the Structural

2025

AIRAAIRA The system was built using the Software Development Life Cycle (SDLC) with the Waterfall model and integrates IoT sensors to automatically capture criticalThe system was built using the Software Development Life Cycle (SDLC) with the Waterfall model and integrates IoT sensors to automatically capture critical