IKMIIKMI

Jurnal ICT: Information Communication & TechnologyJurnal ICT: Information Communication & Technology

Diabetes Mellitus merupakan tantangan kesehatan global yang mendesak, di mana deteksi dini menjadi kunci intervensi yang efektif. Machine learning telah menunjukkan potensi besar dalam prediksi risiko diabetes. Di antara berbagai model, Regresi Logistik (LR) sering disukai dalam konteks medis karena interpretasinya yang tinggi, meskipun akurasinya seringkali tertinggal dari model black-box yang lebih kompleks. Kinerja LR diketahui sangat sensitif terhadap kualitas dan relevansi fitur input. Penelitian ini bertujuan untuk mengevaluasi secara kuantitatif dampak dari strategi seleksi fitur berbasis korelasi yang ketat terhadap akurasi model Regresi Logistik. Menggunakan dataset Diabetes Health Indicators (N=100.000), penelitian ini membandingkan dua skenario: (1) model LR baseline yang menggunakan semua fitur (All Input) dan (2) model LR yang dioptimalkan, yang hanya menggunakan subset fitur (termasuk fitur hasil rekayasa) yang memiliki korelasi absolut tinggi dengan diagnosis diabetes (Correlated Input). Hasil penelitian menunjukkan peningkatan kinerja yang signifikan. Model baseline All Input mencapai akurasi 80.45%, sedangkan model Correlated Input mencapai akurasi 85.67%. Pengukuran menggunakan AUC pada model correlated input sebesar 0.93 lebih tinggi dibandingkan dengan model baseline all input sebesar 0.88. Seleksi fitur berbasis korelasi meningkatkan kekuatan prediktif model Regresi Logistik (LR) hingga 5.22% dengan menghilangkan noise fitur yang tidak relevan. Regresi Logistik yang dioptimalkan ini memberikan keseimbangan yang kuat antara akurasi yang ditingkatkan dan interpretasi yang esensial untuk aplikasi klinis.

Penelitian ini menunjukkan bahwa strategi seleksi fitur berbasis korelasi secara signifikan meningkatkan akurasi model Regresi Logistik untuk prediksi diabetes, dari 80.Peningkatan kinerja ini membuktikan sensitivitas Regresi Logistik terhadap noise statistik, di mana penghilangan fitur tidak relevan memungkinkan model fokus pada sinyal prediktif yang lebih kuat.Model hasil optimasi dengan hanya 7 fitur tidak hanya lebih akurat, tetapi juga mempertahankan keunggulan interpretasi, menjadikannya sangat efektif untuk aplikasi medis.

Berangkat dari temuan bahwa seleksi fitur berbasis korelasi mampu secara signifikan meningkatkan akurasi Regresi Logistik, penelitian lanjutan sangat dianjurkan untuk mendalami strategi rekayasa fitur yang lebih kompleks dan otomatis. Misalnya, akan menarik untuk mengeksplorasi penggunaan algoritma pencarian atau teknik pembelajaran mendalam untuk secara otomatis mengidentifikasi dan membangun kombinasi fitur non-linear dari data klinis yang mungkin memiliki kekuatan prediktif lebih tinggi daripada rasio sederhana yang saat ini digunakan, guna mengungkap pola tersembunyi yang mungkin tidak terdeteksi oleh analisis korelasi linear biasa. Selain itu, mengingat interpretasi merupakan aspek krusial dalam aplikasi medis, studi di masa depan dapat membandingkan dampak seleksi fitur yang serupa pada model-model machine learning lain yang juga menawarkan tingkat interpretasi tinggi, seperti pohon keputusan atau model aditif generalisasi (GAM), untuk melihat apakah peningkatan akurasi serupa dapat dicapai tanpa mengorbankan transparansi yang dibutuhkan oleh praktisi klinis. Terakhir, sangat penting untuk meneliti bagaimana strategi seleksi fitur ini memengaruhi ketahanan dan keadilan model prediksi di berbagai subpopulasi pasien. Hal ini termasuk mengevaluasi apakah model yang dioptimalkan tetap akurat dan tidak bias ketika diterapkan pada kelompok demografi yang berbeda atau dalam skenario klinis yang bervariasi, memastikan bahwa manfaat deteksi dini diabetes dapat dirasakan secara merata oleh semua individu yang berisiko, serta memastikan model tetap stabil menghadapi data baru di masa depan.

  1. Interpretability of machine learning‐based prediction models in healthcare - Stiglic - 2020... doi.org/10.1002/widm.1379Interpretability of machine learningyAAAabased prediction models in healthcare Stiglic 2020 doi 10 1002 widm 1379
  2. A few useful things to know about machine learning | Communications of the ACM. few useful things know... dl.acm.org/doi/10.1145/2347736.2347755A few useful things to know about machine learning Communications of the ACM few useful things know dl acm doi 10 1145 2347736 2347755
  3. Intelligible Models for HealthCare | Proceedings of the 21th ACM SIGKDD International Conference on Knowledge... dl.acm.org/doi/10.1145/2783258.2788613Intelligible Models for HealthCare Proceedings of the 21th ACM SIGKDD International Conference on Knowledge dl acm doi 10 1145 2783258 2788613
Read online
File size750.72 KB
Pages8
DMCAReport

Related /

ads-block-test