IJCISIJCIS

International Journal of Computer and Information System (IJCIS)International Journal of Computer and Information System (IJCIS)

Penyebaran informasi palsu dan berita bohong secara online telah menimbulkan risiko serius terhadap partisipasi publik yang terinformasi dan fondasi pemerintahan demokratis. Penelitian ini menyelidiki seberapa baik berbagai teknik machine learning dapat mengklasifikasi berita palsu, menggunakan fitur teks yang diekstrak melalui metode Term Frequency–Inverse Document Frequency (TF-IDF). Analisis mencakup lima algoritma yang umum digunakan seperti Logistic Regression, Support Vector Machine (SVM), Naive Bayes, Random Forest, dan XGBoost. Sebuah dataset yang dapat diakses secara publik yang berisi artikel berita nyata dan palsu yang telah diberi label digunakan sebagai dasar untuk melatih dan menguji model-model ini. Dataset tersebut mengalami pra-pengolahan yang ekstensif, termasuk tokenisasi, penghapusan kata penghubung, dan vektorisasi TF-IDF, menghasilkan matriks high-dimensional yang jarang dengan 5068 dokumen dan 39.978 fitur. Evaluasi kinerja didasarkan pada beberapa metrik: akurasi train/test, tingkat salah klasifikasi, false positif/negatif, skor rata-rata cross-validation, dan waktu eksekusi. Hasil menunjukkan bahwa SVM dan Logistic Regression mencapai akurasi test tertinggi (93,61% dan 92,27% masing-masing) dan menunjukkan skor cross-validation yang kuat, menunjukkan kemampuan generalisasi yang kuat. Sebaliknya, Naive Bayes menghasilkan hasil yang lebih cepat tetapi menderita tingkat false positif yang tinggi dan akurasi yang lebih rendah (84,77%). Random Forest dan XGBoost menunjukkan kekuatan prediktif yang baik tetapi menunjukkan tanda-tanda overfitting dan tingkat salah klasifikasi yang sedang. Temuan ini menunjukkan bahwa SVM dan Logistic Regression cocok untuk mendeteksi berita palsu dalam dataset teks menggunakan fitur TF-IDF. Meskipun model tradisional tetap efektif, pekerjaan masa depan dapat mengeksplorasi pendekatan deep learning dan model bahasa yang sadar konteks untuk meningkatkan akurasi deteksi di dataset yang lebih kompleks dan multilingual.

Penelitian ini menyelidiki kemampuan berbagai algoritma machine learning dalam mendeteksi berita palsu, menggunakan fitur teks yang berasal dari dataset benchmark yang terkenal.Analisis menekankan kriteria evaluasi standar termasuk akurasi, presisi, dan recall sambil juga mencakup penilaian konsistensi model melalui cross-validation lima lipatan dan waktu yang diperlukan untuk pelatihan dan prediksi.Di antara model yang diuji, Logistic Regression dan Support Vector Machine (SVM) secara konsisten menunjukkan hasil yang kuat, terutama dalam hal akurasi dan recall, dan menunjukkan kinerja stabil di seluruh lipatan validasi.Naive Bayes menawarkan keseimbangan yang menarik antara kecepatan dan akurasi, menjadikannya pilihan praktis untuk skenario real-time atau sumber daya yang terbatas.Sebaliknya, pendekatan ensembel seperti Random Forest dan XGBoost mencapai hasil prediktif yang kuat, meskipun dengan waktu pemrosesan yang lebih lama.Hasil ini menggambarkan keseimbangan yang harus dipukul oleh praktisi antara akurasi, interpretabilitas, dan biaya komputasi saat mengembangkan sistem deteksi berita palsu.Secara keseluruhan, temuan menunjukkan bahwa SVM dan Logistic Regression adalah pilihan yang paling andal untuk tugas deteksi berita palsu berdasarkan dataset yang digunakan, mempertimbangkan akurasi, tingkat salah klasifikasi, stabilitas, dan efisiensi komputasi.Pendekatan TF-IDF secara efektif menangkap fitur teks yang penting, menghasilkan matriks fitur high-dimensional (5068 x 39.

Penelitian selanjutnya dapat mempertimbangkan metode representasi teks yang lebih canggih, termasuk word embeddings dan arsitektur transformer-based seperti BERT. Selain itu, menilai efektivitas model pada dataset multilingual dan heterogen dapat meningkatkan kemampuan model untuk menggeneralisasi di konteks yang lebih luas. Studi lanjutan juga dapat mengeksplorasi penggunaan model bahasa yang sadar konteks untuk meningkatkan akurasi deteksi di dataset yang lebih kompleks dan multilingual.

Read online
File size398.35 KB
Pages7
DMCAReport

Related /

ads-block-test