Evaluating Machine Learning Algorithms for Detecting Online Text based Fake News Content

Deni Kurnianto Nugroho; Marwan Noor Fauzy; Kardilah  Rohmat Hidayat

Publisher

IJCISIJCIS

Journal International Journal of Computer and Information System (IJCIS) Abstract

Penyebaran informasi palsu dan berita bohong secara online telah menimbulkan risiko serius terhadap partisipasi publik yang terinformasi dan fondasi pemerintahan demokratis. Penelitian ini menyelidiki seberapa baik berbagai teknik machine learning dapat mengklasifikasi berita palsu, menggunakan fitur teks yang diekstrak melalui metode Term Frequency–Inverse Document Frequency (TF-IDF). Analisis mencakup lima algoritma yang umum digunakan seperti Logistic Regression, Support Vector Machine (SVM), Naive Bayes, Random Forest, dan XGBoost. Sebuah dataset yang dapat diakses secara publik yang berisi artikel berita nyata dan palsu yang telah diberi label digunakan sebagai dasar untuk melatih dan menguji model-model ini. Dataset tersebut mengalami pra-pengolahan yang ekstensif, termasuk tokenisasi, penghapusan kata penghubung, dan vektorisasi TF-IDF, menghasilkan matriks high-dimensional yang jarang dengan 5068 dokumen dan 39.978 fitur. Evaluasi kinerja didasarkan pada beberapa metrik: akurasi train/test, tingkat salah klasifikasi, false positif/negatif, skor rata-rata cross-validation, dan waktu eksekusi. Hasil menunjukkan bahwa SVM dan Logistic Regression mencapai akurasi test tertinggi (93,61% dan 92,27% masing-masing) dan menunjukkan skor cross-validation yang kuat, menunjukkan kemampuan generalisasi yang kuat. Sebaliknya, Naive Bayes menghasilkan hasil yang lebih cepat tetapi menderita tingkat false positif yang tinggi dan akurasi yang lebih rendah (84,77%). Random Forest dan XGBoost menunjukkan kekuatan prediktif yang baik tetapi menunjukkan tanda-tanda overfitting dan tingkat salah klasifikasi yang sedang. Temuan ini menunjukkan bahwa SVM dan Logistic Regression cocok untuk mendeteksi berita palsu dalam dataset teks menggunakan fitur TF-IDF. Meskipun model tradisional tetap efektif, pekerjaan masa depan dapat mengeksplorasi pendekatan deep learning dan model bahasa yang sadar konteks untuk meningkatkan akurasi deteksi di dataset yang lebih kompleks dan multilingual.

Conclusion

Penelitian ini menyelidiki kemampuan berbagai algoritma machine learning dalam mendeteksi berita palsu, menggunakan fitur teks yang berasal dari dataset benchmark yang terkenal.Analisis menekankan kriteria evaluasi standar termasuk akurasi, presisi, dan recall sambil juga mencakup penilaian konsistensi model melalui cross-validation lima lipatan dan waktu yang diperlukan untuk pelatihan dan prediksi.Di antara model yang diuji, Logistic Regression dan Support Vector Machine (SVM) secara konsisten menunjukkan hasil yang kuat, terutama dalam hal akurasi dan recall, dan menunjukkan kinerja stabil di seluruh lipatan validasi.Naive Bayes menawarkan keseimbangan yang menarik antara kecepatan dan akurasi, menjadikannya pilihan praktis untuk skenario real-time atau sumber daya yang terbatas.Sebaliknya, pendekatan ensembel seperti Random Forest dan XGBoost mencapai hasil prediktif yang kuat, meskipun dengan waktu pemrosesan yang lebih lama.Hasil ini menggambarkan keseimbangan yang harus dipukul oleh praktisi antara akurasi, interpretabilitas, dan biaya komputasi saat mengembangkan sistem deteksi berita palsu.Secara keseluruhan, temuan menunjukkan bahwa SVM dan Logistic Regression adalah pilihan yang paling andal untuk tugas deteksi berita palsu berdasarkan dataset yang digunakan, mempertimbangkan akurasi, tingkat salah klasifikasi, stabilitas, dan efisiensi komputasi.Pendekatan TF-IDF secara efektif menangkap fitur teks yang penting, menghasilkan matriks fitur high-dimensional (5068 x 39.

Future Research

Penelitian selanjutnya dapat mempertimbangkan metode representasi teks yang lebih canggih, termasuk word embeddings dan arsitektur transformer-based seperti BERT. Selain itu, menilai efektivitas model pada dataset multilingual dan heterogen dapat meningkatkan kemampuan model untuk menggeneralisasi di konteks yang lebih luas. Studi lanjutan juga dapat mengeksplorasi penggunaan model bahasa yang sadar konteks untuk meningkatkan akurasi deteksi di dataset yang lebih kompleks dan multilingual.

Download Read online Download

Metadata

File size	398.35 KB
Pages	7
DMCA	Report

Related /

JURIS Analysis of Student Academic Performance Using Random Forest and Support Vector Machines

2026

BSIBSI Penelitian ini bertujuan untuk membandingkan kinerja klasifikasi algoritma Random Forest dan Support Vector Machine (SVM) menggunakan dataset 403 siswaPenelitian ini bertujuan untuk membandingkan kinerja klasifikasi algoritma Random Forest dan Support Vector Machine (SVM) menggunakan dataset 403 siswa

JURIS SIBI Based Gesture Recognition System Using Random Forest for Hearing Impaired Communication

2026

BSIBSI Sistem ini diimplementasikan sebagai aplikasi ramah pengguna secara real-time. Meskipun akurasi tinggi dicapai, potensi overfitting akibat dataset terkontrolSistem ini diimplementasikan sebagai aplikasi ramah pengguna secara real-time. Meskipun akurasi tinggi dicapai, potensi overfitting akibat dataset terkontrol

JURIS Penerapan Na ve Bayes Berbasis SMOTE Dan Decision Tree Untuk Analisis Sentimen Timnas Indonesia

2026

BSIBSI Sebanyak 300 komentar dikumpulkan dari akun resmi Timnas Indonesia menggunakan teknik data scraping. Data tersebut kemudian melalui proses pembersihanSebanyak 300 komentar dikumpulkan dari akun resmi Timnas Indonesia menggunakan teknik data scraping. Data tersebut kemudian melalui proses pembersihan

JURIS Sistem Informasi Geografis Desa Kaputihan Implementasi dan Pengelolaan Wilayah dengan Metode Waterfall

2026

BSIBSI Namun, aplikasi masih memiliki keterbatasan pada data RT/RW, keterangan kegiatan, dan kategori bangunan yang statis. Perbaikan di masa depan dianjurkanNamun, aplikasi masih memiliki keterbatasan pada data RT/RW, keterangan kegiatan, dan kategori bangunan yang statis. Perbaikan di masa depan dianjurkan

JURIS Klasifikasi Diagnosis Penyakit Diabetes Menggunakan Algoritma C4 5

2026

BSIBSI Kesehatan memiliki peranan yang sangat penting untuk menunjang kehidupan manusia, dengan memiliki kesehatan yang baik, manusia dapat melakukan aktifitasKesehatan memiliki peranan yang sangat penting untuk menunjang kehidupan manusia, dengan memiliki kesehatan yang baik, manusia dapat melakukan aktifitas

2025

BSIBSI Sistem ini diharapkan menjadi solusi terhadap permasalahan absensi manual dan dapat dikembangkan menjadi sistem informasi akademik terpadu. PenelitianSistem ini diharapkan menjadi solusi terhadap permasalahan absensi manual dan dapat dikembangkan menjadi sistem informasi akademik terpadu. Penelitian

2025

BSIBSI Penelitian ini sukses dalam merancang dan mengimplementasikan prototipe sistem penyiraman otomatis untuk tanaman cabai, yang mengaplikasikan metode fuzzyPenelitian ini sukses dalam merancang dan mengimplementasikan prototipe sistem penyiraman otomatis untuk tanaman cabai, yang mengaplikasikan metode fuzzy

2024

USMUSM Pada proses pengujian, hasil terbaik adalah arsitektur 12-10-1 dengan tingkat akurasi 98,704%. Berdasarkan hasil tersebut dapat dikatakan bahwa jaringanPada proses pengujian, hasil terbaik adalah arsitektur 12-10-1 dengan tingkat akurasi 98,704%. Berdasarkan hasil tersebut dapat dikatakan bahwa jaringan

Useful /

2026

BSIBSI Salah satu aspek terpenting yang menentukan kualitas sebuah website adalah usability atau kegunaan. Evaluasi terhadap kegunaan dan efektivitas websiteSalah satu aspek terpenting yang menentukan kualitas sebuah website adalah usability atau kegunaan. Evaluasi terhadap kegunaan dan efektivitas website

2026

BSIBSI Di beberapa pondok pesantren proses penerimaan santri baru sering kali dilakukan secara manual, sehingga rentan terhadap kesalahan data dan penilaian subjektif,Di beberapa pondok pesantren proses penerimaan santri baru sering kali dilakukan secara manual, sehingga rentan terhadap kesalahan data dan penilaian subjektif,

2025

BSIBSI Dari sisi efisiensi komputasi, pendekatan berbasis CSA juga mengurangi ketergantungan pada pengalaman pengguna dan mempercepat proses tuning tanpa mengorbankanDari sisi efisiensi komputasi, pendekatan berbasis CSA juga mengurangi ketergantungan pada pengalaman pengguna dan mempercepat proses tuning tanpa mengorbankan

2025

IJCISIJCIS Nilai nominal tunggakan menurun drastis dari Rp 181.969 205 205, menunjukkan peningkatan arus kas dan kepatuhan pelanggan. Pengurangan biaya operasional,Nilai nominal tunggakan menurun drastis dari Rp 181.969 205 205, menunjukkan peningkatan arus kas dan kepatuhan pelanggan. Pengurangan biaya operasional,