ITENASITENAS

Rekayasa Hijau : Jurnal Teknologi Ramah LingkunganRekayasa Hijau : Jurnal Teknologi Ramah Lingkungan

Ketidakseimbangan kelas merupakan tantangan dalam klasifikasi sentimen pada data media sosial, yang menyebabkan model klasifikasi menjadi bias terhadap kelas mayoritas dan berkinerja buruk pada kelas minoritas. Penelitian ini mengusulkan pendekatan penyeimbangan data berbasis N-Gram untuk mengatasi masalah tersebut dan meningkatkan performa klasifikasi. Tiga model machine learning, yaitu XGBoost, Random Forest, dan Support Vector Machine (SVM), dievaluasi pada dataset yang tidak seimbang maupun seimbang menggunakan akurasi, presisi, recall, dan F1-score sebagai metrik evaluasi. Hasil eksperimen menunjukkan bahwa penyeimbangan data meningkatkan performa semua model tanpa menurunkan kemampuan generalisasi. SVM mencapai performa terbaik pada dataset seimbang dengan akurasi 0,86, presisi 0,87, recall 0,86, dan F1-score 0,86. XGBoost dan Random Forest juga menunjukkan peningkatan performa yang signifikan setelah penyeimbangan, menunjukkan kemampuan yang lebih baik dalam mendeteksi kelas minoritas. Secara keseluruhan, temuan ini mengonfirmasi bahwa pendekatan penyeimbangan data berbasis N-Gram yang diusulkan efektif dalam mengurangi ketidakseimbangan kelas dan meningkatkan ketahanan serta keandalan model klasifikasi sentimen.

Penelitian ini mengevaluasi efektivitas Indonesia Sentiment Lexicon (INSET), mengatasi ketidakseimbangan kelas menggunakan augmentasi berbasis N-Gram, dan membandingkan performa model klasifikasi machine learning dalam analisis sentimen media sosial berbahasa Indonesia.Temuan menunjukkan bahwa INSET menyediakan mekanisme otomatisasi cepat untuk penandaan sentimen awal melalui penilaian polaritas kata-kata Indonesia.Namun, keterbatasannya terletak pada kemampuan menangkap makna konteks, sarkasme, kritik implisit, dan bahasa spesifik domain, yang menyebabkan akurasi penandaan relatif rendah sebesar 55,89% dibandingkan dengan akurasi validasi manusia sebesar 99,70%.Oleh karena itu, INSET cocok untuk anotasi awal yang cepat tetapi memerlukan validasi manusia untuk dataset sentimen berkualitas tinggi.Selain itu, pendekatan penyeimbangan berbasis N-Gram yang diusulkan berhasil mengatasi ketidakseimbangan kelas dengan menghasilkan sampel kelas minoritas sintetis sambil mempertahankan keragaman teks.Hal ini meningkatkan performa klasifikasi secara signifikan di seluruh model, dengan SVM mencapai hasil terbaik pada data seimbang (Akurasi = 0,86, Presisi = 0,87, Recall = 0,86, F1-score = 0,86).Secara keseluruhan, studi ini mengonfirmasi bahwa menggabungkan penandaan yang divalidasi manusia dan penyeimbangan berbasis N-Gram menghasilkan kerangka kerja klasifikasi sentimen yang lebih andal untuk analisis media sosial berbahasa Indonesia.

Untuk penelitian lanjutan, disarankan untuk mengeksplorasi teknik-teknik augmentasi data yang lebih canggih dan menyelidiki dampak dari berbagai ukuran dataset pada performa model. Selain itu, studi komparatif yang menyeluruh antara berbagai metode penyeimbangan data dan algoritma klasifikasi dapat memberikan wawasan lebih lanjut tentang strategi optimal untuk mengatasi ketidakseimbangan kelas dalam analisis sentimen media sosial. Akhirnya, penelitian lebih lanjut dapat dilakukan untuk mengevaluasi efektivitas pendekatan penyeimbangan data berbasis N-Gram pada domain-domain lain selain media sosial, seperti analisis teks dalam bidang kesehatan atau keuangan.

  1. Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa... jtiik.ub.ac.id/index.php/jtiik/article/view/7325Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa jtiik ub ac index php jtiik article view 7325
  2. Array | Journal of Informatics and Computer Science (JINACS). array journal informatics computer science... ejournal.unesa.ac.id/index.php/jinacs/article/view/39845Array Journal of Informatics and Computer Science JINACS array journal informatics computer science ejournal unesa ac index php jinacs article view 39845
Read online
File size393.1 KB
Pages14
DMCAReport

Related /

ads-block-test