IRPIIRPI

MALCOM: Indonesian Journal of Machine Learning and Computer ScienceMALCOM: Indonesian Journal of Machine Learning and Computer Science

Analisis sentimen terhadap opini publik di media sosial menjadi tantangan signifikan karena kompleksitas bahasa informal dan volume data yang besar. Penelitian ini bertujuan untuk mengevaluasi pengaruh lima pendekatan pelabelan data manual, IndoBERT, IndoBERTweet, RoBERTa, dan InSet Lexicon terhadap performa model Indonesian Bidirectional Encoder Representations from Transformers (IndoBERT) dalam klasifikasi sentimen terkait isu Coretax. Sebanyak 8.035 tweet dikumpulkan, diproses, dan dilabeli menggunakan masing-masing pendekatan. Dataset hasil pelabelan kemudian digunakan untuk melatih ulang model IndoBERT, yang dievaluasi menggunakan metrik akurasi, F1-score, confusion matrix, dan kurva Receiver Operating Characteristic-Area Under the Curve (ROC-AUC). Hasil menunjukkan bahwa pelabelan otomatis menggunakan Indonesian Bidirectional Encoder Representations from Transformers for Tweet (IndoBERTweet) menghasilkan metrik tertinggi F1-Score (0,9802), tetapi mengalami dominasi kelas netral yang menunjukkan overfitting. Pelabelan manual menghasilkan distribusi kelas yang lebih merata meskipun dengan metrik lebih rendah F1-Score (0,8684), sedangkan Robustly Optimized BERT Pretraining Approach (RoBERTa) menunjukkan keseimbangan terbaik antara performa metrik dan distribusi label. InSet Lexicon dan IndoBERT menunjukkan kecenderungan bias terhadap kelas tertentu. Simpulan dari penelitian ini menegaskan bahwa efektivitas pelabelan tidak hanya ditentukan oleh skor metrik, tetapi juga oleh distribusi kelas yang seimbang untuk menghasilkan model yang adil dan dapat digeneralisasi.

Metode pelabelan data memengaruhi performa model IndoBERT.Pelabelan otomatis dengan IndoBERTweet memiliki metrik tinggi tetapi tidak seimbang, sementara pelabelan manual lebih seimbang.RoBERTa menawarkan keseimbangan terbaik antara akurasi dan distribusi kelas.

1. Penelitian lanjutan dapat mengembangkan pendekatan hybrid yang menggabungkan pelabelan manual dan otomatis untuk meningkatkan akurasi sekaligus menjaga keseimbangan kelas. 2. Studi lebih lanjut diperlukan untuk mengatasi masalah ketidakseimbangan kelas dalam metode pelabelan otomatis, terutama untuk data dengan dominasi kelas tertentu. 3. Perbandingan kinerja model transformer lain seperti BERT atau XLNet pada dataset Coretax dapat dilakukan untuk mengevaluasi potensi peningkatan performa yang lebih signifikan.

  1. Klasifikasi Sentimen Pada Dataset yang Terbatas Menggunakan Algoritma Convolutional Neural Network |... Doi.Org/10.47065/Bulletincsr.V5i4.613Klasifikasi Sentimen Pada Dataset yang Terbatas Menggunakan Algoritma Convolutional Neural Network Doi Org 10 47065 Bulletincsr V5i4 613
  2. PENERAPAN METODE BERT UNTUK ANALISIS SENTIMEN ULASAN PENGGUNA APLIKASI SEGARI DI GOOGLE PLAY STORE |... doi.org/10.56127/Juit.V4i1.1902PENERAPAN METODE BERT UNTUK ANALISIS SENTIMEN ULASAN PENGGUNA APLIKASI SEGARI DI GOOGLE PLAY STORE doi 10 56127 Juit V4i1 1902
  3. Pengaruh Tahapan Preprocessing Terhadap Model Indobert dan Indobertweet untuk Mendeteksi Emosi pada Komentar... jtiik.ub.ac.id/index.php/jtiik/article/view/8315Pengaruh Tahapan Preprocessing Terhadap Model Indobert dan Indobertweet untuk Mendeteksi Emosi pada Komentar jtiik ub ac index php jtiik article view 8315
  4. Comparative Analysis using Various Performance Metrics in Imbalanced Data for Multi-class Text Classification.... thesai.org/Publications/ViewPaper?Volume=14&Issue=6&Code=IJACSA&SerialNo=116Comparative Analysis using Various Performance Metrics in Imbalanced Data for Multi class Text Classification thesai Publications ViewPaper Volume 14 Issue 6 Code IJACSA SerialNo 116
Read online
File size646.52 KB
Pages12
DMCAReport

Related /

ads-block-test