Analisis Sentimen Coretax Perbandingan Pelabelan Data Manual Transformers Based dan Lexicon Based pada Performa IndoBERT

Agnia Suci Rizkia; Wufron Wufron; Fikri Fahru Roji

Publisher

IRPIIRPI

Journal MALCOM: Indonesian Journal of Machine Learning and Computer Science Abstract

Analisis sentimen terhadap opini publik di media sosial menjadi tantangan signifikan karena kompleksitas bahasa informal dan volume data yang besar. Penelitian ini bertujuan untuk mengevaluasi pengaruh lima pendekatan pelabelan data manual, IndoBERT, IndoBERTweet, RoBERTa, dan InSet Lexicon terhadap performa model Indonesian Bidirectional Encoder Representations from Transformers (IndoBERT) dalam klasifikasi sentimen terkait isu Coretax. Sebanyak 8.035 tweet dikumpulkan, diproses, dan dilabeli menggunakan masing-masing pendekatan. Dataset hasil pelabelan kemudian digunakan untuk melatih ulang model IndoBERT, yang dievaluasi menggunakan metrik akurasi, F1-score, confusion matrix, dan kurva Receiver Operating Characteristic-Area Under the Curve (ROC-AUC). Hasil menunjukkan bahwa pelabelan otomatis menggunakan Indonesian Bidirectional Encoder Representations from Transformers for Tweet (IndoBERTweet) menghasilkan metrik tertinggi F1-Score (0,9802), tetapi mengalami dominasi kelas netral yang menunjukkan overfitting. Pelabelan manual menghasilkan distribusi kelas yang lebih merata meskipun dengan metrik lebih rendah F1-Score (0,8684), sedangkan Robustly Optimized BERT Pretraining Approach (RoBERTa) menunjukkan keseimbangan terbaik antara performa metrik dan distribusi label. InSet Lexicon dan IndoBERT menunjukkan kecenderungan bias terhadap kelas tertentu. Simpulan dari penelitian ini menegaskan bahwa efektivitas pelabelan tidak hanya ditentukan oleh skor metrik, tetapi juga oleh distribusi kelas yang seimbang untuk menghasilkan model yang adil dan dapat digeneralisasi.

Conclusion

Metode pelabelan data memengaruhi performa model IndoBERT.Pelabelan otomatis dengan IndoBERTweet memiliki metrik tinggi tetapi tidak seimbang, sementara pelabelan manual lebih seimbang.RoBERTa menawarkan keseimbangan terbaik antara akurasi dan distribusi kelas.

Future Research

1. Penelitian lanjutan dapat mengembangkan pendekatan hybrid yang menggabungkan pelabelan manual dan otomatis untuk meningkatkan akurasi sekaligus menjaga keseimbangan kelas. 2. Studi lebih lanjut diperlukan untuk mengatasi masalah ketidakseimbangan kelas dalam metode pelabelan otomatis, terutama untuk data dengan dominasi kelas tertentu. 3. Perbandingan kinerja model transformer lain seperti BERT atau XLNet pada dataset Coretax dapat dilakukan untuk mengevaluasi potensi peningkatan performa yang lebih signifikan.

References

Download Read online Download

Metadata

File size	646.52 KB
Pages	12
DMCA	Report

Related /

JURIS Sistem Pemantauan Tanaman Dalam Pot Indoor Dengan Internet Of Things

2026

FKPTFKPT Data yang diperoleh dari sensor dikirim secara langsung melalui koneksi WiFi ke broker MQTT, ditampilkan pada dashboard Node-RED, dan disimpan di FirebaseData yang diperoleh dari sensor dikirim secara langsung melalui koneksi WiFi ke broker MQTT, ditampilkan pada dashboard Node-RED, dan disimpan di Firebase

JURIS Hubungan Berat Badan Bayi Baru Lahir dengan Kadar Glukosa Ibu saat Persalinan di Rumah Sakit Hj Bunda Halimah Kota Batam Tahun 2022

2026

UNIBAUNIBA Bunda Halimah Kota Batam Tahun 2022. Berdasarkan hasil penelitian ini diperoleh bahwa terdapat hubungan yang bermakna antara kadar glukosa ibu dengan beratBunda Halimah Kota Batam Tahun 2022. Berdasarkan hasil penelitian ini diperoleh bahwa terdapat hubungan yang bermakna antara kadar glukosa ibu dengan berat

JURIS Implementasi Sistem Peringatan Dini Banjir Dengan IoT Menggunakan Interface Berbasis Web Studi Kasus Perumahan Griya Bagasasi

2026

PELITABANGSAPELITABANGSA Hasil implementasi menunjukkan sistem mampu memantau dan menampilkan status ketinggian air dalam tiga level (aman, siaga, awas) melalui dashboard web secaraHasil implementasi menunjukkan sistem mampu memantau dan menampilkan status ketinggian air dalam tiga level (aman, siaga, awas) melalui dashboard web secara

JURIS Effectiveness of Liqcoris Organic Pesticide as Growth Inhibitor of Plant Pathogenic Microorganisms

2025

BIOTROPBIOTROP Duncans advanced test was used at the 5% level to determine the differences among the treatments, i. e. , 00 = control or without PDA pesticide; 10 = PDADuncans advanced test was used at the 5% level to determine the differences among the treatments, i. e. , 00 = control or without PDA pesticide; 10 = PDA

JURIS PENGARUH MEDIA SOSIAL TIKTOK TERHADAP PENGETAHUAN BAHAYA SEKS BEBAS PADA REMAJA KELAS IX SMPN 6 KOTA BATAM

2024

UNIBAUNIBA Remaja dapat belajar tentang seks edukasi dari media sosial, salah satu platform sosial media yang banyak diminati oleh seluruh kalangan masyarakat adalahRemaja dapat belajar tentang seks edukasi dari media sosial, salah satu platform sosial media yang banyak diminati oleh seluruh kalangan masyarakat adalah

2023

POLTEK STPAULPOLTEK STPAUL Kemudahan dalam proses pelaporan telah dibuktikan dengan hasil uji manfaat khususnya pada karakteristik Functional Suitability. Sistem HAMSYS berhasilKemudahan dalam proses pelaporan telah dibuktikan dengan hasil uji manfaat khususnya pada karakteristik Functional Suitability. Sistem HAMSYS berhasil

2023

POLTEK STPAULPOLTEK STPAUL Politeknik Saint Paul Sorong merupakan salah satu perguruan tinggi di Kota Sorong, yang terdiri dari beberapa jurusan dan juga tidak memiliki website sebagaiPoliteknik Saint Paul Sorong merupakan salah satu perguruan tinggi di Kota Sorong, yang terdiri dari beberapa jurusan dan juga tidak memiliki website sebagai

2022

UNIPOLUNIPOL Pengarsipan laporan perjalanan dinas pada kantor Kementerian Agama Kabupaten Soppeng yang dilakukan secara manual menyebabkan efisiensi rendah, risikoPengarsipan laporan perjalanan dinas pada kantor Kementerian Agama Kabupaten Soppeng yang dilakukan secara manual menyebabkan efisiensi rendah, risiko

Useful /

2023

SUMBARPROVSUMBARPROV Provinsi Sumatera Barat mempunyai angka kejahatan yang cukup tinggi tercatat pada tahun 2018 terjadi 13.655 kasus kejahatan. Tingginya angka kejahatanProvinsi Sumatera Barat mempunyai angka kejahatan yang cukup tinggi tercatat pada tahun 2018 terjadi 13.655 kasus kejahatan. Tingginya angka kejahatan

2022

UNSIKAUNSIKA Pembangkit tenaga angin adalah pembangkit listrik yang menggunakan energi terbarukan yaitu energi angin, dengan memanfaatkan energi angin, diharapkan mampuPembangkit tenaga angin adalah pembangkit listrik yang menggunakan energi terbarukan yaitu energi angin, dengan memanfaatkan energi angin, diharapkan mampu

2021

UNIPOLUNIPOL Alat ini dibuat untuk mengubah sistem kerja hand sanitizer yang tadinya manual menjadi otomatis, dan lebih terjaga kebersihannya. Alat ini bekerja padaAlat ini dibuat untuk mengubah sistem kerja hand sanitizer yang tadinya manual menjadi otomatis, dan lebih terjaga kebersihannya. Alat ini bekerja pada

2021

UNSIKAUNSIKA Merck Chemicals and Life Science terdiri dari beberapa departemen yang saling terkait dan secara terpadu berusaha mewujudkan tujuan perusahaan. DikarenakanMerck Chemicals and Life Science terdiri dari beberapa departemen yang saling terkait dan secara terpadu berusaha mewujudkan tujuan perusahaan. Dikarenakan