PENERBITGOODWOODPENERBITGOODWOOD

Jurnal Ilmu Siber dan Teknologi DigitalJurnal Ilmu Siber dan Teknologi Digital

Twitter merupakan salah satu situs media sosial yang sedang berkembang pesat dengan lebih dari 3,7 juta pengguna aktif mem-posting sekitar 10 juta tweet per hari. Selain digunakan untuk update status, Twitter juga digunakan sebagai platform penyebaran informasi berbagai topik yang cukup akurat dan terpercaya. Pencarian tweet pada aplikasi Twitter dapat menggunakan fitur search dengan mengetikkan kata kunci atau hashtag. Akan tetapi, penggunaan kata kunci atau hashtag terkadang kurang akurat ketika menggunakan kata yang memiliki beberapa arti, sehingga, perlu dilakukan pemberian kategori terhadap tweet berdasarkan konteksnya untuk menghindari adanya bias pada kata yang memiliki beberapa arti serta meningkatkan ranking pada hasil pencarian Google. Pemrosesan bahasa alami (Natural Language Processing - NLP) merupakan cabang dari kecerdasan buatan (Artificial Intelligence) yang memberikan kemampuan pada komputer untuk memahami teks dan kata-kata yang diucapkan dengan cara yang sama seperti yang dapat dilakukan manusia. Klasifikasi teks merupakan salah satu tugas NLP yang dapat memberikan kategori terhadap teks secara otomatis berdasarkan konteks dari teks tersebut dengan bantuan metode machine learning maupun deep learning. Klasifikasi teks menjadi area penelitian yang sering muncul dalam pemrosesan bahasa alami karena meningkatnya jumlah unggahan pengguna di berbagai jejaring sosial. Proses pengklasifikasian teks dapat terbagi menjadi dua jenis, yaitu binary classification dan multiclass classification.

Pada penelitian ini telah dibahas mengenai model klasifikasi teks berbasis multiclass classification pada tweet berbahasa Indonesia yang diberi nama IndoBERT-LSTM.Adapun kesimpulan yang dapat diambil dari penelitian yang telah dilakukan yaitu.Berdasarkan hasil pengujian dan perbandingan, kombinasi model pre-trained IndoBERT dan Long Short-Term Memory (LSTM) terbukti dapat memberikan pemahaman yang lebih baik dalam mengklasifikasikan teks, baik pada dataset yang tidak termodifikasi maupun dataset yang telah termodifikasi.Model IndoBERT-LSTM dengan skenario kombinasi hyperparameter terbaik (batch size sebesar 16, learning rate sebesar 2e-5, dan menggunakan average pooling) berhasil mendapatkan F1-score sebesar 98,90% pada dataset yang tidak termodifikasi (peningkatan 0,70% dari model Word2Vec-LSTM dan 0,40% dari model fine-tuned IndoBERT) dan 92,83% pada dataset yang telah termodifikasi (peningkatan 4,51% dari model Word2Vec-LSTM dan 0,69% dari model fine-tuned IndoBERT).Peningkatan performa model IndoBERT-LSTM dari model fine-tuned IndoBERT tidak terlalu signifikan.Total waktu pelatihan model Word2Vec-LSTM masih jauh lebih cepat, yaitu sekitar 3 menit untuk kedua dataset, dibandingkan dengan model IndoBERT-LSTM yang membutuhkan waktu sekitar 30 dan 45 menit.Akan tetapi, model IndoBERT-LSTM masih lebih cepat jika dibandingkan dengan model fine-tuned IndoBERT yang membutuhkan waktu sekitar 40 dan 55 menit.

Saran untuk penelitian-penelitian berikutnya bisa mengombinasikan IndoBERT dengan metode pengklasifikasi yang lebih bervariasi, seperti Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (Bi-LSTM), atau dengan melatih model pada multiclass dataset berbasis emosi atau sentimen karena memiliki tingkat pemahaman bahasa yang lebih sulit.

  1. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas)i. identifying emotion indonesian tweets neural... doi.org/10.29207/RESTI.V5I3.3137Jurnal RESTI Rekayasa Sistem dan Teknologi Informas i identifying emotion indonesian tweets neural doi 10 29207 RESTI V5I3 3137
  2. Chinese Text Classification Method Based on BERT Word Embedding | Proceedings of the 2020 5th International... dl.acm.org/doi/10.1145/3395260.3395273Chinese Text Classification Method Based on BERT Word Embedding Proceedings of the 2020 5th International dl acm doi 10 1145 3395260 3395273
Read online
File size2.19 MB
Pages28
DMCAReport

Related /

ads-block-test