PENERBITGOODWOODPENERBITGOODWOOD
Jurnal Ilmu Siber dan Teknologi DigitalJurnal Ilmu Siber dan Teknologi DigitalTwitter merupakan salah satu situs media sosial yang sedang berkembang pesat dengan lebih dari 3,7 juta pengguna aktif mem-posting sekitar 10 juta tweet per hari. Selain digunakan untuk update status, Twitter juga digunakan sebagai platform penyebaran informasi berbagai topik yang cukup akurat dan terpercaya. Pencarian tweet pada aplikasi Twitter dapat menggunakan fitur search dengan mengetikkan kata kunci atau hashtag. Akan tetapi, penggunaan kata kunci atau hashtag terkadang kurang akurat ketika menggunakan kata yang memiliki beberapa arti, sehingga, perlu dilakukan pemberian kategori terhadap tweet berdasarkan konteksnya untuk menghindari adanya bias pada kata yang memiliki beberapa arti serta meningkatkan ranking pada hasil pencarian Google. Pemrosesan bahasa alami (Natural Language Processing - NLP) merupakan cabang dari kecerdasan buatan (Artificial Intelligence) yang memberikan kemampuan pada komputer untuk memahami teks dan kata-kata yang diucapkan dengan cara yang sama seperti yang dapat dilakukan manusia. Klasifikasi teks merupakan salah satu tugas NLP yang dapat memberikan kategori terhadap teks secara otomatis berdasarkan konteks dari teks tersebut dengan bantuan metode machine learning maupun deep learning. Klasifikasi teks menjadi area penelitian yang sering muncul dalam pemrosesan bahasa alami karena meningkatnya jumlah unggahan pengguna di berbagai jejaring sosial. Proses pengklasifikasian teks dapat terbagi menjadi dua jenis, yaitu binary classification dan multiclass classification.
Pada penelitian ini telah dibahas mengenai model klasifikasi teks berbasis multiclass classification pada tweet berbahasa Indonesia yang diberi nama IndoBERT-LSTM.Adapun kesimpulan yang dapat diambil dari penelitian yang telah dilakukan yaitu.Berdasarkan hasil pengujian dan perbandingan, kombinasi model pre-trained IndoBERT dan Long Short-Term Memory (LSTM) terbukti dapat memberikan pemahaman yang lebih baik dalam mengklasifikasikan teks, baik pada dataset yang tidak termodifikasi maupun dataset yang telah termodifikasi.Model IndoBERT-LSTM dengan skenario kombinasi hyperparameter terbaik (batch size sebesar 16, learning rate sebesar 2e-5, dan menggunakan average pooling) berhasil mendapatkan F1-score sebesar 98,90% pada dataset yang tidak termodifikasi (peningkatan 0,70% dari model Word2Vec-LSTM dan 0,40% dari model fine-tuned IndoBERT) dan 92,83% pada dataset yang telah termodifikasi (peningkatan 4,51% dari model Word2Vec-LSTM dan 0,69% dari model fine-tuned IndoBERT).Peningkatan performa model IndoBERT-LSTM dari model fine-tuned IndoBERT tidak terlalu signifikan.Total waktu pelatihan model Word2Vec-LSTM masih jauh lebih cepat, yaitu sekitar 3 menit untuk kedua dataset, dibandingkan dengan model IndoBERT-LSTM yang membutuhkan waktu sekitar 30 dan 45 menit.Akan tetapi, model IndoBERT-LSTM masih lebih cepat jika dibandingkan dengan model fine-tuned IndoBERT yang membutuhkan waktu sekitar 40 dan 55 menit.
Saran untuk penelitian-penelitian berikutnya bisa mengombinasikan IndoBERT dengan metode pengklasifikasi yang lebih bervariasi, seperti Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (Bi-LSTM), atau dengan melatih model pada multiclass dataset berbasis emosi atau sentimen karena memiliki tingkat pemahaman bahasa yang lebih sulit.
- Jurnal RESTI (Rekayasa Sistem dan Teknologi Informas)i. identifying emotion indonesian tweets neural... doi.org/10.29207/RESTI.V5I3.3137Jurnal RESTI Rekayasa Sistem dan Teknologi Informas i identifying emotion indonesian tweets neural doi 10 29207 RESTI V5I3 3137
- Chinese Text Classification Method Based on BERT Word Embedding | Proceedings of the 2020 5th International... dl.acm.org/doi/10.1145/3395260.3395273Chinese Text Classification Method Based on BERT Word Embedding Proceedings of the 2020 5th International dl acm doi 10 1145 3395260 3395273
| File size | 2.19 MB |
| Pages | 28 |
| DMCA | Report |
Related /
PELITABANGSAPELITABANGSA Banjir sering terjadi di wilayah dataran rendah seperti Perumahan Griya Bagasasi, sementara kurangnya sistem pemantauan ketinggian air secara real-timeBanjir sering terjadi di wilayah dataran rendah seperti Perumahan Griya Bagasasi, sementara kurangnya sistem pemantauan ketinggian air secara real-time
NURUL FIKRINURUL FIKRI Global Media Utama Teknologi, melibatkan proses perumusan masalah melalui studi pendahuluan. Selanjutnya proses analisis sistem dimulai dari topologi saatGlobal Media Utama Teknologi, melibatkan proses perumusan masalah melalui studi pendahuluan. Selanjutnya proses analisis sistem dimulai dari topologi saat
UMGUMG Namun, terdapat satu kendala pada fungsi invoice/detail penjualan yang memerlukan perbaikan lebih lanjut. Untuk mengatasi permasalahan tersebut, diperlukanNamun, terdapat satu kendala pada fungsi invoice/detail penjualan yang memerlukan perbaikan lebih lanjut. Untuk mengatasi permasalahan tersebut, diperlukan
UMGUMG Tahapan pada metode Waterfall adalah requirement, design, implementation, testing, maintenance. Kelebihan penggunaan metode tersebut adalah pengerjaanTahapan pada metode Waterfall adalah requirement, design, implementation, testing, maintenance. Kelebihan penggunaan metode tersebut adalah pengerjaan
UNIPOLUNIPOL Dengan adanya sistem Aplikasi Berbasis Website ini, pegawai dapat mengatur waktu absensi secara efektif. Absen yang tepat waktu dapat menjadi indikatorDengan adanya sistem Aplikasi Berbasis Website ini, pegawai dapat mengatur waktu absensi secara efektif. Absen yang tepat waktu dapat menjadi indikator
UIMUIM Namun, pengelolaannya belum optimal karena keterbatasan informasi dan teknologi yang tersedia. Oleh karena itu, perlu adanya sistem informasi desa yangNamun, pengelolaannya belum optimal karena keterbatasan informasi dan teknologi yang tersedia. Oleh karena itu, perlu adanya sistem informasi desa yang
POLTEK STPAULPOLTEK STPAUL Namun, pencatatan data alumni yang masih menggunakan excel, tracer study yang masih menggunakan google form di mana isinya belum disesuaikan dengan templateNamun, pencatatan data alumni yang masih menggunakan excel, tracer study yang masih menggunakan google form di mana isinya belum disesuaikan dengan template
POLTEK STPAULPOLTEK STPAUL Metode penelitian ini menggunakan System Development Life Cycle (SDLC) untuk informasi, mulai dari perencanaan, penentuan kebutuhan, dan mengembangkanMetode penelitian ini menggunakan System Development Life Cycle (SDLC) untuk informasi, mulai dari perencanaan, penentuan kebutuhan, dan mengembangkan
Useful /
PELITABANGSAPELITABANGSA Analisis Hasil Data TSP, Pb, dan Cr. Konsentrasi TSP tertinggi ditemukan pada Titik 3 Laboratorium Jalan Raya 2 saat praktikum sebesar 2,888 mg/m³, sedangkanAnalisis Hasil Data TSP, Pb, dan Cr. Konsentrasi TSP tertinggi ditemukan pada Titik 3 Laboratorium Jalan Raya 2 saat praktikum sebesar 2,888 mg/m³, sedangkan
PELITABANGSAPELITABANGSA Human health encompasses physical and mental well-being, where individuals can perform daily activities. However, with the rising cost of living, manyHuman health encompasses physical and mental well-being, where individuals can perform daily activities. However, with the rising cost of living, many
PCRPCR Dengan demikian, para siswa diharapkan dapat mengaplikasikan pengetahuan ini dalam dunia usaha dan dunia industri (DUDI) yang terus berkembang, serta berkontribusiDengan demikian, para siswa diharapkan dapat mengaplikasikan pengetahuan ini dalam dunia usaha dan dunia industri (DUDI) yang terus berkembang, serta berkontribusi
IAIN SALATIGAIAIN SALATIGA Ekspresi yang diinginkan oleh Khilafatul Muslimin adalah untuk menggantikan negara Pancasila dengan Khilafah Islam. Bagi gerakan ini, model negara PancasilaEkspresi yang diinginkan oleh Khilafatul Muslimin adalah untuk menggantikan negara Pancasila dengan Khilafah Islam. Bagi gerakan ini, model negara Pancasila