NURISNURIS

Sains Data Jurnal Studi Matematika dan TeknologiSains Data Jurnal Studi Matematika dan Teknologi

Ulasan daring mengenai destinasi wisata pantai di Kabupaten Sumenep merupakan sumber data krusial, namun analisisnya terhambat oleh data yang tidak terstruktur, terutama kesalahan ketik (typo) yang signifikan menurunkan akurasi model. Penelitian ini berhasil mengatasi tantangan tersebut dengan membangun dan mengevaluasi beberapa skenario model analisis sentimen multi-aspek yang akurat menggunakan IndoBERT. Untuk memaksimalkan performa, penelitian ini menguji dampak dari dua inovasi utama yaitu sebuah modul koreksi ejaan cerdas yang mengkombinasikan Damerau-Levenshtein Distance dengan N-Gram, serta teknik teks augmentasi. Dengan kerangka kerja Cross-Industry Standard Process for Data Mining (CRISP-DM), penelitian menerapkan alur kerja sistematis mulai dari pra-pemrosesan hingga fine-tuning model. Hasil evaluasi perbandingan menunjukkan temuan yang menarik, model baseline (tanpa perlakuan pra-pemrosesan lanjutan) justru mencapai kinerja tertinggi dengan akurasi 96.12%. Sementara itu, model yang menggunakan koreksi ejaan dan augmentasi teks menunjukkan performa yang sedikit lebih rendah. Penelitian ini menghasilkan sebuah model yang sangat akurat dari data asli dan memberikan wawasan penting bahwa pada dataset tertentu, peforma model Transformer seperti IndoBERT sudah mampu menangani noise bahasa informal tanpa memerlukan pra-pemrosesan yang kompleks.

Penelitian ini menyimpulkan bahwa model IndoBERT menunjukkan ketangguhan yang sangat tinggi dalam menangani teks ulasan pariwisata berbahasa Indonesia yang informal.Model baseline, tanpa pra-pemrosesan Damerau-Levenshtein Distance dengan N-Gram, mencapai akurasi tertinggi sebesar 96.Penerapan modul koreksi ejaan dan augmentasi teks tidak memberikan peningkatan performa, mengindikasikan bahwa untuk model Transformer yang sudah tangguh, pra-pemrosesan yang kompleks tidak selalu diperlukan.

Penelitian selanjutnya dapat mengeksplorasi penggunaan metode pra-pemrosesan yang lebih ringan dan spesifik untuk konteks bahasa Indonesia informal, seperti normalisasi singkatan dan slang, untuk melihat apakah kombinasi dengan IndoBERT dapat meningkatkan akurasi. Selain itu, studi lebih lanjut dapat dilakukan untuk menguji efektivitas berbagai teknik augmentasi data yang lebih canggih, seperti penggunaan model bahasa generatif untuk menghasilkan data ulasan sintetis yang lebih realistis dan beragam. Terakhir, penelitian dapat diperluas dengan mengintegrasikan analisis sentimen multi-aspek dengan data demografis dan perilaku wisatawan untuk memberikan rekomendasi yang lebih personal dan relevan bagi pengelola destinasi wisata, sehingga dapat meningkatkan pengalaman wisatawan dan efektivitas strategi pemasaran. Penelitian ini diharapkan dapat memberikan kontribusi signifikan dalam pengembangan sistem analisis sentimen yang lebih akurat dan bermanfaat bagi industri pariwisata di Indonesia.

  1. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks - ACL Anthology.... doi.org/10.18653/v1/d19-1670EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks ACL Anthology doi 10 18653 v1 d19 1670
  2. Dampak Pra-pemrosesan Teks pada Akurasi Analisis Sentimen Multi-Aspek Menggunakan IndoBERT | Hibrizi... pub.nuris.ac.id/sainsdata/article/view/301Dampak Pra pemrosesan Teks pada Akurasi Analisis Sentimen Multi Aspek Menggunakan IndoBERT Hibrizi pub nuris ac sainsdata article view 301
  3. A technique for computer detection and correction of spelling errors | Communications of the ACM. technique... doi.org/10.1145/363958.363994A technique for computer detection and correction of spelling errors Communications of the ACM technique doi 10 1145 363958 363994
  4. A Survey of Data Augmentation Approaches for NLP - ACL Anthology. survey data augmentation approaches... aclanthology.org/2021.findings-acl.84A Survey of Data Augmentation Approaches for NLP ACL Anthology survey data augmentation approaches aclanthology 2021 findings acl 84
  5. Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa... jtiik.ub.ac.id/index.php/jtiik/article/view/7325Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa jtiik ub ac index php jtiik article view 7325
Read online
File size487.39 KB
Pages7
DMCAReport

Related /

ads-block-test