UADUAD

Jurnal Sarjana Teknik Informatika (E-Journal)Jurnal Sarjana Teknik Informatika (E-Journal)

Large Language Models (LLM) memerlukan metode tambahan untuk optimasi pada tugas spesifik seperti analisis sentimen. Penelitian ini membandingkan performa GPT-3.5 Turbo dan LLaMA-2 melalui penerapan metode Retrieval Augmented Few-shot (RAFS) pada domain pariwisata, dengan skenario Zero-shot sebagai baseline. Hasil eksperimen menunjukkan bahwa LLaMA-2 mengalami peningkatan performa yang jauh lebih signifikan dibandingkan GPT-3.5 Turbo setelah penerapan RAFS. Akurasi LLaMA-2 meningkat dari 0,833 menjadi 0,862, sementara GPT-3.5 Turbo hanya meningkat tipis dari 0,851 menjadi 0,856. Perbedaan substansial terlihat pada metrik kelas minoritas; f1-score GPT-3.5 hanya naik dari 0,555 ke 0,572, sedangkan LLaMA-2 melonjak drastis dari 0,462 ke 0,676 dengan kenaikan presisi dari 0,395 ke 0,844. Secara head-to-head, LLaMA-2 terbukti sedikit lebih unggul dibanding dengan GPT-3.5 Turbo dalam menghasilkan klasifikasi yang tepat dan seimbang. Meskipun GPT-3.5 memiliki baseline awal yang lebih tinggi, LLaMA-2 menunjukkan kemampuan adaptasi dan skalabilitas yang lebih baik terhadap augmentasi konteks. Temuan ini menegaskan bahwa model open-source dengan dukungan RAFS mampu menyamai, bahkan melampaui model proprieter dalam menangani kompleksitas sentimen ulasan pelanggan.

Penelitian ini berhasil mengimplementasikan metode RAFS pada model GPT-3.5 Turbo dan LLaMA-2 untuk analisis sentimen domain pariwisata, yang meningkatkan berbagai metrik performa dibandingkan baseline Zero-shot.Peningkatan pada LLaMA-2 signifikan secara statistik (p‑value = 0,000074), sedangkan pada GPT-3.Secara agregat, LLaMA-2 menunjukkan keunggulan pada akurasi, presisi, dan f1‑score, menjadikannya model yang lebih tepat dan seimbang setelah penerapan RAFS.

Penelitian lanjutan dapat meneliti: (1) Bagaimana performa metode RAFS pada model LLM lain seperti Gemini atau Claude dalam konteks analisis sentimen domain pariwisata, sehingga dapat memperluas generalisasi temuan? (2) Apakah pendekatan augmentasi data dengan teknik synthetis atau generatif dapat mengatasi ketidakseimbangan kelas tanpa menimbulkan overfitting pada model LLaMA-2, khususnya pada kelas minoritas? (3) Bagaimana efek integrasi mekanisme feedback manusia‑in‑the‑loop terhadap kualitas contoh retrieval dalam RAFS, sehingga meningkatkan adaptasi model terhadap variasi bahasa regional. Menjawab tiga pertanyaan tersebut akan memberikan wawasan lebih mendalam tentang skalabilitas, kehandalan, dan adaptabilitas metode RAFS pada berbagai model dan skenario data, serta membantu mengoptimalkan strategi pengolahan sentimen dalam aplikasi dunia nyata.

  1. Stratified K-fold cross validation optimization on machine learning for prediction | Sinkron : jurnal... jurnal.polgan.ac.id/index.php/sinkron/article/view/11792Stratified K fold cross validation optimization on machine learning for prediction Sinkron jurnal jurnal polgan ac index php sinkron article view 11792
  2. Retrieval-Augmented Few-shot Text Classification - ACL Anthology. retrieval augmented few shot text acl... aclanthology.org/2023.findings-emnlp.447Retrieval Augmented Few shot Text Classification ACL Anthology retrieval augmented few shot text acl aclanthology 2023 findings emnlp 447
  3. DOI Name 10.31598 Values. name values index type timestamp data serv crossref email support desc prefix... doi.org/10.31598DOI Name 10 31598 Values name values index type timestamp data serv crossref email support desc prefix doi 10 31598
Read online
File size847.36 KB
Pages11
DMCAReport

Related /

ads-block-test