Perbandingan Performa LLaMA 2 dan GPT 3 5 Turbo Menggunakan Metode Retrieval Augmented Few Shot pada Analisis Sentimen

Anonymous journal.uad.ac.id

Publisher

UADUAD

Journal Jurnal Sarjana Teknik Informatika (E-Journal) Abstract

Large Language Models (LLM) memerlukan metode tambahan untuk optimasi pada tugas spesifik seperti analisis sentimen. Penelitian ini membandingkan performa GPT-3.5 Turbo dan LLaMA-2 melalui penerapan metode Retrieval Augmented Few-shot (RAFS) pada domain pariwisata, dengan skenario Zero-shot sebagai baseline. Hasil eksperimen menunjukkan bahwa LLaMA-2 mengalami peningkatan performa yang jauh lebih signifikan dibandingkan GPT-3.5 Turbo setelah penerapan RAFS. Akurasi LLaMA-2 meningkat dari 0,833 menjadi 0,862, sementara GPT-3.5 Turbo hanya meningkat tipis dari 0,851 menjadi 0,856. Perbedaan substansial terlihat pada metrik kelas minoritas; f1-score GPT-3.5 hanya naik dari 0,555 ke 0,572, sedangkan LLaMA-2 melonjak drastis dari 0,462 ke 0,676 dengan kenaikan presisi dari 0,395 ke 0,844. Secara head-to-head, LLaMA-2 terbukti sedikit lebih unggul dibanding dengan GPT-3.5 Turbo dalam menghasilkan klasifikasi yang tepat dan seimbang. Meskipun GPT-3.5 memiliki baseline awal yang lebih tinggi, LLaMA-2 menunjukkan kemampuan adaptasi dan skalabilitas yang lebih baik terhadap augmentasi konteks. Temuan ini menegaskan bahwa model open-source dengan dukungan RAFS mampu menyamai, bahkan melampaui model proprieter dalam menangani kompleksitas sentimen ulasan pelanggan.

Conclusion

Penelitian ini berhasil mengimplementasikan metode RAFS pada model GPT-3.5 Turbo dan LLaMA-2 untuk analisis sentimen domain pariwisata, yang meningkatkan berbagai metrik performa dibandingkan baseline Zero-shot.Peningkatan pada LLaMA-2 signifikan secara statistik (p‑value = 0,000074), sedangkan pada GPT-3.Secara agregat, LLaMA-2 menunjukkan keunggulan pada akurasi, presisi, dan f1‑score, menjadikannya model yang lebih tepat dan seimbang setelah penerapan RAFS.

Future Research

Penelitian lanjutan dapat meneliti: (1) Bagaimana performa metode RAFS pada model LLM lain seperti Gemini atau Claude dalam konteks analisis sentimen domain pariwisata, sehingga dapat memperluas generalisasi temuan? (2) Apakah pendekatan augmentasi data dengan teknik synthetis atau generatif dapat mengatasi ketidakseimbangan kelas tanpa menimbulkan overfitting pada model LLaMA-2, khususnya pada kelas minoritas? (3) Bagaimana efek integrasi mekanisme feedback manusia‑in‑the‑loop terhadap kualitas contoh retrieval dalam RAFS, sehingga meningkatkan adaptasi model terhadap variasi bahasa regional. Menjawab tiga pertanyaan tersebut akan memberikan wawasan lebih mendalam tentang skalabilitas, kehandalan, dan adaptabilitas metode RAFS pada berbagai model dan skenario data, serta membantu mengoptimalkan strategi pengolahan sentimen dalam aplikasi dunia nyata.

References

Download Read online Download

Metadata

File size	847.36 KB
Pages	11
DMCA	Report

Related /

JURIS KEDUDUKAN KREDITOR PEMEGANG HAK JAMINAN TERKAIT MUSNAHNYA OBJEK JAMINAN RESI GUDANG

2026

UMDUMD Hasil penelitian ini menunjukkan kedudukan kreditor pemegang hak jaminan resi gudang setelah musnahnya objek jaminan tidak lagi sebagai kreditor preferenHasil penelitian ini menunjukkan kedudukan kreditor pemegang hak jaminan resi gudang setelah musnahnya objek jaminan tidak lagi sebagai kreditor preferen

JURIS Designing A Web Based Light Novel Application With An Llm Powered Chatbot Recommendation System Using Scrum Methodology

2026

UMIUMI Hasil dari penelitian ini adalah aplikasi novel ringan berbasis web yang dilengkapi sistem rekomendasi chatbot konversasional. Melalui sistem ini, penggunaHasil dari penelitian ini adalah aplikasi novel ringan berbasis web yang dilengkapi sistem rekomendasi chatbot konversasional. Melalui sistem ini, pengguna

JURIS Performance Evaluation of Fractal Wavelet Packet Transform on Wireless Communication Systems

2026

ITBITB Hasilnya menunjukkan bahwa sistem OWDM dapat mencapai efisiensi spektrum yang lebih tinggi dibandingkan dengan sistem M-ary PSK dasar. Dengan memanfaatkanHasilnya menunjukkan bahwa sistem OWDM dapat mencapai efisiensi spektrum yang lebih tinggi dibandingkan dengan sistem M-ary PSK dasar. Dengan memanfaatkan

JURIS Sistem Informasi Bangun Opini dan Nilai Yakin SiBONY SATRYA Survei Aspirasi Transparansi Rekrutmen Indonesia Yang Adil

2025

IOINFORMATICIOINFORMATIC Sistem berfungsi optimal dengan waktu respon 0,8 detik, meningkatkan efisiensi pengolahan data sebesar 85,7% dan partisipasi publik sebesar 105%, sertaSistem berfungsi optimal dengan waktu respon 0,8 detik, meningkatkan efisiensi pengolahan data sebesar 85,7% dan partisipasi publik sebesar 105%, serta

JURIS Deteksi Banjir Berbasis LLM Large Language Models Menggunakan Data Twitter X Via Chatbot WhatsApp

2025

DCCKOTABUMIDCCKOTABUMI Kontribusi utama dari penelitian ini meliputi inovasi teknologi dengan penggabungan LLM dan TF-IDF, peningkatan kecepatan respon informasi banjir, sertaKontribusi utama dari penelitian ini meliputi inovasi teknologi dengan penggabungan LLM dan TF-IDF, peningkatan kecepatan respon informasi banjir, serta

2025

UNISSULAUNISSULA Subjek validasi terdiri dari 8 ahli, termasuk ahli pendidikan (2 orang), ahli bahasa (2 orang), ahli manajemen (2 orang), dan ahli pondok pesantren (2Subjek validasi terdiri dari 8 ahli, termasuk ahli pendidikan (2 orang), ahli bahasa (2 orang), ahli manajemen (2 orang), dan ahli pondok pesantren (2

2021

SISFOKOMTEKSISFOKOMTEK Penerapan WebGIS penyebaran apotek di Kota Rantauprapat memberikan kemudahan bagi masyarakat dalam menemukan lokasi apotek yang dibutuhkan. PendekatanPenerapan WebGIS penyebaran apotek di Kota Rantauprapat memberikan kemudahan bagi masyarakat dalam menemukan lokasi apotek yang dibutuhkan. Pendekatan

2021

UNISSULAUNISSULA Manusia yang bermartabat adalah manusia, manusia yang hak asasi manusianya diakui, dilindungi dan dijamin. wujud Pancasila harus diterapkan secara mendasarManusia yang bermartabat adalah manusia, manusia yang hak asasi manusianya diakui, dilindungi dan dijamin. wujud Pancasila harus diterapkan secara mendasar

Useful /

2024

WESTSCIENCE PRESSWESTSCIENCE PRESS Temuan ini berkontribusi pada pemahaman yang lebih mendalam tentang dimensi hukum, politik, dan sosial yang membentuk kriteria kelayakan usia dan implikasinyaTemuan ini berkontribusi pada pemahaman yang lebih mendalam tentang dimensi hukum, politik, dan sosial yang membentuk kriteria kelayakan usia dan implikasinya

2023

UMTUMT Berdasarkan hasil analisis data penelitian maka dapat disimpulkan pertama, berdasarkan pengujian hipotesis 1 (H1), background visual complexity berpengaruhBerdasarkan hasil analisis data penelitian maka dapat disimpulkan pertama, berdasarkan pengujian hipotesis 1 (H1), background visual complexity berpengaruh

2023

UNDIRAUNDIRA Mentor dalam kegiatan ini tidak hanya menguasai teori-teori jurnalistik televisi, tetapi juga praktik jurnalistik televisi. Para peserta akan memperolehMentor dalam kegiatan ini tidak hanya menguasai teori-teori jurnalistik televisi, tetapi juga praktik jurnalistik televisi. Para peserta akan memperoleh

2021

SISFOKOMTEKSISFOKOMTEK Kriteria kemiskinan yang dilakukan berdasarkan Penetapan kriteria fakir miskin di Dinas Sosial berupa Sumber mata pencarian, Pengeluaran makanan pokok,Kriteria kemiskinan yang dilakukan berdasarkan Penetapan kriteria fakir miskin di Dinas Sosial berupa Sumber mata pencarian, Pengeluaran makanan pokok,