POLITANI SAMARINDAPOLITANI SAMARINDA

TEPIANTEPIAN

Large Language Models (LLMs) telah menunjukkan potensi besar dalam tugas klasifikasi niat, namun penerapannya dalam lingkungan praktis masih belum banyak diteliti. Penelitian ini menyajikan kerangka evaluasi berbasis informatika untuk membandingkan tiga arsitektur LLM—GPT-Neo (fine‑tuned), Mistral, dan Phi‑2.0 (zero‑shot inference)—pada klasifikasi niat Bahasa Indonesia. Metodologi mengintegrasikan pendekatan informatika klasik seperti stratified sampling, label encoding, evaluasi model menggunakan Scikit-learn, serta pipeline inferensi lokal berbasis REST API melalui kerangka Ollama. Penelitian juga melakukan benchmark efisiensi komputasi dengan memprofil waktu eksekusi pada perangkat keras konsumen. GPT‑Neo mencapai akurasi 100 % setelah fine‑tuning, sementara Mistral dan Phi‑2.0 memperoleh akurasi sekitar 55 % dan 18 % dalam setting zero‑shot. Arsitektur hibrida yang dirancang dalam karya ini menunjukkan bagaimana LLM dapat dievaluasi secara sistematis dan diterapkan dalam alur kerja informatika. Hasil menunjukkan bahwa model ringan yang di‑fine‑tune layak untuk deployment dengan akurasi tinggi, sementara model zero‑shot memungkinkan prototipe cepat pada sumber daya terbatas.

Studi komparatif ini menyoroti perbedaan kemampuan model bahasa besar (LLM) dalam tugas klasifikasi niat pada teks Bahasa Indonesia, dengan membandingkan GPT‑Neo, Mistral, dan Phi‑2.Hasil menunjukkan bahwa fine‑tuning GPT‑Neo menghasilkan akurasi 100 % dengan loss minimal, sedangkan model zero‑shot Mistral dan Phi‑2.0 memperoleh akurasi masing‑masing sekitar 32 % dan 10 %, menandakan perlunya penyesuaian lebih lanjut untuk penggunaan produksi.Penelitian ini merekomendasikan strategi hibrida yang menggabungkan model yang telah di‑fine‑tune untuk akurasi tinggi dan model zero‑shot untuk prototipe cepat, serta menyarankan eksplorasi teknik few‑shot tuning dan optimasi prompt untuk meningkatkan kinerja model zero‑shot.

Saran penelitian lanjutan mencakup (1) menyelidiki efektivitas teknik few‑shot tuning pada model zero‑shot seperti Mistral dan Phi‑2.0 untuk meningkatkan akurasi klasifikasi niat dalam bahasa Indonesia, dengan menguji variasi jumlah contoh pelatihan dan strategi pemilihan contoh; (2) mengembangkan metode optimasi prompt berbasis pembelajaran reinforcement yang dapat menyesuaikan instruksi secara otomatis sesuai karakteristik data domain keuangan, sehingga mengurangi kesalahan prediksi pada kelas minoritas; dan (3) memperluas kerangka kerja evaluasi ke bahasa daerah Indonesia serta skenario multibahasa, untuk menilai kemampuan model dalam menangani variasi linguistik dan budaya, serta mengukur dampak penggunaan model hibrida pada perangkat dengan sumber daya sangat terbatas. Penelitian-penelitian ini diharapkan memberikan panduan praktis bagi pengembang sistem AI di sektor fintech yang beroperasi di lingkungan dengan keterbatasan data dan komputasi, sekaligus memperkuat pemahaman akademik tentang adaptasi LLM dalam konteks multibahasa rendah‑sumber.

  1. Comparative Evaluation of Large Language Models for Intent Classification in Indonesian Text | TEPIAN.... doi.org/10.51967/tepian.v6i2.3355Comparative Evaluation of Large Language Models for Intent Classification in Indonesian Text TEPIAN doi 10 51967 tepian v6i2 3355
  2. Integrating artificial intelligence in financial services: Enhancements, applications, and future directions.... ace.ewapub.com/article/view/13357Integrating artificial intelligence in financial services Enhancements applications and future directions ace ewapub article view 13357
Read online
File size423.47 KB
Pages9
DMCAReport

Related /

ads-block-test