Comparative Evaluation of Large Language Models for Intent Classification in Indonesian Text

Handri Santoso Markus Karjadi; Markus Karjadi; Handri Santoso

Publisher

POLITANI SAMARINDAPOLITANI SAMARINDA

Journal TEPIAN Abstract

Large Language Models (LLMs) telah menunjukkan potensi besar dalam tugas klasifikasi niat, namun penerapannya dalam lingkungan praktis masih belum banyak diteliti. Penelitian ini menyajikan kerangka evaluasi berbasis informatika untuk membandingkan tiga arsitektur LLM—GPT-Neo (fine‑tuned), Mistral, dan Phi‑2.0 (zero‑shot inference)—pada klasifikasi niat Bahasa Indonesia. Metodologi mengintegrasikan pendekatan informatika klasik seperti stratified sampling, label encoding, evaluasi model menggunakan Scikit-learn, serta pipeline inferensi lokal berbasis REST API melalui kerangka Ollama. Penelitian juga melakukan benchmark efisiensi komputasi dengan memprofil waktu eksekusi pada perangkat keras konsumen. GPT‑Neo mencapai akurasi 100 % setelah fine‑tuning, sementara Mistral dan Phi‑2.0 memperoleh akurasi sekitar 55 % dan 18 % dalam setting zero‑shot. Arsitektur hibrida yang dirancang dalam karya ini menunjukkan bagaimana LLM dapat dievaluasi secara sistematis dan diterapkan dalam alur kerja informatika. Hasil menunjukkan bahwa model ringan yang di‑fine‑tune layak untuk deployment dengan akurasi tinggi, sementara model zero‑shot memungkinkan prototipe cepat pada sumber daya terbatas.

Conclusion

Studi komparatif ini menyoroti perbedaan kemampuan model bahasa besar (LLM) dalam tugas klasifikasi niat pada teks Bahasa Indonesia, dengan membandingkan GPT‑Neo, Mistral, dan Phi‑2.Hasil menunjukkan bahwa fine‑tuning GPT‑Neo menghasilkan akurasi 100 % dengan loss minimal, sedangkan model zero‑shot Mistral dan Phi‑2.0 memperoleh akurasi masing‑masing sekitar 32 % dan 10 %, menandakan perlunya penyesuaian lebih lanjut untuk penggunaan produksi.Penelitian ini merekomendasikan strategi hibrida yang menggabungkan model yang telah di‑fine‑tune untuk akurasi tinggi dan model zero‑shot untuk prototipe cepat, serta menyarankan eksplorasi teknik few‑shot tuning dan optimasi prompt untuk meningkatkan kinerja model zero‑shot.

Future Research

Saran penelitian lanjutan mencakup (1) menyelidiki efektivitas teknik few‑shot tuning pada model zero‑shot seperti Mistral dan Phi‑2.0 untuk meningkatkan akurasi klasifikasi niat dalam bahasa Indonesia, dengan menguji variasi jumlah contoh pelatihan dan strategi pemilihan contoh; (2) mengembangkan metode optimasi prompt berbasis pembelajaran reinforcement yang dapat menyesuaikan instruksi secara otomatis sesuai karakteristik data domain keuangan, sehingga mengurangi kesalahan prediksi pada kelas minoritas; dan (3) memperluas kerangka kerja evaluasi ke bahasa daerah Indonesia serta skenario multibahasa, untuk menilai kemampuan model dalam menangani variasi linguistik dan budaya, serta mengukur dampak penggunaan model hibrida pada perangkat dengan sumber daya sangat terbatas. Penelitian-penelitian ini diharapkan memberikan panduan praktis bagi pengembang sistem AI di sektor fintech yang beroperasi di lingkungan dengan keterbatasan data dan komputasi, sekaligus memperkuat pemahaman akademik tentang adaptasi LLM dalam konteks multibahasa rendah‑sumber.

References

Download Read online Download

Metadata

File size	423.47 KB
Pages	9
DMCA	Report

Related /

JURIS Improving Teacher Performance through the Development of an Integrated Quality Assurance System Based on Total Quality Management TQM

2025

UNISSULAUNISSULA Pendekatan penelitian yang digunakan adalah Research and Development (R&D) dengan model pengembangan ADDIE, yang terdiri dari Analysis, Design, Development,Pendekatan penelitian yang digunakan adalah Research and Development (R&D) dengan model pengembangan ADDIE, yang terdiri dari Analysis, Design, Development,

JURIS Optimisation of Network Logs for Fake Bandwidth Classification using CNN

2025

POLITANI SAMARINDAPOLITANI SAMARINDA Mengidentifikasi karakteristik ini memungkinkan sistem pemantauan untuk mengklasifikasikan data jaringan dengan keyakinan tinggi, mendeteksi manipulasiMengidentifikasi karakteristik ini memungkinkan sistem pemantauan untuk mengklasifikasikan data jaringan dengan keyakinan tinggi, mendeteksi manipulasi

JURIS Measuring the quality of STAR websites using the System Usability Scale SUS method

2025

POLITANI SAMARINDAPOLITANI SAMARINDA STAR Unmul dapat diakses oleh dosen dan mahasiswa. Keberadaan STAR Unmul yang dapat diakses melalui gadget sangat membantu mahasiswa dalam proses perkuliahan.STAR Unmul dapat diakses oleh dosen dan mahasiswa. Keberadaan STAR Unmul yang dapat diakses melalui gadget sangat membantu mahasiswa dalam proses perkuliahan.

JURIS Implementation of A A Star Pathfinding Algorithm in 3D Isometric Projection Game Survival Horror Rabies Outbreak

2025

POLITANI SAMARINDAPOLITANI SAMARINDA Penelitian ini berhasil mengembangkan dan menerapkan Survival Horror. Rabies Outbreak, sebuah permainan edukatif yang menggabungkan Algoritma A* (A Star)Penelitian ini berhasil mengembangkan dan menerapkan Survival Horror. Rabies Outbreak, sebuah permainan edukatif yang menggabungkan Algoritma A* (A Star)

JURIS Implementation of Web Based Teaching Media as an Effort to Utilize Digital Technology in Learning

2025

BALAIPUBLIKASIBALAIPUBLIKASI Dukungan kebijakan serta pelatihan bagi guru dianggap penting untuk mengatasi hambatan tersebut. Penelitian menekankan bahwa penerapan media pembelajaranDukungan kebijakan serta pelatihan bagi guru dianggap penting untuk mengatasi hambatan tersebut. Penelitian menekankan bahwa penerapan media pembelajaran

2025

BALAIPUBLIKASIBALAIPUBLIKASI Untuk mengatasi tantangan ini, diperlukan strategi pengajaran inovatif, interaktif, dan relevan dengan konteks, seperti penggunaan media edukasi dan pendekatanUntuk mengatasi tantangan ini, diperlukan strategi pengajaran inovatif, interaktif, dan relevan dengan konteks, seperti penggunaan media edukasi dan pendekatan

2024

BALAIPUBLIKASIBALAIPUBLIKASI Superkonduktor Bi-2212 telah menarik perhatian signifikan dalam beberapa tahun terakhir karena potensi aplikasinya dalam pengembangan kawat dan pita superkonduktor.Superkonduktor Bi-2212 telah menarik perhatian signifikan dalam beberapa tahun terakhir karena potensi aplikasinya dalam pengembangan kawat dan pita superkonduktor.

2022

BUMIGORABUMIGORA Analisis data dilakukan melalui tahapan reduksi data, penyajian data, dan verifikasi serta penarikan kesimpulan. Validitas data diuji menggunakan metodeAnalisis data dilakukan melalui tahapan reduksi data, penyajian data, dan verifikasi serta penarikan kesimpulan. Validitas data diuji menggunakan metode

Useful /

2026

IAI TABAHIAI TABAH Kedua, nilai-nilai karakter religius yang berhasil diinternalisasikan melalui kegiatan-kegiatan tersebut mencakup keimanan dan ketaatan beribadah, kejujuran,Kedua, nilai-nilai karakter religius yang berhasil diinternalisasikan melalui kegiatan-kegiatan tersebut mencakup keimanan dan ketaatan beribadah, kejujuran,

2026

PAPANDAPAPANDA Hal ini menunjukkan bahwa KKM siswa meningkat dengan penerapan model Problem Based Learning, sehingga dapat disimpulkan bahwa penerapan model Problem BasedHal ini menunjukkan bahwa KKM siswa meningkat dengan penerapan model Problem Based Learning, sehingga dapat disimpulkan bahwa penerapan model Problem Based

2025

POLITANI SAMARINDAPOLITANI SAMARINDA Berdasarkan Sistem Informasi Pelayanan dan Manajemen Data Nelayan Berbasis Web dari Dinas Kelautan dan Perikanan Kutai Kartanegara, aplikasi ini dapatBerdasarkan Sistem Informasi Pelayanan dan Manajemen Data Nelayan Berbasis Web dari Dinas Kelautan dan Perikanan Kutai Kartanegara, aplikasi ini dapat

2025

UNISSULAUNISSULA Subjek dalam penelitian ini adalah 40 siswa yang diambil menggunakan metode purposive sampling. Untuk memastikan validitas data, penelitian ini menggunakanSubjek dalam penelitian ini adalah 40 siswa yang diambil menggunakan metode purposive sampling. Untuk memastikan validitas data, penelitian ini menggunakan