Penerapan Bi LSTM Untuk Named Entity Recognition Pada Teks Bahasa Indonesia

Akmal Hisyam Pradhana; Erna Daniati; Muhammad Najibulloh Muzaki

Publisher

SUBSETSUBSET

Journal The Indonesian Journal of Computer Science Research Abstract

Abstraksi. Penelitian ini bertujuan untuk membangun dan mengevaluasi model Named Entity Recognition (NER) berbasis arsitektur Bidirectional Long Short-Term Memory (Bi-LSTM) yang mampu mengenali entitas secara otomatis dalam teks berbahasa Indonesia. Urgensi penelitian ini terletak pada masih minimnya sistem NER yang efektif untuk bahasa Indonesia, terutama pada teks non-formal yang memiliki struktur dan kosakata unik. Permasalahan utama yang diangkat adalah rendahnya akurasi ekstraksi entitas akibat keterbatasan model-model NER sebelumnya dalam memahami konteks bahasa Indonesia yang kompleks dan tidak baku. Data dikumpulkan dari korpus teks Indonesia yang telah dianotasi format BIO (Beginning-Inside-Outside) dan diklasifikasikan dalam jenis entitas seperti Person, Location, Organization, Quantity, dan Time. Proses melibatkan preprocessing (tokenisasi, pelabelan BIO, dan padding), pembangunan arsitektur Bi-LSTM, pelatihan model teknik train-test split (80:20), serta evaluasi menggunakan metrik Precision, Recall, F1-Score, dan confusion matrix. Hasil penelitian menunjukkan model Bi-LSTM berhasil mencapai akurasi keseluruhan sebesar 99% dan F1-Score sebesar 0.99, dengan performa terbaik pada entitas ORGANIZATION dan PERSON. Penelitian ini berkontribusi pada pengembangan NER berbasis budaya lokal serta potensial diterapkan dalam pendidikan, pelestarian budaya, dan pencarian informasi kontekstual berbahasa Indonesia.

Conclusion

Penelitian ini berhasil membangun model NER berbasis Bi-LSTM yang mencapai akurasi tinggi dalam mengenali entitas utama seperti ORGANIZATION dan PERSON pada teks Bahasa Indonesia.Namun, model masih mengalami kesulitan pada entitas minor seperti TIME dan QUANTITY akibat ketidakseimbangan data serta transisi label BIO.Oleh karena itu, disarankan penelitian lanjutan menggunakan teknik penyeimbangan data, mengintegrasikan arsitektur BiLSTM‑CRF atau model pra‑latih seperti BERT, serta memperluas variasi dataset regional.

Future Research

Penelitian selanjutnya dapat menyelidiki penggunaan teknik penyeimbangan data berbasis generative adversarial networks (GAN) untuk menghasilkan contoh sintetik entitas minor seperti TIME dan QUANTITY, sehingga mengurangi bias kelas dan meningkatkan kemampuan model dalam mengenali entitas yang jarang muncul. Selain itu, perlu dikembangkan model hybrid yang menggabungkan arsitektur BiLSTM‑CRF dengan pretrained IndoBERT atau model BERT yang telah disesuaikan untuk Bahasa Indonesia, guna memanfaatkan kemampuan representasi semantik yang lebih dalam serta memperbaiki transisi label BIO pada teks naratif. Selanjutnya, penting untuk melakukan evaluasi lintas‑domain dengan membangun dataset multiregional yang mencakup variasi dialek, kosakata lokal, dan gaya penulisan dari berbagai daerah di Indonesia, sehingga dapat menguji generalisasi model serta mengidentifikasi kebutuhan adaptasi tambahan untuk bahasa yang beragam. Ketiga arah penelitian ini diharapkan dapat memperkuat keandalan sistem NER pada teks non‑formal, meningkatkan akurasi pada entitas minor, dan memperluas aplikasi teknologi NLP dalam konteks budaya Indonesia. Hasilnya diharapkan dapat menjadi dasar bagi pengembangan aplikasi praktis seperti sistem pencarian informasi budaya dan asisten virtual berbahasa Indonesia.

References

Download Read online Download

Metadata

File size	503.61 KB
Pages	11
DMCA	Report

Related /

JURIS Exploring the Role of Artificial Intelligence in Forensic Auditing A Comparative Study between Developed and Developing Economies

2026

BIARJOURNALBIARJOURNAL Studi ini memberikan implikasi praktis bagi pembuat kebijakan, regulator, dan badan profesional dengan menawarkan rekomendasi untuk memperkuat kapasitasStudi ini memberikan implikasi praktis bagi pembuat kebijakan, regulator, dan badan profesional dengan menawarkan rekomendasi untuk memperkuat kapasitas

JURIS Enhancing rice plant disease detection through transfer learning and image segmentation with YOLOv11

2026

STTMCILEUNGSISTTMCILEUNGSI Model ini mengintegrasikan deteksi objek dan segmentasi instans, dilatih pada lebih dari 6. 000 gambar yang telah diberi label dengan enam kategori (limaModel ini mengintegrasikan deteksi objek dan segmentasi instans, dilatih pada lebih dari 6. 000 gambar yang telah diberi label dengan enam kategori (lima

JURIS Analisis Kinerja Algoritma K Nearest Neighbor Dan Random Forest Untuk Deteksi Serangan Pada Jaringan Perangkat IoT

2025

UNAMAUNAMA Tahapan metode meliputi data preprocessing, data cleaning, label encoding, setelah itu dilakukan pelatihan model dan evaluasi menggunakan metrik accuracy,Tahapan metode meliputi data preprocessing, data cleaning, label encoding, setelah itu dilakukan pelatihan model dan evaluasi menggunakan metrik accuracy,

JURIS Prototype Sistem Peringatan Dini Kebocoran Gas LPG dan Deteksi Api Berbasis Telegram Menggunakan Esp8266

2025

DHARMAWACANADHARMAWACANA Sistem diuji pada Kedai Rumalam, sebuah UKM kuliner yang belum memiliki sistem keamanan gas. Hasil pengujian menunjukkan bahwa sistem mampu mendeteksiSistem diuji pada Kedai Rumalam, sebuah UKM kuliner yang belum memiliki sistem keamanan gas. Hasil pengujian menunjukkan bahwa sistem mampu mendeteksi

JURIS Rancang Bangun Prototype Face Recognition Berbasis YOLO11 dengan Menggunakan Raspberry Pi

2025

UNJUNJ 6%, dan F1-Score sebesar 94%. Meskipun demikian, performa identifikasi rentan terhadap kondisi pencahayaan backlight, motion blur, dan pose wajah yang6%, dan F1-Score sebesar 94%. Meskipun demikian, performa identifikasi rentan terhadap kondisi pencahayaan backlight, motion blur, dan pose wajah yang

2025

UNJUNJ Dengan memanfaatkan teknologi IoT, perangkat pendeteksi jatuh ini dapat memberikan notifikasi secara otomatis melalui aplikasi Telegram atau pesan singkatDengan memanfaatkan teknologi IoT, perangkat pendeteksi jatuh ini dapat memberikan notifikasi secara otomatis melalui aplikasi Telegram atau pesan singkat

2025

STMIK BANJARBARUSTMIK BANJARBARU Temuan ini menunjukkan bahwa KNN lebih efektif untuk mendeteksi kecenderungan FoMO berbasis data numerik dan berpotensi mendukung pengembangan intervensiTemuan ini menunjukkan bahwa KNN lebih efektif untuk mendeteksi kecenderungan FoMO berbasis data numerik dan berpotensi mendukung pengembangan intervensi

2025

YRPIPKUYRPIPKU Model random forest dengan akurasi tinggi dan ketahanan terhadap data noise memberikan gambaran komprehensif tentang kesehatan mesin melalui integrasiModel random forest dengan akurasi tinggi dan ketahanan terhadap data noise memberikan gambaran komprehensif tentang kesehatan mesin melalui integrasi

Useful /

2026

IAIN GORONTALOIAIN GORONTALO Penelitian menunjukkan bahwa hadist tentang ancaman bagi hakim yang tidak adil memiliki sanad yang shahih dan matan yang terhindar dari syaz serta illat,Penelitian menunjukkan bahwa hadist tentang ancaman bagi hakim yang tidak adil memiliki sanad yang shahih dan matan yang terhindar dari syaz serta illat,

2025

PERBANASPERBANAS In conclusion, this research demonstrates that viral marketing significantly influences destination image and travel intentions. Successful viral campaignsIn conclusion, this research demonstrates that viral marketing significantly influences destination image and travel intentions. Successful viral campaigns

2023

IAIN GORONTALOIAIN GORONTALO Kata sirri berasal dari bahasa arab yang berarti rahasia atau ( secret merriage ). kita sering mendengar istilah nikah siri terutama dikalangan pejabatKata sirri berasal dari bahasa arab yang berarti rahasia atau ( secret merriage ). kita sering mendengar istilah nikah siri terutama dikalangan pejabat

2023

IAIN GORONTALOIAIN GORONTALO Penerapan hadis ini tidak hanya terbatas pada aspek individual, tetapi juga mencakup tanggung jawab komunal dan memiliki cakupan yang universal, berlakuPenerapan hadis ini tidak hanya terbatas pada aspek individual, tetapi juga mencakup tanggung jawab komunal dan memiliki cakupan yang universal, berlaku