SUBSETSUBSET

The Indonesian Journal of Computer Science ResearchThe Indonesian Journal of Computer Science Research

Abstraksi. Penelitian ini bertujuan untuk membangun dan mengevaluasi model Named Entity Recognition (NER) berbasis arsitektur Bidirectional Long Short-Term Memory (Bi-LSTM) yang mampu mengenali entitas secara otomatis dalam teks berbahasa Indonesia. Urgensi penelitian ini terletak pada masih minimnya sistem NER yang efektif untuk bahasa Indonesia, terutama pada teks non-formal yang memiliki struktur dan kosakata unik. Permasalahan utama yang diangkat adalah rendahnya akurasi ekstraksi entitas akibat keterbatasan model-model NER sebelumnya dalam memahami konteks bahasa Indonesia yang kompleks dan tidak baku. Data dikumpulkan dari korpus teks Indonesia yang telah dianotasi format BIO (Beginning-Inside-Outside) dan diklasifikasikan dalam jenis entitas seperti Person, Location, Organization, Quantity, dan Time. Proses melibatkan preprocessing (tokenisasi, pelabelan BIO, dan padding), pembangunan arsitektur Bi-LSTM, pelatihan model teknik train-test split (80:20), serta evaluasi menggunakan metrik Precision, Recall, F1-Score, dan confusion matrix. Hasil penelitian menunjukkan model Bi-LSTM berhasil mencapai akurasi keseluruhan sebesar 99% dan F1-Score sebesar 0.99, dengan performa terbaik pada entitas ORGANIZATION dan PERSON. Penelitian ini berkontribusi pada pengembangan NER berbasis budaya lokal serta potensial diterapkan dalam pendidikan, pelestarian budaya, dan pencarian informasi kontekstual berbahasa Indonesia.

Penelitian ini berhasil membangun model NER berbasis Bi-LSTM yang mencapai akurasi tinggi dalam mengenali entitas utama seperti ORGANIZATION dan PERSON pada teks Bahasa Indonesia.Namun, model masih mengalami kesulitan pada entitas minor seperti TIME dan QUANTITY akibat ketidakseimbangan data serta transisi label BIO.Oleh karena itu, disarankan penelitian lanjutan menggunakan teknik penyeimbangan data, mengintegrasikan arsitektur BiLSTM‑CRF atau model pra‑latih seperti BERT, serta memperluas variasi dataset regional.

Penelitian selanjutnya dapat menyelidiki penggunaan teknik penyeimbangan data berbasis generative adversarial networks (GAN) untuk menghasilkan contoh sintetik entitas minor seperti TIME dan QUANTITY, sehingga mengurangi bias kelas dan meningkatkan kemampuan model dalam mengenali entitas yang jarang muncul. Selain itu, perlu dikembangkan model hybrid yang menggabungkan arsitektur BiLSTM‑CRF dengan pretrained IndoBERT atau model BERT yang telah disesuaikan untuk Bahasa Indonesia, guna memanfaatkan kemampuan representasi semantik yang lebih dalam serta memperbaiki transisi label BIO pada teks naratif. Selanjutnya, penting untuk melakukan evaluasi lintas‑domain dengan membangun dataset multiregional yang mencakup variasi dialek, kosakata lokal, dan gaya penulisan dari berbagai daerah di Indonesia, sehingga dapat menguji generalisasi model serta mengidentifikasi kebutuhan adaptasi tambahan untuk bahasa yang beragam. Ketiga arah penelitian ini diharapkan dapat memperkuat keandalan sistem NER pada teks non‑formal, meningkatkan akurasi pada entitas minor, dan memperluas aplikasi teknologi NLP dalam konteks budaya Indonesia. Hasilnya diharapkan dapat menjadi dasar bagi pengembangan aplikasi praktis seperti sistem pencarian informasi budaya dan asisten virtual berbahasa Indonesia.

  1. End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF - ACL Anthology. end sequence labeling... doi.org/10.18653/v1/P16-1101End to end Sequence Labeling via Bi directional LSTM CNNs CRF ACL Anthology end sequence labeling doi 10 18653 v1 P16 1101
  2. Aksara: Jurnal Ilmu Pendidikan Nonformal. aksara jurnal ilmu pendidikan nonformal issn print peer reviewed... ejurnal.pps.ung.ac.id/index.php/AksaraAksara Jurnal Ilmu Pendidikan Nonformal aksara jurnal ilmu pendidikan nonformal issn print peer reviewed ejurnal pps ung ac index php Aksara
  3. Scaling Within Document Coreference to Long Texts - ACL Anthology. scaling document coreference long... aclanthology.org/2021.findings-acl.343Scaling Within Document Coreference to Long Texts ACL Anthology scaling document coreference long aclanthology 2021 findings acl 343
  4. Indonesian Folk Narratives: On the Interstices of National.... indonesian folk narratives interstices... doi.org/10.2478/jef-2022-0006Indonesian Folk Narratives On the Interstices of National indonesian folk narratives interstices doi 10 2478 jef 2022 0006
Read online
File size503.61 KB
Pages11
DMCAReport

Related /

ads-block-test