LAMINTANGLAMINTANG

International Journal of Artificial IntelligenceInternational Journal of Artificial Intelligence

Penelitian ini bertujuan untuk mengevaluasi efektivitas model bahasa Jepang yang besar, ClueAI, yang disesuaikan dengan domain medis, dalam tugas memprediksi teks medis Jepang. Latar belakang penelitian ini adalah keterbatasan model bahasa umum, termasuk model multilingual seperti multilingual BERT, kompleksitas linguistik, dan terminologi khusus dalam teks medis Jepang. Metode penelitian meliputi penyesuaian ulang model ClueAI menggunakan corpus MedNLP, dengan pendekatan tokenisasi berbasis MeCab melalui perpustakaan Fugashi. Evaluasi dilakukan menggunakan metrik perplexity untuk mengukur kemampuan generalisasi model dalam memprediksi teks secara probabilistik. Hasil menunjukkan bahwa ClueAI yang telah disesuaikan dengan domain medis menghasilkan nilai perplexity lebih rendah daripada baseline multilingual BERT, dan lebih mampu memahami konteks dan struktur kalimat teks medis. Tokenisasi berbasis MeCab terbukti berkontribusi secara signifikan dalam meningkatkan akurasi prediksi melalui analisis morfologis yang lebih presisi. Namun, model masih menunjukkan kelemahan dalam menangani struktur sintaksis yang kompleks seperti kalimat pasif dan klausa bersarang. Penelitian ini menyimpulkan bahwa adaptasi domain memberikan peningkatan kinerja, tetapi keterbatasan dalam generalisasi linguistik tetap menjadi tantangan. Disarankan untuk melakukan penelitian lebih lanjut untuk mengeksplorasi model yang lebih sensitif terhadap struktur sintaksis, memperluas variasi corpus medis, dan menerapkan model bahasa Jepang lainnya dalam tugas NLP medis yang lebih luas seperti ekstraksi entitas klinis dan klasifikasi.

Penelitian ini mengevaluasi efektivitas model bahasa Jepang yang besar, ClueAI, yang disesuaikan dengan corpus MedNLP, untuk tugas memprediksi teks medis Jepang.Hasil menunjukkan bahwa ClueAI yang telah disesuaikan dengan domain medis menghasilkan nilai perplexity lebih rendah daripada baseline multilingual BERT, dan lebih mampu memahami konteks dan struktur kalimat teks medis.Tokenisasi berbasis MeCab terbukti meningkatkan akurasi prediksi.Namun, model masih menunjukkan kelemahan dalam menangani struktur sintaksis yang kompleks.Penelitian ini menyimpulkan bahwa adaptasi domain memberikan peningkatan kinerja, tetapi masih ada keterbatasan dalam generalisasi linguistik.Disarankan untuk melakukan penelitian lebih lanjut untuk mengembangkan model yang lebih sensitif terhadap struktur sintaksis, memperluas variasi corpus medis, dan menerapkan model bahasa Jepang lainnya dalam tugas NLP medis yang lebih luas.

Untuk penelitian lanjutan, disarankan untuk mengembangkan model yang lebih sensitif terhadap struktur sintaksis dalam teks medis Jepang. Selain itu, perlu dilakukan upaya untuk memperluas variasi corpus medis, terutama dengan memasukkan lebih banyak teks medis yang kompleks dan beragam. Penerapan model bahasa Jepang lainnya dalam tugas NLP medis yang lebih luas, seperti ekstraksi entitas klinis dan klasifikasi, juga dapat menjadi fokus penelitian selanjutnya. Dengan demikian, penelitian ini dapat berkontribusi pada pengembangan sistem NLP yang lebih efektif dan akurat dalam konteks medis Jepang, yang pada akhirnya dapat mendukung pengambilan keputusan klinis dan hasil pasien yang lebih baik.

  1. Evaluation of Perplexity and Syntactic Handling Capabilities of ClueAI Models on Japanese Medical Texts... lamintang.org/journal/index.php/ijai/article/view/749Evaluation of Perplexity and Syntactic Handling Capabilities of ClueAI Models on Japanese Medical Texts lamintang journal index php ijai article view 749
Read online
File size741.72 KB
Pages13
DMCAReport

Related /

ads-block-test