Pengklasifikasian Dokumen Teks Bahasa Indonesia berbasis Vektor Space Model dengan menggunakan Metode

Publisher

SAINSSAINS

Journal JIKOMTI : Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi Abstract

Proses klasifikasi dokumen yang manual dalam memahami isi materi dan menentukan kategori membutuhkan waktu yang lama. Terlebih jika dokumen dalam jumlah yang banyak dan jumlah kategori yang cukup beragam serta topik yang diulas memiliki kemiripan makna satu sama lain. Hal ini sangat menyulitkan penggunanya karena dibutuhkan ketelitian dan waktu yang tidak sebentar dalam pengklasifikasian. Untuk menangani hal tersebut diperlukan sebuah model sistem yang dapat mengklasifikasikan dokumen teks sesuai dengan kategorinya. Diawali dengan tahap preprocessing dimana sebuah dokumen dilakukan penyeragaman dan kemudahaan pembacaan yang selanjutnya dilakukan pembobotan teks dan penentuan algoritma yang digunakan dalam proses pengklasifikasian. Metode yang digunakan dalam penelitian ini adalah algoritma k-Nearest Neighbor (k-NN). Metode k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan suatu objek dengan beberapa objek lainnya. Penggunaan metode k-NN akan lebih mudah jika telah menggunakan sebuah fungsi, kebanyakan fungsi yang digunakan adalah fungsi kesamaan cosinus karena k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan antar objek. Namun untuk dapat mengetahui tingkat kemiripan suatu objek dibutuhkan parameter jarak terdekat antara dua data dengan menggunakan Euclidean. Pada penelitian ini menggunakan fungsi koefisien jarak yang menunjukan hubungan terbalik dengan derajat kesamaan dan sering disebut sebagai ukuran ketidaksamaan (distance) akan mempermudah dalam mengukur kesetaraan antar dua data. Sehingga model yang diusulkan pada penelitian ini adalah mengklasifikasikan dokumen teks bahasa Indonesia berbasis Vector Space Model dengan menggunakan metode k-Nearest Neighbor dan Euclidean Distance. Hasil dari penelitian ini menunjukan bahwa klasifikasi menggunakan k-NN dengan menghitung jarak antar vector menggunakan Euclidean Distance menghasilkan ketepatan klasifikasi yang paling baik, dengan nilai Accuracy sebesar 93.2%, Precision sebesar 96.2%, Recall sebesar 95.2% dan F1-Score sebesar 92.6% dari pembandingan 30 dokumen (k=5) dengan masing-masing dokumen uji.

Conclusion

Berdasarkan hasil penelitian dan analisis yang telah dilakukan, dapat disimpulkan bahwa penerapan algoritma k-Nearest Neighbor (k-NN) dan metode Euclidean Distance pada pengklasifikasian dokumen teks berbahasa Indonesia memberikan hasil yang signifikan dan menjanjikan.Beberapa poin penting dari hasil penelitian ini adalah sebagai berikut.Penerapan metode Euclidean Distance dalam mengukur jarak antar dokumen teks terbukti mampu menentukan jarak terdekat secara akurat.Hal ini menjadi elemen penting dalam proses pengklasifikasian karena dokumen dengan jarak terdekat dari dokumen yang sudah terklasifikasi dapat diprediksi dengan tingkat keakuratan yang tinggi.Dari penelitian ini, diperoleh nilai keakuratan yang menunjukkan bahwa metode ini dapat diandalkan dalam menentukan kesamaan antar dokumen dalam ruang vektor.Algoritma k-NN, yang memanfaatkan Vector Space Model (VSM), terbukti memberikan hasil klasifikasi dokumen yang lebih akurat dibandingkan algoritma lain, seperti Naïve Bayes.Dengan keakuratan mencapai 92,6%, k-NN menunjukkan performa unggul dalam mengidentifikasi kedekatan dokumen berdasarkan vektor.Sementara itu, algoritma Naïve Bayes hanya mampu mencapai akurasi sebesar 86,3%, yang menunjukkan perbedaan kinerja yang cukup signifikan antara kedua pendekatan tersebut.Representasi dokumen teks dalam bentuk Vector Space Model (VSM) memberikan struktur yang jelas untuk memetakan dokumen ke dalam ruang multidimensi.Proses pembobotan menggunakan metode TF-IDF berkontribusi pada keberhasilan pengklasifikasian dengan memberikan bobot yang lebih tinggi pada kata-kata yang memiliki nilai diskriminatif yang besar dalam koleksi dokumen.Hal ini memungkinkan proses klasifikasi menjadi lebih akurat, terutama dalam konteks dokumen berbahasa Indonesia.

Future Research

Untuk mengembangkan penelitian ini lebih lanjut, disarankan untuk meningkatkan jumlah data latih dan melakukan seleksi fitur untuk mengamati pengaruhnya terhadap akurasi. Selain itu, dapat dilakukan eksperimen dengan algoritma lain seperti Naïve Bayes untuk membandingkan kinerjanya dengan k-NN. Penelitian juga dapat diperluas dengan menambahkan variasi atribut dan melakukan cleansing data secara berkala. Dengan demikian, sistem dapat tetap optimal dan efisien dalam skala yang lebih besar.

Download Read online Download

Metadata

File size	287.46 KB
Pages	8
DMCA	Report

Related /

JURIS Teachers Attitude In Conducting Wfh Policy In Jayapura City

2026

HKBPHKBP Penelitian ini melibatkan guru dan dosen sebagai responden. Metode yang digunakan dalam penelitian ini adalah metode kualitatif. Untuk memperoleh data,Penelitian ini melibatkan guru dan dosen sebagai responden. Metode yang digunakan dalam penelitian ini adalah metode kualitatif. Untuk memperoleh data,

JURIS Pengembangan Media Pembelajaran E Modul Berplatform Website Pada Mata Pelajaran DKV Studi Kasus SMKN 1 Driyorejo

2026

UNESAUNESA Dari hasil penelitian yang diperoleh, pengembangan aplikasi media pembelajaran berbasis web dengan model pengembangan media ADDIE dengan arsitektur frameworkDari hasil penelitian yang diperoleh, pengembangan aplikasi media pembelajaran berbasis web dengan model pengembangan media ADDIE dengan arsitektur framework

JURIS Rancang Bangun LMS Media Pelacakan Menggunakan Project Based Learning Untuk Meningkatkan Kompetensi Pemrograman Frontend Developer

2026

UNESAUNESA = 0,000 < 0,05. Simpulan menunjukkan bahwa LMS Aksis efektif meningkatkan kompetensi siswa dalam pemrograman front-end. Disarankan pengembangan lebih lanjut= 0,000 < 0,05. Simpulan menunjukkan bahwa LMS Aksis efektif meningkatkan kompetensi siswa dalam pemrograman front-end. Disarankan pengembangan lebih lanjut

JURIS Pengaruh Pembelajaran Kooperatif terhadap Kreativitas Peserta Didik Studi Implementasi di Lingkungan Sekolah

2025

UNWAHAUNWAHA Tujuan program ini adalah menerapkan variasi metode pembelajaran, guna menciptakan suasana belajar yang tidak membosankan bagi peserta didik dan memotivasiTujuan program ini adalah menerapkan variasi metode pembelajaran, guna menciptakan suasana belajar yang tidak membosankan bagi peserta didik dan memotivasi

JURIS Melestarikan Permainan Tradisional sebagai Kearifan Lokal dalam Menstimulasi Perkembangan Anak Usia Dini di SPS Tunas Mulia Bantar Gebang

2023

STKIPKUSUMANEGARASTKIPKUSUMANEGARA Metode yang digunakan yaitu paradigma kualitatif yang menghasilkan data deskriptif berupa kata-kata yang diperoleh dari berbagai teknik pengumpulan dataMetode yang digunakan yaitu paradigma kualitatif yang menghasilkan data deskriptif berupa kata-kata yang diperoleh dari berbagai teknik pengumpulan data

2023

UNIPMAUNIPMA Kegiatan dilakukan dengan tahapan persiapan, penyuluhan, dan evaluasi. Setelah dilaksanakan kegiatan terdapat peningkatan pemahaman tersebut. Peran ibuKegiatan dilakukan dengan tahapan persiapan, penyuluhan, dan evaluasi. Setelah dilaksanakan kegiatan terdapat peningkatan pemahaman tersebut. Peran ibu

2021

UMCUMC Kompetensi komunikasi lintas budaya pendatang didapat nilai rata-rata 3,91 yang dapat diartikan kompetensi komunikasi lintas budaya warga pendatang BlokKompetensi komunikasi lintas budaya pendatang didapat nilai rata-rata 3,91 yang dapat diartikan kompetensi komunikasi lintas budaya warga pendatang Blok

2021

UMCUMC Guru menunjukkan empati dengan melayani konsultasi, memaklumi keterlambatan tugas, dan menciptakan materi pembelajaran yang menarik. Keberhasilan pembelajaranGuru menunjukkan empati dengan melayani konsultasi, memaklumi keterlambatan tugas, dan menciptakan materi pembelajaran yang menarik. Keberhasilan pembelajaran

Useful /

2022

169169 Rekayasa budaya dalam seni pertunjukan merupakan inovasi dan kreasi yang akan terus berkembang. Teater musikal adalah bentuk teater yang menggabungkanRekayasa budaya dalam seni pertunjukan merupakan inovasi dan kreasi yang akan terus berkembang. Teater musikal adalah bentuk teater yang menggabungkan

2022

169169 92 ini. Dengan berbagai macam fitur baru yang ditawarkan, hasil kajian ini menemukan fungsi fitur yang ditawarkan, khususnya pada fitur subdivision surface92 ini. Dengan berbagai macam fitur baru yang ditawarkan, hasil kajian ini menemukan fungsi fitur yang ditawarkan, khususnya pada fitur subdivision surface

2018

JQWHJQWH Semakin ibu hamil patuh melakukan kunjungan Antenatal Care, maka ibu akan memiliki sikap positif dalam deteksi dini komplikasi kehamilan. Berdasarkan penelitianSemakin ibu hamil patuh melakukan kunjungan Antenatal Care, maka ibu akan memiliki sikap positif dalam deteksi dini komplikasi kehamilan. Berdasarkan penelitian

2018

JQWHJQWH Berdasarkan hasil penelitian ini, diharapkan permainan bubur kertas dapat diterapkan untuk membantu meningkatkan motorik halus anak. Hampir setengah respondenBerdasarkan hasil penelitian ini, diharapkan permainan bubur kertas dapat diterapkan untuk membantu meningkatkan motorik halus anak. Hampir setengah responden