UADUAD

Jurnal Sarjana Teknik Informatika (E-Journal)Jurnal Sarjana Teknik Informatika (E-Journal)

Plagiarisme menjadi tantangan serius dalam lingkungan akademik karena ketersediaan konten digital yang mudah diakses. Cara deteksi plagiarisme yang biasa digunakan, yaitu dengan membandingkan kalimat secara langsung, sering kali bisa dihindari dengan cara mengubah kalimat atau melakukan perubahan kecil pada teks. Penelitian ini bertujuan membuat sistem deteksi plagiarisme yang lebih baik dengan menggunakan algoritma Doc2Vec dan HDBSCAN untuk mengelompokkan dokumen. Metode ini bekerja dengan mengubah dokumen menjadi bentuk vektor yang memiliki makna yang dalam menggunakan Doc2Vec, kemudian mengelompokkan dokumen yang memiliki konten serupa dengan HDBSCAN. Kelebihan HDBSCAN adalah mampu mengklasifikasikan dokumen asli sebagai data yang tidak relevan, sehingga meningkatkan ketepatan hasil deteksi. Uji coba dilakukan pada data esai siswa dan menunjukkan bahwa pendekatan ini mampu mengelompokkan dokumen dengan isi yang mirip, dengan skor Silhouette sebesar 0,6653 yang menunjukkan pemisahan kelompok yang baik. Penelitian ini berkontribusi dalam menyediakan alat deteksi plagiarisme yang lebih andal dan bernuansa, mampu mendeteksi kesamaan ide, bukan hanya kata.

Penelitian ini berhasil menunjukkan bahwa integrasi metode Doc2Vec dan HDBSCAN efektif untuk deteksi plagiarisme semantik.Dengan mengelompokkan dokumen berdasarkan kemiripan makna, pendekatan ini secara akurat mengidentifikasi dokumen yang terindikasi plagiat, yang ditunjukkan oleh visualisasi UMAP dan skor Silhouette sebesar 0,6653.Kontribusi utama penelitian ini adalah menawarkan kerangka kerja machine learning yang lebih akurat, melampaui metode pencocokan kata tradisional, dan menyediakan alat praktis bagi pendidik untuk menjaga integritas akademik.Meskipun efektif, penelitian ini memiliki keterbatasan karena diuji pada kumpulan data yang relatif kecil, yang membatasi generalisasi temuan.Oleh karena itu, penelitian di masa depan disarankan untuk mengeksplorasi penggunaan embedding yang lebih modern seperti BERT, memvalidasi model pada kumpulan data yang lebih besar, dan mengembangkan pendekatan hibrid untuk meningkatkan akurasi deteksi.

Untuk meningkatkan akurasi deteksi plagiarisme, penelitian selanjutnya dapat mengeksplorasi penggunaan model embedding yang lebih modern seperti BERT atau GPT, yang dikenal mampu menangkap representasi kontekstual yang lebih kaya. Selain itu, pengujian pada korpus multi-bahasa atau dokumen dengan format yang lebih kompleks juga bisa menjadi area pengembangan di masa depan. Penelitian juga dapat mengembangkan pendekatan hibrid yang menggabungkan Doc2Vec dengan metode embedding lainnya untuk meningkatkan akurasi deteksi plagiarisme.

  1. Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning |... journal.universitasbumigora.ac.id/index.php/matrik/article/view/1851Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning journal universitasbumigora ac index php matrik article view 1851
  2. INTEGRASI WORD EMBEDDINGS DAN INVERSE BOOK FREQUENCY DALAM PEMBOBOTAN TERM UNTUK PENINGKATAN PENCARIAN... jurnal.stkippgritulungagung.ac.id/index.php/jipi/article/view/7557INTEGRASI WORD EMBEDDINGS DAN INVERSE BOOK FREQUENCY DALAM PEMBOBOTAN TERM UNTUK PENINGKATAN PENCARIAN jurnal stkippgritulungagung ac index php jipi article view 7557
Read online
File size589.95 KB
Pages9
DMCAReport

Related /

ads-block-test