Pengelompokan Dokumen Menggunakan Algoritma Doc2Vec dan HDBSCAN untuk Deteksi Plagiarisme

metatags generator; Bondan Tiur Mahendra; Budi Santoso; Ratna Nur Tiara Shanty

Publisher

UADUAD

Journal Jurnal Sarjana Teknik Informatika (E-Journal) Abstract

Plagiarisme menjadi tantangan serius dalam lingkungan akademik karena ketersediaan konten digital yang mudah diakses. Cara deteksi plagiarisme yang biasa digunakan, yaitu dengan membandingkan kalimat secara langsung, sering kali bisa dihindari dengan cara mengubah kalimat atau melakukan perubahan kecil pada teks. Penelitian ini bertujuan membuat sistem deteksi plagiarisme yang lebih baik dengan menggunakan algoritma Doc2Vec dan HDBSCAN untuk mengelompokkan dokumen. Metode ini bekerja dengan mengubah dokumen menjadi bentuk vektor yang memiliki makna yang dalam menggunakan Doc2Vec, kemudian mengelompokkan dokumen yang memiliki konten serupa dengan HDBSCAN. Kelebihan HDBSCAN adalah mampu mengklasifikasikan dokumen asli sebagai data yang tidak relevan, sehingga meningkatkan ketepatan hasil deteksi. Uji coba dilakukan pada data esai siswa dan menunjukkan bahwa pendekatan ini mampu mengelompokkan dokumen dengan isi yang mirip, dengan skor Silhouette sebesar 0,6653 yang menunjukkan pemisahan kelompok yang baik. Penelitian ini berkontribusi dalam menyediakan alat deteksi plagiarisme yang lebih andal dan bernuansa, mampu mendeteksi kesamaan ide, bukan hanya kata.

Conclusion

Penelitian ini berhasil menunjukkan bahwa integrasi metode Doc2Vec dan HDBSCAN efektif untuk deteksi plagiarisme semantik.Dengan mengelompokkan dokumen berdasarkan kemiripan makna, pendekatan ini secara akurat mengidentifikasi dokumen yang terindikasi plagiat, yang ditunjukkan oleh visualisasi UMAP dan skor Silhouette sebesar 0,6653.Kontribusi utama penelitian ini adalah menawarkan kerangka kerja machine learning yang lebih akurat, melampaui metode pencocokan kata tradisional, dan menyediakan alat praktis bagi pendidik untuk menjaga integritas akademik.Meskipun efektif, penelitian ini memiliki keterbatasan karena diuji pada kumpulan data yang relatif kecil, yang membatasi generalisasi temuan.Oleh karena itu, penelitian di masa depan disarankan untuk mengeksplorasi penggunaan embedding yang lebih modern seperti BERT, memvalidasi model pada kumpulan data yang lebih besar, dan mengembangkan pendekatan hibrid untuk meningkatkan akurasi deteksi.

Future Research

Untuk meningkatkan akurasi deteksi plagiarisme, penelitian selanjutnya dapat mengeksplorasi penggunaan model embedding yang lebih modern seperti BERT atau GPT, yang dikenal mampu menangkap representasi kontekstual yang lebih kaya. Selain itu, pengujian pada korpus multi-bahasa atau dokumen dengan format yang lebih kompleks juga bisa menjadi area pengembangan di masa depan. Penelitian juga dapat mengembangkan pendekatan hibrid yang menggabungkan Doc2Vec dengan metode embedding lainnya untuk meningkatkan akurasi deteksi plagiarisme.

References

Download Read online Download

Metadata

File size	589.95 KB
Pages	9
DMCA	Report

Related /

JURIS AI Writing Tools to Improve Paraphrasing Skills A Systematic Literature Review From 2021 to 2025

2026

JIECRJIECR Namun, penggunaan generatif AI juga menimbulkan masalah etika dan integritas akademik, serta risiko ketergantungan berlebihan yang dapat menurunkan kemampuanNamun, penggunaan generatif AI juga menimbulkan masalah etika dan integritas akademik, serta risiko ketergantungan berlebihan yang dapat menurunkan kemampuan

JURIS Rancang Bangun Alat Pendeteksi Kebocoran Regulator Gas Lpg Via Sms Menggunakan Modul Gsm Dan Sensor Mq 6 Berbasis Arduino Uno

2026

TRI GUNA DHARMATRI GUNA DHARMA Sistem beroperasi dengan komunikasi simplex melalui modul GSM, dimana sinyal dari sensor MQ‑6 memicu pengiriman pesan. Selain itu, motor servo secaraSistem beroperasi dengan komunikasi simplex melalui modul GSM, dimana sinyal dari sensor MQ‑6 memicu pengiriman pesan. Selain itu, motor servo secara

JURIS Diversifikasi Produk Kerajinan Lumpang Desa Bandar Klippa Kabupaten Deli Serdang

2026

UNIPMAUNIPMA Tujuan utama dari kegiatan Pengabdian kepada Masyarakat ini, menyelesaikan permasalahan mitra khususnya pada aspek produksi untuk menghasilkan diversifikasiTujuan utama dari kegiatan Pengabdian kepada Masyarakat ini, menyelesaikan permasalahan mitra khususnya pada aspek produksi untuk menghasilkan diversifikasi

JURIS Rancang Bangun Alat Resusitasi Jantung Paru Portable Berbasis Arduino Uno Atmega 328

2025

UNJUNJ Tujuan dari penelitian ini adalah untuk membuat untuk membantu pertolongan pertama pada orang yang mengalami serangan jantung mendadak dan meminimalisirTujuan dari penelitian ini adalah untuk membuat untuk membantu pertolongan pertama pada orang yang mengalami serangan jantung mendadak dan meminimalisir

JURIS Rancang Bangun Prototipe Alat Penerima Paket Dari Kurir Ekspedisi

2025

USNIUSNI Penelitian ini bertujuan untuk merancang dan membangun prototipe alat penerima paket berbasis Internet of Things (IoT) yang dapat diakses secara real-timePenelitian ini bertujuan untuk merancang dan membangun prototipe alat penerima paket berbasis Internet of Things (IoT) yang dapat diakses secara real-time

2025

USNIUSNI Penelitian ini bertujuan untuk merancang dan membangun alat deteksi kandungan alkohol dalam minuman berbasis mikrokontroler Arduino Uno. Alat ini menggunakanPenelitian ini bertujuan untuk merancang dan membangun alat deteksi kandungan alkohol dalam minuman berbasis mikrokontroler Arduino Uno. Alat ini menggunakan

2024

HOSTJOURNALSHOSTJOURNALS Metode penyortiran secara tradisional yang umum digunakan menggunakan senster dalam ruangan yang gelap atau menggunakan metode rendam air, sehingga memilikiMetode penyortiran secara tradisional yang umum digunakan menggunakan senster dalam ruangan yang gelap atau menggunakan metode rendam air, sehingga memiliki

2023

UMTUMT Teknik analisis penelitian dengan Structural Equation Modeling (SEM). Hasil penelitian membuktikan bahwa background visual complexity, trust dan interactionTeknik analisis penelitian dengan Structural Equation Modeling (SEM). Hasil penelitian membuktikan bahwa background visual complexity, trust dan interaction

Useful /

2026

UADUAD Sebagai pembanding, model Random Forest menunjukkan hasil lebih baik dengan akurasi 86,5% dan F1-score 0,86. Hasil penelitian menunjukkan bahwa kombinasiSebagai pembanding, model Random Forest menunjukkan hasil lebih baik dengan akurasi 86,5% dan F1-score 0,86. Hasil penelitian menunjukkan bahwa kombinasi

2026

UMTUMT Sampel yang diambil sebanyak 96 responden dengan teknik purposive sampling. Metode analisis yang digunakan adalah Analisis Statistik Deskriptif, Uji validitas,Sampel yang diambil sebanyak 96 responden dengan teknik purposive sampling. Metode analisis yang digunakan adalah Analisis Statistik Deskriptif, Uji validitas,

2025

UMTUMT Selanjutnya data yang telah dikumpulkan dianalisis dengan regresi linear berganda. Hasil uji regresi menunjukkan bahwa terdapat pengaruh yang signifikanSelanjutnya data yang telah dikumpulkan dianalisis dengan regresi linear berganda. Hasil uji regresi menunjukkan bahwa terdapat pengaruh yang signifikan

2024

HOSTJOURNALSHOSTJOURNALS Penelitian ini bertujuan untuk menganalisis perbandingan dua metode pengambilan keputusan multi-kriteria, yaitu Multi-Attribute Utility Theory (MAUT) danPenelitian ini bertujuan untuk menganalisis perbandingan dua metode pengambilan keputusan multi-kriteria, yaitu Multi-Attribute Utility Theory (MAUT) dan