UNIDHAUNIDHA

Jurnal Sistem Informasi Dan InformatikaJurnal Sistem Informasi Dan Informatika

Pertumbuhan data secara eksponensial dalam era digital telah mendorong kebutuhan akan metode analisis yang mampu menangani volume, kecepatan, dan keragaman data dalam lingkungan Big Data. Penelitian ini mengkaji penerapan metode Agglomerative Hierarchical Clustering (AHC) sebagai pendekatan segmentasi data tidak terstruktur. Eksperimen dilaksanakan menggunakan dua dataset: (1) dataset Iris sebanyak 24 sampel dengan 8 atribut morfologi bunga, dan (2) dataset transaksi e-commerce sebanyak 10 record pelanggan dengan 5 atribut perilaku. Metode Ward linkage dipilih berdasarkan kajian literatur yang konsisten menunjukkan keunggulannya. Hasil eksperimen pada dataset Iris membentuk 3 cluster optimal dengan Silhouette Score 0,4196 dan Adjusted Rand Index 0,3635, dengan akurasi pengelompokan 70,83%. Cluster 1 seluruhnya berisi Setosa (6 sampel), Cluster 2 didominasi Versicolor (8 sampel), dan Cluster 3 didominasi Virginica (10 sampel). Pada dataset e-commerce, terbentuk 3 segmen pelanggan: pelanggan premium (frekuensi tinggi, belanja besar), pelanggan menengah, dan pelanggan pasif. Temuan ini konsisten dengan penelitian terdahulu dan memvalidasi efektivitas AHC sebagai metode segmentasi data multidimensi.

Penelitian ini berhasil mengimplementasikan metode Agglomerative Hierarchical Clustering (AHC) dengan Ward linkage untuk segmentasi data pada dua dataset berbeda dalam konteks Big Data.Beberapa kesimpulan utama dapat ditarik dari hasil penelitian ini.Pertama, AHC Ward linkage berhasil membentuk 3 cluster optimal pada dataset Iris (n=24, 8 fitur) dengan Silhouette Score 0,4196 dan Adjusted Rand Index 0,3635.Cluster 1 sepenuhnya berisi spesies Setosa (presisi 100%), sementara Cluster 2 dan Cluster 3 berbagi sampel Versicolor dan Virginica akibat kemiripan morfologi kedua spesies tersebut.Akurasi keseluruhan pengelompokan mencapai 70,83% (17/24 sampel benar).Kedua, implementasi AHC pada dataset e-commerce (n=10, 5 fitur) menghasilkan 3 segmen pelanggan yang terdefinisi jelas tanpa overlap.pelanggan premium dengan rata-rata belanja Rp 5.000 dan frekuensi 13–15 transaksi/bulan, pelanggan menengah dengan belanja Rp 1.000 dan frekuensi 2–4 transaksi/bulan, serta pelanggan pasif dengan belanja di bawah Rp 200.Ketiga, perbandingan dengan 20 referensi menunjukkan bahwa efektivitas AHC dipengaruhi oleh tiga faktor utama.(1) pemilihan metode linkage, di mana Ward linkage secara konsisten unggul.(2) karakteristik intrinsik data, khususnya tingkat separasi antar kelompok.

Berdasarkan hasil penelitian, disarankan untuk melakukan implementasi AHC pada dataset berskala Big Data yang lebih besar (> 100.000 record) menggunakan Apache Spark. Selain itu, penelitian lanjutan dapat dilakukan dengan membandingkan secara sistematis empat metode linkage pada dataset yang sama, serta menambahkan metrik evaluasi Davies-Bouldin Index dan Calinski-Harabasz Index. Terakhir, mengeksplorasi metode hybrid AHC-K-Means dapat menjadi arah penelitian yang menarik untuk memaksimalkan efektivitas segmentasi data dalam lingkungan Big Data.

  1. Pengelompokan Provinsi Di Indonesia Berdasarkan Rasio Penggunaan Gas Rumah Tangga Pada Tahun 2023 Menggunakan... doi.org/10.58794/jekin.v5i1.1232Pengelompokan Provinsi Di Indonesia Berdasarkan Rasio Penggunaan Gas Rumah Tangga Pada Tahun 2023 Menggunakan doi 10 58794 jekin v5i1 1232
Read online
File size673.63 KB
Pages9
DMCAReport

Related /

ads-block-test