Enhancing OCR Accuracy on Indonesian ID Cards Using Dual Pipeline Tesseract and Post Processing

Rendy Dwi Reksiyano; Syafrial Fachri Pane; Rolly Maulana Awangga

Publisher

UBHARAUBHARA

Journal JEECS (Journal of Electrical Engineering and Computer Sciences) Abstract

Transkripsi data manual dari kartu identitas Indonesia (KTP) masih umum terjadi, menyebabkan inefisiensi dan kesalahan manusia yang mengganggu akurasi data. Sementara itu, teknologi Optical Character Recognition (OCR) seperti Tesseract telah banyak diadopsi. Namun, kinerja pada gambar KTP masih tidak konsisten karena tata letak yang tidak seragam, kontras rendah, dan noise latar belakang. Penelitian ini mengusulkan kerangka kerja OCR dual-pipeline yang dirancang untuk meningkatkan akurasi pengenalan KTP Indonesia dalam kondisi dunia nyata. Pertama, pipeline melakukan segmentasi region statis berdasarkan Region of Interest (ROI) yang predefined, kemudian menggunakan heuristik keyword dinamis untuk melokalisasi teks secara adaptif di seluruh tata letak yang bervariasi. Keluaran dari kedua pipeline digabungkan melalui mekanisme post-processing berbasis voting dan regex, yang mencakup normalisasi karakter dan validasi bidang menggunakan kamus predefined. Eksperimen dilakukan pada 78 sampel KTP yang dianotasi dengan resolusi dan kualitas gambar yang beragam. Evaluasi menggunakan Character Error Rate (CER), Word Error Rate (WER), dan metrik akurasi tingkat bidang menghasilkan rata-rata CER sebesar 69,82%, WER sebesar 80,20%, dan akurasi tingkat karakter sebesar 30,18%. Meskipun kinerja moderat di area teks bebas seperti alamat atau pekerjaan, bidang terstruktur mencapai akurasi di atas 60%. Metode ini berjalan efisien dalam lingkungan CPU-only tanpa memerlukan dataset yang besar, menunjukkan kesesuaiannya dengan pendekatan single-pipeline konvensional, kerangka kerja dual-pipeline yang diusulkan meningkatkan ketahanan di seluruh tata letak dokumen yang heterogen dan kondisi pencahayaan. Temuan ini menunjukkan potensi sistem OCR berbasis aturan ringan untuk digitalisasi e-KYC praktis dan membentuk fondasi untuk mengintegrasikan deteksi tata letak berbasis deep learning dalam penelitian masa depan.

Conclusion

Penelitian ini mengusulkan kerangka kerja OCR dual-pipeline untuk kartu identitas Indonesia (KTP), yang menggabungkan Tesseract OCR dengan segmentasi ROI berbasis struktur, ekstraksi keyword dinamis, dan post-processing berbasis regex.Arsitektur ini dirancang untuk meningkatkan akurasi pengenalan di bawah kondisi pengambilan gambar yang bervariasi yang umum terjadi dalam alur kerja e-KYC.Eksperimen awal yang dilakukan pada dua sampel KTP yang dianotasi mencapai akurasi karakter rata-rata sekitar 96% dan akurasi tingkat bidang 100% pada gambar yang bersih dan berkualitas tinggi.Namun, dataset terbatas ini tidak sepenuhnya mewakili kondisi dunia nyata.Oleh karena itu, eksperimen diperluas ke 78 gambar KTP yang mencakup berbagai kualitas pengambilan gambar (blur, skew, cropped, damaged, dan kartu dengan kontras rendah).Evaluasi berskala besar ini mengungkapkan Character Error Rate (CER) secara keseluruhan sebesar 69,82%, Word Error Rate (WER) sebesar 80,20%, dan rata-rata akurasi tingkat bidang sebesar 30,18%, menunjukkan bahwa kinerja pengenalan menurun secara signifikan pada masukan yang terdegradasi.Meskipun penurunan metrik kuantitatif secara keseluruhan, evaluasi yang diperluas memberikan pemahaman yang lebih jelas tentang kekuatan dan kelemahan sistem.Bidang terstruktur seperti NIK, RT/RW, dan agama mempertahankan akurasi yang relatif lebih tinggi karena pola yang dapat diprediksi dan validasi regex.Sebaliknya, bidang teks bebas seperti nama, alamat, dan pekerjaan lebih rentan terhadap kesalahan yang disebabkan oleh blur, skew, dan cropping yang tidak lengkap.Analisis kesalahan juga menunjukkan bahwa kesalahan klasifikasi yang sering terjadi seperti O↔0, I↔1, S↔5, dan B↔8 berhasil dikurangi oleh aturan pemetaan karakter pada tahap post-processing.Dibandingkan dengan baseline Tesseract single-pipeline konvensional, pendekatan dual-pipeline yang diusulkan menunjukkan ketahanan yang lebih tinggi pada dataset berkualitas campuran dengan memanfaatkan voting dan validasi berbasis aturan untuk memulihkan bidang yang hilang atau tidak selaras.Meskipun sistem OCR berbasis deep learning mungkin mencapai akurasi yang lebih tinggi, desain hybrid berbasis aturan ini tetap menguntungkan untuk implementasi sumber daya rendah dan on-device karena biaya komputasi minimal dan interpretabilitasnya.Penelitian masa depan akan fokus pada tiga arah kunci.perluasan dataset dan kategorisasi ke dalam kelas kualitas gambar (clean, blur, skew, cropped, damaged) untuk evaluasi yang lebih seimbang.integrasi modul deep learning ringan (misalnya deteksi tata letak berbasis MobileNet atau pengelompokan baris teks yang dibantu transformer) untuk melengkapi ekstraksi berbasis aturan.dan generasi data sintetis dan augmentasi untuk mensimulasikan noise, distorsi, dan rotasi untuk generalisasi model yang kuat.

Future Research

Untuk meningkatkan akurasi OCR pada kartu identitas Indonesia (KTP), penelitian selanjutnya dapat mempertimbangkan integrasi modul deep learning ringan, seperti deteksi tata letak berbasis MobileNet atau pengelompokan baris teks yang dibantu transformer, untuk melengkapi ekstraksi berbasis aturan. Selain itu, generasi data sintetis dan augmentasi dapat digunakan untuk mensimulasikan noise, distorsi, dan rotasi, sehingga meningkatkan generalisasi model. Dengan memperluas dataset dan kategorisasi ke dalam kelas kualitas gambar yang berbeda, evaluasi yang lebih seimbang dapat dilakukan, sehingga memberikan pemahaman yang lebih baik tentang kinerja sistem di berbagai kondisi. Dengan demikian, penelitian ini dapat memberikan kontribusi yang signifikan dalam meningkatkan akurasi OCR untuk KTP Indonesia, yang pada akhirnya akan meningkatkan efisiensi dan keandalan digitalisasi e-KYC.

References

Download Read online Download

Metadata

File size	886.95 KB
Pages	9
DMCA	Report

Related /

JURIS Harmonic Performance in Hybrid AC DC Microgrid Connected Bidirectional Converter with LCL Filter

2026

UBHARAUBHARA Dengan menggunakan tenaga surya sebagai sumber daya pada mikrogrid DC dan grid pada mikrogrid AC, sistem ini tidak memerlukan penyimpanan energi. KarenaDengan menggunakan tenaga surya sebagai sumber daya pada mikrogrid DC dan grid pada mikrogrid AC, sistem ini tidak memerlukan penyimpanan energi. Karena

JURIS Pengaruh Inokulasi Bacillus subtilis Terhadap Dinamika Pertumbuhan Vegetatif Tanaman Jagung Manis Pada Tanah Salin Dengan Aplikasi Pupuk NPK Dosis Seragam Di Kabupaten Merauke

2026

UTUUTU Tanah awal memiliki kadar salinitas (NaCl) sebesar 0,8% yang tergolong tinggi. Setiap perlakuan diulang empat kali sehingga diperoleh 28 unit percobaanTanah awal memiliki kadar salinitas (NaCl) sebesar 0,8% yang tergolong tinggi. Setiap perlakuan diulang empat kali sehingga diperoleh 28 unit percobaan

JURIS NilaiAcNilai Keagamaan Dan Sosial Budaya Tradisi Kenduri Dalam Masyarakat Jawa Di Desa Trans Periang Kec Sindang Beliti Ilir Kab Rejang Lebong

2026

IAINSORONGIAINSORONG Penelitian ini mempersembahkan analisis mendalam mengenai nilai-nilai keagamaan dan sosial budaya yang terkandung dalam tradisi kenduri di kalangan masyarakatPenelitian ini mempersembahkan analisis mendalam mengenai nilai-nilai keagamaan dan sosial budaya yang terkandung dalam tradisi kenduri di kalangan masyarakat

2026

UBHARAUBHARA Berdasarkan hasil eksperimen, dapat disimpulkan bahwa peningkatan jumlah tetangga terdekat (nilai k) secara signifikan mempengaruhi akurasi sistem rekomendasiBerdasarkan hasil eksperimen, dapat disimpulkan bahwa peningkatan jumlah tetangga terdekat (nilai k) secara signifikan mempengaruhi akurasi sistem rekomendasi

JURIS Strategy Analysis in the Management and Development of the Al Azqia Shop Business

2026

LPPPIPUBLISHINGLPPPIPUBLISHING Selain itu, Al Azqia Shop belum memanfaatkan alat pemasaran digital atau platform media sosial seperti Instagram, Facebook, dan WhatsApp Business untukSelain itu, Al Azqia Shop belum memanfaatkan alat pemasaran digital atau platform media sosial seperti Instagram, Facebook, dan WhatsApp Business untuk

2025

PIKSIPIKSI Darmawati masih dilakukan secara manual, sehingga sering terjadi antrian panjang, kesalahan pencatatan data, dan keterlambatan pelayanan. Penelitian iniDarmawati masih dilakukan secara manual, sehingga sering terjadi antrian panjang, kesalahan pencatatan data, dan keterlambatan pelayanan. Penelitian ini

2025

UNIVSMUNIVSM Secara umum, hasil penelitian menunjukkan bahwa inovasi teknologi dan manajemen rantai pasok yang terintegrasi mampu menghadirkan keunggulan kompetitif,Secara umum, hasil penelitian menunjukkan bahwa inovasi teknologi dan manajemen rantai pasok yang terintegrasi mampu menghadirkan keunggulan kompetitif,

2024

TIGA MUTIARATIGA MUTIARA Hasil penelitian didapatkan hasil bahwa produk dan lokasi berpengaruh signifikan terhadap kepuasan konsumen perumahan sedangkan harga dan promosi tidakHasil penelitian didapatkan hasil bahwa produk dan lokasi berpengaruh signifikan terhadap kepuasan konsumen perumahan sedangkan harga dan promosi tidak

Useful /

2026

UBHARAUBHARA Manajemen data karyawan dan pelaporan operasional harian memainkan peran penting dalam mendukung efisiensi, akurasi, dan proses pengambilan keputusan dalamManajemen data karyawan dan pelaporan operasional harian memainkan peran penting dalam mendukung efisiensi, akurasi, dan proses pengambilan keputusan dalam

2026

LPPPIPUBLISHINGLPPPIPUBLISHING Hasil penelitian menunjukkan bahwa merantau berkontribusi pada meningkatnya kasus perceraian dalam komunitas Mandar karena perubahan peran dan komunikasiHasil penelitian menunjukkan bahwa merantau berkontribusi pada meningkatnya kasus perceraian dalam komunitas Mandar karena perubahan peran dan komunikasi

2026

LPPPIPUBLISHINGLPPPIPUBLISHING Permintaan organisasi untuk memperoleh, mengembangkan, dan mempertahankan sumber daya manusia berkualitas semakin mendesak seiring dengan dinamika lingkunganPermintaan organisasi untuk memperoleh, mengembangkan, dan mempertahankan sumber daya manusia berkualitas semakin mendesak seiring dengan dinamika lingkungan

2025

UBHARAUBHARA Pada indikator sumber daya, terdapat masalah terkait fasilitas, seperti komputer yang kekurangan fitur kamera, dan masalah pada Aplikasi Klampid. IndikatorPada indikator sumber daya, terdapat masalah terkait fasilitas, seperti komputer yang kekurangan fitur kamera, dan masalah pada Aplikasi Klampid. Indikator