Nusantara of Engginering (NoE)/Vol. /No. /ISSN : 8 Implementasi Principal Komponen Analysis untuk Sistem Balik Citra Digital Okfan Rizal Ferdiansyah. Sistem Informasi, Fakultas Teknik Universitas Nusantara PGRI Kediri Jl KH Achmad Dahlan no.7 okfanrizal.f@gmail.com Abstrak Kebutuhan citra digital meningkat dengan jumlah yang sangat besar untuk keperluan berbagai bidang seperti kedokteran, arsitektur, kesehatan, militer, olahraga dan berbagai bidang lainnya,seiring dengan bertambah besar penggunaan data citra digital diperlukan sebuah mekanisme untuk melakukan memanajemen data tersebut, sampai saat ini banyak yang menggunakan mekanisme penotasian untuk proses manajemen citra digital, padahal dengan teknik ini akan menimbulkan perbedaan persepsi antara user dengan penotasinya, sehingga perlu di kembangkan sebuah sistem temu balik citra digital yang mampu mengatasi permasalahan tersebut. Besarnya dimensi citra menjadi sebuah masalah tersendiri bagi dunia komputasi, PCA mampu menjawab tantangan tersebut dengan melakukan proyeksi dari dimensi tinggi ke dimensi yang rendah. Pada penelitian sebelumnya PCA sudah sering digunakan untuk sistem temu balik citra digital hanya saja selalu menggunakan 00% komponen PCA, padahal terdapat potensi yang lebih untuk meningkatkan kecepatan dan akurasi sistem dengan menganalisa pengaruh jumlah komponen PCA yang digunakan dengan akurasi sistem. Pada penelitian ini peneliti mencoba melakukan analisa pengaruh jumlah komponen PCA yang digunakan terhadap akurasi sistem, selain itu juga dilakukan analisa performa PCA untuk mengetahui tingkat akurasi sistem dengan dataset University Washington, Visual Geometri Group dan dataset. Dari berbagai ujicoba yang dilakukan didapatkan hasil bahwa 0% s.d 0% komponen PCA yang digunakan menghasilkan akurasi sistem yang paling tinggi untuk masing-masing dataset, 9,% untuk dataset University Washington 9,0% untuk dataset Visual Geometri Group dan 7,% untuk dataset Kata Kunci --Sistem temu balik citra digital, Citra digital, Principal komponen analisis. I. PENDAHULUAN Kebutuhan citra digital meningkat dengan jumlah yang sangat besar untuk keperluan berbagai bidang seperti kedokteran, arsitektur, kesehatan, olahraga dan bidangbidang lainnya []. Besarnya jumlah citra digital membuat proses pencarian memerlukan waktu yang lama, sampai saat ini masih banyak yang menggunakan teknik notasi untuk melakukan proses pencarian citra digital[], cara seperti ini sering terjadi kesalahan dalam proses pencarian sebuah citra karena proses penotasian sangat bergantung pada persepsi user. Beberapa metode pernah diusulkan oleh para peneliti sebelumnya untuk proses sistem temu balik citra digital seperti Sub Block Base Image Retrieval Modified Region Matching[], Shape, Color and Relevance Feedback []. Sub Block Base merupakan metode yang mampu melakukan reduksi dimensi dengan membagi sebuah citra digital menjadi beberapa blok region dan mengabaikan region-region yang tidak begitu memiliki informasi[]. Akan tetapi metode ini memerlukan penelitian lebih lanjut untuk menentukan jumlah block region serta ukuran untuk mendapatkan hasil yang optimal. Metode Shape, Color and Relevance Feedback menggabung beberapa fitur untuk menghasilkan tingkat akurasi yang tinggi, tapi dengan jumlah data citra digital yang besar dapat mengakibatkan proses berjalan lambat, Relevance feedback juga sangat bergantung pada asumsi dari user []. Principal Component Analysis (PCA) adalah suatu analis yang menjelaskan struktur varian-kovarian dari suatu himpunan variabel yang melalui beberapa kombinasi linear dari variabel-variabel tersebut []. PCA mampu
Nusantara of Engginering/Vol. /No. /ISSN: -8 menjawab tantangan input sebuah citra digital dengan melakukanimp proses reduksi dari dimensi tinggi ke dimensi yang lebih rendah. Penelitian sebelumnya tentang PCA untuk CBIR adalah Implementasi Pengenalan Menggunakan PCA [7], Implementation of CBIR System for CAD Jewellery Images Using PCA [8], dan CBIR Feture Vector Dimension Reduction with Eigenvectors of Covariance Matrix using Row, Column and Diagonal Mean Sequences [9]. Semua penelitian sebelumnya selalu menggunakan 00% komponen dari PCA, padahal terdapat potensi untuk lebih meningkatkan efisiensi waktu komputasi dengan menganalisa pengaruh prosentase komponen PCA yang digunakan. Sehingga pada penelitian ini peneliti fokus untuk menganalisa pengaruh reduksi komponen PCA terhadap akurasi sistem. Penelitian sebelumnya tentang PCA dan CBIR pernah dilakukan pada tahun 0 yang dilakukan oleh Kaur dan Jyoti yang berjudul Implementation of CBIR System for CAD Jewellery Images Using PCA[8], pada penelitian tersebut peneliti fokus pada presisi dan recall sistem. Dari hasil ujicoba didapatkan kesimpulan bahwa sistem mempunyai presisi sebesar %, recall 0% dan kecepatan waktu komputasi sistem bergantung pada query yang diinputkan oleh user. PCA dan CBIR pernah diteliti oleh H.B. Kekre pada tahun 00 berjudul CBIR Feature Vector Dimension Reduction with Eigenvectors of Covariance Matrix using Row, Column and Diagonal Mean Sequences [9]. Pada penelitian tersebut peneliti fokus pada analisa combinasi matrix convarian yang digunakan terhadap performa dari PCA, didapatkan kesimpulan bahwa menggunakan matrix vector lebih baik dari pada menggunakan variasi vector didapatkan pula hasil dengan menggunakan citra digital true color mempunyai hasil yang lebih baik dibandingkan dengan citra grayscale. Selain itu PCA juga perna diteliti oleh Dian Esti Pratiwi dan Agus Harjoko pada tahun 0 dengan judul Implementasi Pengenalan Menggunakan PCA mempunyai akurasi sebesar 8,8%[7]. Pada penelitian tersebut penulis ingin mengembangkan sebuah sistem identifikasi berdasarkan wajah, dari hasil ujicoba didapatkan kesimpulan bahwa banyak faktor yang mempengaruhi akurasi sistem diantaranya adalah faktor cahaya, jarak dengan webcam, dan banyaknya gambar yang tersimpan di dalam database. II. URAIAN PENELITIAN A. Perancangan Sistem Sistem yang dibangun adalah suatu prototipe yang digunakan untuk membantu peneliti dalam menganalisa CBIR, sistem memiliki beberapa attribute yang bisa diubah-ubah sesuai dengan kebutuhan peneliti untuk mendapatkan hasil yang diinginkan. Sistem yang dibangun mempunyai fungsionalitas yang terbatas yaitu untuk proses testing dan ujicoba, gambar menunjukan flowchart sistem yang dibangun PROSES TRAINING Citra input Training Preprosesing Membentuk Matrix Data Training Ekstraksi fitur PCA Fitur Data Training Matrix Proyeksi (X) PROSES QUERY Citra input Query Preprosesing Proyeksi Query =Q.X Mengukur Jarak Euclidian Distance Output citra dengan kemiripan tertinggi Gambar. Flowchart Sistem B. Principal Component Analysis Dalam melakukan proses sistem temu balik dihadapkan dengan banyak variabel dengan data yang berdimensi tinggi. Operasi-operasi yang dilakukan terhadap citra query maupun citra yang ada di dalam dataset membutuhkan biaya komputasi yang sangat besar. Oleh karena itu, dibutuhkan PCA yang dapat mengurangi besarnya dimensi dari data yang di observasi yang signifikan dalam menggambarkan keseluruhan data. C. Skenario Ujicoba Beberapa skenario ujicoba dilakukan untuk mengetahui tingkat akurasi sistem, pada table berikut ini adalah skenario-skenario yang
Nusantara of Engginering/Vol. /No. /ISSN: -8 digunakan dalam sistem temu balik citra digital Tabel. Skenario Ujicoba No Skenario Training Testing Keterangan Skenario I 0 7 UW Skenario II 70 UW Skenario III 90 UW Skenario IV Skenario V Skenario VI 7 Skenario VII 8 Skenario VIII 9 Skenario IX 0 80 0 90 0 0 0 90 Proses pertama yang dilakukan dalam implementasi sistem adalah memasukkan data training dan data testing, setelah itu sistem secara otomatis melakukan preprosesing, pembentukan data latih, ekstrasksi fitur, proyeksi matrik query dan yang akan ditampilkan oleh sistem adalah hasil pengukuran jarak yang terdekat antara query dengan data training. Selain itu setiap skenario akan dilakukan perubahan jumlah komponen PCA yang digunakan untuk mengetahui persentase reduksi dimensi yang paling baik dalam hal akurasi sistem seperti pada gambar D. Analisa dan Ujicoba Setelah dilakukan beberapa kali percobaan didapatkan hasil seperti pada tabel berikut Tabel. Hasil Ujicoba Training Vs Testing N o Training Testing Gambar Akurasi UW 0 7 UW 70 UW 90 0 0 Bunga 7,% Bus,% Dino 97,% Gajah 8,% Kuda,% Rata-rata 7,% Bunga 9,% Bus 7,% Dino 00% Gajah 8,% Kuda,7% Rata-rata 7,% Bunga 00% Bus,7% Dino 00% Gajah 98,% Kuda,% Rata-rata 8,% Pesawat 00% Daun 7% Motor 7% Gitar 9% Rata-rata 8% Pesawat 00% Daun 9% N o Training Testing Gambar Akurasi 80 0 7 0 0 8 90 9 90 Motor 7% Gitar 9% Rata-rata 89,7% Pesawat 00% Daun 88% Motor 8% Gitar 9% Rata-rata 88% Orang ke-,% Orang ke- 7,0% Orang ke- 9,0% Orang ke-,0% Orang ke-,% Orang ke-,0% Rata-rata,8% Orang ke-,0% Orang ke-,% Orang ke- 8,% Orang ke-,% Orang ke- 7,% Orang ke-,8% Rata-rata,8% Orang ke-,0% Orang ke-,0% Orang ke- 9,0% Orang ke- 99,0% Orang ke- 7,0% Orang ke- 79,0% Rata-rata 7,% Tabel. Hasil Ujicoba Nilai Komponen PCA Komponen No Training Testing PCA Akurasi 00% 7,% 90% 7,7% 80% 7,8% 70% 7,% % 7,% UW 0 7 0% 70,9% 7 0% 7,% 8 0% 7,% 9 0% 7,% 0 0% 79,% 00% 7,% 90% 7,8% 80% 7,% 70% 7,% % 7,8% UW 70 0% 7,% 7 0% 7,7% 8 0% 7,0% 9 0% 77,% 0 0% 78,7% 00% 8,% 90% 80,% 80% 80,% 70% 80,8% % 8,% UW 90 0% 8,% 7 0% 8,8% 8 0% 8,8% 9 0% 88,0% 0 0% 9,% 00% 8,% 0 90% 8,% 80% 8,%
Nusantara of Engginering/Vol. /No. /ISSN: -8 Komponen No Training Testing PCA Akurasi 70% 8,% % 8,% 0% 8,% 7 0% 8,% 8 0% 8,% 9 0% 8,% 0 0% 9,% 00% 89,7% 90% 89,% 80% 89,7% 70% 90,0% % 89,% 0 0% 88,% 7 0% 89,% 8 0% 89,% 9 0% 90,7% 0 0% 9,0% 00% 88,0% 90% 88,0% 80% 88,0% 70% 8,0% % 8,% 80 0 0% 8,0% 7 0% 8,% 8 0% 88,0% 9 0% 90,0% 0% 9,% 00%,8% 90%,7% 80%,8% 70%,8% %,8% 0 0 0%,% 7 0%,% 8 0%,8% 9 0%,% 70 0%,% 7 00%,8% 7 90%,0% 7 80%,8% 7 70%,0% 7 %,% 90 7 0%,% 77 0%,8% 78 0%,0% 79 0%,% 80 0%,% 8 00% 7,% 8 90% 7,% 8 80% 7,8% 8 70% 7,% 8 90 % 7,% 8 0% 7,% 87 0% 7,% 88 0% 7,% 89 0% 7,% 90 0% 7,% Tabel. Hasil Ujicoba dataset Tabel. Hasil Ujicoba dataset UW Tabel. Ujicoba dataset wajah III. SIMPULAN. Akurasi rata-rata sistem yang paling baik untuk algoritma PCA dalam sistem temu balik citra digital dengan dataset University Washington, Visual Geometri Grup, dan dataset adalah sebagai berikut a. Akurasi maksimal rata-rata sistem untuk dataset University Washington adalah 9,% terjadi saat menggunakan 0% komponen dari PCA dengan 90 data training dan data testing. b. Akurasi maksimal rata-rata sistem untuk dataset Visual Geometri Group adalah 9.0% terjadi saat menggunakan 0% komponen dari PCA dengan data training dan 0 data testing. c. Akurasi maksimal rata-rata sistem untuk dataset Visual Geometri Group adalah 7.% terjadi saat menggunakan 0% komponen dari PCA dengan 90 data training dan data testing.. Reduksi dimensi mempengaruhi tingkat akurasi sistem a. Penggunaan antara 0% s.d 0% dari komponen PCA menghasilkan akurasi yang paling
Nusantara of Engginering/Vol. /No. /ISSN: -8 baik untuk semua jenis gambar dataset yang digunakan. b. Pemilih 0% s.d 0% komponen mampu memangkas waktu komputasi hingga 90%. c. Tingkat akurasi dengan reduksi dimensi tidak berbanding lurus maupun tidak berbanding terbalik, sehingga diperlukan penelitian lebih lanjut untuk menemukan pola reduksi dimensi dengan sebuah dataset.jumlah data training yang digunakan mempengaruhi tingkat akurasi sistem, semakin banyak data yang digunakan untuk proses training akurasi sistem cenderung semakin tinggi. DAFTAR PUSTAKA [] Shortliffe, E.H., Cimino, J.J., 00, Applications In Health Care And Biomedicine., Biomedical informatics:computer Springer. [] Niket A, Kulkarni, R., 0 Efficient Image Retrieval using Region Based Image Retrieval, International Journal of Applied Information Systems, ISSN : 9-088 [] Vimina E.R, and Jacop P.K, 0, A Sub-bloc Based Image Retrieval Using Modified Integrated Region Matching, International Journal of Computer Science Issue, ISSN:8-9. [] Yasmin, M., Mohsin, S., Irum, I., Sharif, M., 0, Content Based Image Retrieval by Shape Color and Relevance Feedback, Life Science Journal, ISSN:097-8, 9-98 [] Gulhane, M.S., Shinde, A.G., Singh, A.K., 0, Relevance Feedback for Content-Based Image Retrieval by Mining User Navigation Patters, Journal of Engineering, computer & Applied Sciencec(JEC&AS), ISSN:9- [] Johnson, Richard. Dean Wichern. 007. Applied Multivariate Statistical Analysis, th ed. New Jersey : Prentice Hall. [7] Pratiwi, D.E., 0, Implementasi Pengenalan Menggunakan PCA (Principal Component Analysis), International Journal of Enterprise Information System, ISSN: 088-7. [8] Kaur, P., Jyoti, K., 0, Implementation of CBIR System for CAD Jewellery Images Using PCA, International Journal of Scientific & Engineering Research Volume, ISSN:9-8. [9] Kekre, H.,B., 00, CBIR Feature Vector Dimension Reduction with Eigenvector of Covariance Matrix using Row, Column and Diagonal Mean Sequences, International Jurnal of Computer Applications, ISSN:097-8887. [0] Cahyadi, D., 007. Ektraksi dan Kemiripan Mata pada Sistem Identifikasi Buron. http://lontar.ui.ac.id/file?file=digital/ 80-SK-9 diakses tanggal 0 Mei 0 [] Smith, L.I., 00. A Tutorial on Principal Component Analysis. http://www.cs.otago.ac.nz/cosc/stu dent_tutorials/principal_component.pd f diakses tanggal 7 Mei 0 [] Weisstein, E.W., 007, Distance. From MathWord A Wolfram Web Resource http://mathwordl.wolfram.com/distanc e.html diakses tanggal 7 Mei 00 [] Manning, C.,D., 009, An Introduction to Information Retrieval. Cambridge:Cambridge University Press.