Otomatisasi Klasifikasi Buku Perpustakaan dengan Metode K-NN

Transkripsi

1

2 ISBN : Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan Otomatisasi Klasifikasi Buku Perpustakaan dengan Metode K-NN Ni Nyomang Emang Smrti 1, I. K.G Darma Putra 2 1 Program Studi Magister Teknik Elektro Bidang Keahlian Manajemen Informasi dan Komputer, Universitas Udayana 2 Jurusan Teknologi Informasi, Fakultas Teknik, Universitas Udayana 1 smrti_nyoman@yahoo.com 2 duglaire@yahoo.com Abstrak Klasifikasi buku perpustakaan sangatlah penting untuk memudahkan pengunjung dalam pencarian buku. Dengan memanfaatkan metode yang ada pada data mining khususnya text mining, maka dalam penelitian ini akan dibangun program aplikasi untuk otomatisasi klasifikasi buku perpustakaan. Metode yang akan digunakan untuk mengklasifikasi buku perpustaan adalah metode K-Nearest neighborhood (K-NN). Program aplikasi otomatisasi klasifikasi buku perpustakaan ini dibangun dengan data latih dari buku perpustakaan STMIK Bandung Bali dan data uji berasal dari beberapa toko buku online yang menyediakan judul buku dan synopsis buku. Aplikasi yang dibuat mampu mengklasifikasi buku perpustakaan dengan prosentase keberhasilan 55% dengan jumlah data latih 538 dan 20 data uji. Kata kunci : klasifikasi, text mining, K-NN 1. Pendahuluan Jumlah koleksi buku dalam sebuah perpustakaan selalu mengalami penambahan bukubuku baru, seperti yang terjadi di STMIK Bandung Bali. Setiap tahun masing-masing program studi memiliki anggaran pengadaan buku. Klasifikasi buku secara manual akan menyulitkan petugas perpustakaan khususnya yang kurang berpengalaman. Keterbatasan pengetahuan petugas memungkinkan terjadinya kesalahan dalam mengklasifikasi buku serta membutuhkan waktu yang lama, karena petugas tersebut minimal harus membaca resensi dan daftar isinya. Untuk itu perlu ada mekanisme yang cepat dan objektif untuk klasifikasi koleksi buku perpustakaan. Permasalahan klasifikasi koleksi buku yang lebih objektif, akan diselesaikan dalam penelitian ini dengan memanfaatkan text mining. Definisi dari text mining adalah menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen (Milkha Harlian Ch, 2006). Banyak metode yang mendukung text mining salah satunya adalah algoritma K-Nearest Neighbor (K-NN). Berdasarkan survey paper tahun 2008 algoritma K-NN termasuk dalam 10 algoritma terpopuler dalam data mining. Hal ini dapat dilihat dari penelitian yang menyelesaikan masalah klasifikasi teks, banyak yang memanfaatkan metode K-NN, antara lain: (1) Pengelompokan Dokumen Berbahasa Indonesia Menggunakan Metode K-NN oleh Achmad Ridok dan Muhammad Tanzil Furqon (2009). (2) Rancang Bangun Sistem Pengelolaan Dokumen-dokumen Penting Menggunakan Text Mining oleh Ahmad Hatta Nana Ramadijanti dan Afrida Helen (2010). (3) Using K-NN Model-based Approach for Automatic Text Categorization oleh Gongde Guo dkk (2003). Kesimpulan secara umum dari penelitian di atas adalah dengan menggunakan metode K-NN memberikan hasil yang cukup akurat dengan prosentase keberhasilan sebesar 71,58 % sampai dengan 83,2 %. 2. Preprosesing Dokumen Sebelum proses klasifikasi dilakukan dengan menggunakan metode K-NN, maka data latih maupun data uji yang berupa judul buku diolah terlebih dahulu menjadi data numerik. Tahapan preposesing ini merupakan tahapan dari text mining yang harus dilakukan, bila akan menambang informasi berupa teks. Menurut Milkha Harlian Ch, (2006) text mining merupakan menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Menurut Tan (2009) text mining merupakan proses mengesktrak petterns dan knowledge yang bersifat menarik dan penting dari dokumendokumen teks. Pada intinya proses kerja text mining Jurusan Teknik Elektro UNRAM Mataram, 17 Juli

3 Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan ISBN : sama dengan proses kerja data mining pada umumnya hanya saja data yang di mining merupakan text databases. Di dalam knowladge discovery terdapat tahap data mining seperti yang telah disebutkan diatas sebenarnya pada tahap data mining inilah text mining dijalankan. Jadi pada intinya text mining adalah istilah yang dipakai oleh data mining yang mengekstrak data berupa teks. Tahap-tahap text mining secara umum adalah: 1. Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. 2. Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Algoritma yang digunakan adalah algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). 3. Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa Inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. 4. Tahap tagging adalah tahap mencari bentuk awal/root dari tiap kata hasil stemming. 5. Tahap analizing merupakan tahap penentuan seberapa jauh keterhubungan antara kata-kata antar dokumen yang ada. Tahap ini menggunakan algoritma frekuensi term (TF), invers document frequency (IDF) dan kombinasi perkalian antara keduanya (TFxIDF). (1) (2) Gambar 1. Tahapan text mining Untuk matrik A, jumlah baris berhubungan dengan jumlah kata M dalam koleksi dokumen. 3. Metode K-NN Algoritma K-nearest neighborhood (K-NN) merupakan algoritma supervised learning yang hasil klasifikasi data baru berdasar kepada kategori mayoritas tetangga terdekat ke-k. Tujuan dari algoritma ini adalah mengklasifikasikan objek baru berdasarkan atribut dan data training. Algoritma K- NN menggunakan klasifikasi ketetanggaan sebagai prediksi terhadap data baru. Pada fase pembelajaran, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan klasifikasi dari data pembelajaran. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk data tes (yang klasifikasinya tidak diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor data pembelajaran dihitung, dan sejumlah k buah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik-titik tersebut. Nilai k yang terbaik untuk algoritma ini tergantung pada data, pada umumnya nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi lebih kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus di mana klasifikasi diprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor. Berikut rumus pencarian jarak menggunakan rumus Euclidean Distance (3) Dari kelima tahapan diatas dapat digambarkan pada gambar 1. dengan : x 1 = sampel data x 2 = data uji I = varibel data d = jarak p = dimensi data Ketepatan algoritma KNN ini sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas bagaimana memilih dan memberi bobot terhadap fitur, agar performa klasifikasi menjadi lebih baik. 258 Jurusan Teknik Elektro UNRAM - Mataram, 17 Juli 2012

4 ISBN : Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan Langkah-langkah Algoritma K-nearest neighbors (K-NN) : 1. Tentukan Parameter K = jumlah tetangga terdekat. 2. Hitung jarak antara data yang akan ditentukan klasifikasinya dengan semua sampel pelatihan. 3. Urutkan jarak dan tentukan tetangga terdekat berdasarkan jarak minimum K. 4. Kumpulkan kategori tetangga terdekat. Gunakan mayoritas sederhana dari kategori tetangga terdekat sebagai nilai prediksi dari data yang ditentutukan klasifikasinya. 4. Arsitektur Aplikasi Klasifikasi Buku Gambar 2. Arsitektur Sistem Klasifikasi Buku Keterangan Gambaran Umum Sistem 1. Masukkan data latih berupa judul buku yang ada di perpustakaan. 2. Mengubah semua huruf besar menjadi huruf kecil di setiap data latih. 3. Semua data latih masuk kedalam proses text mining. 4. Menyimpan data latih ke dalam database. 5. Memasukkan data buku baru sebagai data uji. 6. Mengubah data buku baru yang menggunakan huruf besar menjadi huruf kecil. 7. Data buku baru masuk kedalam proses text mining. 8,9 Data buku perpustakaan (sebagai data latih) yang sudah tersimpan di database digunakan untuk mengklasifikasi data buku baru (data uji) yang telah selesai melalui proses text mining. 10. Hasil yang didapatkan adalah data buku baru yang sudah diklasifikasi dengan metode K-NN. 5. Data Data latih yang digunakan untuk otomatisasi proses klasifikasi buku perpustakaan sejumlah 538 judul buku dengan jumlah kategori 21 buah, untuk data yang lebih detil dapat dilihat pada tabel berikut ini Tabel 1. Data Latih Kode Kategori Jumlah buku Kategori yang digunakan dalam klasifikasi buku perpustakaan mengacu pada aturan Dewey Decimal Classification (DCC). Data uji yang digunakan sejumlah 20 judul yang diperoleh dari toko buku online bukukita.com. 6. Hasil Penelitian Penelitian ini dilakukan melalui dua tahapan pertama tahap menginputkan data latih dan tahap yang kedua adalah melakukan pengujian terhadap data latih yang telah diinputkan. Tahap pertama memasukkan data latih kedalam program. Dari tabel 1 dapat dilihat untuk kode kategori 413 yaitu kategori kamus. Pada perpustakaan tempat penelitian dilakukan terdapat 5 buah kamus yaitu Kamus Umum Lengkap, Kamus Indonesia Inggris, Kamus Lengkap Inggris- Indonesia & Indonesia Inggris, Kamus Besar Bahasa Indonesia dan Kamus Apelatif cara praktis temukan 1100 entri istilah pengetahuan. Dari kelima data tersebut dilakukan proses text mining seperti yang terlihat pada gambar 1. Setelah melalui proses text mining maka hasilnya yang didapatkan dapat dilihat pada tabel 2 berikut ini. Jurusan Teknik Elektro UNRAM Mataram, 17 Juli

5 Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan ISBN : Tabel 2. Hasil Text Mining hasil stemmer D1 D2 D3 D4 D5 DF Apelatif Bahasa Besar Cara Entri Indonesia Inggris Istilah Kamus Lengkap Tahu Praktis Temu Umum Keterangan: D1 sampai dengan D5 merupakan data 1 sampai dengan data 5 dari data latih yang diinputkan ke dalam program kemudian angka yang ada pada koordinat menunjukkan jumlah kata yang muncul pada setiap data. DF adalah document frequency. Setelah didapatkan nilai DF maka dilanjutkan perhitungan IDF (Invers document frequency) dan TF (frekuensi term) dikalikan dengan IDF yang terlihat pada tabel 3 berikut ini: Tabel 3. Hasil perhitungan TF-IDF Hasil klasifikasi buku yang didapatkan setelah data uji diinputkan dapat terlihat pada tabel 4 berikut ini: Tabel 4. Hasil Klasifikasi Data Latih Distance Kategori Hasil Data Betul Data Betul Data Betul Data Betul Data Betul Data Betul Data Betul Data Betul Data Betul Data Salah Data betul Data betul Data salah Data betul Data salah Data salah Data salah Data betul Data salah Data salah Dari 20 data uji 11 data buku diklasifikasi dengan benar dan 9 data buku salah. Jadi tingkat akurasi yang didapat dari penelitian ini adalah 55%. Tahap kedua menginputkan 20 data uji kedalam program. Seperti terlihat pada gambar 1, data uji ini juga melalui proses text mining sebelum dilakukan klasifikasi dengan menggunakan metode K-NN. 7. Kesimpulan Setelah dilakukan pengujian terhadap data buku baru, maka kesimpulan yang dapat ditarik adalah metode K-NN ini memiliki (1) presentase keberhasilan 55%. (2) Keberhasilan klasifikasi buku dipengaruhi proses text mining. (3) Banyaknya judul buku yang memiliki kata yang sama, menyumbang penurunan tingkat akurasi pada proses klasifikasi. Daftar Pustaka: Ahmad Hatta, Nana Ramadijanti dan Afrida Rancang Bangun Sistem Pengelolaan 260 Jurusan Teknik Elektro UNRAM - Mataram, 17 Juli 2012

6 ISBN : Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan Dokumen-dokumen Penting Menggunakan Text Mining, Proyek Akhir, Institut Teknologi Sepuluh Nopember. [Online] Undergraduate cover-idpdf.pdf, [di unduh tanggal 1 Desember 2011] Ahmad Ridok dan Muhammad Tanzil Furqon Pengelompokan Dokumen Berbahasa Indonesia Menggunakan Metode K-NN.. [Online] option=com_docman&task=doc_view&gid=319 &Itemid=76. [di unduh tanggal 1 Desember 2011] Ari Fadli, Konsep Data Mining [Online] ilmukomputer.org/wpcontent/uploads/2011/03/ari_fadli_konsep_dat a_mining.pdf [di unduh tgl 22 Nopember 2011]. Atri Nurani, Budi Susanto, Umi Proboyekti Implementasi Naive Bayes Classifier Pada Program Bantu Penentuan Buku Referensi Matakuliah. [Online] ti.ukdw.ac.id/ojs/index.php/informatika/article/d ownload/60/12. [diunduh 19 Pebruari 2011]. Efraim Turban, Jay E. Aronson, Ting-Peng Liang Decision Support Systems and Intelligent Systems. Yogyakarta: Andi. Fadillah Z. Tala, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia, Netherland, Universiteit van Amsterdam, diakses terakhir tanggal 25 Juli Gongde Guo, Hui Wang, David Bell, Yaxin Bi and Kieran Greer Using K-NN Model-based Approch for Automatic Text Categorization, School of Computing and Mathematics, University of Ulster Newtownabbey. [Online]. officeobjects.info/publications/%5bguo2003a% 5D.pdf. [diunduh tanggal 20 Pebruari 2011]. Heri Kurniawan, Rizal Fathoni Aji Otomatisasi Pengelompokkan Koleksi Perpustakaan Dengan Pengukuran Cosine Similarity Dan Euclidean Distance, [Online] Journal.uii.ac.id/index.php/Snati/article/view/15 99/1374. [diunduh: tanggal 15 April 2011]. Hearst, M What is text mining. [online]. sims.berkeley.edu/~hearst/ textmining.html, [diunduh: 30 Nopember 2011]. Helmi Harniawati Image Clustering Berdasarkan Warna untuk Identifikasi Buah dengan Metode Valley Tracing (Proyek akhir). Surabaya: Institut Teknologi Sepuluh Nopember. Iko Pramudiono Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung Data. [online], [diunduh: tanggal 15 April 2011] Kusrini, Emha Taufiq Luthfi Algoritma Data Mining. Yogyakarta: Andi. Michael J. A. Berry and Gordon S. Linoff Data Mining Techniques For Marketing, Sales, and Customer Relationship Management. United States of America. Milkha Harlian Ch Text Mining. [online] kesehatankerja.depkes.go.id/downloads/6text%2 0Mining.pdf [diunduh: tanggal 30 Nopember 2011]. Sheni Wahyuni Penerapan Text Mining Untuk Automatic Book Classification Dengan Metode Naive Bayes. [Online]. p=read&id=jbptunikompp-gdl-sheniwahyu [diunduh: tanggal 15 April 2011]. Thorsten Joachims Classify Text Using Support Vector Machines. America. Tawa P. Hamakonda, Mls & J. N. B Tairas Pengantar Klasifikasi Persepuluhan Dewey. Cetakan ke 18. Jakarta. Turban, E., dkk, 2005, Decision Support System and Intelligent System, Yogyakarta: Andi. Wahyu Supriyanto, Ahmad Muhsin Informasi Perpustakaan. Yogyakarta: Kansius (Anggota IKAPI). Yudho Giri Sucahyo Data Mining Menggali Informasi Terpendam. [online]. ikc.dinus.ac.id/populer/yudho-datamining.php. [diunduh: 20 Pebruari 2011]. Zhou Yong An Improved KNN Text Classification Algorithm Based on Clustering,. [Online] academypublisher.com/jcp/vol04/no03/ jcp pdf. [diunduh: tanggal 5 Mei 2011]. Jurusan Teknik Elektro UNRAM Mataram, 17 Juli

7 Prosiding : SEMINAR NASIONAL 2012 Teknik Elektro Dan Informatika Dalam Pengembangan Teknologi Berkelanjutan ISBN : Jurusan Teknik Elektro UNRAM - Mataram, 17 Juli 2012