BAB I PENDAHULUAN 1.1 Latar Belakang Dalam perkembangan ilmu pengetahuan dan teknologi, data merupakan suatu aspek yang sangat berguna. Manusia dapat belajar dan menemukan solusi suatu kasus baru dari data-data yang telah dimiliki. Klasifikasi kasus atau data baru juga dapat dicari dengan membandingkan data-data yang telah ada. Proses klasifikasi ataupun perbandingan data tersebut semakin dipermudah dengan peranan komputer. Dalam dunia ilmu komputer, dikenal metode Jaringan Syaraf Tiruan (JST). Inti dari metode tersebut adalah proses pembelajaran yang meniru cara kerja jaringan syaraf manusia. Pada jaringan syaraf manusia, setiap lapisan neuron membentuk koneksi yang menghantarkan suatu nilai. Nilai tersebut nantinya ditanggapi oleh otak sebagai suatu rangsangan tertentu, misalkan akan dikenali sebagai rasa panas, dingin, sentuhan, suara, atau yang lainnya. Nilai dari tiap koneksi tersebut pada JST dikenal dengan istilah bobot pembelajaran. Dari cara kerja jaringan syaraf manusia tersebut, algoritma pembelajaran mulai banyak dikembangkan. Salah satu algoritma pembelajaran JST adalah Learning Vector Quantization (LVQ) yang dirancang oleh Kohonen. Kohonen (2000) menyebutkan bahwa LVQ sangat dikhususkan untuk klasifikasi statistikal atau metode pengenalan. Klasifikasi yang dilakukan dengan algoritma LVQ membutuhkan data-data dengan diketahuinya kelas dari masing-masing data tersebut. Kegunaannya adalah saat ada data baru, maka data baru tersebut dapat dikenali sebagai data dengan kelas pertama atau kedua atau lainnya. Permisalan dari kegunaan algoritma LVQ adalah untuk klasifikasi pasien diabetes. Atribut dari data tersebut misalkan konsentrasi plasma glukosa, tekanan darah diastolik, ketebalan lipatan kulit trisep, insulin, indeks masa tubuh, riwayat diabetes keluarga, umur, dan kelas. Atribut kelas dari data tersebut memiliki dua 1
2 nilai, yaitu positif diabetes dan negatif diabetes. Dari data diabetes tersebut dilakukan pembelajaran oleh LVQ menghasilkan bobot pembelajaran. Dalam LVQ bobot pembelajaran lebih dikenal dengan istilah codebook. Apabila ada kasus atau pasien baru yang akan dicek menderita diabetes ataukah tidak, maka data dari pasien tersebut dibandingkan dengan codebook hasil pembelajaran LVQ sehingga dapat diklasifikasikan ke dalam positif diabetes ataukah negatif diabetes. Kohonen (2000) merancang cara kerja pembelajaran LVQ. Dalam setiap epoh proses pembelajaran, setiap codebook yang terdekat dengan data yang sedang dipelajari akan didekatkan pada data jika codebook dan data tersebut sekelas. Akan tetapi, codebook akan semakin dijauhkan dari data apabila codebook dan data berbeda kelas. Sedangkan inisialisasi awal dari codebook termasuk berapa jumlah codebook yang digunakan tidak ada dalam rancangan algoritma LVQ Kohonen. 1.2 Rumusan Permasalahan Rancangan LVQ Kohonen (2000) tidak mencakup inisialisasi awal codebook. Cara inisialisasi terebut dipasrahkan sepenuhnya kepada pengguna. Langkah paling minimal inisialisasi codebook adalah satu kategori kelas diwakili oleh setidaknya satu codebook, seperti yang dicontohkan Kusumadewi (2003). Meskipun resikonya adalah codebook hasil pembelajaran tidak selalu benar ketika diuji menggunakan data pembelajarannya sendiri. Bisa jadi, mengambil satu codebook setiap kategori kelas terlalu sedikit jumlahnya dan ada data yang belum terwakili oleh codebook. Jika ingin mengambil lebih dari satu codebook setiap kategori kelas, berapakah jumlahnya? Juga, data mana sajakah yang sebaiknya dipilih untuk dijadikan inisial codebook? Untuk menentukan data mana yang sebaiknya dipilih sebagai inisialisasi codebook, maka akan dicoba dengan melakukan suatu proses reduksi terhadap data latih. Proses reduksi ini akan mengurangi atau menghilangkan data yang dinilai sudah diwakili oleh data yang lain, sedangkan data yang mewakilinya dipilih sebagai vektor referensi (codebook).
3 1.3 Batasan Masalah Agar pembahasan mengenai topik penelitian ini tidak terlalu meluas, maka diperlukan batasan-batasan masalah dalam pembuatan sistem. Batasan-batasan tersebut sebagai berikut: 1. Format masukan dari sistem menggunakan ARFF (Atribute-Relation File Format). 2. Data penelitian menggunakan lima dataset, yaitu contact-lenses, credit-g, diabetes, iris, labor, dan soybean. 3. Tipe atribut yang digunakan sistem adalah integer, real, numeric, dan kategorial/nominal dengan atribut kelas bertipe kategorial/nominal. 4. Data pada atribut nominal atau kategorial, normalisasinya menggunakan oneattribute-per-value. 5. Algoritma LVQ yang digunakan adalah LVQ1 dan OLVQ1. 1.4 Tujuan Penelitian Tujuan dari penelitian ini adalah menentukan cara reduksi data dengan sebisa mungkin mempertahankan akurasi terhadap data tersebut. Seluruh data hasil dari reduksi tersebut dijadikan sebagai inisialisasi codebook algoritma LVQ. 1.5 Manfaat Penelitian Hasil penelitian ini diharapkan dapat bermanfaat untuk meningkatkan hasil akurasi LVQ jika diujikan terhadap data yang terdapat pada data pelatihan/pembelajaran. Dengan meningkatnya akurasi terhadap data latih, maka diharapkan dapat menambahkan tingkat keyakinan pengguna saat menggunakan codebook hasil pembelajaran LVQ untuk keperluan lain, seperti peramalan atau klasifikasi data baru. 1.6 Metodologi Penelitian Penelitian ini difokuskan pada pereduksian data latih untuk insialisasi codebook algoritma LVQ. Untuk memenuhi kebutuhan tersebut, maka disusunlah metodologi penelitian sebagai berikut:
4 1. Kajian pustaka dan pengumpulan data Pada tahap ini dilakukan pengumpulan materi dengan metode studi literatur untuk memperolah teori, konsep, metode, data, teknik maupun informasi yang menunjang dalam penelitian. Materi yang diperlukan mengenai algoritma LVQ dan inisialisasi codebook algoritma tersebut. Pengumpulan materi dilakukan dengan metode studi literatur. Materi diambil dari berbagai sumber seperti internet, buku, jurnal, maupun artikel ilmiah lainnya. Sedangkan data yang digunakan dalam penelitian ini diambil dari dataset pada program WEKA. 2. Pengembangan metode dan sistem a) Analisis dan desain Dalam tahap ini dilakukan analisis mengenai kemungkinan dilakukannya proses reduksi data untuk keperluan inisialisasi codebook. Pada tahap ini juga ditentukan bagaimana langkah reduksi data yang digunakan dalam penelitian. Untuk memastikan bahwa langkah reduksi data dapat berjalan sesuai dengan tujuan penelitian, maka akan dilakukan percobaan dengan contoh yang sederhana. Setelah purwarupa model atau langkah metode reduksi data yang akan digunakan sudah ditentukan, maka akan didesain sistem akan dibuat. Sistem yang dibuat adalah sistem yang dapat mengimplementasikan model reduksi data tersebut sekaligus menggunakannya sebagai codebook dalam pembelajaran LVQ. b) Implementasi Tahapan ini merupakan tahapan pembangunan sistem berdasar pada tahapan analisis dan desain yang telah disusun sebelumnya. Pada penelitian ini, sistem dibangun menggunakan bahasa pemrograman JAVA dengan tool yang dipakai adalah NetBeans IDE 7.0.1. c) Pengujian Pada tahap ini dilakukan proses pembelajaran LVQ dengan inisialisasi codebook menggunakan purwarupa model atau langkah reduksi data sesuai tahap analisis dan desain, kemudian diujikan kembali terhadap data latih. Dari pengujian tersebut, akan didapatkan akurasi untuk dinilai apakah purwarupa model sudah memenuhi rumusan permasalahan (subbab 1.2) dan tujuan penelitian (subbab 1.4).
5 1.7 Sistematika Penulisan Sistematika penulisan yang digunakan dalam laporan penelitian ini adalah sebagai berikut : BAB I Pendahuluan Bab ini menjelaskan latar belakang masalah, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian yang digunakan, dan sistematika penulisan. BAB II Tinjauan Pustaka Bab ini berisi penelitian-penelitian sebelumnya berkaitan dengan algoritma LVQ dan penelitian sebelumnya mengenai inisialisasi codebook algoritma LVQ. BAB III Landasan Teori Bab ini membahas teori-teori yang menjadi landasan topik pada tugas akhir ini, antara lain algoritma LVQ, perhitungan jarak antar vektor, cara normalisasi data, dan algoritma yang sudah ada yang juga melakukan langkah reduksi data. BAB IV Analisis dan Perancangan Bab ini menjelaskan tentang analisis purwarupa model reduksi data yang akan digunakan untuk inisialisasi codebook algoritma LVQ, juga desain sistem yang yang akan dibuat. BAB V Implementasi Bab ini berisi implementasi penerapan algoritma menjadi sistem, disertai cuplikan kode. BAB VI Hasil Penelitian dan Pembahasan Bab ini berisi hasil pengujian dari sistem menggunakan dataset yang telah disebutkan pada subbab 1.3, juga melakukan pembahasan jika ada yang perlu diulas. BAB VII Penutup Sebagai akhir dari penulisan ditampilkan kesimpulan dari keseluruhan penilitian yang dilakukan. Bab ini juga akan berisi saran untuk pengembangan atau penelitian selanjutnya.