PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP TESIS Oleh VERA WIJAYA 097038003/TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA PROGRAM PASCASARJANA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP TESIS Oleh VERA WIJAYA 097038003/TINF PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA PROGRAM PASCASARJANA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP TESIS Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Ilmu Komputer dalam Program Studi Magister Teknik Informatika pada Program Pascasarjana Fakultas MIPA Oleh VERA WIJAYA 097038003/TINF PROGRAM PASCASARJANA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011
PENGESAHAN TESIS Judul Tesis : PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP Nama Mahasiswa : Vera Wijaya Nomor Induk Mahasiswa : 09 70 38 003 Program Studi : Magister Teknik Informatika Fakultas : Matematika dan Ilmu Pengetahuan Alam Menyetujui Komisi Pembimbing Dr. Erna Budhiarti Nababan, MIT Pembimbing Anggota Dr. Poltak Sihombing, M.Kom Pembimbing Utama Ketua Program Studi, D e k a n, Prof. Dr. Muhammad Zarlis Dr.Sutarman, M.Sc NIP.19570701198601 1003 NIP. 19631026199103 1001
PERNYATAAN ORISINALITAS PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP T E S I S Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan telah di jelaskan sumbernya dengan benar. Medan, 13 Juni 2011 Vera Wijaya NIM.097038003
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai sivitas akademika, saya yang telah bertanda tangan di bawah ini : Nama : Vera Wijaya NIM : 097038003 Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas Tesis saya yang berjudul : Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 13 Juni 2011 Vera Wijaya
Telah diuji pada Tanggal : 28 Juli 2011 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Opim Salim Sitompul Anggota : 1. Prof. Dr. Muhammad Zarlis 2. Syahril Effendi, S.Si, MIT 3. Dr. Poltak Sihombing, M.Kom 4. Dr. Erna Budhiarti Nababan
RIWAYAT HIDUP DATA PRIBADI Nama lengkap berikut gelar : Vera Wijaya, S.Kom Tempat dan Tanggal Lahir : Pematang Siantar, 2 Agustus 1983 Alamat Rumah : Kompleks Cemara Asri Jl. Bungur No.120, Medan Telepon/Faks/HP : 085261726988/ e-mail : vera_liyen@yahoo.com Instansi Tempat Bekerja : STMIK Kristenn Neumann Medan Alamat Kantor : Jl. Jamin Ginting Km. 10,5 Medan Telepon/Faks/HP : DATA PENDIDIKAN SD : Perguruan Kristen Methodist, P.Siantar Tamat : 1995 SMP : Perguruan Kristen Methodist, P.Siantar Tamat : 1998 SMA : Perguruan Kristen Methodist, P.Siantar Tamat : 2001 Strata-1 : Program Studi Sistem Informasi, Universitas Bina Nusantara, Jakarta. Tamat : 2005
KATA PENGANTAR Pertama-tama saya panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmadnya dan karunia-nya sehingga tesis ini dapat diselesaikan. Dengan selesainya tesis ini, perkenankanlah saya mengucapkan terima kasih yang sebesar-besarnya kepada yang terhormat : Rektor, Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H (CTM), Sp. A(K) atas kesempatan yang diberikan kepada kami untuk mengikuti dan menyelesaikan pendidikan Program Magister. Dekan Fakultas MIPA, Bapak Dr. Sutarman, M.Sc atas kesempatan menjadi mahasiswa Program Magister pada Program Pascasarjana FMIPA. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister Teknik Informatika, Bapak M.Andri Budiman, ST, M.Comp. Sc. MEM beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas MIPA. Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Bapak Dr. Poltak Sihombing, M.Kom selaku Promotor/Pembimbing Utama yang dengan penuh perhatian dan telah memberikan dorongan, bimbingan dan tuntunan, demikian juga kepada Ibu Dr. Erna Budhiarti Nababan, MIT selaku Co. Promotor/Pembimbing Lapangan yang penuh kesabaran menuntun dan membimbing kami hingga selesainya penelitian ini. Kepada Ayah Tukijan Sukardy dan Bunda Po Ing serta anakku terkasih Jasslyn. Terima kasih atas segala pergorbanan kalian baik berupa moril maupun materil, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa. Vera Wijaya
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP ABSTRAK Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled. Kata Kunci : hsinchun chen, algoritma genetika, nilai kemiripan, penemuan kembali
THE USE OF HSINCHUN CHEN FACTORS IN GENETIC ALGORITHM TO RETRIEVE SIMILAR DOCUMENT ABSTRACT The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity. Keyword : hsinchun chen, genetic algorithm, similarity measure, retrieve
DAFTAR ISI Halaman KATA PENGANTAR i ABSTRAK ii ABSTRACT iii DAFTAR ISI iv DAFTAR TABEL vi DAFTAR GAMBAR viii DAFTAR LAMPIRAN ix BAB I PENDAHULUAN 1 1.1 Latar Belakang 1 1.2 Perumusan Masalah 3 1.3 Tujuan Penelitian 3 1.4 Manfaat Penelitian 4 1.5 Batasan Masalah 4 BAB II TINJAUAN PUSTAKA 6 2.1 Information Retrieval 6 2.2 Similarity (Kemiripan) 8 2.3 Similarity Measure (Ukuran Kemiripan) 9 2.4 Algoritma Genetika 10 2.4.1 Struktur Umum Algoritma Genetika 11 2.4.2 Pengkodean Algoritma Genetika 13 2.4.3 Operator Genetika 14 2.5 Teknik Yang Digunakan Sebelumnya 19 2.5.1 Pendekatan Jaringan Syaraf Tiruan untuk Temu 19 Kembali Informasi 2.5.2 Pendekatan Operator Boolean untuk Temu 21
Kembali Informasi 2.5.3 Pendekatan Bibliometrik untuk Temu Kembali 22 Informasi BAB III METODE PENELITIAN 26 3.1 Data Penelitian 26 3.2 Keyword 27 3.3 Teknik Penelitian 27 3.3.1 Text Preprocessing 28 3.3.2 Ukuran Kemiripan Hsinchun Chen 30 3.3.3 Implementasi Faktor Hsinchun Chen dalam 31 Algoritma Genetika 3.4 Perancangan Sistem 36 3.4.1 Deskripsi Sistem 37 3.4.2 Perancangan Database 37 3.4.3 Perancangan Perangkat Lunak 40 BAB IV HASIL DAN PEMBAHASAN 44 4.1 Penggunaan Hsinchun Chen dalam Algoritma Genetika 44 untuk Menemukan Kembali Dokumen yang Mirip 4.1.1 Hasil Tahapan Text Preprocessing 44 4.1.2 Pencarian Kemiripan Dokumen dengan Algoritma 45 Genetika 4.2 Perbandingan Hasil Pencarian Kembali Dokumen 58 Menggunakan Algoritma Genetika dengan Jaringan Syaraf Tiruan BAB V KESIMPULAN DAN SARAN 67 5.1 Kesimpulan 67 5.2 Saran 68 DAFTAR PUSTAKA 70 DAFTAR LAMPIRAN L1
DAFTAR TABEL Nomor Judul Halaman Tabel 2.1 Probabilitas Seleksi dan Nilai Fitness 15 2.2 Perbandingan Teknik dalam Sistem Temu Kembali 24 Informasi 3.1 Rancangan Halaman Perangkat Lunak 41 4.1 Hasil Tahapan Text Processing 47 4.2 Pemodelan Kromosom Solusi 47 4.3 Pembangkitan Populasi Awal 48 4.4.a Hasil Text Processing Dokumen Populasi Awal 49 4.4.b Hasil Text Processing Dokumen Populasi Awal 49 4.5 Hasil Perbandingan Keyword Query dengan Keyword 50 Populasi Awal 4.6 Hasil Pengkodean Kromosom Populasi 51 4.7 Hasil Perhitungan Nilai Fitness 52 4.8 Hasil Seleksi Kromosom 52 4.9 Populasi untuk Generasi Selanjutnya 54 4.10.a Hasil Tahapan Text Processing Generasi Selanjutnya 54 4.10.b Hasil Tahapan Text Processing Generasi Selanjutnya 55 4.11 Hasil Perbandingan Keyword Generasi Selanjutnya 55 4.12 Evaluasi Nilai Fitness Generasi Selanjutnya 56 4.13 Hasil Seleksi Generasi Selanjutnya 57 4.14 Hasil Perhitungan Kemiripan Dokumen 58 4.15 Hasil Pencarian Dokumen dengan Algoritma Genetika 58 4.16 Nilai Kemiripan Dokumen dengan Jaringan Syaraf Tiruan (JST) 60
4.17 Nilai Kemiripan Dokumen dengan Algoritma Genetika 60 4.18 Kueri Jaringan Syaraf Tiruan 61 4.19 Kueri Algoritma Genetika 62 4.20 Hasil Kueri Algoritma Genetika 63 4.21 Hasil Perbandingan Nilai Kemiripan Dokumen 63 Menggunakan Algoritma Genetika dan Jaringan Syaraf Tiruan 4.22 Jumlah Dokumen Pencarian 64
DAFTAR GAMBAR Nomor Judul Halaman Gambar 2.1 Diagram Alir Algoritma Genetika 12 2.2 Seleksi Roda Roulette 16 2.3.a Kueri dan Istilah Teraktivasi 20 2.3.b Dokumen Memuat Istilah Teraktivasi dan Kumpulan 20 Dokumen 3.1 Bagan Alir Teknik Pencarian Kembali Dokumen 28 3.2 Bagan Alir Tahapan Text Preprocessing 32 3.3 Bagan Alir Pencarian Kembali Dokumen dengan 35 Algoritma Genetika 3.4 Pseudocode Penerapan Algoritma Genetika dalam 36 Sistem Pencarian Kembali Dokumen 3.5 Rancangan Diagram ERD 40 3.6 Navigation Diagram Perancangan Perangkat Lunak 42 4.1 Perbandingan Jumlah Dokumen Pencarian 65 4.2 Perbandingan Nilai Kemiripan Dokumen 66
DAFTAR LAMPIRAN Nomor Judul Halaman Lampiran A Hasil Perhitungan Nilai Fitness Algoritma Genetika L1 B Hasil Pencarian Nilai Kemiripan Dokumen L2 Menggunakan Algoritma Genetika C Hasil Pencarian Dokumen Menggunakan Jaringan L4 Syaraf Tiruan D Hasil Pencarian Dokumen Menggunakan Algoritma L8 Genetika E Perbandingan Nilai Kemiripan Algoritma Genetika L12 dengan Jaringan syaraf Tiruan F Daftar Keyword Hasil Tahapan Text Processing L13 G Daftar Stemming L14 H Daftar Stop Word L19 I Data Dokumen Penelitian L24 J Daftar Update Istilah Kimia L45