BAB 1 PENDAHULUAN Pengantar

BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas pada perorangan, akan tetapi dapat dibagikan kepada orang lain dalam bentuk jaringan. Dengan demikian orang dapat membagikan berbagai informasi yang dimilikinya dengan orang lain dengan sangat mudah. Sejak jaman dahulu, manusia telah banyak mendokumentasikan berbagai hal. Pada jaman purba, manusia melakukan dokumentasi dalam bentuk pahatan batu, lalu pada jaman yang lebih modern pada gulungan kertas daun lontar. Setelah manusia mengenal kertas, maka mereka mulai menuliskannya di atas kertas. Kini, komputer sudah mendominasi dunia milenium, dan dokumentasi dalam bentuk kertas pun mulai dipindahkan pada media elektronik. Kemudahan yang ditawarkan oleh komputer ini memacu masyarakat untuk menulis. Dokumen-dokumen dalam bentuk elektronik pun bermunculan. Dokumen elektronik ini sangat mudah untuk dipublikasikan kepada masyarakat luas. Oleh karena itu, intensitas untuk menulis semakin meningkat. Seiring dengan meningkatnya jumlah dokumen dalam media penyimpanan elektronik, tidak jarang terdapat dokumen yang mempunyai kesamaan isi walaupun memiliki judul yang berbeda. Dalam hal ini perlu adanya suatu cara untuk mengelompokkan dokumen yang mempunyai kesamaan tersebut sehingga pembaca tidak perlu membaca dokumen yang mirip berulang kali. Text mining memiliki cara untuk mengolah dokumen teks. Kemiripan dokumen dapat diperoleh dengan menggunakan salah satu metode text mining yaitu dengan menemukan keterikatan kata dalam suatu dokumen sehingga tercipta kelompok-kelompok. Dokumen yang ada dalam suatu kelompok, dikatakan mirip. 1

1.2. Latar Belakang Masalah Baik dalam dunia akademis maupun non akademis, terdapat banyak dokumen dalam bentuk teks. Kemiripan antar dokumen yang satu dengan yang lain pun terjadi. Hal ini membuat pembaca seringkali membaca dokumen yang kurang lebih memiliki isi sama hanya karena judul yang berbeda. Secara konvensional untuk menyaring dokumen yang dianggap mempunyai isi yang kurang lebih sama, pembaca dianjurkan membaca sekilas dokumen yang baru saja diperolehnya dan membandingkan dengan dokumen yang sudah pernah dibacanya terdahulu. Dengan kata lain, pembaca akan membaca dokumen yang mirip tersebut lebih dari satu kali. Salah satu cara untuk membantu mencari kemiripan antar dokumen adalah dengan melakukan analisis terhadap dokumen-dokumen tersebut secara harafiah. Berdasarkan isi dari dokumen-dokumen tersebut maka diperoleh beberapa pola pengelompokkan kata. Kemudian dokumen-dokumen yang sedang dianalisis dimasukkan ke dalam kelompok tersebut berdasarkan nilai kemiripan yang diperoleh. Setelah dokumen-dokumen masuk dalam kelompok masing-masing maka akan tampak bahwa dokumen yang berada dalam kelompok yang sama berarti mirip. Jika analisis ini dilakukan secara manual, tentu membutuhkan waktu dan tenaga yang cukup banyak, apalagi jika dokumen yang dianalisis cukup banyak dan tebal. Selain itu, analisis secara manual juga akan menghasilkan hasil analisis yang kurang tepat. 1.3. Rumusan Masalah Analisis kemiripan dokumen dapat dilakukan dengan mengetahui kata-kata penting atau kata-kata memiliki arti yang ada pada suatu dokumen kemudian dibandingkan dengan dokumen yang lain. Suatu dokumen dapat dikatakan mirip dengan dokumen lain jika jumlah kemunculan kata-kata penting dalam dokumen satu dan lainnya hampir sama. Misalnya dalam dokumen A sering muncul katakata: komputer, apple, software, hardware, dan dalam dokumen B, kata-kata 2

tersebut pun sering muncul dibandingkan dengan kata-kata lain. Maka, dokumen A dan dokumen B dapat dikatakan mirip. Pada kasus ini akan dilakukan analisis dengan menggunakan metode text mining terhadap sekumpulan dokumen teks untuk menentukan kemiripan antar dokumen tersebut. Metode yang digunakan adalah salah satu metode clustering yaitu Frequent Term Based Text Clustering. Cluster-cluster dibentuk berdasarkan keterkaitan antar kata dengan nilai keterikatan minimal yang diinputkan. Setelah clustercluster terbentuk, dokumen yang ada dikelompokkan ke dalam cluster-cluster tersebut. Dokumen yang berada pada cluster yang sama dianggap mirip. 1.4. Batasan Masalah Agar pembahasan menjadi terfokus, maka dibuat batasan masalah sebagai berikut : 1. Jumlah minimal dokumen yang dicek kemiripannya dalam satu kali pengecekan adalah 3 (tiga) buah dokumen 2. Dalam sebuah dokumen keseluruhan isi dokumen dalam format teks. 3. Dokumen teks yang digunakan dalam format.txt. 4. Program bantu ini ditujukan untuk dokumen berbahasa Indonesia. 5. Program bantu ini tidak memperhatikan masalah morfologi bahasa (semantik) serta tidak menggunakan proses stemming. 1.5. Spesifikasi Sistem Sistem yang akan dibuat adalah program bantu pendeteksian kemiripan dokumen. Pada program bantu pendeteksian kemiripan dokumen ini digunakan metode Clustering dalam text mining dengan algoritma Frequent Term Based Text Clustering sehingga dapat ditentukan kemiripan antara dokumen satu dengan yang lainnya. 3

Sistem menerima masukan berupa dokumen dan nilai keterikatan antar kata yang diinginkan. Semakin tinggi nilai keterikatan yang diinputkan, maka semakin spesifik cluster-cluster yang didapatkan. Hasil pendeteksian kemiripan suatu dokumen pada suatu cluster adalah kelompok-kelompok yang berisi dokumen teks yang mirip, pada setiap kelompoknya yang ditampilkan dalam bentuk grafik dan teks. Selain daripada itu terdapat fasilitas untuk mencetak hasil pendeteksian tersebut ke dalam kertas. Untuk mendukung kelancaran penerapan sistem komputerisasi ini, maka dibuatkan hardware dan software yang mendukung. Kebutuhan itu antara lain : 1.5.1. Kebutuhan minimal perangkat keras Komputer dengan processor minimal Pentium II 450 Mhz atau sekelasnya Memory minimal 128 MB Ruang kosong HardDisk sebesar 5 GB sebagai media penyimpanan VGA Card 8 MB Monitor Mouse dan Keyboard 1.5.2. Kebutuhan minimal perangkat lunak Microsoft Windows XP sebagai sistem operasi, Microsoft Visual Basic 6.0 sebagai bahasa pemrograman yang digunakan untuk membangun perangkat lunak, dan Microsoft SQL Server 2000 sebagai penyedia layanan database. 4

1.5.3. Kebutuhan brainware 1.5.3.1. Pemakai Sistem 1) Dalam mengoperasikan program yang dibuat, user harus dapat dapat mengoperasikan sistem operasi Microsoft Windows NT /Microsoft Windows 98 2) Dapat menentukan batas-batas yang akan dipakai dalam melakukan analisis clustering 1.5.3.2. Pengembang sistem: 1) Pengembang sistem diharapkan mengetahui dasar pemograman dengan Microsoft Visual Basic 6.0 dan Microsoft SQL Server 2000 serta konsep dan perancangan basis data, 2) Mengetahui teori dan cara kerja metode Frequent Term Based Text Clustering yang diimplementasikan. 1.6. Metodologi Penelitian Metode yang digunakan dalam Penelitian Tugas Akhir ini antara lain: 1) Penelitian pustaka a) Dilakukan dengan studi pustaka / literatur dengan menggunakan buku-buku yang mendukung proses pelaksanaan Tugas Akhir. b) Mencari informasi melalui internet untuk membantu membangun sistem. 2) Penelitian lapangan Pengamatan dan studi tentang kebutuhan-kebutuhan yang mendasar untuk pembangunan sistem. 3) Penelitian laboratorium Pemrograman, pengujian dan perbaikan kesalahan, desain tatapmuka software yang berlangsung di laboratorium. 5

1.7. Tujuan Penelitian 1.7.1. Untuk Mahasiswa 1) Agar mahasiswa mampu untuk mengimplementasikan teori yang didapat ke dalam suatu karya ilmiah yang memiliki bobot akademis dan dapat dipertanggungjawabkan. 2) Melengkapi sebagai prasyarat yang harus ditempuh oleh mahasiswa jurusan teknik informatika guna memperoleh gelar sarjana strata 1. 1.7.2. Untuk Pemakai Sistem Agar pendeteksian kemiripan dokumen lebih efektif dan efisien. 1.8. Jadwal Penulisan Total waktu yang direncanakan untuk penyelesaian tugas akhir ini adalah 10 minggu. Berikut adalah penjabaran tahapan tugas akhir: Kegiatan MARET APRIL MEI Proposal Penyusunan Bab 1 Penyusunan Bab 2 Penyusunan Bab 3 Pemograman Analisis hasil output Penyusunan Bab 4 Penyusunan Bab 5 6

1.9. Sistematika Penulisan Guna mempermudah proses penyusunan, pembacaan dan pemahaman laporan tugas akhir ini, maka penulis menyusun sistematika penulisan sebagai berikut : Bab 1: Pendahuluan Merupakan bab yang menyajikan pendahuluan, latar belakang dan batasan masalah yang dihadapi, rumusan masalah, tujuan, jadwal penulisan dan sistematika laporan. Bab 2: Landasan Teori Bab ini menjelaskan mengenai definisi-definisi serta dasar-dasar pengetahuan yang terkait dalam pembuatan program bantu pendeteksian kemiripan teks. Bab 3: Perancangan Sistem Membahas tentang perancangan input, output, proses, dan database serta kamus data program bantu pendeteksian kemiripan dokumen. Bab 4: Implementasi Sistem Berisi penjelasan program, fungsi-fungsi tiap form, dan pengujian sistem dengan sekumpulan dokumen teks. Bab 5: Penutup Berisi kesimpulan dan saran untuk pengembangan program. 7