STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. dari pendayagunaan teknologi khususnya teknologi informasi. Penjualan elektronik atau yang akrab di sebut e-commerce ( electronic


Penerapan Algoritma K-Means untuk Clustering

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN Latar Belakang

STMIK GI MDP SISTEM INFORMASI PEMBELAJARAN BERBASIS E-LEARNING (STUDI KASUS SMA NEGERI 18 PALEMBANG)

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

STMIK GI MDP. Program Studi Sistem Informasi Skripsi Sarjana Komputer Semester Genap 2010/2011

BAB I PENDAHULUAN. Dari tahun ke tahun sudah tidak dapat dipungkiri bahwa teknologi informasi

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang. Perkembangan teknologi yang sangat pesat saat ini membawakan pengaruh yang

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN. merasakan perlu adanya sistem untuk mengelolah file-file proyek, karena

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Genap Tahun 2010/2011

BAB IV PREPROCESSING DATA MINING

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

1.5 Metode Penelitian

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB 1 PENDAHULUAN Pengantar

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

Politeknik Kesehatan Kemenkes Jakarta I merupakan salah satu unit pelaksana teknis di lingkungan Kementerian Kesehatan yang menyelengarakan

DAFTAR GAMBAR. Judul... Halaman

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Genap tahun 2010/2011

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN 1.1 Latar Belakang

1.2. Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. konsumen. Inovatif dalam arti harus menjual produk-produk yang sesuai

BAB 1 PENDAHULUAN. kegiatan belajar mengajar yang efektif.

BAB I PENDAHULUAN. digunakan untuk mengamankan data ada bermacam-macam. Setiap metode

STMIK GI MDP ANALISIS DAN PERANCANGAN SISTEM INFORMASI AKADEMIK BERBASIS WEB PADA SMA NEGERI 7 PALEMBANG

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Dalam dunia pendidikan saat ini biasanya instansi pemerintahan menetapkan

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB 1 PENDAHULUAN. internet. Website ini dapat di akses 24 jam dari berbagai tempat. akademik putra/putrinya tanpa harus hadir ke sekolah.

BAB I PENDAHULUAN. Ilmu yang mempelajari tentang cara-cara pengamanan data dikenal dengan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

STMIK GI MDP. Program Studi Komputerisasi Akuntansi Tugas Akhir Ahli Madya Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN. Jakarta menerapkan kurikulum operasional pendidikan yang disusun dan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Perkembangan teknologi informasi dapat dimanfaatkan untuk meningkatkan kinerja dan

STMIK GI MDP. Program Studi Komputerisasi Akuntansi Tugas Akhir Ahli Madya Komputer Semester Ganjil Tahun 2009/2010

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

STMIK GI MDP. Program Studi Komputerisasi Akuntansi Tugas Akhir Ahli Madya Semester Ganjil 2009/2010

BAB III METODOLOGI PENELITIAN. Desain penelitian adalah tahapan atau gambaran yang akan dilakukan

BAB 1 PENDAHULUAN. Di zaman yang semakin modern pada saat ini, masyarakat luas tentu tidak asing

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

STMIK GI MDP. Program Studi Komputerisasi Akuntansi Tugas Akhir Ahli Madya Semester Ganjil Tahun 2009/2010

BAB 1 PENDAHULUAN. Perkembangan teknologi yang sedemikian pesat membuat manusia

BAB 1 PENDAHULUAN. yang sudah maju seperti Amerika, Eropa, Jepang dan lain sebagainya.

PENDAHULUAN. 1.1 Latar Belakang

STMIK GI MDP. Program Studi Komputerisasi Akuntansi Tugas Akhir Ahli Madya Komputer Semester Ganjil Tahun 2009/2010

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB 1 PENDAHULUAN. lepas dari komputer, sebagian besar aktivitas yang dilakukan oleh manusia

BAB III METODOLOGI PENELITIAN

STMIK MDP ANALISIS DAN PERANCANGAN APLIKASI PEMBELAJARAN ONLINE PADA SMA NEGERI 13 PALEMBANG. Deviyarti Siregar Mia Karina Utami

STMIK GI MDP. Program Studi Sistem Informasi Kekhususan Komputerisasi Akuntansi Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN. 1.1 Latar Belakang.

PENERAPAN TEXT MINING DAN VECTOR SPACE MODEL PADA WEB-BASE KNOWLEDGE MANAGEMENT SYSTEM ( STUDI KASUS TEKNIK INFORMATIKA UPN ) TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 1 PENDAHULUAN Latar Belakang Masalah

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

STMIK GI MDP. Program Studi Sistem Informasi Skripsi Sarjana Komputer Semester Ganjil Tahun 2008/2009

BAB I PENDAHULUAN. dana untuk investasi. Banyak sekali bidang usaha di Indonesia yang dapat

BAB 1 PENDAHULUAN. 1.4 Latar Belakang. Dalam kondisi administrasi Dinas Komunikasi dan Informatika sekarang sangat

STMIK GI MDP ANALISIS DAN PERANCANGAN APLIKASI PEMBELAJARAN BERBASIS WEB PADA SMA NEGERI 3 PALEMBANG

STMIK GI MDP ANALISIS DAN PERANCANGAN WEBSITE PENJUALAN PELUMAS PERTAMINA PADA PT. MUSIANA PALEMBANG

BAB 1 PENDAHULUAN. mudah berpartisipasi, berbagi, dan menciptakan isi meliputi blog, jejaring sosial, wiki,

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DOKUMEN E-JURNAL STMIK GI MDP

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil tahun 2009/2010

BAB I PENDAHULUAN. sebagai sumber pertama dan utama yang banyak memuat ajaran-ajaran yang

BAB I PENDAHULUAN 1.1. Latar Belakang

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN I.1.

BAB 3 ANALISA DAN PERANCANGAN

Transkripsi:

STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI 2 PALEMBANG Lili Andriani 2007250026 Kgs. M. Iqbal 2007250079 Abstrak Dalam berbagai organisasi seperti kantor, sekolah, perguruan tinggi dan industri saat ini masih mempertahankan banyak informasi dalam bentuk dokumen, namun khusus pada organisasi sekolah maka dokumen tentang materi pelajaran, dokumen soal-soal ujian dan koleksi berbagai dokumen lainnya itu sangatlah penting karena dokumen tersebut berisi miliaran informasi. Salah satu cara untuk mengatasi dokumen yang luar biasa banyak adalah analisis cluster dan menyebabkan kebutuhan untuk mengatur seperangkat besar dokumen tersebut kedalam kategori melalui clustering. Hal ini digunakan untuk membagi dokumen yang besar ke dalam kelompok dokumen yang saling berkaitan erat atau memiliki ukuran kesamaan. Kami mengusulkan ukuran kesamaan baru untuk menghitung kesamaan dokumen berbasis teks berdasarkan Term Frequency and Inverse Document Frequency (TF/IDF) menggunakan Vector Space Model, dan menerapkan ukuran kesamaan baru itu ke dalam Clustering Hierarchical Agglomerative. Model ini akan menyediakan dokumen yang memiliki kesamaan dan perhitungan yang akurat serta dapat meningkatkan efektivitas teknik clustering. Hasil dari pengelompokan dokumen sejenis dengan proses clustering diharapkan akan membantu pengguna menemukan informasi yang relevan, lebih cepat, dan akan memungkinkan untuk pencarian dokumen pada arah yang lebih tepat. Kata Kunci : Analisis Cluster, Vector Space Model, Term Frequency and Inverse Document Frequency dan Clustering Hirarki Agglomerative Algoritma. vii

xvii

BAB 1 PENDAHULUAN 1.1 Latar Belakang Tingginya penggunaan internet juga telah memacu pesatnya pertumbuhan dan pertukaran informasi. Tidak hanya dalam dunia maya, tetapi jumlah informasi dalam bentuk text juga semakin banyak digunakan di berbagai institusi dan sekolah. Jumlah dokumen elektronik yang semakin besar merupakan sumber informasi yang berharga. Semakin banyak dokumen yang ada maka semakin banyak juga data yang tidak mudah untuk ditelusuri dan dikelompokan sesuai dengan kategori yang ada. kesalahan pada kategorisasi masih bisa terjadi oleh admin sehingga dapat kemungkinan terjadi kesalahan informasi. Melihat keadaan tersebut, maka penulis ingin membuat suatu Fungsi kategorisasi data secara otomatis yang akan mempermudah dalam hal penentuan data yang diinginkan oleh admin. Dengan hanya mengetikkan judul, deskripsi dan memasukkan source dari dokumen maka dokumen akan otomatis terkategorisasi ke dalam topik yang bersangkutan. Begitu juga dengan pengguna yang menggunakan website ini untuk mencari informasi yang diperlukan lebih terarah, di mana saat pengguna menginput kata kunci, maka akan langsung diarahkan kepada artikel yang telah tersedia pada 1

2 Website SMA Negeri 2 Palembang ini saja, sehingga pencarian lebih cepat dan tepat. Pengelompokan (clustering) dokumen merupakan sebuah cara yang dapat digunakan untuk mempermudah pencarian dokumen dalam database. Clustering merupakan salah satu metode dalam data mining yang bisa digunakan untuk mengelompokkan data. Clustering merupakan proses pengelompokan data sehingga semua anggota dari bagian data memiliki kemiripan berdasarkan perhitungan jarak antara kata dalam judul dokumen. Salah satu aplikasi dari clustering adalah document clustering. Tahapan clustering adalah: representasi dokumen, pengunaan cluster algorithm, dan evaluasi. Yang diberikan sebagai masukan dalam dokumen clustering adalah source dari dokumen dan similarity yang akan digunakan untuk menemukan beberapa cluster dari dokumen yang saling terkait satu sama lainnya. Dalam membentuk dokumen clustering ada beberapa metode yang dapat digunakan, tetapi pada umumnya metode yang sering digunakan yaitu: metode Clustering Hirarki Agglomerative yang merupakan salah satu bagian dari metode hirarki. Berdasarkan hal tersebut, maka penulis mencoba akan melakukan pengelompokan dokumen berdasarkan metode hirarki yang akan di implementasikan pada website SMA Negeri 2 Palembang.

3 1.2 Rumusan Masalah Adapun yang menjadi rumusan masalah dari penelitian ini adalah Bagaimana mengimplementasikan dan mengukur efektifitas dari metode clustering hirarki agglomerative dalam mengkatagorisasikan/mengelompokan suatu dokumen pada website SMA Negeri 2 Palembang? 1.3 Ruang Lingkup Agar pembahasannya tidak meluas, untuk memberi batas pada ruang lingkup penelitian sekaligus memberi fokus pada penyelesaian, maka kami berikan beberapa batasan yaitu: a. Penelitian ini akan menitikberatkan pada pengimplementasian metode clustering hierarchical agglomerative dalam menggelompokan dokumen. b. Berita yang ada di website merupakan informasi yang memang bebas untuk dipublikasikan kesemua orang. c. Dokumen untuk pengujian sistem berasal tentang materi pelajaran, contoh-contoh soal pelajaran serta kegiatan yang berkaitan tentang SMA Negeri 2 Palembang saja. d. Dokumen yang ada pada website SMA Negeri 2 Palembang ini dapat berupa file berbentuk doc, pdf, txt, html, dan gambar (jpg, gif dll). e. Keyword sudah diketahui dengan demikian pada tahap preprocessing yang akan dilakukan perhitungan kemunculan keyword pada setiap judul dari dokumen.

4 f. Deskripsi ditulis oleh admin dimana deskripsi tersebut menggambarkan isi dari dokumen tersebut. g. Dokumen materi dan soal-soal pelajaran yang ada pada website ini hanya dikhususkan untuk siswa SMA Negeri 2 Palembang saja. h. Kategorisasi yang dimaksud tidak mempunyai label (nama) karena pada saat jalannya proses clustering, komputer tidak bisa memberi nama. 1.4 Tujuan dan Manfaat Adapun tujuan serta manfaat dari pembuatan fungsi pengkategorisasian terhadap dokumen pada website SMA Negeri 2 Palembang ini adalah: 1.4.1 Tujuan Penelitian Untuk mengimplementasikan dan mengukur efektifitas metode Clustering Hirarki Agglomerative dalam mengkategorisasikan atau mengelompokan suatu dokumen kedalam topik-topik yang sesuai pada data di website SMA Negeri 2 Palembang secara otomatis. 1.4.2 Manfaat Penelitian Dengan adanya proses clustering dokumen yang menerapkan metode Clustering Hirarki Agglomerative pada website SMA Negeri 2 Palembang ini, maka diharapkan dapat memudahkan admin dalam mengkatagorisasikan data serta mempermudah pengguna dalam mencari dokumen berdasarkan tingkat kemiripan antara dokumen yang tersedia dengan kata kunci yang dicari oleh pengguna.

5 1.5 Metodologi Penelitian Dalam penulisan skripsi ini, adapun langkah-langkah dalam metodologi ini antara lain : 1. Studi Litelatur dan Pengumpulan Data Tahapan yang dilakukan diawali dengan melakukan studi pustaka dari text book dan artikel-artikel guna memberi pemahaman yang fundamental akan konsep yang digunakan pada banyak alternatif penyelesaian pada Clustering Hirarki Agglomerative. Selain itu dilakukan studi literatur yang diperoleh dari internet. Selain itu dilakukan dengan cara membaca buku-buku, dan jurnal ilmiah yang berhubungan dengan metode pencarian data dan programming untuk mendapatkan materi yang dapat dijadikan landasan dan referensi bagi penyusunan skripsi ini. 2. Perancangan Sistem dan Analisis Pada tahap ini dilakukan pemahaman keinginan user dan menganalisis permasalahan lebih mendalam dengan melihat beberapa faktor yaitu pendefinisian masalah, tujuan dan pengembangan sistem. penulis juga mempelajari metode pendekatan hirarki dan melakukan analisis terhadap algoritma yang akan digunakan yaitu Clustering Hirarki Agglomerative.

6 3. Perencanaan Sistem Pada tahap ini, penulis mulai melakukan perancangan dari hasil dua tahap sebelumnya, yaitu mengimplementasikan metode hirarki dan membuat flowchart. 4. Implementasi Pada tahap ini, hasil perancangan mulai akan dibuat yaitu Perancangan dan pengembangan perangkat lunak berdasarkan analisa yang sudah dilakukan dan mengimplementasikan perhitungan dengan metode hirarki yang dibuat dalam bentuk koding program. 5. Pengujian Sistem Pada tahap ini, dilakukan pengujian terhadap sistem yang telah jadi dengan menggunakan data-data yang telah ada. Hasil pengujian ini kemudian dijadikan dasar untuk membuat perbaikan-perbaikan yang diperlukan untuk menghasilkan sistem yang diharapkan. Pengujian sistem dilakukan dengan mencoba mengetikkan berbagai kata kunci dipencarian data. 6. Perbaikan atau Penambahan Data Apabila terdapat kesalahan setelah pengujian, maka sistem tersebut akan diperbaiki dan data pada database akan ditambah sehingga dokumen yang berkaitan tentang materi pelajaraan, contoh-contoh soal, dan dokumen lainnya yang berkaitan tentang SMA Negeri 2 Palembang ini semakin lengkap.

7 7. Analisa dan Simpulan Pada tahap ini, penulis memuat analisa dan simpulan dari sistem yang telah selesai diuji. Membuat suatu kesimpulan dari pengujian sistem penelitian akhir dengan membandingkan apakah hasilnya seperti yang diharapkan pada tujuan penelitian akhir sebelumnya. 1.6 Sistematika Penulisan Sistematika penulisan merupakan gambaran mengenai bab-bab yang disusun oleh penulis dalam laporan skripsi ini. Penulisan skripsi terdiri dari lima bab, dimana tiap bab terdiri dari beberapa sub bab. Susunan garis besar sistematika penulisan skripsi dapat dilihat di bawah ini. BAB 1 PENDAHULUAN Pada bab ini dijelaskan tentang latar belakang pengambilan judul skripsi, lingkup materi yang akan dibahas, rumusan masalah, tujuan dan manfaat dari penelitian, metodologi yang digunakan, serta sistematika penulisan. BAB 2 LANDASAN TEORI Pada bab ini dijelaskan tentang teori umum dan teori khusus secara mendalam mengenai istilah-istilah bidang ilmu yang terkait dalam perancangan fungsi pengkatagorisasian dokumen pada website SMA Negeri 2 Palembang dengan metode hirarki.

8 BAB 3 ANALISIS RANCANGAN DAN ALGORITMA PROGRAM Pada bab ini akan diuraikan tentang spesifikasi perangkat lunak dan perangkat keras yang digunakan untuk penelitian, metodologi yang digunakan, struktur data yang digunakan, rancangan layar dan diagram alir. BAB 4 IMPLEMENTASI DAN ANALISIS PROGRAM Pada bab ini berisi hasil dan pembahasan dari fungsi pengkategorisasian dokumen yang dirancang, meliputi kelebihan/keunggulan yang diperoleh, prosedur dalam pengujian program, dan menganalisis hasil uji coba tersebut berdasarkan fungsionalitas terhadap efektifitas penerapan metode Clustering Hirarki Agglomerative terhadap fungsi pengkategorisasian dokumen dalam website SMA Negeri 2 Palembang ini BAB 5 PENUTUP Pada bab ini berisi rangkuman hasil analisa mengenai perancangan Penerapan metode hirarki untuk kategorisasi dokumen pada SMA Negeri 2 Palembang dalam bentuk kesimpulan dan saran yang dapat dijadikan sebagai acuan untuk pengembangan aplikasi ini lebih lanjut.