BAB IV PREPROCESSING DATA MINING

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI

PERTEMUAN 14 DATA WAREHOUSE

PENDAHULUAN. I.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB III METODOLOGI PENELITIAN

Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika. Knowledge Discovery in Databases (KDD)

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB 3 ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 3 METODE PENELITIAN

BAB II TINJAUAN PUSTAKA

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

BAB I PENDAHULUAN. 1.1 Latar Belakang

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

BAB I PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

1. PENDAHULUAN. Perkembangan teknologi informasi, khususnya teknologi Internet. mudah dan gratis, mengakibatkan informasi berlimpah.

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

Jurnal Informatika Mulawarman Vol. 10 No. 1 Februari

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

3.1 Metode Pengumpulan Data

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. bagi individu yang menempati kamar tidur tersebut. suasana nyaman dan dapat mempengaruhi psikologis penghuni.

BAB 2 LANDASAN TEORI

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

BAB 2 LANDASAN TEORI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB 3 LANDASAN TEORI

UKDW BAB I PENDAHULUAN

BAB 2 TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Di era modern ini, macam-macam makanan sangatlah banyak dan beragam.

Abidah Elcholiqi, Beta Noranita, Indra Waspada

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN.

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. Perkembangan pengetahuan dibidang kecerdasan buatan sedemikian

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

1.2. Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1 Universitas Kristen Maranatha

BAB I PERSYARATAN PRODUK

PENDAHULUAN. Latar belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

Transkripsi:

BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya. Tujuannya preprosesnig dalam data mining adalah menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, dengan indikator sebagai berikut: Mendapatkan hasil yang lebih akurat Pengurangan waktu komputasi untuk large scale problem. Membuat nilai data menjadi lebih kecil tanpa merubah informasi yang dikandungnya. Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk preprocessing seperti : Sampling, menyeleksi subset representatif dari populasi data yangbesar. Transformation, memanipulasi data mentah untuk menghasilkan input tunggal. Denoising, menghilangkan noise dari data Normalization, mengorganisasi data untuk pengaksesan yang lebih spesifik Feature extraction, membuka spesifikasi data yang signifikan. Beberapa cara untuk mentransformasi data adalah (Santosa): 1. Centering Proses transformasi dengan cara mengurangi nilai setiap data dengan ratarata setiap atribut yang ada. Mislakan akan dilakukan transformasi menggunakan pada kolom X, maka Rumus yang digunakan sebagai berikut: 1

Xˆ = X X Xˆ adalah vektor hasil setelah centering, X adalah vektor kolom dan X adalah rata-rata dari kolom yang bersangkutan. Berikut ini contoh implementasi transformasi centering menggunakan Matlab. Buat fungsi centering sebagai berikut: Misalkan terdapat data X, sebagai berikut: Panggil fungsi centering, dengan perintah sebagai berikut 2. Centering Scaling Proses mengubah data sehingga berada dalam skala tertentu. Misalnya antara (0,1), (-1,1) atau skala lain yang dikehendaki. Misalkan data dikonversi dalam skala (0,1) maka Batas Bawah (BB) adalah 0 dan Batas Atas (BA) adalah 1. Jika nilai maximum tiap kolom adalah xmax dan nilai minimunnya adalah xmin, untuk setoap data ke skala baru, untuk setiap data bisa dilakukan operasi. 2

Berikut ini contoh implementasi transformasi centering menggunakan Matlab. Contoh perubahan skala dari suatu data ke dalam interval anatara -1 dan 1 dengan menggunakan fungsi premnmx. B. Preprocessing pada Text Mining Text Mining merupakan Proses menggali, mengolah, mengatur informasi dengan cara meng analisa hubungn-nya, pola-nya, aturan-aturan yang ada di pada data tekstual semi terstruktur atau tidak terstruktur. 3

Prosesnya antara lain yaitu : 1. Document Retrieval ( Temu- Kembali) 2. Document Clustering (Pengelompokan) 3. Document Categorization ( Kategori/ kelas) 1. Document Retrieval (Temu-Kembali) Menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut dengan cara meng inputkan query berupa berupa kata, frasa, kalimat, halaman web yang relevan akan muncul 2. Document Clustering (Pengelompokan) Pengelompokan, mengelompokkan data berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Tujuannya menemukan cluster yang berkualitas dalam waktu yang layak. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. (Multidimension Space) Hasil dari clustering ini belum pasti, bisa 5,10,20, etc kelompok 4

3. Document Categorization (Kategori/ Kelas) Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Mengelompokkan document kedalam 1,2,3 atau lebih kategori tergantung kepada isi document, Pada kategorisasi teks, diberikan sekumpulan kategori (label) dan koleksi dokumen yang berfungsi sebagai data latih, yaitu data yang digunakan untuk membangun model, dan kemudian dilakukan proses untuk menemukan kategori yang tepat untuk dokumen test, yaitu dokumen yang digunakan untuk menentukan akurasi dari model. Misalkan ada sebuah dokumen x sebagai inputan, maka output yang dihasilkan oleh model tersebuat adalah kelas atau kategori y dari beberapa kategori tertentu yang telah didefinisikan sebelumnya (y1,,yk). Adapun contoh dari pemanfaatan kategorisasi teks adalah pengkategorisasian berita ke dalam beberapa kategori seperti bisnis, teknologi, kesehatan dan lain sebagainya; pengkategorisasian email sebagai spam atau bukan; pengkategorisasian kilasan film sebagai film favorit, netral atau tidak favorit; pengkategorisasian paper yang menarik dan tidak menarik; dan penggunaan dari kategorisasi teks yang paling umum adalah kategorisasi otomatis dari web pages yang dimanfaatkan oleh portal Internet seperti Yahoo. Kategorisasi otomatis ini memudahkan proses browsing artikel berdasarkan topik tertentu yang dilakukan oleh user. Salah satu algoritma kategorisasi yang sering digunakan adalah algoritma Naive bayes multinomial. Algoritma ini merupakan algoritma yang menerapkan metode probabilistic learning method. 5