DATA TRANSFORMATION PADA DATA MINING ABSTRAK



dokumen-dokumen yang mirip
Task III : Data Transformation (Transformasi Data) Beberapa Pendekatan Transformasi Data. Smoothing. Normalization (#2) Normalization (#1)

DATA PREPROCESSING. Budi Susanto (versi 1.2)

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

Data Preprocessing. oleh: Entin Martiana

Gambar Tahap-Tahap Penelitian

Prof. Dr. Ir. Mauridhi Hery Purnomo, M.Eng Dr. I Ketut Eddy Purnama, ST, MT Dosen Jurusan Teknik Elektro Fakultas Teknik Industri

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE

Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 45 Edisi... Volume..., Bulan 20.. ISSN :

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

SISTEM PENDUKUNG KEPUTUSAN MULTIDIMENSI MENGGUNAKAN K-MEANS CLUSTERING BERBASIS MAHALANOBIS DISTANCE

PE DAHULUA. Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

Penggunaan Pohon Keputusan untuk Data Mining

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Tahapan Proses KDD (Peter Cabena)

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

BAB 2 LANDASAN TEORI

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

BAB II LANDASAN TEORI

Abidah Elcholiqi, Beta Noranita, Indra Waspada

2. Data & Proses Datamining

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PRODI S1 STATISTIKA FMIPA-ITS RENCANA PEMBELAJARAN Data Mining Kode/SKS: SS / (2/1/0) Dosen : SWP, KF Semester : VII

BAB III LANDASAN TEORI

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

MODUL MATA KULIAH DATA MINING (MIK 620 SESI 10) DISUSUN OLEH. NOVIANDI, M.Kom NIDN

PENGEMBANGAN PERANGKAT LUNAK DIAGNOSA PENYAKIT DIABETES MELLITUS TIPE II BERBASIS TEKNIK KLASIFIKASI DATA ABSTRACT

Versi Online tersedia di : JURNAL TECH-E (Online)

Jurnal Format Volume 6 Nomor 2 Tahun 2017 :: ISSN :

INDUKSI DECISION TREE UNTUK PREDIKSI JUMLAH BURUH YANG BERHENTI BEKERJA ABSTRAK

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.

PENGELOMPOKAN MAHASISWA MENGGUNAKAN ALGORITMA K-MEANS

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

BAB 2 LANDASAN TEORI

ERROR-TOLERANT FASCICLES UNTUK COLLABORATIVE FILTERING ABSTRAK

PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB 3 METODE PENELITIAN

Penerapan Algoritme C4.5 Pada Klasifikasi Produksi Ubi Jalar di Pulau Jawa

BAB II LANDASAN TEORI

Analisa Data Rekam Medis Menggunakan Teknik Data Mining Association Rules Dengan Algoritma Clustering

BAB III METODE PENELITIAN

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN)

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

DATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

DECISION TREE BERBASIS ALGORITMA UNTUK PENGAMBILAN KEPUTUSAN

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

ALGORITMA NEAREST NEIGHBOR UNTUK MENENTUKAN AREA PEMASARAN PRODUK BATIK DI KOTA PEKALONGAN

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

Implementasi Data Mining dengan Metode Klastering untuk Meramalkan Permintaan Pasar (Studi Kasus PT. Nutrifood Indonesia )

CLUSTERING UNTUK DATA KOMPETENSI WIDYAISWARA MENGGUNAKAN ALGORITMA KMEANS

PERBANDINGAN DECISION TREE

Materi 3 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

BAB II LANDASAN TEORI

APLIKASI K-MEANS UNTUK PENGELOMPOKKAN MAHASISWA BERDASARKAN NILAI BODY MASS INDEX (BMI) & UKURAN KERANGKA

PERBANDINGAN AKURASI KLASIFIKASI TINGKAT KEMISKINAN ANTARA ALGORITMA C 4.5 DAN NAÏVE BAYES

Penerapan Metode KMeans dan Cobweb Terhadap Analisis Prestasi Akademik Mahasiswa yang Mengikuti Kegiatan Kemahasiswaan

TINJAUAN PUSTAKA. Definisi Data Mining

BAB II TINJAUAN PUSTAKA

Deteksi Outlier Menggunakan Algoritma Block-based Nested Loop (Studi Kasus: Data Akademik Mahasiswa Prodi PS Universitas XYZ)

DATA MINING WORKFLOW DENGAN SEGITIGA FUZZY. A ang Subiyakto Abstrak

Student Clustering Based on Academic Using K-Means Algoritms

BAB III METODOLOGI PENELITIAN

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

Berkembangnya teknologi dan Informasi saat ini telah melahirkan gunungan data di bidang ilmu pengetahuan, bisnis dan pemerintah. Kemampuan teknologi i

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

REKOMENDASI PEMBELIAN PERSONAL KOMPUTER DENGAN METODE RANKED CLUSTERING

ANALISIS DAN IMPLEMENTASI ALGORITMA RELIEFF UNTUK FEATURE SELECTION PADA KLASIFIKASI DATASET MULTICLASS

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

PENERAPAN ALGORITMA K-MEANS DALAM CLUSTERING DATA MINING PADA PENENTUAN KELOMPOK UANG KULIAH TUNGGAL (UKT) DI UNIVERSITAS SILIWANGI

Algoritma Data Mining

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB III METODE PENELITIAN

Penerapan Algoritma K-Means dalam Data Mining untuk Peminatan Jurusan Bagi Siswa Kelas X (Studi Kasus: SMA Negeri 29 Jakarta)

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

ABSTRAK. Kata kunci: Sistem Pakar, Pembelajaran Mesin, Weka, Support Vector Machine, Regresi Logistik, Demam Berdarah, Malaria, Typhus

Penentuan Harga Jual Properti secara Otomatis menggunakan Metode Probabilistic Neural Network

IMPLEMENTASI METODE K-MEANS PADA PENERIMAAN SISWA BARU

BAB 2 LANDASAN TEORI

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. dan fakor-faktor penyebab masalah tersebut bisa terjadi diantaranya. dimanfaatkan dan dikelola dengan baik.

MODUL 12 Model Prediktif

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

PERBANDINGAN KINERJA ALGORITMA KLASIFIKASI NAÏVE BAYESIAN, LAZY-IBK, ZERO-R, DAN DECISION TREE- J48

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

Transkripsi:

DT TRNSFORMTION PD DT MINING Hartarto Junaedi*), Herman Budianto**), Indra Maryati**), dan Yuliana Melani**) *) Jurusan Sistem Informasi Bisnis Sekolah Tinggi Teknik Surabaya **) Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya aikawa@stts.edu, herman@stts.edu, maryati@stts.edu, yulianamelani@gmail.com BSTRK Mempersiapkan data adalah tahapan preprocessing yang sangat penting pada data mining, alasan utamanya adalah karena kualitas dari input data sangat mempengaruhi kualitas output analisis yang dihasilkan. da beberapa teknik untuk data preprocessing, dimana salah satunya adalah data transformation yang mentransformasi atau mengkonsolidasi data ke bentuk yang cocok untuk mining. Penelitian ini membahas beberapa pendekatan yang terdapat pada data transformation dan melakukan analisis metode yang dimiliki untuk masing-masing pendekatan tersebut. Selain itu juga dilakukan pembahasan dan analisis algoritma untuk data transformation dengan beberapa metode dan implementasinya pada Weka. Weka adalah tool data mining berbasis Java yang cukup populer dan banyak digunakan untuk melakukan eksperimen dan uji coba. Selain itu, ditunjukkan bagaimana cara mengintegrasikan metode baru yang dibuat sendiri ke dalam Weka melalui beberapa ketentuan. Kata kunci : Data Mining, Data Transformation, Preprocessing, Weka BSTRCT Preparing data is an important preprocessing step for data mining. The main reason is that the quality of the input data strongly influences the quality of the analysis result. There are a number of data preprocessing techniques, one of them is data transformation, which transforms or consolidates the data into forms appropriate for mining. This paper discusses the approaches of data transformation and some analysis methods to each of the approaches. Several algorithms are obtained from Weka, which are comprehensive suite of Java class libraries that implement many-state-of-the-art machine learning and data mining algorithm. Its also shows how to integrate the new methods into Weka environment. Keywords : Data Mining, Data Transformation, Preprocessing, Weka 1. DT TRNSFORMTION da 7 (tujuh) tahapan proses data mining, dimana 4 (empat) tahap pertama disebut juga dengan data preprocessing (terdiri dari data cleaning, data integration, data selection, dan data transformation), yang dalam implementasinya membutuhkan 93

waktu sekitar 60% dari keseluruhan proses. Dalam data transformation, terdapat beberapa pendekatan/teknik untuk melakukan transformasi data, yaitu smoothing, generalization, normalization, aggregation, dan attribute construction. Gambar 1. Data Mining Process i ( i ). Smoothing Smoothing dilakukan jika data mengandung noise/nilai yang tidak valid terhadap data yang di-mining. Untuk mengatasinya harus dilakukan smoothing (dengan memperhatikan nilai-nilai tetangga). Berikut teknik atau metode untuk smoothing: Binning Metode binning dilakukan dengan memeriksa nilai tetangga, yaitu nilai-nilai yang ada disekelilingnya. Berikut adalah langkah-langkah metode binning: 1. Data diurutkan dari yang terkecil sampai dengan yang terbesar.. Data yang sudah urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi ke dalam bin ada (dua) cara: equal-width (distance) partitioning dan equaldepth (frequency) partitioning. 3. Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by binmeans, smoothing by bin-medians, dan smoothing by bin-boundaries. Clustering Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari cluster/centroid), data yang memiliki noise. lgoritma k-means yang merupakan kategori metode partitioning dapat digunakan jika ukuran database tidak terlalu besar. lgoritma ini didasarkan pada nilai tengah dari objek yang ada dalam cluster. lgoritma k-means meminta inputan parameter k, dan mempartisi satu set n objek ke dalam k cluster sehingga menghasilkan tingkat kemiripan yang tinggi antar objek dalam kelas yang sama (intra-class similarity) dan tingkat kemiripan yang paling rendah antar objek dalam kelas yang berbeda (inter-class similarity). Kemiripan cluster diukur dengan menghitung nilai tengah dari objek yang ada di dalam cluster. Regression Linear regression memodelkan sebuah random variable, Y (disebut response variable) sebagai sebuah fungsi linier dari random variable yang lain, X (disebut sebagai predictor variable), dengan persamaan empiris: Y = α + β X, dimana α dan β adalah koefisien regresi. Koefisien ini dapat dihitung menggunakan metode least squares dengan persamaan sebagai berikut: n xi yi xi yi β = danα = y β x, dimana x adalah nilai rata- n x x rata dari x 1, x,, x i dan y adalah nilai rata-rata dari y 1, y,, y i. 94

B. Generalization Generalization atau generalisasi adalah ketika data level rendah (low-level data) diganti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval. Gambar. Proses Diskretisasi Proses diskretisasi secara umum terdiri dari 4 tahapan (gambar ), yaitu: 1. Sorting, melakukan sorting nilai atribut continuous yang mau didiskretisasi.. Memilih cut-point, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy. 3. Splitting, dilakukan evaluasi cut-point yang ada dan pilih satu yang terbaik dan lakukan split range nilai atribut continuous ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai. 4. Stopping criterion, diperlukan untuk menghentikan proses diskretisasi. da 5 metode untuk melakukan diskretisasi pada atribut continuous, yaitu: binning, cluster analysis, histogram analysis, entropy-based discretization, dan segmentation by natural partitioning. Dua metode pertama telah dibahas pada data smoothing, pada subbab ini akan dibahas 3 metode yang lainnya. Histogram nalysis Seperti binning sebelumnya, pertama data harus diurutkan dahulu kemudian membagi data ke dalam keranjang dan menyimpan nilai rata-rata (total) tiap keranjang. Untuk menentukan jumlah keranjang dan nilai atribut yang dipartisi, ada beberapa aturan partisi yaitu: equal-width, equal-depth, V-Optimal, dan MaxDiff. V-Optimal dan MaxDiff histogram cenderung lebih akurat dan praktis. Entropy-Based Discretization Diskretisasi berdasarkan nilai entropy merupakan metode diskretisasi secara supervised. Seperti metode diskretisasi lainnya, atribut yang mau didiskretisasi diurutkan dahulu. lgoritma supervised ini menggunakan class information entropy dari partisi untuk memilih batas bin dalam melakukan diskretisasi. Jika diberikan sebuah data set S, sebuah atribut, dan sebuah batas partisi T, class information entropy dari partisi dengan threshold T adalah: 95

S1 S = Ent( S ) Ent( ) dimana S1 dan S E (, T; S) 1 + S S S adalah data yang ada pada S secara berturut-turut untuk kondisi < T dan T. Fungsi entropy Ent untuk sekumpulan data yang diberikan, dihitung berdasarkan distribusi class dari data pada kumpulan tersebut. Contohnya diberikan m class, entropy dari S 1 adalah: m Ent( S1) = p i log( p i ) dimana p i adalah probabilitas class i pada S 1. Nilai dari i= 1 Ent( S ) dihitung dengan cara yang sama. Tmin Untuk atribut, batas yang meminimalkan fungsi entropy (atau memaksimalkan information gain) dari semua batas partisi yang mungkin, dipilih sebagai batas partisi. Metode ini dapat digunakan secara rekursif untuk kedua partisi sampai kondisi berhenti tercapai, yaitu: Gain (, T; S) < δ dimana δ adalah metode stopping criterion yang mau diimplementasikan. Segmentation by Natural Partitioning Secara umum, aturan partisi terhadap data dibagi menjadi 3, 4, atau 5 interval dengan range yang sama (equal-width interval) secara rekursif dan perlevel, berdasarkan range nilai pada most significant digit. turannya adalah sebagai berikut: - Jika sebuah interval meliputi 3, 6, 7, atau 9 distinct value pada most significant digit (msd), maka mempartisi range tersebut ke dalam 3 interval. - Jika sebuah interval meliputi, 4, atau 8 distinct value pada msd, maka mempartisi range tersebut ke dalam 4 equal-width interval. - Jika sebuah interval meliputi 1, 5, atau 10 distinct value pada msd, maka mempartisi range tersebut ke dalam 5 equal-width interval. C. Normalization Normalization atau normalisasi adalah proses transformasi dimana sebuah atribut numerik diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0 sampai 1.0. da beberapa metode/teknik yang diterapkan untuk normalisasi data, diantaranya: Min-max Normalization Min-max normalization memetakan sebuah value v dari atribut menjadi v ' ke dalam range [new_min, new_max ] berdasarkan v min rumus: v' = ( new_max new_min ) max min + new_min Z-Score Normalization Disebut juga zero-mean normalization, dimana value dari sebuah atribut dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut. Sebuah value v dari atribut dinormalisasi menjadi v ' dengan rumus: v v' = dimana σ dan σ adalah nilai rata-rata dan standar deviasi dari atribut. Normalization by Decimal Scaling 96

Normalisasi yang diperoleh dengan melakukan penggeseran titik desimal dari value sebuah atribut. Jumlah titik desimal yang digeser tergantung dari nilai absolut maksimum dari atribut. D. ggregation dalah operasi summary (peringkasan) diaplikasikan pada data numerik. Misalnya pada data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data cube (operasi roll up/meringkas). E. ttribute/feature Construction Pada attribute construction, atribut baru dibentuk dari atribut yang sudah ada dan ditambahkan bersama atribut lainnya untuk membantu meningkatkan ketelitian/ketepatan dan pemahaman struktur dalam high-dimensional data. Contohnya, mau menambahkan atribut luas berdasarkan atribut tinggi dan lebar. tau, atribut lama kerja jadi dosen dan usia bisa digantikan dengan senioritas, yunioritas, dan orientasi.. LGORITM DT TRNSFORMTION PD WEK Dalam pelaksanaan penelitian ini dibutuhkan beberapa tahap proses yang harus dilakukan. Tahapan-tahapan yang dilakukan adalah sebagai berikut:. Smoothing EmptyttributeFilter: menghapus semua atribut yang hanya mempunyai satu nilai, mempunyai satu nilai dan ada nilai yang tidak terisi, atau semua nilai atributnya tidak terisi. B. Generalization DiscretizeFilter: mendiskretisasi range dari atribut numerik yang ada pada data set ke dalam atribut yang bertipe nominal. MakeIndicatorFilter: menciptakan sebuah data set baru dengan sebuah atribut boolean menggantikan sebuah atribut nominal. MergeTwoValuesFilter: mengga-bungkan dua buah nilai dari sebuah atribut nominal ke dalam satu kategori. NumericToBinaryFilter: mengu-bah semua atribut numerik pada data set ke dalam atribut yang bertipe biner. C. Normalization NormalizationFilter: menormalisasi semua nilai atribut numerik pada data set dengan interval [0..1]. D. ttribute/feature Construction ddfilter: menambahkan sebuah atribut baru ke dalam data set, atribut baru tersebut akan berisi missing value. ttributeexpressionfilter: menciptakan sebuah atribut baru dengan menggunakan ekspresi matematika pada atribut yang sudah ada. 97

E. lgoritma Tambahan NominalToBinaryFilter: mengubah semua atribut yang bertipe nominal yang ada pada data set ke dalam atribut biner. NonSparseToSparseFilter: mengubah semua instance yang ada pada data set ke dalam format sparse. NumericTransformFilter: mengubah atribut numerik berdasarkan fungsi transformasi yang digunakan. ObfuscateFilter: mengganti nama relasi, semua nama atribut yang ada, dan semua nilai atribut yang bertipe nominal dan string menjadi nama lain. SparseToNonSparseFilter: mengubah semua sparse instance yang terdapat pada data set ke dalam format non-sparse. StringToNominalFilter: mengubah atribut bertipe string menjadi atribut bertipe nominal. 3. MENGINTEGRSIKN CLSS KE DLM WEK Class baru yang dibuat harus mengikuti beberapa ketentuan agar dapat dijalankan seperti class-class data transformation yang lainnya. Berikut adalah beberapa persyaratan yang harus diperhatikan dalam menulis sebuah filter: Harus merupakan turunan dari superclass Filter. Menulis sebuah filter baru pada dasarnya meng-override, hanya tiga method yang perlu dioverride/diubah untuk mengimplementasikan sebuah filter dengan fungsionalitas yang baru, yaitu setinputformat(), input(), dan batchfinished(). Jika filter dapat memproses setiap instancenya secara langsung, batchfinished() tidak perlu diubah. pabila metode yang ditambahkan membutuhkan parameter option yang diinputkan oleh user, maka class yang dibuat harus mengimplementasikan interface OptionHandler dan kemudian meyediakan code untuk methodnya. Interface OptionHandler mendefinisikan method yang diimplementasikan oleh semua class yang dapat memproses option pada baris perintah (command line option). Tidak diperbolehkan melakukan perubahan data input, tidak diijinkan menambahkan instance baru ke dalam data set. Dihindari dengan menyimpan sebuah copy-an data set yang masih kosong ke dalam m_inputformat. Setiap class yang meng-override method setinputformat() harus memanggil method setinputformat() milik class induk, hal ini dilakukan dengan code: super.setinputformat (Instances). Instance yang diinputkan ke dalam filter tidak boleh di-push-kan secara langsung ke dalam queue output melainkan harus digantikan dengan sebuah objek baru dari class Instance. Misalnya dengan contoh sederhana ingin melewatkan semua instance pada data set dengan format non-sparse tanpa terjadi perubahan, maka dilakukan dengan memanggil method copy() dari class Instance sebelum menambahkannya ke dalam queue output. 4. PENUTUP Beberapa kesimpulan yang didapat dari penelitian ini adalah pemilihan algoritma yang digunakan tergantung perlu atau tidaknya melihat semua data set sebelum melakukan proses pada setiap instancenya, apakah menggunakan algoritma 98

yang memproses setiap instance secara langsung, atau algoritma yang membaca semua training instance. Metode yang sama dapat digunakan untuk pendekatan data transformation yang berbeda, contohnya adalah metode binning dan clustering yang dipakai pada data smoothing juga digunakan untuk generalization. Hal yang sama juga terjadi pada tahapan yang lain pada data preprocessing. lgoritma data transformation yang diimplementasikan dapat bersifat supervised atau unsupervised. Semua algoritma filtering pada Weka khususnya algoritma yang mengimplementasikan data transformation, menjalankan method utama yang sama untuk melakukan preprocessing pada data set. Tentunya beberapa method perlu dilakukan override untuk implementasi filter dengan fungsionalitas yang berbeda. Pemanfaatan Weka untuk preprocessing, dapat ditambahkan metode baru untuk melakukan transformasi data dan mengintegrasikannya ke dalam lingkungan Weka dengan memperhatikan beberapa ketentuan yang harus dipatuhi. Namun Weka selalu berkembang seiring dengan waktu, telah mempunyai beberapa versi dan terus diupdate sampai saat ini. lgoritma data transformation yang dimplementasikan pada Weka merupakan sebagian kecil dari keseluruhan sistem yang ada pada Weka. pabila bermaksud untuk membuat sebuah aplikasi data mining, dapat dilakukan dengan mengakses program yang terdapat pada Weka dengan menggunakan bahasa sendiri, karena class library yang dimiliki Weka dapat diakses dari program Java yang dibuat sendiri. 5. DFTR PUSTK Cios, Krzysztof J. dan Lukasz. Kurgan. Trends in Data Mining and Knowledge Discovery. 00. Ding, Qin. Introduction to Data Mining. 004. Dougherty, J., R. Kohavi, dan M. Sahami. Supervised and Unsupervised Discretization of Continuous Features. 1995. Han, Jiawei dan Micheline Kamber. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann. 001. Hortmann, Cay S. dan Garry Cornell. Core Java : Volume I - Fundamentals. California: Sun Microsystems, Inc. 001. Hortmann, Cay S. dan Garry Cornell. Core Java : Volume II - dvanced Features. California: Sun Microsystems, Inc. 000. Liu, H., F. Hussain, C.L. Tan, dan M. Dash. Discretization: n Enabling Technique. 1 Juli 000. Seldi, Thomas. Data Mining lgorithm. 004. Witten, Ian H. dan Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco: Morgan Kaufmann. 1999. 99