BAB II TINJAUAN PUSTAKA. Bab ini menguraikan tentang teori-teori penunjang yang dipakai dalam

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. Data mining memungkinkan penemuan pola-pola yang menarik, informasi yang

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENEMUKAN FREQUENT ITEMSET DALAM KERANJANG BELANJA

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

2.2 Data Mining. Universitas Sumatera Utara

PENERAPAN METODE ASOSIASI DATA MINING MENGGUNAKAN ALGORITMA APRIORI UNTUK MENGETAHUI KOMBINASI ANTAR ITEMSET PADA PONDOK KOPI

BAB II TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA

BAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket

DATA MINING ANALISA POLA PEMBELIAN PRODUK DENGAN MENGGUNAKAN METODE ALGORITMA APRIORI

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

TINJAUAN PUSTAKA Data Mining

BAB II TINJAUAN PUSTAKA. Turban mendefinisikan Decision Support System sebagai sekumpulan

Timor Setiyaningsih, Nur Syamsiah Teknik Informatika Universitas Darma Persada. Abstrak

II. TINJAUAN PUSTAKA

BAB 2 LANDASAN TEORI. Pada bab ini akan dibahas tentang konsep dasar dan teori-teori pendukung yang berhubungan dengan sistem yang akan dibangun.

BAB II LANDASAN TEORI

APLIKASI DATA MINING ANALISIS DATA TRANSAKSI PENJUALAN OBAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus di Apotek Setya Sehat Semarang)

PENERAPAN ALGORITMA APRIORI DALAM MEMPREDIKSI PERSEDIAAN BUKU PADA PERPUSTAKAAN SMA DWI TUNGGAL TANJUNG MORAWA

ANALISA DAN PERANCANGAN APLIKASI ALGORITMA APRIORI UNTUK KORELASI PENJUALAN PRODUK (STUDI KASUS : APOTIK DIORY FARMA)

Analisis asosiasi Penguasaan ICT Mahasiswa Baru dan Pencapaian Prestasi Akademik Mahasiswa dengan Algoritma Apriori.

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%)

BAB II TINJAUAN PUSTAKA

PENGANTAR SOLUSI DATA MINING

PENERAPAN METODE APRIORI ASOSIASI TERHADAP PENJUALAN PRODUCT COSMETIC UNTUK MENDUKUNG STRATEGI PENJUALAN

BAB II TINJAUAN STUDI DAN LANDASAN TEORI

ANALISA DATA PENJUALAN OBAT DENGAN MENGGUNAKAN ALGORITMA APRIORI PADA RUMAH SAKIT UMUM DAERAH H. ABDUL MANAN SIMATUPANG KISARAN

Pengembangan Aplikasi Market Basket Analysis Menggunakan Algoritma Generalized Sequential Pattern pada Supermarket

Analisis Aturan Asosiasi Data Transaksi Supermarket Menggunakan Algoritma Apriori

APLIKASI DATA MINING UNTUK POLA PERMINTAAN DARAH DI UDD ( UNIT DONOR DARAH ) PMI KOTA SURABAYA MENGGUNAKAN METODE APRIORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah Identifikasi Masalah Masalah Umum

BAB 2 LANDASAN TEORI

Assocation Rule. Data Mining

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Konsep Data Mining DATA MINING & KNOWLEDGE DISCOVERY IN DATABASES. Bertalya Universitas Gunadarma 2009

BAB II TINJAUAN PUSTAKA

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

2.1 Penelitian Terkait

Gambar Tahap-Tahap Penelitian

DATAMINING Anief Rufiyanto.ST (Universitas Pandanaran)

Pola Kompetensi Mahasiswa Program Studi Informatika Menggunakan FP-Growth

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA 2.1 DASAR TEORI Business Analytic

APLIKASI DATA MINING UNTUK MENAMPILKAN INFORMASI TINGKAT KELULUSAN MAHASISWA

PENGGUNAAN ALGORITMA APRIORI UNTUK MENENTUKAN REKOMENDASI STRATEGI PENJUALAN PADA TOSERBA DIVA SKRIPSI

PENGGUNAAN MARKET BASKET ANALYSIS DALAM DATA MINING


IMPLEMENTASI DATA MINING DENGAN ALGORITMA APRIORI PADA TOKO BANGUNAN UD. RUFI SENTOSA JAYA SAMBIREJO - PARE

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

PENENTUAN STRATEGI MARKETING PENJUALAN PRODUK DENGAN ALGORITMA APRIORI

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

PENCARIAN ATURAN ASOSIASI MENGGUNAKAN ALGORITMA APRIORI SEBAGAI BAHAN REKOMENDASI STRATEGI PEMASARAN PADA TOKO ACIICA

BAB II LANDASAN TEORI

ANALISIS ASSOCIATION RULES ALGORITMA APRIORI PENJUALAN KAOS TRAVELLING

PENINGKATAN PERFORMA ALGORITMA APRIORI UNTUK ATURAN ASOSIASI DATA MINING

PENERAPAN ALGORITMA APRIORI ASSOCIATION RULE UNTUK ANALISA NILAI MAHASISWA DI UNIVERSITAS GUNADARMA

ANALISA ALGORITMA APRIORI UNTUK MENENTUKAN MEREK PAKAIAN YANG PALING DIMINATI PADA MODE FASHION GROUP MEDAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA

APLIKASI PENJADWALAN PENGADAAN BARANG MENGGUNAKAN ALGORITMA APRIORI

ANALISIS DATA POLA PEMBELIAN KONSUMEN DENGAN ALGORITMA APRIORI PADA TRANSAKSI PENJUALAN SUPERMARKET PAMELLA YOGYAKARTA 1.


ANALISA POLA DATA HASIL PEMBANGUNAN KABUPATEN MALANG MENGGUNAKAN METODE ASSOCIATION RULE

PENERAPAN METODE ASOSIASI GSP DAN APRIORI UNTUK STOK DAN REKOMENDASI PRODUK

PENERAPAN ASSOCIATION RULE DENGAN ALGORITMA APRIORI PADA TRANSAKSI PENJUALAN DI MINIMARKET SKRIPSI. Diajukan Untuk Memenuhi Sebagian Syarat Guna

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

PENDAHULUAN. Latar Belakang

BAB II TINJAUAN PUSTAKA

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

Konsep Data Mining. Pendahuluan. Bertalya. Universitas Gunadarma 2009

Data Mining Dengan Algoritma Apriori untuk Penentuan Aturan Asosiasi Pola Pembelian Pupuk

1. BAB I PENDAHULUAN 1.1. Latar Belakang ,

BAB 2 TINJAUAN PUSTAKA

PENERAPAN DATA MINING DALAM ANALISIS KEJADIAN TANAH LONGSOR DI INDONESIA DENGAN MENGGUNAKAN ASSOCIATION RULE ALGORITMA APRIORI

Implementasi data mining menggunakan metode apriori (studi kasus transaksi penjualan barang)

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PENERAPAN ASSOCIATION RULE MINING PADA DATA NOMOR UNIK PENDIDIK DAN TENAGA KEPENDIDIKAN

IMPLEMENTASI ALGORITMA APRIORI UNTUK MENGANALISA POLA PEMBELIAN PRODUK PADA DATA TRANSAKSI PENJUALAN

Materi 2 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

RENCANA PEMBELAJARAN SEMESTER

BAB 2 LANDASAN TEORI

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB II LANDASAN TEORI. Anindita Dwi Respita,2015. a. Penelitian ini menjelaskan tentang tujuan : menggunakan metode market basket analysis.

Aplikasi Data Mining Market Basket Analysis untuk Menemukan Pola Pembelian di Toko Metro Utama Balikpapan

Cross-Selling: Perangkat Utama Customer Relationship Managem. Meningkatkan Loyalitas Pelanggan

IMPLEMENTASI DATA MINING PADA PENJUALAN TIKET PESAWAT MENGGUNAKAN ALGORITMA APRIORI (Studi Kasus: Jumbo Travel Medan)

Journal of Informatics and Technology, Vol 2, No 2, Tahun 2013, p

Aplikasi Data Mining untuk meneliti Asosiasi Pembelian Item Barang di Supermaket dengan Metode Market Basket Analysis

ANALISIS MARKET BASKET DENGAN ALGORITMA APRIORI (STUDY KASUS TOKO ALIEF)

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. yang cepat dan besar di Asia (Kartiwi, 2006). Pertumbuhan e-commerce yang

PERTEMUAN 14 DATA WAREHOUSE

Transkripsi:

12 BAB II TINJAUAN PUSTAKA Bab ini menguraikan tentang teori-teori penunjang yang dipakai dalam melakukan penelitian data mining dengan metode asosiasi menggunakan algoritma apriori yang terdiri dari state of the art, pengertian data mining, aplikasi data mining, tahapan data mining, metode asosiasi serta teori tentang algoritma apriori. 2.1 State of the Art Penelitian ini didasarkan atas penelitian sebelumnya yang berhubungan dengan pengembangan data mining dengan metode asosiasi menggunakan algoritma apriori. Penelitian yang dilakukan R. Agrawal, et al pada tahun 1993 yang berjudul Mining Association Rules Between Sets of Items in Large Databases adalah awal mula dikembangkannya data mining dengan metode asosiasi menggunakan algoritma apriori. Pada tahun 1994, R. Agrawal dan R. Srikant kembali melakukan penelitian mengenai metode asosiasi dengan judul Fast Algorithms for Mining Association Rules. Penelitian ini kemudian difokuskan untuk menyempurnakan algoritma apriori yang sudah dikembangkan sebelumnya dan dari situlah algoritma apriori dikenal sebagai salah satu algoritma untuk metode asosiasi. Penelitian tentang metode apriori terus berkembang. Para peneliti terus mencoba untuk melakukan optimasi terhadap 12

13 metode apriori agar mendapatkan kinerja yang lebih cepat dan menemukan aturan asosiasi terbaik. Jogi Suresh dan T. Ramanjaneyulu (2013) melakukan penelitian dengan judul Mining Frequent Itemsets Using Apriori Algorithm. Penelitian Suresh dan Ramanjaneyulu menggunakan algoritma apriori klasik yang sudah dikembangkan sebelumnya dan belum menggunakan teknik optimasi untuk memperoleh aturan asosiasi yang lebih efisien. Sheila A. Abaya pada tahun 2012 dalam penelitiannya yang berjudul Association Rule Mining based on Apriori Algorithm in Minimizing Candidate Generation melakukan improvisasi terhadap algoritma apriori. Improvisasi dilakukan dengan cara menentukan set size dan set size frequency. Set size adalah jumlah item per transaksi sedangkan set size frequency adalah jumlah transaksi yang setidaknya memiliki set size item. Set size dan set size frequency ini digunakan untuk mengeliminasi kandidat kunci yang tidak signifikan. Jiao Yabing (2013) dalam penelitiannya dengan judul Research of an Improved Apriori Algorithm in Data mining Association Rules melakukan optimasi terhadap algoritma apriori yaitu dengan cara mengurangi atau memangkas (pruning) jumlah calon kandidat frequent itemset pada kandidat itemset Ck. Jaishree Singh, et al pada tahun (2013) melakukan penelitian dengan judul Improving Efficiency of Apriori Algorithm Using Transaction Reduction.

14 Penelitian Singh, dkk ini melakukan improvisasi algoritma apriori dengan cara mengurangi jumlah transaksi (transaction reduction) yang jumlah item pertransaksinya tidak memenuhi nilai batas yang ditentukan. Pengurangan transaksi tersebut berdampak pada efisiensi waktu yang lebih cepat saat scanning database. Tabel 2.1 Penelitian yang Sudah Dilakukan Sebelumnya No Peneliti Judul Penelitian Metode 1 2 3 4 5 6 R. Agrawal, et al (1993) R. Agrawal & R. Srikant (1994) Sheila A. Abaya (2012) Jiao Yabing (2013) Jaishree Singh, et al (2013) Jogi Suresh dan T. Ramanjaneyulu (2013) Mining Association Rules between Sets of Items in Large Databases Fast Algorithm for Mining Association Rules Association Rule Mining based on Apriori Algorithm in Minimizing Candidate Generation Research of an Improved Apriori Algorithm in Data mining Association Rules Improving Efficiency of Apriori Algorithm Using Transaction Reduction Mining Frequent itemsets Using Apriori Algorithm Menemukan frequent itemset dengan metode asosiasi. Awal mula algoritma apriori Menyempurnakan algoritma apriori sebelumnya Modifikasi algoritma apriori dengan mereduksi kandidat kunci dengan nilai set size dan set size frequency Modifikasi dengan cara memangkas (pruning) jumlah calon kandidat frequent itemset pada kandidat itemset Ck Modifikasi algoritma apriori dengan cara mengurangi jumlah transaksi yang jumlah item pertransaksinya tidak memenuhi nilai batas yang ditentukan Menggunakan algoritma apriori klasik yang sudah dikembangkan sebelumnya dan belum menggunakan teknik optimasi

15 Inti dari semua penelitan-penelitian terdahulu mengenai optimasi terhadap algoritma apriori yang tercantum dalam tabel diatas adalah membatasi calon kandidat frequent itemset yang dimunculkan. Pembatasan tersebut dilakukan dengan cara memangkas item, kombinasi dan transaksi serta pembatasan iterasi yang tidak diinginkan sehingga tidak terjadi perulangan scanning database yang berlebihan, dengan begitu akan menghasilkan aturan asosiasi secara tepat dan dalam waktu yang lebih cepat. 2.2 Pengertian Data mining Secara harfiah, data mining sebenarnya adalah kesalahan penamaan atau penyebutan. Jika mengacu kepada kegiatan penambangan emas dari sekumpulan batu atau pasir, aktivitas itu lebih disebut dengan penggalian emas daripada penggalian batu atau pasir. Jadi data mining seharusnya lebih pantas atau lebih cocok disebut dengan penggalian pengetahuan dari data yang ada (knowledge mining from data). Tetapi penggalian pengetahuan (knowledge mining) mempunyai pengertian yang dangkal yang mungkin tidak mencerminkan kegiatan penggalian dari data yang berjumlah besar dengan menggunakan pola atau metode yang diterapkan. Mining (penggalian) sendiri diartikan sebagai proses untuk menemukan sebagian kecil sesuatu yang sangat berharga dari sekumpulan material yang besar.

16 Han dan Kamber (2006) dalam bukunya yang berjudul Data mining Concepts and Techniques mengatakan, secara singkat data mining dapat diartikan sebagai mengekstraksi atau menggali pengetahuan dari data yang berjumlah besar. Sedangkan menurut Daniel T. Larose (2005) ada beberapa definisi dari Data mining yang diambil dari beberapa sumber. Secara umum data mining dapat didefinisikan sebagai berikut : - Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-milah data berukuran besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik matematika dan statistik. - Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data. - Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine learning), pengenalan pola (pattern recognition), statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang besar. - Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.

17 Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan kemudian beorientasi kepada data berukuran sangat besar untuk mendapatkan kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan atau nama lain yaitu : Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence), data archaeology dan data dredging (Daniel T. Larose, 2005). 2.3 Tahapan Data mining Han dan Kamber (2006) mengatakan, bahwa data mining mempunyai pengertian yang sama dengan knowledge discovery from data atau KDD. Tahapan yang dilakukan pada proses data mining sama dengan proses yang dilakukan pada knowledge discovery. Tahapan dimulai dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik.

18 Interpretasi dan Evaluasi Data Mining Transformasi Pengetahuan Preproses Pola / Model Seleksi Data Data Data Target Data Persiapan Pemilihan Data Transfromasi Data Data Gambar 2.1 Tahapan Data mining Tahapan-tahapan yang terjadi pada proses data mining atau knowledge discovery menurut Kenneth Collier (1998) dibagi menjadi 5 tahapan yaitu : 1. Seleksi Data Tujuan dari fase ini adalah ekstraksi dari gudang data yang besar menjadi data yang relevan dengan analisis data mining. Proses ekstraksi data membantu untuk merampingkan dan mempercepat proses. 2. Data Preprocessing Fase ini berkaitan dengan pembersihan data dan persiapan tugas yang diperlukan untuk memastikan hasil yang benar. Menghilangkan missing value

19 dalam data, memastikan bahwa nilai-nilai kode memiliki arti seragam dan memastikan bahwa tidak ada nilai data palsu adalah tindakan khas yang terjadi selama fase ini. 3. Transformasi Data Tahap ini mengubah data ke dalam bentuk atau format yang sesuai untuk kebutuhan data mining. Proses normalisasi biasanya diperlukan dalam tahap data transformas. 4. Data mining Tujuan dari tahap data mining adalah untuk menganalisis database sesuai algoritma yang digunakan sehingga menemukan pola atau aturan yang bermakna serta menghasilkan model prediksi. Data mining adalah elemen inti dari siklus KDD. 5. Interpretasi dan Evaluasi Sementara algoritma data mining memiliki potensi untuk menghasilkan jumlah yang tidak terbatas dari pola tersembunyi dalam data, banyak hasil dari proses tersebut mungkin tidak bermakna atau berguna. Tahap akhir ini bertujuan untuk memilih model-model yang valid dan berguna untuk membuat keputusan bisnis masa depan.

20 Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap-tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk memperkaya data yang sudah ada sehingga harus mengulang proses sebelumnya. 2.4 Tugas Utama Data mining Pada umumnya tugas utama data mining dibagi menjadi: deskripsi, prediksi, estimasi, klasifikasi, clustering dan asosiasi (Daniel T. Larose 2005). 2.4.1 Deskripsi Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining. Postprocessing merupakan proses yang digunakan

21 untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan. 2.4.2 Prediksi Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam tiga bulan yang akan datang. Beberapa metode dan teknik yang digunakan untuk klasifikasi dan estimasi juga dapat digunakan untuk prediksi dalam kondisi yang tepat. Hal ini termasuk metode statistik tradisional dari estimasi titik dan interval keyakinan estimasi, simple linear regression dan korelasi (correlation), dan multiple regression, serta metode data mining dan knowledge discovery seperti jaringan saraf, decision tree, dan metode k-nearest neighbor. 2.4.3 Estimasi Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi.

22 Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya. Bidang analisis statistik memberikan beberapa metode estimasi yang bernilai dan banyak digunakan. Hal Ini termasuk estimasi titik dan interval keyakinan estimasi, simple linear regression dan korelasi (correlation), dan multiple regression. 2.4.4 Klasifikasi Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang sudah didefinisikan sebelumnya (Han dan Kamber, 2006). Menurut Han dan Kamber (2006) secara umum, klasifikasi terdiri dari dua tahap. Tahap pertama yaitu learning (proses belajar), merupakan sebuah model dibuat untuk menggambarkan himpunan kelas atau konsep data yang telah ditentukan sebelumnya. Model tersebut dibangun dengan menganalisa record-record pada basis

23 data yang digambarkan dalam bentuk atribut. Setiap record diasumsikan masuk ke dalam suatu kelas yang telah ditentukan sebelumnya, yang dinamakan atribut kelas. Model itu sendiri bisa berupa aturan IF-THEN, decision tree, formula matematis atau neural network. Namun terkadang klasifikasi perlu didasarkan pada prediksi yang berbeda, membutuhkan plot banyak dimensi. Oleh karena itu, perlu dilakukan peralihan ke model yang lebih canggih untuk melakukan tugas klasifikasi. Metode data mining yang umum digunakan untuk klasifikasi adalah k-nearest neighbor, decision tree, dan jaringan saraf (neural network). 2.4.5 Clustering Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.

24 Clustering berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengelompokkan. Clustering tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok lain akan bernilai minimal. Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan kluster yang dihasilkan digunakan sebagai masukan lebih lanjut ke hilir teknik yang berbeda, seperti neural network. Beberapa metode clustering adalah k- means clustering dan Kohonen networks. 2.4.6 Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut. Aturan asosiasi adalah bentuk "Jika pendahuluan, maka konsekuen," (If antecedent, then consequent) dengan ukuran dukungan dan kepercayaan yang berhubungan dengan aturan. Sebagai contoh, supermarket tertentu mungkin

25 menemukan bahwa dari 1000 pelanggan yang berbelanja pada Kamis malam, 200 membeli popok dan 50 membeli bir. Dengan demikian, aturan asosiasi menjadi "Jika membeli popok, kemudian membeli bir" dengan dukungan 200/1000 = 20% dan kepercayaan 50/200 = 25%. Contoh asosiasi dalam bisnis dan penelitian adalah: a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan. b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli bersamaan. 2.5 Aplikasi Data mining Sebagai cabang ilmu baru di bidang sistem informasi cukup banyak penerapan yang dapat dilakukan oleh data mining. Apalagi ditunjang kekayaan dan keanekaragaman berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Salah satu penerapan proses data mining adalah pada Costumer Relationship Management (CRM). Data mining dapat menggali informasi baru yang

26 berhubungan dengan manajemen pelanggan pada suatu proses transaksi. Informasi tersebut nantinya dapat digunakan untuk meningkatkan pelanggan. 2.5.1 Penerapan Data mining pada CRM Pelanggan (Customer) adalah aset paling penting dari suatu perusahaan. Tidak akan terjadi prospek bisnis jika tanpa adanya pelanggan yang merasa puas dan tetap setia menjalin hubungan dengan suatu organisasi. Itulah mengapa suatu organisasi harus merencanakan dan menerapkan strategi yang jelas untuk memperlakukan pelanggan. CRM (Customer Relationship Management) adalah strategi untuk membangun, mengelola, dan memperkuat hubungan pelanggan yang setia dan bertahan lama. CRM harus dilakukan dengan pendekatan Customer-centric berdasarkan wawasan pelanggan (Tsiptsis dan Chorianopoulos 2009). Sistem CRM merupakan alat yang digunakan untuk mendukung strategi efektif mengelola pelanggan. Untuk melakukan sistem CRM tersebut organisasi perlu mendapatkan informasi tentang pelanggan, seperti kebutuhan dan keinginan mereka melalui analisis data. Di sinilah data mining dapat membantu dalam retensi pelanggan karena memungkinkan identifikasi tepat waktu terhadap pelanggan yang dianggap berharga (setia) dengan kemungkinan pelanggan yang akan pergi. Hal ini dapat mendukung pengembangan pelanggan dengan mencocokkan produk dengan

27 pelanggan dan penargetan yang lebih baik dari kampanye promosi produk. Hal ini juga dapat membantu untuk mengungkapkan segmen pelanggan yang berbeda, memfasilitasi pengembangan produk baru disesuaikan dan penawaran produk yang lebih baik mengatasi preferensi khusus dan prioritas dari pelanggan. Menurut Tsiptsis dan Chorianopoulos (2009) data mining bertujuan untuk mengekstrak pengetahuan dan wawasan melalui analisis data dalam jumlah besar dengan menggunakan teknik pemodelan yang canggih. Data mining mengubah data menjadi pengetahuan dan informasi yang ditindaklanjuti. Data yang akan dianalisis mungkin berada dan terorganisir dalam data pasar dan gudang data atau dapat diekstraksi dari berbagai sumber data terstruktur. Sebuah prosedur data mining memiliki banyak tahapan. Prosedur ini biasanya melibatkan manajemen data yang luas sebelum dilakukan penerapan algoritma pembelajaran statistik dan pengembangan model yang tepat. 2.5.2 Data mining dalam Kerangka CRM Data mining dapat memberikan wawasan pelanggan yang sangat penting untuk membangun strategi CRM yang efektif. Hal ini dapat menyebabkan interaksi personal dengan pelanggan, maka kepuasan meningkat. Hal ini dapat mendukung manajemen terhadap pelanggan serta dioptimalkan pada seluruh tahapan siklus hidup dari pelanggan tersebut, baik dari akuisisi dan pembentukan hubungan yang kuat

28 sehingga dapat mencegah pengurangan pelanggan atau kembali memenangkan pelanggan yang telah hilang. Retailer berusaha untuk mendapatkan pangsa pasar yang lebih besar dan pelanggan yang lebih besar dari target yang mereka tetapkan. Lebih khusus, kegiatan pemasaran yang dapat didukung dengan penggunaan data mining meliputi topik-topik berikut (Tsiptsis dan Chorianopoulos, 2009). 1. Segmentasi Pelanggan Segmentasi pelanggan adalah proses membagi basis pelanggan ke dalam kelompok-kelompok yang berbeda dan homogen dalam rangka untuk mengembangkan strategi pemasaran yang berbeda sesuai dengan karakteristik pelanggan. Ada beberapa jenis segmentasi yang berbeda yaitu berdasarkan kriteria tertentu atau atribut yang digunakan untuk segmentasi. Dalam segmentasi perilaku, pelanggan dikelompokkan berdasarkan karakteristik perilaku dan penggunaan. Algoritma clustering dapat digunakan untuk menganalisis data perilaku serta mengidentifikasi kelompok alami dari pelanggan, dan menyarankan solusi yang didasarkan pada pola data yang diamati. Data mining juga dapat digunakan untuk pengembangan skema segmentasi berdasarkan situasi saat ini yang diharapkan atau perkiraan dari nilai pelanggan. Segmen ini diperlukan dalam rangka untuk memprioritaskan penanganan pelanggan dan intervensi pemasaran sesuai dengan pentingnya setiap pelanggan.

29 2. Segmentasi Kampanye Pemasaran Langsung Retailer menggunakan kampanye pemasaran langsung untuk melakukan komunikasi dengan pelanggan mereka melalui surat, internet, e-mail, telepon, dan saluran langsung lainnya. Hal ini dilakukan untuk mendorong akuisisi pelanggan dan pembelian produk lainnya pada retailer tersebut. Lebih khusus lagi, kampanye akuisisi bertujuan menarik pelanggan baru yang memiliki potensi yang besar terhadap produk. Kampanye Cross-/deep-/up-selling diterapkan untuk menjual produk tambahan, bisa lebih baik dari produk yang sebelumnya, atau produk alternatif yang menguntungkan kepada pelanggan yang ada. Akhirnya, kampanye bertujuan untuk mencegah retensi pelanggan berharga dari mengakhiri hubungan mereka dengan retailer. Data mining dan klasifikasi (kecenderungan) model pada khususnya dapat mendukung pengembangan kampanye pemasaran bertarget. Mereka menganalisis karakteristik pelanggan dan mengenali profil dari target pelanggan. Kasus baru dengan profil serupa kemudian diidentifikasi, diberi skor kecenderungan yang tinggi, dan termasuk dalam daftar target. Model klasifikasi digunakan untuk mengoptimalkan kampanye pemasaran dapat dijelaskan sebagai berikut:

30 a. Model Akuisisi: model ini digunakan untuk mengenali calon pelanggan yang berpotensi menguntungkan dengan mencari clones dari pelanggan yang sudah ada dalam daftar kontak eksternal, b. Model Cross-/deep-/up-selling: model digunakan untuk mengungkapkan potensi pembelian dari pelanggan yang sudah ada. c. Model Pengurangan Sukarela (Voluntary attrition): model ini digunakan untuk mengidentifikasi awal pelanggan dan melihat para pelanggan tersebut dengan kemungkinan peningkatan untuk meninggalkan suatu organisasi secara sukarela. 3. Segementasi Market Basket dan Sequence Analysis Data mining dan model asosiasi pada khususnya dapat digunakan untuk mengidentifikasi produk-produk terkait yang biasanya dibeli bersama-sama. Model ini dapat digunakan untuk analisis market basket dan untuk mengungkapkan jenis produk atau jasa yang dapat dijual bersama-sama dengan produk yang dibeli oleh pelanggan. Model urutan (Sequence Analysis) dilakukan dengan memperhitungkan urutan tindakan atau pembelian dari pelanggan serta dapat mengidentifikasi urutan peristiwa yang akan terjadi.

31 2.6 Metode Asosiasi Analisis asosiasi adalah teknik data mining untuk menemukan hubungan menarik antara suatu kombinasi item yang tersembunyi dalam suatu database. Hubungan ini dapat direpresentasikan dalam suatu bentuk aturan asosiasi (Tan, Steinbach, Kumar, 2004). Analisis asosiasi akan berusaha mengungkap asosiasi antara atribut, yaitu berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut. Secara umum aturan asosiasi mempunyai bentuk : IF antecedent THEN consequent Kekuatan hubungan suatu aturan asosiatif dapat diukur dengan dua parameter yaitu support dan confidence. Support (nilai penunjang) adalah persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan asosiatif. Metode analisis asosiasi, juga dikenal sebagai market basket analysis, yaitu analisis yang sering dipakai untuk menganalisa isi keranjang belanja konsumen dalam suatu pasar swalayan. Contoh penerapan dari aturan asosiatif adalah analisa pembelian produk pada sebuah toko alat tulis, pada analisa itu misalkan dapat diketahui berapa besar kemungkinan seorang pelanggan membeli pensil bersamaan dengan membeli penghapus. Penerapan aturan asosiasi dalam kasus tersebut dapat membantu pemilik toko untuk dipakai sebagai pendukung keputusan dalam penjualan

32 seperti mengatur penempatan barang, mengatur persediaan atau membuat promosi pemasaran dengan menerapkan diskon untuk kombinasi barang tertentu. Analisis asosiasi didefinisikan sebagai suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence). Dasar analisis asosiasi terbagi menjadi dua tahap, yaitu: 1. Analisa pola frekuensi tinggi, pada tahap ini dicari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai support sebuah item diperoleh dengan rumus berikut : Support (A) = Jumlah Transaksi untuk A Total Transaksi... (2.1) Keterangan : - Support A adalah nilai penunjang persentase kombinasi item A dalam database. - Jumlah transaksi untuk A adalah kemunculan item A dalam keseluruhan transaksi. - Total transaksi adalah jumlah total transaksi yang ada dalam database. Sedangkan nilai support dari 2 item diperoleh dari rumus berikut :

33 Support (A, B) = P (A B) Support (A, B) = Transaksi untuk A dan B Transaksi... (2.2) Keterangan : - Support A,B adalah nilai penunjang (persentase) kombinasi dari dua item yaitu item A dan item B dalam database. - Ʃ transaksi untuk A dan B adalah jumlah kemunculan kombinasi item A dan B dalam keseluruhan transaksi. - Ʃ transaksi adalah jumlah total transaksi yang ada dalam database. 2. Pembentukan aturan Asosiasi, setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan menghitung nilai confidence aturan assosiatif A B. Nilai confidence dari aturan A B diperoleh dari rumus sebagai berikut: Confidence = P(B A) = Transaksi untuk A dan B Transaksi untuk A... (2.3) Keterangan : - Confidence P(A B) adalah nilai kepastian kuatnya hubungan antar item A dan item B dalam aturan asosiatif atau berapa kali item A muncul bersamaan dengan item B.

34 - Ʃ transaksi untuk A dan B adalah jumlah kemunculan kombinasi item A dan B dalam keseluruhan transaksi. - Ʃ transaksi untuk A adalah jumlah total transaksi item A dalam keseluruhan transaksi. 2.7 Algoritma Apriori Algoritma apriori termasuk jenis aturan asosiasi pada data mining yang dikembangkan pertama kali oleh R. Agrawal dan R. Srikant pada tahun 1994. Algoritma ini didasarkan pada fakta bahwa apriori menggunakan pengetahuan sebelumnya dari suatu itemset dengan frekuensi kemunculan yang sering atau disebut frequent itemset. Apriori menggunakan pendekatan iteratif dimana k-itemset digunakan untuk mengeksplorasi (k+1)-itemset berikutnya (Han&Kamber, 2006). Prinsip metode apriori adalah jika suatu itemset sering muncul (frequent), maka semua subset dari itemset tersebut juga harus sering muncul dalam suatu database (Tan, Steinbach, Kumar, 2004). Pada algoritma ini calon (k+1)-itemset dihasilkan oleh penggabungan dua itemset pada domain / ukuran k. Calon (k+1)-itemset yang mengandung frekuensi subset yang jarang muncul atau dibawah threshold akan dipangkas dan tidak dipakai dalam menentukan aturan asosiasi (Tan, Steinbach, Kumar, 2004). Sesuai dengan aturan asosiasi, algoritma apriori juga menggunakan minimum support dan minimum

35 confidence untuk menentukan aturan itemset mana yang sesuai untuk digunakan dalam pengambilan keputusan. 1-itemset digunakan untuk menemukan 2-itemset yaitu kombinasi item yang berjumlah 2, contohnya if buy pensil then buy penghapus, 2-itemset digunakan untuk menemukan 3-itemset yaitu kombinasi item yang berjumlah 3, contohnya if buy pensil and buy pulpen then buy penghapus dan seterusnya sampai tidak ada lagi frequent k-itemset yang bisa ditemukan (Han&Kamber, 2006). 2.7.1 Struktur Kombinasi Struktur dari itemset disini adalah mengikuti suatu bentuk dari kombinasi. Pengertian kombinasi adalah menggabungkan beberapa objek dari suatu grup tanpa memperhatikan urutan (Wikipedia, 2016). Di dalam kombinasi, urutan objek tidak diperhatikan sebagai contoh dimana {1,2,3} adalah sama dengan {2,3,1} dan {3,1,2}. Kombinasi dapat dibagi menjadi dua yaitu kombinasi dengan pengulangan dan kombinasi tanpa pengulangan. Kombinasi tanpa pengulangan ketika urutan tidak diperhatikan akan tetapi setiap objek yang ada hanya bisa dipilih sekali maka jumlah kombinasi yang ada adalah: n! r!(n r)! = (n r )... (2.4)

36 Dimana n adalah jumlah objek yang bisa dipilih dan r adalah jumlah yang harus dipilih. Sebagai contoh, terdapat 5 pensil warna dengan warna yang berbeda yaitu; merah, kuning, hijau, biru dan ungu. Pensil warna tersebut hanya boleh dipilih dua warna. Banyak cara untuk mengkombinasikan pensil warna yang ada dengan menggunakan rumus di atas adalah 5!/(5-2)!(2)! = 10 kombinasi. Kombinasi dengan pengulangan jika urutan tidak diperhatikan dan objek bisa dipilih lebih dari sekali, maka jumlah kombinasi yang ada adalah ditunjukkan pada rumus berikut : (n+r 1)! r!(n 1)! = ( n+r 1 ) = ( n+r 1 r n 1 )... (2.5) Di mana n adalah jumlah objek yang bisa dipilih dan r adalah jumlah yang harus dipilih. Sebagai contoh adalah terdapat 10 jenis kue donat berbeda pada suatu toko donat. Kombinasi yang dihasilkan jika ingin untuk membeli tiga buah donat adalah (10+3-1)!/3!(10-1)! = 220 kombinasi. Kombinasi yang digunakan dalam algoritma apriori pada penelitian ini adalah kombinasi tanpa pengulangan. Urutan item dalam kombinasi yang dibentuk tidak diperhatikan akan tetapi setiap item yang ada hanya boleh digunakan sekali dalam satu kombinasi atau itemset.

37 2.7.2 Perhitungan Waktu Iterasi Algoritma apriori melakukan scaning database berulang kali untuk menemukan frequent itemset dalam membentuk aturan asosiasi. Waktu iterasi yang ditempuh algoritma dapat dihitung dari waktu berakhirnya algoritma sampai mendapatkan aturan asosiasi dikurangi dengan waktu awal algoritma dijalankan sesuai dengan rumus berikut. t_lama = t_akhir t_awal... (2.6) Dimana t_awal = mencatat waktu awal mulainya proses iterasi. t_akhir = mencatat waktu berakhirnya proses iterasi.