SKRIPSI PENERAPAN DATA MINING DENGAN ALGORITMA C4.5 DALAM PREDIKSI PENJUALAN PADA TOKO DESHOP CIKARANG

Transkripsi

1 SKRIPSI PENERAPAN DATA MINING DENGAN ALGORITMA C4.5 DALAM PREDIKSI PENJUALAN PADA TOKO DESHOP CIKARANG Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer Disusun oleh: Nama : Widiya Iswati NIM : PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS PELITA BANGSA KABUPATEN BEKASI 2020

2 SKRIPSI PENERAPAN DATA MINING DENGAN ALGORITMA C4.5 DALAM PREDIKSI PENJUALAN PADA TOKO DESHOP CIKARANG Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer Disusun oleh: Nama : Widiya Iswati NIM : PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS PELITA BANGSA KABUPATEN BEKASI 2020

3

4

5

6

7

8

9 ABSTRAK Toko Deshop Cikarang adalah salah satu Toko skin care yang berada di Cikarang. Jika prediksi minat pelanggan diperhatikn dengan baik maka bisa sangat merugikan bisnis penjualan. Prediksi minat pelanggan saat ini menjadi faktor yang sangat berpengaruh pada perkembangan suatu usaha, jika suatu pelaku bisnis bisa memprediksi pada pasar maka akan mudah baginya untuk memenuhi kebutuhan pelanggan. Berdasarkan latar belakang tersebut maka dengan menerapkan teknik data mining diharapkan dapat membantu Toko Deshop untuk memprediksi minat pelanggan. Adapun teknik data mining yang digunakan prosesnya menggunakan lima langkah dalam KDD (Knowledge Discovery in Database), yang mencakup beberapa aktivitas yaitu seleksi, praproses, data mining, interprestasi dan evaluasi. Selain melakukan perhitungan secara manual, kasus penelitian ini juga diujikan menggunakan aplikasi RapidMiner. Dari hasil penelitian menggunakan Algoritma C4.5 dihasilkan nilai akurasi sebesar 94.44% sehingga penggunaan Algoritma C4.5 sangat efektif dalam memprediksi produk ter Toko Deshop Ckarang, sehingga pemilik toko hanya perlu membeli produk skin care yang untuk stok pemasaran. Kata Kunci : Data Mining, Prediksi, Penjualan, Algoritma C4.5, Klasifikasi, RapidMiner viii

10 ABSTRACT Cikarang Deshop Shop is one of the skin care shops located in Cikarang. If predictions of customer interest are not well considered, it can be very detrimental to the sales business. Prediction of customer interest is currently a very influential factor in the development of a business, if a businessperson can predict the market it will be easy for him to meet customer needs. Based on this background, implementing data mining techniques is expected to help Deshop Stores predict customer interests. The data mining technique used by the process uses five steps in KDD (Knowledge Discovery in Database), which includes several activities namely selection, preprocessing, data mining, interpretation and evaluation. In addition to performing calculations manually, this research case was also tested using the RapidMiner application. From the results of the study using the C4.5 Algorithm produced an accuracy value of 94.44% so that the use of the C4.5 Algorithm is very effective in predicting the best-selling products of Carang Deshop Store, so that shop owners only need to buy in-demand skin care products for marketing stock. Keywords: Data Mining, Prediction, Sales, C4.5 Algorithm, Classification, RapidMiner ix

11 DAFTAR ISI HALAMAN PERSETUJUAN... ii HALAMAN PENGESAHAN... iii PERNYATAAN KEASLIAN SKRIPSI... iii PERNYATAAN PERSETUJUAN PUBLIKASI... v UCAPAN TERIMAKASIH... vi ABSTRAK... viii ABSTRACT... viii DAFTAR ISI... ix DAFTAR TABEL... xii DAFTAR GAMBAR... xiii DAFTAR LAMPIRAN (Jika ada)... xiv BAB I PENDAHULUAN... i 1.1 Latar Belakang Identifikasi Masalah Batasan Masalah Rumusan Masalah Tujuan Penelitian Manfaat Penelitian... 3 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Penelitian Terdahulu Kajian Jurnal Pertama Kajian Jurnal Kedua Kajian Jurnal Ketiga Definisi Judul Pengertian Penerapan Algoritma C x

12 2.2.3 Prediksi Pengertian Data Pengertian Penjualan Data Mining Pengertian Data Mining Tugas-tugas Data Mining Manfaat Data Mining Jenis atau Teknik Data Mining Klasifikasi Decision Tree Knowledge Discovery In Database (KDD) Rapid Miner Kerangka Pemikiran BAB III METODE PENELITIAN Objek Penelitian Jenis Data Sumber Data Primer Sumber Data Sekunder Metodologi Penilitian Tahapan Metodologi Penelitian Analisis Data Knowledge Discovery in Database (KDD Tahapan Penelitian Kebutuhan Software dan Hardware BAB IV HASIL DAN PEMBAHASAN Hasil Penelitian Root Node Rapid Miner Pembahasan Hasil Pengujian BAB V PENUTUP Kesimpulan... 45

13 5.2 Saran DAFTAR PUSTAKA

14 DAFTAR TABEL Tabel 3. 1 Atribut Yang Digunakan Tabel 3. 2 Klasifikasi Berdasarkan Jenis Produk Tabel 3. 3 Klasifikasi Berdasarkan Jumlah Terjual Tabel 3. 4 Klasifikasi Berdasarkan Jenis Pakaian... Tabel 3. 5 Klasifikasi Berasarkan Jenis Aksesoris Tabel 3. 6 Klasifikasi Berdasararkan Jenis Toner Tabel 3. 7 Klasifikasi Berdasarkan Merek Tabel 3. 8 Klasifikasi Berdasarkan Harga xiii

15 DAFTAR GAMBAR Gambar 2. 1 Pseudocode Algoritma C Gambar 2. 2 Tahapan Proses Data Mining Gambar 2. 3 Tampilan Utama Rapid Miner Gambar 2. 4 Kerangka Pemikiran Gambar 3. 1 Tahapan Metodolodi penelitian Gambar 3. 5 Tahapan Penelitian Gambar 4. 1 Data Set Gambar 4. 2 Data Tsting Gambar 4. 3 Perhitungan Algoritma C4.5 Node Gambar 4. 4 Perhitungan Algoritma C4.5 Node Gambar 4. 5 Perhitungan Algoritma C4.5 Node Gambar 4.6 Perhitungan Algoritma C4.5 Node Gambar 4.7 Perhitungan Algoritma C4.5 Node Gambar 4. 8 Pohon Keputusan Gambar Halaman Utama RapidMiner Gambar Halaman Select the cells to import data Gambar kotak dialog import data Gambar Process Read excel Gambar Process Validation Gambar Tabel Hasil Akurasi Data Testing Gambar Tabel Hasil Recall Data Testing Gambar Tabel Hasil Precision Data Testing Gambar Tree View RapidMiner... 49

16 DAFTAR LAMPIRAN Lampiran 1 Dataset Lampiran 2 Data Testing... 48

17 BAB I PENDAHULUAN 1.1. Latar Belakang Skin Care merupakan kebutuhan pokok bagi manusia. Seiring dengan perkembangan Ilmu Pengetahuan dan Teknologi, sehingga bermunculan beragam bisnis yang menawarkan berbagai jenis skin care. Hal ini dapat kita lihat dari banyaknya produk penjual skin care, kegiatan dan aktifitas seseorang semakin banyak, sehingga dibutuhkan berbagai jenis skin care yang dapat digunakan sesuai dengan kebutuhan tersebut. Maka dari itu, ketika seseorang ingin memenuhi kebutuhan skin care, ia hanya bertindak pada fungsi dan tujuan utama dari skin care itu sendiri. Menjual suatu produk di era modernisasi ini sudah sangatlah mudah, kita bisa berjualan secara online, kita hanya memerlukan smartphone atau laptop dan koneksi internet serta barang yang akan dijual. Lebih dari itu, pemenuhan kebutuhan akan Skin Care melibatkan pertimbangan-pertimbangan lain yang dianggap penting dan perlu penyesuaian, seperti trend yang sedang berkembang pada masanya. Hal ini memberikan peluang dan kesempatan bagi para penjual serta produsen skin care untuk lebih kreatif dalam berkarya. Dalam lingkungan bisnis yang global sekarang ini, setiap perusahaan dituntut untuk mampu bersaing dalam meningkatkan kinerja dan mampu menghasilkan laporan yang sesuai, sehingga perusahaan dapat mengambil keputusan dari hasil kinerja dan laporan tersebut. Di sisi lain perkembangan teknologi informasi mempengaruhi pemrosesan data untuk menghasilkan informai yang lebih akurat, aktual, dan relevan untuk meningkatkan ketepatan atau akurasi dalam pengambilan keputusan. Dari penumpukan data yang terjadi dapat digali untuk menemukan pola-pola penjualan prouk yang dapat digunakan untuk menganalisa pasar dan meramalkan penjualan pada watu yang akan datang. Prediksi jumlah penjualan merupakan faktor penting yang menentukan kelancaran usaha suatu perusahaan. Prediksi ini sangat berguna untuk menentukan 21

18 22 berapa banyak produk yang akan dipesan pada bulan selanjutnya. Permasalahan yang umum dihadapi oleh suatu perusahaan adalah bagaimana tingkat akurasi dalam memprediksi atau meramalakan penjualan produk dimasa mendatang berdasarkan data penjualan sebelumnya. Prediksi tersebut sangat berpengaruh untuk menentukan produk mana yang dan tiak. Untuk menghasikan prediksi yang tepat tentu saja dibutuhkan kecermatan dan ketelitian. Tujuan penelitian ini adalah penulis mencoba menerapkan data mining metode decision tree Algoritma C4.5 pada Toko Deshop Cikarang dan diharapkan dapat memberikan informasi berupa prediksi penjualan menu skin care yang paling digemari pelanggan dan digemari ( dan ). Sehingga kedepannya pemilik bisnis ini dapat melakukan analisa menu mengikuti trend dan kegemaran pelanggannya. Dari latar belakang diatas, maka penulis berkeinginan untuk menyusun tugas akhir dengan judul Penerapan Data Mining Dengan Algoritma C4.5 Dalam Prediksi Penjualan pada Toko Deshop Cikarang. 1.2 Identifikasi Masalah Dari latar belakang diatas terdapat beberapa masalah yang timbul dan dapat di identifikasikan sebagai berikut : 1. Belum diketahui produk skin care mana yang paling diminati pelanggan Toko Deshop Cikarang. 2. Belum adanya suatu akurasi yang tepat dalam melihat penentuan suatu prediksi penjualan Toko Deshop Cikarang. 3. Berapakah tingkat akurasi perhitungan algoritma C4.5 untuk memprediksi data penjualan Toko Deshop Cikarang. 1.3 Batasan Masalah Adapun batasan-batasan masalah dalam penelitian ini adalah : 1. Penelitian ini banyak membantu bagi pihak penjual Toko Deshop Cikarang dalam menentukan produk mana yang banyak diminati oleh pelanggan.

19 23 2. Menguji suatu metode (dalam hal ini algoritma C4.5) prediksi penjualan Toko Deshop Cikarang 3. Hasil dari penelitian ini adalah Prediksi produk skin care mana yang banyak diminati pelanggan dan produk skin care mana yang cocok untuk distok agar laku di pasaran. 1.4 Rumusan Masalah Berdasarkan pada latar belakang masalah, maka dapat dirumuskan masalah sebagai berikut : 1. Bagaimana tingkat akurasi yang dapat membantu penjual dalam mengambil keputusan untuk memprediksi produk merek skin care mana yang banyak diminati pelanggan ( dan )? 1.5 Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan pada penelitian ini adalah sebagai berikut : 1. Untuk menerapkan tingkat minat produk skin care mana yang banyak diminati pelanggan Toko Deshop Cikarang. 2. Untuk mengetahui tingkat akurasi algoritma C4.5 dalam memprediksi tingkat minat pelanggan Toko Deshop Cikarang.Menerapkan algoritma C4.5 pada tingkat minat pelanggan pada Toko Deshop Cikarang. 1.6 Manfaat Penelitian Dengan tercapainya tujuan peelitian di atas, maka di harapkan akan bermanfaat bagi semua pihak, bagi Toko Deshop Cikarang maupun bagi penulis. Manfaat dari penulis ini adalah : 1. Bagi Penulis Menambah wawasan dan pengetahuan enulis tentang algoritma C4.5 untuk prediksi tingkat penjualan produk dan menerapkan ilmu yang telah didapat selama kuliah. 2. Bagi Akademik

20 24 Penelitian ini dapat memberikan infrmasi bagi peneliti atau calon peneliti lain untuk menerapkannya kedalam sistem yang lebih luas dan lebih kompleks atau sebagai bahan acuan yang dapat dikembangkan bagi kemungkinan pengembangan konsep dan materi lebih lanjut serta dapat melengkapi referensi pustaka akademik. 3. Bagi Perusahaan Untuk mendapatkan pendukung keputusan bagi Toko Deshop Cikarang untuk memperbaiki pelayanannya dalam mempertahankan pelanggan.

21 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Penelitian Terdahulu Kajian Jurnal Pertama Nandang Iriadi, Nia Nuraeni (2016) dengan judul kajian penerapan metode klasifikasi data mining algoritma c4.5 untuk prediksi kelayakan kredit pada bank mayapada jakarta. Industri perbankan mengalami perkembangan yang cukup pesat, baik dari sisi volume usaha, mobilisasi dana masyarakat maupun pemberian kredit. Data mining mengenai pinjaman memiliki potensial besar untuk menjelajahi bagian pola yang tersembunyi dalam suatu dataset dari domain pinjaman termasuk pinjaman kredit. Algoritma C4.5 merupakan pengklasifikasian yang paling sederhana, mudah diimplemntasikan. Namun, Algoritma C4.5 masih memiliki kelemahan dalam menangani data dalam dimensi tinggi. Penelitian ini bertujuan untuk menerapkan algoritma C4.5 dengan seleksi atribut sehingga dapat mengurangi dimensi dari data, serta mengidentifikasi fitur dalam kumpulan data dengan metode algoritma C4.5. Dari penelitian ini yang dilakukan model yang terbentuk dengan algoritma C4.5 sendiri sudah memiliki akurasi yang baik yaitu sebesar 83.67% dengan proses seleksi atribut oleh algoritma C4.5.[1] Kajian Jurnal Kedua Liliana Swastina (2013) dengan judul Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Banyak kasus dijumpai bahwa pemilihan jurusan yang sesuai dengan kemampuan, kepribadian, minat dan bakat dapat mempengaruhi mahasiswa dalam mengikuti perkuliahan. Penggunaan pendekatan algoritma klasifikasi data mining akan diterapkan untuk menentukan jurusan dalam bidang studi yang akan diambil oleh mahasiswa, sehingga mahasiswa salah dalam memilih jurusan yang akan di tempuh selama belajar pada perguruan tinggi. Algoritma C4.5 digunakan untuk menentukan jurusan yang akan diambil oleh mahasiswa sesuai dengan latar

22 26 belakang, minat dan kemampuannya sendiri. Parameter pemilihan jurusan adalah Indeks Prestasi Kumulatif Semester 1 dan 2. Hasil eksperimen dan evaluasi menunjukan bahwa Algoritma Decision Tree C4.5 akurat diterapkan untuk penentuan kesesuaian jurusan mahasiswa dengan tingkat akurasi 93,31 % dan akurasi rekomendasi jurusan sebesar 82,64%[2] Kajian Jurnal Ketiga Siti Mujilahwati (2017) dengan judul Pemanfaatan Algoritma ID3 untuk Klasifikasi Penjualan Obat. Toko AJ merupakan toko yang menjual berbagai macam jenis obat-obatan, ada obat pertanian, obat peternakan, dan obat tambak. Toko ini proses penjualannya sudah memakai sistem terkomputerisasi selama empat tahun terakhir. Akan tetapi pemilik toko pernah tahu bahwa data penjualan selama ini dapat digunakan untuk melakukan klasifikasi tingkat penjualan obat, yang dapat dipakai untuk menentukan ketersediaan obat. Berdasarkan data penjualan tersebut, maka penelitian ini membahas bagaimana algoritma Iterative Dichotomizer Three (ID3) dapat dimanfaatkan untuk proses klasifikasi penjualan obat apa saja yang laku dan laku. Kategori yang digunakan pada penelitian ini adalah harga, kwalitas dan animo, kelas yang dipakai adalah dan. Dataset yang digunakan selama tiga tahun sebanyak data training, dan data testing yang digunakan sebanyak 24. Akurasi yang didapat pada penelitian ini sebesar 91,6%. Kata Kunci: klasifikasi, ID3, obat, fungisida, penjualan[3]. 2.2 Definisi Judul Pengertian Penerapan Implementasi/Penerapan adalah perluasan aktivitas yang saling menyesuaikan. Pengertian implementasi sebagai ativitas yang saling menyesuaikan. Setelah sistem informasi yang baru dirancang, sistem tersebut harus diimplemantasikan sebagai sistem kerja, dan dipelihara agar dapat berjalan dengan baik[4].

23 Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk melakukan proses klasifikasi data dengan teknik pohon keputusan. Algoritma C4.5 merupakan ekstensi dari algoritma ID3 dan menggunakan prinsip decision tree yang mirip. Algoritma ini sudah sangat terkenal dan disukai karena memiliki banyak kelebihan. Kelebihan ini misalnya dapat mengolah data numerik dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan. Dan performanya merupakan salah satu yang tercepat dibandingkan dengan algoritma lain[5]. Ide dasar dari algoritma ini adalah pembuatan pohon keputusan berdasarkan pemilihan atribut yang memiliki prioritas tertinggi atau dapat disebut memiliki nilai gain tertinggi berdsarkan nilai entropy atribut tersebut sebagai poros atribut klasifikasi. Kemudian secara rekursif cabang-cabang pohon diperluas sehingga seluruh pohon terbentuk. Menurut kamus IGI Global (Internasional Publisher of Progressive Academic), entropy adalah jumlah data yang relevan terhadap informasi dari suatu kumpulan data. Gain adalah informasi yang didapatkan dari perubahan entropy pada suatu kumpulan data, baik melalui observasi atau bisa juga disimpulkan dengan cara melakukan partisipasi terhadap suatu set data. Berdasarkan apa yang ditulis oleh jefri, terhadap empat langkah dalam proses pembuatan pohon keputusan pada algoritma C4.5, yaitu : 1. Memilih atribut sebagai akar 2. Membuat cabang untuk masing-masing nilai 3. Membagi setiap kasus dalam cabang 4. Mengulangi proses dalam setiapcabang sehingga semua kasus dalam cabang memiliki kelas yang sama. Menurut jiandi data yang dimilki harus disusun menjadi sebuah tabel berdasarkan kasus dan jumlah responden sebelum dilakukan perhitungan untuk mencari nilai entropy dan gain. Entropy(S) = (1)

24 28 Rumus 1 merupakan rumus yang digunakan dalam perhitungan entropy yang digunakan untuk menentukan sberapa informatif atribut tersebut. Berikut keterangannya : S : Himpunan kasus n : Jumlah partisi s pi : jumlah kasus pada partisi ke i Gain(S,A) = Entropy(S) - *Entropy (Si) (2) Rumus 2 merupakan rumus yang digunakan dalam perhitungan gain setelah melakukan perhitungan entropy. Berikut keterangannya : s : himpunan kasus n : jumlah partisi atribut A si : jumlah kasus pada partisi ke i s : jumlah kasus dalam S dengan mengetahui rumus-rumus diatas, data yang telah diperoleh dapat dimasukkan dan di proses dengan algoritma C4.5 untuk proses pembuatan decision tree. Gambar 2.1 Pseudocode Algoritma C4.5 Sumber : Fandy Ferdian, Seng Hansun (2017:3).

25 29 Gambar 2.1 merupakan psudecode dari algoritma C4.5 yang berfungsi untuk pembentukan pohon keputusan. Perhitungan dimulai dari menghitung banyaknya jumlah atribut dan menentukan atribut mana yang akan digunakan sebagai aka dari pohon keputusan. Selanjutnya akan dilakukan perhitungan entropy dan gain untuk menentukan leaf dari pohon keputusan tersebut. Setelah semua perhitungan selesai dilakukan, pohon keputusan dapat dibentuk berdasarkan nilai gain yang telah dihitung sebelumnya. Atribut dengan nilai gain tertinggi akan terletak pada prioritas yang lebih tinggi dan memiliki kedudukan yang lebih tinggi juga pada pohon keputusan[6] Prediksi Prediksi adalah sama dengan ramalan atau perkiraan. Menurut Kamus Besar Bahasa Indonesia, prediksi adalah hasil dari kegiatan memprediksi atau meramal atau memperkirakan. Prediksi bisa berdasarkan metode ilmiah ataupun subjektif belaka. Kesimpulannya pengertian prediksi secara istilah akan sangat tergantung pada konteks atau permasalahannya. Berbeda dengan pengertian prediksi secara bahasa yang berarti lamaran atau perkiraan yang sudah menjadi pengertian yang baku[7]. Menurut (Eva, Y. 2015) manfaat dalam melakukan prediksi adalah : 1. Mengetahui kondisi masa mendatang. 2. Perencanaan produksi, pemasaran, keuangan, dan lain-lain. 3. Keperluan investasi pada sebuah perusahaan Pengertian Data Data adalah hasil observasi langsung terhadap suatu kejadian, yang merupakan perlambangan yang mewakili objek atau konsep dalam dunia nyata. Hal ini dilengkapi dengan nilai tertentu. Menurut Ralson dan Reilly (Chamidi, 2004: 314), data didefinisikan sebagai fakta atau apa yang dikatakan sebagai hasil observasi terhadap fenomena di alam. Sebagai hasil observasi langsung terhadap kejadian atau fakta dari fenomena di alam nyata, data bisa berupa tulisan atau gambar yang dilengkapi dengan nilai tertentu. Contohnya, daftar hadir siswa

26 30 semester 1 Ilmu Perpustakaan dan kearsipan adalah data. Daftar tersebut masih merupakan bentuk mentah karena belum memberikan informasi apa-apa. Sebagian orang awam sering memiliki pengertian yang agak rancu terhadap data dan informasi. Sering terjadi pengertian data digunakan untuk menyebut informasi. Demikian pula sebaliknya[8] Pengertian Penjualan Penjualan adalah suatu usaha yang terpadu untuk mengembangkan rencana-rencana strategis yang diarahkan pada usaha pemasaran kebutuhan dan keinginan pembeli, guna mendapatkan penjualan yang menghasilkan laba. Penjualan merupakan sumber hidup suatu perusahaan, karena dari penjualan dapat diperoleh laba serta suatu usaha memikat konsumen yang diusahakan untuk mengetahui daya tarik mereka sehingga dapat mengetahui hasil produk yang dihasilkan. Penjualan adalah suatu transfer hak atas benda-benda. Dari penjelasan tersebut dalam memindahkan atau menstransfer barang dan jasa diperlukan orangorang yang bekerja dibidang penjualan seperti pelaksanaan dagang, agen, wakil pelayanan dan wakil pemasaran. Bagaimana menciptakan hubungan jangka panjang dengan pelanggan melalui produk atau jasa perusahaan. Dalam hal ini, selling berrti sebuah taktik yang dapat mengintegrasikan perusahaan, pelanggan, dan relasi antara keduanya Selling adalah suatu kegiatan yang ditujukan untuk mencari pembeli, mempengaruhi dan memberi petunjuk agar pembeli dapat menyesuaikan kebutuhannya dengan produk yang ditawarkan serta mengadakan perjanjian mengenai harga menguntungkan bagi kedua belah pihak. Faktor-faktor Yang Mempengaruhi Kegiatan Penjualan Dalam praktek kegiatan penjualan itu dipengaruhi oleh beberapa faktor sebagai berikut[9]: a. Kondisi dan Kemampuan Penjual Transaksi jual-beli atau pemindahan hak milik secara komersial atas barang dan jasa itu pada prinsipnya melibatkan dua pihak, yaitu penjual sebagai pihak pertama dan pembeli sebagai pihak kedua. Disini penjual harus dapat menyakitkan kepada pemeblinya agar dapat berhasil mencapai sasaran

27 31 penjualan yang diharapkan. Untuk maksud tersebut penjual harus memahami beberapa masalah penting yang sangat bekaitan, yakni : 1) Jenis dan karakteristik barang yang ditawarkan. 2) Harga produk. 3) Syarat penjualan seperti: pembayaran, pelayanan sesudah penjualan, garansi dan sebagainya. b. Kondisi Pasar Pasar, sebagai kelompok pembeli atau pihak yang menjadi sasaran dalam penjualan, dapat pula mempengaruhi kegiatan penjualannya. Adapun faktorfator kondisi pasar yang perlu di perhatikan adalah: 1) Jenis pasarnya. 2) kelompok pembeli atau segmen pasarnya. 3) Daya belinya. 4) Frekuensi pembelian. 5) Keinginan dan kebutuhan. c. Modal Akan sulit bagi penjualan barangnya apabila barang yang dijual tersebut belum dikenal penjual harus memperkenalkan dulu membawa barangnya ketempat pembeli. Untuk melaksanakan maksud tersebut diperlukan adanya sarana serta usaha, seperti alat transport, tempat peragaan baik didalam perusahaan maupun di luar perusahaan, usaha promosi, dan sebagainya. Semua ini hanya dapat dilakukan apabila penjualan memiliki sejumlah modal yang diperlukan untuk itu. Seperti usaha promosi membutuhkan data penjualan dimana data penjualan bertugas untuk menjalin hubungan dengan pelanggan serta menimbulkan perasaan senang dalam diri pelanggan, karena dengan itu peluang untuk mencapai keberhasilan dalam menjual akan semakin meningkat. d. Kondisi Organisasi Perusahaan Pada perusahaan besar, biasanya masalah penjualan ini ditangani oleh bagian tersendiri (bagian penjualan) yang dipegang orang-orang tertentu/ahli di bidang penjualan.

28 32 e. Faktor Lain. Faktor-faktor lain, seperti: periklanan, peragaan, kampanye, pemberian hadiah, sering mempengaruhi penjualan. Namun untuk melaksanakannya, diperlukan sejumlah dana yang sedikit. Bagi perusahaan yang bermodal kuat, kegiatan ini secara rutin dapat dilakukan. Sedangkan bagi perusahaan kecil yang mempunyai modal relatif kecil, kegiatan ini lebih jarang dilakukan. Ada pengusaha yang berpegangan pada suatu prinsip bahwa paling penting membuat barang yang baik. Bilamana prinsip tersebut dilaksanaka, maka diharapkan pembeli akan kembali membeli lagi barang yang sama. Namun, sebelum pembelian dilakukan, sering pembeli harus dirangsang daya tariknya, misalnya dengan memberikan bungkus yang menarik atau dengan cara promosi lainnya. 2.3 Data Mining Pengertian Data Mining Data Mining sebagai proses untuk menemukan kolerasi atau pola dari ratusan atau ribuan field dari sebuah relasional basis data yang besar. Data Mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat pada basis data. Data Mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam basis data yang besar sehingga sering disebut Knowledge Discovery Databases (KDD). Hal penting yang terkait di dalam Data Mining adalah[5] : 1. Data Mining merupakan suatu proses otomatis terhadap data yang sudah ada. 2. Data yang akan diproses berupa data yang sangat besar 3. Tujuan Data Mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat. Kemampuan Data Mining dalam mencari informasi bisnis yang berharga dari basis data yang sangat besar,

29 33 dapat di analogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk : a) Prediksi dan sifat-sifat bisnis. Data Mining secara otomatis melakukan proses pencarian informasi untuk memprediksi basis data dalam jumlah besar. b) Penemuan pola-pola yang diketahui sebelumnya. Data Mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Tahapan proses Data Mining[5]: 1. Data Cleaning, tahap pembersihan data yang konsisten. 2. Data Integration, langkah menggabungkan data dari beberapa sumber. 3. Data Selection, data yang dikembalikan lagi ke database setelah proses data cleaning. 4. Data Transformation, data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi regrasi. 5. Data Mining, merupakan proses yang digunakan untuk mengolah suatu data dengan menggunakan metode. 6. Evaluation and presentation, pengidentifikasian pola berdasarkan tindakan yang digunakan. 7. Knowledge, hasil yang dicapai berupa pengetahuan atau sebuah informasi. Sumber : Azwanti (2018) Gambar 2.2 Tahapan Proses Data Mining

30 Tugas-tugas Data Mining Tugas-tugas yang biasa dilakukan oleh data mining antara lainganti ke jurnal ini [10] : 1. Klastering Mengelompokkan obyek ke dalam beberapa kelompok berdasarkan kemiripan antar obyek, dimana dalam satu klaster harus bersisi obyek yang saling mirip dan antar klaster obyek salin mirip. Klastering ini memerlukan data pelatihan yang sudah diberi label. 2. Klasifikasi Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data dan mengklasifikasikannnya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya. Beberapa metode klasifikasi umum digunakan dalam data mining adalah : pengklasifikasi pohon keputusan, pengklasifikasi bayesian, pengklasifikasi k- nearest neighbour, penalaran berbasis kasus, algoritma genetika dan teknik logika fuzzy.(azwanti, 2018:34). 3. Regresi Regresi pada dasarnya mirip dengan klasifikasi, yakni memerlukan data pelatihan yang sudah diberi label. Bedanya, output klasifikasi adalah nilai diskrit, sedangkan output dari regresi adalah nilai kontinyu. Regresi ini mencari model hubungan antara atribut dependent, dimana atribut depedent nya juga berupa nilai kontinyu. 4. Asosiasi Melakukan asosiasi antar obyek dalam suatu data set, biasanya data franksaksional. Asiosi dilakukan dengan menghitung berapa kali dalam suatu set data suatu transaksi yang mengandung dua item atau lebih yang berhubungan. Sering ada yang menyebut Market Basket.

31 Manfaat Data Mining Data mining juga bisa dimanfaatkan untuk menyelesaikan masalah dalam kebutuhan dibidang bisnis, misalnya : 1. Mengetahui hilangnya pelanggan dikarenakan adanya pesaing. 2. Mengetahui item suatu produk yang memiliki keamanan karakteristik. 3. Mengidentifikasi produk-produk yang sudah terjual dengan produk lainnya. 4. Untuk memprediksi dari tingkat penjualan. 5. Menilai tingkat resiko dalam menentukan jumlah produksi pada suatu item. 6. Memprediksi perilaku bisnis dimasa depan Jenis Atau Teknik Data Mining Teknik yang digunakan dalam data mining erat kaitanya dengan penemuan (discovery) dan pembelajaran (Learning) yang berbagi dalam tiga metode utama pembelajaran yaitu [11]: 1. Supervised Learning Adalah teknik yang paling banyak digunakan. Teknik ini sama dengan programing by example. Teknik ini melibatkan fase pelatihan dimana data pelatihan historis yang karakter-karakternya dipetakan ke hasil-hasil yang telah diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai dasar dalam perkiraan-perkiraan ketika diberikan data baru. 2. Unsupervised Learning Teknik pembelajaran ini melibatkan fase pelatihan seperti yang terdapat pada supervised learning. Teknik ini bergantung pada penggunaan algoritma yang mendeteksi semua pola, seperti association dan sequences, yang muncul dari kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan association, cluster, dan segments. Aturan-aturan ini kemudian dianalisis untuk menemukan hal-hal penting.

32 36 3. Reinforcement Learning Teknik pembelajaran ini jarang digunakan dibandingkan dengan dua teknik lainya, namun memiliki peranan-peranan yang terus dioptimalkan dari waktu ke waktu memiliki control adaptif. Teknik ini sangat menyerupai kehidupan nyata yaitu seperti on job training, dimana seorang pekerja diberikan sekumpulan tugas yang membutuhkan keputusan keputusan yang telah dibuatnya sehubungan dengan hasil performace pekerja tersebut. Reinformace learning sangat tepat digunakan untuk menyelesaikan masalahmasalah yang sulit bergantung pada waktu. 2.4 Klasifikasi Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk diklasifikasi. Dalam klasifikasi, keluaran dari setiap data adalah bilangan bulat atau diskrit. Dalam contoh pengambilan keputusan untuk main bola atau maka keluaran tersebut bisa diubah ke bilangan bulat 1 atau -1 dengan melihat keluaran yang berupa bilangan bulat kita bisa menerapkan method klasifikasi. 2.5 Decision Tree Decision Tree merupakan metode klasifikasi yang paling sering diguanakan. Dalam pengerjaannya memerlukan waktu yang lama dan hasilnyapun mudah untuk dipahami dan banyak penelitian dalam kasus ini sering menggunakan Decision Tree untuk mendapatkan hasil yang maksimal. Secara umum Algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut[12]: 1. Pilih atribut sebagai akar 2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang

33 37 4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. Tiga jenis Node pada Decision Tree : a. Root Node, merupakan Node paling atas, pada Node ini ada masukan dan bisa mempunyai luaran lebih dari satu. b. Internal Node, merupakan Node percabangan, pada Node ini hanya terdapat satu masukan dan mempunyai luaran minimal 2. c. Leaf Node atau terminal Node, merupakan Node terakhir, pada Node ini hanya terdapat satu masukan dan mempunyai luaran. Dalam induksi Decision Tree adalah bagaimana menyatakan syarat pengujian pada Node. Ada 3 kelompok penting syarat pengujian Node: 1. Fitur biner Memiliki 2 nilai berbeda disebut dengan fitur biner. Syarat pengujian ketika fitur ini menjadi Node (akar maupun internal) hanya punya dua pilihan cabang. 2. Fitur bertipe kategorikal Fitur yang nilainya bertipe ketegorikal (nominal atau ordinal) bisa mempunyai beberapa nilai berbeda. 3. Fitur bertipe numeric Fitur bertipe numerik, syarat pengujian dalam Node (akar maupun internal) dinyatakan dengan perbandingan pengujian (A<v) atau (A v) dengan hasil biner, atau untuk multi dengan hasil berupa jangkauan nilai bentuk vi A <v i+1, untuk i=1,2,.,k. 2.6 Knowledge Discovery In Database (KDD) Knowledge Discovery In Databases (KDD) adalah proses non trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data. Knowledge Discovery In Database (KDD) merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam data berukuran besar serta hubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dai pola-pola sejumlah kumpulan data[13].

34 38 Secara umum tahapan-tahapan proses Knowledge Discovery in Databases terdiri dari : 1. Data Cleaning Proses menghilangkan noise dari data yang konsisten. 2. Data Integration Penggabungan Data dari berbagai database ke dalam satu database baru. 3. Data Selection Proses pemilihan data yang relevan yang didapat dari database. 4. Data Transformation Data diubah ke dalam format yang sesuai untuk diproses dalam Data Mining. 5. Data Mining Suatu metode yang diterapkan untuk menemukan pengetahuan berharga yang tersembunyi dari data. 6. Pattern Evaluation Mengidentifikasi pola-pola menarik untuk dipresentasikan ke dalam knowledge based. 7. Knowledge Presentation Visualisasi dan penyajian pengetahuan mengenai teknik yang digunakan untuk memperoleh pengetahuan yang diperoleh oleh user. 2.7 Rapid Miner Rapid Miner merupakan perangkat lunak yang dibuat oleh Dr. Markus Hofmann dari Institute of Technologi Blanchardstown dan Ralf Klinkenberg dari rapid-i.com dengan tampilan GUI (Graphical User Interface) sehingga memudahkan pengguna dalam mengguanakan perangkat lunak ini. Perangkat lunak ini bersifat open source dan dibuat dengan menggunakan program java dibawah lisensi GNU Public Licence dan Rapid Miner dapat dijalankan di sistem operasi manapun. Dengan menggunakan Rapid Miner, dibutuhkan kemampuan koding khusus, karena semua fasilitas sudah disediakan. Rapid Miner dikhususkan untuk penggunaan data mining. Model yang disediakan juga cukup banyak dan lengkap, seperti Model Bayesian, Modelling,

35 39 Tree Induction, Neural Network dan lain-lain. Banyak metode yang disediakan oleh Rapid Miner mulai dari klasifikasi, klustering, asosiasi dan lain-lain. Jika ada model atau model algoritma yang ada dalam Weka, pengguna boleh menambahkan moduln lain, karena weka bersifat open source, jadi sapapun dapat ikut mengembangkan perangkat lunak ini. Gambar 2.3 Tampilan Utama Rapid Miner 2.8 Kerangka Pemikiran Kerangka pemikiran merupakan alur pikir penulis yang dijadikan sebagai skema pemikiran atau dasar-dasar pemikiran untuk memperkuat indikator yang melatar belakangi penelitian ini. Dalam kerangka pemikiran ini penulis mencoba menjelaskan masalah pokok penelitian.

36 Gambar 2.4 Kerangka Pemikiran 40

37 41 BAB III METODE PENELITIAN 3.1 Objek Penelitian Dalam penyusunan laporan penelitian ini penulis melakukan penelitian dengan mengambil objek penelitian pada Toko Deshop Cikarang yang betempat di Desa Kukun Kecamatan Cikarang Kabupaten Bekasi. 3.2 Jenis Data Dalam pembuatan penelitian ini metode pengumpulan data yang digunakan penulis adalah metode pengumpulan dengan cara menggabungkan data dari sumber data primer dan sumber data sekunder yang menunjang pada tujuan penelitian. 1. Sumber Data Primer Dalam penulisan penelitian ini, penulis mengumpulkan data sebagai bahan dari pembuatan laporan dengan menggunakan metode deskriptif, yaitu teknik pengumpulan data yang digunakan adalah : a. Wawancara (Interview) Adalah teknik pengumpulan data yang sangat penting dalam penelitian kualitatif yang melibatkan manusia sebagai subjek. b. Studi Pustaka Adalah teknik pengumpulan data yang dilakukan dengan menghimpun, mempelajari, dan menganalisis dokumen-dokumen baik dokumen tertulis, gambar maupun elektronik seperti buku-buku referensi, jurnal-jurnal, dan media lainnya yang berkaitan dengan onyek penelitian. c. Observasi Adalah pengamatan langsung suatu kegiatan yang sedang dilakukan.

38 42 2. Sumber Data Sekunder Dalam pengumpulan data sekunder penulis menggunakan cara dokumentasi yaitu mengumpulkan bahan-bahan yang tertulis berupa data/laporan yang diperoleh dari Papermooth selama melakukan kegiatan penelitian. Selain itu penulis juga melihat referensi dari penulisan penelitian sebelumnya yang berkaitan dengan judul. 3.3 Metodologi Penelitian Metode yang digunakan dalam penelitian ini adalah metode penelitian KDD (Knowledge Discovery in Database), yang mencakup beberapa aktivitas yaitu seleksi, praproses, transformasi, data mining, interprestasi dan evaluasi. 1. Pengumpulan Data Pengumpulan data adalah mengumpulkan data-data yang akan digunakan dalam proses algoritma klasifikasi C Seleksi Data Seleksi data adalah data yang akan digunakan dalam proses algoritma klasifikasi C4.5. Tujuan dari seleksi data adalah menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. 3. Transformasi Data Transformasi data adalah proses mentransformasi atau mengubah data ke dalam bentuk yang sesuai, agar dapat di proses dengan perhitungan algoritma C Perhitungan Entropy dan Information Gain Perhitungan semua atribut/variabel, entropy menggunakan rumus 1 dan information gain menggunakan rumus 2 untuk mengetahui information gain tertinggi yang akan di jadikan simpul akar pada pembuatan pohon keputusan. 5. Pohon Keputusan (Decision Tree) Pohon keputusan adalah hasil dari proses perhitungan entropy dan information gain, setelah perhitungan berulang-ulang sampai semua

39 43 atribut pohon memiliki kelas dan bisa lagi dilakukan proses perhitungan. 6. Aturan-aturan/Rule Model Aturan-aturan/Rule model adalah uraian penjelasan yang merepresentasikan sebuah pohon keputusan. 7. Validasi dan Pengujian Validasi dan pengujian adalah pengujian yang dilakukan untuk mengetahui semua fungsi bekerja dengan baik atau. Validasi dilakukan dengan Ten-fold Cros Validation. Ten-fold Cross Validation adalah validasi yang dilakukan dengan cara membagi suatu set data menjadi sepuluh segmen yang berukuran sama besar dengan cara melakukan pengacakan data, validasi dan pengujian dilakukan untuk mengetahui tingkat akurasi, presisi, dan recall dari hasil prediksi klasifikasi. Akurasi adalah presentasi dari catatan yang diklasifikasi dengan benar dalam pengujian dataset, persisi adalah presentasi data yang diklasifikasikan sebagai model baik yang sebenarnya juga baik. Recall adalah pengukuran tingkat berpengenalan positif sebenarnya. 8. Analisis Hasil Pengujian Analisa yang dilakukan untuk memastikan bahwa hasil pengujian benarbenar sesuai dengan pembahasan. Analisa dilakukan dengan melakukan perhitungan kembali hasil validasi dan pengujian (akurasi, presisi, dan recall) secara manual, apakah perhitungan yang dilakukan akan menghasilkan nilai yang sama atau, dibantu dengan Confusion Matrix. Confusion Matrix adalah model yang akan membentuk matrix yang terdiri true positif atau tupel positif dan true negatif atau tupel negatif. Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi. Confusion Matrix dapat memvisualisasi kinerja algoritma klasifikasi.

40 Analisis Data Knowledge Discovery in Database (KDD) Dalam pengumpulan data terdapat sebanyak 290 data memiliki 5 attribut. Setelah data di dapatkan maka ada beberapa tahapan preparation data. Preparation data merupakan tahapan untuk mendapatkan data yang berkualitas dan mempermudah proses perhitungan data mining, maka dapat dilakukan beberapa teknik sebagai berikut : A. Data Cleaning Pada tahap ini dilakukan proses pembersihan data untuk memastikan data yang telah dipilih layak atau dalam proses pemodelan data mining. Dalam penelitian ini dilakukan pembersihan data dengan cara menghilangkan data yang lengkap (missing value). B. Data Selection Berikut adalah tabel 3.1 yang merupakan tabel attribut yang akan digunakan dalam proses perhitungan decision tree C4.5. Tabel 3.1 Atribut Yang Digunakan No Atribut Tipe 1 Merek Text 2 Nama Produk Text 3 Jenis Produk Text 4 Harga Currency 5 Terjual Numeric Tabel 3.2 Data Penjualan

41 No Nama produk merek jenis produk Harga Jumlah Terjual Terjual 1 Peel off mask oatmeal philochaly masker wajah Peel off mask vit c +collagen philochaly masker wajah peach philochaly masker wajah Tea tree oil philochaly masker wajah blueberry philochaly masker wajah lavender philochaly masker wajah strawberry shuffle lea gloria masker wajah vanila milk lea gloria masker wajah chocolate milted lea gloria masker wajah golden beauty lea gloria masker wajah greentea clay lea gloria masker wajah es corbet whitening lea gloria masker wajah egg white honey lea gloria masker wajah crèmy coffe lea gloria masker wajah avocado recipes lea gloria masker wajah gelatin original deshop masker wajah gelatin charcoal deshop masker wajah gelatin coklat deshop masker wajah gelatin strawberry deshop masker wajah gelatin greentea deshop masker wajah gelatin kopi deshop masker wajah cuka apel bragg toner air mawar deshop toner spatula deshop aksesoris mangkok masker deshop aksesoris bandana deshop aksesoris pinset komedo deshop aksesoris kuas masker deshop aksesoris cup masker deshop aksesoris Peel off mask oatmeal philochaly masker wajah Peel off mask vit c +collagen philochaly masker wajah peach philochaly masker wajah Tea tree oil philochaly masker wajah blueberry philochaly masker wajah lavender philochaly masker wajah strawberry shuffle lea gloria masker wajah vanila milk lea gloria masker wajah chocolate milted lea gloria masker wajah golden beauty lea gloria masker wajah greentea clay lea gloria masker wajah es corbet whitening lea gloria masker wajah egg white honey lea gloria masker wajah crèmy coffe lea gloria masker wajah avocado recipes lea gloria masker wajah gelatin original deshop masker wajah gelatin charcoal deshop masker wajah gelatin coklat deshop masker wajah gelatin strawberry deshop masker wajah gelatin greentea deshop masker wajah cup masker deshop aksesoris Tabel 3.3 Klasifikasi Berdasarkan Jenis Produk Jenis Produk Laris Status Penjualan Kurang Laris Masker Toner 12 8 Aksesoris Tabel 3.4 Klasifikasi Berdasarkan Jumlah Terjual Status Penjualan

42 Jumlah Terjual Laris Kurang Laris Tabel 3.5 Klasifikasi Berdasarkan Nama Produk Nama Produk Laris Status Penjualan Tidak Laris Peel off mask oatmeal 7 3 Peel off mask vit c 7 3 +collagen peach 8 2 Tea tree oil 4 6 blueberry 3 7 lavender 6 4 strawberry shuffle 6 4 vanila milk 7 3 chocolate milted 6 4 golden beauty 6 4 greentea clay 4 6 es corbet whitening 4 6 egg white honey 4 6 cremy cofee 6 4 avocado recipes 5 5 gelatin original 4 6 gelatin charcoal 6 4 gelatin coklat 6 4 gelatin strawberry 7 3

43 gelatin greentea 8 2 gelatin kopi 4 6 Tabel 3.6 Klasifikasi Berdasarkan Jenis Aksesoris Jenis Aksesoris Laris Status Penjualan Tidak Laris Spatula 5 5 Mangkok masker 5 3 Bandana 10 0 Pinset komedo 0 7 Kuas masker 5 5 Cup masker 5 5 Tabel 3.7 Klasifikasi Berdasarkan Jenis Toner Jenis Toner Laris Status Penjualan Tidak Laris Cuka apel 7 3 Air mawar 5 5 Tabel 3.8 Klasifikasi Berdasarkan Merek Merek Laris Status Penjualan Tidak Laris Philochaly Lea gloria Deshop Cikarang 66 64

44 Tabel 3.9 Klasifikasi Berdasarkan Harga Harga Laris Status Penjualan Tidak Laris HR (harga rendah) HT (harga tinggi) HS ( harga Sedang) C. Mining Process Pada tahap ini peneliti menentukan teknik data mining yang digunakan untuk mengolah data yang sudah disiapkan sebelumnya. Dan yang sudah disiapkan untuk klasifikasi dibagi menjadi dua data, untuk data training (80%) dan untuk data testing (20%). Pembagian data training dan data testing menggunakan teknik sampling random sistematik. Cara penggunaan teknik ini yaitu dengan cara perandoman atau pengundian hanya dilakukan satu kali, yakni ketika menentukan unsur pertama dari sampling yang akan diambil. Penentuan unsur sampling selanjutnya ditempuh dengan cara memanfaatkan interval sampel. Interval sampel adalah angka yang menunjukan jarak antara nomor-nomor urut yang terdapat dalam kerangka sampling yang akan dijadikan patokan dalam menentukan atau memilih unsur-unsur sampling kedua dan seterusnya hingga unsur ke n. Interval sampel biasanya dilambangkan dengan huruf k. Interval sampel atau juga disebut sampling rasio diperoleh dengan cara membagi ukuran populasi dengan ukuran sampel yang dikehendaki (N/m). Contoh perhitungan untuk mengambil data testing adalah sebagai berikut : Jumlah data keseluruhan (N) = 290

45 Jumlah data testing = 20% 290 = 58 Jumlah sampel (n) = 58 Internal Sampling (k) = N/n =290/58 = 5 Dari hasil diatas diperoleh data testing sebanyak 58 maka sisanya dijadikan data training sebanyak = 232 setelah semua data siap dan sudah sesuai dengan tahapan pengolahan sebelumnya, data yang sudah melalui proses pengolahan kemudian akan dilakukan perhitungan dengan menggunakan tools rapidminer. Dua langkah yang dilakukan pada tahap ini ialah : 1. Perhitungan decision tree secara manual Data yang akan digunakan dalam perhitungan secara manual yaitu 5 sampel data testing yang diambil 20% dari dataset penjualan Gerai Busana Muslim secara acak oleh peneliti. 2. Pengujian decision tree menggunakan Rapidminer Pengujian dengan menggunakan rapidminer bertujuan untuk memudahlan dan membandingkan dalam pemrosesan data secara manual. D. Pattern Evaluation Melakukan pengujian terhadap model-model yang bertujuan untuk mendapatkan model yang paling akurat. Pada tahap evaluasi, akan diketahui apakah hasil dari tahap pemodelan dapat menjawab tujuan yang telah ditetapkan pada tahap pertama. Untuk itu akan dilakukan pola pada decision tree yang telah terbentuk, sehingga diharapkan mendapatkan informasi atau pola yang berguna sebagai prediksi produk ter untuk mengelola modal usaha pada Gerai Busana Muslim. E. Knowledge presentation Visualisasi dan penyajian pengetahuan berdasarkan hasil yang telah didapat pada tahap sebelumnya utnuk memperoleh pengetahuan yang telah di peroleh.

46 3.5 Tahapan Penelitian Gambar 3.3 Tahapan Penelitian 3.6 Kebutuhan Software dan Hardware 1. Kebutuhan software yang diperlukan adalah sebagai berikut : a. Sistem operasi windows 10 versi 64 bit b. Rapidminer 9.0 c. Microsoft Office Kebutuhan hardware yang diperlukan dalam penelitian ini adalah sebagai berikut : a. Laptop intel dual core b. RAM 2 GB

47 BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian Metode penelitian yang penulis lakukan menghasilkan informasi dan data yang digunakan sebagai acuan penulis sebagai dasar penelitian. Penelitian ini mengguanakan semua data dari data penjualan Deshop Cikarang yaitu sebanyak 290 data sebagai data Training untuk proses klasifikasi, dan 20% dari data training untuk dijadikan data testing. Gambar 4.1 Dataset No Nama produk merek jenis produk Harga Jumlah Terjual Terjual 1 Peel off mask oatmeal philochaly masker wajah Peel off mask vit c +collagen philochaly masker wajah peach philochaly masker wajah Tea tree oil philochaly masker wajah blueberry philochaly masker wajah lavender philochaly masker wajah strawberry shuffle lea gloria masker wajah vanila milk lea gloria masker wajah chocolate milted lea gloria masker wajah golden beauty lea gloria masker wajah greentea clay lea gloria masker wajah es corbet whitening lea gloria masker wajah egg white honey lea gloria masker wajah crèmy coffe lea gloria masker wajah avocado recipes lea gloria masker wajah gelatin original deshop masker wajah gelatin charcoal deshop masker wajah gelatin coklat deshop masker wajah gelatin strawberry deshop masker wajah gelatin greentea deshop masker wajah gelatin kopi deshop masker wajah cuka apel bragg toner air mawar deshop toner spatula deshop aksesoris mangkok masker deshop aksesoris bandana deshop aksesoris pinset komedo deshop aksesoris kuas masker deshop aksesoris cup masker deshop aksesoris Peel off mask oatmeal philochaly masker wajah Peel off mask vit c +collagen philochaly masker wajah peach philochaly masker wajah Tea tree oil philochaly masker wajah blueberry philochaly masker wajah lavender philochaly masker wajah strawberry shuffle lea gloria masker wajah vanila milk lea gloria masker wajah chocolate milted lea gloria masker wajah golden beauty lea gloria masker wajah greentea clay lea gloria masker wajah es corbet whitening lea gloria masker wajah egg white honey lea gloria masker wajah crèmy coffe lea gloria masker wajah avocado recipes lea gloria masker wajah gelatin original deshop masker wajah gelatin charcoal deshop masker wajah gelatin coklat deshop masker wajah gelatin strawberry deshop masker wajah gelatin greentea deshop masker wajah cup masker deshop aksesoris

48 Gambar 4.2 Data Testing Nama produk merek jenis produk Harga Terjual cuka apel bragg toner HT cuka apel bragg toner HT cuka apel bragg toner HT air mawar deshop toner HR air mawar deshop toner HR air mawar deshop toner HR bandana deshop aksesoris HR bandana deshop aksesoris HR cup masker deshop aksesoris HR cup masker deshop aksesoris HR gelatin charcoal deshop masker wajah HT gelatin charcoal deshop masker wajah HT gelatin coklat deshop masker wajah HT gelatin greentea deshop masker wajah HT gelatin greentea deshop masker wajah HT gelatin kopi deshop masker wajah HT gelatin original deshop masker wajah HT gelatin strawberry deshop masker wajah HT kuas masker deshop aksesoris HR mangkok masker deshop aksesoris HR mangkok masker deshop aksesoris HR pinset komedo deshop aksesoris HR spatula deshop aksesoris HR spatula deshop aksesoris HR spatula deshop aksesoris HR avocado recipes lea gloria masker wajah HR avocado recipes lea gloria masker wajah HR avocado recipes lea gloria masker wajah HR chocolate milted lea gloria masker wajah HR chocolate milted lea gloria masker wajah HR crèmy coffe lea gloria masker wajah HR crèmy coffe lea gloria masker wajah HR egg white honey lea gloria masker wajah HR es corbet whitening lea gloria masker wajah HR es corbet whitening lea gloria masker wajah HR golden beauty lea gloria masker wajah HR greentea clay lea gloria masker wajah HR greentea clay lea gloria masker wajah HR strawberry shuffle lea gloria masker wajah HR strawberry shuffle lea gloria masker wajah HR strawberry shuffle lea gloria masker wajah HR vanila milk lea gloria masker wajah HR vanila milk lea gloria masker wajah HR blueb philochaly masker wajah HR blueb philochaly masker wajah HR laven philochaly masker wajah HR laven philochaly masker wajah HR Peel off mask oatme philochaly masker wajah HR Peel off mask oatme philochaly masker wajah HR Peel off mask oatme philochaly masker wajah HR peach philochaly masker wajah HR Tea tr philochaly masker wajah HR Tea tr philochaly masker wajah HR Tea tr philochaly masker wajah HR Peel off mask vit c + philochaly masker wajah HR Peel off mask vit c + philochaly masker wajah HR Peel off mask vit c + philochaly masker wajah HR Peel off mask vit c + philochaly masker wajah HR

49 Data diatas adalah data testing, data testing adalah data 20% dari keseluruhan, total populasi data testing berjumlah 58 data. Data testing dipilih secara acak Root Node Berikut adalah tampilan hasil perhitungan entropy dan gain yang lengkap dalam bentuk tabel. Gambar 4.3 Tabel Perhitungan Algoritma C4.5 Node 1 No ATRIBUTE VALUE 1 JUMLA H KASUS ( S ) Tidak Laris (S1) Laris (S2) E(S1) = E(S2) = (-S1/S)*LOG2 (S1/S) (-S2/S)*LOG2 (S2/S) ENTROPY (E) TOTAL , , , Masker wajah , , , jenis produk Toner , , , Aksesoris , , , TOTAL GAIN E (TOTAL) - (jumlah G) 0, merek Pilochaly Bragg Dheshop , , , Lea Gloria , , , , Peel off mask oatmeal Peel off mask vit c +collagen peach Tea tree oil blueberry lavender strawberry shuffle , , , vanila milk chocolate milted golden beauty greentea clay es corbet whitening egg white honey crèmy coffe Nama Produk avocado recipes gelatin original gelatin charcoal gelatin coklat gelatin strawberry gelatin greentea gelatin kopi cuka apel air mawar , , , spatula mangkok masker bandana pinset komedo kuas masker cup masker HR ,5 0, , Harga HT , , , HS Berikut hasil perhitungan Node 1 sebagai berikut : Total jumlah (S) 58 Jumlah Laris (S1) 39 Jumlah Tidak Laris (S2) 19 Entropy Total = ( 0, , = ( = 0,

50 1. Entropy Jenis Produk Entropy Masker Wajah = ( = ( = 0, Entropy Toner = ( = ( = 0, Entropy Aksesoris = ( = ( = 0, Gain Total (jenis produk) = Entropy (S) - *Entropy = 0, = 0, Entropy Merek Entropy Pilochaly = ( = ( = 0 Entropy Bragg = ( = ( = 0 Entropy Deshop = ( = ( = 0, Entropy Lea Gloria = ( = ( = 0,

51 3. Perhitungan Harga HR Entropy (HR) = = -0, HT Entropy (HT) = HS = 0, Entropy (HT) = = 0 Gain Total (Harga) = Entropy (S) - *Entropy = 0, = 0, Nilai Gain yang dijdikan node akar pertama yaitu Harga, untuk node akar selanjutnya dilakukan perhitungan lagi dan seterusnya dengan menghitung nilai value HR dan HT. Adapun hasil dari perhitungan node 1.1 sebagai berikut : NO ATRIBUTE VALUE JUMLAH KASUS ( S ) Tidak Laris (S1) Laris (S2) E(S1) = E(S2) = (-S1/S)*LOG2 (- S2/S)*LOG2 (S1/S) (S2/S) ENTROPY (E) 1 Harga HR ,5 0, , jenis produk Masker wajah , , , Toner , , , Aksesoris , , , Nama Produk air mawar , , bandana cup masker kuas masker mangkok masker pinset komedo spatula avocado recipes chocolate milted creamy coffe egg white honey es corbet whitenin golden beauty greentea clay strawberry shuffle , , , vanila milk merek deshop , , , lea gloria , , , TOTAL GAIN E (TOTAL) - (jumlah G) -0, , ,

52 Gambar 4.4 Tabel Perhitungan Algoritma C4.5 Node 1.1 Selanjutnya adalah menyelesaikan untuk menghitung node 1.1 sebagai akar, sama dengan cara yang diatas dengan menghitung nilai entropy dari attribut yang tersisa yaitu air mawar dan strawberry shuffle pada attribut nama produk. NO ATRIBUTE VALUE JUMLAH KASUS ( S ) Laris (S1) Laris (S2) E(S1) = E(S2) = (-S1/S)*LOG2 (S1/S) (- S2/S)*LOG2 (S2/S) ENTROPY (E) TOTAL GAIN E (TOTAL) - (jumlah G) 1 Nama Produk air mawar , , , Jenis Produk toner , , , merek deshop , , , Gambar 4.5 Tabel Perhitungan Algoritma C4.5 Node 1.2 Selanjutnya adalah menyelesaikan untuk menghitung node 1.2 sebagai akar, dari node 1.2 terdapat Gain yang sama yaitu attribut Jenis Produk dengan value toner dan Merek dengan value deshop. Maka akar cabang nya yaitu jenis produk. Adapun hasil perhitungan node 1.3 adalah sebagai berikut : NO ATRIBUTE VALUE JUMLAH KASUS ( S ) Laris (S1) Laris (S2) E(S1) = E(S2) = (- (-S1/S)*LOG2 S2/S)*LOG2 (S1/S) (S2/S) ENTROPY (E) TOTAL GAIN E (TOTAL) - (jumlah G) 1 Nama Produk strawberry shuffle , , , Jenis Produk masker wajah , , , merek lea gloria , , , Gambar 4.6 Tabel Perhitungan Algoritma C4.5 Node 1.3 Selanjutnya adalah menyelesaikan untuk menghitung node 1.3 sebagai akar, dari node 1.3 terdapat Gain yang sama yaitu attribut Jenis Produk dengan value masker wajah dan Merek dengan value lea gloria. Maka akar cabang nya yaitu Jenis produk. Adapun hasil perhitungan node 1.4 adalah sebagai berikut :

53 Gambar 4.7 Tabel Perhitungan Algoritma C4.5 Node 1.4 Selanjutnya adalah menyelesaikan untuk menghitung node 1.4 sebagai hasil akhir, sama dengan cara yang diatas dengan menghitung nilai entropy, dari node 1.4 terdapat gain yang sama yaitu Jenis Produk dan Merek, maka untuk akar cabang dari Harga dengan value HT adalah Jenis Produk diikuti dengan Merek Rapid Miner Setelah dilakukan dengan perhitungan menggunakan excel, selanjutnya dilakukan perhitungan menggunakan aplikasi rapid miner. Adapun langkah-langkah dalam mengolah data menggunakan Rapid Miner adalah sebagai berikut : 1. Seluruh data training yang akan di proses oleh Rapid Miner disimpan terlebih dahulu di microsoft Excel dengan format.xlsx. adapun data training yang dimaksud penulis memberi nama data data testing.xlsx data tersebut nantinya akan dihitung menggunakan software aplikasi RapidMiner Buka aplikasi RapidMiner 9.0 dan akan muncul tampilan sebagai berikut :

54 Gambar Halaman Utama RapidMiner Selanjutnya pilih Blank lalu pilih menu add data lalu cari dimana data testing.xlsx berada pilih dan klik selanjutnya akan muncul kotak dialog select the cell to import pilih dan klik next. Gambar Halaman Select the cells to import data

55 2. Selanjutnya pada format your columns pada atribut terjual klik tanda panah kebawah lalu pilih change role lalu pilih label klik ok, klik next lalu klik finish Gambat kotak dialog import data 3. Drag data testing.xlsx pada menu repository yang sudah kita masukkan kedalam rapidminer, operator yang digunakan adalah split validation, operator tersebut berguna sebagai pengukur ke akuratan sebuah model yang sedang dijalanka.

56 Gambar Process Read excel 4. Kemudian didalam operator split validation terdapat process, pada process tersebut membutuhkan operator yang dapat menghasilkan tujuan pengujian. Karena pada penelitian ini menggunakan perhitungan algoritma C4.5 maka operator yang digunakan adalah operator decision tree yang digunakan untuk menentukan pohon keputusan, tambahkan juga apply model dan performance untuk mengetahui tingkat akurasinya. Pilih dan klik run.

57 Gambar Process Validation Evaluasi model dengan Confusion matrix Model Confusion matrix akan membentuk matrix yang terdiri dari true positif atau tupel positif dan true negatif atau tupel negatif. Keterangan : TP : True Positive TN : True Negative FP : False Positive FN : False Negative Berikut dibawah ini merupakan hasil dari Confusion matrix pada algoritma C4.5: a. Accuracy Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dari data yang tersedia, analisis menggunakan aplikasi Rapid Miner dengn penukuran Decision Tree didapatkan hasil dengan tingkat akurasi 94.44%. Perhitungan akurasi dilakukan dengan cara membagi jumlah data yang diklasifiasi secara benar dengan total data sample yang di uji.

58 Gambar Tabel Hasil Akurasi Data Testing Class Precission didapat dengan hasil prediksi sebesar % dan prediksi sebesar 90%. Presisi dapat diartikan sebagai kecocokan antara permintaan tersebut, jadi kecocokan anatara permintaan dan prediksi % dan kecocokan dengan prediksi adalah 90.00%. Recal didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersediadapat disimpulkan bahwa tingkt relevan True sebesar 88.89% dan True sebesar %. b. Recall Reacall dihitung dengan cara membagi data benar yang bernilai positif ( true positif) dengan hasil penjumlahan dari data benar yang bernilai positif (true positif) dan data salah yang bernilai negative (false negative). Dari data yang ada didapat hasil dengan tingkat pracission sebesar % seperti terlihat pada gambar dibawah ini Gambar Tabel Hasil Recall Data Testing Class Precission didapat dengan hasil prediksi sebesar % dan prediksi sebesar 90.00%. Presisi dapat diartian sebagai kecocokan

59 antara permintaan informasi dengan jawaban terhadap permintaan tersebut, jadi kecocokan antara permintaan dan prediksi adalah100.00% dan kecocokan dengan prediksi adalah 90.00%. Recal didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersediadapat disimpulkan bahwa tingkt relevan True sebesar 88.89% dan True sebesar %. c. Precision Nilai Precision dihitung dengan cara membagi data benar yang bernilai positif (true positif) dibagi dengan jumlah data yang bernilai positif (true positif ) dan data salah yang bernilai (false positif). Dari data yang ada didapat hasil dengan tingkat precission sebesar 90.00%. Seperti terlihat gambar dibawah ini Gambar Tabel Hasil Precision Data Testing Class Precission didapat dengan hasil prediksi sebesar % dan prediksi sebesar 90%. Presisi dapat diartikan sebagai kecocokan antara permintaan tersebut, jadi kecocokan anatara permintaan dan prediksi % dan kecocokan dengan prediksi adalah 90.00%. Recal didefinisikan sebagai rasio dari item relevan yang dipilih terhadap total jumlah item relevan yang tersedia. Jadi dari data yang tersediadapat disimpulkan bahwa tingkt relevan True sebesar 88.89% dan True sebesar %.

60 Gambar 4.19 Tree View RapidMiner 4.2 Pembahasan Hasil Pengujian Berdasarkan Hasil Pengujian yang telah dibuat maka dapat di ambil sebuah kesimpulan bahwa hasil pengujian sangat baik karena rule yang di hasilkan sama berdasarkan dua perhitungan manual dan rapid miner. a. Algoritma C.45 sangat efektif digunakan dalam memprediksi produk ter pada Deshop Cikarang. b. Pengujian prediksi produk ter dengan rapidminer menggunakan metode decision tree C.45, diperoleh akurasi sebesar 94.44% menggunakan confusion matrix.

Menunjukkan lagi